而是他们的能力和位置文字转WAV音频