所以几乎是处于文字转WAV音频