最终只能被动接受结果文字转WAV音频