他只能使用最基本的文字转WAV音频