所以他只能够实话实说了文字转WAV音频