显然没有将自己所说的话放在眼内文字转WAV音频