唯一不同的就是他正在做的事情文字转WAV音频