这样推理也是不对文字转WAV音频