他是根据事实去推断的文字转WAV音频