尽可能真实地还原了现场的情况文字转WAV音频