其实只是表面上镇定文字转WAV音频