这过程原本应该是漫长的文字转WAV音频