最好是将之完全记住文字转WAV音频