确实很难承受文字转WAV音频