所以他必须要综合权衡文字转WAV音频