而首先考虑的是平衡文字转WAV音频