其实也有一些额外的因素在文字转WAV音频