更多的是用他们本来的方式来处理文字转WAV音频