一直都采用后者的方法文字转WAV音频