其实他们之前的分析是没错的文字转WAV音频