最后的问题还是归结到他们三个身上面文字转WAV音频