主要重心是放在我们几个身上的文字转WAV音频