在确定了他们各自的位置后文字转WAV音频