其实两人就是起到中间商的作用文字转WAV音频