问题是他必须活抓两人文字转WAV音频