都是对于他接下来将会说的每一句话的回答文字转WAV音频