情况就不太一样了……结合当时的情境文字转WAV音频