推衍出当时发生的情景文字转WAV音频