所以他能想象得出这里经历了什么样的场景文字转WAV音频