整个画面也从开始几句的虚拟景象和心里模拟返回到现实之中文字转WAV音频