他正在根据上半场所观察到的结果文字转WAV音频