画面中是之前录制的一段影像文字转WAV音频