显然走廊的视频和滞留室里面的视频是经过剪接的文字转WAV音频