拍摄时确实是现场录音文字转WAV音频