拍摄的视频会扒成文字文字转WAV音频