是在场能听得懂他在说什么的人文字转WAV音频