可能需要经过处理才能判断出他们到底在谈论的是什么文字转WAV音频