我们需要熟悉一下周围的环境文字转WAV音频