当他们看到周围的环境时文字转WAV音频