还有周围化境动静也能分析出他在干什么文字转WAV音频