方圆数十米中所有人的动作都一一分析文字转WAV音频