然后在人群中分辨着文字转WAV音频