他还是从几人侧听的方式判断出文字转WAV音频