两人自动的过滤掉了文字转WAV音频