它应该是通过听觉和嗅觉来判断目标的文字转WAV音频