可能会说少量人类的语言文字转WAV音频