它也未必懂我们的语言文字转WAV音频