他也只能通过口型来辨认文字转WAV音频