就是通过看别人说话的嘴唇和动作来解读他话里的内容文字转WAV音频