只是把话语换成了影像罢了文字转WAV音频