他就是用简单的言语和动作文字转WAV音频