只能从一些肢体动作中猜测大致意思文字转WAV音频