将两人每一个动作的优劣之处分辨出来文字转WAV音频