观察两人的动作和表情文字转WAV音频