从他们各自的表情动作以及站位文字转WAV音频