从方才众人进来时的表情判断文字转WAV音频