在五个人的体型和高矮上分辨出来了文字转WAV音频