根据那两个人的样子再去确定那两个人的身份文字转WAV音频