之所以能确定是那些人而不是那个人是因为从之前的损失状况来看文字转WAV音频