并且与每个人交手的时间几乎都是固定的文字转WAV音频