第一阶段只是在各自寻找目标人物文字转WAV音频