显然是在分配等下两人的演唱部分文字转WAV音频