当然是以人数最多的那一方计算的文字转WAV音频