这就导致每一个组的人数都非常少文字转WAV音频