每个大组使用两个场地文字转WAV音频