是根据出场顺序排序的文字转WAV音频