我们实际上等于把这一千人分成了两部分文字转WAV音频