所以他们要提前两分钟发动文字转WAV音频