应该是提前场的初步统计数据到了文字转WAV音频