所以……系统用这些数据去生成剧本文字转WAV音频