然后开始了他们的训练任务文字转WAV音频