他们就已经大幅减少了基础训练的时间文字转WAV音频