我们也需要先恢复性训练一下的文字转WAV音频