因为本身他们最先训练的就是逃跑手段文字转WAV音频