这就说明了它们受训练的情况文字转WAV音频