也没有接受过多么正统的训练文字转WAV音频