那就是从上到下的学习文字转WAV音频