也就是说基本上是由南向北的缓慢推进文字转WAV音频