基本上也就是分成了两部分文字转WAV音频