实际上是分成了三个部分的文字转WAV音频