在进行了二十分钟的拼装后文字转WAV音频