主要还是继承和吸收了文字转WAV音频