其实本质上是一种召唤技能文字转WAV音频