他们要做的就是放技能输出文字转WAV音频