这个基础就是建立在镜之界上文字转WAV音频