毕竟整个模型都是建立在这种粒子存在的基础上的文字转WAV音频