第三阶段是要做出三维结构的文字转WAV音频