而他现在要做的就是挖掘到这第三层的结构空间去文字转WAV音频