每一层都有自己的视角和认知文字转WAV音频