基本上每一层都代表一个等级文字转WAV音频