第一层是符种基础文字转WAV音频