这方案最核心的原则就是知识的分级文字转WAV音频