而是根据能杀掉什么层次的对象决定文字转WAV音频