其实是实质化的能量文字转WAV音频