其实是接受一次灌顶文字转WAV音频