采用的是分区域防御的法子文字转WAV音频