我们判断存在的方式主要是视线文字转WAV音频