他们基本上就会抓瞎文字转WAV音频