他应该是利用了排除法文字转WAV音频