毕竟需要的是抓捕文字转WAV音频