而是只先把他们抓住文字转WAV音频