估计为了抓住我们文字转WAV音频