要求我们能够抓住这个人文字转WAV音频