所以他要尽可能在最短的时间内清理出异已文字转WAV音频