但是却准确的捕捉到了重点文字转WAV音频