但是仅仅只是吸出了一成左右文字转WAV音频