爬山虎采集器是一款可以获取网页内容的辅助程序,独创高速内核自研的浏览器内核,速度飞快,远超对手。包括单页应用,自动识别分页技术,通过算法智能识别、采集分页数据,混合浏览器引擎和HTTP引擎,兼顾了易用性和效率。这款工具能够帮助用户们一键快速提取各种网页上的数据,爬山虎采集器例如抓取JS内容、辅助淘宝网页内容、获取网页新闻、抓取图片、获取耐克商店图片等,也可以在设置界面上将图片禁止显示,欢迎来快盘软件园下载体验。
爬山虎采集器软件特点
1.可以在无图的模式下分析HTML网页
2.适用各种网站,能够采集互联网99%的网站,包括单页应用Ajax加载等等动态类型网站
3.向导模式,简单易用,轻松通过鼠标点击自动生成
4.支持在浏览器上访问HTML
爬山虎采集器软件特色
1.爬山虎采集器可以帮助您抓取网页上的内容
2.广告屏蔽,定制的广告屏蔽模块,兼容AdblockPlus语法,可添加自定义规则
3.智能识别,对于网页中的列表、表单结构(多选框下拉列表等)能够智能识别
4.多种数据导出,支持Txt 、Excel、mysql、SQLServer、SQlite、Access、网站等
爬山虎采集器软件亮点
1.一键提取数据,简单易学,通过可视化界面,鼠标点击即可抓取数据
2.修改数据处理的文本映射(支持查找替换)
3.爬山虎采集器也可以对打开的HTML查看
4.提供字段设置,可以显示多行字段
爬山虎采集器下载安装方法
从本站下载解压之后找到对应的“.exe”安装向导,双击运行。
2、进入软件安装向导后直接点击下一步。
3、软件默认安装在C盘,需要更改软件安装位置的朋友点击浏览选择安装位置即可。
爬山虎采集器使用说明
问:如何抓包获取Cookie,并且手动设置?
1.首先,使用谷歌浏览器打开要采集的网站,并且登陆。
2.然后按下 F12,会出现开发者工具,选择 Network
3.然后按下F5,刷新下页面, 选择其中一个请求。
4.复制完成后,在爬山虎采集器中,编辑任务,进入第三步,指定HTTP Header。
问:如何过滤列表中的前N个数据?
1.有时我们需要对采集到的列表进行过滤,比如过滤掉第一组数据(在采集表格时,过滤掉表格列名)
2.点击列表模式菜单中的,设置列表xpath
爬山虎采集器更新日志
修复探测文件名时的问题
完善csv的写入转义
5.0.0
修复cookie value逗号问题
增加补全图片相对地址功能
修复http请求br编码问题
增加ctrl+拖动 复制字段功能
修复文件名超长问题
2020/4/18
优化测试网址的逻辑