版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
~^^八爪鱼爬虫原理详解大家都知道八爪鱼采集器可以抓取网页数据,云采集还可以有加速的效果,但是你知道八爪鱼的爬虫云加速的原理是什么吗?下面就跟随小八了解一下强大的云采集爬虫原理吧!对于旗舰版以上的用户,可以通过云采集实现多任务并发和单任务加速的采集效果,以便用户快速的收集整理互联网公开数据。本教程主要讲八爪鱼爬虫云采集原理、规则加速设置。一、云采集原理—个规则任务进行云采集最少占用一个云节点,最多可以占满所有云节点—个规则任务满足可拆分成子任务的情况下,最多拆成199个子任务一个子任务占用一个节点,子任务全部执行完成意味着任务完成一个规则任务拆成多个子任务分配到不同云节点就达到加速采集的效果如果云节点被占满,那么新启动的任务或被拆分的子任务会进入等待队列,直到用户某个云节点执行完用户的某个任务释放出节点资源,
八爪鱼•云采集服务平台八爪鱼•大数据八爪鱼•云采集服务平台八爪鱼•大数据让数据触手可及图1云采集运行中如图红线处任务分配到云节点,多任务并发采集数据,如图红框处,由于节点被占满,只能进入等待队列,等待某个云节点执行完成后释放资源。二、云采集加速设置由云采集原理D可知,如果要一个任务加速采集的效果,那么这个任务要满足拆分条件或者将任务改成满足拆分条件的任务,这样才能达到单任务加速的效果。满足拆分条件的任务分别为:URL列表循环文本列表循环八爪鱼•云采集服务平台八爪鱼大数据 履数据触手可及固定元素列表循环1、URL列表循环、文本循环示例网址:/search/category/15/30对于非AJAX网站,以大众店铺为例,假设我要采集该网站所有分类下的店铺,那么我们可先采集分类的URL,然后做URL循环进行采集店铺信息,具体步骤如下:步骤1:以先将所有具体分类采集下来,如图2采集点评分类URL图2采集点评分类URL小贴士采集完分类的URL后,我们就可以将这个URL作为URL循环进行数据提取,这样的话,通过八爪鱼自动拆分任务,就可以将不同的URL拆分成不同的子任务分配给不同的云节点进行数据采集,达到单任务加速的采集效果
八爪鱼•云采集服务平台八爪鱼大数据 签数据触手可及步骤2:通过步骤1的采集,将URL建立URL循环进行数据采集,具体如截图3URL循环列表图3URL循环列表采集步骤3:对比效果,如图4本机采集和URL循环列表云采集采集效率对比图4云采集采集速率小贴士云采集除了采集效率比本机采集高之外,还能节省用户自身电脑与网络资源,与本地采集消耗用户本地电脑资源和网络资源相比,云采集所用资源都是云节点资源,用户启动云采集后就可关闭客户端,八爪鱼会自动将数据整理汇总在八爪鱼客户端,用户只需要在数据提取到后,通过客户端查看或导出数据即可结语:URL循环的教程已经讲完,对于文本循环来说,原理和URL循环一致,通过对文本循环的拆分,达到单任务加速采集的效果,从而提升采集速率2、固定元素列表循环固定元素列表循环也是满足拆分条件的,需要的是固定元素列表循环点击配合一起使用,固定元素列表例如:让数据触手可及图5固定元素列表-点击元素但是下列i情况是不会加快采集速率的,例如:让数据触手可及图6固定元素列表-提取数据原因是因为固定元素列表-提取数据虽然可以拆分成子任务,但是因为提取同页面数据操作本身很快,所以几乎没有任务加速效果例如:子任务A:打开网页(20s)-提取位置a数据(0.1s)子任务B:打开网页(20s)-提取位置b数据(0.1s)子任务C:打开网页(20s)-提取位置c数据(0.1s)子任务N:打开网页(20s)-提取位置n数据(0.1s)如上例,虽然拆分了任务但是实际任务执行时间还是约等于21秒左右,和不拆分任务的时间比较的如下:总任务S:打开网页(20s)提取位置a数据(0.1s)提取位置b数据(0.1s)提取位置c数据(0.1s)提取位置n数据(0.1s)此时我们可以看到,不拆分的时间T=20+0.1*10=21S所以虽然此时我们用不固定元素拆分了任务,但是没有带来显著的提取数据效率的提升对于固定元素列表-点击元素就不一样了,因为点击元素往往都要打开详情页,例如:子任务A:打开网页(20s)-点击位置元素a(20s)-提取位置a数据(0.1s)子任务B:打开网页(20s)-点击位置元素b(20s)提取位置b数据(0.1s)子任务C:打开网页(20s)-点击位置元素c(20s)-提取位置c数据(0.1s)子任务N:打开网页(20s)-点击位置元素n(20s)n--提取位置n数据(0.1s)由于是子任务是同时执行的,此时时间T=20+20+0.1=40.1S,约41秒左右固定元素列表-点击元素,不拆分任务时的时间比较如下:总任务S:打开网页(20s)点击位置元素a(20s)-提取位置a数据(0.1s)点击位置元素b(20s)-提取位置b数据(0.1s)点击位置元素c(20s)-提取位置c数据(0.1s)点击位置元素n(20s)-提取位置n数据(0.1s)此时我们可以看到,不拆分的时间T=20+(20+0.1)*n当n=10时,T=221S,与拆分的41S比较,耗时几乎是拆分的5倍综上所述:满足拆分条件的任务分别为:URL列表循环文本列表循环固定元素列表循环相关采集教程:八爪鱼使用功能点视频教程/tutorial/videotutorial/videognd八爪鱼爬虫软件入门准备/tutorial/xsksrm/rmzb八爪鱼数据爬取入门基础操作/tutorial/xsksrm/rmjccz八爪鱼网站抓取入门功能介绍/tutorial/xsksrm/rmgnjs八爪鱼爬虫软件功能使用教程/tutorial/gnd八爪鱼分页列表详细信息采集方法(7.0版本)八爪鱼•云采集服务平台八爪鱼大数据 让数据触手可及/tutorial/fylbxq7八爪鱼7.0版本网页简易模式简介以及使用方法/tutorial/jyms八爪鱼7.0版本向导模式简介以及使用方法/tutorial/xdms八爪鱼——百万用户选择的网页数据采集器。1、 操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。2、 功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物流服务合同书范本特点
- 经典企业保证书案例
- 应聘者责任承诺
- 电动液压车采购协议
- 个人信誉承诺书
- 预售房屋买卖合同范本
- 沙石料销售购销协议
- 小产权房房屋交易合同模板
- 廉洁招标保证书
- 高性能笔记本采购合同
- 环境、健康、安全施工管理体系及职责
- 三年级下学期科学教学工作总结
- 2024年社区警务规范考试题库
- 2024年7月国家开放大学法学本科《知识产权法》期末考试试题及答案
- 建设工程计价-001-国开机考复习资料
- 2022年全国应急普法知识竞赛试题库大全-中(多选题库-共2部分-1)
- 神经病学运动系统
- 北京市西城区2022-2023学年六年级上学期数学期末试卷(含答案)
- 2024秋期国家开放大学本科《经济学(本)》一平台在线形考(形考任务1至6)试题及答案
- 抵押贷款行业可行性分析报告
- 小品剧本《钱多多银行》台词完整版今夜现场秀佟铭心
评论
0/150
提交评论