




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选文档精选文档PAGEPAGE11精选文档PAGE八爪鱼收集过程中常出现的问题以及解决方法本教程主要讲的是若是你在使用八爪鱼收集时遇到一些问题,如何快速找出错误、解决错误也许如何认识错误、更好的和客服沟通的方法。八爪鱼收集器主要经过技术将用户阅读网页的操作进行定位和模拟来收集数据,用户不需要理解网页架构、数据收集原理等技术,经过八爪鱼收集器即可以构成八爪鱼能够看懂的、能够循环工作的收集流程。若是存在收集模式不满足需求的情况,排错后边有更加详细的教程。收集过程中出现的错误能够归类为五个方面,分别是网页问题、规则问题、定位模拟问题、收集器问题、以及云端问题。当收集出现异常时,请先依照以下流程进行
2、错误排查,搜寻问题种类:1、手动执行一遍规则:打开界面右上角的流程图,用鼠标点击流程图内规则,从上至下,每次点击下一步都有相应反响,没有发生反响的步骤则是问题出现步骤。注意点:1)循环内的点击以及提取元素要手动选择循环中除第一个以外的内容,防止循环无效,只点击提取循环内第一个元素2)所有规则每一步执行完才执行下一步,网页未加载完好,即阅读器上圆圈等待图标未消失时,观察网页内容可否加载完好,若是加载完好能够自行取消精选文档介绍加载,再配置规则。2、进行单机收集,查察收集结果中未收集到数据的项目。注意点:规则中最好加入当前网址,这样出现未收集到数据的项目,能够复制网址在阅读器中打开查察原因,确定错
3、误。下面分别将可能出现问题的现象表达以下,供你参照:1、手动执行步骤无反响可能现象有两种:1)未正常执行步骤原因:规则问题、收集器问题、定位模拟问题解决方法:可进行排查,删除该步骤,重新增加一遍,若是还是无法执行,则消除了规则问题,你能够:将该网页在阅读器打开进行操作,若是一些转动翻页或点击翻页在阅读器可以执行而收集器中不能够执行,则是收集器问题,原因是收集器内镶阅读器为火狐阅读器,可能是内镶的阅读器版本在随后的版本发生了变化,以致在阅读器能够实现的功能,在收集器内镶阅读器中无法执行,该类网页中的数据,智能收集翻页或转动从前的数据。消除了收集器问题及规则问题后,你能够试一试在与制作规则时同样布
4、局的页面进步行重新增加步骤,若是在这样的页面能够执行而只在部分页面无法执行,则是定位模拟问题,该问题常常存在于时间跨度较大的网站,原因是网站布局发精选文档介绍生变化,以致收集器定位所需的XPath发生变化,请参照XPath章节更正规则或咨询客服,建议向客服说明网站网址和错误原因,方便客服给出解决方案。八爪鱼收集器排错-图12)循环内的点击或收集只发生于第一条内容,点击第二条内容仍旧收集到第一条内容时原因:规则问题,定位模拟问题解决方法:查察循环中间的第一项为哪一项否勾选点击当前循环中设置的元素这一项若是勾选了仍旧不能够够,你能够:若是循环内有其他循环,先参照上问题1的动图将里面的内容移出去,删
5、除有问题的循环,重新设置一次,若是移出去的规则没有自动复位需要手动复位,若是循环能够使用则消除规则问题,若是不能够够,则是定位模拟问题,你能够:精选文档介绍查察循环中提取数据的自定义数据字段,查察自定义定位元素方式,看里面可否存在相对Xpath路径,若是不存在,则删除字段,勾选外层高级选项中的使用循环,并重新增加,再次试一试若是有反响,则问题获取解决,若是仍旧不能够,你能够:参照Xpath章节对网页Xpath进行更正或咨询客服,建议向客服说明网站网址和错误原因,方便客服给出解决方案。八爪鱼收集器排错-图22、单机收集采不到数据可能原因有4种:1)单机运行规则,数据还没采完便显示收集完成此种现象
6、分为3种情况打开网页后直接显示收集完成原因:网页问题,第一个网页加载过慢,八爪鱼会等待一段时间,超出必然时间还在加载八爪鱼就会跳过了这个步骤,后续步骤以为内容未加载出来采不到数据,八爪鱼就结束了任务,造成收集不到数据。精选文档介绍解决方法:将网页的超时时间加长,也许在下一个步骤设置执行前等待,让网页有足够长的时间加载。八爪鱼收集器排错-图3八爪鱼收集器排错-图4网页素来处于加载状态原因:网页问题,有些网页的加载会很慢。想要收集的数据没有出现。精选文档介绍解决方法:若是当前步骤是打开网页步骤,能够将网页的超时时间加长。如果是点击元素步骤,而且要收集的数据已经加载出来的时候,能够在点击元素步骤设置
7、ajax延时,点击了此后有新数据加载出来而网页网址没有变化的为ajax链接,八爪鱼收集器排错-图5网页没有进入收集页面原因:该问题常常是出现在点击元素步骤。有些网页中含有ajax链接时,依照点击地址判断可否需要设置。若是没有设置,在单机收集时会素来卡在前一个步骤,收集不到数据。当网页为异步加载时,没有设置ajax延时的话,操作一般不会正确执行,以致规则无法进行下一步,提取不到数据。解决方法:在相应步骤设置ajax延时,一般是2-3S,若是网页加载时间较长,能够合适增加延时时长。点击元素,循环下一页、搬动鼠标到元素上,这三个步骤中都有ajax设置精选文档介绍2)单机运行规则,无法正常执行原因:规
8、则问题或定位模拟问题解决方法:第一判断ajax可否需要设置以及可否设置正确,若是不是ajax问题,你可以:将出现问题的步骤删除并重新设置一遍,若是问题解决则为规则问题,若是问题没有解决,则为定位模拟问题,你能够:参照Xpath章节对网页Xpath进行更正或咨询客服,建议向客服说明网站网址和错误原因,方便客服给出解决方案。3)单机运行规则,第一条或第一页数据正常,后边无法执行原因:规则问题-循环部分出现了问题解决方法:参照手动执行第二条内容。4)单机运行规则,漏采也许错采数据此种现象分5种情况:精选文档介绍部分字段没有数据原因:网页内该项数据为空、模拟订位问题解决方法:查察没有字段的链接,用阅读
9、器打开若是确实没有字段,则没有问题,若是阅读器打开有内容,则为模拟订位问题,你能够:参照Xpath章节对网页Xpath进行更正或咨询客服,建议向客服说明网站网址和错误原因,方便客服给出解决方案。收集数据数量不对原因:规则问题-循环部分出现了问题解决方法:参照手动执行第二条内容收集数据错乱,不是对应信息原因:规则问题-提取步骤过多,网页加载时间过长,若是设置ajax去忽略加载就有可能造成多个提取步骤中的某些因内容没加载出来或加载不完好出错。解决方法:将规则分为两步,若是收集谈论网页数据,第一步是收集当前页面信息和谈论页面的URL,第二步是循环URL收集谈论数据,后续将导出数据在excel、数据库
10、中般配办理。字段出现在不同样地址原因:网页问题-Xpath变化解决方法:参照Xpath章节对网页Xpath进行更正或咨询客服,建议向客精选文档介绍服说明网站网址和错误原因,方便客服给出解决方案。数据重复原因:网页问题-Xpath定位问题,问题主要出现在翻页处,比方只在一二页循环,也许最后一页的下一页按钮仍旧能够点击。解决方法:参照Xpath章节对网页Xpath进行更正或咨询客服,建议向客服说明网站网址和错误原因,方便客服给出解决方案。3、单机收集正常,云收集没有数据此种现象分4种情况:1)网页问题-封IP原因原因:大多数存在封IP措施的网站八爪鱼能够解决,极少许网站采用极其严格的封IP措施,这
11、部分会以致云收集收集不到数据。解决方法:若是是单机收集能够使用代理IP功能,详细操作查察代理IP教程。若是是云收集能够分配给任务多个节点,并使多个节点悠闲,防备任务在同一个云端同一个IP上收集。2)云端问题-云服务器带宽较小原因:云端带宽较小,造成当地打开缓慢的网站在云端打开更加漫长,一旦超时就会打不开网站也许加载不出来数据造成跳过此步骤。精选文档介绍解决方法:把打开网址的超时时间也许下一步的执行前等待时间设置久一些。3)规则问题-增量收集原因:规则设置了增量收集,增量收集依照URL判断可否收集过,部分网页使用增量采会合以致增量判断失误跳过了该网页。解决方法:关闭增量收集。4)规则问题-禁止阅读器加载图片和云收集不拆分任务原因:存在极少许网页不能够够勾选禁止阅读器加载图片与云收集不拆分任务解决方法:取消勾选相关选项。若是出现更多问题,欢迎在官网也许向客服进行反响,感谢您的支持。相关收集教程:天猫商品信息收集美团商家信息收集赶集招聘信息收集八爪鱼70万用户选择的网页数据收集器。1、操作简单,任何人都能够用:无需技术背景,会上网就能收集。完好可视化流程,点击鼠标完成操作,2分钟即可快速入门。精选文档介绍2、功能富强,任何网站都能够采:对于点击、登陆、翻
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论