八爪鱼自定义采集(市一等奖)_第1页
八爪鱼自定义采集(市一等奖)_第2页
八爪鱼自定义采集(市一等奖)_第3页
八爪鱼自定义采集(市一等奖)_第4页
八爪鱼自定义采集(市一等奖)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲教师:毛凌志浙江经贸职业技术学院数据采集与处理八爪鱼自定义采集案例导入自定义采集的介绍案例实操0102031、案例导入小明是一家数据咨询公司的员工,最近他接到了上司给他分配的一个任务,他的上司想了解一下商务数据分析专业在杭州本地的工作招聘领域需要有多大,所以小明想通过在拉勾网上搜集一些招聘信息来作进一步分析,但奈何大量的数据分析处理起来十分繁琐,有什么办法可以有效地提高小明的工作效率呢?2、自定义采集的定义自定义采集指的是取消八爪鱼对网页的自动识别,改为自己手动对要采集的网页进行相关的设置操作。自定义采集相比较简易采集使得我们对自己整个采集的步骤更加的清楚,可以明确每个步骤的目的,出现了相应的问题也可以更快地找出解决。爬取的方式更灵活,爬取的数据更加全面。3、案列实操

打开网页将网址复制到八爪鱼取消自动识别手动设置所需信息开始采集数据导出数据1546233.1、打开网页

举个例子,假如我们要在拉勾网上找工作,也就是找一个职务,我们可以进入拉勾网后,点击职位,如下图。3.2、将网址复制到八爪鱼

然后把该页的网址/zhaopin/复制,粘贴到八爪鱼首页输入网页的地方,然后点击“开始采集”八爪鱼就会打开这张网页开始进行自动识别网页内容的操作,这时候我们可以在黄色的方框里点击“取消识别”(如下图):3.3、取消自动识别

3.4、手动设置所需信息

左侧会出现一张流程图(如下图),流程图的内容就是我们要在这张网页上进行的一系列操作,现在我们可以来手动设置要爬取与职务相关的内容的一系列操作接下来如果对我们所要找的职务有什么需求的话也进行选择,例如我想在杭州工作,那么我就需要找工作地点是在杭州的职务,那我就点击一下杭州,然后在右边的黄色框中选择“点击该链接”。3.4、手动设置所需信息

这样我们就可以选出我们要爬取的内容了,首先,我们先任意点击一个我们要爬取的内容,比如职务的名称我们是要的,那我们(如下图)就点击一下这个“嵌入式系统开发”。3.4、手动设置所需信息

接着再依次选出其他各项我们要爬取的内容,如该工作具体在杭州哪个地区、是什么公司的、工资、对学历的要求等等内容,选取完毕之后点击“采集数据”;3.5、开始采集数据

之后我们可以给每个选取出的字段改一下名,让我们更方便地弄清这分别代表什么内容,我们可以点击流程图中的“提取列表数据”右边的设置按钮。3.5、开始采集数据

3.5、开始采集数据

编辑好每个字段代表的内容方便我们查看(如下图),之后点击应用3.5、开始采集数据所要爬取的职业有很多,在这页中无法完全显现,所以我们还要给它进行一个翻页的设置,具体操作是我们将网页下拉,点击“下一页”,然后告诉它我们的操作是“循环点击下一页”3.5、开始采集数据

在流程图中点击“点击翻页”右边的设置按钮,将其中的“页面加载后”这一项设置成如下图所示,点击应用3.6、导出数据之后即可开始本地采集,然后去除重复数据后进行导出3.6、导出数据导出数据的方式可以有Excel、CSV等格式可选,最常用到的导出格式是Excel,也可选择其他格式导出。3.6、导出数据开始采集之后是无限采集下去的,有多少页都会采到采完为止,如果我们不需要过于多条的内容的话,停止的办法有两个:一是自己点击停止采集,即停止采集了;二是可以在流程图中的“循环翻页”右边的设置里面,有一个“退出循环设置”项,循环执行的次数就是要采集的页数。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论