版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主讲教师:毛凌志浙江经贸职业技术学院数据采集与处理八爪鱼简易采集案例导入采集工具实际操作010203总结04案例导入
小明的领导让小明将在京东上热销电脑品牌的数据统计好交给他,小明看着电脑一脸发愁,想着那么多数据,总不能一条一条手动输入吧,这得统计到猴年马月啊!小明思索了好一会决定求助他的朋友,他的朋友是程序员,他朋友则建议小明使用当下比较简单操作的八爪鱼采集器,那么接下来我们学习八爪鱼采集器。采集工具——八爪鱼采集器本次采集选择八爪鱼采集器,以采集京东、天猫搜索结果页为例,这里以关键词“电脑”为例,我们可以得到我们想要的数据,比如:价格、电脑标题等,这些数据我们后续可以导出作为我们想要参考的数据,这样我们就不用大费周章的进行记录比较,而八爪鱼采集器相对新手来说比较简单易懂,所以这次案例选择它来作为我们的采集器。八爪鱼工具介绍:/item/%E5%85%AB%E7%88%AA%E9%B1%BC%E9%87%87%E9%9B%86%E5%99%A8/18090835?fr=aladdin第一步,新建任务以关键词“电脑”为例
将网页链接复制粘贴到八爪鱼,点进行保存设置后,击开始采集,可以自行设置字段采集,目前是最初的多字段采集/Search?keyword=%E7%94%B5%E8%84%91&enc=utf-8&pvid=47bd1c8a84014e62a17717b4b22e9e44第二步,生成设置点击确认之后,会自动对该网页进行自动滚动识别我们点击自动识别后这里可以直接点击生成采集设置,也可以修改你想要取得的字段第三步,采集方式“生成采集设置”后,再点击左上角的“保存”后点击“采集”,我们通常选择“本地采集”,这里也是这样,选择完毕后就可以网页自动采集了(这里如果没有设置翻页则会无限采集下去,直到采集完毕)第四步,自动采集点击“开始采集”后(这里是基础的多字段采集,没有进行字段设置)第五步,采集结果因没有设置翻页限制,所以八爪鱼会自动帮我们采集到最后一页,但因数据太多,这里手动点击“停止采集”第五步,采集结果之后我们可以点击“导出数据”第六步,导出格式采集数据结果每个人导出的数据都不一样,主要取决于对字段的设置总结根据前面的步骤演示,我们可以对京东、天猫等网页进行数据采集,该次采集了以关键词“电脑”为例的数据采
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论