爬虫软件集搜客使用方法_第1页
爬虫软件集搜客使用方法_第2页
爬虫软件集搜客使用方法_第3页
爬虫软件集搜客使用方法_第4页
爬虫软件集搜客使用方法_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

每周分享会——爬虫软件“集搜客”基本使用方法2024/7/27目录2024/7/271.学习爬虫软件的目的需求决定供给!在日常工作中,我们会与商务部同事进行客户需求对接,逐渐我们发现,现在许多行业/企业对数据的需求都强烈了起来。一些报告、方案或其他需求,都或多或少需要数据作为支撑。如“重庆地区白酒行业经销商数据”“贵州省某一个市区房地产数据”或者“当地烘焙、按摩企业相关数据”等。这就要求我们这些行研人,需要具备一些网络爬虫的基本技术,这样不但能减少部门对接的时间与不便,还能更好的对自己需要的数据进行把控。2024/7/272.软件的下载安装

集搜客爬虫作为Firefox火狐浏览器的扩展插件,是基于火狐浏览器环境开发的,针对不同版本的火狐浏览器,都有与之配套的集搜客爬虫版本,因此,请下载与当前火狐配套的集搜客采集软件。用火狐打开集搜客官网(/),点击“免费下载”,解压安装包zip后,把xpi文件拖动到火狐浏览器窗口里进行安装。第一次运行MS谋数台/DS打数机时,要登录才能正常使用。注意:没有账号的请先在官网注册一个账号,并且要通过邮箱验证才能正常使用。具体看下图2024/7/272024/7/272.软件的下载安装注意事项:为了获得集搜客爬虫软件的最优显示效果,建议电脑显示器分辨率在1280×1024以上。MS谋数台的功能较强大,界面略复杂,显示器的分辨率需在1280X1024以上才能完整展现操作界面。如果是笔记本电脑,使用效果不佳的话,可以通过调整工作台布局以获得更好的体验,操作:打开MS谋数台后,点击“配置”菜单->“界面布局”->“移动工作台”。2024/7/273.软件实操最后,将近期的一个与数据相关的需求为例,一步步讲解下,用集搜客在“大众点评”中爬取“广州地区,足疗按摩场所”数据的流程。1.请打开火狐浏览器,点击工具菜单栏,就会看到MS谋数台和DS打数机。2024/7/273.软件实操2、从网站搜取想爬虫的主题,如“广东足疗按摩”,将其网址进行复制。如下图所示:2024/7/273.软件实操3、将网址复制到MS谋数台的左上网址栏中,敲击回车如下图所示:2024/7/273.软件实操4、敲击回车,左上出现加载界面。等待完全加载完成后,出现如下画面。其中,红框部分叫做DOM界面,蓝框部分叫做HTML界面。二者需要互相配合使用。如下图所示:2024/7/273.软件实操5、主题名命名:在操作界面右侧,你需给本次任务进行命名,命名完成后,接着按键进行查重,如主题名不提示重复,可继续操作。蓝色框内的网址是网页加载完成后,由软件自动填上的。2024/7/273.软件实操6、主题名命名完成后,开始创立规则。点击创建规则,然后点击新建,给整理箱命名。2024/7/273.软件实操7、鼠标点击浏览器上需要的抓取内容,DOM界面就会相应定位到其对应的节点位置,即DOM界面黄色框内的指令即为浏览器中蓝色框内抓取的节点位置。图中橘黄色椭圆形框显示的是整理箱的名字。2024/7/273.软件实操8、选择节点下的TEXT节点,一般文本都存在text中,可从软件右部文本内容框内,查看此TEXT节点是否是对应的抓取内容文本。2024/7/273.软件实操9、对应好后,右击TEXT节点位置,选择内容映射,新建抓取内容为“店铺名称”,之后即可看到规则界面中列表整理箱中出现了店铺名称抓取内容,请看蓝框内显示。2024/7/273.软件实操10如果你还想抓取其他内容,如评分、地址、人均消费等,其他抓取内容创建方式与店铺名称方法相同。2024/7/273.软件实操11、之后可通过点击测试按钮,来对整理箱内抓取内容进行测试。2024/7/273.软件实操这样一个店铺的抓取信息就完成了。12、下面利用样例复制功能,开始对页面内多个店铺的信息进行抓取。从DOM界面向上级寻找,找到整个店铺的信息节点。点击DOM界面红色框内节点位置,下方浏览器中会有红框闪烁提示所选择区域。选择规则下的整理箱名称,并将样例复制中的启用打钩,开始样例复制过程2024/7/273.软件实操13、在对应节点上点击右键,选择“样例复制映射”选择第一个如下图所示:2024/7/273.软件实操14、选择后,样例复制管理处就会出现相对应的定位编码。刚才这个店铺信息作为样例一,接下来寻找同一级的DOM节点进行样例2的映射复制。如下图所示:2024/7/273.软件实操15、选择同一级LI节点,浏览器界面会自动弹到下一店铺信息上,右击选择“样例复制映射”选择第二个2024/7/273.软件实操16、对应的定位编码已经自动填到样例复制管理区中。如下图所示:2024/7/273.软件实操17、点击测试,整个页面的信息都会被抓取。如下图所示:2024/7/273.软件实操下面进行翻页处理。18、点选右侧爬虫路线标签进入到爬虫路线界面2024/7/273.软件实操19.点击新建,勾选连贯抓取,勾选记号线索。如下图所示:2024/7/273.软件实操20.然后点击浏览器下一页,在DOM界面找到对应的节点,寻找TEXT文件对应文本内容为“下一页”。右键选择线索映射中的记号映射。如下图所示:2024/7/273.软件实操21、选择好后,会自动填到记号值框内。并记录定位编号。如下图所示:2024/7/273.软件实操22然后从DOM界面向上找到整个翻页部分的节点位置,图中蓝框为浏览器中翻页内容的节点。点选蓝框中“DIV”,红框区域会有红框闪烁来定位。如下图所示:2024/7/273.软件实操23、此时,右键选择“线索映射”下的“定位”菜单下的“线索1”菜单。如下图所示:2024/7/273.软件实操24、选择后,定位编码会自动填选其定位编号如下图所示:2024/7/273.软件实操25、至此,可以存储规则,然后点击爬数据。如下图所示:2024/7/273.软件实操26、点击爬数据,进入DS打数机开始自动爬取数据。如下图所示:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论