《各平台数据采集及方法》课件-银保监官网政策公告采集_第1页
《各平台数据采集及方法》课件-银保监官网政策公告采集_第2页
《各平台数据采集及方法》课件-银保监官网政策公告采集_第3页
《各平台数据采集及方法》课件-银保监官网政策公告采集_第4页
《各平台数据采集及方法》课件-银保监官网政策公告采集_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

银保监官网

政策公告采集官网政策公告采集采集场景进入中国银行保险监督管理委员会【新闻资讯】版块下的【监管动态】栏目,进入每条监管动态详情,采集其详情页信息。采集字段当前位置、标题、标题链接、发布时间、来源、正文、当前采集时间。采集背景官网政策公告采集

在首页【输入框】中输入目标网址,点击【开始采集】,八爪鱼自动打开网页。步骤一打开网页官网政策公告采集

1、建立【循环-点击元素】,进入每条监管动态的详情页通过以下3步,实现循环点击每个链接,进入详情页:①选中页面上第1条监管动态链接(注意一定要选中链接)②点击【循环点击每个链接】,进入第1条监管动态的详情页

步骤二、建立【循环-点击元素】,进入每条监管动态的详情页官网政策公告采集

2、修改【循环-点击元素】Xpath为了精准定位到所有的监管动态链接,需修改一下【循环翻页】的XPath。进入【循环翻页】设置页面,选择【循环方式】为【不固定元素列表】,修改XPath为://span[@class="title"]/a,然后点击【应用】保存。改完后,再次点击【点击元素】步骤,进入问题详情页。

步骤二、建立【循环-点击元素】,进入每条监管动态的详情页官网政策公告采集步骤三、提取详情页中的文本字段

进入详情页后,选中页面中的文本,然后在操作提示框中,点击【采集该元素文本】。文本类字段都可以按照这样的方式提取。示例中我们提取了当前位置、发布时间、来源、标题、正文等字段。。官网政策公告采集步骤四、编辑字段。1、编辑字段在【当前页面数据预览】面板中,可删除多余字段,修改字段名,移动字段顺序等,请按需调整官网政策公告采集步骤四、编辑字段。2、修改字段XPath针对【正文】这个字段,默认生成的字段XPath,无法精准定位到所有监管动态的正文内容,需手动修改。进入【提取列表数据】步骤设置页面,修改正文XPath为://div[@class="Section0"]官网政策公告采集步骤四、编辑字段。3、格式化字段格式化数据,对【当前位置】、【发布时间】和【来源】字段进行格式化数据,去除多余内容。具体步骤如下图所示:官网政策公告采集步骤五、创建循环翻页。1、创建循环翻页如果只是采集一页数据,可跳过此步骤。如果需要翻页以采集多页数据:①先点击流程中的【循环列表】步骤,以回到列表页(如果已在列表页可直接继续操作)②再选择页面中的【下一页】按钮,在操作提示上单击【循环点击下一页】,创建【循环翻页】。

官网政策公告采集步骤五、创建循环翻页。2、设置执行前等待时间①进入【循环翻页1】设置页面,设置【执行前等待】3s②进入【点击翻页1】设置页面,设置【执行前等待】3s和【Ajax超时】7s官网政策公告采集1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。步骤六、启动采集官网政策公告采集2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论