Web数据采集的关键技术(网页抓取策略)_第1页
Web数据采集的关键技术(网页抓取策略)_第2页
Web数据采集的关键技术(网页抓取策略)_第3页
Web数据采集的关键技术(网页抓取策略)_第4页
Web数据采集的关键技术(网页抓取策略)_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据采集与处理教学团队数据采集与处理Web数据采集的关键技术网页抓取策略深度优先遍历策略宽度优先遍历策略反向链接数策略大战优先策略OPIC策略PartialPageRank策略网页数据抓取策略(一)深度优先遍历策略深度优先遍历策略是指网络爬虫会从起始页开始,一个链接接着一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。GFABCDIHE网页数据抓取策略(二)宽度优先遍历策略(广度优先)数据抓取过程是一级一级的进行抓取,比如进入新浪网页时,会抓取新浪首页的所有链接,然后把所有的链接数提取出来,然后放到待抓取的URL库中,这是第一级,接着从这些待抓取的URL中再随机抽取一个页面,又把这个页面里的所有URL链接提取出来,然后放到待抓取的URL库中,这是第二级,依次类推,常见的数据采集设为三级。网页数据抓取策略(二)宽度优先遍历策略(广度优先)举个例子,我们假设爬虫的待抓取URL列表中,只有A,爬虫从A网页开始抓取,从A中提取了B、C、D网页,于是将B、C、D放入到抓取队列,再依次获得E、F、G、H、I网页并插入到待抓取的URL列表中,以此类推,周而复始ABCDEFGHI网页数据抓取策略(三)反向链接数策略假设把网页文档A中包含的指向B的链接命名为“A-B”,则对B来说这个“A-B”即为一个反向链接。对某个网页文档来说,所有来自其他文档指向自己的链接都叫“反向链接”。一个网页文档的反向链接越多,说明这个文档的“知名度”或“支持率”越高。网页数据抓取策略(四)PartialPageRankPageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎中的其他网页而言的重要程度。PageRank实现了将链接价值概念作为排名因素。网页数据抓取策略设定每下载3个网页进行新的PageRank的计算,此时已经有{1,2,3}3个网页下载到本地。这三个网页包含的链接指向{4,5,6},即待抓取URL队列,如何决定下载顺序?

将这6个网页形成新的集合,对这个集合计算的的PageRank的的值,这样4,5,6就获得自己对应的网页级别值,由大到小排序,即可得出下载顺序假设顺序为5,4,6,当下载5页面后抽取出链接,指向页面8,此时赋予8临时的PageRank值,如果这个值大于4和6的PageRank的,则接下来优先下载页面8,如此不断循环,即形成了非完全的网页级别的策略的计算思路。123654987已下载网页待下载网页未知网页网页数据抓取策略(五)OPIC策略该算法实际上也是对页面进行一个重要性打分,在算法开始前,给所有页面一个相同的初始现金(cash)。当下载了某个页面P之后,将P的现金分摊给所有从P中分析出的链接,并且将P的现金清空。对于待抓取URL队列中的所有页面安装现金数进行排序。网页数据抓取策略(六)大战优先策略

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论