抓取提速策略_第1页
抓取提速策略_第2页
抓取提速策略_第3页
抓取提速策略_第4页
抓取提速策略_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2.4.92.4.9抓取提速策略抓取提速策略提速基本采用下面几种方法:提速基本采用下面几种方法: (1 1)提高抓取单个网页的速度)提高抓取单个网页的速度 (2 2)尽可能减少不必要的抓取任务)尽可能减少不必要的抓取任务 (3 3)增加同时工作的爬虫数量)增加同时工作的爬虫数量事实证明,受到万维网发展水平限制事实证明,受到万维网发展水平限制:第(第(1)种方法基本不可行,单个页面抓取速)种方法基本不可行,单个页面抓取速度受到下载带宽的限制,在现有技术条件下很度受到下载带宽的限制,在现有技术条件下很难任意提高;难任意提高; 第(第(2)种方法难度很大,由于需要和万维网)种方法难度很大,由于需要和

2、万维网的变化保持紧密同步,所以冗余的抓取总是不的变化保持紧密同步,所以冗余的抓取总是不可避免的,减少不必要的抓取会导致网页重访可避免的,减少不必要的抓取会导致网页重访不及时,这样就不能快速同步目标网页的变化;不及时,这样就不能快速同步目标网页的变化; 第(第(3)种方法通过增加爬虫数量提高总体抓)种方法通过增加爬虫数量提高总体抓取速度是可行的,目前广泛使用的是这种方法。取速度是可行的,目前广泛使用的是这种方法。 多爬虫合作抓取是目前主流搜索引擎抓取策多爬虫合作抓取是目前主流搜索引擎抓取策略之一。在多个爬虫抓取的情况下,如何将略之一。在多个爬虫抓取的情况下,如何将工作量分解成为主要的问题,即要解

3、决一个工作量分解成为主要的问题,即要解决一个网页交给那个爬虫抓取?如果分工不明,很网页交给那个爬虫抓取?如果分工不明,很可能多个爬虫抓取了相同的页,从而引入额可能多个爬虫抓取了相同的页,从而引入额外的开销。通常采用以下两种方法来进行抓外的开销。通常采用以下两种方法来进行抓取任务的分解:取任务的分解:(1 1)通过)通过webweb主机的主机的IPIP地址来分解,使某个地址来分解,使某个爬虫仅抓取某个地址段的网页爬虫仅抓取某个地址段的网页(2 2)通过网页的域名来分解,使某个爬虫紧)通过网页的域名来分解,使某个爬虫紧抓取某个域名段的网页抓取某个域名段的网页如何选择这两种方案?如何选择这两种方案?

4、万维网在网络基础设施中按照万维网在网络基础设施中按照IPIP地址来确定主机位地址来确定主机位置,置,IPIP地址为点分十进制数,难于记忆。由此采用地址为点分十进制数,难于记忆。由此采用了域名对了域名对IPIP地址进行一次映射,由于域名对人友好地址进行一次映射,由于域名对人友好,于是出现了一些问题,即存在多个域名对应同样,于是出现了一些问题,即存在多个域名对应同样的的IPIP的情况,对于中小网站来说,通常采用这种方的情况,对于中小网站来说,通常采用这种方法提供不同的法提供不同的WebWeb服务。这主要出于经济的考虑,服务。这主要出于经济的考虑,因为可以只配置一台服务器。而对于大型网站,如因为可以

5、只配置一台服务器。而对于大型网站,如新浪和搜狐这些门户网站通常采用负载均衡的新浪和搜狐这些门户网站通常采用负载均衡的IPIP组组技术,同样的域名对应于多个技术,同样的域名对应于多个IPIP地址,一方面提高地址,一方面提高系统健壮性,一方面做到了负载均衡。系统健壮性,一方面做到了负载均衡。鉴于多域名对应相同的鉴于多域名对应相同的IP和同域名对应多和同域名对应多IP的情的情况,通常的做法是按照域名分解任务。即只要保况,通常的做法是按照域名分解任务。即只要保证不重复抓取大型网站的网页,小型网站即便重证不重复抓取大型网站的网页,小型网站即便重复抓取也可以接受的策略分配任务。这种分配方复抓取也可以接受的

6、策略分配任务。这种分配方法将不同的域名分配给不同的爬虫抓取,某一个法将不同的域名分配给不同的爬虫抓取,某一个爬虫只抓取固定一个域名集合下的网页。爬虫只抓取固定一个域名集合下的网页。例如:例如:会固定交给会固定交给spider1抓取,抓取,会固定交给会固定交给spider2抓取,抓取, 会固定交给会固定交给spider3抓取等。抓取等。这两种方案的主要区别可以通过下面两个例子进一步理解。这两种方案的主要区别可以通过下面两个例子进一步理解。 假定假定和和是两是两个域名不同,但个域名不同,但IP相同的网站,假定为相同的网站,假定为10.10.67.208。有这样。有这样的两个网页,即的两个网页,即h

7、ttp:/ 首先假定有.N个爬虫可以并行工作,并且定义一个可以提取URL域名的函数,具体过程为: 对于任意的URL,利用。domain函数提取URL的域名;用MD5签名函数签名域名.MD5(domain(URL);将MD5签名值对n取模运算,intspider_no=MD5( domain(URL)%n;该URL分配给编号为spider_no的爬虫进行抓取。由于模运算可以实现将一个全集分成多个等价类,所以等价类的并集等于全集,且一个等价类中的元素必然不属于另一个等价类中。这种策略的好处在于每个爬虫的任务量尽可能地均匀分配,同一个域名必然只由一个爬虫抓取,所有爬虫的工作量组合就是全部的抓取任务。

8、在介绍了爬虫和调查员之后,已经能够完整地理解搜索引擎下载系统的体系结构,(如图2-15)。(1)调度员通过更新规则向URL请求一个URL取任务。(2)调度员计算出该URL,然后分配给编号为0的爬虫抓取。(3)爬虫0实际抓取的网页存放在Page库中。(4)爬虫0在抓取的网页中提取其他链接后反馈给调度员。(5)调度员判断网页类型,并设定初始更新时间等后存放在URL库中,继续转(1),周而复始。而在实际应用中,多采用多爬虫多调度员的体系结构,如图2-16。抓取的封闭性越强,对外的通信开销越小。如图,假如爬虫1从这个种子站点开始抓取,由于总是抓取的网页,而这些网页总是应该归属爬虫1抓取,一次不需要和其他爬虫通信(不需要经过总调度);反过来,如果抓取的封闭性差,表示可能抓到各种各

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论