搜索引擎中网络爬虫的设计分析_第1页
搜索引擎中网络爬虫的设计分析_第2页
搜索引擎中网络爬虫的设计分析_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎中网络爬虫的设计分析

1)网络爬虫高度可配置性。2)网络爬虫可以解析抓到的网页里的链接3)网络爬虫有简单的存储配置4)网络爬虫拥有智能的根据网页更新分析功能5)网络爬虫的效率相当的高那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢?1)url的遍历和纪录这点larbin做得非常的好,其实对于url的遍历是很简单的,例如:cat[whatyougot]tr\"\\ngawk'{print$2}'pcregrep^http://就可以得到一个所由的url列表2)多进程VS多线程各有优点了,现在一台普通的PC例如一天可以轻松爬下5个G的数据。大约20万网页。3)时间更新控制最傻的做法是没有时间更新权重,一通的爬,回头再一通的爬。通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍。如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。注意,效率是取胜的关键之一。4)爬的深度是多少呢?看情况了。如果你比较牛,有几万台服务器做网络爬虫,我劝您跳过这一点。如果你同我一样只有一台服务器做网络爬虫,那么这样一个统计您应该知道:网页深度:网页个数:网页重要程度0:1::101:20::82::600::53::2000::24above:6000:一般无法计算好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。5)爬虫一般不之间爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到header的tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。apachewebserver里面纪录的304一般就是被cache的了。6)请有空的时候照看一下robots.txt7)存储结构。这个人人见智,google用gfs系统,如果你有7/8台服务器,我劝你用NFS系统,要是你有70/80个服务器的话我建议你用afs系统,要是你只有一台服务器,那么随便。给一个代码片断,是我写的新闻搜索引擎是如何进行数据存储的:NAME=`echo$URLperl-p-e's/([^\w\-\.\@])/$1eq"\n"?"\n":sprintf("%%%2.2x",ord($1))/eg'`mkdir-p$AUTHORnewscrawl.pl$URL--user-agent="+(+)"-outfile=$AUTHOR/$NAME特别是注意以下几句:1.通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍,如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行,爬取次数越多意味着网页收录几率会越大、收录数量越多,收录是SEO最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论