网络爬虫技术_第1页
网络爬虫技术_第2页
网络爬虫技术_第3页
网络爬虫技术_第4页
网络爬虫技术_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络爬虫技术网络机器人1.概念:它们是Web上独自运行的软件程序,它们不断地筛选数据,做出自己的决定,能够使用Web获取文本或者进行搜索查询,按部就班地完成各自的任务。2.分类:购物机器人、聊天机器人、搜索机器人(网络爬虫)等。搜索引擎1.概念:从网络上获得网站网页资料,能够建立数据库并提供查询的系统。2.分类(按工作原理):全文搜索引擎、分类目录。1>全文搜索引擎数据库是依靠网络爬虫通过网络上的各种链接自动获取大量网页信息内容,并按一定的规则分析整理形成的。(百度、Google)2>分类目录:按目录分类的网站链接列表而已,通过人工的方式收集整理网站资料形成的数据库。(国内的搜狐)网络爬虫1.概念:网络爬虫也叫网络蜘蛛,它是一个按照一定的规则自动提取网页程序,其会自动的通过网络抓取互联网上的网页,这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然,更为高级的技术是把网页中的相关数据保存下来,可以成为搜索引擎。搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告诉它,也可以到一些网址列表网站上获取。2.区别:网络爬虫分类通用爬虫聚集爬虫工作原理从一个或多个初始网页的URL开始,获取初始网页的URL,抓取网页的同时,从当前网页提取相关的URL放入队列中,直到满足程序的停止条件。根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接(爬行的范围是受控的)放到待抓取的队列中,通过一定的搜索策略从队列中选择下一步要抓取的URL,重复以上步骤,直到满足程序的停止条件。不同点增加了一些网页分析算法和网页搜索策略对被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。缺点不同领域、不同背景的用户有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。通用引擎的目标是大的网络覆盖率。只支持关键字搜索,不支持根据语义的搜索。通用搜索引擎对一些像图片、音频等信息含量密集且具有一定结构的数据无法获取。对抓取目标的描述或定义。对网页和数据的分析和过滤。对URL的搜索策略。以上三个是需要解决的问题。算法广度优先算法现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为:(1)预先给定的初始抓取种子样本;(2)预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等; (3)通过用户行为确定的抓取目标样例,分为:a)用户浏览过程中显示标注的抓取样本;b)通过用户日志挖掘得到访问模式及相关样本。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。3.算法/策略名称网页分析算法网页搜索策略分类1.基于网络拓扑结构1>网页粒度分析算法2>网站粒度分析算法3>网页块粒度分析算法2.基于网页内容1>针对以文本和超链接为主的网页2>针对从结构化的数据源动态生成的网页。3>针对数据介于第一类和第二类之间3.基于用户访问行为1.深度优先策略2.广度优先策略3.最佳优先策略一些算法的介绍1>网页分析算法的网站,这样的网站已经涵盖了大部分高质量的站点,爬虫程序就沿着这些链接爬行。在爬行过程中,最重要的就是判断一个网页是否已经被爬行过。

在爬虫开始的时候,需要给爬虫输送一个URL列表,这个列表中的URL地址便是爬虫的起始位置,爬虫从这些URL出发,开始了爬行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论