


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜索引擎中的网络蜘蛛技术探析
关键词:搜索引擎;网路蜘蛛;更新策略一网络蜘蛛工作原理网络蜘蛛,即搜索引擎机器人程序。将整个互联网想象成一张很大的蜘蛛网,而搜索引擎机器人程序通过链接来抓取信息的过程就像是蜘蛛在这张网上爬来爬去一样。网络蜘蛛是通过链接地址来寻找网页的。它由一个启始链接开始抓取网页内容,同时也采集网页上的链接,并将这些链接作为它下一步抓取的链接地址,如此循环,直到达到某个停止条件后才会停止。停止条件的设定通常是以时间或是数量为依据,有时也会以链接的层数来限制网络蜘蛛的运行。二网路蜘蛛与网站的交互问题网络蜘蛛访问一个网站,通常会去寻找一个特殊的文本文件Robots.txt,这个文件如果存在的话通常会放在网站的根目录下。它是专门用来同网络蜘蛛交互用的专用文件。它会将网站管理者的意思传递给访问它的网络蜘蛛,告诉网站同意或是禁止某些或是所有蜘蛛访问网站的某个特定的网页或者目录。它的结构和语法都比较简单,一般网络蜘蛛都可以很容易的理解网站的意思。正规的搜索引擎通过读取这个文件可以很方便的理解网站的意思并按照网站管理者的意思来进行友好的访问。但是这个仅仅只是网络的一个约定协议而以,并没有对其制定相应的强迫手段,更没有提出相应的惩罚,所以这个约定对于遵守者是有效的,但对于那些不懂生规矩的蜘蛛是一点作用都没有。在网页中的Meta字段同样也可以放入和上面文件相同效用的内容,它可以告诉网络蜘蛛这个网页对于网站管理者来说,是需要被收录还是仅仅被浏览或是根本就不允许蜘蛛访问。这个字段通常会放在文档的头部,通过读取这个字段,蜘蛛可以在没有读取到全部文档的情况下就了解文档的相关信息,可以避免将无效的网页取下来后又将其废弃而造成无谓的浪费。同样这个规则也是没有特殊限制的,遵守程度完全靠网络蜘蛛的自觉性和网站的设计方式来决定。为了让网站被搜索引擎搜索到,尤其是那些网站所有者希望网络蜘蛛采集的网页,网站的设计者通常会在网站中放入一个叫做sitmap.htm的网页,并将它作为网站的入口文件。三网络蜘蛛对于文件的处理(一)二进制文件处理网络上除了有大量的HTML文件和XML文件外,也有大量的二进制文件。为了使网页的内容更加丰富,图片和多媒体文件被网页大量的引用。它们在网页上也是以超链接的形式出现的,因而在链接提取的阶段它们也是会被放在待访问队列中。对于二进制文件通过文件的内容来完成文件的索引是不现实的,现在的技术还没有达到可以通过二进制文件来理解文件内容的地步。因而对于这些文件的处理一般是采用单独处理的方式,其内容的理解完全需要依靠二进制文件的锚点描述来完成。锚点描述通常代表了文件的标题或是基本内容。锚点信息一般是由引用网页来提供,而不是放在二进制文件本身。二进制文件由于种类的差别问题,也需要分别来进行处理。(二)脚本文件的处理这里说的脚本文件一般指的是包含在网页中的客户端脚本,它会在网页下载到客户端的时候才会运行,通常会在客户端上完成一些简单的交互工作。脚本文件一般会在网页中负责网页的显示工作,但由于ajax技术的广泛使用,它也会负责与服务器端的交互工作。由于脚本语言的多样性和复杂性,对它的分析处理无异于制作一个简单的网页解析程序。正是因为处理脚本文件相当困难,许多小规模的搜索引擎往往会直接省略对它的处理。但是由于现在网站设计者对于无刷新页面要求的提高和对ajax技术的大量使用,如果忽略了对它的处理将会是一项巨大的损失。(三)不同文件类型处理对于网页内容的提取分析一直是网络蜘蛛的重要技术环节。对于网上不同文件类型文件的处理,网络蜘蛛通常是采用插件的方式来处理。它会有一个比较智能化的插件管理程序负责管理不同的插件,对于需要处理的不同类型的文件,它会调用不同的插件来处理。之所以是采用插件的形式,主要是出于扩展性方面的考虑。互联网上有许多不同类型的文件,不同的文件需要完全不同的处理方式,而且这个网络是不断变化的,随时会有新文件类型出现的可能。而要完成对新类型的处理,最简单的方法就是给新类型编写新的插件,然后将插件直接交由管理程序来管理。同时这个插件的编写最好是由新文件格式的制造者自行完成,通常只有制造者才最了解新格式定义的意义。四网络蜘蛛的策略分析(一)搜索策略网络蜘蛛的搜索策略指的是如何根据抓取下来的URL地址来选择访问地址先后的一种标准或规则。它将指导蜘蛛程序下一步的执行方向。搜索策略一般有深度优先的搜索策略和广度优先的搜索策略两种。广度优先的搜索是最简便的图搜索算法,在数据结构上通常会以先进先出的队列结构为主,管理和实现起来都相当的简单,一般被认为是盲目的搜索。它是一种以搜索更多的网页为优先的一种贪婪的搜索策略。它会先读取一个文档,保存下文档上的所有链接,然后读取所有这些链接文档,并依次进行下去。这样做的好处是避免了在极短的时间内连续访问这台服务器上的文档的可能性,因为一个文档上的链接通常会有几个跳到别的服务器上,这样做十分有利于避免影响别的服务器工作。这种方法也通常被应用于聚焦爬虫中。其基本思想是认为与初始uRL在一定链接距离内的网页具有主题相关性的概率很大。同时它还可以使尽可能多的服务器有文档被索引服务器收集。它的缺点是很难深入到文档里面,而且随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率变得十分的低下。深度优先的搜索策略是以先进后出的栈方式来处理URL地址的。网络蜘蛛程序分析一个文档,并取出它的第一个链接所指的文档继续分析,然后如此继续下去。它的优点就是能够较好的深入和发掘站点的结构,而且这种算法十分稳定,效率方面也是有所保障的。它对于搜索部分小的网站是有好处的。它的缺点是十分明显的,不断的短时间的访问同一台服务器的问题将非常的严重,而且它还容易陷入无限循环的文档树,这种算法处理这个问题的能力相当的有限。将两种算法结合起来也是一种不错的办法,这两种算法互有长短,有些地方也可以形成互补。以一种算法为主,一种算法相辅的办法可以达到取长补短的效果。除了以上的算法之外,最好优先算法也经常被采用,它通过对采集的链接通过一些关于网页质量和效率的算法来排序,优秀者将优先被抓取。但是这个关于质量和效率的算法则又有许多不同的版本,在这里就不作详细的展开了。除去这些常用的算法,还有一些不常被人采用的优秀算法,如Hash算法,遗传算法等。(二)更新策略索引中大量的网页是很少变化的,对所有的网页按照同一频率统一更新是完全没有必要的。因而
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业自动化技术及设备
- 工作中的心理调适与减压方法
- 工业节能的途径与方法探讨
- 工业设备节能降耗的散热技术改进
- 工业风别墅设计思路分享
- 工作场所的安全管理与防护措施
- 工作报告编写技巧与方法
- 工厂设备维护与保养
- 工程设计原理与实践
- 工程经济分析与评价
- 中医讲高血压课件
- 电气二次故障分析、判断及处理技能培训课件
- 人教版小学六年级全册体育教案
- 跌倒风险评估量表细则
- 气血疏通中级班教材
- 青岛海明城市发展有限公司及全资子公司招聘笔试真题2022
- 北京市首都师范大学附属回龙观育新学校2025届数学高一下期末统考试题含解析
- 三年级下册语文单元字词专项练习-第1单元
- 鸟巢建筑分析
- 联合体施工组织设计审批流程
- 中华民族共同体概论课件专家版10第十讲 中外会通与中华民族巩固壮大(明朝时期)
评论
0/150
提交评论