网络搜索引擎_第1页
网络搜索引擎_第2页
网络搜索引擎_第3页
网络搜索引擎_第4页
网络搜索引擎_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络搜索引擎万维网中的特殊站点01互联网工作原理任务元标记目录03020405搜集方法引擎组成建立索引发展趋势目录070608基本信息互联网搜索引擎是万维网中的特殊站点,专门用来帮助人们查找存储在其他站点上的信息。搜索引擎有能力告诉你文件或文档存储在何处。互联网互联网网络搜索引擎好消息是,网上有无数网页提供主题极为多样的信息。坏消息是,这些网页大都是由制作者随便命名的,而且几乎全都存储在不知何名的服务器上。当你需要了解特定主题时,您怎么知道应当阅读哪些网页呢?像大多数人一样,您要使用互联网搜索引擎。任务搜索引擎关键字任务关键字基于关键字来搜索互联网——或其中的一部分。生成一份索引,保存所搜寻的词语,以及相应地址。允许用户在索引中查找词语或词语组合。早期搜索引擎的索引仅包括数十万个的网页或文档,每天受理的查询可能只有一两千次。如今,顶级搜索引擎的索引列表涵盖数亿个网页,每天响应数千万次查询。在本文中,我们将会讲解这些基本任务是如何完成,以及互联网搜索引擎是如何整合信息以帮助我们在网上找到所需内容。搜索引擎大多数人谈及互联网搜索引擎时,实际上指的是万维网搜索引擎。在万维网成为互联网最引人注目的部分之前,早就有搜索引擎帮助人们查找网上信息了。如“gopher”和“Archie”等程序可以生成索引,存储在接入互联网的各个服务器上的文件信息,极大缩短了查找程序和文档的时间。上世纪八十年代末,要想从互联网上获得有价值的信息,就必须知道如何使用gopher、Archie、Veronica以及其它类似程序。大多数互联网用户只限于搜索万维网,所以本文只讨论面向网页内容的搜索引擎。工作原理步骤原理爬寻方式谷歌实例运行原理访问记录其他实例010302040506工作原理步骤原理Baidu搜索引擎在有能力告诉你文件或文档存储在何处之前,必须先找到它们。为了在现有的数亿网页中找到信息,搜索引擎使用了一种特殊的软件机器人,称之为蜘蛛程序,以此生成在网站上查询到的词语列表。蜘蛛程序建立词语列表的过程被称为爬网。(将互联网的一部分称为网络有些缺点——大量工具以蜘蛛命名就是其一。)为了建立并维护一份有用的词语列表,搜索引擎的蜘蛛程序需要游历大量网页。爬寻方式通常起点是那些访问量很大的服务器和热门网页。蜘蛛程序从一个很受欢迎的网站开始,检索网页上的词语并追踪在该网站上找到的每个链接。这样,蜘蛛程序迅速开始了旅行,爬遍网上绝大多数经常访问的网站。谷歌实例谷歌起始Google的前身是一个学术搜索引擎。在介绍该系统开发过程的论文中,google创始人塞吉·布林(SergeyBrin)和劳伦斯·佩奇(LawrencePage)举例说明了他们的蜘蛛程序工作得有多快。他们最初开发的系统使用多个蜘蛛程序——通常是三个。每个蜘蛛程序可以同时打开300个链接。最多可以同时使用四个蜘蛛程序,此时该系统每秒可以游历100多个网页,生成大约600KB的数据。运行原理要保证一切都快速运行,意味着必须开发一套系统来为蜘蛛程序提供必要信息。早期Google系统有一个专门为蜘蛛程序提供链接信息的服务器。为了尽可能减少延时,Google没有依靠互联网服务提供商提供的域名服务器(DNS)来将服务器名翻译为网址,而是准备了自己的域名服务器。访问记录当Google的蜘蛛程序访问一个HTML网页时,它会记录以下两种信息:网页中的词语词语所在位置出现在标题、副标题、元标记以及其他相对重要的位置的词语,会被记录下来,这些词语往往是日后用户搜索时经常使用的。Google蜘蛛程序的设计旨在检索网页中的每一个重要单词(对于英文来说,还要滤掉冠词a、an和the等)。其他蜘蛛程序采用不同的方法。这些方法通常是为了尽量加快蜘蛛程序的速度,或使用户可以更有效地进行搜索,或二者兼而有之。例如,有些蜘蛛程序会追踪标题、副标题和链接中的词语,以及网页中最常用的100个词和文章前20行中的每一个词。据说Lycos就是使用这种方法爬网的。其他实例Google如比AltaVista,则反其道而行之,检索网页中的每一个字,包括a、an、the以及其他“不重要”的词。人们完善这种方法的干劲从未减弱,而另一些系统则通过其它方法与之抗衡。比如**网页的不可见部分,即元标记。元标记引起问题定义元标记定义元标记允许网页所有者来设定检索网页的关键字或概念。这很有用,特别是在网页中的词语有多个含义的时候——元标记可以引导搜索引擎在这些词的几种可能含义中选择正确的一项。引起问题过分依赖元标记有一个危险:粗心或不负责任的网页所有者会添加一些对应热门话题的元标记,但是与网页实际内容没有任何关系。为了防止此种事情发生,蜘蛛程序会比对元标记和网页内容,剔除那些与网页词语不符的元标记。上述方法均基于一个假设,也就是网页所有者希望自己的网页被纳入搜索引擎的搜索列表。但有些情况下,网页所有者并不希望它们出现在主流搜索引擎中,或是不希望蜘蛛程序访问网页。比如,假设有一款网页游戏,每当部分页面被显示或者新链接被点击时,游戏就会生成新的动态页面。如果网络蜘蛛程序进入网页,继而开始追踪所有新网页的链接,游戏很可能将这些操作错认为是由一名操作速度极快的玩家执行的,从而失去控制。为了避免此类情况,人们制定了一套拒绝蜘蛛协议。该协议如果嵌入网页开头的元标记部分,就会告诉蜘蛛程序远离该页面——既不要检索网页上的词语,也不要试图追踪网页上的链接。搜集方法信息组合索引方法搜集方法索引方法Yahoo在最简单的情况下,搜索引擎只需存储词语和词语所在地址。实际上,这样做会限制搜索引擎的用途,因为这种方式无法区别词语在网页中是被重点使用,还是略一提及,也无法区别词语是使用一次还是多次,或该网页上是否含有其它包括该关键字的网页的链接。换句话说,这样做将无法建立排名表,无法把最有用的网页放在查询结果列表的顶端。为了获得更多有用信息,大多数搜索引擎存储的信息不仅仅是词语和网址,还可能存储着该字在网页中出现的次数。搜索引擎可能会为每个词条指定一个权重,按照词语出现在文档开头、网页副标题、链接、元标记或标题的顺序,权重依次增大。各商业搜索引擎指定索引中词语权重的公式有所不同。这从一个侧面解释了为什么使用不同搜索引擎来搜索相同关键字,却会产生不同的搜索结果列表,网页排列顺序也有所不同。信息组合如果忽略搜索引擎存储的额外信息的准确组合,将这些数据进行编码可以节省存储空间。比如,最初的Google论文描述了使用两个字节(每个字节8比特)来存储权重信息——单词是不是大写、字号大小、位置以及其他用来为数据确定级别的信息。每个因素大概占据两字节中的两三个比特(8比特=1字节)。因此,大量信息便能以一种压缩率极高的方式存储下来。信息被压缩之后,就可以建立索引了。建立索引NOT布尔运算建立索引布尔运算ANDAND(与)——以“AND”相连的若干搜索项必须全部出现在网页或文档中。有些搜索引擎使用运算符号“+”来代替“AND”。OR(或)——以“OR”相连的搜索项必须至少有一项出现在网页或文档中。NOTNOT(非)——“NOT”之后的搜索项不能出现在网页或文档中。有些搜索引擎使用运算符号“-”来代替“NOT”。FOLLOWEDBY(跟随)——某一搜索项必须紧随另一搜索项。NEAR(临近)——某一搜索项和另一搜索项的距离必须小于特定词数。引号——引号内的词语应被看作一个完整短语,出现在网页或文档中。引擎组成搜索器索引器检索器用户接口robots12345引擎组成搜索器其功能是在互联网中漫游,发现和搜集信息;索引器其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;检索器其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;用户接口其作用是接纳用户查询、显示查询结果、提供个性化查询项。robotsrobots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。一些病毒如malware(马威尔病毒)经常通过忽略robots协议的方式,获取网站后台数据和个人信息。发展趋势智能搜索自然搜索发展趋势自然搜索人们的日常交流是使用自然语言而非关键(字)词,因为关键(字)词表达的意思和意图不完整不准确,反映在搜索结果上的缺陷是返回信息过多。基于自然语言搜索,符合人们的语言习惯,像人与人之间的交流一样轻松、直接、方便,这无疑给用户提供了巨大的便利。智能搜

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论