网络搜索引擎应用研究_第1页
网络搜索引擎应用研究_第2页
网络搜索引擎应用研究_第3页
网络搜索引擎应用研究_第4页
网络搜索引擎应用研究_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1毕业论文题 目:网络搜索引擎应用研究 _ 学 院:信息工程学院 学生姓名:李旭东 梁世鸿 马丽娜 他丽娟 指导教师:岳建斌 起讫日期:2010 年 5 月 12 日_ 2摘 要搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列,方便用户查找。如何更加快捷、准确地查找到用户所需的网络信息资源,是各大搜索引擎服务提供商和计算机网络研究人员的研究热点。作为计算机专业的学生,搜索引擎技术对我们有很大的诱惑力,了解搜索引擎的发展现状、原理和技术手段,从算法的角度来认识搜索引擎,是我们必须掌握的知识之一。本文主要研究搜索引擎的基本原理、搜索算法及实现技术。关键字:搜索引擎、基本原理、搜索算法、技术。目 录3摘 要 1第一章 引言 51.1 搜索引擎的初现与发展 61.1.1 搜索引擎的初显 61.1.2 搜索引擎的发展 61.2 搜索引擎在我国的发展现状81.2.1 我国搜索引擎的背景 81.2.2 搜索引擎的现状91.3 本文的研究内容10第二章 搜索引擎的原理 112.1 搜索引擎的原理概述 112.2 搜索引擎的实现原理 122.2.1 从互联网上抓取网页 122.2.2 建立索引数据库 122.2.3 在索引数据库中搜索 132.2.4 对搜索结果进行处理排序 132.3 垂直搜索引擎的工作原理 142.3.1 垂直搜索引擎的基本原理 142.3.2 垂直搜索引擎的技术原理 142.3.3 垂直搜索引擎技术框架 15第三章 搜索引擎的核心-网络蜘蛛 163.1 网络蜘蛛 1643.1.1 网络蜘蛛的介绍 163.1.2 网络蜘蛛的工作原理 163.2 网络蜘蛛的结构分析 173.2.1 如何解析 HTML 173.2.2Spider 程序结构 193.2.3 如何构建 Spider 程序193.2.4 如何提高程序性能 203.2.5 网络蜘蛛的代码分析213.3 网络蜘蛛的处理对象233.4 网络蜘蛛面临的难题23第四章 搜索引擎的主要技术254.1 搜索器、索引器、检索器及用户接口254.1.1 搜索器254.1.2 索引器254.1.3 检索器254.1.4 用户接口264.2 中文搜索引擎的中文分词技术26第五章 搜索引擎的系统构架275.1 搜索引擎的系统构架图275.2 搜索引擎的系统构架275.2.1 从互联网上抓取网页275.2.2 建立索引数据库285.2.3 在索引数据库中排序285.2.4 对搜索结果进行排序28总结 29致谢 30参考文献 315第一章 引 言近几年,随着网络的不断发展和壮大,搜索引擎越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到的,没有搜索不到的。中国十年多来互联网的不断发展,造就出 1.3 亿的网民,搜索引擎也出现空前的火热。在互联网出现的初期,雅虎、新浪、网易等大型门户网站拥有着绝对多的浏览量,原因在于当初的大部分网站在技术上无法与门户网站相媲美,多数质量较差,内容不丰富,所以大型门户网站优秀的网页设计风格,大量的信息及时更新赢得了用户的认可,创造了第一次互联网的高峰。然而随之近年来网络技术的普及与应用,建立一个专业的网站已经不存在太多的技术门槛。于是看好互联网前景的网站纷纷涌现在我们的面前。相对比而言在某些领域中,大型门户网站的页面风格反而不如一些中小型网站的界面漂亮,同时各种分类的行业网站也慢慢的兴起,使得搜索引擎越来越成为人们生活中必不可少的实用工具。搜索引擎的出现,整合了众多网站信息,恰恰起到了信息导航的作用。通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供网民使用,于是信息的价值第一次普遍的被众多商家认可,迅速成为互联网中最有价值的领域。互联网的低谷由此演变为第二次高峰。大家熟知的搜索引擎 Google、百度、雅虎等是通用搜索引擎现如今的杰出代,他们为互联网的发展做出了重要的贡献。然而,搜索引擎行业也不是一家公司就可以独撑天下的,从百度的上市、yahoo 中国的并购一系列动作表明,如今的搜索引擎大战如同门户网站初期的竞争一样激烈。相信,通用搜索引擎在经历过一段时间的角逐后,也将会继续维持几大服务商各自分控一部分市场的局面。总而言之搜索引擎改变了人们的生活给人们的生活工作学习带来了巨大的帮助。61.1 搜索引擎的初现与发展1.1.1 搜索引擎的初显搜索引擎从 1990 年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的 FTP 站点。为了便于人们在分散的 FTP 资源中找到所需的东西,1990 年,加拿大麦吉尔大学(McGillUniversity)的几个大学生开发了一个软件 Archie。它是一个可搜索的 FTP 文件名列表,用户必须输入精确的文件名搜索,然后 Archie 会告诉用户哪一个 FTP 地址可以下载这个文件。Archie 实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。Archie 虽然还不是搜索引擎,但是从它的工作原理上看,它是所有搜索引擎的祖先。当万维网(WorldWideWeb)出现后,人们可以通过 html 传播网页信息,网络上的信息开始成倍增长。人们纷纷使用各种方法将网络上的信息搜集来,进行分类、整理,以方便查找。现在人们很熟悉的网站雅虎(Yahoo)就是在这个环境下诞生的。还在 Stanford 大学读书的美籍华人杨致远和他的同学迷上了互联网。他们将互联网上有趣的网页搜集过来,与同学一起分享。后来,1994 年 4 月,他们俩共同办了雅虎。随着访问量和收录链接数的增长,雅虎目录开始支持简单的数据库搜索。但是因为雅虎的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。1.1.2 搜索引擎的发展当“蜘蛛 ”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“ 机器人 ”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“ 蜘蛛”程序。7这种程序实际是利用 html 文档之间的链接关系,在 Web 上一个网页一个网页的爬取(crawl),将这些网页抓到系统来进行分析,并放入数据库中。第一个开发出“ 蜘蛛”程序的是 Matthew Gray,他于 1993 年开发了 World Wide Web Wanderer,它最初建立时是为了统计互联网上的服务器数量,到后来发展到能够捕获网址。现代搜索引擎的思路就来源于 Wanderer,后来很多人在此基础上对蜘蛛程序进行了改进。1994 年 7 月 20 日发布的 Lycos 网站第一个将 “蜘蛛”程序接入到其索引程序中。引入“ 蜘蛛 ”后给其带来的最大优势就在于其远胜于其它搜索引擎的数据量。自此之后几乎所有占据主导地位的搜索引擎中,都靠“蜘蛛”来搜集网页信息。Infoseek 是另一个重要的搜索引擎,于 1994 年年底才与公众见面。起初,Infoseek 只是一个不起眼的搜索引擎,它沿袭 Yahoo!和 Lycos 的概念,并没有什么独特的革新。但是它友善的用户界面、大量附加服务使它在用户中赢得了口碑。1995 年 12 月,它与 Netscape 的战略性协议,使它成为一个强势搜索引擎:当用户点击 Netscape 浏览器上的搜索按钮时,弹出 Infoseek 的搜索服务,而此前由 Yahoo!提供该服务。 1995 年 12 月 15 日, Alta Vista 正式上线。它是第一个支持高级搜索语法的搜索引擎,成功地整合了此前人类所有的信息检索技术,解决了包括字根处理、关键词检索、布尔逻辑,以及通过向量空间模型的查询排名等关键问题。正式公开之前,Alta Vista 就已经拥有 20 万访问用户,在短短三个星期之内,到访人数由每天 30 万次增加到 200 万次。它的成功在于满足了用户三个方面的需求:网上索引范围超过了此前任何一家搜索引擎;短短几秒钟内便可从庞大的数据库中为用户返回搜索结果;Alta Vista 小组从一开始就采用了一种模块设计技术,能够跟踪网站的流行趋势,同时不断扩大处理能力。在当时许多搜索引擎之中,Alta Vista 脱颖而出,成为网络搜索的代名词。Google 就是站在这样的巨人的肩膀上颠覆并创造着。“上网即搜索” 改变了人们上网方式的,就是现在鼎鼎大名的 Google。Google 并不是搜索引擎的发明者,甚至有点落后,但是它却让人们爱上了搜索。1998 年 9 月,在佩奇和布林创建 Google 之时,业界对互联网搜索功能的理解是:某个关键词在一个文档中出现的频率越高,该文档在搜索结果中的排列位置就要越显著。这就引出了这样一个问题,如果一个页面充斥着某一个关键字的话,那么它将排在很显著的位置,但这样一个页面对于用户来说,却没有任何意8义。佩奇和布林发明了“网页级别”(PageRank)技术,来排列搜索结果。即考察该页面在网上被链接的频率和重要性来排列,互联网上指向这一页面的重要网站越多,该页面的位次也就越高。当从网页 A 链接到网页 B 时,Google 就认为“网页 A 投了网页 B 一票” 。Google 根据网页的得票数评定其重要性。然而,除了考虑网页得票数的纯数量之外,Google 还要分析投票的网页,“重要”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的“重要性”。 Google 以其复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。没人能花钱买到更高的网页级别,从而保证了网页排名的客观公正。除此之外,动态摘要、网页快照、多文档格式支持、地图股票词典寻人等集成搜索也都深得网民的喜爱。其他众多搜索引擎也都紧跟 Google,推出这些服务。Fast (Alltheweb)公司发布的搜索引擎 AllTheWeb,总部位于挪威,其在海外的风头直逼Google。Alltheweb 的网页搜索支持 Flash 和 pdf 搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和 FTP 搜索,拥有极其强大的高级搜索功能。而中国的百度更是凭借“更懂中文”而吸引着中国的网络受众,它拥有超过10 亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。搜索引擎就越来越成为人们生活中重要的一部分。1.2 搜索引擎的现状1.2.1 我国搜索引擎的背景百度上市后,我国的搜索市场一下子热了起来。越来越多的企业围绕着搜索市场作起了文章。而且,在搜索大战的同时,一些企业也抛出了一些惊人言论。近日,记者从专业做人脉交际的联络家()技术总监冉征处了解到,联络家正在加紧研发人脉相关领域的专业垂直,联络家之所以涉足专业垂直搜索引擎领域,是看到未来垂直专业搜索引擎市场的巨大商机,他认为未来搜索市场将进一步细分,象 Google、百度等主张大而全的全球式搜索引擎将会面临垂直专业搜索引擎更大的竞争与挑战,他们的市场分额将会被逐渐瓜分,专业的行业性垂直搜索将受到网民的青睐。 那么缘何能得出如此结论呢?CNNIC 第十四次互联网调查显示,搜索以71.9的绝对优势成为用户从互联网上获得信息的主要方式。几乎在全球所有的9调查中,搜索引擎都是互联网上使用程度仅次于电子邮箱的服务,搜索引擎服务能成为最受欢迎的服务是因为他解决了用户在浩瀚的互联网海量快速定位信息屏颈问题,在海量的网页里找信息按照传统方式需要用户一个网站一个网站一级目录一级目录下找,要耗费大量的精力和时间,几乎是不可能实现的任务。1.2.2 搜索引擎的现状随着互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越来越难迅速的找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容,而垂直搜索引擎针对专业特定的领域或行业的内容做了专业和深入的分析挖掘,精细分类,过滤筛选等,信息定位更精准,因此在此垂直领域或行业提供的搜索服务势必更好更强,更为用户所欢迎。 比如,对于一个网民来说如果有对特定的领域或行业的信息需求的时候,如果一个是专业的垂直搜索能做到精确锁定内容,但内容量偏小,而另一个是能检索出大量内容,但搜索到的内容一大部分都是“垃圾”并且很难找到符合的信息,这样的话,你会选择哪个呢,就如用户想购买一个商品,他是会去专门的比价购物搜索引擎上找还是会去 Google 上找,如果你想找一份工作,是会去专门的工作搜索引擎上找还是会去百度上找?答案很明显,更多的用户会舍弃后者,即使前者品牌小名声小,但结果往往是最令网民看重的。 联络家 LINKIST 一直做人脉交际圈的拓展,也就是现在炙手可热的 SNS 网站,SNS 网站的目的就是要建立一个庞大的人脉圈,参与其中的人都能通过站内人脉的搜索引擎找到自己想找的人,可以找工作、搜罗人才、寻找合作商机。联络家 LINKIST 短短几个月的时间已经聚敛起了近 7 万多位高级商务人士。有了一定的用户基础做铺垫,联络家 LINKIST 目前大力开发人脉专业领域的垂直搜索引擎,如工作搜索引擎的人脉搜索引擎,而这比以往的“贴简历、翻招聘信息”的机械作法要灵活的多。 而且,能做出这样的预测显然并不是空穴来风。据记者了解,现在搜索市场大量的的垂直专业搜索引擎的诞生如雨后春笋般,如比价购物搜索引擎,工作10搜索引擎,博客搜索引擎等等,占了百度几乎一半以上的流量的 MP3 搜索,其实也可以说是专业的搜索 MP3 的垂直搜索引擎,许多垂直门户也纷纷推出了自己的搜索引擎系统。那么,象 Google、百度能会不会通过“补课”挤掉这部分专用搜索市场呢?冉先生对记者表示,Google、百度注定了走的是大而全的粗犷路线,而专用的垂直搜索引擎则不同,需要对做内容的深度挖掘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论