毕业答辩-搜索引擎的研究与实现.ppt_第1页
毕业答辩-搜索引擎的研究与实现.ppt_第2页
毕业答辩-搜索引擎的研究与实现.ppt_第3页
毕业答辩-搜索引擎的研究与实现.ppt_第4页
毕业答辩-搜索引擎的研究与实现.ppt_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

毕业答辩,题目:搜索引擎的研究与实现专业:软件工程答辩人:指导老师:,论文结构,第一章引言第二章搜索引擎介绍第三章网络机器人第四章网络索引器第五章网络搜索程序第六章总结,研究目的和意义,网络中的资源非常丰富,但是如何有效地找到自己需要的信息却是一件困难的事情。网络搜索引擎应运而生。本文首先详细介绍了网络搜索引擎的系统结构,然后从网页信息抓取、网页内容分析、网页索引建立、用户检索与结果排序等方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎。,搜索引擎介绍-发展历史,不知道大家时候在自己的搜索引擎首页是否有设置过导航网站这个网址作为自己的首页呢?其实这个网址就是搜索引擎第一代的代表。我们可以从这个导航网站这个网站里面看到,里面几乎都是一些分类网址,几乎在互联网上的,这个网站里面都一应俱全,从这里我们可以看出,这个网站是一个导航网站,也可以说分类目录网站,用户可以从这个分类目录里找到自己想要的东西,这就是搜索引擎第一代。,第一代:分类目录时代(人工时代),搜索引擎介绍-发展历史,到了这一代,搜索引擎查询信息的方法则是通过用户所输入的查询信息提交给服务器,服务器通过查阅,返回给用户一些相关程度高的信息。这代的搜索引擎的信息检索模型主要包括例如布尔模型、概率模型或者向量空间模型。通过这些模型来计算用户输入的查询信息是否与网页内容相关程度高低,将相关度高的则返回给用户。采取这种模式的搜索引擎主要是一些早期的搜索引擎,例如像AltaVista、Excite等等。这就是搜索引擎第二代。,第二代:文本检索时代(海量自动获取与排序清单),搜索引擎介绍-发展历史,这一代的搜索引擎所使用的方法大概是和我们今天的网站的外部链接形式基本相同,在当时,外部链接代表的是一种推荐的含义,通过每个网站的推荐链接的数量来判断一个网站的流行性和重要性。然后搜索引擎再结合网页内容的重要性来和相似程度来改善用户搜索的信息质量。这就是第三代搜索引擎,第三代:整合分析时代(立体搜索与结果整合),搜索引擎介绍-发展历史,第四代,也就是我们所用的搜索引擎技术也是的互联网上面用的对普遍的。主要是以用户为中心。当客户输入查询的请求时候,同一个查询的请求关键词在用户的背后可能是不同查询要求。甚至是同一个用户,所查询的关键词一样,也会因为所在的时间和所在的场合不同而返回的结果不同的所有主流搜索引擎,都在致力于解决同一个问题:怎样才能从用户所输入的一个简短的关键词来判断用户的真正查询请求。这一代搜索引擎主要是以用户为中心。这就是第四代搜索引擎。,第四代:用户中心时代,搜索引擎介绍-结构,搜索器:在互联网中漫游,发现和搜集信息;索引器:理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;检索器:根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;用户接口:接纳用户查询、显示查询结果、提供个性化查询项。,搜索引擎介绍-结构,搜索引擎介绍-分布式,各检索服务器之间相互共享资源,站点只向本自治区域内的信息搜索机器人提供信息,减轻了网络及各站点的负载。各代理之间的相互协作及查询重定向使得提供的服务更完善。与Web本身的分布式特性相适应,具有良好的可扩充性,便于维护。索引信息划分到各自的索引数据库中,使得各索引数据库相对较小,查询的响应时间相对较短。部分检索服务器发生故障时,其它部分能正常工作。,搜索引擎介绍-个性化,个性化搜索引擎指的是搜索引擎根据用户搜索的历史记录,来返回更适合这个用户的搜索结果。这些搜索历史记录包括用户所搜索的关键词,在搜索结果中的点击情况,在各个网站的访问情况,书签情况等。搜索引擎掌握了这些用户资料后进行分析,在用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验。而搜索引擎,它就是以一定的技术和策略在互联网中搜集、发现信息,并对信息进行理解、提取和处理,为用户提供Web搜索的服务.,网络机器人,网络机器人,广度优先深度优先,处理器,正文提取去除停用词分词,索引器,个性化搜索引擎指的是搜索引擎根据用户搜索的历史记录,来返回更适合这个用户的搜索结果。这些搜索历史记录包括用户所搜索的关键词,在搜索结果中的点击情况,在各个网站的访问情况,书签情况等。搜索引擎掌握了这些用户资料后进行分析,在用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验。而搜索引擎,它就是以一定的技术和策略在互联网中搜集、发现信息,并对信息进行理解、提取和处理,为用户提供Web搜索的服务.,索引器-倒排索引,搜索程序,用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。,Lucene,一个检索框架基于java语言建立和查找索引,搜索引擎实现,BS结构Java语言实现使用Lucene框架使用Spring,Struts2,MyBatis,搜索引擎实现,本地文章数据库定时更新索引网络页面抓取搜索引擎界面和检索,界面-首页,界面-搜索结果,界面-添加文章,类结构,SearchObject-查找索引SearchEngineCore-建立索引Job-定时更新索引WebContent-抓取网页SearchAction-处理查询请求,爬虫,Documentdoc=PackContentObject.convertContentToDoc(wc.getContentFromSite();,爬虫,URLurl;Stringtemp;finalStringBuffersb=newStringBuffer();url=newURL(htmlurl);finalBufferedReaderin=newBufferedReader(newInputStream

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论