基于Hadoop的分布式搜索引擎研究与实现探讨_第1页
基于Hadoop的分布式搜索引擎研究与实现探讨_第2页
基于Hadoop的分布式搜索引擎研究与实现探讨_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于Hadoop的分布式搜索引擎研究与实现讨论基于Hadp的分布式搜索引擎研究与实现讨论现今,互联网的信息已经融入了人们的生活与学习中,人们越来越重视信息获取的才能。传统的集中式搜索引擎,存在覆盖范围窄,更新时间长,返回结果多,存在查询歧义等问题,已经不能适应现今网络的开展,开发出一种可以快速处理信息,准确获取资源的搜索引擎,是现今网络研究的热点1。因此,分布式搜索引擎应运而生。该搜索引擎具备分布式处理信息的作用,可以对系统规模进展扩展,进而进步系统处理信息的才能。本文从几方面,对在Hadp平台下,分布式搜素引擎进展一定的讨论,期望可以为网络系统的长远开展提供借鉴。一、Hadp平台概述Hadp

2、平台,是一种具备扩展性、可靠性、高效性、低本钱的软件框架,是分布式处理的软件平台,常被用来处理与运行海量数据。Hadp的扩展性,表达在可以处理PB级数据;Hadp的可靠性,表达在可以保护多个工作数据副本,可以对失败的节点进展重新分布操作。Hadp的高效性,表达在经由并行处理的形式,可以显著进步处理速度。Hadp的低本钱,表达在它的效劳器较为低端,甚至普通的P机就能作为集群的一员,实现的本钱可以得到有效控制2。现今,伴随多个版本的进展,Hadp已经开展成为搜索引擎中的理想平台。分布式文件系统HDFS、分布式计算apRedue,是Hadp平台的两大核心。除了核心内容外,还包括Hbase;Hvie;

3、huka;Avr;n诸多子工程。子工程之间,可以进展效劳的互助操作,或者是根据核心层,为更高级别提供效劳3。二、基于Hadp的分布式搜索引擎的原理及优势1.分布式搜索引擎的原理分布式搜索引擎,其根据的标准为地域、IP地址、主题等,将全网分为多个区域,进而形成网络区域的自行管理。任何自治区,都是通过检索效劳器完成相应的工作。详细讲,一个根本的分布式搜索引擎包括分布式信息采集器、分布式索引器以及分布式检索器三局部。分布式信息采集器,可以在运行过程中要求多台机器实行详细的分工合作。为了进步信息的更新速度、信息发现的效率,多台机器都应在各自的区域内,进展相应信息的搜索,同时建立索引,并储存在索引数据库

4、中4。分布式索引器,可以在不同的机器上同时进展执行操作,降低索引对于机器的特殊要求,进而实现检索效劳器之间的信息交流。分布式检索器,可以为用户提供查询接口。分布式检索器在实际应用中,还具有一个特殊优势,详细讲就是当用户的查询要求增多时,分布式检索器可以实现调配查询恳求,可以将查询信息在其余检索效劳器上进展查询。实现诸多检索效劳器中,文档的同时检索功能,进而进步检索的性能与速度。2.分布式搜索引擎优势分布式搜索引擎,与传统的集中式搜索引擎进展比拟,具有显著的优势。首先,各个检索效劳器都是独立的,当有检索效劳器出现故障的问题,并不会影响其它检索效劳器的工作。其次,在每台效劳器存储中,其索引数据库数

5、据较少,在进展查询时可以降低查询反响时间,大大进步了管理的方便性。第三,分布式搜索引擎具备较好的可扩展性,同网络资源的分布式特点相符合,便于新机器的添加,同时也进步了维护的便捷性。第四,经由检索效劳器之间的合作,各个效劳器仅在自身区域中,进展信息资源的检索操作,最终只提供搜索结果信息的传递。因此,分布式搜索引擎可以显著的降低各个效劳器的压力,缓解网络拥堵,进步检索速度5。三、搜索引擎系统的设计与实现1.基于Hadp的搜索引擎系统总体设计整个搜索引擎系统,是基于Hadp集群框架之上。分别由三个子系统进展搜索引擎的设计与实现6。详细的系统功能如图1所示。基于Hadp的搜索引擎包括分布式爬行子系统、

6、分布式索引子系统以及分布式检索子系统三个局部,每个系统都可采取apRedue的并行形式加以实现,各自可以独立工作,经由接口实现分布式搜索的目的。爬行子系统,对网页的采集过程,都是经由Http协议进展的,包括6大模块,分别为数据库更新;解析;抓取;抓取列表生成;URL集注入;URL集生成。索引子系统,主要的目的就是对抓取的网页,建立索引同时进展有效解析。主要包括5个模块,分别为索引存储;索引生成;内容评分排序;中文分词处理;非构造化文档解析。检索子系统,主要用于形成前台搜索界面,对于用户的查询恳求进展有效接收,同时进展处理,实现内容查询功能。最后将查询的结果,返回到用户界面。总体包括2个模块,分

7、别为前台用户界面、后台数据处理。系统总体架构图,详细如图2所示。2.搜索引擎系统的实现首先,爬行子系统在因特网上进展文件的下载,通过解析、去重抓取的网页,并将页面数据、提取的链接,分别保存在URL信息库ralDb与互联关系库LinkDb中。同时,通知索引子系统,进展相应的索引。其次,索引子系统,可以对爬行子系统获得的网页数据,进展网页评分;分词处理;文档解析;倒排索引处理。同时运用倒排索引库,进展等待检索操作。最后,用户经由前台界面,进展检索恳求,检索子系统运用分词处理模块,进展输入字符串的分析,并运用倒排索引库中进展检索,把结果进展排序后回馈给客户7。整个搜索程序,包括4个数据库。分别为Index数据库;Segents数据库;LinkDb数据库;ralDb数据库。四、结语现今,分布式搜索引擎,其技术性较强,可以包括查询结果优化;分布式计算;中文分词;全文检索等功能。面对这一新兴领域,基于ap/Redue的编程模型,其在分布式计算方面的潜力不可估量,我们应进展积极的研究,进而为Hadp分布式计算平台的开展,提供更为广阔的开展空间。任何技术与平台,在使用的过程中都会存在一定的缺陷,Hadp平台中在调度算法与任务分割方面,也存在一定程度的问题。诸如会出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论