(计算机应用技术专业论文)基于lucene垂直搜索引擎的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于lucene垂直搜索引擎的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于lucene垂直搜索引擎的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于lucene垂直搜索引擎的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于lucene垂直搜索引擎的研究与实现.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)基于lucene垂直搜索引擎的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目:基于l u c e n e 垂直搜索引擎的研究与实现 专业:计算机应用技术 硕士生:徐海 ( 签名) 盏盆三蜀 指导教师:李军民 ( 签名) 李狁z 摘要 随着i n t e r n e t 和w w w 的迅速发展,i n t e m e t 上的资源同趋丰富,人们也越来越多 地依赖网络进行学习和研究。为了帮助人们在浩如烟海的网络中得到有用的信息,基于 i n t e m e t 的各类搜索引擎应运而生并得到了迅速发展。目前,人们在网络上搜索信息主 要利用百度,g o o g l e 等通用搜索引擎,这类搜索引擎功能已经十分强大,基本可以满足 用户的需求,但是当用户搜索一些专业信息时,这类搜索引擎往往显得力不从心。垂直 搜索引擎的出现,正是为了解决此类问题。 首先,本文论述了垂直搜索引擎的研究意义及体系结构,并深入研究了垂直搜索引 擎的核心技术,包括主题相关度的判断,中文分词技术,网页排名技术等。 其次,本文对l u c e n e 开发包进行深入的学习研究,对比了其本身的中文分词方法 及k t d i c t s e g 分词方法,采用对中文分词效果较好的k t d i c t s e g 分词方法对所提取的内 容进行分词。 最后,本文设计并实现了威客任务信息垂直搜索引擎系统,包括主题蜘蛛模块,信 息提取模块,索引与检索模块。在主题蜘蛛模块采用s h a r ks e a r c h 算法来对未处理的u r l 进行分析,提高了对主题信息采集的准确度;在信息提取模块,采用h t m l p a r s e r 文档解 析方法对采集的页面进行信息提取;在索引与检索模块,针对l u c e n e 中的得分算法没 有很好的体现网页在网站中的位置信息这一不足,设计了一种改进的解决方案,将文档 的基本得分与文档在网页中的位置信息以及文档本身的特点很好的结合起来,以提高对 搜索结果排序的准确度,由此增强了搜索的精确度。 关键词:垂直搜索引擎;主题蜘蛛;l u c e n e ;信息检索;中文分词 研究类型:应用研究 s u b j e c t s p e c i a l t y :t h er e s e a r c ha n dd e s i g no nv e r t i c a ls e a r c he n g i n eb a s e d o n l u c e n e :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y n a m e :x uh a i i n s t r u c t o r :l ij u n m i n a b s t r a c t ( s i g n a t u r e ) ( s i g n a t u r e ) w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e ta n dw w w :r e s o u r c e so nt h ei n t e r n e tb e c o m e m o r e 肌dm o r ea _ b u l l d a n t a n dp e o p l ea r ei n c r e a s i n g l yd e p e n d e n to n t h ei n t e r n e tt os t u d ya n d r e s e a r c h ,i no r d e rt oh e l pp e o p l eg e tu s e f u li n f o r m a t i o ni na b r o a da r r a yo fi n t e r n e ti n f o r m a t i o n v 撕o u si n t e m e t b a s e d i n f o r m a t i o nr e t r i e v a ls e r v i c e sc a n l ei n t ob e i n ga n d h a v eb e e n d e v e l o p e dr a p i d l y c u r r e n t l y , p e o p l es e a r c hf o ri n f o r m a t i o no n t h ei n t e m e tp r i m a r i l y 恤d u g n b a l d u g o o g l ea n do t h e rg e n e r a ls e a r c he n g i n e s t h ef u n c t i o no ft h e s es e a r c he n g i n e sh a y e b e e ns 咖n ga n dt h e yc a l lm e e tm o s tu s e r s n e e d s h o w e v e r , 弱f o rp r o f e s s i o n a lt h e m e s ,s u c n s e a r c he n g i n e sw i l lb ei n s u f f i c i e n t t h ee m e r g e n c eo fv e r t i c a ls e a r c he n g i n e s i ss p e c i f i c a l l y f o rs o l v i n gt h i sp r o b l e m f i r s t i nt h i sp a p e r , w ed i s c u s st h es i g n i f i c a n c e ,a r c h i t e c t u r eo ft h e v e r t i c a ls e a r c he n 9 1 n e a n ds t u d yt h ev e r t i c a le n g i n e s c o r et e c h n o l o g yi n c l u d i n gs u b j e c tr e l e v a n c yj u d g m e n t s , c h i n e s ew o r ds e g m e n t a t i o nt e c h n o l o g y , w e br a n k i n gt e c h n o l o g ya n ds oo n s e c o n d l u c e n ep a c k a g ei ss t u d i e dd e e p l yi nt h i sp a p e r , a n dc o m p a r et h ec h i n e s ew o r d s e 田:t l e n t a t i o nw h i c hl u e e n eu s e sw i t hk t d i c t s e g ,t h e nu s ek t d i c t s e gw h i c hp e r f o r m s b e t t e rt h a nt h ef o r m e rm e t h o dt os e g m e n tw o r df r o mt h ee x t r a c t e dd o c u m e n t a tl a s t w i t k e yi n f o r m a t i o nv e r t i c a ls e a r c he n g i n ei sd e s i g n e di nt h i sp a p e r a n dt h e r ea r e t h e em o d l l l e si nt h ee n g i n es y s t e m ,t h a ta r et o p i c a ls p i d e rm o d u l e ,i n f o r m a t i o ne x t r a c t i o n m o d u l ea n ds e a r c ha n di n d e xm o d u l e a tt o p i c a ls p i d e rm o d u l e ,ag e n e r a la r i t h m e t i co fs h a r k s e a r c hi sa d o p t e dt od e a lw i t hu n p r o c e s s e du r l s a tt h ei n f o r m a t i o ne x t r a c t i o nm o d u l e ,t h e h t m l p a r s e ri sa d o p t e dt oe x t r a c ti n f o r m a t i o nf r o mt h ee x t r a c t e dw e bp a g e s a tt h es e a r c ha n d i n d e xm o i h d e i nv i e wo ft h ed e f e c to ft h ed o c u m e n ts c o r em e t h o dw h i c hi su s e db yl u c e n e c a n ,tr e f l e c tt h ei m p o r t a n c eo ft h ew e bp a g e sp o s i t i o n s ,a l li m p r o v e ds o l u t i o ni sd e s i g n e d 1 h ss o l u t i o nc o m b i n e st l l eb a s i cd o c u m e n ts c o r em e t h o da n dt h ep o s i t i o n so f t h ew e b p a g e s w i t ht h ec h a r a c t e r i s t i c so ft h ed o c u m e n t st h e m s e l v e s ,a n di t i m p r o v e st h ep r e c i s i o no f r a n k i n ga n ds e a r c h i n g k e yw o r d s :v e r t i c a ls e a r c ht o p i c a ls p i d e r l u c e n ei n f o r m a t i o nr e t r i e v a l c h i n e s ew o r ds e g m e n t a t i o n t h e s i s :a p p l i c a t i o nr e s e a r c h 西要料技太学 学位论文独创性说明 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究t 作及 其取得研究成果。尽我所知,除了文中加以标注和致谢的地方外。论文中不包含 其他人或集体已经公开发表或撰写过的研究成果,也不包含为获得西安科技大学 或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中做了明确的说明并表示了谢意。 学位论文作者签名:乌象翅日期:易卯罗多 学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即;研究生在校攻读学位期间 论文工作的知识产权单位属于西安科技大学。学校有权保留并向国家有关部门或 机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存和汇编本学位论文。同时本人保证,毕业后结合学位论文研究课 题再撰写的文章一律注明作者单位为西安科技大学。 保密论文待解密后适用本声明。 学位论文作者繇与分渤指导教师躲鸯抑儿 年 月日 1 绪论 1 1 研究的背景与意义 1 绪论 随着科技与时代的发展,i n t e m e t 已经成为我们学习和工作的重要工具,与我们的 生活密不可分。根据中国互联网络信息中一t ) , ( c n n i c ) 最新发布的第2 2 次中国互联网络 发展状况统计报告 q o 截至2 0 0 8 年6 月底,中国网民数量达到2 5 3 亿,网民规模跃 居世界第一位,比去年同期增长了9 1 0 0 万人,同比增长5 6 2 。 与此同时,w e b 的信息量越来越大,人们往往需要借助搜索引擎来帮助他们寻找特 定领域的资料,然而现有的搜索引擎如g o o g l e 、百度等,都不是专门为搜索特定领域资 料而设计的,这些搜索引擎面向所有的用户,力争在返回结果上做到面面俱到。因此, 真正需要的资料往往淹没在大量的无用的信息中,在这种情况之下,面向特定专业的搜 索引擎,即垂直搜索引擎应运而生。 所谓垂直搜索引擎( v e r t i c a ls e a r e he n g i n e ) 口j ,是针对某一特定领域、某一特定人群 或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深,且 具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。垂直搜索引擎专注具体、深 入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信 息不收录。 相对于传统的通用型搜索引擎,垂直搜索引擎的研究是一个新兴的领域,主要有以 下几个优点: 首先,在很大程度上缓解w e b 信息提取中的棘手难题,即“刷新问题 ,所带来的 弊端。w e b 页面的动态变化使得数据在提取到的那一刻起就面临着数据过时的风险,为 了降低这种风险,w e b 信息提取器需要不停地对己提取的w e b 信息重新提取以保持对 数据的更新。随着w e b 信息规模上的急剧增长,面向整体w e b 信息提取中的刷新问题 变得异常尖锐。尽管可以通过不断地提高单机性能,使用分布式计算技术增加提取系统 的并行能力,设计新型算法以优化刷新策略,但是w e b 信息的刷新问题的解决还远不 能令人满意,许多大型通用搜索引擎刷新一次w e b 数据需要几周甚至几个月的时间。 然而,对于垂直搜索的w e b 信息提取而言,这个问题相对容易处理。随着提取页面数 量的大幅度降低,就可以缩短页面的刷新周期,从而使得数据过时的风险也随之降低。 其次,提高了资源的有效利用率,极大地节省了资源的消耗。整个w e b 上的信息 量十分庞大,试图对w e b 进行整体信息提取或完全镜像地提取系统,且不说这样做法 的可行性,就其在提取过程中所使用的硬件资源和网络资源而言,代价将是十分巨大的。 而事实上,许多页面的使用几率很小,这就存在着一个极大的信息资源的存储浪费问题。 西安科技大学硕士学位论丈 i 7 1 暑暑暑i i i i i ;i ;i 掌审i i 昌i i i i i i i i ;i ;i i i i i i i i i i i i i i i i i j i i 暑i i i ;宣i 葺置暑暑暑i ;宣i 暑暑宣暑暑暑i ;i i i 宣暑暑暑;暑i i i i i i i 罱宣i 垂直搜索的w e b 信息提取就是在采集过程中对u r l 根据主题信息的需要有所裁剪。通 过u r l 的主题相关性的裁剪,使被剪掉的u r l 数目远大于被采集的u r l 数目,它们 之间的差别甚至可以是几个量级,这样做的同时使得采集到的页面有着较高的利用率。 再者,以一种更加专注、更加灵活的方式为用户提供服务。w e b 信息提取的目的就 是为了服务于特定的用户,对于特定用户而言,他们不需要关心整个w e b 上的页面数 据,而只需要其中一个很小的部分,而这部分数据往往就集中在一个很小的或者几个有 限的主题领域内。垂直搜索的w e b 信息提取恰恰可以满足这些用户的需求,而且,由 于提取页面数量较少,页面内容也更有针对性,能够更好地针对需要为用户提供服务。 最后,通过众多方向的垂直搜索w e b 信息提取器的协同工作,可以提高对整个w e b 的页面提取覆盖率。随着w e b 上信息的爆炸性增长,w e b 信息提取的速度已经越来越 不能满足实际应用的需要。有统计数据表明,即使大型的搜索引擎系统,它们对w e b 的页面覆盖率也只有3 0 4 0 。解决这个问题的直接办法是升级信息提取系统的硬件, 采用处理能力更强的计算机,然而这种方法扩展性有限,同时性价比也不高。相对更好 的解决方法是采用分布式计算来提高并行能力,但是并行技术的采用不仅增加了系统的 开销和实施复杂度,并且并行带来的效益随着并行提取系统数目的增加而显著减小。而 垂直搜索的信息提取,由于关注的页面数量少,并且对于该主题内的页面挖掘能力更强, 所以和传统的面向整个w e b 的信息提取系统相比,它在相关主题内能够采集到数量更 多质量更好的页面。当多个主题w e b 信息提取系统按照各自的主题领域分类对相关主 题页面进行提取后,它们所提取页面的综合页面集相对于w e b 的覆盖率也就更高了。 1 2 垂直搜索引擎的研究现状 目前,国内外的搜索引擎的发展趋势是通用型搜索引擎向特色垂直搜索引擎转变。 在网络信息多样化和网络用户多样化的形势下,人们希望在网络上找到更丰富,更实用 的资源,并且是在不耗费大量时间的前提下,而不是漫无目的地查找。在这样的背景之 下,垂直搜索引擎便大有作为,下面介绍一些较具有代表性的系统。 国内垂直搜索引擎介绍: ( 1 ) 职脉网 职脉网是2 0 0 6 年初成立的网络招聘网站,融合了w e b 2 0 的概念,通过人才相互之 间的推荐达到更有效的找到合适的人才。1 0 月份推出了招聘垂直搜索,包括社会招聘搜 索、招聘公司名搜索和校园招聘搜索。总共有四个产品线:搜索、推荐、博客、社区。 是一个既具有搜索,又有互动的第二代招聘网站代表之一。 ( 2 ) w v g w f o l o d a t o m 房老大是一个专业的,提供纯粹的房源信息的搜索平台。该搜索引擎涉及二手房、 2 1 绪论 租房、新房、别墅、写字楼、商铺以及厂房七种不同的房源,涵盖1 0 0 个城市。全部房 源信息由房源供应方自行填写,信息内容包括地理位置、面积、户型、价格等。与通用 的搜索引擎相比,房老大的搜索结果更实用、全面、精确。 ( 3 ) 一呼百应 专业b 2 b 商贸搜索引擎平台,国内4 6 0 0 万中小企业产品销售采购搜索平台。每日 通过数以百万次供求搜索的响应,数百万的网民获得了其所需的各类供求信息的同时, 带给数百万家中小企业大量的需求新客户,让供求双方在体验搜索的同时,轻松享受电 子商务的乐趣。 ( 4 ) 酷讯搜索 酷讯搜索是一个以火车票搜索起家的搜索引擎。当人们通过b a i d u ,g o o g l e 等通用 搜索引擎很难找到自己想要的火车票信息时,酷讯搜索及时地提供了一个快速且准确的 信息获得平台,迎合了用户的需求。现在,酷讯搜索又拓展了对机票、酒店等方面信息 的搜索业务。 国外搜索引擎介绍: ( 1 ) e l s e v i e r 的s c i r u s 系统 3 1 s c i r u s 科学搜索引擎是一种专为搜索高度相关的科学信息而设计的搜索引擎,获得 搜索引擎观察授予的“最佳专业搜索引擎奖 。s c r i u s 是目前互联网上最全面、综 合性最强的科技文献门户网站之一。 ( 2 ) b e r k e l e y 的f o c u s e dp r o j e c t l 4 该系统由一个印度裔的科学家s c h a r k r a b a r t i 带头研究开发,通过两个程序来指导 爬行器。一个是分类器,用来计算下载文档与预定主题的相关度;另一个程序是净化器, 用来确定那些指向很多相关资源的页面。 ( 3 ) n e c 研究院的c i t e s e e r c i t e s e e r ( 又名r e s e a r c h l n d e x ) ,是n e c 研究院在自动引文索弓l ( a u t o n o m o u sc i t a t i o n i n d e x i n g ,a c i ) 机制的基础上建设的一个学术论文数字图书馆。这个引文索引系统提供了 一种通过引文链接的检索文献的方式,目标是从多个方面促进学术文献的传播和反馈。 c i t e s e e r 检索w e b 上的p o s t s c f i p t 和p d f 两种格式的学术论文。目前,在c i t e s e e r 数 据库中可检索超过5 0 万篇论文,这些论文涉及的内容主要是计算机领域。 ( 4 ) 美国国家科学图书馆的c o l l e c t i o nb u i l d i n gp r o g r a m 这个项目旨在为科学、数学、工程和技术创建大规模的在线数字图书馆,试图研究 在某一主题上资源自动建设的可能性。 1 3 本论文的主要工作 本文在深入研究垂直搜索引擎的基本原理,核心技术及体系结构的基础上,结合实 3 西安科技大学硕士学位论文 际需求,设计并实现了威客任务信息垂直搜索引擎系统,包括主题蜘蛛模块、信息提取 模块、索引与检索模块。以下是本文的主要工作。 第一章是绪论。介绍了论文的研究背景与意义及本文的主要工作。 第二章是面向垂直搜索引擎的技术分析。在这一章中首先介绍了通用搜索引擎的发 展、分类及组织结构,然后根据本文的需求,深入地研究了垂直搜索引擎的关键技术, 包括主题相关度的判断、中文分词技术及网页排名技术。这些关键技术的研究为下面两 章的设计与实现提供了技术依托。此外,本文还比较系统地介绍了l u c e n e 的相关技术 及最新发展动态。以保证在系统设计时能够使用最新的技术。 第三章是威客任务信息垂直搜索引擎的设计。首先阐述了系统功能与设计目标,然 后,按照系统主要功能划分为以下几个模块。主题蜘蛛模块的设计、信息提取模块以及 索引和检索模块的设计。 第四章是威客任务信息垂直搜索引擎的实现。根据第三章的技术框架,对具体内容 进行实现,完成了主题蜘蛛v e r t i c a ls e a r c h 的开发,实现了主题信息的采集与索引工作, 另外,设计了比较友好的搜索界面,以方便用户搜索。 第五章是论文的最后一章。总结了本文的主要工作及今后的发展的方向。 4 2 面向垂直搜索引擎的技术分析 2 1 搜索引擎概述 2 面向垂直搜索引擎的技术分析 随着i n t e m e t 的飞速发展,人们越来越依靠网络来查找他们所需要的信息,i n t e m e t 上的信息资源呈现以下特点:信息量大而分散:自治性强;信息资源多种多样;不一致 和不完整性。而能记住超过1 0 个以上域名的用户还属于少数,而且以后也会是少数。 在这样的情况下,如何获取我们所需要的信息,就成了一个很关键的问题。为了解决这 个问题,搜索引擎随之诞生。 搜索引擎技术1 5 7 j 的基础是全文检索技术,国外对全文检索技术的研究2 0 世纪6 0 年代就开始了。现代意义上的搜索引擎的祖先,是1 9 9 0 年由蒙特利尔大学学生a l a n e m t a g e 发明的a r c h i e 。虽然当时w o r l dw i d ew e b 还未出现,但网络中文件传输还是相 当频繁的,而且由于大量的文件散布在各个分散的f t p 主机中,查询起来非常不便,因 此a l a ne m t a g e 想到了开发一个可以以文件名查找文件的系统,于是便有了a r c h i e 。 a r c h i e 工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件, 然后对有关信息进行索引,供使用者以一定的表达式查询。由于a r c h i e 深受用户喜欢, 受其启发,1 9 9 3 年出现了大量的搜索引擎,它们利用机器人程序在网络间穿梭收集信 息。1 9 9 4 年,d a v i df i l o 和美籍华人杨致远共同创办了y a h o o ,由a l tv i s t a 提供技术支 持,采用目录索引技术。这就标志着以y a h o o 为代表的第一代搜索引擎正式运行。由于 y a h o o 搜索引擎需要大量的人工维护来完成网页目录的更新工作,因此降慢了其更新速 度,而且主观性比较强,收录的信息不是很全面。m i c h a e lm a u l d i n 将j o h nl e a v i t t 的s p i d e r 程序接入到创建于1 9 9 4 年的l y c o s 的索引程序中,搜索引擎进入快速发展时期。l y c o s 支持前缀匹配和字符相近限制,而且还第一个在搜索结果中使用了网页自动摘要。1 9 9 5 年,第一个元搜索引擎出现,但是,由于元搜索引擎的检索结果始终不让人满意,所以 元搜索引擎也没有大规模被应用。1 9 9 8 年,g o o g l e 的出现标志着搜索引擎的发展进入 一个崭新的阶段,g o o g l e 采用了新的网页链接评价体系,依据网页链接数量来评价文件 的重要性,提高了搜索的效率、准确率,使用户获得更多更全面客观的实时信息,直到 现在g o o g l e 己成为行业的代表。 国内搜索引擎起源于“中国教育科研网 这项工程的子项目。中文搜索引擎作为 国家重点科研建设项目,其基础理论研究工作起步较晚,从2 0 世纪末才真正开始立项, 但是发展速度很快。1 9 9 7 年,诞生了国内最早的搜索引擎天网,并于2 0 0 4 年推出了其 更新版本,它是一个公益性质的搜索引擎。2 0 0 0 年,由华人学者创立的百度商业搜索引 5 西安科技大学硕士学位论文 擎,至今仍然处于中国搜索引擎的领先地位。近年来,各种各样的搜索引擎系统也如雨 后春笋般涌现,搜索引擎市场出现了前所未有的繁荣景象。 搜索引擎按其工作方式主要分为三种,分别是全文搜索引擎( f u l lt e x t s e a r e h e n g i n e ) 、目录索引类搜索引擎( s e a r e hi n d e xd i r e c t o r y ) 和元搜索引擎( m e t a s e a r e he n g i n e ) 。 ( 1 ) 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外代表性的有g o o g l e 、a l t av i s t a 、i n k t o m i 、 t e o m a 、w i s e n u t 等,国内著名的有百度( b a i d u ) 。它们都是通过从互联网上提取各个网 站的信息( 以网页文字为主) ,以建立索引数据库,通过检索与用户查询条件匹配的相关 记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。 从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程 序( i n d e x e r ) ,俗称“蜘蛛 ( s p i d e r ) 程序或“机器人 ( r o b o t ) 程序,并自建网页数据库, 搜索结果直接从自身的数据库中调用,如上面提到的几家搜索引擎;另一种则是租用其 他引擎的数据库,并按自定的格式排列搜索结果,如l y e o s 引擎。 ( 2 ) 目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目 录分类的网站链接列表而己。用户完全可以不用进行关键词( k e y w o r d s ) 查询,仅靠分类 目录也可找到需要的信息,它们主要依靠人工维护网站索引。基于目录的搜索引擎通过 人工浏览各站点的信息,按照一定的分类规则或分类体系,对网站进行分类。一般来说, 它们具有结构清晰、错误较少,比较符合人们的阅读习惯的优点,而缺点是工作人员多、 整理周期长,速度慢、人工干预成分多,不能适应w e b 资源的规模发展,另外如果查 找的信息没有对应的分类项,则无法进行搜索。目录索引中最具代表性的莫过于大名鼎 鼎的y a h o o 。其他著名的还有o p e n d i r e e t o r yp r o j e c t ( d m o z ) 、l o o k s m a r t 。国内的搜狐、 网易搜索也都属于这一类。 ( 3 ) 元搜索引擎 元搜索引擎是一种通过调用其它独立搜索引擎而完成搜索服务的搜索引擎,是用户 同时使用多个独立搜索引擎进行网络搜索的中介。用户只需递交一次检索请求,由元搜 索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起 来以整体统一的格式呈现到用户面前。元搜索引擎通过综合利用多个搜索引擎的搜索服 务,可以在一定程度上弥补单个搜索引擎的不足,但是元搜索引擎的出现,并不能使搜 索引擎技术得到质的飞跃,它们仅仅只是提供了搜索结果的重新组织。著名的元搜索引 擎有i n f o s p a c e 、d o g p i l e 、v i v i s i m o 等。中文元搜索引擎中具代表性的有搜星搜索引擎。 在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如d o g p i l e ,有的则按自定 的规则将结果重新排列组合,如v i v i s i m o 。 除上述三大类引擎外,还有以下几种非主流搜索引擎: 6 2 面向垂直搜索引擎的技术分析 集合式搜索引擎:如h o t b o t 在2 0 0 2 年底推出的引擎。该引擎类似m e t a 搜索引擎, 但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4 个引擎当中选择, 因此叫它“集合式”搜索引擎更确切些。 门户搜索引擎:如a o ls e a r c h 、m s ns e a r c h 等虽然提供搜索服务,但自身即没有 分类目录也没有网页数据库,其搜索结果完全来自其他引擎。 免费链接列表( f r e ef o ra l ll i n k s ,简称f f a ) :这类网站一般只简单地滚动排列链接 条目,少部分有简单的分类目录,不过规模比起y a h o o 等目录索引来要小得多。 2 2 搜索引擎的体系结构 不论是g o o g l e ,百度及一些其他大规模高质量搜索引擎,一般都包括如下几个阶段: 网页搜集阶段、预处理阶段、服务阶段。 网页搜集阶段:搜索引擎服务的基础是一大批预先搜集好的网页,获取这些网页就 是在网页搜集阶段需要完成的工作。严格来讲,网页搜集阶段只考虑对海量网页数据的 抓取和原始存储两个关键活动。对于网页的抓取可以利用广度优先和深度优先以及其他 组合策略:对于抓取网页的维护可以采取定期搜集,增量搜集等方式。 预处理阶段:得到海量的原始网页集合,离面向网络用户的检索服务之间还有相当 的距离。采用“程序= 算法+ 数据结构”的观点来考察服务子系统,一个合适的数据结构 是查询子系统工作的核心和关键。如今最有效的数据结构是“倒排文件 ,而预处理过 程主要指从网页集合形成倒排文件的过程,主要包括四个方面:关键词提取,网页消重, 链接分析和网页重要程度计算。 服务阶段:查询服务负责依据用户提交的查询词或短语生成一个满足一定排序要求 的结果网页列表,主要实现三个方面的功能:查询词切分,结果排序,文档摘要。 基于上述流程,现代大规模高质量搜索引擎的体系结构1 8 j 示意如图2 1 。 其中a 部分( 信息搜集模块) :网页的搜集从u r l 库中获得输入,解析u r l 中的 w e b 服务器地址、建立连接、发送请求和接收数据,将获得的网页数据存储在原始网页 库,并从其中提取链接信息放入网页结构库,同时将待抓取的u r l 放入u r l 库,保证 整个过程迭代进行,直到u r l 库为空。 b 部分( 信息预处理) :经过w e b 信息搜集,保存下来的网页信息已经按照特定的格 式保存。因此这部分的第一步就是为原始网页建立索引,有了索引就可以为搜索引擎提 供网页快照功能;接下来针对索引网页库进行网页切分,将每一篇网页转化为一组词的 集合;最后将网页到索引词的映射转化为索引词到网页的映射,形成倒排文件,同时将 网页中包含的不重复的索引词汇聚成索引词表;此外,基于网页之间的结构信息( 链接, h t m l 标签等) 分析网页的信息重要程度,构建网页的元信息。 7 西安科技大学硕士学位论文 ;i i i i - r 一 一墨ii 篁暑暑i i 暑;青置暑宣 c 部分( 查询服务) :传递到服务阶段的数据包括索引网页库、倒排文件及网页元信 息。查询代理接受用户输入的查询短语,切分后,从索引词表和倒排文件中检索获得包 含查询短语的文档并利用p a g e r a n k 等元信息以及查询的历史日志等信息综合计算结果 集的重要程度,排序返回给用户。 a 搜集b 整理 图2 1 搜索引擎体系结构图 2 3 垂直搜索引擎与通用搜索引擎的比较 ( 1 ) 通用搜索引擎的不足 不管g o o g l e 还是百度,都是传统意义上的通用搜索引擎,这类搜索引擎很大程度 上解决了用户在互联网上查找信息的困难,也使用户面临着如下的问题。 覆盖率低:基于w e b 的自身特点,大量的数据分布在数以亿计页面的互联网上, 检索起来困难重重。单个搜索引擎的覆盖率一般都低于3 0 ,很难索引所有的w e b 资 源。 时效性差:互联网信息呈指数增长,大量信息的存活期却在缩短,这导致搜索 引擎的时效性很难保证,返回结果中存在大量无效或过时的链接。 易导致迷航:经典的信息检索界认为用户很难简单地用关键字来表达他所真正 需要检索的内容,甚至根本就不知道要找什么东西,即所谓“迷航”。表达的困难将导 致检索结果的不理想,而且如何将结果表达成用户容易理解和使用的方式也是个难 题。 结果不准确:一次搜索的结果可能有成千上万条,而在这过于庞大的信息中, 8 2 面向垂直搜索引擎的技术分析 有用信息只是其中的小部分,可谓“冰山一角 ,并且常常发生收到和下载的信息难以 消化的情况,即所谓的“认知过载 。 过于死板:现有的搜索引擎多采用关键词的机械式匹配。没有对用户的输入进 行语义理解,这种方式的固有缺点是参与匹配的只有字符的外在表现形式,而非它们所 表达的概念。因此,经常出现所答非所问、检索不全的结果。 ( 2 ) 垂直搜索引擎的优点 垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的 新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的 有一定价值的信息和相关服务。其特点就是“专、精、深,且具有行业色彩,相比较 通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。具体来 说垂直搜索引擎就是查询某一学科或主题的信息而产生的查询工具,专门收录某一方 面、某一行业或者某一主题的信息,在解决某些实际查询的时候比通用搜索引擎有效。 垂直搜索引擎的网络蜘蛛只抓取特定主题的信息,按预先己经定义好的主题有选择 地收集网页。由于所收集的学科领域小,信息量相对较少,更新及时,因而有效地解决 了通用搜索引擎的弊端。由于垂直搜索引擎只涉及一个或几个领域,词汇和用语“一词 ( 一语) 多意 的可能性降低,而且可以利用专业词表进行规范和控制,大大提高查全率 和查准率。 这种高度目标化、专业化的搜索引擎的优势在于针对性强,对特定范围的网络信息 的覆盖率相对较高,有明确的检索目标定位,有效地弥补了综合性搜索引擎对专门领域 及特定主题信息覆盖率过低的问题。 2 4 垂直搜索引擎的关键技术 2 4 1 主题相关度的判断 垂直搜索引擎与通用搜索引擎最大的区别在于垂直搜索引擎是面向某个领 域的,因而垂直搜索引擎的网络蜘蛛只采集与主题相关的网页,与主题无关的网页将被 丢弃,将此类网络蜘蛛称为主题蜘蛛。 主题蜘蛛将网页下载到本地后,需要使用基于内容的主题判别方法计算该网页的主 题相关度值,主题相关度低于某一阈值的网页被丢弃。主题相关度的计算方法有布尔模 型和向量空间模型。 ( 1 ) 布尔模型 在主题判别时,布尔模型是最容易实现的。在布尔模型【9 】中,一个文档通过一个关 键词集合来表示。同时,某个主题也以关键词集合的形式来表示。在判断文档与某主题 的相关度的过程中,相当于是计算两个关键词集合的交集。对基于布尔模型的主题判别 9 西安科技大学硕士学位论天 模型来说,交集中含有的元素越多,则认为与主题的相关度就越高。可以用文档d 与主 题关键词集合t 之间交集元素的个数占集合t 的比例来代表文档d 的主题相关度 s i m ( d ) ,公式表示如下: s i m ( d ) :百i i d n 2 l ( 2 1 ) 0 布尔模型的主要缺陷在于每个关键词的权重都是一样的,它不支持设定关键词的 相对重要性,但是其优点也较为明显,它易于实现,计算代价较小。 但) 向量空问模型 向量空间模型【1 0 l ( v e c t o rs p a c em o d e l ) 由s a l t o n 等人于2 0 世纪6 0 年代末提出,是 一种简便、高效的文本表示模型,其理论基础是代数学。与布尔模型不同,向量空间模 型把用户的查询要求和数据库文档信息表示成由检索项构成的向量空间中的点( 向量) , 而通过计算向量之间的距离来判定文档和查询之问的相似程度( 例如,用它们之间夹角 的余弦作为相似性度量) 。然后,根据相似程度排列查询结果。 在向量空间模型中,文档被形式化为n 维空间中的向量,空间的一维是倒排表 ( i n v e r t e di n d e x ) 中的一个词语,形式如下: 在v s m 中将文档看成是相互独立的索引词组t l ,t 2 ,t m 构成。1 1 个文档组 成的集合d = p 。,d 2 ,d 。 被m 个索引词t l ,t 2 ,t m 表示成一个m x n 的索引词一 一文档矩阵a 【l l j : 么= ( a i j ) m n ( 2 2 ) 其中,a 的每个元素a i i 通常定义为索引词i 发生在文档j 中的权重频率。并且 a = ( 口l ,a 2 ,o o a 。) = b l b 2 b ( 2 - 3 ) 在向量空间模型中,a 的列称为文档向量,a 的行称为索引词向量,a 的列空间确 定了文档的语义内容,即索引词和文档被编码作为m 维向量空间的向量。文档d 表示 为: d = ( d l ,d 2 ,一彳。) ( 2 4 ) 1 0 2 面向垂直搜索引擎的技术分析 口= 口l j 1 2 2 i 口m j 用户查询也可以表示为如下的向量: q = g l 9 2 g m = ( 口l ,a 2 刀辨f ) 7 ,i = 1 , 2 ,甩( 2 5 ) = ( g l ,9 2 ,q ,) r ( 2 6 ) 可以看出,这里已经将文档信息的检索问题转化到向量空间中向量匹配的问题。假 设被检索的文档为d = 口= ( 口i j 口2 ,口删) r ,用户查询为q = ( 口l ,9 2 ,g 。) r 则文档信息 检索返回率可以用向量空问的夹角来度量,两者夹角越小说明相似度越高,相似度s i m 为: s i r e = g ,d ) = c o s 乡 肿 口l ,q , f = l 口:g 2 而 ( 2 7 ) ,j = 1 ,2 ,以 其中词语权重计算唯一准则就是要最大限度地区分不同文档。最为典型并被广泛使 用的文档词语权重计算方法为t f i d f t l 2 1 ,如公式所示: 。 吮l 。g ( 七+ o 0 1 ) 肾霉雨萄丽2 ( 吮) 2 【l o g 七+ o 0 1 】2 ( 2 8 ) 公式2 8 中的w i k 为 中 的权重;塌k 是 在 中出现的频 率;l o g ( n n k + 0 0 1 ) 是 词语p 在多义词所有义项词语中分布情况的量化,其中n 为文档 集合中的文档数目,n k 为出现过 的文档数目;公式( 2 8 ) 的分母是对各分量进行 标准化。 公式2 8 的提出是基于这样一种假设:对区别文档最有意义的词语应该是那些在文 档中出现频率足够高,但在整个文档集合的其他文档中出现频率足够少的词语。可以看 出,向量空间模型的量化基础是词语的出现频率和包含词语的文档频率。 西安科技大学硕士学位论文 向量空间模型最大优点在于它在知识表示方法上的巨大优势。在该模型中,文档的 内容被形式化为多维空间中的一个点,以向量的形式给出。也正是因为把文档以向量的 形式定义到实数域中,才使得模式识别和其他领域中各种成熟的算法和计算方法得以采 用,极大地提高了自然语言文档的可计算性和可操作性。 2 4 2 中文分词技术 简单地说,分词就是将连续的字( 词) 序列按照一定的规范重新组合成词序列的过 程。信息处理用现代汉语分词规范中对分词的定义是:从信息处理需要出发,按照 特定的规范,对汉语按分词单位进行划分的过程。对于英文分词,只要简单地以空格为 分界符就能很好地把句子分析出来。这是由于英文是以词为单位的。不同于英文,计算 机对中文分词时,由于中文句子中词与词之间是没有空格的,而且,两个字组合起来看 似是一个词在句子中未必是一个词,所以计算机想要识别出中文句子中的词,就必须采 用不同于英文分词的新技术。例如,英文句子ia mas t u d e n t ,用中文则为:“我是一个 学生 。计算机可以很简单通过空格知道s t u d e n t 是一个单词,但是不能很容易明白 “学”、“生 两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就 是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我是一个学生。 ( 1 ) 中文分词的特点 中文句子的基本单位是字而不是词,但理解一个句子的单位却是词。字组成了词, 由词组成了句子,才使得一个句子有意义。但分词中的词与语言学中说的词有一定的区 别:分词中所说的词,是指一个分词单位。分词单位包含了语言学中的词。信息处理 用现代汉语分词规范中,对词的定义是:最小的能独立运用的语言单位。对分词单位 的定义是:汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规 范的规则限定的词和词组。然而,并不是所有的研究人员都按照信息处理用现代汉语 分词规范来进行中文分词。在词的问题上,没有一个统一的标准。 中文词的最大特点是中文构成词的能力非常强大,中文词的集合是一个开放集。一 个汉字可以和很多汉字组成词,比如“瓶 :有奶瓶、花瓶、醋瓶、酒瓶、啤酒瓶、酱 油瓶、氧气瓶、液化气瓶、玻璃瓶、塑料瓶等等;又如“子 :有瓶子、袋子、盒子、 叶子、绳子、牌子、桌子、椅子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论