(计算机应用技术专业论文)基于lucene的面向主题信息搜索系统的关键技术分析及应用(1).pdf_第1页
(计算机应用技术专业论文)基于lucene的面向主题信息搜索系统的关键技术分析及应用(1).pdf_第2页
(计算机应用技术专业论文)基于lucene的面向主题信息搜索系统的关键技术分析及应用(1).pdf_第3页
(计算机应用技术专业论文)基于lucene的面向主题信息搜索系统的关键技术分析及应用(1).pdf_第4页
(计算机应用技术专业论文)基于lucene的面向主题信息搜索系统的关键技术分析及应用(1).pdf_第5页
已阅读5页,还剩91页未读 继续免费阅读

(计算机应用技术专业论文)基于lucene的面向主题信息搜索系统的关键技术分析及应用(1).pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 l | i i i l l l l l l l l l l l l l l l l l l l l t l l l l l l l l l l l l l l l l l l y 18 8 0 5 9 8 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签名:筮垒! 塾日期:垫! l 兰:三i 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :越垒叁导师( 签名) : 摘要 网络信息的爆炸性增长使搜索引擎成为人们上网必不可少的工具之一。其 中应用最广泛的是以g o o l g e 、百度为代表的综合性搜索引擎,这类搜索引擎服 务对象是网络大众用户它为广大网络用户在查找信息上提供了很大的方便。但 随之而来的查找结果的准确率低,其一是因为由于抓取网页数量以指数级别增 大,对这些网页的预处理能力降低,致使查询结果中存在大量重复网页;其二, 人们由于生活环境与工作环境的不同,对信息关注方向也不同,例如一个气象 工作人员,他们希望查询到的结果会把与气象相关的网页优先排序在前几页, 而一个农业工作者希望将与农产品相关的网页优先显示,这样一来综合性搜索 引擎便无法满足这类专业领域人员的需求了。在这种背景下面向主题的搜索引 擎应运而生。 面向主题的搜索引擎系统与综合性网页搜索引擎最大的区别就是对网页信 息进行了结构化信息抽取,这样做的好处是,在把网页分化成小粒度的单元后, 更加方便对网页文档的内容进行加工处理,如网页净化、去重等。由于搜索引 擎中运作着的各部分是环环相扣,当有了质量较高的网页预处理过程,接下来 可以减小索引的负担,且搜索出的结果准确率更高,使用户有更高的体验度。 面向主题搜索系统中,将它分为四大主要部分,分别为:数据搜集模块、 网页预处理模块、索引模块、搜索模块。其中,网页预处理模块又可以分为网 页净化和网页消重模块。在面向主题的搜索引擎中会使用到许多技术,为了更 加贴合主题搜索,对其中的几种技术进行改进,主要工作如下: 首先,介绍了网页爬虫h e r i t r i x 的使用,在原抓取的技术上,添加了在抓取 过程中进行了u r l 匹配判断的功能,使h e r i t r i x 爬行的结果更加贴合主题。 其次,介绍了网页解析技术h t m l p a r s e r ,以及如何利用h t m l p a r s e r 来解析网 页来以达到网页净化与消重的目的。网页预处理过程在面向主题搜索系统中有 着举足轻重的作用,详细描述了网页净化的算法,在网页消重中描述了当前主 流的指纹消重算法,并探讨了几种对指纹的“原材料 一特征串的提取的几种 方法,并指出它们在实际运用中判断重复网页准确率上的不足。针对这一情况, 在算法中引入一种文档分段算法一t e x t t i l i n g 分段算法,并在原有算法的基础上 加入同义词集对t e x t t i l i n g 算法进行改进,使之能更好的适应中文文档中同义词 的变化。最后对基于权值的和本文提出的基于改进后的t e x t t i l i n g 分段算法在实 际网页消重中进行实验比较,有效地对网页消重中有待完善的方面进行了补充。 再次,介绍了本文中建立索引和提供搜索接口的核心技术l u c e n e ,详细描 述了l u c e n e 工作原理,对于l u c e n e 中的索引建立采用了多线程技术,大大提高 其索引效率;详细分析了l u c e n e 的排序过程及其公式,并在原有排序公式的基 础上提出适合主题搜索的排序公式。 最后,在对面向主题的搜索系统进行研究后,设计了一个供气象人员使用 的主题搜索引擎系统,系统中还加入一些个性化设置,如热点词推荐和网页预 览功能。热点词推荐是利用索引后的文件按一定算法对最近使用频繁的词语进 行搜集并呈现给用户;网页预览功能是让用户在不用打开一篇网页的基础上对 网页的内容进行浏览。 关键词:面向主题搜索、l u c e n e 、t e x t t i l i n g 、h t m l p a r s e r 、网页消重 i i a b s t r a c t t h ee x p l o s i v eg r o w t ho fn e t w o r ki n f o r m a t i o nm a k es e a r c he n g i n e sb e c o m ea l l i n d i s p e n s a b l et 0 0 1 o n eo ft h em o s tr e p r e s e n t a t i v ec o m p r e h e n s i v es e a r c he n g i n e s y s t e mi sg o o g l ea n db a i d u ,s u c hs e a r c he n g i n ep r o v i d e ss e r v i c e st ot h ep u b l i cw e b u s e r s ,w h i c hg i v eab i gf a v o rt ou s e r st of m du s e f u li n f o r m a t i o no nt h ei n t e r a c t b u t w h i c hc o m e sw i t ht h ec o n v e n i e n c e ,t h es e a r c hr e s u l th a v eal o wp r e c i s i o n o n ei s b e c a u s et h en u m b e ro fp a g e st oc r a w li si n c r e a s i n gi na l li n d e xl e v e l ,s ot h e w e b p r e - p r o c e s s i n ga b i l i t y o nt h e s ep a g e si sb r i n gd o w n ,t h e ni tw i l ll e a dt oam e s s d u p l i c a t ew e bp a g e si ns e a r c hr e s u l t ;t h es e c o n di sb e c a u s e o ft h ed i f f e r e n c eo fl i v i n g e n v i r o n m e n ta n dw o r k i n ge n v i r o n m e n to fd i f f e r e n tp e o p l e , t h e yw i l lc o n c e r na b o u t d i 伍甜e 1 1 td i r e c t i o no f t h ei n f o r m a t i o n a m e t e o r o l o g i s th o p e s t h a tt h e m e t e o r o l o g y - r e l e v a n tr e s u l t so f t h eq u e r yc a l lb ep r i o r i t i z e di nt h ef i r s tf e wp a g e s ;a n a g r i c u l t u r ew o r k e rh o p e st h a tt h ef a r m r e l e v a n tr e s u l t so f t h eq u e r yc a l lb ep r i o r i t i z e d i n l ef i r s tf e wp a g e s p e o p l ei nd i f f e r e n ta r e ah a v ed i f f e r e n tr e q u i r e m e r , t ,s o t h e c o m p r e h e n s i v es e a r c he n g i n ec a nn o tf i l lt h ed e m a n d sf r o mp r o f e s s i o n a ls t a f f i nt h i s c o n t e x t ,s u b j e c t o r i e n t e ds e a r c he n g i n ec o m e so u t t h e b i g g e s t d i f f e r e n c eb e t w e e n s u b j e c t o r i e n t e d s e a r c he n g i n ea n d c o m p r e h e n s i v ew e bs e a r c he n g i n ei st h e f o r m e rh a se x t r a c t e da n dt h e nu s et h e s t r u c t u r e di n f o r m a t i o no ft h ew e bp a g e s ,t h i si su s e f u lb e c a u s e t h es m a l ls i z eo fp a g e s g i v eu sm a n yc o n v e n i e n c ew h e nw ed os o m ef u r t h e rp r o c e s s ,s u c h 鹤p u r i f i c a t i o n , e l i m i n a t i o no fd u p l i c a t ew e bp a g e s ,e r e s i n c ee v e r yp a r to fs e a r c he n g i n ea r ea l l l i n k e dw i t ho n ea n o t h e r , s oi fw eg e tab e t t e rw e bp r e - p r o c e s s i n g , t h e nw ec a nr e d u c e t h eb u r d e no ni n d e x i n g , a n ds e a r c ho u tt h er e s u l t sw i t hah i g h e ra c c u r a c y , t h i sa l l o w u s e r st oh a v eh i g hd e g r e eo fe x p e r i e n c e s u b j e c t o r i e n t e ds e a r c hs y s t e mc a n b ed i v i d e di n t of o u rm a i np a r t s ,n a m e l y :d a t a c o l l e c t i o nm o d u l e ,w e bp r e - p r o c e s s i n gm o d u l e ,i n d e x i n gm o d u l e , s e a r c hm o d u l e a m o n gt h e m ,t h ep a g ep r e - p r o c e s s i n gm o d u l ec a n b ed i v i d e di n t op u r i f i c a t i o na n d e l i m i n a t i o no fd u p l i c a t ew e bp a g e s t h e r eh a v em a n yt e c h n i q u e si ns u b j e c t - o r i e n t e d s c a t c he n g i n e ,h e r ew ei n t r o d u c e ds o m em a i n l yt e c h n i q u e s f o rt h ep u r p o s eo f r e q u i r e m e n to fm e t e o r o l o g y o r i e n t e d ,m a d es o m ei m p r o v e m e n t s o nt h ee x i s t i n g i i i t e c h n i q u e s ,t h em a i nw o r k i sa sf o l l o w : f i r s t ,i n 呐d u c et h ew o r kp r o c e s so fw e bp a g e s c r a w l e rh e r i t r i x ,a n dt h ed e t a i lo f h o wt 0u s ei tt 0c r a w lw e bp a g e s a d d e dau r lm a t c h i n g f u n c t i o nt om a k ei tc r a w l m u c hm o r ef i t t i n gs u b j e c t - o r i e n t e dp a g e s s e c o n d i n 岫d i i u c e dw e ba n a l y t i ct e c h n i q u e - - - h t m l p a r s e r , a n dg a v ea c o m p l e t e a l g o 珊no fh o wt ou s eh t m l p a r s e r t op a r s eap a g ei no r d e rt oa c h i e v et h ep u 印o s eo t p 谢f i c a t i o n w e bp a g ee l i m i n a t i o nh a sa l w a y sb e e na ni n d i s p e n s a b l ep a r tm s e a r c h e n g i n es v s t e m d e s c r i b e d t h ep u r i f i c a t i o na l g o r i t h m i nd e t a i l ,a n di r l t r o d u c e d f i n g e r p r i n t - m a t c h i n ge l i m i n a t i o na l g o r i t h m a l s ol i s t e da n d a n a l y z e ds e v e m lc 0 m m o n f e a t i l r e s t r i n g e x t r a c t i o na p p r o a c h e sa n di n d i c a t e dt h e i ri n a d e q u a c y 0 1 1p r e c l s l o n t e x t t i l i n gs e g m e n t a t i o na l g o r i t h mi sj u s tt h eo n e t of i xt h i si n a d e q u a c y , a n dt h e nw e a d d e dt o n g y i c ic i l i ne x p a n d e dt o s o l v et h ei d e n t i f i c a t i o no fs y n o n y m sw h i c h1 l s e c o m m o n l y i nc h i n e s ew r i t i n g t h i r d ,i n 臼o d u c e d t h ec o r et e c h n o l o g yl u c e n e ,w h i c hp r o v i d e s e a r c ha n d i n d e x i n gi n t e r f a c e sm a tu s e di ns u b j e c t o r i e n t e ds e a r c hs y s t e m d e s c r i b e d t h et h e o r y o fi 】c e l l e ,sw o r ki nd e t a i l ,f o rt h e u s eo fm u l t i - t h r e a d i n g ,g r e a t l yl m p r o v et h e e f f i c i e n c yo fi n d e x i n g a n a l y z e ds o r t i n gp r o c e s sa n d t h ef o r m u l a sw h i c hl u c e n eu s e d i i lr e s u l t ss o r t i n g ,o nt h eb a s i so ft h eo r i g i n a ls o r t i n gw a y w ec o n s 仃u c tan e w a l g o r i t h mt os o r ts u b j e c t o r i e n t e dr e s u l ti nt h ef i r s tf e w p a g e s a t1 a s t a f t e rt h er e s e a r c ho ft h es u b j e c t o r i e n t e d s e a r c hs y s t e m ,d e s i g na m e t e o r o l o g y o r i e l l t e ds e a r c hs y s t e m t h es y s t e ma l s oi n c l u d e ss o m e p e r s o n a ls e 位l n g s , s u c h 嬲h o t w o r d sr e c o m m e n d a t i o n a n dp r e v i e wo faw e bp a g e h o t - w o r d s r e c o m m e n d a t i o na l g o r i t h mu s et h ei n d e x i n gf i l e s ,m e t e o r o l o g yd i c t i o n a r y a n dh i s t o r y s c a r c hw o r d st oc o 眦tas c a 3 r ef o re a c ht e r m ,t h e ns e l e c tt h et o pm o u n t o fw o r d sb et h e h o t - ,o r d s w e bp r e v i e we n a b l eu s e r sk n o wt h ec o n t e n to f aw e bp a g ew i t h o u to p e na n e w1 i n kw i n d o w k e yw o r d s :s u b j e c t o r i e n t e d s e a r c h d u p l i c a t ew e bp a g e s 、d i m i n a f i o n s y s t e m ,l u c e n e 、t e x t t i l i n g 、p u r i f i c a t i o n 、 i v 目录 第l 章引言l 1 1 课题研究背景及现状1 1 2 搜索引擎技术的研究背景与发展趋势1 1 2 1 搜索引擎的发展历史1 1 2 2 搜索引擎的现状与发展趋势2 1 3 面向主题的搜索引擎系统4 1 3 1 面向主题搜索引擎的优势5 1 3 2 面向主题搜索系统的研究现状6 1 4 本文研究内容7 1 5 本文组织结构8 第2 章面向主题搜索系统的关键技术分析9 2 1 数据搜集器。9 2 1 1h e d t r i x 简介l l 2 1 2h e d t r i x 与n u t c h 的比较12 2 1 3h 舐t r i x 的配置使用l3 2 2 网页解析技术h t m l p a r s e r 16 2 2 1h t l :n l p a r s e r 概述1 6 2 2 2h 缸:n l p a r s e r 中主要类的介绍1 6 2 2 3h 仃r d p a r s e r 中遍历方式1 9 2 3 中文分词技术2 l 2 3 1 中文分词的研究现状2l 2 3 2 常见分词系统2 3 2 4 全文搜索框架l u c e n e 2 4 2 4 1l u c e n e 概述2 4 2 4 2l u c e n e 索引结构2 4 2 4 3l u c e n e 工作原理2 5 2 5 向量空间模型在面向主题搜索系统中的应用2 8 v 第3 章面向主题搜索系统的设计3 0 3 1 系统提出背景3 0 3 2 系统框架设计3 0 3 3 词典库设计3 2 3 3 1 气象专业词库3 2 3 3 2 动态词库3 2 3 4 开发环境与系统编程框架3 3 3 4 1 系统的开发环境3 3 3 4 2 系统编程框架与技术介绍3 3 第4 章数据搜集与网页预处理模块3 5 4 1 数据搜集模块详细设计3 5 4 1 1 数据搜集模块的基本配置3 5 4 1 2 面向主题的搜集3 7 4 1 3 实验结果分析4 0 4 2 网页预处理模块详细设计4 1 4 2 1 网页净化模块4 1 4 2 2 网页消重模块5 2 第5 章l u c e n e 索引与搜索模块6 1 5 1l u c e n e 建立索引的过程。6 l 5 1 1 提取文本内容6 1 5 1 2 多线程建立索引6 7 5 2l u c e n e 查询模块。7 3 5 2 1l u c e n e 搜索过程。7 3 5 2 2l u c e n e 中自带排序算法研究7 4 5 2 3 改进后的网页排序算法7 5 5 2 4 实验结果分析7 7 第6 章个性化设置与系统应用界面7 8 6 1 热点词推荐7 8 6 2 网页预览功能7 9 6 3 系统应用界面8 1 v i 第7 章结论与展望8 3 致谢8 5 参考文献8 6 攻读硕士研究生期间主要成果8 8 v i i 武汉理工大学硕士学位论文 第1 章引言 1 1 课题研究背景及现状 根据最新的中国互联网信息中心( c n n i c ) 发布的第2 7 次中国互联网发展 状况统计报告显示,截至2 0 1 0 年1 2 月,中国网民规模达到4 5 7 亿,较2 0 0 9 年 底增加7 3 3 0 万人;互联网普及率攀升至3 4 3 ,较2 0 0 9 年提高5 4 个百分点。 宽带网民规模为4 5 亿,有线( 固网) 用户中的宽带普及率达到9 8 3 【2 5 1 。由此 可见,互联网已经渗透到人们的生活、学习和工作等各个领域。互联网已经发 展为当今世界上资料最多、门类最全、规模最大的信息资源库。面对如此庞大 的信息源,w e b 用户想要找到自己想要的信息,难度非常大,这在某种程度上 影响了对w 曲站点的访问与利用。 在这种情况下,搜索引擎自然的成为了w e b 用户必要的应用,c n n i c 中指 出,搜索引擎的使用率已达到8 1 9 。用户对搜索引擎的依赖程度不断增加,刺 激了搜索引擎的不断发展。 1 2 搜索引擎技术的研究背景与发展趋势 1 2 1 搜索引擎的发展历史 搜索引擎( s e a r c he n g i n e s ) 是一个利用网络自动搜索技术软件或人工方式, 对i n t e r n e t 网络资源进行收集和整理,然后供你查询的系统,它包括信息搜集、 信息整理和用户查询三部分。搜索引擎在本论文中指的是一种在w e b 上应用的 软件系统,它以一定的策略在w e b 上搜集和发现信息,在对信息进行处理和组 织后,为用户提供w e b 信息查询服务。从使用者的角度看,这种软件系统提供 一个网页界面,让他可以通过浏览器提交一个词语或者短语,然后返回一个与 输入内容相关的信息列表。 在w e b 出现之前网络上存在的信息资源主要存在于各种允许匿名访问的 f t p 站点,内容以学术技术报告、研究软件居多,它们以计算机文件的形式存在。 为了便于人们在分散的f t p 资源中找到所需的东西,1 9 9 0 年加拿大麦吉尔大学 武汉理工大学硕士学位论文 ( u n i v e r s i t yo fm c g i l l ) 计算机学院的师生开发了一个软件,a r c h i e 。它通过定 期搜集并分析f t p 系统中存在的文件名信息,提供查找分布在各个f t p 主机中 文件的服务。1 9 9 3 年m a t t h e wg r a y 开发了w o r l dw i d ew e bw a n d e r e r ,它是世界 上第一个利用h t m l 网页之间的链接关系来监测w e b 发展规模的“机器人 ( r o b o t ) 程序,利用它能够检索网站域名。 现代搜索引擎的思路源于w a n d e r e r ,不少人在m a t t h e wg r e y 工作的基础上 对它的程序进行改进。1 9 9 4 年7 月,m i c h a e lm a u l d i n 在索引程序中引入j o h n l e a v i t t 的蜘蛛程序,创建了l y c o s ,成为第一个意义的搜索引擎。在那之后,随 着w e b 上信息的爆炸性增长,搜索引擎的应用价值也越来越高,不断有更新、 更强的搜索引擎推出。这其中,比较突出的是g o o g l e ,它使用了先进的p a g e r a n k 算法,这一算法一直被人们所研究,并被奉为搜索算法中的经典算法之一。 在中国,搜索引擎的研究起源于“中国教育科研网 ( c e i 玳e t ) 一期工程 中的子项目,北京大学计算机系的项目组在陈葆珏教授的主持下于1 - 9 9 7 年1 0 月在c e r n e t 上推出了天网搜索1 0 版本。该系统不断发展,目前已成为中国 最大的公益性搜索引擎( h t t p :e p k u e d u o n ) 。2 0 0 1 年8 月由李彦宏和徐勇发布 了百度搜索引擎b e t a 版,同年1 0 月正式公布了百度搜索引擎,并一直处于国内 搜索引擎的领先地位【”j 。 1 2 2 搜索引擎的现状与发展趋势 第一代搜索引擎出现于1 9 9 4 年前后,是以雅虎和i n f o s e e k 为代表的目录式 搜索引擎,这种搜索引擎以人工分类为主,计算机分类为辅来建立原始目录, 搜索结果的好坏往往用反馈结果的数量来衡量。这类搜索引擎的搜寻方法为: 网页构造人员将自己的网站加到资料库中并自己命名该网站,然后对自己的网 站进行数行文字的描述;搜索查询时以网站名和自定义的描述为参照。因此第 一代搜索引擎存在一个最大的缺点,就是忽略了对网页内容的搜索。 第二代搜索引擎出现于1 9 9 8 年,是以g o o g l e 、d i r e c t h i t 和百度为代表的综 合性搜索引擎,它们是面向广大网民、为普通用户提供综合性的服务,特征主 要是关键词搜索,主要依据机器人抓取信息,并且是建立在超链接分析基础上 的网页搜索。相比第一代搜索引擎,搜集信息方式以自动化为主,无需太多人 工干涉,对网上最新的内容能够较及时的收录;而且第二代搜索引擎包含对网 页内容的搜索,因此这类搜索引擎的查全率特别高。但是查全率高既是它的优 2 武汉理工大学硕士学位论文 点,也同时成为了它的缺点,因为查全率高,准确率会相应降低,查全率与准 确率是相互制约的两个评定因素。从用户体验度来说,好的搜索引擎系统是可 以把用户想要的结果显示在前两页上,而综合性搜索引擎的最大缺点,就是可 以查出太多与搜索关键字相关的网页,涉及各个领域、各个主题,以致于用户 真正想要的网页可能被显示在后几页。对于一般用户,这种搜索引擎也就足够 了,但是对于专业领域的研究人员来说这种效率低的搜索是不被推崇的。例如 一个气象专业人员在百度搜索引擎中输入“温度 这个词,根据调查分析普通 搜索引擎搜索出的网页相关性较高的结果集中在前三页,而在列出前三页的查 询结果中虽然和气象相关的“温度”仅占3 0 ,在这种情况下,气象专业研究 人员不得不去对这些搜索结果进行第二次人为的过滤和筛选,这样就消耗了他 们大量的时间。因此,以这种方式去找与他们专业领域相关的网页是不提倡的。 因此,如何为专业领域的人员找出与其领域主题相关的网页,成为了搜索引擎 下一步所要研究重点之一。 一 以综合性搜索引擎为代表的第二代搜索引擎系统明显的存在以下不足【4 】: ( 1 ) 信息的完备性方面。目前综合性搜索引擎的数据库规模和覆盖面都比 较有限。在美国科学期刊n a t u r e 的一篇报告中指出,最大的搜索引擎也只能覆 盖现在网络中网页总数的1 6 。美国n e c 科研所的s r e v el a w r e n c e 和c l e e c i l e s 表明现在的搜索引擎大概会漏掉约8 4 的网页信息。在这一方面主要存 在四个问题:搜索引擎间缺乏协作和联合。各个搜索引擎都按自己的一套体 系和方法来运作,缺乏统一的规范来控制,因此造成各搜索系统之间的数据资 源的兼容性差,不容易资源共享。综合性搜索引擎系统对专业领域的搜索目 标、服务对象、主题范围定位不准确。具有的综合性搜索引擎准确率不高, 缺乏深度。 ( 2 ) 准确率与查全率方面。据权威机构统计,因特网上有一百多亿个网页, 而g o o g l e 只能搜索其中的3 3 亿网页,就是说再大的搜索引擎其查全率也不能达 到1 0 0 。另外根据e x c i t e 统计,1 0 0 的用户不会看超过1 0 0 0 条以后的结果。 从这里可以看出,对绝大多数用户,准确率比查全率更重要。在这一方面主要 存在两个问题:对于多数检索而言,不是输出的检索结果太多,搜索结果达 到成千上万条,给用户选择带来困难;就是零输出或检索不出结果,造成漏检。 在检索方面的主要缺陷是关键词检索与主题分类检索不能有机的结合起来, 对自然语言理解力差。 ( 3 ) 信息的输出方面。目前搜索引擎返回的相关结果比率不到4 5 。根据 武汉理工大学硕士学位论文 笔者的搜索经验,在百度搜索的结果中有6 5 一8 0 的不相关信息,甚至更高。 在这一方面主要存在三个问题:综合性搜索引擎是基于关键词的检索,其结 果的相关度排序算法单一,无法贴合用户的需求。搜索出的结果往往只截取 文章中的一段来显示,无法提供更多的信息,这样用户只无法在不打开网页链 接的情况下判断。数据更新周期较长,造成死链较多,当用户点击链接时发 现是无用链接,浪费用户宝贵时间。 ( 4 ) 界面友好度方面。综合性搜索引擎把所有的用户统一对待,没有类型 和范围的界限,这一点对于专业领域人员在信息检索时,难免会感到信息不对口。 因此人们开始讨论第三代搜索引擎,专家们在“第三代搜索引擎技术是什 么? 这个问题上各有各的看法,有的专家认为,谁是新一代搜索引擎的王者, 那它所代表的互联网搜索技术即是第三代搜索引擎技术,就像第一代的王者是 y a h o o ,第二代的王者是g o o g l e :也有人认为,互联网的搜索技术从根本上只 有两种,那就是分目录搜索和关键词网页搜索,未来的第三代搜索引擎只能是 这两种的融合。更好的搜索引擎应该是能够更多的满足用户的需要和市场的需 求,结合当前应用广泛的综合性搜索引擎所暴露出的不足,可以推测:第三代 搜索引擎带给用户的体验应该是:智能化、个性化、社区化【2 】。 ( 1 ) 智能化:目前的搜索引擎能够给人们提供海量的信息搜索结果,一次 搜索往往会有成百上千页的结果,实践表明,很少有人会看1 0 页以后的搜索 结果。未来的搜索引擎必须要引入人工智能技术,尝试去理解用户的查询意图, 并优先显示用户需要的结果。 ( 2 ) 个性化l 每个人的搜索习惯和需求都不一样,但目前的搜索引擎却无 法考虑到这点。对于同一个关键词,一个搜索引擎给予所有用户的搜索结果都 是一模一样的。未来的搜索引擎必须要考虑到用户的个性化需求,不仅要给出 符合不同用户需求的不同结果,连搜索结果的界面都应该有所区别【3 引。 ( 3 ) 社区化:未来的搜索引擎本身就是一个社交网络,通过用户的互动交 流,我们可以更快、更方便地获取信息。另外,每个人的搜索结果都可以存储 并可以和其他人分享。 1 3 面向主题的搜索引擎系统 面向主题的搜索引擎又称为垂直搜索引擎和专题搜索引擎。它们专门采集 某一学科、某一主题、某一行业范围的信息资源,并用更为详细和专业的方法 4 武汉理工大学硕士学位论文 对信息资源进行标引和描述,定向分析字段并抽取出需要的数据进行处理,然 后再以某种形式返回给用户。是相对普通的综合性搜索引擎的信息量大、查询 不准确、深度不够等提出来的新的搜索引擎服务模式。其特点就是“专、精、 深”,且具有行业色彩,和信息无序化的综合性搜索引擎相比,面向主题的搜索 引擎则显得更加专注、具体和深入。 1 3 1 面向主题搜索引擎的优势 面向主题的搜索引擎系统与普通的网页搜索引擎最大的区别就是对网页信 息进行了结构化信息抽取,即将网页的非结构化数据转变成特定的结构化信息 数据,好比网页搜索的最小单位是网页,网页块分析的最小单位是网页块,而 面向主题的搜索的最小单位是结构化数据。在得到网页的结构化数据后,将这 些数据进行进一步的加工处理,如去重、分类等,最后分词、索引再以搜索方 式满足用户的需求。 在服务目的方面,主题的搜索引擎并不像综合性搜索引擎关注整个互联网 的信息,而是有针对性的选择某一专业领域的用户并给其提供服务。这就保证 了对该领域的专业人员以最准确的反馈。 在搜索方式方面,面向主题搜索引擎并不像综合性搜索引擎一样对整个网 络进行广度的搜索,试图遍历整个w e b ;面向主题的搜索引擎只需要采取某种 搜索策略,使网页爬虫尽可能的向与领域主题相关的网页集中的地方搜集网页, 这样可以节约大量的网络资源,提高了爬行效率与准确度。 在硬件和网络的要求方面,综合性搜索引擎对硬件的要求较高,因为它需 要遍历整个网络;而面向主题型搜索引擎由于无需遍历整个网络,且信息采集 量小,网络传输量小,有利于网络带宽的有效利用。 在用户体验度方面,面向主题的搜索引擎也有着很大的优势。面向主题的 搜索引擎系统针对某一特定领域,因此当用户向主题搜索引擎提交搜索请求时, 相当于已经对搜索引擎需要查询的目标集合进行了一次划分。由于需要处理的 数据量大大减少,这使得面向主题搜索引擎对个性化的加强在时间上变得可行。 网络信息的千变万化,不管是专业领域人员还是普通用户,都希望搜索的 结果是准确符合自己查询意愿的,面向主题的搜索引擎系统的优势都有助于更 好的明确用户需求,更好的为用户提供搜索服务,因此面向主题的搜索引擎必 然会被推崇。 5 武汉理工大学硕士学位论文 1 3 2 面向主题搜索系统的研究现状 目前国内外有关面向主题型搜索系统正在逐步成为研究的热点,目前面向 主题的网络信息搜索主要有两种技术【3 】: 一种是基于内容的搜索。这类搜索方式是传统的信息检索技术的延伸。它 的主要方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器 根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度 也大不相同。现在这种词表的建设越来越多的引入了知识表示的方法。基于本 体论( o m o l o g y ) 的搜索引擎开始出现。一个本体强调相关领域的本质概念,同 时也强调这些概念间的本质联系。以o n t o l o g y 为基础建立的词表能更好的显示 一个领域主题中各个概念( 即搜索系统的检索词) 之间的关系,能更好的表现 一个主题。在w w w 的智能信息检索应用中,o n t o l o g y 通常作为用户感兴趣领域 的领域模型,同时还作为文档统一注释的知识表示语言。一些学者也提出了概 念空间的理论,用概念空间来实现语义索引。所谓某个概念空间是某个领域中 一组抽象概念的集合,并且这组概念间存在一定的语义上的关联。基于概念空 间的文本检索系统也较好地解决了信息检索过程中的词汇不匹配的问题以及信 息过载的问题,大大提高了信息检索的效率和质量。 另一种是基于链接分析的检索。9 0 年代末期,国外信息检索界开始以s o c i a l n e t w o r k 为模型对互联网进行模拟。一些学者认为网页之间的链接指引关系同社 会网络中的关系有相似之处,尤其与传统的引文索引非常相似。通过对链接进 行分析,可以找出各个网页间的引用关系,由于引用网页与被引用网页在内容 上一般都比较相关,所以就可以很容易地按照引用关系将大量网页分类。在美 国,很多基于这种超链分析的搜索系统原型已经产生,应用于他们的数字图书 馆系统中。 下面介绍一些较具有代表性的系统。 ( 1 ) e l s e v i e r 的s c i r u s 系统:s c i r u s 科学搜索引擎是一种专为搜索高度相关 的科学信息而设计的搜索引擎,获得2 0 0 1 搜索引擎观察授予的“最佳专业搜 索引擎”奖s c i r u s 是目前互联网上最全面、综合性最强的科技文献门户网站之 一。它只面向包含有科学内容的网站,如大学和作者个人主页以及e l s e v i e r 自己 的数据库。 ( 2 ) b e r k e l e y 的f o c u s e dp r o j e c t :这个系统由一,个印度裔的科学家 s c h a r k r a b a r t i 带头从事,他是最早从事这方面研究的人之一。该系统通过两个程 6 武汉理工大学硕士学位论文 序来指导爬行器:一个是分类器c l a s s i f i e r ,用来计算下载文档与预订主题的相 关度;另一个程序是净化器d i s t i l l e r ,用来筛选那些指向很多相关资源的页面( 也 称中心网页) 。 ( 3 ) n e c 研究院的c i t e s e e r :c i t e s e e r 是一个非常有名的针对计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论