(计算机软件与理论专业论文)基于本体的省情网垂直搜索引擎研究.pdf_第1页
(计算机软件与理论专业论文)基于本体的省情网垂直搜索引擎研究.pdf_第2页
(计算机软件与理论专业论文)基于本体的省情网垂直搜索引擎研究.pdf_第3页
(计算机软件与理论专业论文)基于本体的省情网垂直搜索引擎研究.pdf_第4页
(计算机软件与理论专业论文)基于本体的省情网垂直搜索引擎研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 m a s t r s t h e s i $ 摘要 随着电子政务建设的深入,政务门户网站建设的增多,其所承载的信息资源数 量越来越大,门户网站也摆脱不了信息孤岛的宿命,传统的政府门户网站的建设模 式也面临着一定的危机和挑战。门户加搜索的网站建设模式应运而生。 也许通用搜索引擎能在获取信息的“量”方面有良好表现,但在获取信息的“质” 方面,即让用户轻易找到自己真正感兴趣的内容方面不够理想。垂直搜索是为了能 给某一特定领域、某一特定人群或某一特定需求提供有一定价值的信息和相关服务 的,而本体恰恰是对领域知识概念的抽象和描述。因此,本体与搜索引擎结合,成 为研究垂直搜索引擎的利器。 那么如何构建应用本体,具体怎么将本体与垂直搜索引擎的几个关键技术结合 起来就成为研究的难点。 本文首先介绍、讨论了搜索引擎的基本概念、发展现状、评价指标和发展趋势 谈起,分析了本体与垂直搜索引擎相结合的意义和必要性,然后介绍了本体的相关 理论、自然语言处理的相关知识和开发基于r d f 与o w l 语义( s e m a n t i c ) w e b 应用 程序的j a v a 工具箱j e n a ,最后给出了基于本体的湖北省省情网搜索引擎的体系结构 和具体实现方法。其中重点研究了以下的两个问题: 1 提出与软件工程的原理相结合的i d e f - - 5 方法来构造湖北省省情网本体的 思路,并以p r o t e g e 3 2 为编辑工具,o w l 为本体开发语言,开发部分省情网本体。 2 研究并提出基于本体的省情网垂直搜索引擎的体系结构。并针对其中基于本 体的信息采集、基于本体的信息抽取、基于本体的检索等关键技术分别给出具体的 实现算法。 关键词:本体;垂直搜索引擎;o w l :j e n a a b s t r a c t w i t hf i l ed e e pb u i l d i n go f t h ee - g o v e r m n e n ta n df a s ti n c r e a s i n go ft h eg o v e r n m e n t s p o r t a lw e b s i t e s ,t h eq u a n t i t yo f t h e i rc a r r y i n gi n f o r m a t i o nr 豁o u l c e sb e c o m e sl a r g e ra n d l a r g e r , b u tt h ep o r t a lw e b s i t e sa l s oc a nn o tg e tr i do f t h ef a t eo f b e i n gi s o l a t e di s l a n d so f i n f o r m a t i o na n dt h eb u i l d i n gm o d e l sf o r t h et r a d i t i o n a lg o v e r n m e n tp o r t a lw e b s i t e sa r e : c o n f r o n t e dw i t hs o m e :c r i s i sa n ds o m ec h a l l e n g e s ot h em o d e lb u i l d i n gp o r t a lw e b s i t e s w i t hs e a r c he n g i n ee m e r g e s p e r h a p sg e n e r a ls e a r c he n g i n e sc a nh a v eg o o dp e r f o r m a n c ei ng e t t i n gt h ep o r t a l w e b s i t e s i n f o r m a t i o ni nt h e q u a n t i t y ,b u ti td o e sn o td os ow e l li ng e t t i n gt h e i n f o r m a t i o ni nt h e q u a l i t y , w h i c hi no t h e rw o r d si st ol e tu s 哪e a s i l yf i n dt h et h i n g s t h a tt h e ya 砖r e a l l yi n t e r e s t e di n w h i l et h ev e r t i c a ls e a r c he n g i l l ep r o v i d e ss o m e v a l u a b l e i n f o r m a t i o na n ds o m er e l a t e ds e r v i c e sf o rap a r t i c u l a rf i e l d ,as p e c i g r o u po f p e o p l e o ras p e c i f i cd e m a n d a n dt h eo n t o l o g yp r e c i s e l yi st h ea b s t r a c ta n d d e s c r i p t i o no ft h e c o n c e p to ft h ed o m a i n , s ot h eo n t o l o g yi sn a t u r a l l yc o m b i n e dw i t ht h es e a r c h 印呈姬e t e c h n o l o g i e sa sag o o dw e a p o n t os t u d yt h ev e r t i c a ls e a r c he n g i n e t h e nh o wt ob u i l dt h ea p p l i c a t i o no n t o l o g ya n dh o wt os p e c i f i c a l l yc o m b i n es e v e r a l k e yt e c h n o l o g i e so nt h eo n t o l o g yw i mt h es e a r c he n g i n eb e c a ) m et h ed i f f i c u l tp o i n t so f t h es t u d y i nt h eb e g i n n i n g , t h i st h e s i st a l k sa b o u tt h eb a s i cc o n c e p t so ft h es e a r c he n g i n ea n d i t sd e v e l o p m e n ts t a t u s ,e v a l u a t i o ni n d i c a t o r sa n dd e v e l o p m e n tt r e n d s a n di te x p o u n d s t h es i g n i f i c a n c ea n dn e c e s s i t yo f c o m b i n i n gt h eo n t o l o g yw i mt h ev e r t i c a ls e a r c he n g i n e , a n dt h e ni ti n t r o d u c e ss o m et h e o r i e sa b o u tt h eo n t o l o g y , s o m ek n o w l e d g ea b o u tt h e n a t u r a ll a n g u a g ep r o c e s s i n ga n dt h ed e v d o p m e mo fj a v at o o l b o xj e n a , w h i c hi sb a s e d o nt h eo w lr d fa n ds e m a n t i c ( s e m a n t i c ) w e ba p p l i c a t i o np r o c e d u r e s f i n a l l y , t h e o n t o l o g yo ft h eh u b c ip r o v i n c ei n f o r m a t i o nw e b s i t ei sd e v e l o p e d , a n dt h e r ea r et h e s e a r c he n g i n es y s t e ms t r u c t u r eo ft h eh u b e ip r o v i n c ei n f o r m a t i o nw e b s i t eb a s e d0 1 1t h e o n t o l o g ya n di t ss p e c i f i cm e t h o d s a n di ni t , i tf o c u s e so nt h ef o l l o w i n gt w oi s s u e s : 1 t os t u d ya n dc o n s t r u c tt h eo n t o l o g yo f t h e h u b e ip r o v i n c ei n f o r m a t i o nw e b s i t e ;t o 。 p u tf o r w a r dt h ei d e ab yu s i n gt h em e t h o dc a l l e d ) e f 一5t oc o n s t r u c tt h eo n t o l o g yo ft h e h u b e ip r o v i n c ei n f o r m a t i o nw e b s i t e , w h i c hi sc o m b i n e dw i t l lt h es o f t w a r ee n g i n e e r i n g ; t od e v e l o pp a r to ft h eo n t o l o g yo ft h eh u b e ip r o v i n c ei n f o r m a t i o nw e b s i t e , w i t ht h e p r o t e g e 3 2 雒t h ee d i t o r i a lt o o la n dt h e v la st h ed e v e l o p m e n tl a n g u a g eo ft h e o n t o l o g y 2 t os t u d ya n dp u tf o r w a r d st h ev e r t i c a ls e a r c he n g i n es y s t e ms t r u c t u r eo f t h eh u b e i p r o v i n c ei n f o r m a t i o nw e b s i t eb a s e do nt h eo n t o l o g y ;t og i v et h es p e c i f i ca l g o r i t h m so f t h e k e yt e c h n o l o g i 黯s u c ha st h eo n t o l o g y - b a s e di n f o r m a t i o nc o l l e c t i o n , t h e o n t o l o g y - b a s e di n f o r m a t i o ne x t r a c t i o na n dt h eo n t o l o g y - b a s e dr e t r i e v a l k e yw o r d s :o n t o l o g y :v e r t i c a ls e a r c he n g i n e :o w l :i e n a 硕士学位论文 m a s t e r s t h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明本声明的法律结果由本人承担。 溅司年6 a 了b 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文同时授权 中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 导师签名: 日期。1 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库”中全文发布,并可按“章程”中的 规定享受相关权益。围重盗塞握銮卮煎厘;旦圭生i 旦二生i 旦三生筮查! 作者签名:本础 日期:。- 7 年g 月产 争 日 褪7 本细 午 ,f 钕p 签 : 者期 作日 1 1 论文的研究背景及意义 1 1 1 研究背景 第一章绪论 省情网是省自然与社会,历史与现状的省情信息宝库。收录省、市、县三级志 书、年鉴及其它地情资料,是一省自然、政治、经济、军事、科技、文化、教育等 方面的百科全书,为省内外、国内外打开了一扇了解、认识、研究建设一省的窗口, 将为全省经济建设和社会发展做出贡献。省情网是在政府支持下建立和运营的公益 性省情信息服务和形象宣传网站,主要承担省情介绍和对内对外宣传等功能。省情 网可提供省情数据库建设与检索服务;省内网络资源浏览与检索服务:个性化服务 等。 省情信息范围广、内容杂、信息量大,网站要吸引用户,必须进行深入细致的 信息资源建设,并寻求符合自身实际情况,能够充分发挥自身资源优势的发展策略, 在建设特色栏目、提供特色服务的基础上吸引关注度和流量,进而获取网站增值利 益。同时要求与省区域各级政府的门户网站相连接,不断及时扩充和更新网站相关 内容。 目前省情网站的建设,已不局限于单个网站,而是需要整合各个下属部门的网 站,多个站点统一在一个界面上进行管理。但是随着省情网建设的深入,下属各市 情县情网站建设的增多,省情网所承载的信息资源的数量越来越大,它也摆脱不了 信息孤岛【l 】( 所谓信息孤岛是指,在一个单位的各个部门之间由于种种原因造成部 门与部门之间完全孤立,各种信息无法或者无法顺畅地在部门与部门之间流动。这 样就会形成信息孤岛。) 的宿命。如何将省情网的资料快速准确的反馈给用户,如 何及时更新省情网的信息是省情网建设的难点人们当然可以通用搜索引擎获取相 关信息,但通用的搜索引擎搜索到的页面只是和搜索关键字相匹配的页面,一方面 造成遗漏大量内容相关的页面,另一方面找到太多不相关的页面,用户需要花费更 多的时间和精力找到需要的信息。另外,原始的省情网的信息管理人员去相关站点 搜集信息并手工地更新省情网的资料库,这种方法的劳动量是巨大的。如果在省情 网内添加专门针对省情以及下属各市情网各栏目的精确搜索功能,将会给用户和网 站信息管理人员带来极大的方便。 硕士学位论文 m a s l e r st h e s i $ 垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出 来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需 求提供的有一定价值的信息和相关服务。f 2 其特点就是专、精、深”,且具有行业 色彩,相比通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体 和深入。 垂直搜索引擎可以简单的说成是搜索引擎领域的行业化分工。众多专业性网站、 行业网站独立服务于互联网的成功,恰恰证明了互联网的格局应该是多方面的。通 用搜索引擎的性质,决定了其不能满足特殊领域、特殊人群的精准化信息需求服务。 市场需求多元化决定了搜索引擎的服务模式必将出现细分,针对不同行业提供更加 精确的行业服务模式。可以说通用搜索引擎的发展为垂直搜索引擎的出现提供了良 好的市场空间,势必将出现垂直搜索引擎在互联网中占据部分市场的趋势,也是搜 索引擎行业细分化的必然趋势。 目前实用化的信息检索系统主要建立在关键词的基础之上,对计算机而言,关 键词几乎没有任何语义,这也是目前的信息检索技术存在的缺陷。信息检索系统在 语义处理能力上的缺乏,导致搜索引擎在查全率和查准率上远远不能满足用户的需 求。而本体是共享概念模型的明确的形式化规范说明,它的目标是获取、描述和表 示相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇, 并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。也就是 说,本体是对领域知识概念的抽象和描述,可以用于数据库级别的知识共享。本体 知识强调它是作为通信、交流的依据。本体提供的丰富原语不仅用来描述领域的概 念模型,而且还是对知识进行推理和验证的基础。本体的逻辑推理规则用以完成基 于语义的知识表示和推理,从而能够为计算机所理解和处理。如果将本体与搜索技 术结合起来,整个搜索引擎像领域专家一样,不仅给出查询结果,还给出与检索请 求相关的资源,大大提高检索的精度和覆盖率;还能实现本体层次的检索,突破了 关键词检索局限于形式的固有缺陷。它的出现提高了用户的满意度,减少了不相关 的返回结果,提高了检索的精度和覆盖率。由此可见,本体天然就是研究垂直搜索 的利器。将本体的基于语义的知识表示和推理技术与现有的搜索技术结合起来,必 然能够为门户+ 搜索的网站建设模式写出亮丽的一笔。 本论文以建设湖北省省情网为基础,研究基于本体语义的专业服务网站的垂直 搜索,其主要目的是采用“本体语义网”技术,把语义网的资源描述框架( r d f ) 、 r d f 模式( r d f s ) 、w e b 本体描述语言( o w l ) 有机地结合到垂直搜索中,为专 注于行业信息的人提供更有价值的服务。 2 硕士学位论文 m a s t e r l 8 t h e s i s 1 1 2 国内外研究现状 在基于本体的搜索引擎中,每一个查询都在一些本体的上下文范围内执行,来 自本体的一些指南可以提高检索的准确性。基于本体的搜索中,使用的是概念匹配, 即自动抽取文档的概念,加以标引,用户在系统的辅助下选用合适的词语表达自己 的信息需求,然后在两者之间执行概念匹配,即匹配在语义上相同、相近、相包含 的词语。 本体在信息检索领域的应用研究始于2 0 世纪末2 1 世纪扔,国内外大量学者都 在此领域进行了各种探索,大致可分为三方面: ( 1 ) 基于本体的检索方法研究如美国学者通过在检索过程中构建用户行为本 体来对检索结果进行排序;德国学者n e n a d 和巧i l j a n a 提出了一种在基于本体的信 息检索系统中使用基于逻辑的优化查询方法;v i p u l 讨论了一种用于信息检索的本 体构建方法。我国学者蔡文涛等提出了一种用于概念信息检索的基于本体的地址析 取方法;韩国学者s a n g o k k o o 等提出了一种半自动的本体生成方法,可用于信息 检索的索引文件;德国学者t o r s t e n 等提出了一种用于联机分析处理和信息检索的 基于本体的集成方法等等。 ( 2 ) 基于本体的检索实验系统研究大量研究集中在这方面,产生了不少检索 系统。如巴西学者r e g i n a 等研制了一个检索代理系统,能够提供多领域的信息入口, 该系统的核心是运用了领域本体和用户兴趣进化模型。本体应用在信息检索中的著 名项目有( o n t o ) 2 a g e n t , o n t o b r o k c r 和s k c 。( o n t o ) 2 a g e n t 的目的是为了帮助用 户检索到所需要的w w w 上已有的o n t o l o g y ,主要采用了参照o n t o l o g y 。参照 o n t o l o g y 是以w w w 上已有的o n t o l o g y 为对象建立起来的o n t o l o g y ,它保存有各 类o n t o l o g y 的元数据;o n t o b r o k e r 面向的是w w w 上的网页资源,目的是为用户 检索到所需要的网页;s k c 的目标是解决信息系统语义异构的问题,实现异构自治 系统之间的互操作,该项目希望通过在o n t o l o g y 上建立个代数系统,用这个代数 系统来实现各o n t o l o g y 之间的互操作,从而实现异构系统之间的互操作。国内的有 关学者也在基于本体的检索系统方面进行了大量研究,如文献【3 】设计并实现了一个 企业雇员能力检索系统c r s ;文献【4 】构建了土壤知识体系智能检索系统;文献 5 】 利用本体概念规范、语义丰富的特点,将用户的检索要求扩充成语义集,提出了一 个信息检索原型系统;文献 6 】提出了一种新的基于o n t o l o g y 的个性化元搜索引擎 系统模型等等 ( 3 ) 基于本体的检索评价研究如斯洛伐克的学者j a n 和iv a i l 在同一个文本集 硕士学位论文 m a s t e r st h e s i s 中将全文检索方法( 向量空间模型) 、潜在语义索引方法( l i s ) 和基于本体的方法 进行对比研究。综上所述,本体在信息检索中的应用具有如下特点: a 用于信息检索本体的构建一般都是通过人工提取的,这使得本体在信息检索 中的应用不能大规模展开,因此需要开发出自动或半自动的本体学习工具; b 关于本体在信息检索中的应用有基于本体的“概念检索”、“语义检索”、“知 识检索”、“个性化检索”、“内容检索”、“自然语言检索”等,但都是希望利用本体 来解决语义理解的问题; c 基于本体的检索系统一般规模较小,都是利用某一领域的领域本体来检索特 定领域的信息,系统停留在实验原型阶段,能够商业化推广应用的系统较少。 虽然国内外在基于本体的信息检索系统的研制方面有大量成果,但大规模的商 业化产品却不多。t e x l p r e s s o 是利用领域本体实现信息检索的一个典范。t e x t g - r e s s o 是一个基于本体的生物学领域的信息检索和提取系统,由加利福尼亚技术中心于 2 0 0 4 年开发。t e x t g i e s s o 最主要的功能是将文本分成单独的句子集合,可以实现全 文和句子的检索,即知识检索。t e x t p r e s s o 能在h t t p :w w w t e x r p r e s s o o r g 上直接使 用。 当前基于o n t o l o g y 的语义检索系统已经得到了广泛的关注和应用,出现了一系 列优秀的应用系统,其中典型的有两个:s w 0 0 g l 卜语义网中的基于蜘蛛网的检 索系统,系统从每个搜索到的文本中抽取本体,根据本体之间的相关度来比较文本 之间的关系:t u c u x i ( i n t e l l i g c n th u n t o r a g e n tf o rc o n c e p tu n d e r s t a n d i n ga n dl e x i c a l c h a i n i n g ) ,该系统根据查找的本体在网页上爬行,决定哪种网页最满足需求。特别 的,t u c u x i 判断文档的相关性是同m a po fm e a n i n g s 比较用户所查询的相关本 体。m a po f m e a n i n g s 语义丰富,用来对资源文本的表达。t u c u x i 采用了m o m i s 公用字典来表征用户查询的本体。基于o n t o l o g y 的语义检索搜索引擎有s h o e 、 o n t o b r o k e r 、o n t o s e e k 、w e b k b 、c o r e s e 。 基于本体语义的搜索引擎是未来搜索引擎发展的方向,它的发展主要受限于 o n t o l o g y 的发展以及自然语言处理技术。基于本体的搜索引擎设计的最终目标是让 计算机具有人的智能,以解决问题的形式返回给用户。其当前目标是让计算机返回 的结果更有针对性、准确性。 基于本体的垂直搜索研究是迈向基于本体的搜索引擎的基础性的一步。g o o g l e c o d e 和g o o g l eh e a l t h 就是对基于本体语义的垂直搜索的回应。例如,如果你在 g o o g l e 搜索引擎中输入一家公司的名称,返回的第一个搜索结果不仅包括这家公司 的主页,还有从该网站提取的一些语义信息。从s e a r c hm a s h ( g o o g l e 的测试搜索网 4 站) 来看,g o o g l e 还计划推出更多功能。讯达恒通的王杰先生说:“在国内,g o o g l e 和百度的某些服务虽然涉及了到垂直搜索服务,但其服务不可能垄断整个市场,垂 直搜索还有很大的市场空间。现在,垂直搜索的很多信息依靠人工加工,但智能化 信息处理是垂直搜索引擎发展的方向和趋势”,而本体技术是智能化信息处理的最 有效的工具。 近年来,我国对基于领域本体搜索的研究具有以下几个特点: ( 1 ) 近年来关于基于本体搜索研究的论文数量骤增,基于本体的搜索已引起了 我国学者的高度重视。 ( 2 ) 各论文的参考文献基本上全部为外文文献,表明我国基于本体搜索的研究 处于起步阶段。 ( 3 ) 对基于领域本体搜索的研究具有一定的层次性,从基本介绍到理论探讨, 由理论探讨到实际试验与应用,逐层递进,体现了一定的层次性。 ( 4 ) 对基于领域本体搜索的研究主要集中于对本体的讨论上,包括本体的基本 涵义、形式化表示,本体的构建、本体语言以及基于本体的各种理论探讨与试验应 用。这一方面是因为语义w e b 体系结构中第五至第七层( l o g i c 、p r o o f , t r u s t ) 还正 在构建之中,另一方面也在于o n t o l o g y 是基于本体搜索研究的症结所在。它不仅是 形成对资源、知识等的统一认识的基础,也是支持推理机制的计算机可“理解与处 理”的基础。 1 1 3 本文的主要研究内容与方法 本论文从搜索引擎和本体的现状谈起,通过建立省情网本体,研究将领域本体 与垂直搜索技术结合起来,建立基于本体的垂直搜索引擎的模型。研究的内容主要 有以下4 点: ( 1 ) 建立省情网本体。 ( 2 ) 研究将本体与信息采集结合起来,利用本体的知识推理综合网页的内容, 并分析网页里面的链接信息,以提高机器爬虫的效率。 ( 3 ) 研究利用本体对采集下来的网页进行语义标注以抽取出结构化的信息。 ( 4 ) 研究对用户的输入通过本体进行概念上的扩展,通过本体对用户的查询进 行规范化,以提高检索的查全率与查准率。 5 1 2 论文的章节安排 本文的结构安排如下: 第一章,介绍论文课题研究的背景和意义,在对国内外研究现状进行分析比较 后,提出论文课题的研究目的和内容。 第二章,首先,简单介绍搜索引擎的现状和搜索引擎的原理。然后重点介绍垂 直搜索引擎的概念和相关技术。 第三章,介绍本体的相关理论及技术。 第四章,提出将软件工程的思想与领域本体的构建策略结合起来构建省情网领 域的思路,并建立部分省情网本体。 第五章,提出基于本体的省情网垂直搜索引擎的体系结构,并针对其中的关键 技术给出具体实现算法。 第六章,总结本文的研究工作,并对需要进一步研究的方向进行展望。 6 第二章w e b 搜索引擎 2 1w e b 搜索引擎简介 互联网是当今主要的网络信息集中地,不仅汇聚了海量信息,而且信息的数量 正以指数级的速度增长。据2 0 0 7 年一月的c n n i c 调查,中国的网页总数有4 4 7 亿个。比去年同期相比增加2 0 7 亿个,增长率为8 6 3 ,如图2 1 所示。 本次调查结果显示,中国网页字节总数为1 2 2 ,3 0 6 g b ,随着网页总数的增长, 网页字节数也有大副增加,与去年同期相比增长5 5 ,0 0 5 g b ,增长率为8 1 7 。 幽2 - 1 中国历年网页效及发展状况 而搜索引擎就是指南针,引导着人们在如此洁淼的数据海洋中快速、准确的找 到所需的信息。 本次调查结果显示,网络、电视和报纸是网民获取信息的主要途径,其中选择 通过网络获取信息的网民占8 5 o ,而在用户行为调查中,收发邮件、浏览新闻、 搜索引擎分别以5 6 1 、5 3 5 、5 1 5 排名前3 位。可见,搜索引擎在人们网络 生活中的分量之重。 2 1 1w e b 搜索引擎的分类 搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎( f u l l t e x ts e a r c h e n g i n e ) 、目录索引类搜索引擎( s e a r c hi n d e x d i r e c t o r y ) 和元搜索引擎( m c t as e a r c h e n g i n e ) 7 硕士学位论文 m a s t r st h e s i s ( 1 ) 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有g o o g l e 、a l t a v i s t a 、 i n k t o m i 、t e o m a 、w i s c n u t 等,国内著名的有百度( b a i d u ) 。它们都是通过从互联 网上提取的各个网站的信息( 以网页文字为主) 而建立的数据库中,检索与用户查 询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真 正的搜索引擎。 从搜索结果来源的角度,全文搜索引擎又可细分为两种:一种是拥有自己的检 索程序( i n d e x e r ) ,俗称“蜘蛛”( s p i d e r ) 程序或“机器人”( r o b o t ) 程序,并自 建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的6 家引擎;另 一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如l y c o s 引擎。 ( 2 ) 目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是 按目录分类的网站链接列表而已。它使用人工或机器自动的对w e b 上的网站进行归 类。般来说,可以根据网站的内容划分成十几个大类,每个大类又继续分为多层 次的子类。每个叶子节点( 即不包含子类的予类) 内包括了所有目前可识别的网站 内属于该类的链接。目前很多的分类目录都使用人工和机器结合的方式编制目录, 这样即确保了分类数量又保证了分类的质量。用户完全可以不用进行关键词( k e y w o r d s ) 查询,仅靠分类目录也可找到需要的信息。一般来说,目录式搜索引擎也 提供了基于关键字的检索,但这种检索并不是w e b 页面的全文检索,而是把关键词 和分类关键词进行简单匹配从而返回匹配的站点链接。目录索引中最具代表性的莫 过于大名鼎鼎的y a h o o 雅虎。其他著名的还有o p e nd i r e c t o r yp r o j e c t ( d m o z ) 、 l o o k s m a r t 、a b o u t 等。国内的搜狐、新浪、网易搜索也都属于这一类。 ( 3 ) 元搜索引擎 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结 果返回给用户。它是一种利用多个基于c r a w l e r 的搜索引擎的检索结果进行过滤和 重新排序、分类的搜索工具。可以把这种搜索引擎看成是信息检索服务的代理,因 为它自身并不对w e b 进行文档下载和索引工作,不需要维护庞大的索引数据库和管 理、更新工作,而是把用户提交的检索关键词并发的提交给多个搜索引擎同时检索, 然后把从多个检索源返回的检索结果进行重新评价和组织,以统一的格式提供给用 户。著名的元搜索引擎有i n f o s p a c e 、d o g p i l o 、v i v i s i m o 等( 元搜索引擎列表) ,中 文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来 源引擎排列搜索结果,如d o g p i l e 有的则按自定的规则将结果重新排列组合,如 硕士学位论文 m a $ t r st h e s l $ v i v i s i m o 。元搜索引擎的工作流程如图2 2 所示。 图2 - 2 元搜索引擎工作流程图 拥有多个数据源以及具有简单的系统结构是元搜索引擎的优点,同时搜索质量 受数据源提供商控制和只能基于内容相似度进行页面质量评估是该类搜索引擎的 弱点。 除上述三大类引擎外,还有以下几种非主流形式的搜索引擎: 1 集合式搜索引擎:如h o t b o t 在2 0 0 2 年底推出的引擎。该引擎类似m e t a 搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4 个 引擎当中选择,因此叫它“集合式”搜索引擎更确切些。 2 门户搜索引擎:如a o l s e a r c h 、m s n s e a r c h 等虽然提供搜索服务,但自身 既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。 3 免费链接列表( f r e cf o ra l ll i n k s ,简称h a ) :这类网站一般只简单地滚动 排列链接条目,少部分有简单的分类目录,不过规模比起y a h o o 等目录索引来要小 得多 由于上述网站都为一般用户提供搜索查询服务,为方便起见,我们通常将其统 称为通用搜索引擎。 9 硕士学位论文 m a s t e r st h e s i s 2 1 2w e b 搜索引擎的工作原理 一个完整的搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 不同搜索引擎具有的模块可能会有不同的变化和扩展,但都是建立在这4 个基础模 块之上的。图2 3 是它的系统结构图。 圈2 - 3 搜索引擎系统结构圈 1 搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序, 日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互 联网上的信息更新很快,所以还要定期更新已经搜集过的1 日信息,以避免死连接和 无效连接。目前有两种搜集信息的策略: 从一个起始u r l 集合开始,顺着这些u r l 中的超链( h y p e r l i n k ) ,以宽度优 先、深度优先或启发式方式循环地在互联网中发现信息。这些起始u r l 可以是任 意的u r l ,但常常是一些非常流行、包含很多链接的站点( 如s i n a ) 。 将w c b 空间按照域名、口地址或国家域名划分,每个搜索器负责一个子空间的 穷尽搜索。 搜索器搜集的信息类型多种多样,包括h t m l 、x m l 、n e w s g r o u p 文章、f t p 文件、字处理文档、多媒体信息。 搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。 商业搜索引擎的信息发现可以达到每天几百万网页。 2 索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档 i o 以及生成文档库的索引表。 索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作 者名、u r l 、更新时问、编码、长度、链接流行度( l i n kp o p u l a r i t y ) 等等:内容索 引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可 以分为单索引项和多索引项( 或称短语索引项) 两种。单索引项对于英文来讲是英 语单词,比较容易提取,因为单词之间有天然的分隔符( 空格) ;对于中文等连续 书写的语言,必须进行词语的切分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区 分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概 率法。短语索引项的提取方法有统计法、概率法和语言学法。 索引表一般使用某种形式的倒排表( i n v e r s i o n l i s t ) ,即由索引项查找相应的文 档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间 的相邻或接近关系( p r o x i m i t y ) 索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实 现即时索引( i n s t a n ti n d e x i n g ) ,否则不能够跟上信息量急剧增加的速度。索引算 法对索引器的性能( 如大规模峰值查询时的响应速度) 有很大的影响。一个搜索引 擎的有效性在很大程度上取决于索引的质量。 3 检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的 相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型 四种。 4 用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、 及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类 的思维习惯。用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用 户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算( 与、 或、非;) 、相近关系( 相邻、n 】弘r ) 、域名范围( 如e d u 、c o r n 、o n ) 、出现位置 ( 如标题、内容) 、信息时间、长度等等。目前一些公司和机构正在考虑制定查询 选项的标准。 硕士学位论文 m a s i e r 4 st h e s l s 2 2 搜索引擎的评价与发展方向 评价搜索引擎的主要指标有查全率、查准率、响应时间、覆盖范围、用户使用 方便性等等。 1 ) 查全率( r e c a l l ) 查全率又叫召回率,是指检索出的相关文档占全部相关文档的比率。即用户通 过搜索引擎所获取的有用信息与整个i n t e r n e t 中相关信息的比率。 2 ) 查准率( p r e c i s i o n ) 查准率是指获取的相关文档与获取文档的比率。即用户通过搜索引擎所获取的 真正是用户需要的信息占获取信息的比率。搜索引擎的查准率是个复杂的概念,一 方面表示搜索引擎对搜索结果的排序能力,另一方面却体现了搜索引擎对垃圾网页 的抗干扰能力。 3 ) 响应时间( r e s p o n s et i m e ) 响应时间是指用户发出查询请求后到看到查询结果的这段时间。 4 ) 覆盖范围( c o v e r a g e ) 覆盖范围是指搜索引擎索引的w e b 页面占整个i n t e r n o t 中页面的比例。 5 ) 用户方便性( c o n v e n i e n c e ) 用户方便性包括查询接口是否直观、易于使用、查询语法是否丰富,显示结果 是否易于查看等。 搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、 计算机网络、分布式处理、数据库、数据挖掘、数字图书馆,自然语言处理等多领 域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很 好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度关注,目前 的研究、开发十分活跃,并出现了很多值得注意的动向: 1 十分注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结 果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百 万篇文档,用户不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方 法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括使用 智能代理跟踪用户检索行为,分析用户模型;使用相关度反馈机制,使用户告诉搜 索引擎哪些文档和自己的需求相关( 及其相关的程度) ,哪些不相关,通过多次交 互逐步求精。二是用正文分类( t e x tc a t e g o r i z a t i o n ) 技术将结果分类,使用可视化 1 2 技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类聚或内容 类聚,减少信息的总量。 2 基于智能代理的信息过滤和个性化服务 信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型 ( 如w e b 知识、信息处理、与用户兴趣相关的信息资源、领域组织结构) 、用户模 型( 如用户背景、兴趣、行为、风格) 知识进行信息搜集、索引、过滤( 包括兴趣 过滤和不良信息过滤) ,并自动地将用户感兴趣的、对用户有用的信息提交给用户。 智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化的 服务。智能代理可以在用户端进行,也可以在服务器端运行。 3 采用分布式体系结构提高系统规模和性能 搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千 秋但当系统规模到达一定程度( 如网页数达到亿级) 时,必然要采用某种分布式 方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进 行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息 发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要 求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。 4 重视交叉语言检索的研究和开发 交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中 进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译, 返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在于语言 之间在表达方式和语义对应上的不确定性。但对于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论