




已阅读5页,还剩67页未读, 继续免费阅读
(系统分析与集成专业论文)基于元搜索的知识获取方法与系统集成研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 互联网已成为企业( 组织) 获取资讯知识的重要平台,但是现有的这类知识获取工 具( 代理) 不具备通用性,且对于不同领域知识的获取没有灵活的框架和工具。本文针 对该问题,运用元搜索,文本聚类,网页内容抽取等方法和技术将知识获取、分析归类 等集成起来,提出了完整的知识获取体系,并构建了灵活的企业资讯知识获取平台,解 决了企业( 组织) 从互联网上获取不同领域知识的问题。 本文将互联网作为资讯知识的“矿藏”,围绕从互联网获取外源知识这一核心问题, 分析了现有一些方法和工具的不足,提出了各个阶段中对应的解决方法和技术。本文主 要从以下几个方面开展研究工作: ( 1 ) 在知识获取过程中,针对当前搜索引擎覆盖率低,个性化服务不足等问题, 提出了利用元搜索原理并构建领域知识库的基本方法;利用元搜索引擎的灵活性,结合 概念扩展对关键词进行优化,提高了知识搜索的覆盖率;在搜索结果处理过程中,提出 了针对领域知识的调用方法,并对搜索结果依据权重进行指标量化。 ( 2 ) 在知识处理阶段,对元搜索结果进行聚类处理,提出了基于领域内知识获取 模型的聚类算法。利用向量空间模型和奇异值分解等方法,将搜索结果分派到相应的可 识别的聚类主题描述中,为后续检索和处理提供便利。其中详细介绍了文本表示模型和 不同的特征提取方法,并阐述了该聚类算法相对于其他聚类算法的优点,说明其应用于 互联网知识获取系统中是合适的。 ( 3 ) 在结果网页的处理阶段,提出了基于节点特征分析的内容抽取方法,该方法 的准确性和精确度都达到了系统的要求。将其与基于包装器的抽取方法结合起来,能够 自动高效地完成网页主题信息抽取任务。 最后,设计并实现了一个基于元搜索的组织知识获取系统,对设计的系统进行了不 同领域知识库的试验,对返回的结果和聚类的效果进行了评价,取得了良好的效果。 关键词:知识获取;元搜索;搜索结果聚类;信息抽取 基于元搜索的知识获取方法与系统集成研究 r e s e a r c ha n d i n t e g r a t i o no fk n o w l e d g ea c q u i s i t i o ns y s t e mb a s e d o n m e t a s e a r c h a b s t r a c t w 池t h er a p i dd e v e l o p m e n to ft h ei n t e r n e t ,i th a sb e e na l li m p o r t a n tp l a t f o r ma n d e x p l i c i tk n o w l e d g eb a s e h o w e v e r ,t h et o o l so fe x i s t i n gk n o w l e d g ea c q u i s i t i o na n da g e n t sa r e a i mt od i f f e r e n ta r e a sa n dw i t hw e a kf l e x i b l e t os o l v et h i sp r o b l e m ,t h i st h e s i sp r o p o s e sa f l e x i b l ep l a t f o r mf o rk n o w l e d g ea c q u i s i t i o n ,w h i c hi n c l u d i n gm a n ym e t h o d sa n dt e c h n i q u e s s u c ha sk n o w l e d g ea c q u i s i t i o n ,a n a l y s i s ,c l a s s i f i c a t i o n ,a n ds y s t e mi n t e g r a t i o ne t c f o c u s i n go no b t a i n i n ge x p l i c i tk n o w l e d g ef r o mt h ei n t e m e ta n di n s u f f i c i e n c yo fe x i s t i n g m e t h o d sa n dt o o l s ,c o r r e s p o n d i n gs o l u t i o n sa l ep r o p o s e d t h er e s e a r c hw o r kc a nb ed i v i d e d i n t of o u rp a r t s ,k n o w l e d g ea c q u i s i t i o nf r o mt h ei n t e m e t ,c l u s t e ra n a l y s i sa n de v a l u a t i o ns e a r c h r e s u l t ,t h ep r o c e s st ot h es e m i - s t r u c t u r e dp a g e sa n di m p l e m e n tt h es y s t e m t h er e s e a r c hw o r k o ft h i st h e s i sa sf o l l o w s : ( 1 ) i nt h ep r o c e s so f k n o w l e d g ea c q u i s i t i o n ,t h et r a d i t i o n a ls e a r c he n g i n ei sl o wc o v e r a g e a n dl a c ko fp e r s o n a l i z e ds e r v i c e b yu s i n gm e t as e a r c he n g i n e ,g i v e nf i e l dk n o w l e d g eb a s e s a r ef o r m e d ,c o m b i n e dw i t hc o n c e p te x p a n s i o na n dk e y w o r d so p t i m i z a t i o n ,t h ec o v e r a g er a t i o i si m p r o v e d f o rt h er e s u l tp r o c e s s ,ac a l lm e t h o db a s e do ng i v e nf i e l di sp r o p o s e d ,a n dt h e w e i g h to fr e s u l tp a g e s i n d e xq u a n t i f i c a t i o na c c o r d i n gw i t hw e i g h t ( 2 ) i nk n o w l e d g ep r o c e s s i n gs t a g e ,m e t as e a r c h i n gr e s u l ta r ec l u s t e r e d a na p p r o a c ho f c l u s t e r i n ga l g o r i t h mb a s e do ng i v e nf i e l d i sp r o p o s e d b yu s i n gv e c t o rs p a c em o d e la n d s i n g u l a rv a l u ed e c o m p o s i t i o n , t h es e a r c hr e s u l t sc a l lb ea s s i g n e dt ot h ec o r r e s p o n d i n gc l a s s t h e m e s ,a n dt h er e t r i e v a la n dp r o c e s s i n gi s f a c i l i t a t e i nt h i sp a r t ,t h em o d e lo ft e x t r e p r e s e n t a t i o na n df e a t u r ee x t r a c t i o na r ee x p l a i n e di nd e t a i l t h ea d v a n t a g ea n dp r a c t i c eo f t h ec l u s t e r i n ga l g o r i t h mi si n t r o d u c e da tl a s t ,a n di t sa p p l i c a t i o ni nt h ek n o w l e d g ea c q u i s i t i o n s y s t e mi sp r o p e r ( 3 ) i nt h ep r o c e s s i n go fr e s u l tp a g e s ,w ep r o p o s eac o n t e n te x t r a c t i o nm e t h o db a s e do n n o d ei d e n t i t ya n a l y s i s ,w h i c hi sc o m b i n e dw i t ht h em e t ad a t ao fm e t as e a r c he n g i n e ,p l u st h e w r a p p e rm e t h o d s ,a c h i e v et h er e q u i r e m e n to fa c c u r a c ya n dp r e c i s i o n f i n a l l yw ed e s i g na n di m p l e m e n tt h es y s t e m ,a n dt e s tt h ek n o w l e d g es y s t e mu s i n gb a s e s o fd i f f e r e n tf i e l d s ,a n de v a l u a t et h er e t u r n e ds t r u c t u r e dd a t aa n dt h ee f f e c t i v e n e s so fc l u s t e r i n g r e s u l t a n dt h er e s u l ti se f f e c t i v e 大连理工大学硕士学位论文 k e yw o r d s :k n o w l e d g ea c q u i r e m e n t ;m e t as e a r c h ;s e a r c h r e s u l tc l u s t e r i n g ; i n f o r m a t i o ne x t r a c t i o n i i l 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:鏊重型丝翌垒竺堡查垦垒堕鱼墨堡垒垄塑堕 作者签名:一幽2 丑j 一 日期:埠年么一月三生日 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 作者签名:丝重垒2 望垫日期:址年二月至三日 钏唯轧一嘲一心膻日 大连理工大学硕士学位论文 1 绪论 1 1研究背景与意义 1 1 1 知识获取的重要性 人类社会已经进入知识经济时代【1 】,所谓知识经济是指建立在知识生产、分配和使 用上的经济,它将知识作为最重要的资源,将人创造知识和运用知识的能力看作是最重 要的经济发展因素,信息化、网络化和智能化是知识经济的主要特点。专家们指出:2 1 世纪是“知识化了的全球社会”,充满这个社会的是各种数字符号与信息流,而接通这 个社会各个部分的则是互联网络。在知识经济时代,决定企业或组织成长发展的关键因 素是知识因素【2 】,而非物质因素,知识资源是企业未来财富创造和维持竞争优势的决定 性资源。 知识经济正在为经济发展与社会发展注入更大的活力和带来更好的机遇,知识资本 成为了最重要的资本,而知识的生产、获取和创新成为人类最重要的活动。从知识对企 业或组织的重要性上看,知识资本是企业保持持续发展活力的源动力,并成为企业或组 织发展的关键因素。一方面,知识资本能够有效地促进高科技企业的资本价值增值,提 高物质资本的技术含量,从而提高科技企业中物质的效率和价值。另一方面,知识资本 促使高科技企业不断创新,创新正是现在企业必不可少的一种能力,从而为企业的持续 发展奠定雄厚的基础。知识资本相对于个人和组织的重要程度不言而喻,而知识获取的 方法和技术研究也成为企业和组织关心的问题之一。 按照知识的特征分类【3 】,知识可以分为显性知识和隐性知识。显性知识又称为明晰 知识,是指“能明确表达的知识”,即人们可以通过口头传授、教科书、参考资料、期 刊杂志、专利文献、视听媒体、软件和数据库等方式获取,可以通过语言、书籍、文字、 数据库等编码方式传播,容易被人们学习。隐性知识和显性知识相对,是指那种可以理 解但难以言述的知识。显性知识可以转化为隐性知识,显性知识的积累是显性知识隐性 化的基础。传统的显性知识获取渠道主要是报纸、书籍、培训等,如今互联网的蓬勃发 展使其成为显性知识的主要来源,对该类知识的处理方法和技术也日益增多。 随着i n t e m e t 的普及和发展,互联网已经成为新闻资讯传播的重要媒介,而且互联 网上的信息和知识量持续更新,以惊人的速度增长 4 1 ,已成为资讯知识的庞大和动态的 数据库。这类知识以其文本化和格式化的表示特征,容易获取和存储。因此,从互联网 上获取资讯类( 新闻) 知识是组织和企业当前条件下知识获取的重要方式之一。 基于元搜索的知识获取方法与系统集成研究 本文中的提出的知识获取概念是主要针对互联网资讯( 新闻) 知识的获取,互联网 发达的新闻服务为企业和组织提供了丰富和即时的信息,各类新闻每日都在实时更新, 市场和社会环境瞬息万变,企业与各种组织需要这类知识为其发展提供决策依据,辅助 其制定发展计划和竞争策略,资讯类知识对于如今的任何企业或组织都是必不可少的。 综上所述,知识资本是企业或组织发展和创新的基石,知识获取的重要性不言而喻。 从知识分类上看,资讯知识的获取是可行的,而互联网的飞速发展和知识资源的快速增 长使其成为巨大的资讯知识库,能够为企业和组织的发展和创新提供相应的知识资源。 本文依据一些组织或个人的需求,从互联网上搜集资讯知识,并进行相应的文本处理, 为企业和个人获取个性化的领域资讯知识。 1 1 2 企业和组织的需求 知识是组织或企业产生竞争优势的源泉,知识若作为一种重要的资源,需要有获取 该资源的方法和使用资源的工具。传统的知识获取渠道主要是报纸、书籍、专业资料和 电视等媒体,采用传统方法知识获取的成本较高,效率较低,获取到的知识共享性较差。 互联网的出现使知识获取有了新的渠道并产生了新方法,它不仅是巨大的知识宝库,也 是重要的新闻媒介,随着企业产品生产的速度加快,及时的情报和资讯变得愈发重要, 互联网恰恰为人们提供了获取高质量的信息和实时情报的平台。 越来越多的企业或组织围绕互联网获取信息和知识,对于网络信息的检索和信息获 取技术的要求也越来越高,搜索引擎的出现解决了人们从i n t e m e t 上获取相关信息的难 题,它已经成为网络中不可或缺的一部分,是人们在网络信息检索中使用的重要工具。 企业或组织的知识获取也需要搜索引擎的支持,才能在信息过载的网络上获得有价值的 知识和信息。 对一些专业的组织和企业而言,需要及时准确地获取特定领域的资讯信息,一方面 要保证信息的及时性和准确性,例如一个地方的科技类网站需要定时从一些其他的网站 上获取相关的科技类新闻,为自己的网站搜集数据,并要对新闻分类,或者采集特定领 域的知识,进行处理后,为网站用户提供浏览检索服务。对于一个企业,每天不仅需要 关注整个行业的动态,国家的政策,还要关注竞争对手的情报【5 】,这就需要专人每天检 索相关领域的资讯知识和信息,为企业的发展提供决策服务。另一方面要保证知识获取 的质量,将获取到的知识进行相应的分类,方便查询和共享,这就需要对获取的知识进 行整理,对获取到的信息进行人工整理可以提供高质量的服务,但是数据量大的话,人 工整理的效率就是一个问题。 对于一些中小企业或组织,从资金和人力资源上考虑,开发一个专门搜集情报的系 统是一个很大的负担。但是如果解决该问题利用搜索引擎进行手工检索来获取符合要求 2 大连理工大学硕士学位论文 的网页,需要将检索到的网页下载,存储,并将不同格式的网页内容抽取出来,即需要 剔除网页中无关的广告信息,图片链接等,最后按照网页的内容进行相关文本处理后分 类,提供给用户。若依靠人工操作,需要多次输入关键词,获取网页,不仅工作量繁重, 而且效率低下,很大程度上难以满足及时的获取要求,而且不同组织和企业关注的领域 也不尽相同,这样在人力成本上是很大的消耗。针对上述问题,需要有一个实用的互联 网知识获取系统来支持企业或组织的日常业务需要。这个知识获取系统应有以下要求: ( 1 ) 搜集的知识及时,准确,全面。 ( 2 ) 搜集知识主要来源于互联网上的信息,如实时的新闻信息,可以定时定量的 对一些知识进行获取,也可以随时输入关键词获取。 ( 3 ) 支持针对某个领域按照规则进行知识搜集,满足不同企业或组织个性化的需 求。 ( 4 ) 能够对知识进行一些基本处理,满足日常查询需要。 ( 5 ) 完全自动化的工作,基本不需要人工干预。 从以上基本要求可以得出,搜索引擎是互联网知识获取的基础,但是现有的通用搜 索引擎的缺陷限制了其在这方面的应用【6 】,主要局限性如下: ( 1 ) 针对专业领域的搜索扩展性或灵活性比较差,这主要是由搜索引擎自身的特 点决定的,它必须提供公平、公正的搜索结果,不能两个不同用户输入搜索条件相同, 而返回结果不同。但是现实中不同领域、不同背景的用户往往具有不同的检索目的和需 求,通用搜索引擎所返回的结果包含大量不相关的网页,这样就产生了搜索引擎的通用 性和用户需求的个性化之间的矛盾。 ( 2 ) 通用搜索引擎的目标是尽可能大的网络覆盖率,但是从用户角度来说,只需 要返回最相关的结果,这样一方面互联网上的信息和资源以指数的形式在增长,而搜索 引擎尽可能的提高其资源覆盖率,必定需要不停地从无限的网络数据资源中获取信息资 源,这样有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 ( 3 ) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频 和多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构 的数据无能为力,不能很好地发现和获取。 ( 4 ) 从检索方面来看,通用搜索引擎大多提供基于关键字的检索,难以支持根据 语义信息提出的查询,检索结果也依据关键词来进行相关性排序,而现代的检索往往会 加入一些概念和语义的要求。 针对通用搜索的上述问题,出现了专业领域搜索引擎( t o p i c s p e c i f i cs e a r c he n g i n e ) 7 1 、个性化用户搜索引擎【8 1 、智能搜索引擎9 1 、元搜索引擎( m e t a s e a r c he n g i n e ) 0 0 等概 3 基于元搜索的知识获取方法与系统集成研究 念,在一定程度上解决了上述存在的问题,满足了大量用户对专业领域信息获取的潜在 要求,但是都不能从根本上解决企业灵活的知识获取需求。因此,需要一个平台将互联 网知识获取、整理、归类和结构化等方法结合起来完成相应的领域知识获取。 1 1 3 研究现状 从目前的研究来看,针对知识获取问题,主要出现了一些专业的服务网站或是有针 对性的系统,提供某一领域的知识检索服务。这样的专业服务网也是未来信息服务的一 个发展趋势。 国外的专业服务网有以下几个: e l s e v i e r 的s c i r u s 科学搜索引擎是一种专为搜索高度相关的科学信息而设计的搜索 引擎,是目前互联网上最全面、综合性最强的科技文献门户网站之一。它只面向含有科 学内容的网站,如大学和作者个人主页以及e l s e v i e r 自己的数据库【l 。b e r k e l e y 的f o c u s p r o j e c t 系统由一个印度裔的科学家带头从事研究,通过两个程序来指导爬行器,一个是 分类器c l a s s i f i e r ,用来计算下载文档与预定主题的相关度;另一个程序是净化器 d i s t i l l e r ,用来确定那些指向很多相关资源的页面【1 2 1 。n e c 研究院的c i t e s e e r 是一个针 对计算机科学领域论文的检索系统【1 3 ,它的核心部分是a c i ( a u t o m a t i c a l l yc i t a t i o n i n d e x ) ,可以自动地对网上的电子文件格式进行索引并分类。还有一些方法采用了背景 知识指导的方式,s c h a k r a b a r t i 【1 2 】采用已有的文档和种子文档建立分类模型来指导爬行, m e h r i g 1 4 】采用基于本体论的网页相关性在网页预处理后,从中提取主题进行计算。 国内较成功的专业服务网有许多,同济医学院医学信息系为国家级重点学科器官移 植建立的器官移植网络导航系统【l5 1 ,是建立专题搜索引擎的一次成功尝试。三九健康网 是深圳三九集团创建的一个综合性健康门户网站,向公众及基层医务人员提供全面的信 息服务,其以强大的搜索引擎、及时的专业动态信息和交互性的社区论坛等特点,成为 专业网站上点击率最高的网站之一【1 6 1 。搜题网定位于互动学习、兴趣交流,服务对象主 要为中学生和大学生。搜题网取材于在校学生学习、生活、情感、网络实践等方方面面, 是服务于华人学生群体的超级学生门户网站【l7 1 。酷讯机票搜索是专门为航班价格信息进 行实时搜集,将多个网站的报价集中起来重新组织并以统一界面呈现给用户【i 引。 在对搜索结果处理的研究中,聚类和分类是主要处理方法。由于w e b 信息资源是时 刻动态增加变化的,若将整个文档进行聚类或分类,不能满足信息及时更新的需求,所 以将元搜索结果( 标题和摘要) 进行聚类的技术有利于用户更容易地在检索结果中浏览 与查找、更容易地以合适的新关键词来细化搜索,进而对检索结果进行处理。 国外对搜索结果聚类的研究较多,s c a r e r g a t h e r 1 9 】是最早对搜索结果进行聚类的系 统,它主要使用对大文本集合进行聚类的算法,将文档组织到一组类中,每个类有一个 4 大连理工大学硕士学位论文 主题,相关的文档被归入到对应的主题中。该系统有友好的用户界面,能够提高用户的 查询效率。 s n a k e t 2 0 1 实现了搜索结果聚类各项功能,向用户提供了可读性较好的标签、层次型 结构的类别和良好的交互响应。 g r o u p e r 2 l 】是一个为搜索结果聚类而设计的后检索( p o s t r e t r i e v a l ) 系统,也是第一个 针对文档摘要而不是文档本身进行聚类的系统。该系统使用后缀树聚类( s t c ,s u f f i xt r e e c l u s t e r i n g ) 算法,将具有共同短语的文档归到一类中,因此在对文档本身和文档摘要进 行聚类时都表现出了良好的性能。 v i v i s i m o 2 2 】是一个具有自动对检索结果进行聚类功能的元搜索引擎,其基本原理是 将所有的类别成对地进行比较,找出能够将每一对类别区分开来的特征,然后对那些特 征进行组织,形成最后的描述。 s h o c 2 3 】是用来处理中文查询的搜索结果聚类系统,它利用后缀数组进行关键短语 的发现,并采用s v d ( s i n g u l a rv a l u ed e c o m p o s i t i o n ) 方法来发现短语之间的语义,进而 获得层次型分类的结果。 c a r r o t 2 2 4 】提出了先确定类名再将文档归类的方法,也使用了s v d 方法来寻找类的 标签,然后再使用类似分类的方法将文档与标签联系起来,这样能够降低文档出现在无 关类别中的可能性,能够为用户呈现描述性更好的标签以及更精确的类别。 s e r g i o t 2 5 】提出一个元搜索引擎,将收集到的来自两个目的搜索引擎的n 个结果页面 保存在数据库中,并对它们提取特征后利用改进的k m e a n s 进行聚类处理。 n e s r e c t 2 6 】是专门用于新闻检索的元搜索引擎结果聚类系统,它执行用户的查询请 求并收集来自a l t a v i s t a 新闻搜索引擎返回的新闻摘要,并能在较短的时间内实现基于新 闻主题的内容层次聚类,为用户提供基于新闻摘要的标签。 国内在元搜索引擎中引入聚类技术的有b b m a 0 【27 1 ,它是国内最典型的聚类元搜索引 擎之一,在它的检索结果页面左侧呈现聚类结果的类别标签,这样能有效地帮助用户关 注所需的信息类别。p i n k y s e a r c h 2 8 】是一个基于聚类的元搜索引擎,它能同时调用5 个独 立的搜索引擎,并且可以对检索结果使用后缀树聚类算法及相同词聚类算法进行聚类处 理。i c c 2 9 是一个交互式中文检索结果聚类系统,为用户的交互响应和个性化设置提供 较好的可视化搜索页面,以更紧凑和专题的形式方便用户浏览中文页面。 专业服务网站和通用搜索工具都具有较强的针对性,灵活性不足,不同的企业为了 搜索不同领域的知识就需要多个这样的工具,增加了开发成本。为了解决这样的问题, 可以利用现有搜索引擎专门针对新闻资讯提供信息服务,如百度新闻,g o o g l e 资讯,雅 虎资讯等,结合元搜索引擎原理,将从互联网上获取知识的方法综合起来,经过分析和 5 基于元搜索的知识获取方法与系统集成研究 实验论证,形成一套基于元搜索原理的领域知识获取方法与技术,解决组织和个人从互 联网上这个外源知识库中搜集、分类、提取文本的难题。同时针对不同用户不同阶段的 需求,灵活地使用不同方法来满足实际的应用。本文主要工作是将元搜索、查询扩展、 聚类和网页信息抽取等方法和技术结合起来,构成互联网知识获取的体系框架,并实现 了依赖于领域知识的信息获取系统。 1 2 研究内容和方法 本文旨在通过知识获取对企业或组织重要性的阐述,提出了针对领域内知识获取的 研究方法和技术,实现了一个为企业或组织提供知识来源和查询服务的系统。该系统主 要获取新闻资讯类知识,利用领域知识库从语义层面提高知识获取的质量以及相关性。 同时各个部分提供了灵活的扩展机制,将现有的查询扩展、元搜索原理、文本聚类、网 页信息抽取等技术结合起来,形成了一套完整的知识获取和查询体系。研究的内容和重 点要解决的问题如下: ( 1 ) 查询扩展原理和机制 通过对某一具体领域分析研究,建立相应的概念关键词知识库,对输入的查询条件 进行语义分析,按照一定的扩展规则,利用领域知识库进行扩展,生成了优化的查询扩 展关键词或概念,提高搜索引擎的查全率。 ( 2 ) 元搜索原理及其关键技术 知识资源获取的理论基础是利用元搜索引擎的原理,通过一定的调用机制,调用多 个搜索引擎进行知识获取,并利用领域内知识和一些数据对搜索结果进行处理。在调用 过程中提出了基于概念的统计方法,按照该方法调用的结果覆盖率高,资源开销小。在 结果处理中,给出了基于领域知识的结果评价指标,为后续文本处理提供了重要性可量 化的网页。 ( 3 ) 基于搜索结果的聚类 对搜索结果的一个重要处理方法就是搜索结果聚类,利用聚类算法将产生的文本知 识聚集在相应的主题下。利用领域知识库,提出了基于领域的元搜索结果聚类方法,产 生的聚类主题识别性好,有好的层次结构,并与元搜索结果的评价指标结合起来,综合 得出一个网页的重要性指标,方便用户检索。 ( 4 ) 网页主题信息抽取 对搜集到不同类别的网页进行结构化处理,抽取主题内容,提出了基于节点特征的 分析算法,将从互联网获取的网页进行结构分析,主要针对资讯类网页的内容进行抽取, 结合包装器抽取方法,不仅可以高效地对常用网站的网页内容进行精确抽取,也可以对 6 大连理工大学硕士学位论文 普通网页用统计方法抽取,同时依据抽取结果产生相应的抽取规则,对抽取知识库进行 反馈更新,从多个层面保证网页内容抽取的准确性。 1 3 文章组织结构 本文按照互联网知识获取的流程进行内容组织。 第一章绪论对论文的研究背景和意义进行了详细阐述,对知识获取的研究方法和工 具进行综述。主要从问题的产生、国内外的主要相关研究方法以及不足等几方面进行了 阐述。同时,提出了本文的研究内容及方法。 第二章介绍了互联网知识获取的基础方法元搜索引擎原理和相关处理技术,给 出了领域知识库的构建方法,深入分析了元搜索引擎的两个重要问题,查询条件的分析 和搜索结果的处理。在搜索结果处理中,介绍了基于领域知识的调度策略和结果合成方 法,对搜索结果采用量化的指标衡量对领域的贡献度。 第三章介绍了搜索结果聚类的相关技术,针对搜索引擎返回结果的特点,提出了基 于领域知识的主题聚类方法,对获取到大量的知识进行聚类处理,提高检索和使用效率。 第四章介绍了对搜集的网页进行内容抽取的意义,提出了基于元搜索的网页内容抽 取算法,解决了知识获取系统中最终文本处理的问题,为用户提供高质量的数据。 第五章是系统的设计与实现,系统实现按照知识获取流程分为三大部分:元搜索知 识获取、搜索结果聚类处理和网页内容自动抽取,最后对不同领域知识获取效果进行了 测试和评价,取得了良好的效果。 最后总结本文所做工作和系统中存在的问题,为论文的下一步工作进行了展望,为 以后的研究提供参考。 7 基于元搜索的知识获取方法与系统集成研究 2 元搜索原理 互联网知识获取中,搜索引擎是最常用的工具,元搜索是将多个独立搜索引擎结合 起来提高查全率的一种方法。本章首先介绍了元搜索引擎的特点和原理,分析了利用元 搜索引擎原理获取互联网知识的合理性,其次提出了构建领域知识库的方法,灵活地利 用领域知识库进行查询扩展,接着详细分析了在知识获取系统中元搜索原理涉及的技术 和处理方法,提出了基于领域知识的调用和结果合成方法,最后给出元搜索引擎的两种 实现方法。 2 1元搜索引擎概述 搜索引擎是企业或组织知识获取的基础工具,随着网上信息资源的快速增长,传统 搜索引擎在查全率和查准率【3 0 】方面很难满足用户的要求,同时用户对个性化检索的需求 越来越强烈,迫切需要将查询条件优化,将多个搜索引擎的结果集中起来扩大查询范围, 元搜索引擎【3 l 】的出现为这方面的问题的解决提供了一条值得探索的途径。 元搜索引擎最早产生于2 0 世纪9 0 年代中期,华盛顿大学硕士生e r i cs e l b e r g 和o r e n e t z i o n i 推出第一个元搜索引擎m e t a c r a w l e r 3 2 】【3 3 】,它是在搜索引擎的基础上建立起来的 可以同时或分时查询多个搜索引擎的网络信息检索系统。元搜索引擎自身并不收集网站 或网页信息,通常也没有自己的数据库,而是将用户递交的查询请求经过多种转换处理 后提交给多个预先选定的成员引擎,并将所有查询结果集中起来以整体统一的格式呈现 给用户。由于元搜索引擎可以采用一系列查询优化和结果优化机制,它能够在尽可能短 的时间内提供相对全面、准确的信息。 在知识获取系统中,采用元搜索引擎原理获取知识,一方面可以扩大知识检索范围, 另一面可以利用元搜索引擎的特点进行前期的概念查询优化和对返回的大量搜索结果 进行个性化处理。 2 1 1元搜索引擎的特点 与独立搜索引擎相比,元搜索引擎主要有以下特剧3 4 】: ( 1 ) 元搜索引擎提高了用户检索质量。它可以同时调度多个成员搜索引擎,方便 检索多个网页数据库。一般搜索引擎的检索范围仅局限于自身的数据库,各个独立的成 员搜索引擎因为定位关注不同,从而网页覆盖范围千差万别。即使是世界上功能最强大 的搜索引擎,其网页检索数据库也只是涵盖了互联网上网页的3 0 。同时,由于不同搜 索引擎自身的网页收集范围、方式和相关度计算方法不同,同一检索表达式会得到大不 相同的结果。 大连理工大学硕士学位论文 ( 2 ) 元搜索可以自动向成员搜索引擎索取结果,在短时间内把多个引擎的结果返 回给用户,它有效屏蔽了各个成员搜索引擎的接口等实现细节,避免用户在多个引擎系 统之间切换和查询请求的格式转换,不仅仅提高了检索的覆盖面,而且提高了用户的检 索效率。 ( 3 ) 元搜索的可扩展性强,可以实现个性化搜索,个性化搜索实现较为复杂,它 可以构建用户的搜索兴趣模型,对用户的兴趣进行挖掘学习,并以此来对结果进行处理。 个性化搜索可以基于服务器端也可以基于客户端,基于服务器端的个性化搜索能够追踪 用户以前的查询和访问过的网页,以此来推测用户兴趣,进行日志等相关因素分析得出 结论,而基于客户端的个性化搜索能使用户利用自身的要求来进行输入和搜索结果的控 制,灵活性更强,本文的知识获取方法研究获取工具为一个桌面式获取代理,可以个性 化设置用户的要求信息。 ( 4 ) 元搜索引擎没有自己的数据库,元搜索系统实现复杂度低,它是具有智能功 能的中间代理,用户只需要提交一次搜索请求,由元搜索引擎负责转换处理后,提交给 多个预先选定的成员搜索引擎,并将成员搜索引擎返回的所有结果集中起来,进行不同 层次的处理( 删除重复结果,结果排序) 后,将结果返回给用户。 元搜索引擎自身也存在一些缺陷,主要是: ( 1 ) 元搜索检索时间有时过长,响应时间不够理想。由于元搜索一次要访问多个 成员搜索引擎,要将用户的检索请求转化处理后提交给多个成员搜索引擎,并将结果收 集起来进行处理,然后以可视化方式呈现给用户,响应时间较长。一般可以采用并行分 布优化运行机制,尽可能缩短响应时间。 ( 2 ) 元搜索对搜索结果的排序不够理想。典型的搜索引擎是基于查询时关键词所 在网页中的词条对网页进行排序的,不同的成员搜索引擎采用了不同的网页相关度评价 体系,一般元搜索引擎无法获取成员搜索引擎的网页检索数据库中词条的词频等统计信 息,并且搜索结果中用于排序的信息有限,因此元搜索排序效果有待提高。 对于本文的知识获取研究方法而言,可以借鉴元搜索引擎的优点,将用户的查询按 照统一格式分发给各独立搜索引擎,提高查全率。而元搜索的缺陷是可以忽略不计的, 因为在互联网的知识获取方法研究中,对用户查询的实时性要求不高,主要是针对用户 的个性化需求和后续结果的处理,以提高领域内知识的获取精度和改善搜索结果的质 量。 2 1 2 元搜索引擎的原理 元搜索引擎通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的 搜索引擎来实现检索操作,是一个对分布于网络上的多种检索工具的全局控制系统。一 9 基于元搜索的知识获取方法与系统集成研究 般元搜索引擎由三部分组成,检索请求提交、检索接口代理、检索结果显剥3 0 1 。g _ - - 个 部分的基本功能如下: 图2 1 元搜索引擎结构 f i g 2 1 s 旬r u c t u r eo f m e t a - s e a r c he n g i n e ( 1 ) 请求提交,负责实现用户个性化的检索设置要求,包括调用哪些搜索引擎、 检索时间限制、结果数量限制等。 ( 2 ) 接口代理,负责将用户的检索请求转化成满足不同的成员搜索引擎要求的格 式。 ( 3 ) 结果显示,负责把所有成员搜索引擎检索结果去重、合并、排序处理,并按 一定的格式显示。 元搜索引擎没有网页搜寻模块( 爬虫) ,亦无独立的索引数据库,但在检索请求提 交、检索接口代理和检索结果显示等方面,都可以依据用户个性需求进行灵活的扩展。 例如提交检索请求时,根据源搜索引擎的特点和技术参数,可以指定优先调用顺序,并 对检索时间、检索结果数量进行控制;作为多个独立搜索引擎的检索接口,元搜索引擎 有较强的字符和语法转换功能,使用户的检索请求被各具语法特点的不同的源搜索引擎 所接受;在检索结果的显示时,元搜索引擎可以采用不同的处理技术,对设定的检索结 果排序依据、最大返回结果数量、相关度参数及优化机制等进行个性化设置。 1 0 大连理工大学硕士学位论文 2 2 查询扩展技术 2 2 1 基于领域知识的查询扩展 查询扩展是利用计算语言学、信息学、控制论等多种技术结合起来的查询优化方法, 最初只是在用户原始查询的基础上加入某些与用户查询相关联的词来组成一个新的更 长的用户查询表达,后来发展为使用查询重构方法,将原始查询条件进行重新组织形成 查询串,使之更准确的表达用户真正的查询需要。 查询扩展的核心问题是扩展词的选择和权重的计算。通常查询扩展过程可以分为两 步:第一步,查询用户构造初始查询表达提交给系统;第二步,利用已有的某种资源对 查询进行直接扩展或使用第一阶段的查询结果,通过用户手工、系统自动、用户在系统 协助下或者系统在用户尝试下调整初始化查询,提高最终的查询效率。 目前关于查询扩展的方法大体上有全局分析、局部分析、基于相关反馈、基于用户 日志的查询扩展和基于概念的查询扩展等。 ( 1 ) 全局分析 全局分析是利用全部文档信息计算t e r m s 之间的相似度。这种相似度计算不依赖 于用户查询,因此可以事先算好。在此基础上,计算t e r m s 和用户查询之间的相似度。 当一个新的查询到来时,则由这种预先计算的词间相关关系,将与查询词关联程度最高 的词或词组加入原查询以生成新的查询表达。全局分析主要的技术有聚类算法、潜在语 义索引( l s i ) 3 5 】、基于相似性词典【3 q 或统计词典【3 7 】【3 8 1 的查询扩展。 ( 2 ) 局部分析 局部分析利用两次查询的方法解决扩展问题。它使用初次查询检索得到的结果,特 别是原查询结果中排名靠前的n 篇文档( 称为局部文档) 进行分析后改善查询。局部 分析需要基于上次检索的结果,全局分析则不需要。局部分析主要的技术有基于局部聚 类、基于局部上下文分析【3 9 】等。 ( 3 ) 基于相关反馈的查询扩展 相关反馈【4 0 】是指用户或系统模拟用户对初次检索的结果进行相关性判定,其中用户 直接对检索结果进行判定称为用户相关反馈,不是用户真正进行标注,而由系统自动进 行一些判定假设,如假设返回结果的前n 篇相关,剩下的都不相关,则称为伪相关反 馈【4 1 1 。通过相关反馈对初次检索结果的标注结果来进行查询扩展。基于用户相关反馈的 查询扩展为用户提供了便利的反馈接口【4 2 】,通过一个受控过程来强调或弱化某些 t e r m s ,但需要人工的参与,加重了用户负担。伪相关反馈查询扩展的查询精度高度依 基于元搜索的知识获取方法与系统集成研究 赖于排在前面的文档与查询的相关度,当相关度不大时,会将大量无关的词作为扩展用 词,反而降低查询精度。 ( 4 ) 基于用户日志的查询扩展 前面提到的三种查询扩展方法仅考虑将新的用户查询映射到文档集中,从文档中选 择与其相近的词,而未将以往的用户查询记录考虑在内。基于用户日志的查询扩展考虑 的则是众多用户使用检索系统时多次“反馈”的结果积累查询日志。它的基本思想: 在用户查询记录的基础上建立用户查询空间,在文档集上建立文档空间,根据用户日志 将两个空间的词按照用户提交某个查询后所点击的文章以条件概率的方式联系起来。当 新查询到来时,系统选取当该查询出现时被选择成为扩展用词的条件概率最大的文档用 词加入查询。基于用户日志的查询扩展建立在对大量用户长期查询行为的分析、学习基 础上,实验证明其对信息检索有效好的优化效果【4 3 】。 ( 5 ) 基于概念的查询扩展 概念是人们对事物本质的认识,是逻辑思维最基本的单元。概念最基本的特征就是 它的抽象性和概括性。概念在表示方法上通过字、词、词组等概念描述元素表达出来, 同一个概念可以由多个描述元素表达,它们在此概念约束下构成同义关系。从这个意义 上说这些描述元素可以等同起来。基于概念的查询扩展是近年来备受学者关注的一种新 的查询扩展方法。它的主要思想是根据词汇之间的关系,如同义关系、关联关系等,构 建以揭示各词汇所代表的概念之间的关系为基本内容的知识库,然后利用知识库中表达 同一概念的所有词汇、词汇间的相关语义联想、相近概念导航等手段进行查询扩展,更 准确有效地表达用户的查询需求。 以上介绍的查询扩展方法中,针对的问题不同,各有侧重和优势。本文中针对不同 领域的概念和关键词特征,构建了基于特定领域的查询扩展知识库概念关键词库, 其作为系统领域搜索和测试的依据,同基于概念的查询扩展方法结合起来,合成了查询 扩展词,一方面提高了查询的覆盖率,另一方面保证了查询结果的相关度。下图为一个 简单实例的描述,输入原始查询词:椅子,依据上下位关键词和概念的位置,设定的阈 值可以扩展其查询串为:椅子,桌子,电话和办公家具,其中,办公家具为椅子的上层 概念,而桌子和电话为椅子这一类别的同位概念或关键词。整个关系如下图所示: 1 2 大连理工大学硕士学位论文 图2 2 概念扩展原理 f i g 2 2 s t r u c t u r eo fc o n c e p te x p a n s i o n 该方法实现了以用户输入关键词作为查询词,用设定的阈值匹配领域内的关键词或 概念,进行查询扩展,这些扩展的关键词与元搜索引擎结合起来可以提高整个系统的查 全率和查准率。 2 2 2 领域知识库的构建 领域查询知识库作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人装修简合同标准文本
- 个人借款抵押合同二零二五年
- 培训学校全职外教协议
- 二零二五版上海房屋装修的合同范例
- 中学厨房帮工合同样本
- 钢结构安全协议书
- 义乌篁园市场租赁合同样本
- 教务老师工作职责及绩效考核
- 物料提升机维修保养制度
- 学校信息化管理制度和管理办法-
- 《道德与法治》六年级下《我们爱和平》课件
- 卫生法(教学讲解课件)
- 高三冲刺100天励志主题班会课件
- 全国工业产品生产许可证申请书
- 德能勤绩廉个人总结的
- 中层干部岗位竞聘报名表格评分表格评分标准
- 思想道德与法治课件:第六章 第一节 社会主义法律的特征和运行
- 有限空间作业及应急物资清单
- 《个人信息保护法》解读
- 新疆高速公路建设工程季节性施工方案
- 新版(七步法案例)PFMEA
评论
0/150
提交评论