（系统分析与集成专业论文）基于元搜索的知识获取方法与系统集成研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-11 格式：PDF 页数：72 大小：5.31MB 积分：0 举报 版权申诉

（系统分析与集成专业论文）基于元搜索的知识获取方法与系统集成研究.pdf_第2页

（系统分析与集成专业论文）基于元搜索的知识获取方法与系统集成研究.pdf_第3页

（系统分析与集成专业论文）基于元搜索的知识获取方法与系统集成研究.pdf_第4页

（系统分析与集成专业论文）基于元搜索的知识获取方法与系统集成研究.pdf_第5页

已阅读5页，还剩67页未读，继续免费阅读

（系统分析与集成专业论文）基于元搜索的知识获取方法与系统集成研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大连理工大学硕士学位论文摘要互联网已成为企业( 组织) 获取资讯知识的重要平台，但是现有的这类知识获取工具( 代理) 不具备通用性，且对于不同领域知识的获取没有灵活的框架和工具。本文针对该问题，运用元搜索，文本聚类，网页内容抽取等方法和技术将知识获取、分析归类等集成起来，提出了完整的知识获取体系，并构建了灵活的企业资讯知识获取平台，解决了企业( 组织) 从互联网上获取不同领域知识的问题。本文将互联网作为资讯知识的“矿藏”，围绕从互联网获取外源知识这一核心问题，分析了现有一些方法和工具的不足，提出了各个阶段中对应的解决方法和技术。本文主要从以下几个方面开展研究工作： ( 1 ) 在知识获取过程中，针对当前搜索引擎覆盖率低，个性化服务不足等问题，提出了利用元搜索原理并构建领域知识库的基本方法；利用元搜索引擎的灵活性，结合概念扩展对关键词进行优化，提高了知识搜索的覆盖率；在搜索结果处理过程中，提出了针对领域知识的调用方法，并对搜索结果依据权重进行指标量化。 ( 2 ) 在知识处理阶段，对元搜索结果进行聚类处理，提出了基于领域内知识获取模型的聚类算法。利用向量空间模型和奇异值分解等方法，将搜索结果分派到相应的可识别的聚类主题描述中，为后续检索和处理提供便利。其中详细介绍了文本表示模型和不同的特征提取方法，并阐述了该聚类算法相对于其他聚类算法的优点，说明其应用于互联网知识获取系统中是合适的。 ( 3 ) 在结果网页的处理阶段，提出了基于节点特征分析的内容抽取方法，该方法的准确性和精确度都达到了系统的要求。将其与基于包装器的抽取方法结合起来，能够自动高效地完成网页主题信息抽取任务。最后，设计并实现了一个基于元搜索的组织知识获取系统，对设计的系统进行了不同领域知识库的试验，对返回的结果和聚类的效果进行了评价，取得了良好的效果。关键词：知识获取；元搜索；搜索结果聚类；信息抽取基于元搜索的知识获取方法与系统集成研究 r e s e a r c ha n d i n t e g r a t i o no fk n o w l e d g ea c q u i s i t i o ns y s t e mb a s e d o n m e t a s e a r c h a b s t r a c t w 池t h er a p i dd e v e l o p m e n to ft h ei n t e r n e t ，i th a sb e e na l li m p o r t a n tp l a t f o r ma n d e x p l i c i tk n o w l e d g eb a s e h o w e v e r ，t h et o o l so fe x i s t i n gk n o w l e d g ea c q u i s i t i o na n da g e n t sa r e a i mt od i f f e r e n ta r e a sa n dw i t hw e a kf l e x i b l e t os o l v et h i sp r o b l e m ，t h i st h e s i sp r o p o s e sa f l e x i b l ep l a t f o r mf o rk n o w l e d g ea c q u i s i t i o n ，w h i c hi n c l u d i n gm a n ym e t h o d sa n dt e c h n i q u e s s u c ha sk n o w l e d g ea c q u i s i t i o n ，a n a l y s i s ，c l a s s i f i c a t i o n ，a n ds y s t e mi n t e g r a t i o ne t c f o c u s i n go no b t a i n i n ge x p l i c i tk n o w l e d g ef r o mt h ei n t e m e ta n di n s u f f i c i e n c yo fe x i s t i n g m e t h o d sa n dt o o l s ，c o r r e s p o n d i n gs o l u t i o n sa l ep r o p o s e d t h er e s e a r c hw o r kc a nb ed i v i d e d i n t of o u rp a r t s ，k n o w l e d g ea c q u i s i t i o nf r o mt h ei n t e m e t ，c l u s t e ra n a l y s i sa n de v a l u a t i o ns e a r c h r e s u l t ，t h ep r o c e s st ot h es e m i - s t r u c t u r e dp a g e sa n di m p l e m e n tt h es y s t e m t h er e s e a r c hw o r k o ft h i st h e s i sa sf o l l o w s ： ( 1 ) i nt h ep r o c e s so f k n o w l e d g ea c q u i s i t i o n ，t h et r a d i t i o n a ls e a r c he n g i n ei sl o wc o v e r a g e a n dl a c ko fp e r s o n a l i z e ds e r v i c e b yu s i n gm e t as e a r c he n g i n e ，g i v e nf i e l dk n o w l e d g eb a s e s a r ef o r m e d ，c o m b i n e dw i t hc o n c e p te x p a n s i o na n dk e y w o r d so p t i m i z a t i o n ，t h ec o v e r a g er a t i o i si m p r o v e d f o rt h er e s u l tp r o c e s s ，ac a l lm e t h o db a s e do ng i v e nf i e l di sp r o p o s e d ，a n dt h e w e i g h to fr e s u l tp a g e s i n d e xq u a n t i f i c a t i o na c c o r d i n gw i t hw e i g h t ( 2 ) i nk n o w l e d g ep r o c e s s i n gs t a g e ，m e t as e a r c h i n gr e s u l ta r ec l u s t e r e d a na p p r o a c ho f c l u s t e r i n ga l g o r i t h mb a s e do ng i v e nf i e l d i sp r o p o s e d b yu s i n gv e c t o rs p a c em o d e la n d s i n g u l a rv a l u ed e c o m p o s i t i o n , t h es e a r c hr e s u l t sc a l lb ea s s i g n e dt ot h ec o r r e s p o n d i n gc l a s s t h e m e s ，a n dt h er e t r i e v a la n dp r o c e s s i n gi s f a c i l i t a t e i nt h i sp a r t ，t h em o d e lo ft e x t r e p r e s e n t a t i o na n df e a t u r ee x t r a c t i o na r ee x p l a i n e di nd e t a i l t h ea d v a n t a g ea n dp r a c t i c eo f t h ec l u s t e r i n ga l g o r i t h mi si n t r o d u c e da tl a s t ，a n di t sa p p l i c a t i o ni nt h ek n o w l e d g ea c q u i s i t i o n s y s t e mi sp r o p e r ( 3 ) i nt h ep r o c e s s i n go fr e s u l tp a g e s ，w ep r o p o s eac o n t e n te x t r a c t i o nm e t h o db a s e do n n o d ei d e n t i t ya n a l y s i s ，w h i c hi sc o m b i n e dw i t ht h em e t ad a t ao fm e t as e a r c he n g i n e ，p l u st h e w r a p p e rm e t h o d s ，a c h i e v et h er e q u i r e m e n to fa c c u r a c ya n dp r e c i s i o n f i n a l l yw ed e s i g na n di m p l e m e n tt h es y s t e m ，a n dt e s tt h ek n o w l e d g es y s t e mu s i n gb a s e s o fd i f f e r e n tf i e l d s ，a n de v a l u a t et h er e t u r n e ds t r u c t u r e dd a t aa n dt h ee f f e c t i v e n e s so fc l u s t e r i n g r e s u l t a n dt h er e s u l ti se f f e c t i v e 大连理工大学硕士学位论文 k e yw o r d s ：k n o w l e d g ea c q u i r e m e n t ；m e t as e a r c h ；s e a r c h r e s u l tc l u s t e r i n g ； i n f o r m a t i o ne x t r a c t i o n i i l 大连理工大学学位论文独创性声明作者郑重声明：所呈交的学位论文，是本人在导师的指导下进行研究工作所取得的成果。尽我所知，除文中已经注明引用内容和致谢的地方外，本论文不包含其他个人或集体已经发表的研究成果，也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处，本人愿意承担相关法律责任。学位论文题目：鏊重型丝翌垒竺堡查垦垒堕鱼墨堡垒垄塑堕作者签名：一幽2 丑j 一日期：埠年么一月三生日大连理工大学硕士学位论文大连理工大学学位论文版权使用授权书本人完全了解学校有关学位论文知识产权的规定，在校攻读学位期间论文工作的知识产权属于大连理工大学，允许论文被查阅和借阅。学校有权保留论文并向国家有关部门或机构送交论文的复印件和电子版，可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印、或扫描等复制手段保存和汇编本学位论文。学位论文题目：作者签名：丝重垒2 望垫日期：址年二月至三日钏唯轧一嘲一心膻日大连理工大学硕士学位论文 1 绪论 1 1研究背景与意义 1 1 1 知识获取的重要性人类社会已经进入知识经济时代【1 】，所谓知识经济是指建立在知识生产、分配和使用上的经济，它将知识作为最重要的资源，将人创造知识和运用知识的能力看作是最重要的经济发展因素，信息化、网络化和智能化是知识经济的主要特点。专家们指出：2 1 世纪是“知识化了的全球社会”，充满这个社会的是各种数字符号与信息流，而接通这个社会各个部分的则是互联网络。在知识经济时代，决定企业或组织成长发展的关键因素是知识因素【2 】，而非物质因素，知识资源是企业未来财富创造和维持竞争优势的决定性资源。知识经济正在为经济发展与社会发展注入更大的活力和带来更好的机遇，知识资本成为了最重要的资本，而知识的生产、获取和创新成为人类最重要的活动。从知识对企业或组织的重要性上看，知识资本是企业保持持续发展活力的源动力，并成为企业或组织发展的关键因素。一方面，知识资本能够有效地促进高科技企业的资本价值增值，提高物质资本的技术含量，从而提高科技企业中物质的效率和价值。另一方面，知识资本促使高科技企业不断创新，创新正是现在企业必不可少的一种能力，从而为企业的持续发展奠定雄厚的基础。知识资本相对于个人和组织的重要程度不言而喻，而知识获取的方法和技术研究也成为企业和组织关心的问题之一。按照知识的特征分类【3 】，知识可以分为显性知识和隐性知识。显性知识又称为明晰知识，是指“能明确表达的知识”，即人们可以通过口头传授、教科书、参考资料、期刊杂志、专利文献、视听媒体、软件和数据库等方式获取，可以通过语言、书籍、文字、数据库等编码方式传播，容易被人们学习。隐性知识和显性知识相对，是指那种可以理解但难以言述的知识。显性知识可以转化为隐性知识，显性知识的积累是显性知识隐性化的基础。传统的显性知识获取渠道主要是报纸、书籍、培训等，如今互联网的蓬勃发展使其成为显性知识的主要来源，对该类知识的处理方法和技术也日益增多。随着i n t e m e t 的普及和发展，互联网已经成为新闻资讯传播的重要媒介，而且互联网上的信息和知识量持续更新，以惊人的速度增长 4 1 ，已成为资讯知识的庞大和动态的数据库。这类知识以其文本化和格式化的表示特征，容易获取和存储。因此，从互联网上获取资讯类( 新闻) 知识是组织和企业当前条件下知识获取的重要方式之一。基于元搜索的知识获取方法与系统集成研究本文中的提出的知识获取概念是主要针对互联网资讯( 新闻) 知识的获取，互联网发达的新闻服务为企业和组织提供了丰富和即时的信息，各类新闻每日都在实时更新，市场和社会环境瞬息万变，企业与各种组织需要这类知识为其发展提供决策依据，辅助其制定发展计划和竞争策略，资讯类知识对于如今的任何企业或组织都是必不可少的。综上所述，知识资本是企业或组织发展和创新的基石，知识获取的重要性不言而喻。从知识分类上看，资讯知识的获取是可行的，而互联网的飞速发展和知识资源的快速增长使其成为巨大的资讯知识库，能够为企业和组织的发展和创新提供相应的知识资源。本文依据一些组织或个人的需求，从互联网上搜集资讯知识，并进行相应的文本处理，为企业和个人获取个性化的领域资讯知识。 1 1 2 企业和组织的需求知识是组织或企业产生竞争优势的源泉，知识若作为一种重要的资源，需要有获取该资源的方法和使用资源的工具。传统的知识获取渠道主要是报纸、书籍、专业资料和电视等媒体，采用传统方法知识获取的成本较高，效率较低，获取到的知识共享性较差。互联网的出现使知识获取有了新的渠道并产生了新方法，它不仅是巨大的知识宝库，也是重要的新闻媒介，随着企业产品生产的速度加快，及时的情报和资讯变得愈发重要，互联网恰恰为人们提供了获取高质量的信息和实时情报的平台。越来越多的企业或组织围绕互联网获取信息和知识，对于网络信息的检索和信息获取技术的要求也越来越高，搜索引擎的出现解决了人们从i n t e m e t 上获取相关信息的难题，它已经成为网络中不可或缺的一部分，是人们在网络信息检索中使用的重要工具。企业或组织的知识获取也需要搜索引擎的支持，才能在信息过载的网络上获得有价值的知识和信息。对一些专业的组织和企业而言，需要及时准确地获取特定领域的资讯信息，一方面要保证信息的及时性和准确性，例如一个地方的科技类网站需要定时从一些其他的网站上获取相关的科技类新闻，为自己的网站搜集数据，并要对新闻分类，或者采集特定领域的知识，进行处理后，为网站用户提供浏览检索服务。对于一个企业，每天不仅需要关注整个行业的动态，国家的政策，还要关注竞争对手的情报【5 】，这就需要专人每天检索相关领域的资讯知识和信息，为企业的发展提供决策服务。另一方面要保证知识获取的质量，将获取到的知识进行相应的分类，方便查询和共享，这就需要对获取的知识进行整理，对获取到的信息进行人工整理可以提供高质量的服务，但是数据量大的话，人工整理的效率就是一个问题。对于一些中小企业或组织，从资金和人力资源上考虑，开发一个专门搜集情报的系统是一个很大的负担。但是如果解决该问题利用搜索引擎进行手工检索来获取符合要求 2 大连理工大学硕士学位论文的网页，需要将检索到的网页下载，存储，并将不同格式的网页内容抽取出来，即需要剔除网页中无关的广告信息，图片链接等，最后按照网页的内容进行相关文本处理后分类，提供给用户。若依靠人工操作，需要多次输入关键词，获取网页，不仅工作量繁重，而且效率低下，很大程度上难以满足及时的获取要求，而且不同组织和企业关注的领域也不尽相同，这样在人力成本上是很大的消耗。针对上述问题，需要有一个实用的互联网知识获取系统来支持企业或组织的日常业务需要。这个知识获取系统应有以下要求： ( 1 ) 搜集的知识及时，准确，全面。 ( 2 ) 搜集知识主要来源于互联网上的信息，如实时的新闻信息，可以定时定量的对一些知识进行获取，也可以随时输入关键词获取。 ( 3 ) 支持针对某个领域按照规则进行知识搜集，满足不同企业或组织个性化的需求。 ( 4 ) 能够对知识进行一些基本处理，满足日常查询需要。 ( 5 ) 完全自动化的工作，基本不需要人工干预。从以上基本要求可以得出，搜索引擎是互联网知识获取的基础，但是现有的通用搜索引擎的缺陷限制了其在这方面的应用【6 】，主要局限性如下： ( 1 ) 针对专业领域的搜索扩展性或灵活性比较差，这主要是由搜索引擎自身的特点决定的，它必须提供公平、公正的搜索结果，不能两个不同用户输入搜索条件相同，而返回结果不同。但是现实中不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量不相关的网页，这样就产生了搜索引擎的通用性和用户需求的个性化之间的矛盾。 ( 2 ) 通用搜索引擎的目标是尽可能大的网络覆盖率，但是从用户角度来说，只需要返回最相关的结果，这样一方面互联网上的信息和资源以指数的形式在增长，而搜索引擎尽可能的提高其资源覆盖率，必定需要不停地从无限的网络数据资源中获取信息资源，这样有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 ( 3 ) 万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频和多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。 ( 4 ) 从检索方面来看，通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询，检索结果也依据关键词来进行相关性排序，而现代的检索往往会加入一些概念和语义的要求。针对通用搜索的上述问题，出现了专业领域搜索引擎( t o p i c s p e c i f i cs e a r c he n g i n e ) 7 1 、个性化用户搜索引擎【8 1 、智能搜索引擎9 1 、元搜索引擎( m e t a s e a r c he n g i n e ) 0 0 等概 3 基于元搜索的知识获取方法与系统集成研究念，在一定程度上解决了上述存在的问题，满足了大量用户对专业领域信息获取的潜在要求，但是都不能从根本上解决企业灵活的知识获取需求。因此，需要一个平台将互联网知识获取、整理、归类和结构化等方法结合起来完成相应的领域知识获取。 1 1 3 研究现状从目前的研究来看，针对知识获取问题，主要出现了一些专业的服务网站或是有针对性的系统，提供某一领域的知识检索服务。这样的专业服务网也是未来信息服务的一个发展趋势。国外的专业服务网有以下几个： e l s e v i e r 的s c i r u s 科学搜索引擎是一种专为搜索高度相关的科学信息而设计的搜索引擎，是目前互联网上最全面、综合性最强的科技文献门户网站之一。它只面向含有科学内容的网站，如大学和作者个人主页以及e l s e v i e r 自己的数据库【l 。b e r k e l e y 的f o c u s p r o j e c t 系统由一个印度裔的科学家带头从事研究，通过两个程序来指导爬行器，一个是分类器c l a s s i f i e r ，用来计算下载文档与预定主题的相关度；另一个程序是净化器 d i s t i l l e r ，用来确定那些指向很多相关资源的页面【1 2 1 。n e c 研究院的c i t e s e e r 是一个针对计算机科学领域论文的检索系统【1 3 ，它的核心部分是a c i ( a u t o m a t i c a l l yc i t a t i o n i n d e x ) ，可以自动地对网上的电子文件格式进行索引并分类。还有一些方法采用了背景知识指导的方式，s c h a k r a b a r t i 【1 2 】采用已有的文档和种子文档建立分类模型来指导爬行， m e h r i g 1 4 】采用基于本体论的网页相关性在网页预处理后，从中提取主题进行计算。国内较成功的专业服务网有许多，同济医学院医学信息系为国家级重点学科器官移植建立的器官移植网络导航系统【l5 1 ，是建立专题搜索引擎的一次成功尝试。三九健康网是深圳三九集团创建的一个综合性健康门户网站，向公众及基层医务人员提供全面的信息服务，其以强大的搜索引擎、及时的专业动态信息和交互性的社区论坛等特点，成为专业网站上点击率最高的网站之一【1 6 1 。搜题网定位于互动学习、兴趣交流，服务对象主要为中学生和大学生。搜题网取材于在校学生学习、生活、情感、网络实践等方方面面，是服务于华人学生群体的超级学生门户网站【l7 1 。酷讯机票搜索是专门为航班价格信息进行实时搜集，将多个网站的报价集中起来重新组织并以统一界面呈现给用户【i 引。在对搜索结果处理的研究中，聚类和分类是主要处理方法。由于w e b 信息资源是时刻动态增加变化的，若将整个文档进行聚类或分类，不能满足信息及时更新的需求，所以将元搜索结果( 标题和摘要) 进行聚类的技术有利于用户更容易地在检索结果中浏览与查找、更容易地以合适的新关键词来细化搜索，进而对检索结果进行处理。国外对搜索结果聚类的研究较多，s c a r e r g a t h e r 1 9 】是最早对搜索结果进行聚类的系统，它主要使用对大文本集合进行聚类的算法，将文档组织到一组类中，每个类有一个 4 大连理工大学硕士学位论文主题，相关的文档被归入到对应的主题中。该系统有友好的用户界面，能够提高用户的查询效率。 s n a k e t 2 0 1 实现了搜索结果聚类各项功能，向用户提供了可读性较好的标签、层次型结构的类别和良好的交互响应。 g r o u p e r 2 l 】是一个为搜索结果聚类而设计的后检索( p o s t r e t r i e v a l ) 系统，也是第一个针对文档摘要而不是文档本身进行聚类的系统。该系统使用后缀树聚类( s t c ，s u f f i xt r e e c l u s t e r i n g ) 算法，将具有共同短语的文档归到一类中，因此在对文档本身和文档摘要进行聚类时都表现出了良好的性能。 v i v i s i m o 2 2 】是一个具有自动对检索结果进行聚类功能的元搜索引擎，其基本原理是将所有的类别成对地进行比较，找出能够将每一对类别区分开来的特征，然后对那些特征进行组织，形成最后的描述。 s h o c 2 3 】是用来处理中文查询的搜索结果聚类系统，它利用后缀数组进行关键短语的发现，并采用s v d ( s i n g u l a rv a l u ed e c o m p o s i t i o n ) 方法来发现短语之间的语义，进而获得层次型分类的结果。 c a r r o t 2 2 4 】提出了先确定类名再将文档归类的方法，也使用了s v d 方法来寻找类的标签，然后再使用类似分类的方法将文档与标签联系起来，这样能够降低文档出现在无关类别中的可能性，能够为用户呈现描述性更好的标签以及更精确的类别。 s e r g i o t 2 5 】提出一个元搜索引擎，将收集到的来自两个目的搜索引擎的n 个结果页面保存在数据库中，并对它们提取特征后利用改进的k m e a n s 进行聚类处理。 n e s r e c t 2 6 】是专门用于新闻检索的元搜索引擎结果聚类系统，它执行用户的查询请求并收集来自a l t a v i s t a 新闻搜索引擎返回的新闻摘要，并能在较短的时间内实现基于新闻主题的内容层次聚类，为用户提供基于新闻摘要的标签。国内在元搜索引擎中引入聚类技术的有b b m a 0 【27 1 ，它是国内最典型的聚类元搜索引擎之一，在它的检索结果页面左侧呈现聚类结果的类别标签，这样能有效地帮助用户关注所需的信息类别。p i n k y s e a r c h 2 8 】是一个基于聚类的元搜索引擎，它能同时调用5 个独立的搜索引擎，并且可以对检索结果使用后缀树聚类算法及相同词聚类算法进行聚类处理。i c c 2 9 是一个交互式中文检索结果聚类系统，为用户的交互响应和个性化设置提供较好的可视化搜索页面，以更紧凑和专题的形式方便用户浏览中文页面。专业服务网站和通用搜索工具都具有较强的针对性，灵活性不足，不同的企业为了搜索不同领域的知识就需要多个这样的工具，增加了开发成本。为了解决这样的问题，可以利用现有搜索引擎专门针对新闻资讯提供信息服务，如百度新闻，g o o g l e 资讯，雅虎资讯等，结合元搜索引擎原理，将从互联网上获取知识的方法综合起来，经过分析和 5 基于元搜索的知识获取方法与系统集成研究实验论证，形成一套基于元搜索原理的领域知识获取方法与技术，解决组织和个人从互联网上这个外源知识库中搜集、分类、提取文本的难题。同时针对不同用户不同阶段的需求，灵活地使用不同方法来满足实际的应用。本文主要工作是将元搜索、查询扩展、聚类和网页信息抽取等方法和技术结合起来，构成互联网知识获取的体系框架，并实现了依赖于领域知识的信息获取系统。 1 2 研究内容和方法本文旨在通过知识获取对企业或组织重要性的阐述，提出了针对领域内知识获取的研究方法和技术，实现了一个为企业或组织提供知识来源和查询服务的系统。该系统主要获取新闻资讯类知识，利用领域知识库从语义层面提高知识获取的质量以及相关性。同时各个部分提供了灵活的扩展机制，将现有的查询扩展、元搜索原理、文本聚类、网页信息抽取等技术结合起来，形成了一套完整的知识获取和查询体系。研究的内容和重点要解决的问题如下： ( 1 ) 查询扩展原理和机制通过对某一具体领域分析研究，建立相应的概念关键词知识库，对输入的查询条件进行语义分析，按照一定的扩展规则，利用领域知识库进行扩展，生成了优化的查询扩展关键词或概念，提高搜索引擎的查全率。 ( 2 ) 元搜索原理及其关键技术知识资源获取的理论基础是利用元搜索引擎的原理，通过一定的调用机制，调用多个搜索引擎进行知识获取，并利用领域内知识和一些数据对搜索结果进行处理。在调用过程中提出了基于概念的统计方法，按照该方法调用的结果覆盖率高，资源开销小。在结果处理中，给出了基于领域知识的结果评价指标，为后续文本处理提供了重要性可量化的网页。 ( 3 ) 基于搜索结果的聚类对搜索结果的一个重要处理方法就是搜索结果聚类，利用聚类算法将产生的文本知识聚集在相应的主题下。利用领域知识库，提出了基于领域的元搜索结果聚类方法，产生的聚类主题识别性好，有好的层次结构，并与元搜索结果的评价指标结合起来，综合得出一个网页的重要性指标，方便用户检索。 ( 4 ) 网页主题信息抽取对搜集到不同类别的网页进行结构化处理，抽取主题内容，提出了基于节点特征的分析算法，将从互联网获取的网页进行结构分析，主要针对资讯类网页的内容进行抽取，结合包装器抽取方法，不仅可以高效地对常用网站的网页内容进行精确抽取，也可以对 6 大连理工大学硕士学位论文普通网页用统计方法抽取，同时依据抽取结果产生相应的抽取规则，对抽取知识库进行反馈更新，从多个层面保证网页内容抽取的准确性。 1 3 文章组织结构本文按照互联网知识获取的流程进行内容组织。第一章绪论对论文的研究背景和意义进行了详细阐述，对知识获取的研究方法和工具进行综述。主要从问题的产生、国内外的主要相关研究方法以及不足等几方面进行了阐述。同时，提出了本文的研究内容及方法。第二章介绍了互联网知识获取的基础方法元搜索引擎原理和相关处理技术，给出了领域知识库的构建方法，深入分析了元搜索引擎的两个重要问题，查询条件的分析和搜索结果的处理。在搜索结果处理中，介绍了基于领域知识的调度策略和结果合成方法，对搜索结果采用量化的指标衡量对领域的贡献度。第三章介绍了搜索结果聚类的相关技术，针对搜索引擎返回结果的特点，提出了基于领域知识的主题聚类方法，对获取到大量的知识进行聚类处理，提高检索和使用效率。第四章介绍了对搜集的网页进行内容抽取的意义，提出了基于元搜索的网页内容抽取算法，解决了知识获取系统中最终文本处理的问题，为用户提供高质量的数据。第五章是系统的设计与实现，系统实现按照知识获取流程分为三大部分：元搜索知识获取、搜索结果聚类处理和网页内容自动抽取，最后对不同领域知识获取效果进行了测试和评价，取得了良好的效果。最后总结本文所做工作和系统中存在的问题，为论文的下一步工作进行了展望，为以后的研究提供参考。 7 基于元搜索的知识获取方法与系统集成研究 2 元搜索原理互联网知识获取中，搜索引擎是最常用的工具，元搜索是将多个独立搜索引擎结合起来提高查全率的一种方法。本章首先介绍了元搜索引擎的特点和原理，分析了利用元搜索引擎原理获取互联网知识的合理性，其次提出了构建领域知识库的方法，灵活地利用领域知识库进行查询扩展，接着详细分析了在知识获取系统中元搜索原理涉及的技术和处理方法，提出了基于领域知识的调用和结果合成方法，最后给出元搜索引擎的两种实现方法。 2 1元搜索引擎概述搜索引擎是企业或组织知识获取的基础工具，随着网上信息资源的快速增长，传统搜索引擎在查全率和查准率【3 0 】方面很难满足用户的要求，同时用户对个性化检索的需求越来越强烈，迫切需要将查询条件优化，将多个搜索引擎的结果集中起来扩大查询范围，元搜索引擎【3 l 】的出现为这方面的问题的解决提供了一条值得探索的途径。元搜索引擎最早产生于2 0 世纪9 0 年代中期，华盛顿大学硕士生e r i cs e l b e r g 和o r e n e t z i o n i 推出第一个元搜索引擎m e t a c r a w l e r 3 2 】【3 3 】，它是在搜索引擎的基础上建立起来的可以同时或分时查询多个搜索引擎的网络信息检索系统。元搜索引擎自身并不收集网站或网页信息，通常也没有自己的数据库，而是将用户递交的查询请求经过多种转换处理后提交给多个预先选定的成员引擎，并将所有查询结果集中起来以整体统一的格式呈现给用户。由于元搜索引擎可以采用一系列查询优化和结果优化机制，它能够在尽可能短的时间内提供相对全面、准确的信息。在知识获取系统中，采用元搜索引擎原理获取知识，一方面可以扩大知识检索范围，另一面可以利用元搜索引擎的特点进行前期的概念查询优化和对返回的大量搜索结果进行个性化处理。 2 1 1元搜索引擎的特点与独立搜索引擎相比，元搜索引擎主要有以下特剧3 4 】： ( 1 ) 元搜索引擎提高了用户检索质量。它可以同时调度多个成员搜索引擎，方便检索多个网页数据库。一般搜索引擎的检索范围仅局限于自身的数据库，各个独立的成员搜索引擎因为定位关注不同，从而网页覆盖范围千差万别。即使是世界上功能最强大的搜索引擎，其网页检索数据库也只是涵盖了互联网上网页的3 0 。同时，由于不同搜索引擎自身的网页收集范围、方式和相关度计算方法不同，同一检索表达式会得到大不相同的结果。大连理工大学硕士学位论文 ( 2 ) 元搜索可以自动向成员搜索引擎索取结果，在短时间内把多个引擎的结果返回给用户，它有效屏蔽了各个成员搜索引擎的接口等实现细节，避免用户在多个引擎系统之间切换和查询请求的格式转换，不仅仅提高了检索的覆盖面，而且提高了用户的检索效率。 ( 3 ) 元搜索的可扩展性强，可以实现个性化搜索，个性化搜索实现较为复杂，它可以构建用户的搜索兴趣模型，对用户的兴趣进行挖掘学习，并以此来对结果进行处理。个性化搜索可以基于服务器端也可以基于客户端，基于服务器端的个性化搜索能够追踪用户以前的查询和访问过的网页，以此来推测用户兴趣，进行日志等相关因素分析得出结论，而基于客户端的个性化搜索能使用户利用自身的要求来进行输入和搜索结果的控制，灵活性更强，本文的知识获取方法研究获取工具为一个桌面式获取代理，可以个性化设置用户的要求信息。 ( 4 ) 元搜索引擎没有自己的数据库，元搜索系统实现复杂度低，它是具有智能功能的中间代理，用户只需要提交一次搜索请求，由元搜索引擎负责转换处理后，提交给多个预先选定的成员搜索引擎，并将成员搜索引擎返回的所有结果集中起来，进行不同层次的处理( 删除重复结果，结果排序) 后，将结果返回给用户。元搜索引擎自身也存在一些缺陷，主要是： ( 1 ) 元搜索检索时间有时过长，响应时间不够理想。由于元搜索一次要访问多个成员搜索引擎，要将用户的检索请求转化处理后提交给多个成员搜索引擎，并将结果收集起来进行处理，然后以可视化方式呈现给用户，响应时间较长。一般可以采用并行分布优化运行机制，尽可能缩短响应时间。 ( 2 ) 元搜索对搜索结果的排序不够理想。典型的搜索引擎是基于查询时关键词所在网页中的词条对网页进行排序的，不同的成员搜索引擎采用了不同的网页相关度评价体系，一般元搜索引擎无法获取成员搜索引擎的网页检索数据库中词条的词频等统计信息，并且搜索结果中用于排序的信息有限，因此元搜索排序效果有待提高。对于本文的知识获取研究方法而言，可以借鉴元搜索引擎的优点，将用户的查询按照统一格式分发给各独立搜索引擎，提高查全率。而元搜索的缺陷是可以忽略不计的，因为在互联网的知识获取方法研究中，对用户查询的实时性要求不高，主要是针对用户的个性化需求和后续结果的处理，以提高领域内知识的获取精度和改善搜索结果的质量。 2 1 2 元搜索引擎的原理元搜索引擎通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作，是一个对分布于网络上的多种检索工具的全局控制系统。一 9 基于元搜索的知识获取方法与系统集成研究般元搜索引擎由三部分组成，检索请求提交、检索接口代理、检索结果显剥3 0 1 。g _ - - 个部分的基本功能如下：图2 1 元搜索引擎结构 f i g 2 1 s 旬r u c t u r eo f m e t a - s e a r c he n g i n e ( 1 ) 请求提交，负责实现用户个性化的检索设置要求，包括调用哪些搜索引擎、检索时间限制、结果数量限制等。 ( 2 ) 接口代理，负责将用户的检索请求转化成满足不同的成员搜索引擎要求的格式。 ( 3 ) 结果显示，负责把所有成员搜索引擎检索结果去重、合并、排序处理，并按一定的格式显示。元搜索引擎没有网页搜寻模块( 爬虫) ，亦无独立的索引数据库，但在检索请求提交、检索接口代理和检索结果显示等方面，都可以依据用户个性需求进行灵活的扩展。例如提交检索请求时，根据源搜索引擎的特点和技术参数，可以指定优先调用顺序，并对检索时间、检索结果数量进行控制；作为多个独立搜索引擎的检索接口，元搜索引擎有较强的字符和语法转换功能，使用户的检索请求被各具语法特点的不同的源搜索引擎所接受；在检索结果的显示时，元搜索引擎可以采用不同的处理技术，对设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等进行个性化设置。 1 0 大连理工大学硕士学位论文 2 2 查询扩展技术 2 2 1 基于领域知识的查询扩展查询扩展是利用计算语言学、信息学、控制论等多种技术结合起来的查询优化方法，最初只是在用户原始查询的基础上加入某些与用户查询相关联的词来组成一个新的更长的用户查询表达，后来发展为使用查询重构方法，将原始查询条件进行重新组织形成查询串，使之更准确的表达用户真正的查询需要。查询扩展的核心问题是扩展词的选择和权重的计算。通常查询扩展过程可以分为两步：第一步，查询用户构造初始查询表达提交给系统；第二步，利用已有的某种资源对查询进行直接扩展或使用第一阶段的查询结果，通过用户手工、系统自动、用户在系统协助下或者系统在用户尝试下调整初始化查询，提高最终的查询效率。目前关于查询扩展的方法大体上有全局分析、局部分析、基于相关反馈、基于用户日志的查询扩展和基于概念的查询扩展等。 ( 1 ) 全局分析全局分析是利用全部文档信息计算t e r m s 之间的相似度。这种相似度计算不依赖于用户查询，因此可以事先算好。在此基础上，计算t e r m s 和用户查询之间的相似度。当一个新的查询到来时，则由这种预先计算的词间相关关系，将与查询词关联程度最高的词或词组加入原查询以生成新的查询表达。全局分析主要的技术有聚类算法、潜在语义索引( l s i ) 3 5 】、基于相似性词典【3 q 或统计词典【3 7 】【3 8 1 的查询扩展。 ( 2 ) 局部分析局部分析利用两次查询的方法解决扩展问题。它使用初次查询检索得到的结果，特别是原查询结果中排名靠前的n 篇文档( 称为局部文档) 进行分析后改善查询。局部分析需要基于上次检索的结果，全局分析则不需要。局部分析主要的技术有基于局部聚类、基于局部上下文分析【3 9 】等。 ( 3 ) 基于相关反馈的查询扩展相关反馈【4 0 】是指用户或系统模拟用户对初次检索的结果进行相关性判定，其中用户直接对检索结果进行判定称为用户相关反馈，不是用户真正进行标注，而由系统自动进行一些判定假设，如假设返回结果的前n 篇相关，剩下的都不相关，则称为伪相关反馈【4 1 1 。通过相关反馈对初次检索结果的标注结果来进行查询扩展。基于用户相关反馈的查询扩展为用户提供了便利的反馈接口【4 2 】，通过一个受控过程来强调或弱化某些 t e r m s ，但需要人工的参与，加重了用户负担。伪相关反馈查询扩展的查询精度高度依基于元搜索的知识获取方法与系统集成研究赖于排在前面的文档与查询的相关度，当相关度不大时，会将大量无关的词作为扩展用词，反而降低查询精度。 ( 4 ) 基于用户日志的查询扩展前面提到的三种查询扩展方法仅考虑将新的用户查询映射到文档集中，从文档中选择与其相近的词，而未将以往的用户查询记录考虑在内。基于用户日志的查询扩展考虑的则是众多用户使用检索系统时多次“反馈”的结果积累查询日志。它的基本思想：在用户查询记录的基础上建立用户查询空间，在文档集上建立文档空间，根据用户日志将两个空间的词按照用户提交某个查询后所点击的文章以条件概率的方式联系起来。当新查询到来时，系统选取当该查询出现时被选择成为扩展用词的条件概率最大的文档用词加入查询。基于用户日志的查询扩展建立在对大量用户长期查询行为的分析、学习基础上，实验证明其对信息检索有效好的优化效果【4 3 】。 ( 5 ) 基于概念的查询扩展概念是人们对事物本质的认识，是逻辑思维最基本的单元。概念最基本的特征就是它的抽象性和概括性。概念在表示方法上通过字、词、词组等概念描述元素表达出来，同一个概念可以由多个描述元素表达，它们在此概念约束下构成同义关系。从这个意义上说这些描述元素可以等同起来。基于概念的查询扩展是近年来备受学者关注的一种新的查询扩展方法。它的主要思想是根据词汇之间的关系，如同义关系、关联关系等，构建以揭示各词汇所代表的概念之间的关系为基本内容的知识库，然后利用知识库中表达同一概念的所有词汇、词汇间的相关语义联想、相近概念导航等手段进行查询扩展，更准确有效地表达用户的查询需求。以上介绍的查询扩展方法中，针对的问题不同，各有侧重和优势。本文中针对不同领域的概念和关键词特征，构建了基于特定领域的查询扩展知识库概念关键词库，其作为系统领域搜索和测试的依据，同基于概念的查询扩展方法结合起来，合成了查询扩展词，一方面提高了查询的覆盖率，另一方面保证了查询结果的相关度。下图为一个简单实例的描述，输入原始查询词：椅子，依据上下位关键词和概念的位置，设定的阈值可以扩展其查询串为：椅子，桌子，电话和办公家具，其中，办公家具为椅子的上层概念，而桌子和电话为椅子这一类别的同位概念或关键词。整个关系如下图所示： 1 2 大连理工大学硕士学位论文图2 2 概念扩展原理 f i g 2 2 s t r u c t u r eo fc o n c e p te x p a n s i o n 该方法实现了以用户输入关键词作为查询词，用设定的阈值匹配领域内的关键词或概念，进行查询扩展，这些扩展的关键词与元搜索引擎结合起来可以提高整个系统的查全率和查准率。 2 2 2 领域知识库的构建领域查询知识库作

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（系统分析与集成专业论文）基于元搜索的知识获取方法与系统集成研究.pdf

文档简介

温馨提示

最新文档

评论

（系统分析与集成专业论文）基于元搜索的知识获取方法与系统集成研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档