(计算机应用技术专业论文)基于ontology的智能信息检索系统研究.pdf_第1页
(计算机应用技术专业论文)基于ontology的智能信息检索系统研究.pdf_第2页
(计算机应用技术专业论文)基于ontology的智能信息检索系统研究.pdf_第3页
(计算机应用技术专业论文)基于ontology的智能信息检索系统研究.pdf_第4页
(计算机应用技术专业论文)基于ontology的智能信息检索系统研究.pdf_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于o n t o l o g y 的智能信息检索系统研究 摘要 当前w e b 拥有丰富的信息资源,已经成了人们获取信息的重要渠道。但是, 由于w e b 页面的无结构性、半结构性、超链接的自由无序、以及w e b 内容的海 量性、多样性和动态变化,使得人们从w e b 上获取真正想要的信息其实并不容 易。传统的信息检索技术以关键字匹配为主,缺乏语义推理能力,对用户的查询 请求也没有提供语义制导,因此造成信息的误检、漏检。因此如何提高w e b 信 息的检索质量成为目前信息检索、数据挖掘和知识管理等研究领域的重要课题。 提高w e b 信息检索质量的根本方法是变无序数据为有序知识,让计算机理解 w e b 信息的含义,从而实现语义检索。为此,w e b 创始人t i mb e m e r s l e e 于1 9 9 8 年提出了s e m a n t i cw e b ( 语义w e b ) 的构想,它是当前w e b 的扩展,其中的信 息被赋予定义良好的( w e l l d e f i n e d ) 含义,使计算机可以理解,从而和人更好的 协作。而o n t o l o g y 为w e b 信息提供了语义表示机制,是实现语义w e b 的关键技 术。 本文分析了传统w e b 信息检索技术存在的问题与不足,深入研究了o n t o l o g y 的概念、建模元语、描述语言、构建方法、构建工具,并重点分析了o w l 的语 义表达能力,以此为基础提出了基于o n t o l o g y 的智能信息检索系统的框架,阐 述了系统的功能和实现机制。 本文深入研究了智能信息检索系统涉及到的关键技术,提出了有效的解决方 案,为原型系统的开发提供了理论支持。关键技术主要包括:o n t o l o g y 的构建技 术、o n t o l o g y 的存储技术以及基于o n t o l o g y 的信息检索策略。 本文设计实现了基于o n t o l o g y 的智能文献检索原型系统p a p e r s e a r c h 。在该 系统中,构建了计算机学科的领域o n t o l o g y 和文献o n t o l o g y 。p a p e r s e a r c h 提供 面向专业的检索服务,检索方式灵活多样,能够对用户提供语义制导,有较强的 推理能力,实现了基于知识的语义检索。实验证明,该系统能提高信息检索的质 量和效率,从而验证了理论的正确性。 关键词:o n t o i o g y 语义w e b 语义检索智能信息检索 as t u d yo no n t o i o g y b a s e din t e ii i g e n t n f o r m a tio nr e t rie v ai s y s t e m a b s t r a c t n o w a d a y s ,w e bb e c o m e st h em a i ni n f o r m a t i o nr e s o u r c ef o rp e o p l e h o w e v e ri t i sn o te a s yf o rt h e mt og e tt h er e a l l yi n t e r e s t e di n f o r m a t i o no nt h ew e b ,s i n c ew e b p a g e sa r es e m i s t r u c t u r eo rn o n s t r u c t u r e ,t h eh y p e r l i n k sa r ed i s o r d e r e da n dt h ed a t a a r em a s s i v e ,v a r i o u sa n dd y n a m i c t r a d i t i o n a li n f o r m a t i o nr e t r i e v a l t e c h n o l o g yi s m a i n l yb a s e do nk e y w o r dm a t c h i n ga n dh a sl i t t l es e m a n t i ci n f e r r i n ga b i l i t y m o r e o v e r i td o e sn o tp r o v i d es e m a n t i cg u i d a n c ef o ru s e r s s oi n f o r m a t i o nr e t r i e v a ls y s t e m m a y m i s ss o m ei n f o r m a t i o nt h a ta s e r sr e a l l yw a n ta n dr e t u r ns o m ei n f o r m a t i o nt h a tu s e | t - s d o n tw a n t h o wt o i m p r o v et h eq u a l i t ya n de f f i c i e n c yo fi n f o r m a t i o nr e t r i e v a l b e c o m e sa ni m p o r t a n ts t u d yf i e l do fi n f o r m a t i o nr e t r i e v a l ( u ,d a t am i n i n g ( d m ) a n d k n o w l e d g em a n a g e m e n t t h ee s s e n t i a lm e t h o dt o i m p r o v et h eq u a l i t ya n de f f i c i e n c yo fi n f o r m a t i o n r e t r i e v a li st oc h a n g ed i s o r d e r l yd a t ai n t o o r d e r l yk n o w l e d g e ,t om a k ec o m p u t e r s u n d e r s t a n dt h ew e bi n f o r m a t i o na n dt h en e e do fp e o p l ea n df i n a l l yr e a l i z es e m a n t i c i n f o r m a t i o nr e t r i e v a l t i mb e m e r s l e ep r o p o s e dt h ec o n c e p to fs e m a n t i cw e bi n 19 9 8 i ti sa ne x t e n s i o no ft h ec u r r e n tw e bi nw h i c hi n f o r m a t i o ni sg i v e nw e l l ,d e f i n e d m e a n i n g ,b e t t e re n a b l i n gc o m p u t e r sa n dp e o p l et ow o r ki nc o o p e r a t i o n o n t o l o g y p r o v i d e ss e m a n t i ce x p r e s s i o nm e c h a n i s mf o rw e bi n f o r m a t i o na n di st h ek e y t e c h n o l o g yo f s e m a n t i cw e b t h i sp a p e ra n a l y z e st h ep r o b l e ma n dd i s a d v a n t a g eo ft r a d i t i o n a lr e t r i e v a l si n w e b f o l l o w i n g ,t h i sp a p e rm a k e sad e e p l yr e s e a r c ho nt h ec o n c e p t s ,m o d e l i n g p r i m i t i v e s ,d e s c r i b i n gl a n g u a g e s ,c o n s t r u c t i n gm e t h o d s ,c o n s t r u c t i n gt o o l so f o n t o l o g y a n da n a l y z e st h es e m a n t i c a b i l i t yo ft h eo w l f u r t h e r m o r e ,af r a m e w o r ko f i n t e l l i g e n ti n f o r m a t i o nr e t r i e v a ls y s t e mb a s e do n o n t o l o g yi sp r o p o s e d k e y t e c h n i q u e sh a v eb e e na l s od e e p l ys t u d i e di n t h i sp a p e r a st h et h e o r yb a s i so f p r o t o t y p es y s t e m ,t h r e es o l u t i o n sa b o u to n t o l o g yc o n s t r u c t i o n ,o n t o l o g ys t o r a g ea n d s e m a n t i ci n f o r m a t i o nr e t r i e v a ls t r a t e g ya r ep r o p o s e d b a s e do nt h ei n t e l l i g e n t f r a m e w o r ka b o v e ap r o t o t y p es y s t e m n a m 。d p a p e r s e a r c hs y s t e mi sd e v e l o p e ds u c c e s s f u l l y i n t h i ss y s t e m - ac o m p u t e rd o m a l n o n t o i o g ya n dap a p e ro n t o l o g yh a sb e e nb u i l t p a p e r s e a r c hp r o v i d e sp r o f e s s i o n a l r e 砸e v a ls e r v i c ea n dv a r i o u sr e t r i e v a lm e t h o d s i tc a l lg i v es e m a n t i cg u i d a n c e f o ru s c r s a i l dh a st h ei n f e r r i n ga b i l i t y i tr e a l i z e ss e m a n t i cr e t r i e v a lb a s e d o nk n o w l e d g ea n dc a l l d os o m ec o m p l i c a t ek n o w l e d g eq u e r y a c c o r d i n ge x p e r i m e n t a t i o nr e s u r ,p a p e r s e a r c h c a i li m p r o v et h eq u a l i t ya n de f f i c i e n c yo fi n f o r m a t i o nr e t r i e v a l a n dp r o v e st h e c o r r e c t n e s so f r e l a t i v et h e o r i e sp r o p o s e di nt h i sp a p e r k e y w o r d s :o n t o l o g y s e m a n t i cv l e b 。s e m a n t i cr e t r i e v a in t e iii g e n ti n f o r m a t i o nr e t r i e v a i 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含未获得 适;地塑查基丝霞噩缱型岜堕 的:奎拦旦窒2 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研 究所做的任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:互有风3 签字日期:- 年占月列旧 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权学校可以将学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:丑在闪j 导师签字 洳b 壶林 签字日期:细6 年占月) 岁日签字目期:莎年厂月日 学位论文作者毕业后去向 工作单位: 通讯地址: 电话 邮编 基于o n t o l o g y 的智能信息检索系统研究 1 1 信息检索概述 第1 章绪论 信息检索( i n f o r m a t i o nr e t r i e v a l ,简称吸) 就是信息用户为处理解决各种问 题而查找、识别、获取相关的事实、数据、知识的活动及过程,包括信息的组织、 存储、表现、查询、存取等各个方面。作为人类社会活动必不可少的一部分,信 息检索有着悠久的历史,而随着信息社会的到来,其重要地位日益突出。从发展 阶段上来看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索 等多个阶段。目前,信息检索已经发展到网络化的阶段。信息检索的对象从相对 封闭、稳定一致、有独立数据库集中管理的信息内容扩展到开放、动态、更新快、 分布广泛、管理松散的w e b 内容;信息检索的用户也由原来的专业情报人员扩 展到包括在企业、政府、教师、学生各个领域的普通人员。本文的研究对象就是 基于w e b 的信息检索技术。 1 1 1w e b 信息检索系统分类 w e b 信息检索系统以一定的策略在网络中搜集、发现信息,对信息进行理解、 提取、组织和处理并为用户提供检索服务,从而起到信息导航的作用,是人们获 取w e b 信息最为快捷的工具。按照信息搜集方法和服务提供方式的不同,w e b 信息检索系统可以分为四类:机器人搜索引擎、目录式搜索引擎、元搜索引擎、 信息检索a g e n t ,王继成等分析并给出了它们之间的层次关系”( 如图1 1 ) i用户 上 信息检索a g e n t 1r 上 元搜索引擎 , 上上 r o b o t 搜索引擎 目录 , 上 、r 1 w 曲 图1 iw e b 信息系统层次分类 基于o n t o l o g y 的智能信息检索系统研究 机器人搜索引擎 机器人搜索引擎由一个r o b o t ( 也称为w r a p p e r ,s p i d e r ,c r a w l e r ) 程序以某种 搜索策略自动地在w e b 上搜集和发现信息,将搜集到的信息下载到本地文档库, 由分析器对文档内容进行自动分析,然后由索引器建立索引。对于用户提出的查 询请求,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。 机器人搜索引擎的服务方式一般为面向网页的全文检索服务。它的优点是信息量 大、更新及时、无须人工干预,缺点是返回信息过多,有很多无关的信息。最为 著名的英文搜索引擎有g o o g l e t 2 l n o r t h e r n l i g h t t 3 1 ,a l t a v i s t a 4 1 ,i n f o s e c k 5 1 等。中文搜 索引擎有百度,3 7 2 1 ,中国搜索等。 目录式搜索引擎 著名的目录式搜索引擎有y a h o o 【6 】o p e n d i r e c t o r y i 刀,s n a p t 8 1 等。与机器人搜索 引擎不同的是,目录式搜索引擎由人工方式或w e b 站点作者主动提交信息,由 编辑人员查看信息之后,人工形成信息摘要,并将信息按照主题分类并以树状的 形式加以组织,从树的根节点逐层向下列出了从一般到特殊的分类及各级子类, 叶节点则包含指向w e b 信息的链接。信息大多面向网站。通常提供目录浏览服 务和直接检索服务。需要注意的是,这里的检索服务是对主题分类和w e b 信息 摘要的索引,与搜索引擎提供的w e b 文档内容的全文索引是不同的。目录式检 索由于加入了人的智能因素,所以信息准确、导航质量高,缺点是需要人工介入、 维护工作量大、信息量少、信息更新不及时。 元搜索引擎 元搜索引擎是一种基于搜索引擎的搜索引擎,它将多个搜索引擎集成在一 起,通过一个统一的检索界面接受并处理用户的查询,在进行检索时调用一个或 者多个独立搜索引擎的数据库,检索结果是来自独立搜索引擎的检索结果或者是 这些结果集合的总和,经过处理后将结果呈现给用户。 信息检索a g e n t 信息检索a g e n t 是一些智能化的程序,它们能够学习用户的兴趣需求,并利 用机器人搜索引擎系统提供的现有服务来定制用户的所需信息。它们既可以运行 在服务器端,也可以运行在客户端。信息检索a g e n t 具有以下特征:可适应性、 主动性、协作性、移植性。 基于o n t o l o g y 的智能信息检索系统研究 i 1 2 信息检索系统的性能评价指标 目前最为普遍采用的检索效果量化评价指标主要有:查全率( r e c a l l f a c t o r ) 、 查准率( p e r t i n e n c ef a c t o r ) 、漏检率( o m i s s i o nf a c t o r ) 、误检率( n o i s ef a c o r ) 其中查全率是对所需信息被检出程度的度量,用来表示信息系统能满足用户需求 的完备程度;查准率是衡量信息系统拒绝非相关信息的能力的度量,查全率的误 差是漏检率:查准率的误差是误检率。查全率和查准率的数学公式分别如下: 查锌c r ,= 装燃川。 查准率c p ,= i i ;:。 对于一个信息检索系统来讲,查全率和查准率存在着互逆关系,即当查全率 和查准率处于最佳比例关系时,继续提高查全率,检出的相关文献数量会增加, 但同时由于检出文献中不相关文献的数量增加会导致查准率降低。较好的做法是 对查全率与查准率两种要求采取中庸态度,即采用中间程度的检索条件,这样可 以得到一种中间最优效果。 1 1 3 信息检索技术的分类 ( 1 ) 全文检索( t e x tr e t r i e v a l ) 全文检索【9 1 就是把用户的查询请求和全文中的每一个词进行比较,不考虑查 询请求和文件语义上的匹配。缺点是虽然可以保证查全率,但是查准率大大降低。 ( 2 ) 数据检索( d a t ar e t r i e v a l ) 数据检索是查询要求和信息系统中的数据都遵循一定的格式,具有一定的结 构,允许对特定字段检索。需要有标识字段的方法。其缺点是性能取决于所使用 的字段标识方法和用户对方法的理解,具有很大的局限性,支持语义匹配的能力 较差。 ( 3 ) 知识检索( k n o w l e d g er e t r i e v a l ) 知识检索是基于知识的、语义上的匹配,在查准率和查全率上有更好的保证, 是信息检索的重点,特别是面向w e b 信息的知识检索的重点。 1 1 4 w e b 信息检索的新发展 ( 1 ) 个性化 基于o n t o l o g y 的智能信息检索系统研究 个性化可以使得无论是检索方式还是检索结果的提供都可以根据用户的不 同定制来提供,高级的定制不仅仅是界面形式的与众不同,更侧重的是内容提供 上,可根据个体差异提供适应性的信息服务。 ( 2 ) 人性化 人性化检索一方面体现在网络上各个网站设计的规范化以及导航的明晰化 增强信息的表现力和亲和力,另一方面还体现在检索系统本身的友好界面,检索 可视化技术的应用令检索系统对用户而言显得更形象直观。 ( 3 ) 智能化 包含两个方面的含义【1 0 1 : 用户检索需求理解的智能化 对用户检索需求的智能化理解需要检索系统( 软件) 从概念层次上来理解用 户的提问,已有的做法有基于同义词表、蕴含词表等入口词表辅助进行领域和概 念的扩充。 检索过程的智能化 检索过程的智能化是指能够代理用户进行检索,并且可以基于用户已有 的检索经验,适应用户变化的检索需求、信息需求。检索智能化体现了检索系 统开始更为深切地与人工智能技术融合如采用机器学习技术、推理机制来不断 更新检索的知识库,以不断产生的新的知识从而使得检索具有智能性。 ( 4 ) 多样化 资源类型的多样化 如今的网络已经不仅仅是纯文本信息,还包括声音、图像、动画、视频等多 媒体信息。传统的信息检索技术也需要满足这些新类型的资源查找问题。网上已 有不少搜索引擎都提供多媒体信息的检索功能。多媒体信息检索包括基于文本技 术和基于内容检索两大类,目前多是采用基于文本技术的检索技术查找,同时兼 有部分基于内容检索的功能。 语种多样化 跨语言信息检索可以帮助解决人们在获取信息中遇到的语言障碍问题,使得 人们通过母语检索就可以实现对其它语种信息的获取和利用。在广泛使用的搜索 引擎中,g o o g l e 支持7 3 种语言,在7 0 多个国家和地区具有该国家和地区的语 4 基于o n t o l o g y 的智能信息检索系统研究 言版本,但只支持用户通过一种语言检索得到相同语种的信息。 1 2 课题研究背景 1 2 1 目前w e b 信息检索面临的问题 经过十年左右的飞速发展,w e b 已经变成一个巨大的全球化信息仓库,是人 们获取信息的重要来源。截止至0 2 0 0 5 年8 月g o o g l e 可用的网页索引达到了8 1 亿, 百度的可搜索中文网页数量也达到了8 亿,而这仅相当于整个互联网中文网页数 的1 3 。目前,w e b 数据的组织格式主要以h n 舡,、x m l 为主,是一种无结构、 半结构的数据。不像结构化数据,无结构、半结构化的数据对于数据查询是十分 不易的。面对信息的海洋,用户要精确地找到所需信息变得非常困难,往往面 对着从搜索引擎中查找出的大量的信息而不知所措。如何在w 曲这样的分布式环 境中找到有价值的信息,并从中提取出知识内容已经成为目前信息检索、数据挖 掘和知识管理等研究领域的重要课题。搜索引擎为人们提供了检索w e b 上相关信 息的方法,是人们获取网上信息的重要手段。搜索引擎对w c b 上的文档进行索引 并分类,为人们提供一个w c b 内容的层次化的目录结构;有的搜索引擎对w e b 上 的页面进行全文索引,提供基于关键词的检索。 目前的基于传统信息检索方法的搜索引擎大部分使用的是基于文档内容的 词频统计,f l 口t f i d f 方法的索引方式。这种基于文档关键词的检索手段随着w 曲 上数据量的迅速增加而越来越不适应人们的要求,它的主要缺陷有: 查准率和查全率得不到保证。由于检索提问式过于自由简单,造成检索返回 信息过多。查准率和查全率都得不到保证。若干个关键词构成的查询组合可 能返回上万个相关页面链接,很多检索结果和用户查询要求毫无关系,人们 很容易被淹没在信息的海洋里。 检索结果缺乏统一的输出形式,不能被共享和重用。目前搜索引擎输出的检 索结果是一系列网址列表,不能直接回答检索提问,需要人工进一步分析、归 纳和整理才能得到最终结论,输出结果的不能直接被其他智能处理软件再利 用。 无法搜索提供网页上的隐含信息。所谓隐含信息是指那些没有被文字直接表 述出来,但隐含在网页内容中或者由其他相关网页提供的一些重要的信息。比 基于o n t o l o g y 的智能信息检索系统研究 如某个网页显示“老李是小李的爸爸”,经过推理就可以知道“小李是老李 的孩子”,但是目前的搜索引擎还不可能完成这样的推理工作,因而不能提 供网页上的隐含信息。 只能发现信息,而不是知识。w e b v p 包含着大量信息,而这些信息经过提炼 加工可以上升为知识。单纯的使用统计的方法是无法把海量的信息转化为知 识的形态。 不能处理同义词和一词多义问题。同义词和一词多义在自然语言中是一种常 见的现象,但是目前的搜索引擎却难以处理。比如说“计算机”和“电脑” 是同义词,在g o o g l e q b 以“计算机”为关键词搜索n 8 2 ,5 0 0 ,0 0 0 项,而以“电 脑”为关键词结果却有1 1 2 ,0 0 0 ,0 0 0 项,而且两个结果集很少有相同的页面, 这说明目前的搜索引擎不能处理同义词的问题,它的处理方式就是简单的基 于字符的机械匹配,而不是语义上的匹配。有些词在不同的领域有不同的含 义,如“颜色”在句子“花的颜色很漂亮”中表示“色彩”,但是在句子“给 你点颜色看看”就有“威胁”的含义了。对一词多义现象,目前的搜索引擎 也无能为力。 1 2 2 问题产生的原因及解决办法 ( 1 ) 问题产生的原因 造成传统搜索引擎信息丢失与海量数据如同“大海捞针”的原因主要有: 词汇孤岛问题。在人的大脑中,概念并不是孤立存在的,它总是和其它存在 着各种各样的联系,但是在传统的信息检索系统中这种联系是很难描述的; 表达差异问题。由于自然语言表达的灵活性,不同的人对同一个对象会有不 同的表达方式,当前的检索技术难以准确把握用户需求: 忠实表达问题。有时用户对自己想检索的东西找不到一个合适的关键字来表 达,现有传统搜索技术没有提供相应手段辅助解决这类问题。 机械式匹配问题,单纯的字符匹配无法提供基于概念的智能检索。机械式匹 配只是从字形上来标识关键字,却不能从字意、词意上来标识关键字,比如 要查找有关“华人”一词,搜索结果中有“外籍华人”、“华人社团”、“中华 人民共和国”,但从常理上来说,“外籍华人”、“华人社团”与“华人”一词 相关,而“中华人民共和国”中的“华人”却并不与此相关。 基于o n t o l o g y 的智能信息检索系统研究 没有对检索词的含义作限制,计算机无法识别其语义。 对检索提问形式不做规范,计算机不能理解人真正的检索意图。 ( 2 ) 问题解决的办法 产生这些问题的根本原因在于大部分w e b 页信息基于h t m l 、x m l 语言,是 一种无结构或者半结构的数据,只能供人阅读,计算机不能理解信息的含义。要 想彻底解决上述问题,必须在下面3 个方面做改进】: 在用户提问检索式构造过程中增加语义制导,赋予检索式语义表达功能; 制定严格规范的语法规则,规范检索结果的输出格式,便于检索结果的共享 和重用; 加强搜索引擎的推理功能,在完成对信息源搜索的基础之上,依据相关的背 景信息实现基于概念的智能检索。 1 3 国内外研究现状 当前的w e b 信息只能供人阅读,计算机不能理解其含义,因而不能智能化的 处理,因而很难实现基于语义的信息共享。为了解决这个问题,t i m 等人提出了 语义w e b 【12 l 的概念,他认为语义w e b 是目前w e b 的延伸,其上的信息具有良好的 定义( w e l ld e f i n e d ) ,使得人和机器,机器与机器之间能够更好的实现信息的共 享和协作,其目标就是让机器能够理解w e b 信息的含义,实现对w e b 信息资源的 智能化处理。 o n t o l o g y 作为语义w e b 的关键技术,是近年来出现并颇受关注的一个热点。 它最早是一个哲学上的概念。从哲学的范畴来说,o n t o l o g y 是客观存在的一个系 统的解释或说明,关心的是客观现实的抽象本质。在人工智能界s t u d e r 的定义【1 3 1 是:o n t o l o g y 是共享概念模型的明确的形式化规范说明,包含4 层含义:概念 模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。 o n t o l o g y 作为一种有效表现概念层次结构和语义的模型被广泛地应用到计 算机科学的众多领域如知识工程、数字图书馆、软件复用、信息检索和w e b 上异 构信息的处理、语义w e b 等。随着用户在语义上和知识上的需求,基于关键词的 检索也显得不够了,o n t o l o g y 具有良好的概念层次结构,能够支持逻辑推理,因此 非常符合信息检索在概念检索中的需求。不仅如此,o n t o l o g y j d 丕有助于知识管理 基于o n t o l o g y 的智能信息检索系统研究 系统中知识的再利用,能够很好地支持协同工作【1 ”,因此特别适合基于知识的检 索以及知识管理系统。x i a ol a nz h u 等( 1 9 9 9 ) u s 采用基于o n t o l o g y 的a g e n t 以及 向量空间模型建立网页导航和搜索,实验发现效果比贝叶斯文本分类准确度高。 b j w i e l i n g a 等( 2 0 0 1 ) 1 6 】则进一步探讨了由词汇到o n t o l o g y 转变中的一些问 题,并尝试对艺术对象建立o n t o l o g y 。a r p i r e z 等( 2 0 0 2 ) 则从更高角度阐述了 如何通过( 0 n t o ) 2 a g e n t 17 1 ,利用参照o n t 0 1 0 9 y 帮助用户检索w w w 上已有的 o n t o l o g y ,相当于一个o n t o l o g y 的黄页。不仅如此,基于o n t o l o g y 的概念组织分析 用户浏览的网页,从中推断用户的兴趣模型,通过这种隐性学习的方式实现个性 化检索f 1 8 】。o n t o l o g y j 在逐渐成为智能信息检索系统中知识表示的一种方式,是 信息系统集成的核心部件。 目前o n t 0 1 0 9 y 应用在信息检索中的著名项目包括( o n t o ) 2a g e n t 【1 9 】、 o n t o b r o k c r 2 0 并1 1 s k c 2 1 1 。这3 个项目也分别代表了3 个方向。( o n t o ) 2a g e n t 的目 的是为了帮助用户检索到所需要的w w w 上已有的o n t o l o g y ,主要采用了参照 o n t o l o g y 。参照o n t o l o g y 是以w w w 上已有的o n t o l o g y 为对象建立起来的 o n t o l o g y ,它保存有各类o n t o l o g y 的元数据。o n t o b r o k e r 面向的是w w w 上的网 页资源,目的是为用户检索到所需要的网页,这些网页含有用户所关心的内容。 s k c 是一个正在进行的项目,其目标是解决信息系统语义异构的问题,实现异 构的自治系统之间的互操作。该项目希望通过在o n t o l o g y 上建立一个代数系统, 用这个代数系统来实现各o n t o l o g y :2 _ 间的互操作,从而实现异构系统之间的互操 作。 国内对0 n t 0 1 0 9 y 的研究刚刚起步,主要研究内容包括信息检索【2 2 l 、产品信息 建模、虚拟企业建模23 1 、常识知识【2 4 1 库等方面。如中国科学院计算技术研究所 大规模知识系统的研究f 2 5 1 、中国科学院数学研究所常识知识库的研究【2 6 】、浙江 大学人工智能研究所基于o n t o l o g y 的产品信息集成研究等【2 7 】。 1 4 本文的研究目的和研究内容 1 4 1 研究目的 当前,w e b 信息检索技术主要基于关键字匹配或其扩展,难以保证较好的查 准率和查全率。传统的搜索引擎并不能对用户输入的检索式进行语义分析和语义 基于o n t o l o g y 的智能信息检索系统研究 扩展,同时也缺乏对w 幽信息的推理能力和理解能力。本文的研究目的就在于从 w e b 信息的组织方式入手,通过增加语义信息,变无序数据为有序知识,把w e b 信息检索从目前基于关键词层面提高到基于知识( 或概念) 层面,增加用户查询语 义制导,加强检索系统的的推理功能,来解决传统信息检索存在的问题,以提高 信息检索的质量和效率。 1 4 2 研究内容 本文在前人研究的基础上,主要作了以下几方面的工作: 对w e b 信息检索技术进行了分析和总结,指出了当前信息检索存在的缺点和 问题以及解决问题的办法: 深入研究o n t o l o g y 的概念、建模元语、描述语言、构建方法、构建工具以及 在信息系统中的应用,并重点分析了o w l 的语义表达能力; 提出了基于o n t o l o g y 的智能信息检索系统模型,分析了系统各个模块的功能 和实施流程; 提出了核心o n t o l o g y 的构建方法、o n t o l o g y 存储的优化方案以及基于 o n t o l o g y 的语义检索策略: 构建了计算机领域的文献o n t o l o g y ,开发实现了基于o n t o l o g y 的智能文献检 索原型系统p a p e r s e a r c h ,详细介绍了系统实现的过程、系统的功能,并对系 统的性能进行了分析评价。 1 5 论文的结构 本文由6 章组成: 第1 章绪论。对当前w e b 信息检索技术进行了总结,指出了当前信息检索 技术存在的缺点和不足,在此基础上分析了课题产生的背景、研究 现状、研究目的和内容。 第2 章o n t o l o g y 研究综述。深入研究了o n t o l o g y 的概念、建模元语、描述 语言、构建方法、构建工具以及在信息系统中应用,并重点分析了 o w l 的语义表达能力,最后分析了o n t o l o g y 与语义w e b 的关系。 第3 章 智能信息检索系统。提出了基于o n t o l o g y 的智能w 曲信息检索系 统模型,分析了系统的功能和工作流程。 基于o n t o l o g y 的智能信息检索系统研究 第4 章 第5 章 第6 章 系统关键技术研究。提出了核心o n t o l o g y 的构建方法、存储方案以 及基于o n t o l o g y 的信息检索策略。 基于o n t o l o g y 的智能文献检索系统实现。构建了计算机领域的文献 o n t o l o g y ,实现了基于o n t o l o g y 的智能文献检索原型系统,详细介 绍了系统实现的过程、系统的功能,并分析评价了系统的性能。 总结与展望。总结了全文,说明下一步的研究方向。 基于o n t o l o g y 的智能信息检索系统研究 2 1o n t o l o g y 概述 第2 章o n t o l o g y 研究综述 2 1 1o n t o l o g y 概念 o n t o l o g y ( 翻译为本体论) 最早是一个哲学上的概念,从哲学的范畴来说, o n t o l o g y 是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。 在人工智能界,最早给出o n t o l o g y 定义的是n e c h e s 等人,他们将o n t o l o g y 定义 为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的 规定这些词汇外延的规则的定义”。1 9 9 3 年,g r u b e 给出了o n t o l o g y 的一个 最为流行的定义口9 1 ,即“o n t o l o g y 是概念模型的明确的规范说明”。后来,b o r s t 在此基础上,给出了o n t o l o g y 的另外一种定义【3 0 】“o n t o l o g y 是共享概念模型的 形式化规范说明。s t u d e r 等对上述两个定义进行了深入的研究,认为o n t o l o g y 是共享概念模型的明确的形式化规范说明。这包含4 层含义【3 1 】:概念模型 ( c o n e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。 ( 1 ) “概念模型”指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念 而得到的模型。概念模型所表现的含义独立于具体的环境状态。 ( 2 ) “明确”指所使用的概念及使用这些概念的约束都有明确的定义。 ( 3 ) “形式化”指o n t o l o g y 是计算机可读的( 即能被计算机处理) 。 ( 4 ) “共享”指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中 公认的概念集,即o n t o l o g y 针对的是团体而非个体的共识。 o n t o l o g y 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确 定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇间相互关系的明确定义。 2 1 2o n t o l o g y 的建模元语 0 n t 0 1 0 9 y 包含5 个基本建模元语( m o d e l i n gp r i m i t i v e ) 1 3 2 1 ,分别为:类( c l a s s e s ) , 关系( r e l a t i o n s ) ,函数( f u n c t i o n s ) ,公理( a x i o m s ) 和实例( i n s t a n c e s ) 。通常也把类 写成概念( c o n c e p t s ) 。 ( 1 ) 概念含义很广泛,可以指任何事物,如工作描述、功能、行为、策略和推 理过程等等。 基于o n t o l o g y 的智能信息检索系统研究 ( 2 ) 关系代表了在领域中概念之间的交互作用。形式上定义为n 维笛卡儿乘积 的子集:r :c 1 c 2 x x c n 。如:子类关系( s u b c l a s s o f ) 。 ( 3 ) 函数是一类特殊的关系。在这种关系中前 1 个元素可以惟一决定第 个 元素。形式化的定义如下:f :c 1 c 2x c n 一1 一西。 ( 4 ) 公理代表永真断言,用于说明函数之间或关联之间存在的关联或约束。 ( 5 ) 实例实例是指属于某个概念的个体。 在o n t o l o g y 中,概念之间的基本关系有4 种:p a r t - o f , a t t r i b u t e - o f ,i n s t a n c c o f 和k i n d o f 。p a r t o f 表达概念之间部分与整体的关系; i n s t a n c e o f 表达概念的 实例和概念之间的关系;a t t r i b u t e o f 表达某个概念是另外一个概念的属性。例 如概念“作者”可作为概念“论文”的一个属性。k i n d - o f 表达概念之间的继承关 系,给出两个概念c 和d ,记c7 = x 1 x 是c 的实例) ,d7 = x i x 是d 的 实例) ,如果对任意的x 属于d7 ,x 都属于c7 ,则称c 为d 的父概念,d 为c 的子概念。一般情况下,o n t o l o g y 的概念之间都存在着层次性关系( 或者说 上下位关系) ,更高层的概念代表更抽象的意义,更低层的概念代表更具体的意 义,低层概念与它上层的概念是“k i n d o f ”的关系。所有的层次性关系构成一个 树状结构。图2 1 反映了一个生物领域的概念层次。 图2 1o n t o l o g y 中概念的层次结构 2 1 3o n t o l o g y 的分类 目前关于o n t o l o g y 的研究非常广泛,尤其是在国外,许多研究研究组织和 机构都建立了各具特色的o n t o l o g y 。针对目前出现的各种各样的o n t o l o g y ,也出 现了不同的分类,以下三种分类方法使用最为广泛 ( 1 ) 根据o n t o l o g y 应用主题,可将o n t o l o g y 划分为五种类型【3 3 】: 基于o n t o l o g y 的智能信息检索系统研究 领域o n t o l o g y 。领域o n t o l o g y 在一个特定的领域中可重用。它们提供该领域 特定的概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的 主要理论和基本原理等。对特定领域的o n t o l o g y 研究和开发目前已涉及许多 领域,包括企业o n t o l o g y 、医学概念o n t o l o g y 、生物学o n t o l o g y 等。 通用或常识o n t o l o g ya 关注于常识知识的使用。通用知识o n t o l o g y 的研究包 括著名的c y c 公司的o p e n c y c o n t o l o g y ,最新版的o r i e n c y c 包括6 0 0 0 个概 念和6 0 0 0 0 个关于这些概念的声明( 包括概念间的关系、对概念的限制等) , 另外o p e n c y c 还包括一个基于o n t o l o g y 的常识推理机。 知识o n t o l o g y 。它的研究重点是语言

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论