已阅读5页,还剩66页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着互联网和信息技术的迅速发展,存贮在各种信息系统中的信息资源通过 网络互连,形成了巨大的网络信息空间;同时信息资源也愈来愈呈现出异构、海 量、动态的分布特点,这些变化为信息集成研究带来了新的挑战。传统的集成方法 只能在结构层次上集成异构信息,而对于信息的语义失配、异构问题则无能为力, 造成大量对用户有价值的信息没有被利用。本文引入本体来实现异构信息在概念 层次上的集成,挖掘其在语义上有价值的隐含信息,解决了信息集成中的语义异 构问题,弥补了结构化集成方法在处理语义问题的不足。 本文首先讨论了当前信息集成方法及其存在的一些问题,介绍了本体的相关 概念、本体在信息集成中的应用方式以及本体映射的建立。 提出了一种基于本体的信息集成架构,实现对异构信息源的语义集成。 接着介绍了本体及映射的建立,即抽取各个数据源的模式信息建立相应局部 本体,在局部本体的基础上建立全局本体,同时定义全局本体与局部本体、局部 本体与数据源之间的映射。 接着提出了基于本体的语义查询,根据对全局本体的推理结果进行查询语句 的分解,生成针对不同数据源的查询语句以实现统一访问。 然后,介绍了原型系统的实现情况;包括关键技术的选择、关键接口和方法 介绍、用户界面以及系统测试情况等。 关键词:本体;信息囊成;语义集成;数据集成 t h er e s e a r c ha n di m p l e m e n t a t i o no f o n t o l o g y b a s e di n f o r m a t i o n i n t e g r a t i o nt e c h n o l o g y a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n to f i n t e r a c ta n di n f o r m a t i o n t e c h n o l o g y ,t h e i n f o r m a t i o nr e s o u r c e ss t o r e di nv a r i o u si n f o r m a t i o ns y s t e m sc o n n e c t b yn e t w o r k , w h i c h f o r m st h eh u g en e t w o r ki n f o r m a t i o n s p a c e s a t t h es a n l et i m et h e d i s t r i b u t i n g c h a r a c t e r i s t i co ft h e s ei n f o r m a t i o nr e s o u r c e sb e c o m e sm o r ea n dm o r eh e t e r o g e n o u s , m a g n a n i m o u sa n dd y n a m i c t h e s ec h a n g e sb r i n gg r e a tc h a l l e n g et oi n f o r m a t i o n i n t e g r a t i o nr e s e a r c h t h et r a d i t i o n a li n t e g r a t i o nm e t h o dc a no n l yi n t e g r a d eh e t e r o g e n o u s i n f o r m a t i o ni ns t r u c t u r a ll e v e la n dh a sn o t h i n gt od ow i mt h ep r o b l e mo fs e m a n t i c m i s m a t c ha n dh e t e r o g e n e i t yo fi n f o r m a t i o nw h i c hm a k eag r e a td e a lo fv a l u a b l e i n f o r m a t i o nu s e l e s st ou s e r o n t o l o g yi si n t r o d u c e di nt h i sd i s s e r t a t i o nt or e a i i z et h e i n f o r m a t i o ni n t e g r a t i o ni nc o n c e p t u a ll e v e la n dm i n et h ev a l u a b l es e m a n t i ci m p l i c i t i n f o r m a t i o n , t h i sm e t h o dr e s o n e st h ep r o b l e mo f s e m a n t i c h e t e r o g e n e i t yd u r i n g i n f o r m a t i o ni n t e g r a t i o na n dr e m e d y st h es h o r t a g eo fs t r u c t u r a li n t e g r a t i o nm e t h o d d e a l i n gw i t ht h es e m a n t i cp r o b l e m f i r s t l y ,t h ed i s s e r t a t i o nd i s c u s s e ss o m ep r o b l e m si nc u r r e n ti n f o r m a t i o ni n t e g r a t i o n m e t h o d s ,i n t r o d u c e st h ec o n c e p to fo n t o l o g y ,t h ea p p l y i n ga p p m a c h so fo n t o l o g yi n i n f o r m a t i o ni n t e g r a t i o na n dt h eb u i l do f o n t o l o g ym a p p i n g s e c o n d l y , a no n t o l o g y b a s e di n f o r m a t i o ni n t e g r a t i o na r c h i t e c t u r ew h i c hr e a l i z e s s e m a n t i ci n t e g r a t i o no nh e t e r o g e n o u si n f o r m a t i o ns o u r c e si si n t r o d u c e d t h e nh o wt ob u i l dt h eo n t o l o g ya n dh o wt os e tu pt h em a p p i n ga r ei n t r o d u c e d n e x t ,t h eo n t o l o g y b a s e ds e m a n t i cq u e r ya r ei n t r o d u c e d t h eq u e r ys t a t e m e n tb a s e d o nt h er e s u l to fr e a s o u i n gg l o b a l o n t o l o g yi sd e c o m p o s e dt op r o d u c et h eq u e r y s t a t e m e n t s0 1 1d i f e r e n td a t as o r r e e st or e a l i z et h eg o a lo f u n i f i e dv i s i t t h e nt h ei m p l e m e n t a t i o no fp r o t o t y p es y s t e mi si n t r o d u c e d ,i n c l u d i n gt h ec h o i c eo f k e yt e c h l o l o g y ,t h ei n t r o d u c t i o no f k e yi n t e r f a c e sa n dm e t h o d s ,u ia n ds y s t e mt e s t k e yw o r d s :o n t o l o g y ;i n f o r m a t i o ni n t e g r a t i o n ;s e m a n t i ci n t e g r a t i o n ;d a t a i n t e g r a t i o n 第1 章绪论 1 1 课题背景与意义 信息集成的需求由来己久,对信息集成的研究一直是数据库研究领域及其它 相关领域一个非常热门的课题【”。近年来随着w e b 平台逐渐成为信息服务的主导平 台,对w e b 环境下的信息集成的研究也呈现出蓬勃发展的趋势翻。 信息集成,也称为数据集成,就是要实现不同应用系统中异质信息资源的跨 时间、空间的透明、无缝整合,以便以集成和统一的方式为用户提供更高层的信 息服务。信息集成问题解决后,才能为其它诸如信息查询、信息共享等服务提供 基础。 计算机网络和信息技术的发展使存贮在各种系统中的信息资源能通过网络互 连,形成了巨大的网络信息空间。网络信息空间中的信息具有信息量大、异构性 强、信息内容动态变化和信息源分布自治等特点1 3 。所谓信息源异构是指信息源可 以是传统的结构化很强的关系型数据库系统和面向对象数据库系统,也可以是半 结构化的x m l 文件,或者是彼此间查询接口各不相同的w e b 信息源。所谓信息源分 布自治,是指信息源在物理上是分布的,并且信息集成系统对信息源的组成和提 供的服务没有任何发言权,信息源是事先存在的。 近年来,信息集成研究的焦点从解决信息语法、信息结构层面的异构逐渐发 展到致力于消除信息语义层面的异构f 4 】。新的技术和新的标准不断涌现,女1 3 x m l 与r d f 、本体技术、a g e n t 技术等等,这些为信息集成提供了新的方法和思路,促 使我们在该领域进行更深入的研究。 本篇论文在完成期间得到了国家自然科学基金( 项目号:6 0 1 7 2 0 4 3 ) 的资助,所 研究的课题属于国家自然科学基金项目( 分布式智能异构数据集成支持系统的研究) 的一部分。 1 2 国内外研究现状 1 2 1 信息集成方法概述 信息集成也叫数据集成,是对各种异构数据提供统一的表示、存储和管理, 这些功能在异构数据集成系统中实现。数据集成屏蔽了各种异构数据间的差异, 通过异构数据集成系统进行统一操作。因此集成后的异构数据对用户来说是统一 的和无差异的。 数据集成技术的研究始于七十年代中期,至今已有二十多年了。从一开始的 多数据库集成发展到现在的异构数据源集成,数据集成的范围和作用都在不断扩 大。 a m i tp s h e t h n 提出数据集成的发展大约可分为三个阶段来看: 7 0 年代至8 0 年代中期:出现的主要技术有多数据库系统和联邦数据库系统, 重点在于使有着不同软硬件设备的计算机系统进行互连和通信,解决了一定程度 上的语法和结构异构,实现了地理分布、数据模式等的透明性,主要的产品有 u n i s q 埘( u n i s q l ) ,m e r m a i n d a t a l o i n e r ( i b m ) ,o m n i c o n n e e t ( s y b a s e ) : 8 0 年代中期至9 0 年代中期:随着网络的出现、i n t e m e t 的发展以及多种类型 的数据的形成( 包括结构化数据库、半结构化数据、数字多媒体等) ,出现了一些 支持多种类型的异构数据集成的技术,如m e t a d a t a 、m e d i a t o r 、中间件等,主要的 系统有t s i m m i s ,g a r l i c ,s i m s ,h e r m e s ,i n f o s l e u t h 等; 9 0 年代中期至现在:这个阶段比较关注数据集成过程中的语义异构的解决 问题,更多的运用知识领域的有关技术如本体等。主要有信息的智能集成、数字 化图书馆等。 构建信息集成系统一般有两种方法,一种被称为数据仓储方法或实体化方法 ( w a r e h o u s i n ga p p r o a c ho rm a t e r i a l i z e da p p r o a c h ) ,另一种被称为虚拟方法或被动方 法( v i r t u a la p p r o a c ho rl a z ya p p r o a c h ) 。前一种方法【5 j 将各信息源的数据事先装载到 数据仓库中,所有的查询针对数据仓库中的数据进行。这种方法最大的优点在于 能够保证快速高效的查询,但查询的数据缺乏时效性。f | : 在虚拟方法中【6 1 ,数据仍 保存在各本地信息源中,集成系统仅提供一个虚拟的集成视图以及对这个集成视 图的查询处理机制。系统通过各信息源的“封装程序”( w r a p p e r s ) 生成一致的本地 信息视图( 应用视图) ,在此基础上生成虚拟全局集成视图。系统能自动地将用户 对集成视图的查询请求转换成对各个信息源的查询,并将各局部查询的结果整合 重组后以统一的方式提供给用户。这种方法中数据没有被事先复制,可以充分保 证数据的时效性。虚拟方法不需要重复存储大量信息,更适应于处理信息源数目 多、各局部信息源自治性高、异构性强且信息经常动态变化的网络信息空间。本 论文就是在虚拟方法的前提下,对异构信息源的集成问题展开研究。如果没有特 别声明,本文下面提到的信息集成均是指采用虚拟方法的信息集成。另外,为了 论述方便,文中o n t o l o g y 均用本体。 1 2 2 虚拟集成方法的研究进展 按照各自研究所采用的信息模型和研究出发点来分,虚拟集成方法目前主要 有两类方法【7 】:结构化方法和语义方法。结构化方法是从统信息的结构入手来进 行信息集成,解决所要集成信息的结构异构问题,而对于所要集成信息的语义关 联则不做考虑。语义方法是从所要集成信息的语义关联入手( 直接体现为从各信息 源的局部语义模式关系入手) ,通过对信息的语义和语义关联进行一致的描述,进 而协调生成全局信息视图,基于全局信息视图实现信息查询和信息共享等服务。 结构化方法实现比较简单,适合信息源相对比较固定的环境,其缺点是可扩展性 差,不提供语义级的信息检索等服务。语义方法的主要特点是可扩展性好,适应 动态信息源,支持语义级信息查询等信息服务,使用领域本体作为语义层集成手 段,其缺点是实现比较复杂,牵涉到领域本体的创建( 因为领域本体的创建是牵涉 到领域专家建模、概念提取和概念分类等相关的处理工作,相对来讲较为复杂) 。 采用结构化方法的典型代表有美国s t a n f o r d 大学和i b ma l m a d e n 研究中心联合 开发的t s i m m i s ( t h es t a n f o r d - i b mm a n a g e ro fm u l t i p l ei n f o r m a t i o ns o u r c e s ) 系统 【8 9 l 。该项目主要从解决异构信息的结构异构入手,提出了一种具自描述 ( s e l f - d e s c r i b i n g ) 、面向对象( o b j e c t o r i e n t e d ) 的信息描述模型o e m ( o b j e c te x c h a n g e m o d e l ) 1 0 1 ,同时给出了应用于该模型的信息查询语言l o r e l ( l i g h t w e i g h to b j e c t r e p o s i t o r yl a n g u a g e ) “”。o e m 模型是早期比较有代表性的半结构化数据模型。此 后,很多集成系统均使用了o e m 的变体,s t a n f o r d 大学的l o r e t 作组在o e m 模型 的基础上开发了半结构化数据库管理系统l o r e 。在x m l 逐渐兴起后,他们就将l o r e 系统移植到完全基于x m l 的数据模型上,并相应地扩展了其查询语言【l 3 1 。 采用语义方法的典型代表有意大利m o d e n a 大学和m i l a n 大学联合开发的 m o m i s ( m e d i a t o re n v i r o n m e n tf o rm u l t i p l ei n f o r m a t i o ns o u r c e s ) 系统t 1 4 】。他们提出了 一种基于语义的异构信息描述模型o d m ,以及相应的建模语言o d l i ,【1 5 】,o d l ,语 多、各局部信息源自治性高、异构性强且信息经常动态变化的网络信息空间。本 论文就是在虚拟方法的前提下,对异构信息源的集成问题展开研究。如果没有特 别声明,本文下面提到的信息集成均是指采用虚拟方法的信息集成。另外,为了 论述方便,文中o n t o l o g y 均用本体。 1 22 虚拟集成方法的研究进展 按照各自研究所采用的信息模型和研究出发点来分,虚拟集成方法目前主要 有两类方法1 7 i :结构化方法和语义方法。结构化方法是从统一信息的结构入手来进 行信息集成,解决所要集成信息的结构异构问题,而对于所要集成信息的语义关 联则不做考虑。语义方法是从所要集成信息的语义关联入手( 直接体现为从各信息 源的局部语义模式关系入手) ,通过对信息的语义和语义关联进行一致的描述,进 而协调生成全局信息视图,基于全局信息视图实现信息查询和信息共享等服务。 结构化方法实现比较简单,适合信息源相对比较固定的环境,其缺点是可扩展性 差,不提供语义级的信息检索等服务。语义方法的主要特点是可扩展性好,适应 动态信息源,支持语义级信息查询等信息服务,使用领域本体作为语义层集成手 段,其缺点是实现比较复杂,牵涉到领域本体的创建( 因为领域本体的创建是牵涉 到领域专家建模、概念提取和概念分类等相关的处理工作,相对来讲较为复杂) 。 采用结构化方法的典型代表有美国s t a n f o r d 大学和i b ma l n 1 a d c n 研究中心联合 开发的t s i m m i s ( t h es t a n f o r d - i b mm a n a g e ro fm u l t i p l ei n f o r m a t i o ns o u r c e s ) 系统 8 , 9 1 。该项目主要从解决异构信息的结构异构入手,提出了一种具自描述 ( s e l f - d e s c r i b i n g ) 、面向对象( o b j e c t o r i e n t e d ) 的信息描述模型o e m ( o b j o c te x c h a n g e m o d e l ) t ”】,同时给出了应用于该模型的信息查询语言l o r e l ( l i g h t w e i g h to b j e c t r e p o s i t o r yl a n g u a g e ) “】。o e m 模型是早期比较有代表性的半结构化数据模型。此 后,很多集成系统均使用t o e m 的变体【2 1 ,s t a n f o r d 大学的l o r e i 作组在o e m 模型 的基础上开发了半结构化数据库管理系统l o r e 。在x m l 逐渐兴起后,他们就将l o r e 系统移植到完全基于x m l 的数据模型上,并相应地扩展了其查询语言【l ”。 采用语义方法的典型代表有意大利m o d e r m 大学和m i l a n 大学联合开发的 m o m i s ( m e d i a t o re n v i r o n m e n tf o rm u l n 口l ei n f o r m a t i o ns o u r c e s ) 系统【l “。他们提出了 一种基于语义的异构信息插述模型o d m ( 阻及相应的建模语言o d l t “”】,o d l l 3 语 一种基于语义的异构信息描述模型o d m ? 以及相应的建模语言- o d l i , “,o d l l 3 语 言是为了适应异构信息集成的需要从o d m g :o b j e c td a t a b a s em a n a g e m e n tg r o u p ) 的o d l ( o b j e c t d e f i n i t i o n l a n g u a g e ) 语言扩展而来。o d m l 3 是一种面向对象的信息模 型,它独立于信息源的语义,可被用来描述结构化和半结构化信息源的异构模式。 此外,南加州大学信息科学研究所研制的i m 16 】系统、a t & t 贝尔实验室实现的 s i m s t l 7 1 系统等早期集成系统中也蕴含着基于概念模型和语义元数据来描述信息 源的思想,已经具备了语义集成方法的雏形。 与国外所开展的研究工作相比较,国内关于信息集成技术的研究起步较晚, 但是发展很快,该领域关键技术的研究倍受国内各大学和科研院所研究人员的关 注,正逐渐成为信息管理与应用领域研究的热点与焦点。相对而言,东南大学计 算机科学与工程系的研究人员所作的工作比较早,他们在紧密跟踪t s i m m i s 项目 研究的基础上,开发了一个基于c o r b a 的半结构化信息集成系统原型一 v e r s a t i l e t l 8 】:该原型底层信息模型采用类似于o e m 的o i m ( m o d e lf o ro b j e c t i n t e g r a t i o n ) 模垩1 1 9 j 。该模型基于带根连通有向图理论建立,其o 跏对象代数提供对 象并、差、选择、投影、粘贴及切削6 种操作。中国人民大学信息学院的孟小峰教 授等就w e b 数据管理的若干问题进行了研究,重点就w c b 查询问题、半结构化数据 模式和w e b 信息集成方法进行了研究。他们提出了一个基于x m l 的w e b 数据管理系统 框架伫0 1 ,首先将各异构信息源转换载入到x m l 数据中心,然后对数据中心的x m l 数 据进行管理和查询。目前研究工作仍处于进一步探索阶段。国内与异构信息集成 研究相关的主要项目有国家重点基础研究发展规划( 9 7 3 规划) 的“网络环境下海量 信息组织与处理的理论与方法项目”和“万维网上的数据集成、数据仓储及知识 发现的有效算法与软件系统”,国家数据库重大专项课题( 8 6 3 项目) 的“基于x m l 的数据集成、共享与交换”以及本课题组主持的国家自然科学基金项目“分布式 智能异构数据集成支持系统的研究”等。通过这些专项课题的研究,培养了大量 的科研、开发、应用人员,并突破了异构信息集成中的许多重大关键技术。 4 1 3 本文的研究内容及章节安排 1 3 ,1 本文的研究内容 论文结合国家自然科学基金项目“分布式智能异构数据集成支持系统的研 究”,在结构式集成基础上进一步深入研究基于本体的信息集成关键技术,实现 异构信息在概念层次上的集成,挖掘其在语义上有价值的隐含信息,为用户提供 更加高效、便捷的信息服务。具体来说主要包括以下几方面的内容: 1 、在阅读了大量关于本体及信息集成的文献基础上,深入研究了传统结构式 信息集成中存在的问题,提出利用本体来解决语义异构的问题。 2 、总结概述了本体在信息集成中的应用问题,包括本体的定义、本体在信息 集成中的角色以及集成中的映射问题。 3 、提出基于本体的信息集成系统架构,并对其重要组成部分进行分析介绍。 4 、分析讨论了本体及映射的构建问题,其中包括本地本体和全局本体的构建 以及本地映射及全局映射的构建。 5 、结合实例数据研究了基于本体的语义查询方法。 6 介绍了原型系统的实现情况。 1 3 2 本文的章节安排 本文的章节安排如下: 第1 章为绪论。主要介绍了信息集成的研究背景和意义、国内外现状和主要的 研究内容。 第2 章综述性介绍了基于本体的信息集成研究状况,主要是本体的概念定义以 及本体在信息集成中的角色和映射问题。 第3 章提出了基于本体的信息集成系统架构,并对系统的各个组成部分和采用 的信息表示模型进行了介绍。 第4 章重点阐述了本体及映射的构建过程。首先介绍了本体构建的准则、方法 和工具,然后从数据模式的提取到本地本体、本地映射、全局本体和全局映射的 建立,详细描述了本体及映射的构建过程。 第5 章给出了语义查询处理的过程。首先需要构建全局查询语句,并在此基础 上进行本体推理,然后应用推理结果分解查询语句,得到的是针对各局部本体的 子查询语句,再转化为对具体数据源的实际查询语句,最后将各个数据源的查询 结果合并返回。 笫6 章介绍了原型系统的实现情况:包括关键技术的选择、关键接口和方法介 绍、用户界面以及系统测试情况等。 第7 章总结了本文的研究工作,并给出了进一步的展望。 6 第2 章基于本体的信息集成研究 信息集成的主要内容是基于网络的由不同硬件、操作系统、数据库管理系统 和应用软件组成的异构数据处理环境下的数据模型、数据库模式、查询语言、事 务处理的不同协议、并发性控制与数据库状态一致性维护等一系列问题集成【2 1 。 信息集成的目的是屏蔽底层数据源的异构性,提供给用户一个统一的视图。这种 异构从下到上分为四个等级:系统级,语法级,结构级以及语义级的异构。系统 级的异构包括不兼容的硬件和操作系统;语法级的异构指的是不同的语言和数据 表达方式;结构级的异构包括不同的数据模型;语义级的异构指的是用来进行交 换的词汇的意义不同【4 。解决语义异构性的问题就应该使异构、自治的软件系统以 语义一致性的方式实现共享和交换信息【2 如。利用本体可解决语义异构问题,实现 系统间的语义互操作。 2 1 本体的定义 本体原来是一个哲学的概念( 也有人将其译成“本体论”) ,被哲学家用来描述 事物的本质。后来知识工程学者借用了这个概念,一般翻译成“本体”以示区别, 在开发知识系统时用于领域知识的获取。近年来,信息系统研究者们又用本体的 概念模拟企业结构,提出了虚拟企业的研究方向。 2 1 1 哲学上的本体 本体论是表述哲学理论的一个术语,在西方哲学史和中国哲学史中分别具有各 自的含义。在西方哲学史中,本体论是指关于存在及其本质和规律的学说,是物 质存在的一个系统的解释,这个解释不依赖于任何特定的语言,如亚里士多德的 本体等。在中国古代哲学中,本体论又叫“本根论”,指的是研究天地万物产生、 存在、发展、变化的根本原因和根本依据的学说。 “本体论”这个概念是在1 7 世纪由西方哲学家提出的,用于避免“形而上学” 中的一些二义性问题;1 8 世纪初,本体论已在哲学界被广泛采用;在2 0 世纪的分 析哲学中,本体论正式成为研究实体存在性和实体存在的本质等方面的通用理论。 2 1 2 人工智能领域的本体 我们知道,人工智能领域的知识建模必须在知识库和两个子系统之间建立联 系:智能主体( a g e n t ) 行为( 问题求解技能) 和环境( 问题存在的领域) 。令人遗憾 的是,人工智能专家长期以来的做法是使领域知识的表达依赖于特定的任务,这 样做虽然只需要考虑相关的领域知识,但是大规模的模型共享、系统集成、知识 获取和重用( r e u s e ) 却依赖于领域的知识结构分析。因此,与任务独立( t a s k i n d e p e n d e n t ) 的知识库,即本体( o n t o l o g y ) 被提出来了。 研究人工智能的n e c h e s 等人将本体定义为“给出构成相关领域词汇的基本术 语和关系,以及利用这些术浯和关系构成的规定这些词、汇外延的规则的定义”。 这个定义实际上给出了构造本体的过程,即:找出基本的术语和术语间的关系及 相应的规则,然后给出这些术语和关系的定义,按照这种定义,本体中不仅包含 显式定义的术语,也包含运用规则推导出来的术语。 2 1 3 计算机领域当前研究的本体 在计算机晃,明确本体的定义经历了一个过程。1 9 9 3 年,g r a b e r 给出了本体 的一个最为流行的定义,即“本体是概念模型的明确的规范说明”。后来,b o r s t 对此稍作修改,提出:“本体是共享概念模型的形式化规范说明”。 s t u d e r 等对上述两个定义进行了深入的研究,认为本体是共享概念模型的 明确的形式化规范说明。这个定义包含4 层含义:概念化( c o n c e p t u a l i z a t i o n ) 、明 确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。 “概念化”指通过抽象出客观世界中一些现象的相关概念而得到概述模型, 即概念系统所蕴涵的语义结构,是对某一事实结构的组非正式的约束规则,可 以理解和或表达为一组概念( 如实体、属性、过程) 、定义和关系。 “明确”指所使用的概念及使用这些概念的约束都有明确的定义。 “形式化”指本体是计算机可读的( 即能被计算机处理) 。 “共享”指本体中体现的是共同认可的知识,反映的是相关领域中公认的概念 集,郎本体针对的是社会范畴而非个体之间的共识。 总而言之,本体的目标是获取、描述和表示相关领域的知识,提供对该领域 知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上 给出这些词汇( 术语) 和词汇间相互关系的明确定义。一般来讲,本体具有两个特性: 静态性和动态性静态性指的是它反映的是概念模型,没有涉及动态的行为; 动态性指的是它的内容和服务对象是不断变化的针对不同的领域,可以定义和 构造不同的本体。田】 2 2 本体在信息集成中的角色 起初,本体就是作为“概念模型的明确的规范说明”( 2 4 】来引入的。因此,本 体可以在集成任务中用来描述数据源的语义信息,明确内容。然而,在一些系统 中本体还担负了其他的任务,将在2 2 2 中进行讨论。 2 2 。1 明确语义内容 几乎所有的基于本体的信息集成方法中本体都是用来明确描述数据源的语义。 但是应用本体的方式有所不同。通常有三种不同的方式:单一本体方式、多本体 方式和混合本体方式。 单一本体方式( s i n g l eo n t o l o g ya p p r o a c h e s ) 单一本体方式使用一个全局本体为语义规范提供一个共享词库,所有数据源 关联到这个全局本体( 见图2 1 a ) 。全局本体也可以是若干专用本体的组合。通 过导入其它的本体模块,使得若干单一本体组合在一起。使用单一本体方式解决 的集成问题其数据源需是关于一个领域的相同的视图。如果一个数据源提供这个 领域的不同的视图,比如具有不同的粒度级别,那么找到最小的本体关联就非常 困难【2 5 1 。另外。单一本体方式易受到数据源变化的影响。数据源的变化使得全局 本体发生变化,进而影响到和其它数据源的映射发生变化。这些不足导致了多本 体方式的产生。 多本体方式( m u l t i p l eo n t o l o g i e s ) 在多本体方式中,每一个数据源由它自己的本体来描述。乍一看,多本体方 式的好处似乎是没有必要建立关于全局本体的共同、最小的关联 2 5 1 。每个资源本 体可以单独开发而不用管其它的资源、本体,也就是没有必要建立和所有数据源 一致的共同本体。这种本体结构可以简化数据源的改动、添加和删除带来的变化。 9 但是实际上,缺乏一个共同的词库( 本体) 来进行不同资源本体的比较是极其困 难的。为了解决这个问题,需要一个额外的表示方式来定义本体之间的映射。 a 单一本体方式b ,多本体方式 c 混台本体方式 图2 1 应用本体的三种方式 f i g 2 1t h r e ew a y so f a p p l y i n go n t o l o g y 混合方式( h y b r i da p p r o a c h e s ) 为了克服单一本体方式和多本体方式的不足,出现了混合本体方式( 见图 2 1 c ) 。和多本体方式类似,每个数据源的语义信息由它自己的本体来描述。但是 为了使资源本体之间可以比较,建立了一个全局共享词库【2 6 。共享词库中包括了 一个领域中的基本术语( 原语) 。原语通过一些操作符连接构成资源本体的复杂 术语。所以资源本体中的每个术语都是基于原语的,和多本体方式相比术语更容 易比较。有些时候共享词库本身也是一个本体【期。混合本体方式的优点是不需要 改动映射关系或者共享词库就可以轻松的添加数据源。共享词库使资源本体之间 可以比较,避免了多本体方式的不足。然而,混合本体方式的缺点是由于所有的 资源本体参照了共享词库,所以已存在本体的重用性不好,必须从头开发。 从上述对本体集成框架结构的分析可知,混合结构易于本体的进化和维护, 最适于处理语义集成问题。根据混合结构,语义数据集成( i ) 可以看成一个三元组 形式 ,其中:g 是全局模式本体,s 是本地模式本体,m 代表g 和s 之间的映 射关系。按照映射的方向m 可以定义为如下两种:g a y ( g l o b a l - a s v i e w ) 和 l a y ( l o c a l a s v i e w ) 。 从全局模式本体向本地模式本体映射,即要求为全局模式本体中的每一个 项r 写出一个查询,说明如何从各个信息源得到该项r 的元组; 在对g 进行查询是,相当于对所有s 的查询,即: q u e r y ( g ) = q u e r y ( f ( s 1 ,s 2 ,s n ) ) ; 采用g a v 的方式能够直接的将对g 的查询分解为对s 的查询,但是新增数据源比 较麻烦,需要涉及到g 中概念的更新,以及重新更新一些映射关系。 从本地模式本体向全局模式本体进行映射,即要求为每个局部数据源给出一 个针对全局本体的查询,说明全局本体的哪些项能够在各个数据源中找到; 当对g 进行查询时,存在如下的关系: q u e r y ( g ) = q u e r y ( f “( s 1 ) ,f 2 - 1 ( s 2 ) ,f 。1 ( s n ) ) ; 相对g a v 而言,l a v 的方式更容易改变数据源。 2 2 2 作为查询模型 一些集成方法将本体作为统一的查询模型。其优点是查询模型的结构对用户 来说更加直观,它更多的对应于用户对这个领域的了解。但是从数据库的观点来 看,本体仅起到了统一查询模型的作用。用户表达一个查询,他必须知道本体的 结构和内容,不能根据自己的喜好来表达。 2 3 映射 本体不应单单被看作世界的模型,而是联结各种信息资源的粘合剂。映射一 词是指本体和应用系统其它部分间的连接。下面讨论在信息集成中两种重要的映 射应用:本体和它描述的数据源间的映射、一个系统中不同本体之间的映射。 2 3 1 连接数据源 映射基本的、最明显的应用是连接本体和数据源的实际内容。本体可以关联 数据库模式,也可以关联数据库中的单独的术语。通常有四种方法来建立本体和 数据源之间的连接。 结构类似( s t n j c t 哪er e s e m b l a n c e ) 一个连接本体和数据库模式的直接方法是简单地建立一对一的数据库结构的 拷贝,并用可能自动推理的语言进行编码。于是集成在模式拷贝的基础上完成, 能够容易地回溯到原来的数据。此方法应用于s i m s 系统中间件和t s i i s 系统中。 定义术语( d e f i n i t i o no f t e r m s ) 为了使数据库模式中术语的语义更加清晰,仅建立数据库结构的拷贝是不够 的。b u s t e r 中的方法进一步详细说明数据库或数据库模式中术语。这些定义并不 对应于数据库的结构,而是对应于相关的术语。定义术语本身包括一系列定义的 规则。在大多数情况下,术语是通过概念定义描述的。 结构扩充( s t r u c t u r ee n r i c h m e n t ) 结构扩充是最常用的关联本体和数据源的方法,它整合了以上提到的两个方 法。通过模仿数据源的结构和包含额外的概念定义来建立逻辑模型。 元注释( m e t a - a n n o t a t i o n ) 处于集成互联网信息的需要,元注释方法变得越来越重要。在互联网上通过 注释来添加语义信息是很自然的方式。我们可以进一步区别为模仿真实信息的注 释方法s h o e 和避免冗余的方法o n t o b r o k e r 2 9 。 2 3 2 本体间映射 这里的映射具体是指“给出两个本体a 和b ,一个本体映射到另一个的意思 是对于本体a 中的每个概念( 节点) ,我们尽量在本体b 中找到有相同或相似语 义的对应的概念( 节点) 。反之亦然 3 0 1 ”。在这里只是讨论信息系统中常用的本 体映射方法,而不是这一领域的所有研究方法。 定义映射( d e f i n e dm a p p i n g s ) 解决本体映射问题的普通的方法是尽可能的定义映射。k r a f t d i 项目中采用 了这种方法。通过特殊中间件a g e n t 在不同本体间转换,而这些a g e n t 可以订制 以实现在不同本体甚至是不同语言间转换。在这种方法中,从简单一对一的类、 值间的映射到复杂表示间的映射,映射又区分不同的种类。此方法具有极大的灵 活性,但不能保证语义的保存。因为用户可以任意的定义映射,而有些是不合理、 甚至是冲突的。 词汇关联( l e x i c a lr e l a t i o n s ) o b s e r v e r 系统 3 2 】试图提供不同本体概念间的直观语义信息。该方法借鉴了语 言学,本体间的关系有同义词( s y n o n y m ) 、交迭( o v e r l a p ) 和不相关( d i s j o i n t ) 等。该系统基于查询扩展策略,即当用户对一个本体中的词汇进行查询的时候, 系统将查询扩展到其它本体中的词汇,从而完成语义的关联。 建立顶级本体( t o p l e v e lg r o u n d i n g ) 在定义不同本体间映射的时候,为了避免语义的丢失我们借助形式化表示语 言。形式化表示的直接方法就是把使用的本体关联到一个顶级本体。从一个公共 的顶级本体继承概念可以做到这一点。这种方法可以用来解决冲突和不确定性, 但是不能建立直接的对应关系。 语义对应( s e m a n t i cc o r r e s p o n d e n c e s ) 此方法通过明确不同本体概念间基于事实的语义对应关系来克服建立顶级本 体方法带来的不明确性。为了避免概念间的任意映射,这种方法必须依赖一个公 共词库。词库定义不同本体的概念。 2 4 工具比较分析 这一节将对几个典型的基于本体的信息集成工具进行列表分析。这些工具或 项目包括:c o g ( c o r p o r a t eo n t o l o g yg r i d ) 、m o m i s ( m e d i a t o re n v k o n m e n tf o r m u l t i p l ei 面o r m a t i o ns o u r c e s ) = _ i a f o s l e u t h 、o b s e r v e r ( o n t o l o g yb a s e ds y s t e m e n h a n c e dw i t hr e l a t i o n s h i p sf o rv o c a b u l a r yh e t e r e o g e n i t yr e s o l u t i o n ) 和k r a f t 。 比较的标准包括:集成方法( 合并、调整和组合) 、映射模式( 一对一、单 独共享本体和本体聚类) 、映射支持度( 类映射、属性映射、实例、公理、值转 换和约束) 、自动化程度、互操作性( 主要是工具支持的导入、导出语言) 、附 加数据源和项目实践。比较结果如表2 1 。 表2 1 工具比较分析 t a b 。2 。1c o m p a r ea n da n a l y s eo f t o o l s c o g m o m i si n f o s l e u t ho b s e r v e r k r a f t 集成方法组合组合组合调整组合 映射模式单独共享单独共享单独共享本一对一本体聚类 本体本体体和一对一 类映射、属 映射支持类、属性、类、属性性映射、实类、属性和 度值转换和和约束例、公理、约束和实 约束值转换和例 约束 导入关系导入j a v a 模 数据库、自定义版( 通过自定义自定义 互操作性x m l 语言,包装器j d b c ) 、文包装器包装器 导出本,与0 k b c d a m l + o i l互操作 自动化程人工半自动半自动人工半自动 度 附加数据 w o r d n e tw o r d n e t 源 c o g 项目一些测试网络数据 项目实践和几个飞项目原型试验书目数据服务 行员项目 1 4 3 1 系统架构 第3 章基于本体的信息集成架构 h e t e r o g e n o u si n f o r m a t i o nh e t e r o g e n o u si n f o r m a t i o n 图3 i 系统架构图 f i g 3 1d i a g r a mo f s y s t e ma r c h i t e c t u r e 系统的架构模型如上图所示。按照集成的深度分为句法层( s y n t a c t i c a ll e v e l ) 、 结构层
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 神经外科低钠血症治疗指南
- 风带来的好处和坏处活动
- 企业班组安全教育
- 第六章 机械能守恒定律-功和功率 2025年高考物理基础专项复习
- 示出塞课件教学课件
- 3.1.1 铁及其化合物 课件 上学期化学人教版(2019)必修第一册
- 慢病专员工作汇报
- 吉林省2024七年级数学上册第2章整式及其加减期末提分课件新版华东师大版
- 常见的安全标志教案及反思大班
- 氧化碳的说课稿
- 大国三农II-农业科技版智慧树知到期末考试答案章节答案2024年中国农业大学
- (新版)网约配送员职业技能竞赛理论考试题库500题(含答案)
- 绿化养护服务投标方案(技术标)
- 高考生物选择性必修1稳态与调节基础知识填空默写(每天打卡)
- 专题12 应用文写作-【中职专用】备战2025年对口高考语文题型专练 (解析版)
- 代孕合同范本
- 供暖管道改造工程施工方案
- 数列高考考情分析
- 教师职业生涯规划
- 江苏省泰州市靖江实验学校2022-2023学年七年级上学期期中生物试卷(解析版)
- 西师大版2023-2024学年五年级数学上册期末测试卷含答案
评论
0/150
提交评论