(计算机应用技术专业论文)面向语义web的多策略本体映射研究.pdf_第1页
(计算机应用技术专业论文)面向语义web的多策略本体映射研究.pdf_第2页
(计算机应用技术专业论文)面向语义web的多策略本体映射研究.pdf_第3页
(计算机应用技术专业论文)面向语义web的多策略本体映射研究.pdf_第4页
(计算机应用技术专业论文)面向语义web的多策略本体映射研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向语义w e b 的多策略本体映射研究 摘要 摘要 随着语义w e b 的发展,基于本体的开发和应用越来越多。本体是共享概念模型 的形式化规范说明。由于本体开发本身具有分布式的特点,不同组织开发的本体可能 覆盖相同或者相交的领域,因此在应用中为了更有效地共享和重用本体,就必须找出 不同本体之间的映射关系。本体映射就是发现两个异构本体之间的语义关系,并将这 种语义关系形式化表达出来的过程,它对于实现语义w e b 中不同本体之间的互操作 具有重要意义。 本文围绕本体映射问题,在分析了本体映射的研究现状的基础上,针对本体间元 素名称、实例、结构等特征,提出了一种多策略的本体映射方法,实现了异构本体间 的自动映射。主要包括以下几方面内容: ( 1 ) 研究本体及本体映射理论,分析了本体异构性产生的原因,给出了本体元 素间相似度的形式化定义。 ( 2 ) 采用了一种基于语言学的策略,利用编辑距离和w o r d n e t 词典计算本体元 素名称间的相似度,并对利用w 6 r d n e t 计算相似度的方法进行了改进。 ( 3 ) 针对本体中实例,提出了一种基于实例的策略,通过语义富含,增加实例, 并利用向量空间模型对本体间基于实例的相似度进行计算。 ( 4 ) 提出了一种基于结构的策略,针对本体的结构特点,利用树核函数和相似 度传递模型计算本体基于结构的相似度。 ( 5 ) 通过相似度合并算法得到本体元素对的综合相似度,利用映射发现算法输 出本体之间的映射关系。 本文最后设计和实现了一个多策略的本体映射原型系统m s o m ,对文中提出的 算法进行了实验和分析,实验结果表明该算法可以得到较好的查准率。 关键词:语义w e b ,本体,本体映射,相似度 作者:靳涛 指导老师:伏玉琛 a b s t r a c t r e s e a r c ho nm u l t i s t r a t e g yo n t o l o g ym a p p i n gi ns e m a n t i cw e b a b s t r a c t w j t l lt h er a p i d d e v e l o p m e n t o f s e m a n t i cw e b ,t h e r ea r em o r ea n dm o r e o n t o l o g y b a s e da p p l i c a t i o n s a no n t o l o g yi saf o r m a l ,e x p l i c i ts p e c i f i c a t i o no fas h a r e d c o n c e p t u a l i z a t i o n t h ed i s t r i b u t e dn a t u r eo fo n t o l o g yd e v e l o p m e n th a s l e dt oal a r g e n u m b e ro fo n t o l o g i e sc o v e r i n go v e r l a p p e dd o m a i n s t h e r e f o r e ,i ti sn e c e s s a r yt of i n dt h e m a p p i n gr e l a t i o n s h i pb e t w e e nd i f f e r e n to n t o l o g i e st or e u s ea n ds h a r eo n t o l o g y o n t o l o g y m a p p i n gi s ap r o c e s so ff i n d i n gt h es e m a n t i cr e l a t i o n s h i pb e t w e e nh e t e r o g e n e o u s o n t o l o g i e sa n de x p r e s st h er e l a t i o n s h i pw i t hf o m a ll a n g u a g e s i ti si m p o r t a n tt oa c h i e v e i n t e r o p e r a t i o nb e t w e e nd i f f e r e n to n t o l o g i e si ns e m a n t i cw e b f o rt h ef e a t u r e so fo n t o l o g ys u c ha se l e m e n t sc o n c e p t ,i n s t a n c ea n ds t r u c t u r e ,t h i s p a p e rp r o p o s e sam u l t i s t r a t e g yo n t o l o g ym a p p i n ga p p r o a c ht or e a l i z ea u t o m a t i co n t o l o g y m a p p i n gb e t w e e nh e t e r o g e n e o u so n t o l o g i e s t h em a i nr e s e a r c hw o r k s a r ea sf o l l o w s : ( 1 ) r e s e a r c h i n go nt h et h e r o i e so fo n t o l o g ya n do n t o l o g ym a p p i n ga n da n a l y z i n gt h e r e a s o n so f h e t e r o g e n e o u so n t o l o g i e s a n dt h es i m i l i a r i t yo fo n t o l o g i e si sg i v e nf o r m a l l y ( 2 ) p r o p o s i n gal i n g u i s t i co n t o l o g ym a p p i n gs t r a t e g yw h i c hc a l c u l a t e st h es i m i l a r i t y o fo n t o l o g i e su s i n ge d i td i s t a n c ea n dw o r d n e t - b a s e da p p r o a c hw h i c hh a sb e e nm o d i f e d ( 3 ) p r o p o s i n ga ni n s t a n c eb a s e dm a p p i n gs t r a t e g yw h i c hc o n s t r u c t si n s t a n c eu s i n g s e m a n t i ce n r i c h m e n ta n dc a l c u l a t e st h es i m i l a r i t yo fo n t o l o g i e sb yv e c t o rs p a c em o d e l ( 4 ) p r o p o s i n gas t r u t c t u r e b a s e do n t o l o g ym a p p i n gs t r a t e g y t h i sm e t h o dc a l c u l a t e s t h es i m i l a r i t yo f o n t o l o g i e sb yt r e ek e r n e la n ds i m i l a r i t yp r o p a g a t i o nm o d e l ( 5 ) c o m b i n i n gt h es i m i l a r i t yo fe l e m e n tp a i rt oo b t a i na ni n t e g r a t e ds i m i l a r i t ya n d o u t p u t i n gt h er e l a t i o n s h i po fm a p p i n gb yo n t o l o g yd i s c o v e r i n ga l g o r i t h m f i n a l l y , t h i sp a p e rd e s i g n sa n di m p l e m e n t sap r o t o t y p ef o ro n t o l g ym a p p i n gc a l l e d m s o m a n dw ed oe x p e r i m e n t sa n da n a l y s i so nt h ep r p o s e da l g o r i t h m e x p e r i m e n t a l r e s u l t sd e m o n s t r a t et h a to u rs o l u t i o ny i e l d sah i g h e rp r e c i s i o n k e y w o r d s :s e m a n t i cw e b ,o n t o l o g y , o n t o l o g ym a p p i n g ,s i m i l a r i t y w r i t t e n b y :j i nt a o i i s u p e r v i s e db y :f uy u c h e n 图表目录 图2 1 语义w e b 体系结构5 图2 2 计算机科学学院本体13 图2 3 处理本体异构的方法。1 4 图2 - 4 本体映射示例15 图2 5 本体映射方法分类1 7 图3 1 多策略本体映射过程。2 4 图3 2w o r d n e t 上位关系结构图2 7 图3 3 改进的相似度计算方法。2 8 图3 4 基于实例的本体映射步骤图。3 0 图3 5 基于结构的本体映射步骤图。3 4 图3 - 6 一棵树及其部分子树。3 5 图3 7 错误的子树。3 5 图3 8 错误映射图3 7 图3 - 9 利用父结点相似度传递模型计算相似度3 8 图3 1 0s i g m o i d 函数。3 9 图3 1 11 :n u l l 映射实例4 0 图4 1 以p r o t 6 9 6 展现的动物本体结构图4 2 图4 2 系统体系结构图4 4 图4 3 系统包图4 6 图4 - 4 原型系统运行时界面。4 8 图4 5 本体映射输出结果4 9 图5 1 单一策略与多策略方法的比较5 6 图5 2m s o m 与其它系统之间的比较5 9 表3 1 基于w o r d n e t 相似度算法。2 9 表3 2q t a g 的部分标签与含义- 3 l 表3 3 基于树核函数相似度计算方法3 6 表3 4 本体间映射发现类型。3 9 表5 1 测试集的统计数据5 1 表5 2 单一方法的实验结果。5 3 表5 3m s o m 的实验结果。5 5 表5 4 单一策略与多策略方法的比较5 6 表5 5m s o m 与其它系统的数据比较。5 8 表5 6m s o m 与其它系统的分组数据比较5 9 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:筠跨日 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名: :堑盗e l期:2 芝:丛 导师签名:fk 兰:哟:e l 期:置! 芝: 矿 十1。刀 面向语义w e b 的多策略本体映射研究第1 章绪论 1 1 研究背景 第1 章绪论 近年来互联网迅速发展,但其信息量也急剧增长,已造成严重的信息超载,用户 查找、访问、维护信息的难度增加。由于网络页面的无结构性、超链接的自由无序、 网络规模的急剧膨胀以及网络内容的海量性、多样性和动态变化,人们要想从大量信 息中搜索到自己想要的信息其实是并不容易的。这种困难具体表现为:搜索引擎的智 能性不高,基本上还是采用关键字映射的办法。计算机不能理解概念,不能进行语义 关联和推理。主要原因是现在的w e b 上的信息是以自然语言、图片等方式罗列出来, 采用超文本标记语言编写,计算机只能从格式上进行处理和验证,而不能理解和处理 知识级别的信息。由此,使用户淹没于对知识的辨别、提取等繁杂的劳动中。 针对这种情况,w e b 的创始人t i mb e m e r s l e e 于1 9 9 8 年提出了语义w e b ( s e m a n t i cw e b ) 【l 】的构想,其思想就是将信息表示为计算机能够理解和处理的形式, 使得人和计算机能够更好的协同工作。简单地说,语义w e b 是一种能理解人类语言 的智能网络,它不但能够理解人类的语言,而且还可以使人与计算机之间的交流变得 像人与人之间交流一样轻松。本体层处于语义w c b 的第四层,这个层次建立了资源 的概念和概念之间的语义关系,是从文档描述到知识推理过渡的一个层次,因此它在 语义w e b 中扮演着重要的角色,是语义w e b 得以实现的关键环节。 本体是共享概念模型的形式化规范说明【2 】,主要应用目的都是为了知识共享和复 用。作为一个规约,本体需要通过某种语言来表达,而面向语义w e b 环境下的本体 一般是指使用r d f s n 或o w l 4 i 等语言开发的本体。随着语义w e b 的发展,本体的 开发及应用越来越多,并且由于本体的创建者不同,使用的建模方法不同,因而即使 对同一个领域内的问题建模,不同的领域专家开发出来的本体必然存在着差别,因此 在应用中为了更有效地使用和重用本体,以完成信息交换与集成的任务就必须找出不 同本体之间的映射关系。 本体映射是发现两个不同本体之间的语义关系,并将这种语义关系形式化表达出 来的过程,是本体调解( o n t o l o g ym e d i a t i o n ) 的一部分【5 】。本体调解的另一个方面是 第l 章绪论面向语义w e b 的多策略本体映射研究 本体合并,它合并两个或多个源本体,生成了一个新的本体,新本体会得到源本体所 有的元素,但是这种合并是在得到本体之间关联关系的基础上的,因而本体映射是本 体合并的基础,也是本体调解最重要的部分。本体映射还可以应用在a g e n t 通讯、数 据集成、语义w e b 服务等方面,是这些工作的基础,具有十分重要的意义 6 1 。 1 2 研究现状 在数据库领域,人们为了数据的集成和转换,对模式映射已经进行了许多研究。 虽然数据库的模式和本体有着很大的区别,但模式映射的方法对本体映射有着很大的 借鉴意义。目前关于本体映射和模式映射的研究已有一些工作,综述性的文献可参见 7 ,8 】。 一般的映射策略主要有基于模式的映射和基于实例的映射。前者只考虑模式信 息,而不考虑实例数据,后者则利用了这两方面的信息。目前,基于实例的映射方法 不多,典型的如g l u e 【9 】,大多数的映射算法重点考虑的都是基于模式的策略。 根据本体映射关系表示的不同,本体的映射方法一般可以分为面向相似度的映射 方法和面向逻辑关联的映射方法。面向相似度的映射一般使用【o ,l 】区间上的实数值表 示相似度。而面向逻辑关联的映射则是计算结点概念之间的语义关系,这种关系一般 使用相等、包含、相交等表示。目前大多数映射工具都是使用面向相似度的映射方法; 而面向逻辑关联的匹配方法则比较少,其中比较典型的是s - m a t c h 1 0 1 ,它把发现概念 之间语义关系的问题转化为检查两个概念逻辑表达式之间是否成立的问题,即命题满 足问题( p r o p o s i t i o n a ls a t i s f i a b i l i t y 简称s a t ) 。 当前国内外很多高校及研究机构对本体映射领域均有研究,开发了些工具。 f a l c o n 1 1 】是东南大学万维网科学研究所正在开发的一个语义w r e b 应用系统,它将提供 使用本体驱动的方法完成本体的发现( f i n d i n g ) 、串联( a l i g n i n g ) 和学习( 1 e a r n i n g ) 以及展终捕获( c a p t u r i n g ) 知识等服务。清华大学知识工程实验室将本体映射问题形 式化为风险决策问题,将最优映射的发现问题转换成风险最小化问题,基于贝叶斯决 策理论,提出风险最小化的本体自动映射模型r i m o m 1 2 l ,也得到了比较好的效果。 国外己开发出本体映射包括微软研究院开发的c u p i d 1 3 】、w a s h i n g t o n 大学的g l u e 9 、 s t a n f o r d 大学的a n c h o r - p r o m p t 1 4 3 和s i m i l i a r i t yf l o o d i n g 15 1 、意大利t r e n t o 大学的 s - m a t c h 1 0 】等,本文将在后面的章节中对他们进行详细的介绍。各种方法从不同角度 2 面向语义w e b 的多策略本体映射研究 第1 章绪论 对实体的相似度度量,但还存在以下问题: ( 1 ) 目前的本体映射方法或工具仅针对本体的某些特征进行映射,如g l u e 主 要利用本体实例进行映射,而缺少一种能够综合利用本体中各种特征元素( 包括名称、 结构、实例等) 进行映射的方法。 ( 2 ) 现有的映射方法有的利用w o r d n e t 计算本体元素名称间的相似度,但只是 考虑了词汇在w o r d n e t 中的路径长度,没有考虑词汇在w o r d n e t 中的深度,而深度 则更能反映词汇间的相似程度。 ( 3 ) 现有的映射方法使用了实例建立本体间映射关系,但是对实例较少的本体 却无能为力。另外如何将文本分类或者信息检索的方法使用到基于实例的本体映射方 法中也是值得关注的问题。 ( 4 ) 在结构层面上,现有的本体映射方法主要抽取了本体一些简单的特征( 如 概念的层次结构) ,很少利用本体的树状结构进行映射。充分利用本体的特征和本体 表达的语义进行本体的映射是一个很有意义的工作,并且它能有效地提高映射的精 度。 总之分别针对本体的元素名称、本体结构和概念实例,采用不同的方法进行本体 映射,并将各种方法纳入到同一个框架中综合使用是必要的。 1 3 论文主要研究内容 国内外研究现状表明,本体映射受到越来越多的关注。迫切需要发展一些自动或 半自动方法完成本体映射过程,达到本体间互操作和重复利用的目的。本文通过对本 体及现有本体映射方法进行研究,提出一种面向语义w e b 的多策略本体映射方法, 主要研究内容如下: ( 1 ) 研究本体及本体映射理论,对现有的本体映射方法进行探讨,给出本体元 素间相似度的形式化定义。 ( 2 ) 针对本体中元素名称,采用一种基于语言学的本体映射策略,利用编辑距 离和w o r d n e t 词典计算本体间元素相似度,并对利用w o r d n e t 计算本体元素间相似 度的方法进行改进。 ( 3 ) 针对实例较少本体,提出一种基于实例的策略,通过语义富含,增加实例, 并利用向量空间模型对本体间基于实例的相似度进行计算。 3 第1 章绪论面向语义w e b 的多策略本体映射研究 ( 4 ) 提出一种基于结构的策略,针对本体的结构特点,利用树核函数和相似度 传递模型计算本体基于结构的相似度。 ( 5 ) 对三种方法所得相似度进行合并,利用映射发现算法得到映射关系。 最后设计和实现一个多策略的本体映射原型系统,并对文中提出的算法进行实验 和分析。 1 4 论文结构 本文共分为6 章,结构如下: 第1 章介绍了本体研究的背景以及国内外研究现状,并给出了本文的研究内容 和主要贡献。 第2 章介绍了本体的定义、建模原语、描述语言等本体基本理论,分析了本体 异构问题及解决的方法,介绍了本体映射的概念、方法分类等基础,为下文本体映射 的研究提供了充分的理论基础。 第3 章介绍了本文所提出的本体映射的具体算法,给出了关于本体间相似度的 形式化定义,针对本体中元素名称、实例、结构等特征分别采用基于语言学、基于实 例、基于结构的三种映射策略计算本体元素间的相似度,通过相似度合并和映射发现 算法输出本体元素间的映射关系。 第4 章依照本文所提出的本体映射方法,实现了一个本体映射原型系统,对其 设计与实现作了详细的阐述。 第5 章利用标准测试数据集对本体映射系统进行了测试,将得到的实验数据进 行了统计分析。可以看到此方法对于绝大多数的数据组都具有良好的效果,但仍存在 着可改进之处。 第6 章对全文所开展的工作进行了总结,并指出了进一步的研究工作。 4 面向语义w e b 的多策略本体映射研究第2 章研究基础 第2 章研究基础 随着互联网的迅速发展,信息技术开始面临种种新的挑战,如知识表示、信息组 织、软件复用等。为了适应这些需求,本体作为一种能够在语义和知识层次上描述信 息系统的概念模型建模工具而被提出。另一方面,由于信息源的独立自治性,这些本 体是由不同人来构建的,很自然就会产生语义冲突问题。要达到信息共享和交流目的, 就必须在这些本体之间建立语义映射。但是由于用本体表示的信息越来越多,仅仅由 人来完成这些工作已经力不从心,因而迫切需要发展一些方法,来自动地或半自动地 完成这种映射过程,以节省大量的人力劳动。 2 1 语义w e b 2 1 1 语义w e b 体系结构 语义w e b 的目标是使得网络上的信息具有计算机可以理解的语义,满足智能软 件代理( a g e n t ) 对w e b 上异构和分布信息的有效访问和搜索。b e m e r s - l e e 为未来 的网络发展提出了基于语义的体系结构,即语义w e b 体系结构,如图2 1 所示。该 体系中从底层到高层分别为【1 6 】:u n i c o d e 、u r i 、x m l 、r d f 、o n t o l o g y 、l o g i c 、 p r o o f 和t r u s t 。 。n 1 i s t r u l e s d a c a p i - 0 0 f墅 “ se蠹f-淘desc d a t a ,0 - + l o g i c 麓:季:1 , c 2 p l 门 渭 o n t o t o g yv o c a b u a r y 与 2 p d 0 c 舅麒黢燃翮熊颜鬻灏瓣黼麟瓣 o d 一一 。一l 甩一- - - 一 一= 一= ,1 f r 强? 嗣z 自目h l “_ 戮磷酸$ 窭奄g 阂嘲麟蕊阉黼霹蕊黼渊隰霸隳穗聪 l 一一- - - 2 e ,j 巴_ ! e 一 一 腽 一i i - - 叠_ 图2 - 1 语义w e b 体系结构 ( 1 ) 第一层u n i c o d e 和u r i 该层是整个语义w e b 的基础,其中u n i c o d e 是一种字符编码标准,它支持世界 上所有的语言。独立于具体的应用平台与应用程序,不论使用什么语言每个字符都对 第2 章研究基础 面向语义w e b 的多策略本体映射研究 应于一个唯一的编码值。u r i 包含了u r l 和u r n ,能够无二义地标识w e b 上的任 意一个资源及其属性,从而使精确信息搜索成为可能。 ( 2 ) 第二层x m l + n s + x m ls c h e m a 该层是用于表示数据的内容和结构。其中n s 是n a m es p a c e 的缩写,x m ls c h e m a 是约束x m l 文档结构的语言,x m l 通过标记语言将网上信息的结构、内容与数据 的表现形式进行分离,并支持与其他基于x m l 的标准进行无缝集成。 ( 3 ) 第三层r d f 和r d fs c h e m a 该层用于描述网络上的资源及其类型,为网上资源描述提供了一种通用框架和实 现数据集成的元数据解决方案。u r i 用于标识网上的对象,r d f 和r d f s c h e m a 则可 以对u r i 表示的对象进行陈述( s t a t e m e n t ) 。 ( 4 ) 第四层o n t o l o g yv o c a b u l a r y 该层可以看作是对r d f r d fs c h e m a 层的扩展,用于描述各种资源之间的联系。 本体逐渐引起人们重视的原因在于本体明确地、形式化地描述了某一领域的共享概 念,从而将信息的结构和内容相分离,对信息作完全形式化的描述,而对同一概念的 语义共享和共同理解恰恰是构建语义w e b 的关键。 。 ( 5 ) 第五层到第七层l o g i c 、p r o o f , t r u s t l o g i c 负责提供公理和推理规则,而l o g i c 一旦建立,便可以通过逻辑推理对资 源、资源之间的关系以及推理结果进行验证,证明其有效性。通过p r o o f 交换以及数 字签名建立一定的信任关系,从而证明语义w e b 输出的可靠性以及其是否符合用户 的要求。 2 1 1 语义w e b 与本体 语义w e b 中x m l 、r d f 、o n t o l o g y 这三层主要用于表示网络信息的语义, 因此是语义w e b 实现的核心和关键所在。 x m l 作为一种资源描述语言,由于其良好的可扩展性和灵活性,适合于表示各 种信息,因而被广泛接受,已被认为是未来w e b 上数据交换的标准。x m l 不仅提供 对资源内容的表示,同时也提供资源所具有的结构信息。但是,从方便信息搜索的角 度看来,仅有x m l 是不够的。因为x m l 页面中还包含大量其他信息,如图片、音 频资源、视频资源和说明性的文字内容等,这些信息很难被智能软件代理( a g e n t ) 6 面向语义w e b 的多策略本体映射研究第2 章研究基础 处理。因此,需要提供描述x m l 资源的元数据。元数据是关于数据的数据,也就是 对所描述对象结构或内容所做的规范说明。r d f 是w 3 c 推荐的用于描述和处理元数 据的一个草案,能为网络上的应用程序之间交互提供机器能理解( 处理) 的信息。它 独立于任何语言,适用于任何领域,是处理元数据的基础。 x m l 与r d f 都能为所描述的资源提供一定的语义。例如x m l 中可以用 “ t o m ”表示t o m 是作者。 而“ 苏州大学计算机学院 这个r d f 片段描述了网页h t t p :s c s t s u d a e d u c n 的创建者是苏州大学计算机学 院。问题是x m l 中的标签( t a g s ) 集和r d f 中的属性( p r o p e r t i e s ) 集都没有任何限 制,比如上面的a u t h o r 和c r e a t o r ,完全可能用w r i t e r 来代替。另外,用x m l 和r d f 并不能解决如下问题:如果某个医院和某个大学的网页上都有 ,那么d o c t o r 代表的是医生还是博士? 因此,x m l 和r d f 在处理语义上存在两个问题:( 1 ) 同一 概念有多种词汇表示;( 2 ) 同一个词有多种含义( 概念) 。 为了处理上述两个问题,很自然地需要本体来解决。本体通过对概念的严格定义 和概念与概念之间的关系来确定概念精确含义,表示共同认可的、可共享的知识。对 于本体来说,上面例子中的a u t h o r 、c r e a t o r 和w r i t e r 是同一个概念,而d o c t o r 在大 学和医院分别表示的是两个概念。因此在语义网中,本体具有非常重要的地位,是解 决语义层次上网络信息共享和交换的基础。 2 2 本体 2 2 1 本体定义 本体( o n t o l o g y ) 是一个源于哲学的概念,原意是指关于存在及其本质和规律的 学说:“对世界上客观存在物的系统地描述,即存在论 【1 7 1 。它是对客观存在的一个 系统的解释和说明。在人工智能界,最早给出本体定义的是n e c h e s 等人,他们将本 体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成 的规定这些词汇外延的规则的定义 【1 8 】。 7 第2 章研究基础 面向语义w e b 的多策略本体映射研究 1 9 9 3 年,g r u b e r 给出了本体的一个最为流行的定义【2 】即“本体是概念模型的明 确的规范说明 。后来,b o r s t 在此基础上,给出了本体的另外一种定义【1 9 】:“本体是 共享概念模型的形式化规范说明 。这两个定义被人们广泛引用,它们都强调本体是 明确的规范的解释说明。s t u d e r 等对上述两个定义进行了深入的研究,认为本体是共 享概念模型的明确的形式化规范说明【2 0 l 。 f e n s e l 对这些定义进行分析后认为本体的概念包括四个主要方面:概念化 ( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。 ( 1 ) “概念化”指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念 而得到的模型。概念模型所表现的含义独立于具体的环境状态。 ( 2 ) “明确”指所使用的概念及使用这些概念的约束都有明确的定义。 ( 3 ) “形式化”指本体是计算机可读的( 即能被计算机处理) ,形式化程度越 高,越有助于计算机自动处理。 ( 4 ) “共享”指本体中体现的是共同认可的知识,反映的是相关领域中公认的 概念集,即本体针对的是团体而非个体的共识。 从本体的内涵上来看,不同研究者对于本体的认识是统一的,都把本体当作是领 域( 可以是特定领域的,也可以是更广的范围) 内部不同主体( 人、机器、软件系统 等) 之间进行交流( 对话、互操作、共享等) 的一种语义基础,即由本体提供一种明 确定义的语义共识。 2 2 1 本体建模元语 p e r e z 2 1 】等人认为本体可以按分类法来组织,并归纳出本体的五个基本的建模元 语( m o d e l i n gp r i m i t i v e ) 。这些元素分别为类( c l a s s e s ) 、关系( r e l a t i o n s ) 、函数 ( f u n c t i o n s ) 、公理( a x i o m s ) 和实例( i n s t a n c e s ) 。通常也把类( c l a s s e s ) 写成概念 ( c o n c e p t s ) 。下面对各部分的含义进行分析: ( 1 ) 类( c l a s s e s ) 或概念( c o n c e p t s ) 指任何事务,如工作描述、功能、行为、策略和推理过程等。从语义上讲,它表 示的是对象的集合,其定义一般采用框架结构,包括概念的名称,与其它概念之间的 关系的集合,以及用自然语言对概念的描述。每个概念可以由属性分别描述其不同方 面的特点。 面向语义w e b 的多策略本体映射研究 第2 章研究基础 ( 2 ) 关系( r e l a t i o n s ) 描述了概念与概念之间或者属性与属性之间的关系。形式上定义为1 1 维笛卡儿积 的子集:r :c l c 2 e 。如子类关系( s u b c l a s s o f ) 。在语义上关系对应于对象元 组对的集合。 ( 3 ) 函数( f u n c t i o n s ) 一类特殊的关系。在这种关系中,前n 1 个元素可以惟一决定第n 个元素。形式 化的定义如下:,:c l c 2 c o 1 一e 。例如m o t h e r - o f ( 工,y ) 表示y 是x 的母亲, 显然x 可以惟一确定他的母亲y 。 ( 4 ) 公理( a x i o m s ) 表示永真断言,是一种逻辑推理语言,如概念乙属于概念甲的范畴。 ( 5 ) 实例( i n s t a n c e s ) 代表元素。从语义上讲,实例表示的就是对象。 从语义上分析,实例表示的就是对象,而概念表示的则是对象的集合。概念的定 义一般采用框架( f r a m e ) 结构,包括概念的名称,与其它概念之间关系的集合,以及 用自然语言对该概念的描述。关系对应于对象元组的集合,基本的关系有四种: ( 1 ) p a r t o f 表达概念之间部分与整体的关系。 ( 2 ) k i n d o f 表达概念之间的继承关系,类似于面向对象中父类与子类之间的关系。例如:给 出两个概念c 和d ,如果对任意的x 属于d ,工都属于c ,记c - x l 堤c 的实例) , d = xi 提d 的实例) ,则称c 为d 的父概念,d 为c 的子概念。 ( 3 ) i n s t a n c e o f 表达概念的实例与概念之间的关系,类似于面向对象中的对象和类之间的关系。 ( 4 ) a t t r i b u t e o f 表达某个概念是另一个概念的属性。如“价格 是桌子的一个属性。 在实际的应用中,不一定要严格地按照上述五类元语来构造本体。同时概念之间 的关系也不仅限于上面列出的四种基本关系,可以根据特定领域的具体情况定义相应 的关系,以满足应用的需要。 9 第2 章研究基础 面向语义w e b 的多策略本体映射研究 2 2 2 本体描述语言 机器并不能像人类一样理解蕴含在自然语言中的语义,计算机最终把所有的信息 都当作0 、l 串进行处理。而本体的目的是使信息成为机器可理解的,因此,在计算 机领域讨论本体,首先就面临着本体究竟是如何描述的,也就是概念的形式化问题, 因此它应该满足以下要求【捌: ( 1 ) 良好定义的语法( aw e l l d e f i n e ds y t a x ) : ( 2 ) 良好定义的语义( aw e l l d e f i n e ds e m a n t i c s ) : ( 3 ) 有效的推理支持( e f f i c i e mr e a s o n i n gs u p p o r t ) : ( 4 ) 充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) ; ( 5 ) 表达的方便性( c o n v e n i e n c eo fe x p r e s s i o n ) 大量的研究工作者活跃在该领域,因此诞生了许多种本体描述语言,主要有: o n t o l i n g u a 【2 3 1 、o c m l l 2 4 1 、s h o e l 2 5 1 、x o l 2 6 1 、r d f 2 7 1 、r d f s l 3 1 、d a m l + o i l 2 s 、 o w l l 4 】等,下面本文简要的介绍几种常见的本体描述语言。 ( 1 ) r d f r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 是w 3 c 在x m l 基础上推荐的一种标准。 w 3 c 自1 9 9 9 年开始着手开发,目的是为了创建描述w e b 资源的元数据,r d f 是表 述对象及对象之间二元关系的语言规范。r d f 采用一个简单的模型来表示任意类型 的数据。这个数据类型由结点及结点之间带有标记的连接弧组成。结点用来表示w e b 上的资源,弧用来表示这些资源的属性。因此,这个数据模型可以方便地描述对象( 或 者资源) 以及它们之间的关系。r d f 的数据模型实质上是一种二元关系的表达,由 于任何复杂的关系都可以分解为多个简单的二元关系,因此r d f 的数据模型可以作 为其它任何复杂关系模型的基础模型。 ( 2 ) r d f s r d f s ( r d fs c h e m a ) 是一种用来定义r d f 模式的描述语言。r d fs c h e m a 在 r d f 基础上增加了许多语义原语,用来更进一步增加对资源语义上的描述能力,如 类、属性、类和属性之间的隶属关系等。r d f s 中最基本的建模原语是一些类的定义 以及子类关系的命题( 构成了类定义的层次) 、域和区间的命题( 限制可能的属性和类 的合并) 、以及类型命题( 声明特定类的实例的类型) 。使用这些原语,可以建立一个 l o 面向语义w e b 的多策略本体映射研究 第2 章研究基础 特定域特有的模式。 ( 3 ) d a m l + o i l 2 0 0 0 年8 月,美国d a r p a 启动了一个为期六年的计划,目的是发展一系列技术 使软件代理( a g e n t ) 能够对信息资源进行动态地确认和理解,并为a g e n t 之间提供 基于语义上的互操作能力。d a m l ( d a r p a a g e n tm a r k u pl a n g u a g e ) 是这个计划第一 阶段所创建的一种语义w e b 语言,它允许用户在其数据上标记语义信息,从而使计 算机能对所标注的信息资源进行“理解 。在这个成果基础上,d a m l7 - 作组又迅速 致力于o i l ( o n t o l o g yi n f e r e n c el a y e r ) 的研究工作,用于在d a m l 语言的框架上 实现智能化推理。2 0 0 1 年1 2 月,美国和欧洲两个组织成立联合委员会将d a m l 和 o i l 合并,命名为d a m l + o i l ,并提交给w 3 c 讨论,使其成为未来语义w e b 标准 描述语言的基础。d a m l + o i l 也是在w 3 c 早期的标准如r d f 和r d fs c h e m a 基础 上建立起来的,并且用丰富的建模原语对它们进行了扩展。 d a m l + o i l 知识基础是i m f 三元组的集合。d a m l + o i l 使用自己的词汇给r d f 三元组以具体的意思表述。d a m l + o i l 将整个世界划分为两个不相交的部分。一部 分是由属于x m ls c h e m a 数据类型( d a t a t y p e ) 的值所组成的,称作数据类型域。另 一部分则是由( 单个) 对象所组成的,这些对象应被看作是d a m l + o i l ( 或r d f ) 中所定义的类的成员,此部分称作对象域。 ( 4 ) o w l w 3 c 总结了以上几种语言的开发经验,于2 0 0 4 年2 月正式推出了o w l ( w e b o n o t o l o g yl a n g u a g e ) 。o w l 是语义w r e b 发展过程中的一个重要里程碑,它经过广泛 的谈论并得到了比较一致的认可。它意在提供一种语言,能够用于描述网络文档和应 用中类和类之间的关系。它通过定义类和类的属性来形式化一个领域,声明和定义对 象和对象的属性,以及在o w l 形式化语义允许的程度上对类( c l a s s ) 和个体 ( i n d i v i d u a l ) 进行推理。 o w l 提供了三个表达力逐渐递增子语言,以分别用于特定的实现者和用户团体。 o w ll i t e 用于提供给那些只需要一个分类层次和简单约束的用户。它支持基数 限制,但只允许基数为0 或1 。提供支持o w ll i t e 的工具应该比支持其他表达能力 更强的o w l 子语言更简单,并且从叙词表( t h e s a u r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论