




已阅读5页,还剩57页未读, 继续免费阅读
(信号与信息处理专业论文)基于相似度计算的本体映射方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 语义网作为一种能够理解人类语言的智能网络,是当前互联网技术研究的热点之 一。语义网是对当前网络的扩展,它以一种明确的、形式化的方式来表示信息资源,使 计算机和用户之间能够更好地协同工作。作为语义网中的关键技术,本体得到了越来越 广泛的研究和应用。本体是共享概念模型的明确的形式化规范说明。本体的构造一直没 有一个统一的规范和标准。由于不同的人使用不同的建模方法来创建本体,所以即使对 同一个领域内的问题建模,不同的领域专家创建的本体也会有差别。因此,本体间的异 构问题尤为突出。 为了解决本体异构问题,实现异构本体间的互操作,最有效的方法就是在本体间建 立映射关系。针对传统本体映射方法中存在的通用性不高,相似度计算方法不全面,相 似度计算量过大,映射效率较低等问题,本文提出了基于相似度计算的本体映射方法。 本文的主要研究工作如下: ( 1 ) 针对传统本体映射方法中存在的相似度计算量过大,映射效率较低的问题,提出 了对合适的本体进行分解,然后分段映射的方法。在映射过程中,选取候选映射对计算 其综合相似度。本文提出的本体映射方法减少了相似度的计算量,提高了本体映射效率。 ( 2 ) 针对传统本体映射方法中存在的通用性不高,相似度计算方法不全面的问题,通 过分析研究现有的本体映射方法,本文提出了综合的本体实体相似度计算方法。对于概 念的相似度,从定义、实例、结构三方面综合计算;对于属性相似度,从名称、定义域 和值域三方面综合计算。 ( 3 ) 另外,本文对本体映射的其他环节也进行了研究。通过对本体进行预处理,使相 似度计算结果更加准确;通过采用一些映射发现策略,使映射结果更加准确,以得到更 好的映射效果。 在本文的最后,通过两个实验对本文提出的本体映射算法进行了验证。实验结果表 明,该算法可以比较准确地得到实体之间的映射关系,具有较高的查准率和查全率,能 够较好地完成本体映射任务。 关键词:本体;本体映射;相似度;d i s s 映射 a b s t r a c t a sa ni n t e l l i g e n tn e t w o r k ,t h es e m a n t i cw e bw h i c hc a nu n d e r s t a n dt h eh u m a nl a n g u a g e i so n eo fr e s e a r c hh o t s p o t si nt h ec u r r e n ti n t e r n e tt e c h n o l o g i e s t h es e m a n t i cw e bi sa n e x t e n s i o no ft h ec u r r e n tn e t w o r k i tc a ne x p r e s st h ei n f o r m a t i o nr e s o u r c e sb yac l e a ra n d f o r m a lw a y , a n de n a b l ec o m p u t e r sa n du s e r st ow o r ki nc o o p e r a t i o n a sak e yt e c h n o l o g yi n t h es e m a n t i cw e b ,o n t o l o g yh a sg o tm o r ea n dm o r ee x t e n s i v er e s e a r c ha n da p p l i c a t i o n s o n t o l o g yi sa ne x p l i c i ta n df o r m a ls p e c i f i c a t i o no ft h es h a r e dc o n c e p t u a lm o d e l t h e r ea r en o t u n i f o r mn o r m sa n ds t a n d a r d si no n t o l o g yc o n s t r u c t i o n d i f f e r e n tc r e a t o r su s ed i f f e r e n t m o d e l i n gm e t h o d st oc o n s t r u c to n t o l o g y e v e nm o d e l i n gt h et h i n g si nt h es a m ef i e l d ,t h e r ea r e d i f f e r e n c e sb e t w e e n o n t o l o g i e s w h i c hd i f f e r e n t e x p e r t sc o n s t r u c t t h e r e f o r e ,t h e h e t e r o g e n e o u sp r o b l e ma m o n go n t o l o g i e si sp a r t i c u l a r l yp r o m i n e n t i no r d e rt os o l v et h eh e t e r o g e n e o u sp r o b l e mb e t w e e n o n t o l o g i e s , a n da c h i e v e i n t e r o p e r a b i l i t yb e t w e e nh e t e r o g e n e o u so n t o l o g i e s ,t h em o s te f f e c t i v ew a yi st oe s t a b l i s h m a p p i n gr e l a t i o n sb e t w e e no n t o l o g i e s a i m i n gt ot h ep r o b l e m sw h i c he x i s ti nt h et r a d i t i o n a l m e t h o d so fo n t o l o g ym a p p i n g ,s u c ha sc o m m o n a l i t yi sn o th i g h ,s i m i l a r i t yc a l c u l a t i o nm e t h o d i sn o tc o m p r e h e n s i v e ,s i m i l a r i t yc o m p u t a t i o ni se x c e s s i v e ,m a p p i n ge f f i c i e n c yi sl o w , e t c ,t h i s p a p e rp r e s e n t s a l lo n t o l o g ym a p p i n gm e t h o db a s e do nc a l c u l a t i n gs i m i l a r i t y t h em a i n r e s e a r c hw o r k sa r ea sf o l l o w s : ( 1 ) a i m i n gt ot h ep r o b l e m sw h i c he x i s ti nt h et r a d i t i o n a lm e t h o d so fo n t o l o g ym a p p i n g , s u c ha ss i m i l a r i t yc o m p u t a t i o ni se x c e s s i v ea n dm a p p i n ge f f i c i e n c yi sl o w , t h i sp a p e rp r e s e n t s a na p p r o a c ht od e c o m p o s i ta p p r o p r i a t eo n t o l o g i e s ,t h e nm a p p i n gb e t w e e nf r a g m e n t s i nt h e p r o c e s so fm a p p i n g ,w es e l e c tc a n d i d a t e sa n dc o m p u t et h e i ri n t e g r a t e ds i m i l a r i t i e s t h u s , o n t o l o g ym a p p i n gm e t h o dp r o p o s e di nt h i sp a p e rr e d u c e st h ec a l c u l a t i o no fs i m i l a r i t y , a n d i m p r o v e st h ee f f i c i e n c yo fo n t o l o g ym a p p i n g ( 2 ) a i m i n gt ot h ep r o b l e m sw h i c he x i s ti nt h et r a d i t i o n a lm e t h o d so fo n t o l o g ym a p p i n g , s u c h 嬲c o m m o n a l i t yi s n o th i g ha n ds i m i l a r i t yc a l c u l a t i o nm e t h o di sn o tc o m p r e h e n s i v e , t h r o u g ha n a l y s i s i n ge x i s t i n gs i m i l a r i t y c a l c u l a t i o n m e t h o d ,t h i sp a p e rp r e s e n t s a c o m p r e h e n s i v em e t h o do fc a l c u l a t i n ge n t i t i e ss i m i l a r i t i e sb e t w e e no n t o l o g i e s w ec o m p u t e t h ei n t e g r a t e dc o n c e p ts i m i l a r i t yb yt h r e ea s p e c t s :d e f i n i t i o n ,i n s t a n c e sa n ds t r u c t u r e ;w e 1 1 1 c o m p u t ei n t e g r a t e dp r o p e r t ys i m i l a r i t yb y t h r e ea s p e c t s :n a m e ,d o m a i na n dr a n g e ( 3 ) h aa d d i t i o n ,t h i sp a p e rh a v es t u d i e do t h e rl i n k si no n t o l o g ym a p p i n g b yp r e t r e a t i n g o n t o l o g i e s ,t h es i m i l a r i t yr e s u l t sh a v eb e e nm o r ea c c u r a t e ;b yu s i n gs o m ed i s c o v e r ys t r a t e g i e s o f m a p p i n g ,w eh a v eg o tm o r e a c c u r a t em a p p i n gr e s u l t sa n db e t t e rm a p p i n ge f f e c t s f i n a l l yi nt h i sp a p e r , o n t o l o g ym a p p i n ga l g o r i t h mp r e s e n t e di nt h i sp a p e rh a s b e e n v e r i f i e db yt w oe x p e r i m e n t s e x p e r i m e n tr e s u l t ss h o wt h a tt h ea l g o r i t h mc a ng e tm a p p i n g r e l a t i o n sb e t w e e ne n t i t i e sm o r ea c c u r a t e l y , a n di th a sah i g l lp r e c i s i o nr a t ea n d r e c a l lr a t e ,a n d i ta l s oc a nc o m p l e t et h et a s ko fo n t o l o g ym a p p i n gb e t t e r k e yw o r d s :o n t o l o g y ;o n t o l o g ym a p p i n g ;s i m i l a r i t y ;d i s s _ m a p 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许 论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论 文收录到中国学位论文全文数据库或其它相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名:猃堑指导教师签川剿 y 厶一, u 口,口年,月7 日2 口加年多月7 日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经发表或撰写过的 研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我一同 工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:缛钐 of o 年舌只7b 西北大学硕士学位论文 第一章绪论 近年来,互联网技术得到飞速发展,人们可以通过网络搜索到几乎各个方面的信息。 互联网在给人们提供便利的同时,极大地促进了社会的发展。互联网已经遍及人们生活 的方方面面,随着用户的不断增多,互联网上的信息量急剧增长,己造成严重的信息超 载。由于网络页面超链接的无结构性和自由无序,网络规模的急剧膨胀以及网络内容的 海量性、多样性和动态变化性,用户在如此大量的信息中查找、访问其所需信息的难度 不断增加。对于计算机来说,互连网上的信息只是通过超链接简单关联起来的海量的字 符串,它只能把这些信息显示给用户,而不能从信息中发现任何的语义关联。随着互联 网的发展,信息的快速、准确的检索成为了亟待解决的问题。 因此,如何使用户从知识的辨别和提取等繁重的工作中解脱出来,成为了一个新的 研究热点。针对这种情况,互联网的创始人t i mb e r n e r s l e e 于1 9 9 8 年提出了语义网 ( s e m a n t i c w e b ) 的构想。在语义网中,信息被表示为计算机能够理解和处理的形式,从 而使用户和计算机之间能够更好地协同工作。 1 1 课题研究背景 1 1 1 语义网 随着互联网的发展,为了使其可以满足日益发展的社会需求,语义网成为一个新的 研究热点。语义网是一种能够理解人类语言的智能网络,通过它可以使用户和计算机之 间的交流变得更加顺畅,接近人与人之间的交流。语义网的概念一经提出,便激起了各 国的专家学者的极大的研究热情,目前已经取得了很多研究成果。 为了有效地进行信息处理,语义网具有一套体系结构。b e m e r s l e e 提出的语义网体 系结构有七层,从低层到高层依次为:u n i c o d e 和u r i ,x m l ,r d f , o n t o l o g y , l o g i c , p r o o f 及t r u s t 。语义网的体系结构如图1 所示: 图1 语义网的体系结构 第一章绪论 ( 1 ) 第一层( u n i c o d e 和u r i ) :本层是语义网的基础。在该层中,u n i c o d e 是处理资 源的编码。u r i 负责标识资源,它能够准确地标识网络上的资源及其属性,因此可以精 确地实现信息检索。u r i 的优点是无需拷贝资源,也无需对资源进行集中的管理,通过 对资源进行引用来实现具体的应用。 ( 2 ) 第二层( x m l + n s + x m ls c h e m a ) :本层用来表示数据的结构及内容,可以表达语 义,是语义网的主要特征。其中,x m l 层通过x m l 允许嵌套和带属性的格式来标记数 据;n s 是n a m es p a c e 的缩写。x m l 的n a m es p a c e 是名字的一个集合,用来避免自定 义的相同的标签名引起的冲突,由u r i 引用来标识。x m ls c h e m a 语言用于约束x m l 的文档结构。 ( 3 ) 第三层( r d f 和r d fs c h e m a ) :本层提供一种通用的框架来描述资源,可以用于 数据集成的研究,并且提供了实现数据集成的元数据解决方案。r d f 和r d fs c h e m a 可 以对u r i 表示的对象进行陈述。r d f 是w 3 c 推荐的用于描述和处理元数据的一个方案, 它能为网络上的应用程序之间的交互提供机器能理解或处理的信息。r d fs c h e m a 是一 个用于描述r d f 资源的属性和类的词汇表的描述语言,它扩充了r d f 的语义表示能力, 提供了描述某个特定领域的语义的能力。r d fs c h e m a 可以说是一种初级的本体语言, 但它的描述能力和推理能力还不能完全达到本体的要求。 ( 4 ) 第四层( o n t o l o g yv o c a b u l a r y ) :该层用于描述各种资源之间的联系。本体能够对 信息作完全的、形式化的描述,它明确地、形式化地描述了领域中的共享概念,由此得 到了越来越多的关注。本体的基本构造单元是概念,通过将概念的层次关系组织起来得 到概念集。概念具有属性,通过属性名将概念关联起来。由于构建语义网的关键是实现 概念的语义共享,因此本体在语义网中得到了广泛的研究和应用。 ( 5 ) 第五层到第七层( l o g i c ,p r o o f , t r u s t ) :l o g i c 层提供了公理和推理规则。当l o g i c 建立起来的时候,就可以采用逻辑推理来验证资源、资源之间的关系和推理结果,从而 验证它们的有效性。可以利用p r o o f 交换和数字签名来建立一定的信任关系,进而验证 语义网输出的可靠性以及验证其是否能够达到用户的需求。目前,对于p r o o f 和t r u s t 层,还没有可靠的论证,还有待进一步研究。 近年来,有关语义网的体系结构的研究中,对于语义网最下面三层的研究己经比较 成熟,研究成果相对较多,并且推出了一系列的标准。本体层和逻辑层,作为语义网从 语法处理向语义处理的转折,正在引起更多的关注,将成为相关领域的研究热点,相关 研究成果的数量正在迅速增长。顶部的两层p r o o f 和t r u s t 还没有可靠的论证,因此还 2 西北大学硕十学位论文 只是基于逻辑系统的一个构想。 在语义网中,x m l ,r d f ,o n t o l o g y 这三层主要用于表示网络中信息的语义, 因此它们是实现语义网的核心和关键。x m l 与r d f 都能为网络中的资源提供一定的语 义,但是,它们在处理资源的语义时有两个问题不能解决:第一个问题是同一个词可能 有多种含义或概念,第二个问题是可以由多种词汇来表示同一个概念,这两个问题影响 到在网络中进行语义的有效处理,x m l 与r d f 在解决这两个问题上存在不足,要解决 这两个问题,必须使用本体。本体所表示的知识是共同认可的、可共享的,它通过对概 念进行严格定义,并利用概念间的关系来确定概念的精确含义,在处理语义的问题上, 本体有自己独特的优势。本体层处于语义网的第四层,位于从文档描述到知识推理过渡 的层次,它建立了资源的概念之间的语义关系。在语义网中,本体具有非常重要的地位, 是解决语义层次上网络信息共享和交换的基础。因此,本体的构建是语义网得以实现的 关键环节,也正因为如此,有关本体的研究成为了科研工作者的研究热点,因此本体的 研究具有重要的理论及现实意义。 1 1 2 本体 本体( o n t o l o g y ) 一词来源于哲学领域,主要研究客观世界的本质。后来本体用于人 工智能领域,作用是实现数据的共享和重用。本体是一个演变的概念,为了顺应时代发 展的需求,本体的定义也在不断丰富和发展。使用最广泛的本体的定义是由g r u b e rt r 提出的:“本体是概念化的明确的规范说明川2 1 。尽管专家对于本体有不同的定义,但是 术语“本体 大多分成两种意思协1 :第一,本体是表示性词汇,经常指定到某些领域或 主题;第二,本体指使用表示性词汇来描述某些领域的知识体,特别是用来描述领域的 共识知识。 目前,随着网络等相关技术的飞速发展,尤其是随着w e b 服务资源共享的需求日 益增长,本体作为一种共享知识模型得到了迅速发展,本体对于信息发展的重要性也是 日益凸显。本体在语义网、信息集成、多a g e n t 系统和知识管理等领域中被认为是重要 的理论基础。本体提供了一种明确的形式化的领域知识描述手段,另外,本体还可以对 隐含的知识进行推理,因此本体的研究对于信息技术的发展具有重要的推进作用。 在现实世界中,由于人的思想和价值观的不同,因此不同的人关于世界的认识可能 是不同的,而本体是人们关于世界的个人视角的体现,因此人们对于本体可能存在理解 上的分歧。由于网络的不断发展,网络中信息量的不断增多,其中可以获取的本体数量 3 第一章绪论 不断增多。由于不同的人使用不同的建模方法来创建本体,所以即使对同一个领域内的 问题建模,不同的领域专家创建的本体也会有差别,因此本体的异构问题就显现出来了。 这种本体异构性将导致对本体理解的冲突。在比较小的领域内或同一内部环境中i 可以 使用统一的全局本体而不会出现这种冲突。但在广域网络环境下,这种全局本体是不存 在的,并且构建这种全局本体是非常困难的。广域网络环境中的各个节点只维护本地信 息资源的局部领域视图,并通过网络中节点之间的相互操作来发现、理解和使用领域内 分布、异构以及不断变化的信息资源。因此,面对越来越严重的本体异构问题,如何解 决信息资源的互操作成为了一个比较棘手的问题。为了解决本体异构的问题,专家学者 一直在寻求解决的办法,并取得了一定的进展。 为了解决本体间所存在的异构问题,实现异构本体之间的互操作,通过对现有的科 研成果分析来看,通常可以采用以下三种方法h 1 :( 1 ) 在异构本体间建立包含关系,使目 标本体包含源本体;( 2 ) 对异构本体进行合并,最终牛成一个完整的公共本体;( 3 ) 在异 构本体间建立映射关系。以上就是解决本体间异构问题的主要解决方法,每种方法都有 自己的特点,以上三种方法相比较来说,第一个方法的缺点是只能复用源本体的信息, 但不能修改源本体的信息;第二个方法操作的难度比较大,通常不易实现;第三个方法 难度适中,效果较好,所以本体映射是目前解决本体间异构问题的主要方法,因此专家 学者在解决本体异构问题时,在本体映射方法上投入了较多的精力。 本体映射的作用是发现两个不同本体之间的语义关系,从而解决不同本体间的知识 共享和重用问题。随着语义网的不断发展进步,本体的数量在不断增加,急需一些方法 和工具来完成本体映射工作,目前的本体映射方法的研究还不成熟,因此研究一种可以 高效准确地构建本体映射的映射方法成为了一个新的研究热点。 1 2 本体映射的研究现状 1 2 1 本体映射方法 目前在对于本体异构问题的研究中,本体映射是解决本体间异构问题的主要方法, 因此本体映射在该领域中得到了人们越来越广泛的研究,并取得了许多成果。目前,各 国的专家学者已经提出了很多的本体映射方法,依据不同的规则,可以把本体映射的方 法进行不同的分类喳1 。例如,由本体的定义模型出发,根据本体映射所参考的本体信息 的不同,从语法、定义、实例以及结构等不同角度进行映射,可以将本体映射分为不同 的方法。如果根据映射使用的技术进行分类,本体映射方法又可分为基于规则的方法、 4 西北大学硕士学位论文 机器学习的方法和统计学的方法。在实际的应用中,本体映射所采用的方法通常融合了 多种参考对象和多种技术,往往是一个综合的方法。各种不同的本体映射方法的分类及 每种分类方法的详细说明如下所示: ( 1 ) 根据本体定义模型分类 基于语法的方法 基于语法的方法,是指在不考虑概念的语义,只考虑概念的语法特征的情况下,计 算概念相似度的本体映射方法。典型的方法是比较概念名称的编辑距离( e d i td i s t a n c e ) 方 法。编辑距离方法由l e v e n s h t e i n 于1 9 6 6 年提出,又被称为l e v e n s h t e i nd i s t a n c e 方法。 编辑距离方法的关键环节是计算出由一个字符串转换成另一个字符串所需的最少编辑 操作次数,以它作为计算概念相似度的依据。编辑距离方法在比较字符串时,包括字符 的插入、删除、替换及相邻字符的调换。通过使用编辑距离方法来比较两个概念名称的 字符串,从而得到概念名称的相似度。有许多文献都采用了编辑距离方法来计算相似度, 其中d i o g e n e 的本体映射方法1 是比较典型的方法。 基于概念定义的方法 基于概念定义的方法,指进行本体映射时,重点参考概念的名称、关系、约束等进 行相似度计算。典型的方法是r o d r i g u e zm a 等人提出的利用概念定义计算概念间相似 度的方法口1 。在该方法中,r o d r i g u e zm a 等人将本体中的概念看作由三个不同的集合组 成,其中包括概念的名称集、特征集以及语义关系集。这三个集合对概念的不同方面分 别进行了描述,都从一定程度上体现了概念的特征。对于不同本体中的概念,从概念的 名称集、特征集以及语义关系集分别进行相似度计算,从而计算出s i m n ,s i m f ,s i m ,三 个相似度值。之后将这三个相似度值采用加权平均的方法进行综合,从而得到两个概念 的定义相似度,最终可以得出两个概念之间的映射关系。 基于概念实例的方法 基于概念实例的方法,指进行本体映射时,通过计算概念的实例相似度来得到概念 间的映射关系。华盛顿大学的d o a na 等人提出的g l u e 系统阳3 是利用该方法的典型系 统。g l u e 系统使用机器学习方法对概念的实例进行分类,得到属于不同概念的实例集, 之后利用实例在概念中出现的联合分布概率来计算概念之间的相似度,并且利用启发式 规则和领域约束来得到概念间的映射关系。 基于概念结构的方法 基于概念结构的方法,指进行本体映射时,利用概念的层次结构来进行相似度计算。 5 第一章绪论 概念的层次结构包括父节点、兄弟节点、子节点等节点关系以及语义邻居关系等。在不 同概念间存在多种语义关系,最普遍的语义关系是h y p o n y m y ( 上位关系i s a ) 及 m e r o n y m y ( 部分与整体的关系p a r t w h o l e ) 。我们可以用语义邻居来表示语义关系。语义 邻居是指设定一个语义半径r ,以某一概念为中心向四周辐射所得到的概念集。因为概 念的层次结构中蕴含着丰富的语义关系,因此在许多的本体映射方法中都利用了概念的 结构来计算概念相似度,如文献【9 就采用了基于概念结构的方法来计算相似度。 ( 2 ) 根据映射使用的技术分类 基于规则的方法 基于规则的方法,指使用启发式规则n 伽来进行本体映射,现有的可以用于本体映射 的启发式规则比较多,例如“如果两个概念的父概念相同,那么这两个概念是相似的 就是一条启发式规则。实际上,本体映射中使用的启发式规则是根据概念的定义信息和 结构信息总结出来,然后由领域专家人工定义的。 机器学习的方法 机器学习的方法,指采用机器学习技术来进行本体映射。机器学习方法在人工智能 等许多领域得到了广泛的研究,可以用于知识获取以及改进系统的性能等方面。使用该 方法的典型的例子是g l u e 系统1 。g l u e 系统采用机器学习的方法对概念的实例进行 分类,用分类后得到的实例集来计算实例的分布概率。在g l u e 系统中,采用多策略的 机器学习方法,使用了名称学习器和内容学习器两个基学习器。g l u e 系统将名称学习 器和内容学习器的计算结果按照一定的权重组合起来得到元学习器。其中,名称学习器 对于从根节点概念名称到实例所属的当前概念名称连接而成的名称字符串进行预测;内 容学习器利用朴素贝叶斯学习分类器来预测实例的文本中的词频。 统计学的方法 统计学的方法,指采用统计学中的方法来进行本体映射。统计学的方法是概率论中 的常用方法,是一种使用很广泛的数学方法。使用该方法的一个典型的例子是g l u e 系 统阳1 。在g l u e 系统中,使用了统计学的方法来计算实例的联合分布概率。 一般情况下,每一种本体映射方法都有自己应用的局限性,在解决多种复杂的现实 问题时往往不能兼顾。为了提高本体映射的准确率,实际应用过程中,通常本体映射采 用的不是单一的方法,而是之前提到的多种方法和多种技术的结合。 6 两北大学硕七学位论文 1 2 2 国内外本体映射研究成果 通过对目前的研究成果相比较来看,国外在本体映射的研究方面更加成熟一些。国 外许多著名的大学和实验室都对本体映射的的研究取得了一定的进展,一些具体的映射 系统和实现方法已经被开发出来。目前已经提出的本体映射方法有r o d r i g u e zm a 等提 出的基于概念定义的方法订1 ,华盛顿大学的g l u e 哺1 系统的基于概念实例的方法,卡尔 斯鲁厄大学的k a o n 工程中的本体映射框架m a f r a u ,u d r e ao 等提出的基于逻辑推 理的方法n 羽,e u z 6 n a tj 等提出的o l a 系统n3 l ,z h a o y i 等提出的w r o m 方法n 钔等等。 国内对于本体映射的研究起步稍晚,目前尚处于起步阶段,然而在科研工作者的积 极努力下,已有一些大学和研究机构取得了一定的研究成果。典型的有东南大学研究开 发的一个语义网应用系统f a l c o n n6 1 ,该系统通过使用本体驱动的方法来完成本体的发 现、串联、学习和最终捕获知识等服务,这对于国内本体映射的研究来说是一个不小的 进步。另外,清华大学计算机科学与技术系知识工程组提出了一种最小风险本体映射模 型r i m o m n 引,该模型基于贝叶斯决策理论,将本体映射问题形式化地表示为风险决策 问题,并且将最优映射发现问题转换为风险最小化问题。虽然国内对于本体映射的研究 起步稍晚,但是理论和实际应用都在不断完善。 我们将在后面的章节中详细介绍一些典型的本体映射方法与系统。 1 3 现阶段本体映射方法的局限性 现有的本体映射方法和系统从不同的角度对实体的相似度进行度量,如基于名称、 基于实例、基于结构等,各种理论方法都在不断完善,但是还存在以下一些问题: ( 1 ) 通用性不高 现有的映射方法大都对特定领域的本体的映射效果较好。这些方法的通用性不高, 即缺乏一种通用的本体映射机制,面对庞大的信息系统中复杂的问题,现有映射方法的 通用性不高。 ( 2 ) 相似度计算方法不够全面 现有的许多相似度计算方法只考虑了本体的部分信息,从整体信息而言,算法具有 片面性,要求本体必须满足相应的条件才能达到理想的映射效果,具体的算法还不成熟, 没有综合考虑本体的各个方面的信息,计算方法比较片面。 ( 3 ) 相似度计算量过大,映射效率较低 7 第一章绪论 当前的相似度计算方法中,计算两个本体o 和o ,中的实体的相似度时,两个本体 中的每一对实体都被考虑在内,因此相似度计算量非常大,本体映射效率较低。所以, 我们应该对进行相似度计算的实体对的数量加以限制,以减少计算的时间复杂度和空间 复杂度。 ( 4 ) 自动化程度不高 现有的大多数本体映射方法是半自动的方法。在对映射对进行相似度计算后,为了 使映射结果更加准确,大多数情况下还需要用户或者领域专家手工决定选用哪个结果。 在信息飞速发展的今天,人们更多地要求信息的自动化处理,因此提高本体映射方法的 自动化程度是其未来发展的趋势。 在科研工作者的共同努力下,有关本体映射方法的研究已经取得了很大的进展,但 现阶段的本体映射方法具有很大的局限性,还不够完善,因此还需要不断地努力完善。 1 4 本文主要研究内容 本文通过对现有本体映射方法进行研究,针对现有本体映射方法中存在的问题,提 出一种基于相似度计算的本体映射方法。本文主要研究内容如下: ( 1 ) 为了提高本体实体相似度计算的全面性和准确性,本文对本体映射中概念相似度 的计算方法进行研究,设计出一种综合的本体概念相似度计算方法,从定义、实例、结 构三个方面计算相似度;另外,对于属性相似度的计算,采用基于名称、定义域和值域 来综合度量。 ( 2 ) 为了在保证映射准确率的同时,减少相似度的计算量,本文对本体映射过程进行 了一定的改进,采用基于片段的本体映射方法,选取候选映射对进行综合相似度的计算, 从而提高了本体映射的效率。 最后,通过两个实验对本文提出的本体映射方法进行验证,通过分析得出实验结论。 1 5 论文的组织结构 本文的章节组织如下: 第一章:绪论。介绍了本体映射的研究背景和研究现状,以及本文主要的研究内容 和论文的组织结构。 第二章:本体及本体映射概述。首先介绍了本体的相关知识,包括本体的定义、分 类、构成、描述语言及本体的功能和应用。然后介绍了本体映射的相关知识,包括本体 8 西北大学硕士学位论文 映射的研究背景、本体映射的相关概念、本体映射的体系框架、本体映射的过程以及现 有的典型的本体映射方法及原型系统。 第三章:本体映射中的相似度计算。介绍了本文提出的本体映射中的概念及属性相 似度的计算方法。对于概念相似度,采用基于定义、实例和结构三个方面综合计算:对 于属性相似度,采用名称、定义域和值域的相似度综合度量。 第四章:基于相似度计算的本体映射方法。本章提出了基于相似度计算的本体映射 方法。对于适合分段的本体,以片段为单位、基于综合的相似度计算方法进行本体映射。 本章详细说明了本文提出的基于相似度计算的本体映射方法的具体过程。 第五章:实验及结果分析。本章进行了两个实验,实验一验证说明了本文提出的分 段本体映射方法;实验二验证了本文提出的基于相似度计算的本体映射算法的效果,用 查准率和查全率来体现,并对实验结果进行了分析。 第六章:总结与展望。总结全文,并指出进一步的研究方向。 9 西北大学硕士学位论文 第二章本体及本体映射概述 随着本体在人工智能、信息检索等领域的广泛应用,本体映射成为了个新的研究 热点。本体映射是实现异构本体间互操作的有效方法。在本章中,主要介绍本体和本体 映射的相关知识,本章的知识是后面章节的理论基础。 2 1 本体概述 2 1 1 本体的定义 本体的概念最初起源于哲学领域,最早可以追溯到公元前古希腊哲学家亚里士多德 尝试对世界上的事物进行分类。本体在哲学中的定义是“本体是对世界上客观存在物的 系统的描述,即存在论”,它是对客观存在的一个系统的说明或解释,是对客观事实的 抽象本质的概括,因此,本体的研究有一个哲学领域的基础,随着科学的进步,本体的 概念在慢慢演化。 近十多年来,本体论的相关研究日益成熟,研究的范围已远远超过了哲学领域的范 畴,并和信息技术、知识工程和人工智能都有着密切的关系,有关本体的研究得到了人 们极大的关注。在人工智能领域,本体论得到了较早的研究,n e c h e sr 等人最早给出本 体的定义,即“提供基本术语及关系来构成相关领域的词汇,并利用这些术语及关系构 成的规定这些词汇外延的规则的定义州1 7 1 。随着本体论在人工智能领域的研究不断深入, 随后有关本体论的研究领域不断得到扩展,本体论在知识系统、信息系统等领域也得到 了广泛的研究,同时出现了很多关于本体的定义,通过不断的深入研究,本体的定义也 在不断地丰富和完善。在这些本体定义中,最著名、被引用得最为广泛的本体定义是1 9 9 3 年由g r u b e r t r 提出的“本体是概念化的明确的规范说明乜1 。在1 9 9 7 年,b o r s t w n 进一步丰富了这一定义,提出“本体是共享概念模型的形式化规范说明州埔1 。后来,s t u d e r r 等人更深入地研究了本体的定义,提出“本体是共享概念模型的明确的形式化规范说 明 n 9 1 。其中包含四层含义:共享、形式化、明确和概念模型。其中,“共享”是指本 体反映了相关领域中公认的概念集,体现了领域中共同认可的知识,也就是说,本体是 对团体而非个体的共识;“形式化是指本体应该是机器可读的;“明确 指要清晰地定 义所有概念的类型以及概念之间的关系约束;“概念模型”指的是对现实世界中一些事 物进行抽象得到的模型,所建立的模型确定了该事物的一些相关的概念。 虽然各国的专家学者对于本体有很多不同的定义,但从实质上来看,不同专家学者 第二章本体及本体映射概述 对于本体有着统一的认识:本体的目标是获取相关领域中的知识,规定该领域内共同认 可的词汇,并提供对领域知识的共同理解,以及从不同层次的形式化模式上提供该领域 内共同认可的词汇( 术语) 和词汇之间相互关系的明确定义啪1 。由此可以看出,本体通过 对概念、术语及其相互关系进行规范化描述,构建了某一领域的基本知识体系。 2 1 2 本体的分类 本体的概念范畴比较广,因此本体的分类就需要考虑不同的因素进行不同的分类。 可以根据本体的描述对象、形式化程度、领域信赖程度晗门等不同方面的属性,对本体进 行不同的分类。下面介绍几种本体分类方法: ( 1 ) 根据本体的描述对象的不同,可以将本体分为四种类型:一般世界知识本体; 特殊领域本体( 如地理、生物等) ;知识表示语言本体;问题求解本体。 ( 2 ) 根据本体的形式化程度的不同,可以将本体分为四种类型:高度非形式化本体; 结构非形式化本体;半形式化本体;严格形式化本体。 ( 3 ) 根据本体的领域信赖程度的不同,可以将本体分为四种类型:项级本体;领 域本体;任务本体;应用本体。 ( 4 ) 通过对现有的本体分类方法进行分析研究之后,p & e za g 和b e n j a m i n sv r 将现 有的本体分为十种类型心射,分别为:普通本体;元( 核心) 本体;项级本体;语 言本体;知识表示本体;方法本体;领域本体;任务本体;领域一任务本体; 应用本体。p & e za g 和b e n j a m i n sv r 提出的分类方法是对本体分类方法( 3 ) 的扩充和 细化。该分类方法比较全面地概括了各类本体,然而这十种本体之间有重叠的部分,界 限不分明。 随着本体在各个领域的研究和应用不断深入,本体数量的不断增多,本体分类方法 也越来越多。对本体进行分类可以帮助研究者更好地认识和研究本体,使本体的研究更 加明确化。 2 1 3 本体建模原语及目前广泛使用的本体 本体:根据s t u d e r r 等人提出的定义,本体是共享概念模型的明确的形式化规范说 明n9 1 。它有五个基本的建模原语,这五个建模原语又称为本体的五个基本元素晗1 。本体 的五个基本的建模原语如下所示: ( 1 ) 类或概念:本体中的概念类似于面向对象程序设计中的类。概念指对事物进行抽 象得到的名称,在语义上表示对象的集合。 1 2 两北大学硕士学位论文 ( 2 ) 实例:是指元素,例如张三是学生概念的一个实例,实例从语义上讲就是对象。 ( 3 ) 关系:指概念间的相互作用,它的数学定义为:r :c 。c :x c 。,即n 维 笛卡儿积的子集。 ( 4 ) 函数:指的是一类特殊的关系。函数的数学定义为:f :c 。c :c n - l c 。 其中,函数的前n 1 个元素可以唯一地决定第n 个元素。 ( 5 ) 公理:是指永真断言,例如概念a 属于概念b 的范围。 本体实体间有四种基本关系,如表1 所示: 表1 本体关系名及其描述表 关系名称关系描述 a t t r i b u t e o f 表示概念的属性和概念之间的关系。例如职称是教师的一个属性。 p a r t - o f 表示概念之间的部分与整体的关系。例如大学生是学生的一部分。 k i n d - o f 表示概念间存在的继承关系。例如动物( 父概念) 和猫( 子概念) 之间存在的继 承关系。 i n s t a n c e - o f 表示概念的实例与概念之间的关系。例如张三( 实例) 和学生( 概念) 之间的关 系。 在对本体进行实际建模时,本体实体之间的关系不局限于表l 中所列出的四种基本 关系,研究者可根据领域的具体情况来定义相应的关系。 现阶段常用的本体有:w o r d n e t ,f r a m e n e t ,m i k r o k m o s ,s e n s u s ,g u m 等啪1 。 w o r d n e t 是一个在线字典参考系统,它以同义词集合( s y n s e t s ) 为单位来组织信息。 s y n s e t s 是指在特定的上下文环境中可互换的同义词的集合。w o r d n e t 是一种基于心理语 言规则的英文词典。 f r a m e n e t 采用以f r a m es e m a n t i c s 命名的描
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 静脉采血操作课件
- 河道砂石分离方案范本
- 桥梁墩柱修复施工方案
- 电焊专项安全培训
- 廊坊燕京职业技术学院《数字技术综合应用》2023-2024学年第一学期期末试卷
- 重庆幼儿师范高等专科学校《现代食品营养与安全自科类》2023-2024学年第一学期期末试卷
- 西藏大学《课件设计含几何画板》2023-2024学年第二学期期末试卷
- 医院收费监管方案范本
- 长春职业技术学院《油藏工程》2023-2024学年第二学期期末试卷
- 牡丹江医学院《计算机组成原理与系统结构》2023-2024学年第二学期期末试卷
- 考古调查勘探辅助工程方案投标文件(技术方案)
- 2025年法学本科毕业论文评审标准分析
- 电位滴定法课件
- 历年计算机二级MS-Office考试真题题库大全-下(500题)
- 2025年中国防爆型插入式超声波流量计市场调查研究报告
- 污水处理厂运营委托合同
- 鹦鹉可行性研究报告
- 泌尿外科护理新进展
- 环卫保洁服务应急预案
- 2025年广东佛山市高三一模高考政治试卷试题(含答案详解)
- 2024年中国藏语系高级佛学院招聘考试真题
评论
0/150
提交评论