(计算机应用技术专业论文)owl+dl本体中概念相似度算法研究.pdf_第1页
(计算机应用技术专业论文)owl+dl本体中概念相似度算法研究.pdf_第2页
(计算机应用技术专业论文)owl+dl本体中概念相似度算法研究.pdf_第3页
(计算机应用技术专业论文)owl+dl本体中概念相似度算法研究.pdf_第4页
(计算机应用技术专业论文)owl+dl本体中概念相似度算法研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)owl+dl本体中概念相似度算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 本体作为描述语义w e b 信息的一种模型,通过良好的概念层次结构、类、 描述构造子、概念之间的属性关系和对逻辑推理的支持等来表达信息的语义。 由于本体提供带有语义信息的一种表达形式,故语义w e b 世界中对信息的处 理都是以对本体的操作为基础的,而对不同本体的操作又都是以本体的相似 度和本体的部分相似度为基础,所以研究本体概念相似度对语义w e b 发展有 重要意义。 通过对当前本体相似度计算研究成果的分析与总结发现,虽然t - h b a c h 算法利用o w ld l 本体表达概念语义信息的构造子进行相似度计算得 到令人满意的计算结果,但是t - hb a c h 算法在计算相似度过程中尚不完善, 如构造子语义相关性权值的调整策略需要改变;忽略概念层次关系对相似度 影响导致相似度计算语义丢失。针对这些问题,本文提出s o c m a t c h 本体 概念相似度计算方法。该方法在借鉴t - hb a c h 算法中构造子的描述逻辑表 达能力作为概念相似度计算因素的基础上,改进了t - hb a c h 算法对构造子 权重的调整策略,并综合考虑层次结构对概念相似度影响,从概念的语义距 离、语义重合度和子孙层次这三方面考虑结构相似度计算。通过差别分辨度 评价指标比较s o c m a t c h 算法与t - hb a c h 算法,发现s o c m a t c h 算 法保留了t - hb a c h 算法特性,并提高了本体概念相似度计算精度,具有更 强的区分同层次概念相似能力且差别分辨度更优;同时能够快速准确地计算 出表达相同语义信息的同名概念相似度,并能更准确全面体现本体的语义信 息,具有丰富的概念相似性表现力,且结果符合人的心理感受。 依据s o c m a t c h 算法,本文设计实现一个综合的本体概念相似度计算 原型系统,提供概念的语言相似度、结构相似度、改进t - hb a c h 相似度以 及s o c m a t c h 相似度的计算功能,为描述构造子相似度算法后续研究提供 辅助作用,为本体映射、本体集成、语义检索等研究领域提供支持。 关键词:o w l d l 本体;概念;相似度 西南交通大学硕士研究生学位论文第1 i 页 a b s t r a c t a sam o d e ld e s c r i b i n gi n f o r m a t i o no fs e m a n t i cw e b ,o n t o l o g yr e p r e s e n t s i n f o r m a t i o ns e m a n t i cb yt h ep e r f e c tl a y e r e ds t r u c t u r eo fc o n c e p ta n dc l a s s ,a n d t h ea t t r i b u t e dr e l a t i o n s h i p sb e t w e e np r i m i t i v e sa n dc o n c e p t s ,a n ds u p p o r tt ol o g i c r e a s o n i n g s i n c eo n t o l o g yp r o v i d e sa ne x p r e s s i v ef o r mw i t hs e m a n t i ci n f o r m a t i o n , t h ei n f o r m a t i o np r o c e s s i n gi nt h ew o r l do fw e bi sb a s e do no p e r a t i o no f o n t o l o g y o p e r a t i o n st od i f f e r e n to n t o l o g i e sa r eb a s e do nt h eo n t o l o g ys i m i l a r i t ya n dp a r t i a l s i m i l a r i t y , s oi ti si m p o r t a n tt or e s e a r c ho nc o n c e p ts i m i l a r i t yi no n t o l o g i e s t h r o u g ha n a l y s i s a n ds u m m a r yo ft h ec u r r e n tc a l c u l a t i o no fc o n c e p t s i m i l a r i t yi no n t o l o g i e s ,i ti sf o u n dt h a tt - hb a c ha l g o r i t h mg e t ss a t i s f a c t o r y c a l c u l a t i o nr e s u l t so fs i m i l a r i t yb yu s i n gt h ep r i m i t i v e sr e p r e s e n t i n gs e m a n t i c i n f o r m a t i o no fc o n c e p t si no w ld lo n t o l o g y b u tt - hb a c ha l g o r i t h mi sn o t p e r f e c tw h i l ec a l c u l a t i n gs i m i l a r i t y , w h i c h l i e si nt h e f o l l o w i n ga s p e c t s ,f o r e x a m p l e ,i tn e e d st ob ec h a n g e do ft h ea d j u s t i n gs t r a t e g yo ft h ew e i g h ti nt h e s e m a n t i cr e l a t i v i t yo ft h ep r i m i t i v e t h ec a l c u l a t i n gs e m a n t i co fs i m i l a r i t yi sl o s t b e c a u s eo fi g n o r a n c eo fi n f l u e n c eo ns i m i l a r i t yf r o mh i e r a r c h i c a lr e l a t i o n s h i pa n d s oo n a i m i n ga tt h ea b o v ep r o b l e m s ,t h i st h e s i sp r o p o s e st h es o c m a t c h a l g o r i t h m ,w h i c hi sa l s o am e t h o dc a l c u l a t i n g c o n c e p ti no n t o l o g ys i m i l a r i t y b a s i n go nt h et - hb a c ha l g o r i t h mt h a tp r i m i t i v eo fe x p r e s s i o nd e s c r i b i n gl o g i c i st a k e na st h ee l e m e n to fc a l c u l a t i o no fc o n c e p ts i m i l a r i t y ;t h es o c m a t c h a l g o r i t h mi m p r o v e s t h e w e i g ha d j u s t i n gs t r a t e g y o f p r i m i t i v e , a n d c o m p r e h e n s i v e l yc o n s i d e r i n gt h ei n f l u e n c eo fl a y e r e ds t r u c t u r et oc o n c e p ti n o n t o l o g i e s ,c a l c u l a t e st h es i m i l a r i t yw i t hr e g a r dt os e m a n t i cd i s t a n c e ,c o n t a c t r a t i o no fc o n c e p ta n do f f s p r i n gh i e r a r c h y c o m p a r i n gs o c m a t c hw i t ht - h b a c ha l g o r i t h ma te v a l u a t i n gi n d i c a t o ro fd i s c r e p a n c yd e f i n i t i o n ,i ti sf o u n dt h a t s o c m a t c ha l g o r i t h mr e t a i n st h ea l g o r i t h mc h a r a c t e ro ft - hb a c ha l g o r i t h m a n di nt h em e a n w h i l e ,s o c m a t c ha l g o r i t h mi n c r e a s e sc a l c u l a t i n gp r e c i s i o no f c o n c e p ts i m i l a r i t yi no n t o l o g y , h a v i n gs t r o n g e ra b i l i t yd i f f e r e n t i a t i n gc o n c e p t s i m i l a r i t yi nt h es a m el e v e la n di t sp r e c i s i o no fd i s c r e p a n c yd e f i n i t i o ni sb e t t e r t h a nt - hb a c ha l g o r i t h m s o c m a t c ha l g o r i t h mi sa b l et oc a l c u l a t ec o n c e p t s i m i l a r i t yi no n t o l o g i e sc o n v e y i n gt h es a m es e m a n t i ci n f o r m a t i o nq u i c k l ya n d a c c u r a t e l yw h e nc a l c u l a t i n gc o n c e p ts i m i l a r i t yi no n t o l o g i e s ,r e f l e c t i n gs e m a n t i c 西南交通大学硕士研究生学位论文第1 i i 页 i n f o r m a t i o nm o r ec o r r e c ta n dc o m p r e h e n s i v e ,h a v i n gp l e n t i f u l e x p r e s s i o nf o r c o n c e p ts i m i l a r i t ya n dt h er e s u l ts a t i s f i e sp e o p l e ss e n s a t i o n a c c o r d i n gt os o c - m a t c ha l g o r i t h m ,ac o m p r e h e n s i v ec a l c u l a t i n gm o d e l f o r c o n c e p ts i m i l a r i t y i n o n t o l o g i e s i s d e s i g n e d a n dr e a l i z e d ,p r o v i d i n g c a l c u l a t i n gf u n c t i o n ss u c ha ss e m a n t i cs i m i l a r i t y , s t r u c t u r a ls i m i l a r i t yo fc o n c e p t , t - hb a c hs i m i l a r i t ya n ds o c m a t c hs i m i l a r i t y , i to f f e r st h ec o m p u t e ra i dt o r e s e a r c ho nc o n c e p ts i m i l a r i t yi no n t o l o g i e s ,a n dp r o v i d e ss u p p o r tf o rr e s e a r c h a r e a ss u c ha so n t o l o g ym a p p i n g ,o n t o l o g yi n t e g r a t i o na n ds e m a n t i cs e a r c h e sa n d s o ( 1 n k e yw o r d s :o w l d l o n t o l o g y ;c o n c e p t ;s i m i l a r i t y 西南交通大学学位论文创新性声明 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所 得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。 本学位论文的主要创新点如下: 1 针对t - hb a c h 相似度算法对模型计算结果进行分析,总结其优点与不 足,改进t - hb a c h 算法对构造子的权重调整策略。 2 分析描述语言与层次结构对概念相似度算法的影响,提出相应的语言描 述相似度算法与结构描述相似度算法,利用算法计算模型中概念相似度计算, 分别将得到结果与t - hb a c h 算法计算结果进行对比分析,根据分析结果,提 出相似度计算方法一s o c m a t c h 。 硝龟彳 西南交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国 家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交 通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1 保密口,在年解密后适用本授权书; 2 不保密匦使用本授权书。 ( 请在以上方框内打“4 ) 学位论文作者签名:寸龟承 日期:川6 f 指导老师签名:吕缸致 日期:加7 ,6 西南交通大学硕士研究生学位论文第1 页 1 1 研究背景及意义 第l 章绪论 近些年来,计算机应用需求不断增强,计算机科学与技术的发展日新月 异。然而在这种快速发展的同时也面临着种种困难。主要困难包括:知识的 表示、信息的组织、软件的复用等。特别是由于因特网的快速发展,面对信 息海洋,如何组织、管理和维护海量信息并为用户提供有效服务也成为一项 重要而迫切的研究课题。 为适应这些要求,本体作为一种能在语义和知识层次上描述信息的模型, 自被提出以来就引起国外众多科研人员的关注,并在计算机的许多领域得到 广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和w e b 上异构 信息的处理、语义w e b 等。最初本体是哲学理论的术语,关于存在及其本质 规律的学说,是表示对象及其相互关系的理论。在信息科学中常用于指层次 化的数据结构,其中包含对象及其关系,以及相关领域的规则。在人工智能 领域被用于知识管理、自然语言处理、电子商务、教育及语义w e b 等领域。 语义w e b 本体技术的研究已经基本成熟】,现己开发了通用的基于x m l 语法的w e b 本体描述语言,如d a m l + o i l 、o w l 等,但随着研究的深入, 构建越来越多的本体,严重影响知识共享与重用。在语义w e b 领域中为达到 知识共享与重用的目的,不同本体之间的交互成为语义w e b 的首要任务。目 前对不同本体的操作又都是以本体的相似度和本体的部分相似度为基础,虽 然本体相似度计算方法研究也取得一些成果,然而这些方法还很难令人满意。 通过对当前本体概念相似度算法研究发现,当前本体相似度计算存在的一些 主要问题就是计算方法不完善,相似度计算语义丢失,相似度计算过于片面 等问题。针对当前计算本体概念相似度中存在的问题,如何充分挖掘利用本 体语义信息,解决本体概念相似度计算语义丢失,以及从多角度计算本体概 念相似度的研究能够为本体映射、本体集成、语义检索提供重要的技术支持。 同时,对语义w e b 技术的研究和发展也具有重要意义。 西南交通大学硕士研究生学位论文第2 页 1 2 国内外现状 1 2 1 本体研究现状 本体这个术语来自于哲学,根据韦氏词典的解释,本体是形而上学的一 个分支。本体的定义有很多种,1 9 9 3 年,g r u b e r t 2 1 给出了本体的一个最为流 行的定义,即本体是概念模型的明确的规范说明。b o r s t t 3 】在此基础上,给出 本体的另外一种定义:本体是共享概念模型的形式化规范说明。德国卡尔斯 鲁厄大学的s t u d e r 等学者对上述两个定义进行深入研究,提出目前已被广泛 接受的本体定义:本体是共享概念模型的明确的形式化规范说明 4 】。且认为 有四大特征吲: 1 概念模型( c o n c e p t u a l i z a t i o n ) :指通过抽象客观世界中一些现象的相 关概念而得到的模型,其表示的含义独立于具体的环境状态; 2 明确( e x p l i c i t ) :指所使用的概念及使用这些概念的约束都有明确的 定义; 3 形式化( f o r m a l ) :指本体是计算机可读的; 4 共享( s h a r e ) :指本体中体现的是共同认可的知识,反映的是相关领 域中公认的概念集,它所针对的是团体而不是个体。 一、国外研究现状 目前,对本体进行研究的较为权威的机构主要有三个,w 3 c ,k s l 币e i a i f b 。万维网联是一个关于信息、商业、通讯和共识的论坛,于2 0 0 1 年开始 致力于本体的研究,成立了w e b o n t o l o g y i 作组。其本体研究立足于本体在 语义网中的应用,是推出x m l 、r d f 和o w l 等标准规范的权威机构。w 3 c 有着基础扎实、开发人员实力雄厚,研究起点高等特点。 美国斯坦福大学的知识系统实验室( k s l ,k n o w l e d g es y s t e m sl a b o r a t o r y ) 在本体建模工具领域和本体应用层面的研究方面均代表了知识工程领域的领 先水平,早已在a i 和知识工程领域享有盛名。其本体研究立足于a i 领域,注 重与d a r p a 和a i f b 等机构的交流合作,技术支持层面推动了本体相关技术 产品的开发和应用。 应用情报学和规范描述方面研究所( a i f b ,i n s t i t u t eo f a p p l i e di n f o r m a t i c s a n df o r m a ld e s c r i p t i o nm e t h o d s ) 对本体的研究多以知识管理为目的,对基础 理论( o n t o l o g yl e a r n i n g ) 幂l l 本体的数学表达进行了深层次的研究【6 1 。a i f b 研究 所目前从事的研究重点是构建基于本体的知识门户和语义门户 7 - g 西南交通大学硕士研究生学位论文第3 页 二、国内的研究现状 国内对本体论的研究己有若十年,主要有信息检索 9 1 、产品信息建模、 虚拟企业建模 1 a - i ”、常识知识m ,库等方面。如中国科学院计算技术研究所大规 模知识系统的研究1 1 7 - t 钔、中国科学院数学研究所常识知识库的研搿t 虮、浙江大 学人工智能研究所基于本体论的产品信息集成研究等】。常识知识库研究的 主要内容之一是研究常识知识本体论及其与人的智能的关系,提出a g e n t 和 本体是常识库的两大支柱的观点。其主要目的是建立一个大规模的常识知识 库,并利用这个常识知识库来解决一些实际的问题。此项研究的主要特点是: 自提出本体的描述应该分为静态本体和动态本体两个部分,通过静态本体和 动态本体区分领域问题的相对稳定和变化的层次的复杂关系。认为本体库不 仅仅是一个概念的简单分类,而是一个交错纵横,层层嵌套的本体网络。 1 2 2 概念相似度研究现状 概念相似度计算的基础理论主要来自于离散数学中图和树的匹配技术 2 h 、数据库中的模式类似处理技术 2 2 1 和一阶谓词逻辑1 2 3 呻类似的处理技术、 以及数据结构中字符串匹配技术等。 一、基于语言描述相似度计算方法 基于概念语法的方法,是指在概念相似度计算时没有考虑概念语义信息 的相似度计算方法,常用的有文献 2 4 - 2 5 1 中计算概念名的编辑距离 2 6 1 ( e d i t d i s t a n c e ) 法和文献【2 7 3 0 】中的词汇义原法。 编辑距离用来比较两个概念名称相似度的,编辑距离是两个字符串通过 插入、删除、改写字符等编辑操作而变为相同字符串所需要的最小操作数。 编辑距离越大字符串相似度越小,编辑距离越小,字符串的相似度越大。 词汇义原法将概念的名称按照w o r d n e t 中的规则分解成义原对的组合, 通过义原对在结构中的语义距离、层次关系和共同祖先等作为度量相似度的 因素,采用“整体相似度等于部分相似度加权平均 的做法。首先将一个整 体分解成部分,再将两个整体的各个部分进行组合配对,通过计算每个组合 对的相似度的加权平均值得到整体的相似度。通过对概念的语义表达式反复 使用这一方法,可以将两个语义表达式的整体相似度分解成一些义原对相似 度的组合。 基于概念语法相似度计算现有方法使用构词法相似性来寻找概念间的相 似度,主要反映两个概念在语言学上的相近程度。这种方法只考虑概念名称 西南交通大学硕士研究生学位论文第4 页 的语法、语义信息,而不考虑概念在本体模型中所赋予的语义信息。当在本 体中赋予相同语义信息的概念具有不同的语言形式时,该方法将无法正确度 量相似性。 二、基于概念实例相似度计算现有方法 基于概念实例的方法是指在进行本体映射时利用概念的实例作为计算概 念间相似度的依据。现在用的基本上都是华盛顿大学的g l u e 系统中采用的 相似度计算方法。华盛顿大学的a n h a id o a n 等提出一种在语义w e b 环境下进 行本体映射的方法。g l u e 系统使用联合概率分布为基础计算相似性,当两 个概念具有相同的实例时,这两个概念可能是相似的。因此,可以基于实例 维来计算概念的相似度。为此需要知道概念实例的联合分布。假如有任何两 个概念e l $ 1 e 2 的联合概率分布,由该分布就可以得到:p ( m ,e 2 ) ,p ( m ,e 2 ) , p ( 石,g :) 等概率。然后,使用j a c c a r d s 相似度来进行计算,计算公式表示如 下: j a c c 口厂d s i 聊( e b e 2 ) : 旦! 兰! :垒2 一 ( 1 一1 ) p ( e l ,e2 ) + p ( e l ,e 2 ) + p ( e l ,e 2 ) p ( e 。,p :) :型! 竺:2 型! 竺兰:! ( 1 - 2 ) 一e2:竺!竺i=!竺!竺i=!(1-3)p(m, e 2 ) 2 丽玩f 丽声 p ( - 石l , e 2 ,= 等赫舞孚 m 4 , 其中:u t ,u z 表示概念e 1 和e 2 对应的实例集合,n ( u o ,n ( u 2 ) 表示 概念e 1 齐f j e 2 对应实例个数,骈1 跎表示集合u l 中是e l $ 口e 2 概念实例的集合, 骈k 以和1 以分别表示集合u 和u :中是e 1 概念实例而不是e 2 概念实例的集 合,研1 跎和听1 以分别表示集合u t 和u z 中是e 2 概念实例而不是e l 概念实例的 集合。 基于概念实例相似度计算现有方法只利用本体中概念的实例数据,因而 要求本体中概念必须对应实例,且当实例数据较多时更为有效。其依赖足够 多的实例作机器学习的训练集,且训练集中的实例不是任意的,必须具有代 西南交通大学硕士研究生学位论文第5 页 表性,否则会导致训练得出的实例分类规则不正确,影响概念间联合分布的 概率的计算,进而影响相似度计算,最终呈现给用户错误的映射关系。 三、基于结构的现有计算方法 基于结构的方法,是指在计算相似度时参考概念问的图结构,如结点关 系( 父结点、子结点、孙子结点) 、语义邻居关系等。由于结点层次关系中蕴 涵大量的潜在语义信息,在很多概念相似度计算方法中都利用了这一点,目 前在这方面也有一些研究成果。文献 3 1 禾1 j 用概念之间的距离计算概念的初始 相似度,在此基础上通过比较概念的关系相似度,计算概念通过非上下位关 系体现出的相似度。文献 3 2 - 3 3 结合语言和结构方面的模式匹配技术,输入的 模式首先表示为一个图,然后自项向下和自底向上相结合进行遍历该图,在 计算本体概念结构相似性时,c u p i d 算法更多地依赖叶子匹配。文献【s 4 】首先基 于o i m ( 开放信息模型) 说明转换为有向图,然后使用固定点计算来决定图中 的对应结点。算法原理是两个结点的相似性必须依赖于与之相邻的其他结点 的相似度。先基于实例的语言名称计算结点初始相似值,再根据以前相邻结 点的相似度再重复计算得到新的相似值,直到相似度变化不超过某一阈值。 基于结构的概念相似度计算方法主要是根据概念在本体中的层次结构关 系来计算相似度的。在计算过程中,不仅仅要考察单独的一对概念之间的关 系,还要考虑它们与整体的关系。这种计算方法注重形式,忽略概念的语义 特征,片面地强调一种形式( 结构) 上的相似性,计算的概念相似度有一定的 局限性。 四、基于概念描述构造子的方法 描述逻辑是基于对象的知识表示,它继承一阶谓词逻辑的主要思想,是 一阶谓词逻辑的一个可判定子集。它与一阶谓词逻辑不同的是,它摒弃一阶 谓词逻辑过于复杂的语法规则,这种复杂性直接导致其推理结果的不可判定 性,相对来说,描述逻辑系统能提供可判定的推理服务。除知识表示外,描 述逻辑还用在其它许多领域。描述逻辑的重要特征是很强的表达能力和可判 定性,即它能保证推理算法总能停止,并返回正确的结果。 文献 3 5 开始以o w l 描述语言作为概念相似度计算的理论基础进行相似 度研究。文献 3 6 1 中t hb a c h 相似度计算方法以本体概念的r d f = 元组表示 形式为出发点,以r d f = 元中谓词描述为根基,分别计算描述构造子相似度 和r d f 三元组图结构相似度。最后加权构造子相似度与r d f = 元组图结构相 似度得到t hb a c h 算法相似度。 西南交通大学硕士研究生学位论文第6 页 基于描述构造子的方法在表达能力上充分挖掘本体概念语义信息,但是 忽略概念名称描述以及概念的层次结构关系对概念语义的影响,势必会造成 计算出的本体概念相似度结果不够精确。 五、当前相似度算法归纳总结 根据上文对现有四类本体概念相似度计算方法分析可知从描述构造子的 角度来计算概念相似度的t - hb a c h 算法,专注于构建概念相似度算法,能 够提取出隐含在概念描述中的语义信息,注重构造子的潜在语义,充分利用 语言的描述能力计算本体之间的概念相似度,对目前本体之间概念相似度的 研究工作具有相当重要的意义。但方法忽略概念的层次结构关系对概念语义 的影响以及构造子权重采用平均调整策,势必会造成该算法计算出的本体概 念相似度结果不够精确,为保证本体概念映射过程中本体概念语义不丢失, 充分挖掘概念的潜在语义信息,计算出更合理的本体概念相似度值,本文提 出从综合考虑概念结构和描述构造子的s o c m a t c h 算法,对本体概念相似 度研究有着重要的意义。 1 3 研究内容 本文研究对象是本体概念相似度算法,研究重点是分析当前o w ld l 本 体相似度计算方法t - hb a c h ,总结其优点和不足,分析验证本体语言描述 及层次结构对概念相似度影响,并改进t - hb a c h 算法构造子权值调整策略, 提出结构描述相似度与改进的t - hb a c h 算法相结合的本体相似度计算方法 s o c m a t c h ,设计算法原型系统,并实现系统计算功能。 本文主要完成以下内容: 1 借鉴国内外现有本体重构经验与本体构建规则,完成对t - hb a t c h 算法中使用的动物本体模型的重构。 2 对现有的本体之间概念相似度计算法t - hb a c h 算法进行着重分析, 然后将该方法应用在重构动物本体模型对概念进行相似度计算,总结其优点 与不足。 3 针对当前本体概念相似度计算方法t - hb a c h 的不足,改进t - h b a c h 算法在计算中动态调整构造子权值策略,分析语言描述和层次结构对 概念相似度的影响,给出概念语言描述相似度算法和结构描述相似度算法, 对算法进行比较分析,根据分析结果提出综合结构描述相似度和改进t - h b a c h 算法的本体相似度计算方法s o c m a t c h 。 西南交通大学硕士研究生学位论文第7 页 4 基于a s p n e t 设计s o c m a t c h 算法原型系统,并实现系统的计算 功能。 1 4 文章组织结构 本文在查阅大量相似度文献与论文的基础上,通过对当前本体概念相似 度技术分析和研究,提出s o c m a t c h 本体概念相似度计算方法。论文着重 介绍t - hb a c h 算法,语言描述相似度算法,结构描述相似度算法,及 s o c m a t c h 算法在动物本体模型上的分析与比较,原型系统的设计与实现。 第一章为绪论,阐述论文的研究背景和意义,总结本体与相似度的研究 现状,并对本论文所研究内容进行介绍。 第二章为模型重构,首先介绍建模的准备工作如分析模型类别、模型结 构、模型组成、构建方法与语言选取,然后根据本体构建规则和七步法建立 动物本体模型。 第三章为t - hb a c h 相似度算法分析,首先介绍相似度的基本概念、性 质、验证指标和对t o hb a c h 相似度算法研究,然后将该方法应用在动物本 体模型进行相似度计算,针对t - hb a c h 相似度算法对模型计算结果进行分 析,总结其优点与不足。 第四章为s o c m a t c h 本体概念相似度算法确立,本章首先分析语言描 述和层次结构对概念相似度的影响基础上,给出一种专注字符串含义的相似 度计算方法及专注概念结构的相似度计算方法,并且对t - hb a c h 算法在计 算过程中使用的权值调整策略进行改进,通过对模型计算分析这些方法的优 点与不足,最后根据分析结果加权结构描述相似度与改进的t o hb a c h 算法 得到s o c m a t c h 相似度算法。 第五章为s o c m a t c h 算法原型系统设计与计算功能实现,文章首先介 绍系统结构和开发环境,阐述算法实现的关键技术及实现流程,设计算法原 型系统并实现系统计算功能。 第六章为总结与展望,总结本文主要工作与研究成果,并提出以后研究 工作的展望与设想。 西南交通大学硕士研究生学位论文第8 页 第2 章模型重构 本文研究o w ld l 本体概念间相似度计算方法,拟使用t - hb a c h 算法 中的动物本体模型作为研究案例,但该模型中层次关系比较简单,不满足本 文一些方法研究,故需要重新建构t - hb a c h 算法中使用的动物本体模型。 2 1 建模准备 2 1 1 模型类别分析 根据应用领域不同,对本体研究的侧重点也有所不同,目前普遍有四种 本体分类法1 3 7 :涉及特定学科领域的本体,被称为领域本体,涉及具有普遍 意义的客观世界常识的本体,被称为上层本体。涉及问题求解的本体,被称 为应用本体,涉及知识表示语言的本体,被称为表示本体。 1 表示本体是指在一个特定的知识表示体系中,用来获取对知识进行形 式化表达的本体。 2 上层本体划分存在于客观世界的概念的不同种类。具有普遍意义的观 念在这类本体中得到了表示,这些观念不依赖于特定的问题或学科领域。 3 领域本体是中被表示的知识是针对特定学科领域的。 4 应用本体描述既依赖某特定领域又依赖于某项课题的知识。 由于本文动物本体模型在构建过程中需要定义类、函数、实例等用来表 示动物世界中某一分支的通用常识概念,所以本文构建的动物本体模型应该 隶属于上层本体范畴。 2 1 2 模型结构分析 模型作为动物世界中知识表示的一种方式,存在三种可表示本体的体系 结构【5 2 哏p 单本体结构,多本体结构和混合结构,用图表示三种体系结构如下: 图2 1 单本体结构图2 2 多本体结构 西南交通大学硕士研究生学位论文第9 页 图2 - 3 混合本体结构 5 2 1 模型构建目的是表示动物世界常识知识,所有该领域内的数据模式定义 都需要引用此本体中的术语,因而不同模型中术语在语义上是一致的,其语 义的逻辑推理也需要限定在所定义的模型中,所以本文构建的模型应该是属 于单本体结构,而不是由不同组织独立开发本体,通过映射语义对应的一对 或一组术语的多本体结构或混合本体结构。 2 1 3 模型组成分析 本文按分类法来组织动物本体,本体由五个基本建模元语组成,分别为: 类( c l a s s e s ) 、关系( r e l a t i o n s ) 、函数( f u n c t i o n s ) 、公理( a x i o m s ) 平l j 实例( i n s t a n c e s ) , 其中: 1 类或概念:从语义上讲,它表示对象集合,其定义一般采用框架结 构,包括概念名称,与其它概念之间的关系集合,以及用自然语言对概念 的描述。 2 关系:本体中概念之间交互作用,形式上定义为n 维笛卡儿积的子 集:r :c 1 x c 2 x c 竹,从语义上讲,基本关系一共有四种: 1 ) p a r t o f :表达概念之间部分与整体关系。 2 )k i n d o f :表达概念之间继承关系,类似于面向对象中父类与子类 之间的关系。 3 )i n s t a n c e o f :表达概念实例与概念之间的关系,类似于面向对象 中对象和类之间关系。 4 )a t t r i b u t e o f :表达某个概念是另一个概念的属性。如“s h i r t s i z e ”是 人的一个属性。 3 函数:一类特殊关系。关系的前n 1 个元素可以唯一决定第n 个元 素。形式化定义为f :c l x c 2 x c n 1 一c n ,例如:m o t h e r - o f 就是一个函数, m o t h e r - o f ( x ,y ) 表示y 是x 的母亲。 西南交通大学硕士研究生学位论文第1 0 页 4 公理( a x i o m s ) :代表永真断言,例如:概念f a t h e r 属于概念m a n 的范围。 5 实例( i n s t a n c e s ) :代表元素,从语义上讲实例就是对象。 2 1 4 模型构建方法分析 本体的构建方法目前有t o v e 法【3 8 】、骨架法 3 9 1 、七步法【4 0 】等,其中七步 法是较为完备的方法,为许多机构采用,因此,本文利用斯坦福大学开发的 本体建模工具,采用七步法构建动物本体模型,七步法的流程见下图: 图2 4 七步法流程 2 1 5 模型表示语言选取分析 本文模型描述动物领域某一分支的常识概念,以及这些概念之间的关系, 目前已经研发出有很多种不同的本体描述语言,它们各有千秋。本文中本体 模型使用斯坦福大学开发的本体构建软件工具p r o t 9 6 构建,所以需要选择与 p r o t 9 6 i 具相配套的w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 目前的最新标准 o w l 4 l j 本体描述语言。w 3 c 的设计人员针对各类特征的需求制定三种相应 的0 w l 子语言,即o w ll i t e 、0 w ld l 和0 w lf u l l 。 1 子语言o w ll i t e :用于提供给那些只需要一个分类层次和简单的属 性约束的用户。o w ll i t e 是表达能力最弱的子语言。它是o w ld l 的一个 子集,但是通过降低o w ld l 中的公理约束,保证迅速高效的推理。 2 子语言o w ld l :支持那些需要在推理系统上进行最大程度表达的 用户,这里的推理系统能够保证计算完全性即所有的结论都能够保证被计算 出来和可决定即所有的计算都在有限的时间内完成。o w ld l 包括o w l 语 言的所有语言成分,但使用时必须符合一定的约束,受到一定的限制( 如一个 类可以是多个类的子类时,但它不能同时是另外个类的实例) ,能够提供描 述逻辑的推理功能。 3 子语言o w lf u l l :o w lf u l l 包含o w l 的全部语言成分并取消o w l d l 中的限制,它将r d f s 扩展为一个完备的本体语言,支持那些不需要可 计算性保证但需要最强表达能力和完全自由的r d f s 用户。 西南交通大学硕士研究生学位论文第l l 页 模型设计和语言选择要考虑实际情况,如推理复杂度要求,执行效率要 求,表达能力要求等。动物本体模型描述的是大量常识知识和少量规则,要 求描述语言有较强的表达能力和简单的推理功能。由于o w ll i t e 表达能较 弱,o w lf u l l 目前不支持推理功能,所以本文模型构建选择重在描述能力, 推理能力比较弱的o w ld l 本体描述语言,下文用图表示o w ld l 语言的 构造成分: i 隹。,u 兰1 i i i i i 1 - i l l , 毫 叫胀:鼬i p b l functionalproperrdfsd o m a i n a l l d i f f e r e n ti n v e r s e f u n c t i o n a l p r o p e r t y i:l lr d f s :r a n 口e k 眺a 广头信息: 广属性类型虢 掀翻: lf =a l l v a u e s f r o m f - - o n l - _ s o m e v a l u e s f r o m 基数酿镧: ip ,幻,垤懵 f 厂砌蝴一t i b e w i t h b a c l o v a r 脚c o r n p al e w i t h 娄贼 lj,薹柑矗 叫m 赧嘲啦( o f l )l 咖o ,n p a 黼嘞 兮触r s e c t ;o 耐 _ i 疗c o m 甜0 把肪 , 匠豁:厣m a x c a 淼r d i n a i t yu :耐 i ,胁胁撕 l c o m p l e m e n t o f l c a r d i n a l i t y 广值信息: ) 嗲h a s v a l u e 图2 - 6o w ld l 附加语言构造成分 2 2 模型构建 2 2 1 模型构造遵守规则 对同一领域,同一事物,不同入往往会建立不同的本体。由于本体应该 是规范化的描述,因此遵循统一的构造准则是必要的。目前最为常用的是 西南交通大学硕士研究生学位论文第1 2 页 g r u b e r 【4 :1 提出的指导本体构造的5 个准则: 1 清晰( c l a r i t y ) :本体必须有效的说明所定义术语的意思。定义应该是 客观的,与背景独立的。当定义可以用逻辑公理表达时,它应该是形式化的。 定义应该尽可能的完整。所有定义应该用自然语言加以说明。 2 一致( c o h e r e n c e ) :本体应该是一致的,也就是说,它应该支持与其定 义相一致的推理。它所定义的公理以及用自然语言进行说明的文档都应该具 有一致性。 3 可扩展性( e x t e n d i b i l i t y ) :本体应该为可预料到的任务提供概念基础。 它应该可以支持在已有的概念基础上定义新的术语,以满足特殊需求,而无 须修改已有的概念定义。 4 编码偏好程度最d x ( m i n i m a le n c o d i n gb i a s ) :概念的描述不应该依赖于 某一种特殊符号层的表示方法。因为实际系统可能采用不同的知识表示方法。 5 。本体约定最t j x ( m i n i m a lo n t o l o g i c a lc o m m i t m e n t ) :本体约定应该最小, 只要能够满足特定的知识共享需求即可。这可以通过定义约束最弱的公理以 及只定义通讯所需的词汇来保证。 2 2 2 模型构造步骤 本文利用斯坦福大学开发的本体编辑工具p r o t 6 9 6 构造动物本体模型,利 用2 1 4 介绍的七步法开发本体,根据七步法流程,本文模型按照下面步骤 构建: 1 依据t - hb a c h 算法中给出动物本体模型的知识框架作为本体重构 的指导; 2 根据知识框架的范围,从动物百科全书以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论