(计算机科学与技术专业论文)语义web服务中的领域本体半自动构建研究.pdf_第1页
(计算机科学与技术专业论文)语义web服务中的领域本体半自动构建研究.pdf_第2页
(计算机科学与技术专业论文)语义web服务中的领域本体半自动构建研究.pdf_第3页
(计算机科学与技术专业论文)语义web服务中的领域本体半自动构建研究.pdf_第4页
(计算机科学与技术专业论文)语义web服务中的领域本体半自动构建研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机科学与技术专业论文)语义web服务中的领域本体半自动构建研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 目前,实现语义w 曲服务的主要方法是使用本体描述w e bs e r v i c e ,然后通过这 些带有语义信息的描述使服务的发现、组合和调用能够自动完成。但是,现有的 本体构建过程存在复杂、过分依赖专家、构建速度慢、术语表达不精确等问题。 自动或半自动的构建本体,减少对专家的依赖性,加快本体构建速度,作为解决 上述问题的有效途径,对其的研究显得日益重要。 本文对现有的领域本体构建方法进行深入研究之后,提出了以领域主题词表 为基础构建初始本体,重用网络上和本体库中已有的本体对初始本体进行完善的 领域本体半自动构建框架。首先对本体构建和主题词表的相关知识进行了深入研 究,制定了主题词表向本体转化的规则,采用o w l 语言描述本体的方法,成功地 将主题词表转化生成初始本体。在对初始本体完善时,针对初始本体的特点,对 已有的语义相似度计算方法进行修改,设计出一种适合初始本体的综合语义相似 度计算公式,该公式可以更全面、准确的计算概念间的语义相似度。同时,制定 了相应的添加数据规则、流程和算法,提高了本体构建过程的自动化程度。最后, 本文设计并实现了一个领域本体半自动构建原型系统,该系统实现了语义w 曲服务 中领域本体的半自动构建,解决了本体构建过程过分依赖专家、构建速度慢和术 语不精确等问题。实验结果表明本文所提出的框架和算法是可行和有效的。 本文的研究成果不仅可以加快本体的构建进程,还能提高本体的科学性、规 范性和权威性,为构建领域本体提供了一种可选的、有效的方法。 关键词:本体;语义w e b 服务;本体构建;主题词表 英文摘要 a b s t r a c t a tp r e s e n t ,t h em e t h o dt or e a l i z es e m a n t i cw e bs e r v i c e si st ou s eo n t o l o g yt o d e s c r i b ew e bs e r v i c e st oe n a b l et h ea u t o m a t e dd i s c o v e r y , c o m p o s i t i o na n di n v o c a t i o no f w e b s e r v i c e s b u t ,t h ee x i s t i n go n t o l o g yc o n s t r u c t i o np r o c e s s h a sas e r i e so f p r o b l e m ,s u c ha s :t h ep r o c e s sc o m p l e x ,t o or e l yo ne x p e r t s ,t h ec o n s t r u c t i o ns p e e ds l o w a n dt e r m i n o l o g ye x p r e s s i o ni m p r e c i s e a sa ne f f e c t i v es o l u t i o nt os o l v et h ea b o v e p r o b l e m s ,t h er e s e a r c ho ns e m i - a u t o m a t i co ra u t o m a t i co n t o l o g yc o n s t r u c t i o n ,r e d u c i n g t h ed e p e n d e n c eo fe x p e r t sa n ds p e e d i n gu pt h es p e e do fo n t o l o g yc o n s t r u c t i o nb e c o m e m o r ea n dm o r ei m p o r t a n t a r e rs t u d y i n ge x i s t i n gd o m a i no n t o l o g yc o n s t r u c t i o nm e t h o d s ,t h i sp a p e rp u t s f o r w a r dad o m a i no n t o l o g ys e m i a u t o m a t i cc o n s t r u c t i o nf r a m e w o r kw h i c hi st o c o n s t r u c ta no n t o l o g yw i t ht h et h e s a u r u sa n dr e u s e o n t o l o g i e si no n t o l o g yb a s ea n dw e b t op e r f e c tt h i so n t o l o g y t h i sp a p e rd i s c u s s e sa b o u tt h eb a s i ct h e o r e t i c a lk n o w l e d g eo f o n t o l o g y a n d t h e s a u r u s ,g i v e s t h er u l e sf o r t h ec o n v e r t i o nf r o mt h e s a u r u st o o n t o l o g y , s u c c e s s f u l l yc o n v e r t st h et h e s a u r u st o a no n t o l o g yu s i n gt h em e t h o do f d e s c r i b i n go n t o l o g yw i t l lo w l w h i l ep e r f e c t i n gt h ei n i to n t o l o g y , a c c o r d i n gt ot h e c h a r a c t e r i s t i c so ft h e s a u r u so n t o l o g y , t h i s p a p e rc h a n g e st h ee x i s t i n gm e t h o do f c a l c u l a t i n gs e m a n t i cs i m i l a r i t ya n dd e s i g n sa ni n t e g r a t e ds e m a n t i cs i m i l a r i t yc a l c u l a t i o n f o r m u l a ,t h ef o r m u l ac a nb em o r ec o m p r e h e n s i v ea n da c c u r a t ec a l c u l a t i n gt h es e m a n t i c s i m i l a r i t yb e t w e e nc o n c e p t s w h i l ep e r f e c t i n gt h e s eo n t o l o g i e s ,t h i sp a p e rg i v e st h e c o r r e s p o n d i n gr u l e s ,p r o c e s s e s a n d a l g o r i t h m s o fa d d i n gd a t a ,a n d i m p r o v e s t h e a u t o m a t i o no fo n t o l o g yc o n s t r u c t i o n a tl a s t ,t h i sp a p e rd e s i g n sa n dr e a l i z e sap r o t o t y p e s y s t e mw h i c hc a nr e a l i z ed o m a i no n t o l o g ys e m i - a u t o m a t i cc o n s t r u c t i o ni ns e m a n t i c w e bs e r v i c e s ,a n dc a ns o l v et h ep r o b l e m so ft h ep r o c e s sc o m p l e x ,t o or e l yo ne x p e r t s ,t h e c o n s t r u c t i o ns p e e ds l o wa n dt e r m i n o l o g ye x p r e s s i o ni m p r e c i s e t h ee x p e r i m e n t a lr e s u l t s r e v e a lt h a tt h ef r a m e w o r ka n da l g o r i t h ma r ef e a s i b l ea n de f f e c t i v e t h er e s e a r c hr e s u l to ft h i sp a p e rn o to n l ys p e e du pt h ep r o c e s s ,b u ta l s oi m p r o v et h e o n t o l o g yr a t i o n a l i t y , n o r m a l i z a t i o na n da u t h o r i t y , a n dt h a tw o u l da l s ob eag o o dw a yt o b u i l dd o m a i no n t o l o g y k e yw o r d s :o n t o l o g y ;s e m a n t i cw e bs e r v i c e ;o n t o l o g yc o n s t r u c t i o n ;t h e s a u r u s 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文= = 适竖迎业盟釜主的笾垣奎佳坐自麴构建班究= = 。除论文中 已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中 以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开 发表或未公开发表的成果。本声明的法律责任由本人承担。 学位论文作者签名:墅楚 学位论文版权使用授权书 本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学 位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论 文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫 描等复制手段保存和汇编学位论文。同意将本学位论文收录到中国优秀博硕士 学位论文全文数据库( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论 文全文数据库( 中国科学技术信息研究所) 等数据库中,并以电子出版物形式 出版发行和提供信息服务。保密的论文在解密后遵守此规定。 本学位论文属于: 保密口在年解密后适用本授权书。 不保密眵( 请在以上方框内打“) 日 语义w e b 服务中的领域本体半自动构建研究 第1 章绪论 1 1 研究背景和意义 目前,w e b 的功能越来越完善,而且可以自动的处理信息。它是人们进行知识 交流和获取的主要方式。然而,现在的w e b 的信息基本上是只有人才能理解的,而 w e b 上的信息却急剧的增长,给信息的表示、获取、处理以及使用带来了一系列问 题。w e b 的实质是一个u r i 的空间,其中的任何一个u r i 都能够连接到另一个u r i 上,而毫无限制和说明。虽然一些搜索引擎已经为我们提供了更加快捷和方便的 查询,但面临海量的信息,很难从中找到真正需要的。基于关键词的搜索已满足 不了人们的需求。w e b 诞生的初衷是使它成为一个信息空间,它应该不仅适用于人 与人之间的交流,更应该可以让机器加入进来帮助人们。为了实现这个目标,t i m b e r n e r s l e e 提出了s e m a n t i cw e b 的思想。 s e m a n t i cw e b 不是另一个独立的w e b ,它是现有w e b 的一个拓展。在s e m a n t i c w e b 中,信息被赋予定义完好的含意,更利于人机之间的交互【1 1 。本体是共享概念 模型的明确的形式化规范说明。它提供了一种表达领域知识、定义语义的方式。 s e m a n t i cw 曲上的信息用本体来描述,可以为信息提供语义,让机器能够更好的 理解w e b 上的数据。s e m a n t i cw e b 采用多层次的表示框架,本体位于从文档描述 到知识推理转折的层次【2 】o 因此,实现s e m a n t i cw e b 的重要步骤之就是本体构 建。 目前,w e b 上有各种各样的服务。比如机票预定、天气预报和电子书店等。 但是,由于对w e bs e r v i c e 的描述只是基于语法格式的,导致服务的发现、组合和 执行要手工完成。如果用本体标注这些服务,让服务变成机器可以理解的、可以 使用智能主体分析识别的,将会实现w e bs e r v i c e 的互操作的自动化。语义w e b 服务是将s e m a n t i cw e b 使用到w e bs e r v i c e 中。也就是使用本体表示w e bs e r v i c e , 给这些服务添加一些语义,让服务的发现、组合和调用可以自动的完成【3 1 。 本体的构建是一个很重要的问题,它是s e m a n t i cw e b 的语义基础,没有本体, s e m a n t i cw e b 也只是空谈,语义w e b 服务的实现也就不可能【4 羽。 目前,构建本体的过程都需要领域专家的参与,其存在过分依赖专家、费时 耗力、容易出错等缺点。自动或半自动的获取本体,提高本体的构建效率,推动 一1 一 第1 章绪论 本体的研究的发展和应用,成为当前本体研究的热点之一【7 】。 本课题的研究,从现实意义上说,为基金项目“智能化语义网服务中的本体 集成机理与应用模式 和“基于本体集成的语义网智能服务的关键技术研究 提 供基础的实验环境。从理论意义上说,可以为本体在应用工程中的发展提供一定 的理论支持作用。总的来说,本体半自动构建的研究具有深远的价值。 1 2 国内外研究现状 目前,国内外的研究者提出了很多构建本体的方法。然而,在实际的构建过 程中,根据各自问题域和具体工程的不同,又形成了各种各样构建本体的方法。 这些方法包括骨架法、i d e f 5 、企业建模法、m e t h o n t o l o g y 、循环获取法、 b e m e r a se ta 1 方法和基于领域知识重用的虚拟领域本体构造方法【8 】。骨架法基本上 概括了本体构建的主要过程,给出了一个指导本体构建的框架。因此,它有很高 的参考价值。循环获取法、i d e f 5 利用各自的方法,实现了骨架法中的“本体获 取这一步。企业建模法在骨架法框架的基础上,给出了具体的实现方法。 m e t h o n t o l o g y 方法结合了骨架法和企业建模法,并参考了软件开发过程的思 想,是一种结构化的构建本体方法。b e m e r a se ta 1 方法是在k a c t u s 项目中提出 的。它主要面向知识共享和重用。它不适合于从无到有的本体构建,而且它没有 提供具体的技术来支持每一步的开发【8 】。基于领域知识重用的虚拟领域本体构造方 法实现了骨架法中的“重用现有本体这一步。 现有的本体构建工具有很多,下面介绍几个典型的构建工具o n t o l i n g u a 、 w e b o n t o 、o n t o s a u r u s 、p r o t 6 9 6 、w e b o d e 、o n t o e d i t 、o i l e d 等,分析它们的功能 和各自具有的特点。o n t o l i n g u a 是由斯坦福大学知识系统实验室( k s l ) 开发的, 它的功能较强大,能够帮助用户完成浏览、创建、维护、共享、使用本体这些基 本开发任务【8 】。w e b o n t o 是英国o p e n 大学开发的本体编辑工具。o i l e d 是由 m a n c h e s t e r ) k :学开发的本体编辑工具。o n t o s a u r u s 是南加州大学为l o o m 知识库开发 的一个本体浏览、编辑工具。最著名的本体编辑工具当属s t a n f o r d 大学开发的 p r o t 6 9 6 。o n t o e d i t 是k a r l s r u h e 大学开发的本体编辑工具。w e b o d e 是由m a d r i d 技术 大学开发的一种本体建模工具。它提供各种本体相关服务,包括对本体开发和使 用过程中大多数活动提供支持,但它只能通过网络注册的方式使用f 引。 语义w e b 服务中的领域本体半自动构建研究 由于本体自身的复杂性和严格的建模要求,使得它的创建离不开专家的参与。 任何工具和方法都只能作为建模过程的辅助,通过它能保证建立的过程更规范、 效率更高、本体质量更好。目前,还无法实现完全自动化的本体创建【9 1 。国内外的 科研机构正在研究半自动构建本体的方法。其中,一种比较流行的方法就是利用 主题词表转化构建初始本体,然后重用w e b 和本体库中已有的本体完善初始本体。 1 3 主要的研究内容 本课题得到国家自然科学基金项目“智能化语义网服务中的本体集成机理与 应用模式”( 项目编号6 0 6 7 2 0 3 1 ) 和辽宁省自然科学基金项目“基于本体集成的语 义网智能服务的关键技术研究 ( 项目编号2 0 0 7 2 1 4 2 ) 的资助,论文的工作是两个 基金项目的重要组成部分。 本文在基金项目研究的基础上,更进一步深入研究了语义w e b 服务中领域本 体的半自动构建方法,提出了一种利用主题词表构建初始本体并重用本体库和网 络上已有本体完善初始本体的领域本体半自动构建方法,并设计一个领域本体半 自动构建的原型系统。研究内容主要有以下几个方面: 1 提出了一种语义w c b 服务中的领域本体半自动构建框架; 2 研究了交通汉语主题词表编制与标引规则,并制定其转化成本体的规则; 3 研究已有相似度计算方法,设计出适合初始本体的综合语义相似度计算公式; 4 制定并研究完善初始本体过程中添加数据的规则、流程和算法; 5 完成原型系统的设计与实现,并对系统的合理性和效率进行实验分析; 1 4 论文的章节安排 根据论文的内容要求,本文的章节安排如下: 第l 章绪论。主要介绍本文的研究背景和意义、国内外研究现状、主要研究 内容和论文组织结构。 第2 章语义w e b 服务、本体构建和主题词表概述。主要介绍语义w e b 服务、 本体构建的概念,综述了国内外已有的本体构建方法和工具,并介绍了主题词表 的相关理论。 第3 章语义w e b 服务中的领域本体半自动构建。提出了领域本体半自动构建 框架,并详细分析和介绍了框架中各个模块的设计。 - 3 - 第1 章绪论 第4 章领域本体半自动构建原型系统的设计和实现。主要包括可行性和关键 技术研究、系统设计以及核心模块的实现。 第5 章实验与结果分析。通过实验验证了系统合理性和效率。 第6 章总结与展望。总结本文的主要工作,并对未来的工作进行展望。 一4 一 语义w e b 服务中的领域本体半自动构建研究 第2 章语义w e b 服务、本体构建和主题词表概述 将语义引入w e bs e r v i c e 中,为解决w e bs e r v i c e 中出现的不含语义的问题提 供了一种可以解决的办法。这种办法就是用本体对每个服务进行语义标记,使服 务变成机器可“理解”的,进而使用智能主体进行分析识别,将会促使w e bs e r v i c e 的互操作向自动化方向发展,这就是语义w e b 服务的主要目标【3 1 。本章首先介绍 了语义w e b 服务的相关知识,其次详细介绍了现有的本体构建方法和工具,然后 说明了利用主题词表构建本体的可行性和方法。 2 1 语义w e b 服务概述 2 1 1 语义w e b 服务 1 s e m a n t i cw e b s e m a n t i cw e b 是未来w e b 发展的一个蓝图。然而,到目前为止什么是s e m a n t i c w e b 并没有一个严格的定义,t i mb e r n e r s l e e 对s e m a n t i cw e b 做了如下的描述: s e m a n t i cw e b 并不是一个孤立的w e b ,而是对当前w e b 的扩展,s e m a n t i cw e b 上 的信息具有定义良好的含义,使得计算机之间以及人类能够更好地彼此合作【l 】。根 据上面的描述,人们可以给s e m a n t i cw e b 做出这样的定义:s e m a n t i cw e b 是机器 可以理解信息含义的下一代w e b 。它的主要目的就是使w e b 上的信息具有计算机 可以理解的语义,这些带有语义的信息不仅仅面向用户直接阅读和处理,更重要 的是能满足智能主体对异构、分布信息的有效检索和访问,从而为用户的语义信 息检索提供更有利的帮助,实现更高层次上信息处理的自动化与智能化。 w 3 c 于2 0 0 1 年2 月启动了“s e m a n t i cw e ba c t i v i t y ,在标准、规范的制订 和开放式、合作式技术的研发等方面起着指导性作用,其目标是对非集中研究和 丌发的关键技术进行指导和标准化,以确保它们协调发展。此后,s e m a n t i cw e b 的研究和应用得到了广泛的关注,并取得了很大的进展。 2 w e bs e r v i c e w e b 上有各种各样的信息服务。简单的说,一个w e bs e r v i c e 就是一个能够使 用x m l 消息通过网络来访问的接口,这个接口描述了一组可访问的操作。一个 w 曲s e r v i c e 的特征是:由s o a p ( s i m p l eo b j e c ta c c e s sp r o t o c 0 1 ) 和w s d l ( w e b 第2 章语义w e b 服务、本体构建和主题词表概述 s e r v i c ed e s c r i p t i o nl a n g u a g e ) 包装的对象;适应松耦合的网络环境,可通过w e b 访问,手段是s o a p 消息;服务的行为、输) k 输出都可使用w s d l 描述【。 3 语义w e b 服务 传统w e bs e r v i c e 在信息查找、数据和消息解释方面,仍然需要人的参与,而 且必须由人激发w e bs e r v i c e 1 1 】。语义w e b 服务是将s e m a n t i cw e b 技术和w e b s e r v i c e 枝术相结合,利用s e m a n t i cw e b 丰富的语义描述能力和强大的逻辑推理能 力来准确描述w e bs e r v i c e 的语义,通过这些带有语义信息的描述减少或者避免人 的参与,实现服务的自动发现、组合和调用【1 2 】。当前,语义w e b 服务有三种主要 的描述语言和模型,分别为o w l - s 、w s d l - s 和w s m o 。 1 ) o w l - s ( o w l - b a s e dw e bs e r v i c eo n t o l o g y ) o w l - s t ”1 包含一整套本体,提供描述w e bs e r v i c e 的词汇表,描述w e bs e r v i c e 的语义。o w l s 使得w e bs e r v i c e 具备机器可理解性和易用性,从而让人性化的 智能主体支持自动的、动态的w e bs e r v i c e 发现、执行、组合和互操作。在o w l s 语言中,服务轮廓( s e r v i c ep r o f i l e ) 主要规定服务的目的,给出了搜索服务需要 的信息;服务模型( s e r v i c em o d e l ) 主要规定服务是如何运作的,对于简单服务和 复杂服务的描述是有区别的;服务基点( s e r v i c eg r o u n d i n g ) 主要规定如何访问服 务。 2 ) w s d l s ( w s d l s ,w e bs e r v i c es e m a n t i c s ) w s d l s 【1 4 】是由美国的g e o r g i a 大学与i b m 合作的成果,是一种向w e bs e r v i c e 增加语义的轻量级的方法。它构建在目前的w 曲服务标准之上;可以采用不同的 语义表达语言来对w e b 服务进行语义标注;支持对w e b 服务的x m ls c h e m a 的 数据类型进行语义标注;在w e b 服务的x m ls c h e m a 类型和本体( 或u m l ) 之间 提供丰富的映射机制。 3 ) w s m o ( w e bs e r v i c em o d e l i n go n t o l o g y ) w s m o 1 5 。1 7 】的研究和开发旨在为语义w e b 服务定义一个完整的框架,由三部 分组成。第一部分,w s m o 提供语义w e b 服务概念的形式化规约;第二部分, w s m l ( w e bs e r v i c em o d e l i n gl a n g u a g e ,w e bs e r v i c e 建模语言) 定义了w s m o 概念的描述语言;第三部分w s m x ( w 曲s e r v i c ee x e c u t i o ne n v i r o n m e n t ,w 曲 s e r v i c e 执行环境) 提供了语义w e b 服务实现的参照实现。w s m o 由四个顶层要素 - 6 - 语义w e b 服务中的领域本体半自动构建研究 组成,分别是本体、目标、w e bs e r v i c e 和中介器。 2 1 2 语义w e b 服务和本体的关系 本体是s e m a n t i cw e b 的重要组成部分,它可以很好的解决在s e m a n t i cw 曲中 进行信息的共享和交换时遇到的问题。本体位于s e m a n t i cw e b 七层体系结构的中 间一层,它所给出的原语可以用来表示概念模型,也可以用来对知识进行推理校 正。本体是语义网的关键部分,使用形式化的语言对本体进行表示之后,就可以 自动的推理校正概念和关系,为一些智能化的服务提供方便。可以说,s e m a n t i cw e b 以本体作为支撑,拓展了目前的万维网,让万维网上的信息有了可以让机器理解 的语义。s e m a n t i cw e b 在本体的支持下实现软件a g e n t 对w 曲信息资源所进行的 智能访问和检索【1 羽。 语义w e b 服务将本体应用到w e bs e r v i c e 中,主要目标是克服传统w e bs e r v i c e 语义操作能力的局限,使服务的发现、执行以及动态组合能够智能地完成。目前 主要的研究框架o w l - s 、w s d l s 和w s m o ,都是基于本体的思想【1 8 】。 2 2 本体构建概述 2 2 1 本体构建方法 w e b 环境下实现语义检索的首要条件是有丰富的领域本体。因此,构建本体的 方法是当前本体研究中的热点问题。由于本体的构建多是面向特定领域,如果没 有好的方法路线指导,就难以在不同领域本体的构建中保持一致,也不利于本体 的规模化和规范化建设。因此,本体构建方法的研究对于本体的应用起着至关重 要的作用。目前,也出现了不少指导本体构建的方法,主要包括骨架法、企业建 模法、循环获取法、m e t h o n t o l o g y 、i d e f 5 、b e r n e r a se ta 1 方法和基于领域 知识重用的虚拟领域本体构造方法【1 9 1 。 1 骨架澍2 0 】 该方法是爱丁堡大学在开发e n t e r p r i s e 本体的过程中产生的。它建立在 e n t e r p r i s e 本体的基础上,只提供构建本体的方针。其主要流程包括: 1 ) 明确构建本体的目的和构建的本体的使用范围。 2 ) 通过3 个子步骤即本体获取、本体编码和本体集成实现本体的构建。 3 ) 对所构建的本体进行评价。 - 7 - 第2 章语义w e b 服务、本体构建和主题词表概述 4 ) 形成文档。 2 企业建模法【2 1 】 该方法是g r u n i n g e r 和f o x 从项目t o v e 中总结出来的。其基本过程是先对所 要描述的领域给出非形式化的规范说明,然后在此基础上给出形式化的描述。具 体包括: 1 ) 确定目标场景:这些场景有可能提供解决问题域的方案,为其中的对象和关系 提供非形式化的语义描述。 2 ) 非形式的本体能力问题的形成:以上述场景为基础,用问题形式提出本体构建 需求。即需要构建的本体要可以用自己的术语、定义或公理表示这些问题,并产 生答案。因此,这些问题是构建本体的约束,同时也是评价构建的本体的标准。 3 ) 抽取和定义术语:从问题中抽取出相关的词汇,用一种形式语言给出本体中术 语集合的规范说明。 4 ) 形式化问题:用所定义的词汇表示上述本体能力问题。 5 ) 定义本体词汇的公理:用形式化的语言描述本体中术语的公理。 6 ) 建立刻画本体完全性的条件:如果公理能够回答所有本体能力问题,则相对于 这些问题的本体是完全的,否则需要定义新的术语和公理。 3 m e t h o n t o l o g y 方法【2 2 】 该方法是由马德里理工大学的研究人员提出的,其目的是在知识层次上构建 本体。主要包括: 1 ) 确定本体的开发过程:指的是明确在构建本体时采用的行为:项目管理行为、 面向开发的行为和支持行为。 2 ) 基于进化原型的生命周期:根据进化原型法的思想,提出本体生命周期的概念 来管理本体的开发过程,使本体的开发过程更接近于软件开发过程。 3 ) 实施每种行为所采用的技术。 4 i d e f 5 方法【2 3 】 该方法是在结构化分析的思想上发展起来的。i d e f 提供了图表语言和细化说 明语言这两种语言形式来获取某个领域的本体。i d e f 5 提出的本体构建方法主要 包括: 1 ) 确定组织和范围:包括本体构建项目的目标、观点和语境等。 - 8 - 语义w e b 服务中的领域本体半自动构建研究 2 ) 收集数据:指的是对本体构建需要的原始数据的收集。 3 ) 分析数据:指的是对收集到的数据分析,为抽取本体作准备。 4 ) 构建初始化的本体:根据收集的数据构建一个初始的本体。 5 ) 精炼与确认本体:完成构建本体的过程。 5 循环获取法【2 4 】 该方法是由a l e x a n d e rm a e d c h e 等人提出的,其主要包括: 1 ) 选择数据源:它作为环形的起点,是一个通用的核心本体的选择。所有大型的 词汇语义网、通用本体或者领域相关的本体都能够作为该过程的开始。基础本体 确定后,用户就可以确定用于抽取领域相关实体的文本。 2 ) 概念学习:获取领域相关的概念,同时建立概念之间的分类关系。 3 ) 领域聚焦:保留与领域相关的那些概念,建立目标本体的概念结构。 4 ) 关系学习:主要通过从基础本体中继承,或者通过学习的方法从文本中抽取出 来。 5 ) 评价:对构建的领域本体进行评价,接着可以重复迭代以上的过程。 6 国内的本体构建方法 刘风华、朱欣娟等人提出了基于需求分解的本体模型构建方法【2 5 1 。该方法主 要采用了需求分解的思想。 李景、苏晓鹭等人提出了构建领域本体的知识工程方法【2 6 1 。该方法首先明确 构建本体的领域范围,并罗列出领域中所有的重要术语,再利用已有的知识和资 源定义类之间的层次结构,最后定义类的属性及实例。 王洪伟、吴家春和蒋馥提出了基于描述逻辑的本体模型【2 7 】。在该本体模型的 指导下,构建了c r m 领域中客户知识的本体库。该本体库有1 7 3 个术语,7 8 个 术语定义,2 7 个实例和5 2 个实例声明等。 王听、熊光楞提出了一种基于本体的设计原理信息提取方法【2 8 1 。该方法采用 本体工程的方法来建立设计原理知识模型。 陈刚、陆汝钤和金芝提出了基于领域知识重用的虚拟领域本体构造方法【1 9 1 。 该方法主要采用本体语义相关度匹配的办法来搜索和匹配本体,并通过结合手工 交互操作与系统自动分析来实现。 第2 章语义w e b 服务、本体构建和主题词表概述 2 2 2 本体构建工具 本体的构建离不开工具的支持。随着本体在人工智能、语义网、电子商务、 信息检索和抽取等领域的广泛应用,本体已经成为现在的一个研究热点。目前, 各种组织开发了多种本体构建工具,主要包括:o n t o l i n g u a 2 9 1 、o n t o s a u r u s 3 0 1 、 w e b o n t o t 3 1 1 、w e b o d e 3 2 1 、o n t o e d i t 3 ”、o i l e d 3 4 1 和p r o t 6 9 6 3 5 1 等。它们都能很好 的辅助o n t o l o g y 的编辑、修改、浏览和维护等工作。 1 o n t o l i n g u a o n t o l i n g u a 2 9 】是斯坦福大学知识系统实验室( k s l ) 研制开发的。它描述本体 的语言是o n t o l i n g u a 语言,并且它只允许注册用户使用其网络版的工具来浏览、创 建、编辑本体。同时,它也是比较有代表性的支持合作开发本体的工具,o n t o l i n g u a 通过用户和组的访问控制,以及多用户的会话,提供合作开发机制。而且它可以 通过w e b 来发表、浏览、编辑存储在o n t o l i n g u a 中的本体。因此世界各地不同的用 户可以通过协作来共同构建本体。此外,o n t o l i n g u a 主要靠外附的推理引擎来实现 推理,所以它并不能提供太多的推理能力。 2 o n t o s a u r u s o n t o s a u r u s 3 0 1 是由南加州大学信息科学研究所( u s c i s i ) 开发的。它描述本 体的语言是基于描述逻辑的l o o m 语言,并且注册用户可以在线访问并浏览 o n t o s a u r u s 的演示版本。o n t o s a u r u s 主要是作为一个对本体进行浏览的w e b 浏览器 来使用,对新用户来说,用它进行本体的编辑不是很方便,而且一个本体一次只 能被一个用户编辑。然而,o n t o s a u r u s 的推理能力主要依赖于l o o m 提供的推理功 能。 3 w e b o n t o w e b o n t o 3 1 1 是由英m o p e nu n i v e r s i t y 知识媒体研究所开发的。w e b o n t o 构建的 本体是用o c m l 语言描述的,并且它g 艮o n t o l i n g u a - - 样只允许注册用户使用其网络 版的工具。w e b o n t o 主要是用来支持用户合作的浏览、创建和编辑本体。协作编辑 本体时,w e b o n t o 有发布和接收模式。当一个人激活了发布模式时,如果有人进入 编辑状态,其他在接收状态的人可以看到发布方的变化情况。但是在一个时刻只 有一个人可以编辑本体,当编辑的时候本体会被锁定,当锁定的时候,其他人还 可以浏览本体。此外,w e b o n t o 以o c m l 开发的推理模块支持推理工作。 语义w e b 服务中的领域本体半自动构建研究 4 w e b o d e w e b o d e 3 2 1 是由马德里技术大学人工智能实验室开发的,它是o d e 的一个网 络升级版本。w e b o d e 不使用具体的本体表示语言,而是在概念层构建本体,然 后才将其转化成不同的本体表示语言。w e b o d e 通过定义实例集来提高概念模型 的可重用性,并且w e b o d e 对同一个概念模型可以提供不同的概念视图。同时, w e b o d e 允许用户创建对本体的访问类型,使用组的概念,用户可以编辑或浏览 一个本体,并且提供了同步机制来保证多个用户无差错地编辑同一个本体。 w e b o d e 具有内置推理引擎和外附推理引擎来支持推理。此外,w e b o d e 支持多种 本体构建方法,但与m e t h o n t o l o g y 方法协作最好,对m e t h o n t o l g y 构建 本体的大多数过程都能提供很好的支持。 5 o n t o e d i t o n t o e d i t 3 3 1 是由德国卡尔斯鲁厄大学知识管理研究组开发的。o n t o e d i t 独立于 特定的语言,可以导入导出多种基于w e b 的本体描述语言格式,并且它有免费和 专业两个版本,免费版本只有部分基本功能。o n t o e d i t 支持多种语言的本体开发, 但是不支持中文。同时o n t o e d i t 也支持本体的协同开发。o n t o e d i t 还具有内置的推 理引擎来支持推理工作。此外,它支持本体构建方法o n - t o k n o w l e d g e 6 o i l e d o i l e d 3 4 1 是一个由曼彻斯特大学计算机科学系信息管理组构建的基于o i l 的本 体编辑工具,它允许用户使用d a m l + o i l 构建本体。它是开源的,用户可以很方 便下载使用。o i l e d 的新颖之处在于对框架编辑器范例进行扩展,使之能处理表达 能力强的语言,使用优化的描述逻辑推理引擎,支持可跟踪的推理服务。o i l e d 不 支持协同工作。此外,它有内置的推理引擎支持推理工作,但是对实例和具体的 数据类型不能进行推理。 7 p r o t 6 9 6 p r o t 6 9 6 3 5 1 是由斯坦福大学的医学信息研究组开发的。它是一个免费和开源的 本体编辑平台,并且它可以使用r d f 、r d f s 、o w l 等本体描述语言编辑和修改本 体。p r o t 6 9 6 n - j 直接对类、实例和属性等进行编辑操作,用户不必掌握具体的本 体表示语言。同时插件是p r o t 6 9 6 中最重要的特色,用户可以根据自己的应用需求 开发新插件和定制已有插件。而且最难能可贵的是它支持中文。但是p r o t 6 9 6 不支 第2 章语义w e b 服务、本体构建和主题词表概述 持合作开发。此外,它没有自带的推理工具,但是它有可以与其它应用结合的可 扩展的体系结构,很容易嵌入到其他系统中或者与其他系统联系使用,完成推理 工作。 2 3 主题词表概述 2 3 1 主题词表的概念及其结构 主题词表又称叙词表【3 6 1 。它是一种由概括- - f - j 或各个学科领域的经规范化处 理的语义相关和族性相关的词或词组,按特定顺序排列所形成的后组式检索词典。 它是一种将标引人员和检索人员的自然语言转换成规范化检索语言的术语控制工 具。在标引中,人们从主题词表中选词标引,检索时,从主题词表中查词检索。 主题词表的术语由正式主题词和非正式主题词组成,主题词是在文献标引与 检索中用以表达文献的主题而规范化的词。主题词表中的词间关系有等同关系、 属分关系、相关关系。等同关系是指概念上相同或相近的一组词,将其中一个词 定义为正式主题词,其它词规定为非正式主题词,与对应正式主题词是用、代关 系。属分关系为上位主题词与下位主题词之间的关系,其概念内涵相同、外延范 围大小不同。相关关系是指主题词之间属分以外的相互关系,是主题词概念内涵 之间语义联系的词间关系【3 7 1 。 2 3 2 主题词表和本体的联系与区别 1 主题词表和本体的联系 主题词表和s e m a n t i cw e b 体系结构中的本体都是用来描述概念词汇之间语义 关系的,具有很多相似点【3 7 】: 本体和主题词表都来源于本领域中的概念,都可以解决概念的语义冲突问题。 本体的目标是实现机器对信息的理解,以便解决语义中存在的同一词语有多种表 示形式和多种含义的语义冲突问题,主题词表的目的也是这样的。传统的主题词 表中收集了很多可以表达领域中概念含义的主题词,主题词经过规范化处理用于 标引文献的主题。同时主题词表中还收集了大量的入口词,这些词不能作为标引 和检索的正式主题词,但是可以通过正式主题词和非正式主题词之间的关系定位 到正式的主题词,解决了一词多义和一义多词的问题。 本体和主题词表都是等级结构的。本体以类为基础,从整体上来说是一个类 一1 2 语义w e b 服务中的领域本体半自动构建研究 的层次等级结构。主题词表一般提供范畴索引或者分类结构,从学科领域给出主 题词的等级结构。另外,本体和主题词表都选择一定的标识符来体现各种概念之 间的关系,都包含注释信息。 本体通过定义概念的等级结构和属性描述概念之间的关系。在本体描述语言 中有相应的描述符号,如:r d f s :s u b c l a s s o f 、r d f s :s u b p r o p e r t y o f 、r d f s :d o m a i n 和 r d f s :r a n g e 等。主题词之间主要有三种关系:等同关系、属分关系和相关关系,它 们通过用、代、属、分、参等关联起来成为一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论