




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东南大学硕士学位论文 摘要 语义网是当前w e b 的一种扩展,其中的信息附加了机器可处理的语义。语义网是一个信 息基础设施,它提供一个通用可存取的信息平台,使计算机能有效地发现、处理、集成和复 用w e b 内容和服务,从而使得计算机和人类能够更好地协同工作。 当前,关于语义网的研究正方兴未艾,语义网中语义的承载者本体的体积也日益庞大, 如何管理这数量巨大的本体又成为了现在日益被重视的课题。本体的管理系统是一个复杂的 系统,目前关于本体管理的研究还没有一个成熟的评判标准。本文以一个文献搜索系统为背 景,研究了文献搜索系统中的本体管理策略,主要从本体的维护,本体的存储等角度描述了 搜索系统中本体的管理策略。 本文首先分析了目前语义网,网格和本体的现状,研究了本体的描述语言,当前主流本 体查询语言和本体管理工具,然后提出了一个语义网格下的文献搜索引擎系统概念框架,及 其工作流程,并借此研究了文献搜索引擎下的本体管理策略,提出了一个用关系型数据库来 存储本体的解决方案,同时设计了关系型数据库的数据模式并探讨了其特点,最后研究了本 体管理系统在未来发展中将遇到的一些问题,主要包括本体的重用,版本控制,管理 关键字: 语义网,网格,本体,关系型数据库,文献搜索引擎,o w l 东南大学硕士学位论文 a b s tr a o t 1 1 l es e m a n t i c w e b i s 柚e x t e n s i o n o f t h e c l l r l e n t w e ba n d a v i s i o n f o r t h e f u t u r e o f t h e w c b j l lw h i c hi n f o 衄a i i s 舀v 锄懿p l i c nm e a n i n g , m a k i n gi te a s i e rf o rm a c h m 韶t o a l l i o m a l i c a l l y p r o e e $ 锄di m e g r a t ei n f o 删o na v a i l a b l eo nt h ew e b b e l t e re n a b l i n gc o m p u t e r sa n dp e o p l et 0 w o r ki i lc o o p e f a t i o l l c u r r e l i f l y , t h er e s e a r c ho f s e r n 锄d ew e bi si nt h ea s e e n d 锄t1 1 1 eo i l t o l o 科,w l l i c hi st h e l o a d 日o f m es e m i t i co f s e m i t i c w e b , i s g r o w i n g v 船t l y h o w t o m a n a g e t l l eh u g e q u a n t 时o f t h eo n t o l o g yi sn o ws e e m e das u b j e c ta t t a e h e dm o r e 锄di mi m p o n a n c e t h em a n a g e m e n to f 伽胁l o 酣i sac o m p l i c 砒e ds y 咖i n a n dt i l e i ss t i i ln o tam a t u r es y s t e mf o r j u d g i n g 瓶q u a l 时 t h i sa r t i c l ei l s e s 锄i n f b m a t i o nr e 啊e v a le n 西n e 勰b a c l 【g r o u n d s p e e i f i e st l l es t r a t e 酣0 f t l l e m a n a g e m e l i to f t h eo m o l o g y ,m a i n l yf r o mt h ev i e wo f t l l em a i m 卸c e s t o r a g ee i co f 血e o n t o l o g y t h i s 口t i e l ef i r s t l ya n a l y st h ec o n c e p to f m es e m i t i cw e b ,鲥d 锄do n t o l o g y ,a n d 他挑h e si n t on o w a d a y st t l ed e s e 喇o nl 锄g u a g ea n d m em a n a g e m e n tt o o l so f t l i eo m o l o g y $ e e o n d i yt h i sa n i e l ep r e s e n 协i n f o r m a t i o nr e t r i e v a le n g i n eb a s e do ns 锄柚c 鲥d l l l e f b m t a k e s a v i e w0 f n s w h o l ea r c h i t e c t l l 坞a n d w o r k i n g p r o e e 璐a f t e r w 珧,w e w o r k o v e r a b o m t h e o r 胁l o 留m a n a g e m e n ts t r a 嘲i nt h ee n g i n e ,锄d b r i n go u t as o l v i n gw a yw h i c hu s e st h e 托l 砒i a l d a t a b l t 能t os t o 把t h e 咖l o g y t h 鼬w ed c s i g nt t i ed a t ap a t t e r no f t h e 血t a b a s e a tl a s tt h i sa n i e l e d e s c r i e ss o m et r o u b l 嚣p o s s m l ym e tf o rt h eo n t o l o 盱m 龃a g es y g 蜘ni i lt h ef u t u r e ,m a i n l y m c l u d i n gt h er e u s i n g , v e r s i o nc o n h d l l i n 舀m a n a g i n ga n ds t o n n g k e yw o r d s : s e m a n t i cw e b ,g d d o n t o l o g y ,r e l a f i o n a ld a t a b l e ,i n f b 肿a t i o i ir e t r i e v a le n g i n e ,o w l 东南大学学位论文 独创性声明及使用授权的说明 一、学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 二、关于学位论文使用授权的说明 签名:圣:寰 日期:塑! :丘占 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相 一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权东南大学研究生院办理 签名:二班导师签名: e t 期:立竺鱼:垒6 东南大学硕士学位论文 i i 背景介绍 第一章前言 1 9 9 0 年,t i mb e r n e r s - l e e 发明了w o r l dw i d ew e b ( 简称胛或w e b ) ,并在这十几 年里达到了空前的兴旺。w e b 上包含了海量的数据以及大量的程序服务器和联机用户,而且 还在迅速增长。当前w e b 可以被称为第二代w e b ,第一代w e b 是由手写的t i t m l ( h y p e r t e x t m a r k u pl a n g u a g e ) 网页所构成,第二代w e b 的一些网页可以由机器生成。这两代w e b 上的 信息都是直接提供给人来处理( 阅读、浏览、填单等) ,人们一般通过基于关键词的搜索引 擎进行信息的定位和查询。这种使用方式随着w e b 上的信息迅猛增加变得越来越不适应, 而且基于关键词的搜索引擎最大的问题就是查全率和查准率都比较低。为使w e b 发挥其全部 潜能,必须使计算机能自动地处理其上的信息,担当这一使命的便是第三代乳b - 一语义 w e b ”m :它是当前w e b 的一个扩展,语义w 曲上定义和链接的数据不仅能显示,而且附加 了机器可处理的语义,使得机器能够自动地处理、集成和重用w e b 内容和服务。语义w e b 提 供了一种信息基础设施,它将为信息集成,信息管理和信息自动化服务开辟了新途径”1 ,从 而使得计算机与人能够更好地协同工作。总之,语义w e b 技术的研究与发展对于教育、科研、 商务、日常生活等各个方面都具有广泛和深远的意义。 网格( g r i d ) 的概念来自电力网格( p o w e rg r i d ) ,是利用电力网路上结合电力节点 上的各种电力资源的观念来表达,主要的精神是透过虚拟组织,将分散的资源整合并有效利 用。简单的说,互联网是由网络来分享信息,而网格是经由网络来分享计算机资源( 包含最 常用的计算和储存资源) 促进实际合作,不仅可以整合分散的各式电脑资源,更加将互联网 整合为一个巨大的虚拟电脑系统。 将语义w e b 应用于网格环境,就形成了语义网格。语义网格就是“对当前网格的一个 扩展,其中对信息和服务进行了很好的定义,可以更好地让计算机和人们协同工作”。 随着网站数据的日益庞大,语义网中语义的承担者本体的体积也日益庞大,如何管理这数量 巨大的本体又成为了现在被重视的课题,本文将围绕本体的存储管理所需面临的问题展开讨 论,并根据信息搜索的需求提出了一套本体的存储管理策略。 1 2 本体 本体( o n t o l o g y ) 的本意是本体论或存在论,是关于自然存在的研究,属于形而上学 理论的分支,是一个抽象的哲学观念。o n t o l o g y ( 以下称为本体) 概念借用到计算机科学后, 有了更加丰富的意思。本体的研究涉及到很多的领域:知识工程、知识表示、语言工程、数 据库设计、信息检索,还有知识组织管理等等“”。在知识共享的上下文情况下,简单地说, 本体就是明确的,形式化的,用于共享的概念化规范“。概念化意味着本体是现实世界的 抽象化:明确的意味概念的类型、使用和约束条件被明确定义;形式化意味着本体是机器可 自动处理的;共享意味着本体是达成共识的知识“”。在语义w e b 的上下文中,本体是一个知 识术语的集合,包括词汇,语义关系,和一些关于具体主题的简单推理和逻辑。本体在计算 机科学中指对共享领域模型的概念化的形式说明。语义网技术的研究者们提出在语义网的结 构中有一层为本体层,通过本体层来表示出信息的含义,及各种信息问的语义联系。语义网 上的语义信息正是基于本体而且也表示为本体的。通过这种方式,语义网中的各代理可以通 东南大学硕士学位论文 过交换本体来达到一个语义级的共享本体提供了通讯中所需的词汇。因而本体层的建立正是 语义网技术的关键,成为当前语义网技术研究的热点。 关于本体的定义,业界有很多不同的定义方法,比较典型的定义有如下的几种定义方 法: 范畴提出人提出时间定义 哲学 客观存在的一个系统的解释和 说明,客观现实的一个抽象本质 计算机1 9 9 1 n e c h e s 等给出构成相关领域词汇的基 本术语和关系,以及利用这些术语 和关系构成的规定这些词汇外延 的规则的定义 1 9 9 3 g r u b e r概念模型的明确的规范说明 1 9 9 7 b o r s t共享概念模型的形式化规范说明 1 9 9 8 s t u d e r共享概念模型的明确的形式化规 范说明 表卜1 本体定义方法 关于最后一个定义的说明体现了本体的四层含义: 概念模型( c o n c e p t u a l i z a t i o n ) 通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关 概念而得到的模型,其表示的含义独立于具体的环境状态; 明确( e x p l i c i t ) 所使用的概念及使用这些概念的约束都有明确的定义; 形式化( f o r m a l ) 本体是计算机可读的; 共享( s h a r e ) 本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它 所针对的是团体而不是个体。本体的目标是捕获相关领域的知识,提供对该领域知识的共同 理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇间相互关系的明确定义。 1 3 本体研究目前的现状 1 9 9 8 年t i mb e r n e r s l e e ( w e b 发明者) 提出了语义网的构想,采用多层次的表示框架。 首先为文档引入模式的概念,对文档的结构进行描述,这样计算机就能够方便的解读文档, 这就是x m l 。如果知道x m l 的定义,就可以编程序对内容进行操作,比如信息提取等。但是, x m l 并没有对结构本身的语义进行描述。如果不知道) 叩。元素的语义,那么计算机仍然不能 够理解其中的信息。这时需要一个更高层次来描述结构的语义。这就是r d f 。r d f 定义了元 素之间的关系,表现为三元组的集合( 类似于句子的主,动词。客体) 。x m l 加上r d f 就可 以进行一些简单的推理了。使用x m l + r d f ,人们可以建立各自的语义w e b ,只要有一套自成体 系的术语就可以了但是,要计算机相互了解对方的内容,还需要有一套共同的标准的概念 体系,这就是本体( o n t o l o g y ) 。d a l + r d f + o n t o l o g y 构成了计算机相互理解的基础,缺一不 可。当然,在本体层上还可以有更高的为各种o n t o l o g y 进行通讯提供支持的描述层次。这 样语义w e b 每增加一个层次,计算机在知识处理能力上就多一份能力。 由于本体在语义网的体系结构中处于承上启下的核心地位,引起了人们越来越多的关 2 东南大学硕士学位论文 注,计算机科学、人工智能、信息资源管理等众多领域的研究人员从不同的角度对本体进行 了研究。本体的研究主要集中在4 个方面: ( 1 ) 、本体表示语言的研究,从2 0 世纪9 0 年代开始,一组基于人工智能的本体描述语 言被提出,代表性的有k i f 、o n t o l i n g u a 、l o o m 、o c m l 等。随着w e b 的发展,陆续出现了一系 列基于w e b 的本体表示语言,为本体在w e b 上的发展注入了活力,如s h o e 、x o l 、r d f ( s ) 、o i l 、 o i l + d a m l 、o w l 。对于_ e b 上的应用程序而言,需要一个通用的标准语言来表示本体,以避免 在各种描述语言之间的转换。到目前为止,w 3 c 先后推荐了r d e ( s ) ,d a m l + o i l 和o w l 作为本体 描述语言的标准“”。 ( 2 ) 、本体开发方法和工具研究,包括本体的开发方法论、以及本体开发工具;比较 有名的开发方法有:i d e f 一5 i d e f ,骨架法,七步法,m e t h o n t o l 0 6 y 法,循环获取法等,这些 方法大多数都是在进行具体的本体开发实践中提出来的。目前的开发工具主要有两类: 第一类包括o n t o l i n g u a 。0 i l t o s a u r u s ,w e b o n t o 等。它们都是基于一种特殊的语言,例 如o n t o l i n g u a 是基于o n t o l i n g u a 语言,o n t o s a u r u s 是基于l o o m 语言,w e b o n t o 是基于o c m l 语言的。该类工具仅支持特殊的本体描述语言,不支持w 3 c 推荐的本体描述语言标准,因 此,其通用性受到了影响,使得这类工具没有得到广泛的应用。 第二类包括p r o t e g e 2 0 0 0 、o i l e d 、o n t o e d i t 等。该类工具最大的特点是支持独立于 本体描述语言,即可以导入导出多种语言格式,如也、r d f ( s ) 、d a m l + o i l 等。其中,除 了o i l e d 是一个可以单独的本体编辑工具外,其他都是一个整合的本体开发环境或一组工 具。它们支持本体开发生命周期中的大多数活动,并且因为都是基于组件的结构,很容易 添加新的模块来提供更多的功能,具有良好的可扩展性。这类工具都支持w 3 c 推荐的本体 描述语言标准,是目前应用较多的工具。在这类工具中,有些工具,例如o i l e d 等,仅能 支持但用户操作。这样的工具在实际中有很大的局限性,因为仅靠一个人很难建立起大规 模的本体,而且,这样建立起来的本体往往只能代表某些人的观点,不能很好的体现出大 家的共识。 ( 3 ) 、本体的应用研究。在计算机系统中引入本体的根本目的是希望增加语义处理的 能力。因此,本体应用的研究非常的广泛,目前最主流的应用主要集中在这几个方面: w e b s e r v i c e s 、基于代理的分布式计算、基于语义的网页搜索引擎和基于语义的数字图书馆。 下文将研究一个语义网格下基于本体的文献搜索系统。 ( 4 ) 、本体管理系统本体服务器的开发。不同于一般的本体开发平台,本体库管理系 统需要考虑支持本体的整个生命周期,不仅要支持本体的获取,还要支持本体的进化和本体 的访问:不仅要考虑本体的安全性,也要考虑访问的性能。随着本体应用的迅速扩大,对本 体库管理系统的需求会越来越强烈。不同本体库管理的策略差异很大。因为,虽然本体从定 义上来看是领域的知识体系,是和具体应用无关的,但是,这种脱离应用建设本体的做法由 于本体本身固有的性质( 边界模糊性、进化性、应用性) ,目前情况下是较难实施的,而作 为一个本体的原形,我们应该从目前已经有的本体出发,根据应用的需要,制定相应的管理 策略。 1 4 论文主要工作 论文在分析总结现有研究成果( 包括语义网,网格,本体,本体语言的现状分析,目前 主流本体管理工具的研究) 的基础上,结合建设智能文献搜索引擎的实践,提出了对领域本 体的管理策略。虽然本体的管理系统从定义的角度来看是对领域的知识体系的管理,是和具 体应用无关的,但是这种脱离应用建设本体的做法由于本体本身固有的性质( 边界模糊性, 进化性,应用性) ,在现阶段是较难实施的,而作为本体的一个管理策略,我们可以根据具 3 东南大学硕士学位论文 体的应用需要出发,容易的获得,然后在应用中进化完善。论文主要从智能搜索引擎中本体 的管理出发,主要对本体的创建,存储,查询等方面的进行研究,同时还对未来本体管理系 统的发展,并在一些可能出现问题的方面提出作者自己的看法和见解。 1 5 论文组织结构 本文中,各章的主要内容概括如下: 第二章首先分析了本体,本体语言的现状,并重点讨论了基于x m l 本体语言,包括 r d f ,r d f s ,o w l 等,并给出了一个o w l 的例子,然后研究了几种本体查询语言,最 后探讨了目前主流的本体管理工具; 第三章提出了一个基于语义网格下的文献搜索引擎,说明了搜索系统的工作流程,结 构框架图,最后引申出了智能搜索引擎下的本体管理系统; 第四章详细研究了基于智能文献搜索的本体管理策略,包括本体的创建、存储、存储 模式、查询,并给出了一个本体查询的实例; 第五章讨论了一下未来本体管理系统在发展中可能遇到的一些问题; 第六章给出总结和未来展望。 4 东斋大学硕士学位论文 第二章本体的语言及其查询和管理 2 1 本体语言 本俸语言使缛用户为领域模型编写清晰的、形式化的概念接述,因此它应该满足以下要 求: 良好定义的语法 良好定义的语义 有效的推理支持 充分的表达能力 表达的方便性 大量的研究工作者活跃在该领域,因此诞生了许多种本体描述语言,有r d f 和r d f s ,o i l 。 d l ,o v l ,k i f 。s h o e ,x o l ,o c m l ,o n t o l i n g u a ,c y c l ,l o o m 这里简单把它们归类如下: 和具体系统相关的( 基本只在相关项目中使用的) 有:o n t o l i n g u a ,c y c i ,i o 。但是它们并没 有被广泛应用于互联网,作为一种交换格式更多的应用于企业级;和w e b 相关的有:r d f 和 r d f - s ,o i l ,d a m l ,o w l ,s h o e ,x o l 。其中r d f 和r d f s ,o i l ,d a m l ,o w l ,x o l 之问有着密切的联系, 是w 3 c 的本体语言栈中的不同层次,也都是基于x m l 的。而s h o e 是基于h t m l 的,在h t m l 的一个 扩展 2 i 1 基于l o 咖。o n t o l i n g u a ,c y c 等语言的描述 在具体的应用中,o n t o l o g y 的表示方式可以多种多样,主要可分为4 大类: 非形式化 半非形式化 半形式化 形式化语言 可以用自然语言来描述o n t o l o g y ,也可以用框架、语义网络或逻辑语言等来描述 o n t o l o g y 。虽然具体描述o n t o l o g y 的方法很多,但是目前使用展普遍的方法是o n t o l i n g u a 、 c y c l e l o o m 等。 总结如表2 1 名称描述特点 o n t o l i n g u a一种基于k i f ( k n o w l e d g e 为构造和维护o n t o l o g y 提供了统一的,计算机可 i n t e r c h a n g ef o r m a t ) 的提供 读的方式: 统一的规范格式来构建 由其构造的o n t o l o g y 可以方便地转换到各种知识 o n t o l o g y 的语言表示和推理系统( p r o l o g ) 、c o b r a 的i d l ,c l i p s 、 l o o u 、e p i k i t ,a l g e r n o n 和k i f ) ,从而将o n t o l o g y 的维护与使用它的目标系统分开: 主要用于) n t o l o g y 服务嚣 c y c l c y c 系统的描述语言,一种体 在一阶谓词演算的基础上扩充了等价推理、缺省 系庞大而非常灵活的知识描 推理等功能; 述语言 具备一些二阶谓词演算的能力: 其语言环境中配有功能银强鑫可进行推理的推理 机 l o o m o n t o s a u r u s 的描述语言,一种 提供表达能力强、声名性的规范说明语言; 东南大学硕士学位论文 基于一阶谓词逻辑的高级编 提供强大的演绎推理能力 程语言。属于描述逻辑体系 提供多种编程风格和知识库服务 后来发展为p o w r l o o m 语言( 采 用前后链规则) 作为推理机制 表2 一il o o l o n t o l i n g u a 。c y c l 等语言的比较 2 i 2 基于) 。的本体描述 前面介绍了o n t o l i n g u a 、c y c l 和l o o m 等语言,这些语言都有着强大的表达能力和演绎推 理能力,但是随瘫i w e b 的出现,人们对信息的获取不仅仅是某个特定的环境,人们需要通 过多种渠道来获取有用的信息。而w e b 越来越成为信息获取的主要渠道,因为w e b 所包含的信 息几乎是海量的。人么越来越希望通过网络这种方便:快捷的方式查询信息,同时o n t o l o g y 作为下一代语义w e b 核心组成部分,在w e b 信息检索中扮演了越来越重要的作用。这就需要有 一种通用的表示语言来描述o n t o l o g y ,以免在各种语言之间进行转换,) 0 4 l 的出现为使用一种 通用的语言来描述o n t o l o g y 成为可能。 ) 叫( e x t e n s i b l em a r k e dl a n g u a g e ) 用于为w e b 定义新文档的格式。也由标准通用标 记语言( s g m 是衍生而来,可以认为它是一种元语言,即一种定义标记语言的语言。s 酬 l 和儿 都是基于文本的格式,提供了一种使用标记( 文字由 括起) 描述文档结构的机制w e b 开发人员可能会注意到,x m l 与h i 地有些相似,这是因为这二者都是由s g 5 儿衍生而来的。 x 扎根据用途主要有以下几种: 1 作为元语言,也就是定义语言的语言,例如w 3 c 开发的很多规范都是x m l 作为元语 言的,如x e t m l 、o w l 、m a t h m l ( 数学表达式) 、s m i l ( 多媒体) 和s v g ( 图像) 等等( 更多参 见h t t p :m v w 们o r g ) ;还有非w 3 c 定义的语言如n e w s m l ( 新闻媒体) 、a 儿( 化学) 、c x 札 ( 电子商务) 、w m l ( w a p 标识语言) 和b m l ( 卫星数据传送) 等等; 2 文档管理,如企事业的技术或其它文档管理等; 3 作为信息交换的标准,如s 0 a p 。 ) a 儿甚至被誉为“w e b 上的a s c i i 码”,从a s c i i 的发展历史看出,信息的表示向标准 化每走一步,整个信息技术也向前发展一步。可以预计,x m l 作为w e b 上信息编码和交换的 标准也将大大推动信息技术的发展。 r d p ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 是一个建立在) 姗。技术之上的信息( 知识) 描述标准。r d f 数据层用于描述资源、链接及其类型,允许对结构元数据进行译码、交换和 重用。它的文档是一个由主谓宾结构的断言的集合且包括一个数据模型( r d f m s ) 和一个 s c h e m a ( r d i 唱) 。 r d f 不仅是一种表达元数据简单的方法,而且是对各种元数据进行编码,交换,以及复 用的通用框架,这种框架为各种元数据之间的互操作性提供了基础。因此,r d f 是处理元数 据的基础。r d f 一般使用) 衄。作为其语法,来描述) a 儿或非) ,的资源。r d f 已被用于许多 应用领域,如:数字图书馆,网站内容评估,表达用户偏好,生物信息学第二章等等。 r d f 提供了一个用于描述元数据的数据模型标准,这个模型就是一个三元组 p r e d ,s u b , o b j 表示的命题。一个三元组由顶点s 和顶点o ,还有一条从顶点s 到顶点。带标签p 的有 向边组成,如图2 - 1 所示: 6 东南大学硕士学位论文 图2 - 1r d f 三元组数据模型 其中,谓词( p r e d ) 是一个属性,主语( s u b ) 是一个资源,对象( o b j ) 是一个资源或 者一个字面值。根据p j ) f 规范的定义,所有用r d f 表示的事物都可称为资源。资源可以是一 个h 1 讥网页,例如h t t p :c s e s e u e d u c n t e a c h e r s t e a c h e r s h t m ;也可以网页的一部分, 例如w e b 页某个h t m l 或x m l 元素;也可以是一个w e b 页集合,例如整个w e b 站点;甚至可 以是一个不能直接从w e b 上访问的对象,例如,一本纸质书、一部移动电话或电视机等。资 源总是用u r i 加以标识。属性一般用于描述资源的特征、性质、关系,如d u b l i nc o r e 定义 的d c c r e a t o r ,d c p u b l i s h e r 和d c r i g h t s 。字面值则通常用于表示一个数据或字符串的 值,它只能用于三元组中的“o b j ”。虽然可以用u r i 表示此值,但是用字面值更直观或更 符合人们习惯,例如,命题: h t t p :w w w i ( 3 o r g ,d c # t i t l e , “w o r l dw i d ew e b c o n s o r t i u m ” ,其中“w o r l dw i d ew e bc o n s o r t i u m ”是字面值。 r d fs c h e m ar d f 所提供的建模原语非常基础,只是提供了一个模型,因此需要对其作 进一步扩展。r d fs c h e m a 在r d f 基础上增加了许多语义原语,用来更进一步增加对资源语 义上的描述能力,如类、属性、类和属性之间的隶属关系等。常用的r d fs c h e m a 原语包括: r d f :r e s o u r c e 、r d f s :c l a s s 、r d f s :l i t e r n a l 、r d f :p r o p e r t y 、r d f s :r a n g e 、 r d f s :d o m a i n 、r d f :t y p e 、r d f s :s u b c l a s s o f 、r d f s :s u b p r p p e r t y o f 等。这些描述机制是 单纯的r d f 所不具备的。另外对于r d fs c h e m a 和x m ls c h e m a ,除了名字上的相似以外,并 没有角色上的相同之处。) 咖。s c h e m a ( 包括d t d ) 描述的是一个x 1 4 l 文档中所使用的标签( t a g ) 的顺序和组合。定义了捌l 的语法,;而r d fs c h e m a 提供的是对r d f 建模表示的声明进行解 释说明的信息( 语义) ,但并不对个r d f 描述的语法外观进行约束。r d f s 虽然能表示语义, 在某一程度上也能用它来表示o n t o l o g y ,但是它没有足够的v o c a b u l a r y ( 可以理解为标签) 来表示完整意义上的知识本体。支持r d f r d f s 的工具有:a m a y a ,p r o t 6 9 6 ,m o z i l l a ,s i l r i 等等。 o w l ( 乳bo n t o l o g yl a n g u a g e ) d a m l + o i l 在提交给骼c 后,发展成了o w l 押e bo n t o l o g y l a n g u a g e ) 。o w l 作为w 3 c 的推荐标准,是其所倡导的语义万维网( s e m a n t i cw e b ) 的核心 技术之一,意在提供一种语言,能够用于描述w e b 文档和应用中固有的类和类之间的关系。 它通过定义类和类的属性来形式化一个领域,声明和定义对象和对象的属性,以及在o w l 形 式化语义允许程度上对类和对象进行推理。 o w l 建立在r d f 和r d fs c h e m a 的基础上,但增加了更多的词汇,具有更强大的描述能 力来描述类之间的关系( 如:。剥离( d i s j o i n t n e s s ) ”) ,集的基数( c a r d i n a l i t y ) ( 如“恰 好是i ”) ,等同关系,更丰富的属性类型和属性特征( 如“对称( s y m m e t r y ) ”) 等等。 在o w l 的设计需求规范中,提出了以下八点目标l l o j : 1 共享的本体( s h a r e do n t o l o g i e s ) :本体应该是共享的,不同的数据源可以用同一个本体 定义的词汇来达到共享语义的目的,而且可以通过扩展另外的本体定义新的本体。这为 异构数据源的语义集成提供了机制。 2 本体演化( o n t o l o g ye v o l u t i o n ) ;w e b 上的信息是动态的,人类知识是演化的,相应的 表示知识的本体应该支持演化能力。可以通过版本等信息支持本体自q 演化。 3 本体互操作性( o n t o l o g yi n t e r o p e r a b i l 时) :不同的本体定义的概念,关系可能表达的是 7 东南大学硕士学位论文 同一个意思或者是上下位关系,o w l 通过一些原语( 如:等价,包含,传递属性) 来 支持本体的互操作性。 4 不一致检测( i n c o n s i s t e n c yd e t e c t i o n ) :不同的本体或者数据源可能是相互矛盾的,o w l 应该可以检测出这些不一致。如根据检查c a r d i n a l i t y 限制,值域,定义域限制,不相交 属性,函数属性等来检测不一致。 5 表达和伸缩性的平衡( b a l a n c eo f e x p r e s s i v i t ya n ds c a l a b i l 时) :多年的研究和实践已经 证明,许多表达能力强的语言和逻辑的没有高效的算法,因此失去了伸缩性。所以需要对 语言的表达能力做出限制,以保证有效推理。o w l 的逻辑基础描述逻辑就目前的 研究水平来说达到了最佳平衡。 6 易用性( e a s eo f u s e ) :语言应该容易使用,尽可能降低语言的学习门槛,语言的概念 必须清晰化,概念和语法必须相互独立。语义w e b 和w e b 一样,都是为普通大众服务 的,所以易用性是语义w 曲发展和繁荣的保证。 7 和其它标准的兼容性( c o m p a t i b i l i t yw i t ho t h e rs t a n o a r & ) :o w l 应该和其它标准兼容, 如x m l ,r d f ( s ) 。甚至是u m l 等t w 3 c 的标准。 8 国际化( i n t e r n a t i o n a l i z a t i o n ) :语义w e b 是国际化的,o w l 必须支持国际化,也就是 说支持任何人类语言,而不仅仅是英语。o w l 是用x m l 作为语法格式的,x m l 支持 u n i e o & ,因此o w l 支持国际化。 各种基于) 叽知识本体语言及其关系,见图2 _ 2 图2 2 基于儿知识本体语言关系图 知识本体语言还有许多欠缺,离真正的系统实用还有一段距离要走;o w l 确- w 3 c 支持。 又吸取了其他知识本体语言的精华,有望成为最流行的知识本体描述语言,尤其在w e b s e r v i c e 与语义网络方面。 2 1 3 一个o w l 的例子: 这个例子是w 3 c 的g u u ss c h d e b e r 开发的关于制酒行业的o n t o l o g y t 。 相关背景: 对于制酒业而言,“产品地域”( p r o d u c t i o na r e a ) 是一个非常重要的f e a t u r e 。根据生产 地域的葡萄类型,酒的类型会存在很大的变化,从一个国家到一个特定的葡萄园。可以给出 四种不同的产品地域: 国家( c o u n t r y ) ,例如f r a n c e ,i t a l y 区域( r e g i o n ) ,例如b o r d e a u x ,m e d o c ,t u s c a n y 城镇( t o w n ) ,例如m a r g a u x ,m o n t a l c i n o ,m o n t e p u l c i a n o 葡萄园( v i n e y a r d ) ,例如c h a t e a um a r g a u x ,a v i g n o n e s i 而且必须为不同产品地域之间的关系建模: 区域是国家的一部分:t u s c a n y 在i t a l y 8 东南大学硕士学位论文 区域有子区域:m e d o c 是b o r d e a u x 的子区域 城镇在某区域中:m o n t a l c i n o 在t u s c a n y 葡萄园在城镇中:c h a t e a um a r g a u x 在m a r g a u x ,a v i g n o n c s i 在m o n t e p u l c i a n o 例子中,为了简化模型,决定去掉“t o w n ”,将它们都看作r e , o n 。这样做简化了模型, 并且符合实际中t o w n 作为一个产品地域在城镇周边,比城镇面积稍大或稍小的事实。 r d f s :s u b c l a s s o f r d f :r e s o u r c e = ”& v i n ;p r o d u c t i o n a r e a 虏 o w l :i n v c x s e o f r d f :r e s o u r c f ”& v i n ;h a s s u b a r e a b r d f s :s u b p r o p e r t y o f r d f :r e s o u r c e = ”& v i n ;h a s s u b a r e a b o w l :i n v e r s e o f r d f :r e s o u r c e = “& v i n ;h a s r e g i o n 1 o w l :a l l v a j u e s f t o mr d f :
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年证件打印一体机项目发展计划
- 2025年热塑性聚酯PBT工程塑料及合金合作协议书
- 如何撰写2025年房屋租赁合同以保障自身合法权益
- 教材改革与创新教学计划
- 学生美术作品欣赏与分析计划
- 探索增强幼儿科学素养的方式计划
- 在班级中培养学生的社交能力计划
- 语言文字规范化工作计划
- 2024年份5月份双语环境下语言启蒙教学评估标准
- 加强财务透明度的年度计划
- 建筑公司劳动防护用品管理制度
- 医院药品采购制度及流程
- 宿舍管理考试试题及答案
- 2025年郑州铁路职业技术学院单招职业适应性考试题库附答案
- 《审计风险防范与控制的案例分析-以康得新为例》10000字
- 2025福建德化闽投抽水蓄能有限公司招聘15人笔试参考题库附带答案详解
- 【参考】2016扣字排行榜
- 2025年二级注册计量师专业实务真题
- 基于改进YOLOv5的交通标志检测与识别
- 书店接待礼仪培训
- 骨折病人的中医饮食护理
评论
0/150
提交评论