(计算机应用技术专业论文)领域ontology的构建方法论及其存储研究.pdf_第1页
(计算机应用技术专业论文)领域ontology的构建方法论及其存储研究.pdf_第2页
(计算机应用技术专业论文)领域ontology的构建方法论及其存储研究.pdf_第3页
(计算机应用技术专业论文)领域ontology的构建方法论及其存储研究.pdf_第4页
(计算机应用技术专业论文)领域ontology的构建方法论及其存储研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机应用技术专业论文)领域ontology的构建方法论及其存储研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

领域o n t o l o g y 的构建方法论及其存储研究 摘要 如今,w e b 已经成为网络信息的主要平台,是人们获取知识的主要来源。但 是,由于w e b 页面的无结构性、超链接的自由无序性、以及w e b 内容的海量性、 多样性和动态变化性,使得人们从w e b 上搜索自己真正需要的信息很困难。为 了解决以上困难,使w e b 信息更为有序,让计算机与人更好地协同工作,t i m b c r n c r s - l c e 于2 0 0 0 年提出了语义w e b 的构想,它是对当前w e b 的扩展。语义 w e b 采用多层次的体系结构,而o n t o l o g y 位于由文档描述到知识推理转折的层 次,是实现语义w e b 的关键环节,也是目前国内外研究的热点。 本文介绍了语义w e b 的层次架构和关键技术,分析了传统w e b 在信息检索 方面存在的不足,深入的研究了o n t o l o g y 的概念、描述语言、建设方法和建设工 具,并在此基础上提出了一种演化原型化方法,以指导o n t o l o g y 的构建工作。 o n t o l o g y 的构建是一个很重要的问题,但是目前还没有成熟的方法论作指 导。演化原型法弥补了现有o n t o l o g y 构建方法的不足,减少了领域专家的参与程 度,缩短了o n t o l o g y 构建的时间,使o n t o l o g y 构建过程更加规范化,也更注重 o n t o l o g y 的进化。本文在演化原型法的指导下,构建了一个计算机课程的领域 o n t o l o g y 。在领域o n t o l o g y 的构建过程中,采用了w 3 c 推荐的o n t o l o g y 描述语 言o w l 作为编写语言,使用p r o t 6 9 63 0 编写领域o n t o l o g y 文件,采用t r i p l e s 存 储方式存储o n t o l o g y ,并提出了在心i p l e s 存储中应用了部分索引,以提高检索的 效率。并借助j e n a 实现了对计算机课程领域o n t o l o g y 准确性的评价 本文深入研究了领域o n t o l o g y 的四种存储方式,包括t r i p l e s 存储、g r a p h 存 储、垂直存储和水平存储。对大型o n t o l o g y 以及面向语义w e b 的o n t o l o g y ,提 出了分布式的构建思想,并深入研究了分布式o n t o l o g y 的管理问题。 关键词:领域o n t o l o g y ,语义w e b ,方法论,o n t o l o g y 存储,部分索引 a s t u d yo nm e t h o d o l o g i e sb u i l d i n ga n ds t o r a g e f o rd o m a i no n t o l o g i e s a b s t r a c t n o w a d a y s ,w e bb e c o m e st h em a i ni n f o r m a t i o nr e s o u r c e h o w e v e r , i ti sn o te a s y f o rp e o p l et og e tt h er e a l l yi n t e r e s t e di n f o r m a t i o no nt h ew e b ,s i n c ew e b p a g e sa r e s e m i - s t r u c t u r e0 1 n o n - s t r u c t u r e t h eh y p e r l i n k sa r ed i s o r d e r e da n dt h ed a t aa r em a s s i v e a n dd y n a m i c t os o l v et h ea b o v ed i f f i c u l t i e s ,t i mb e m e r s l e ep r o p o s e dt h ec o n c e p t o f s e m a n t i cw e bi n2 0 0 0 i ti sa ne x t e n s i o no f t h ec u r r e n tw e bi nw h i c hi n f o r m a t i o ni s g i v e nw e l l - d e f m e dm e a n i n g , b e t t e re n a b l i n gc o m p u t e r sa n dp e o p l et ow o r ki n c o o p e r a t i o n t h es e m a n t i cw 曲l l s 鼹am u l t i l e v e lf i a m c w o r kt oa c h i e v ei t sg o a l o n t o l o g yl o c a t e si nt h el e v e lf r o mt e x t u a ld e s c r i p t i o nt ok n o w l e d g e - b a s e dr e a s o n i n g s oi ti st h ek e yt oo n t o l o g i e sf o rt h es e m a n t i cw e ba n di ti sa l s ot h er e s e a r c hh o t s p o t i nc h i n aa n do v e r s e a s n l i sp a p e ri n t r o d u c e st h eh i b e r a r c h ya n dt h ek e yt e c h n i q u eo fs e m a n t i cw e b a n a l y z e st h ed e f i c i e n c i e so ft h et r a d i t i o n a lw 曲i nt h ei n f o r m a t i o nr e t r i e v e m a k e sa d e 印r e s e a r c ho nt h ec o n c e p t so f o n t o l o g y 、d e s e r i p t i l a n g u a g eo f o n t o l o g y 、m e t h o d s o fb u i l d i n go n t o l o g ya n dt h et o o l so fb u i l d i n go n t o l o g y , f i l r t h e r m o r e ,p r o p o s e s e v o l u t i o np r o t o t y p em e t h o db a s e do no n t o l o g yt og u i d et h eb u i l d i n go f o n t o l o g y b u i l d i n go n t o l o 西韶i sav e r yi m p o r t a n ti s s u e ,a tp r e s e n t ,t h e r ei sn oa n ym a t u r e m e t h o d o l o g yt og u i d et h ed e v e l o p m e n to fo n t o l o g i e s e v o l u t i o np r o t o t y p em e t h o d c o v e rt h es h o r t a g e so ft h ea c t u a lm e t h o d so fb u i l d i n gd o m a i no n t o l o g y , r e d u c e st h e p a r t i c i p a t i o no f d o m a i ne x p e r t s ,s h o r t e n st h et i m eo f b u i l d i n gd o m a i no n t o l o g y , m a k e s t h ep r o c e s so fb u i l d i n gd o m a i no n t o l o g ym o r ec a n o n i c a l , p a y sm o r ea t t e n t i o nt o e v o l u t i o no fd o m a i no n t o l o g y n l i sp a p e rb u i l d sad o m a i no n t o l o g yo fc o m p u t e r c o u r s e su n d e rt h eg u i d a n c eo fe v o l u t i o np r o t o t y p em e t h o d , w h i c ha d o p t so w l r e c o m m e n d e db yw 3 ca st h eo n t o l o g yl a n g u a g e , u s e sp r o t d g d3 0t ow r i t eo n t o l o g y f i l ea n dt os t o r eo n t o l o g yu t i l i z i n gt h em e t h o do f t r i p l e s ,p r o p o s e st ou s ep a r t i a li n d e x i nt h em e t h o do ft r i p l e ss t o r a g ef o ri m p r o v i n gr e t r i e v ee f f i c i e n c y a l s oe v a l u a t e st h e “ v e r a c i t yo f d o m a i no n t o l o g yu s i n g j c n a t h i sp a p e rs t u d i e sf o u rm e t h o d so f o n t o l o g ys t o r a g e ,w h i c hi n c l u d e st h em e t h o d s o f t r i p l e ss t o r a g e 、g r a p hs t o r a g e 、v e r t i c a ls t o r a g e a n dh o r i z o n t a ls t o r a 9 8 ,p 叩0 8 也。 缸e ao fd i s 砸b u t e db u i l d i n gf o rl a r g e d o m a i no n t o l o g ya n dt h eo n t o l o g yo ff a c i n g s e m a m 沁w e b ,t h e nd e e pr e s e a r c h e st h em a n a g e m e n t o f d i s t r i b u t e do n t o l o g y k e yw o r d s :d o m a i no n t o l o g y , s e m a n t i cw e b ,m e t h o d o l o g i e s , s t o r a g eo fo n t o l o g y , p a r t i a li n d e x 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果j 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含未获得 ! 注! 翅遗直基丝重要挂型岂明 敛:奎拦亘窒2 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:札币免 签字日期:v “年r 月z j 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权学校可以将学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:肌乔c i 纪 导师签字:黜吏碡 、 签字日期:川6 年r 月订日签字日期:弦衫年厂月日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编 领域o n t o l o g y 的构建方法论及其存储研究 1 1 课题的研究背景 第1 章引言 随着网络技术的发展和i n t e m e t 的广泛应用,w e b 已经成为全球的信息源。 据统计,目前g o o g l e 上的搜索索引就已经达到了8 0 亿之多。而7 0 年代以来, 全世界每年出版图书5 0 万种以上,期刊l o 万种以上、专利约5 0 万件、科技报 告约9 0 万件、会议文献1 0 多万篇、产品样本5 0 多万种,每年发表的科技论文 总数近5 0 0 万篇,并成指数式增长,真可谓信息浩如海洋,如何从这浩如海洋的 信息中找到自己所需要的信息,就成为信息检索的重任【1 1 。 从理论上讲,人们可以通过w e b 搜索到几乎所有方面的信息。但是,由于 w e b 页面的无结构性、超链接的自由无序性、w e b 规模的急剧膨胀性以及w e b 内容的海量性、多样性和动态变化性,使得人们从w e b 上检索到真正想要的信 息其实并不容易。如何通过w e b 精确的找到自己所需要的信息已成为目前研究 豹重要课题。搜索引擎为人们提供了检索w e b 上相关信息的方法,是人们获取网 上信息的重要手段,它是以w e b 上的信息为主要对象,提供信息的自动收集、 过滤、索引和检索导航等服务。 由于目前的搜索引擎主要是基于关键字的检索,计算机并不理解网页上的内 容,只是进行机碱的匹配,因此查找出来的结果往往与用户的需求不匹配,越来 越不适应人们的要求。它的主要缺陷有: ( 1 ) 查全率和查准率不高 由于目前的信息检索表达方式不同,主要是基于关键字的检索,机器也 只是硬性的匹配,导致一个词往往有多种表达方式,因此返回的结果常常满 足不了用户的需求,造成查准率不高。例如,马铃薯也叫豆,但我们在查 找马铃薯的返回结果中却不会有土豆的项就是这种原因。 ( 2 ) 只能发现信息,而不是知识 w e b 中包含着大量信息,而这些信息经过提炼加工可以上升为知识。单 纯的使用统计的方法是无法把海量的信息转化为知识的形态的。 ( 3 ) 不能处理同义词和一词多义问题 同义词和一词多义在自然语言中是一种常见的现象,但是目前的搜索引 领域o n t o l o g y 的构建方法论及其存储研究 擎却难以处理。例如,“马铃薯”和“土豆”是同义词,我们在g o o g l e 上 以“马铃薯”为关键词进行搜索,结果为8 9 8 ,0 0 0 项,而以“土豆”为关键 词进行搜索,结果为2 ,2 0 0 ,0 0 0 项,而且两个结果集中相同的页面很少,这 说明目前的搜索引擎不能处理同义词的问题。另外,有些词在不同的语句环 境中有不同的含义,例如,“味道”这个词在句子“这菜的味道真不错”中 是指“口感、口味”的意思,而在句子“这人长得真有味道”中指的是“与 众不同”的意思。而目前的搜索引擎却解决不了这一词多义的现象。 ( 4 ) 无法搜索提供网页上的隐含信息 隐含信息是指那些没有被文字直接表述出来,但隐含在网页内容中或者 由其他相关网页提供的一些重要的信息。例如,网页中有句子“小雅的妹妹 是小婉”,我们经过推理可知道“小婉的姐姐是小雅”,但是目前的搜索引 擎不能实现这样的推理工作,因此不能提供网页上的隐含信息。 产生以上问题的原因主要是网页上的信息大部分是一种无结构或者半结构 的数据,只能供人阅读,计算机不能理解信息的含义。要想解决以上问题,必须 赋予网上的资源各种明确的语义信息,让计算机可以分辨和识别这些语义信息 但是想要给各种资源加上语义信息,对语义w e b 2 1 的建立是一项很具挑战 性、十分困难而又具有重大意义的工作,其主要困难主要表现在技术、观念以及 内容的规模上p 】。不可能在短时间内建立语义w e b 的所有技术标准,w e b 上的 海量信息也不可能在短时间内全部建立语义标记。 1 2o n t o io g y 的国内外研究现状 o n t o l o g y 的研究与应用主要包括3 方面:( 1 ) 理论上的研究,主要研究概念及 其分类、o n t o l o g y 上的代数;( 2 ) 在信息系统中的应用,主要包括处理信息组织、 信息检索和异构信息系统互操作问题;( 3 ) o n t o l o g y 作为一种能在知识层提供 知识共享和重用的工具在语义w 曲中的应用。 ( 1 ) o n t o i o g y 的理论研究 o n t o l o g y 的理论研究包括概念及概念分类、o n t o l o g y 上的代数等。其中最有代 表性的是g u a r i n o 等人对溉念及其分类进行的研究工作。 o n t o l o g y 的本质是概念模型。表达的是概念及概念之间的关系。长期以 2 领域o n t o l o g y 的构建方逵垦尽其存储研究 来,o n t o o h m , 应用的一个常见的问题是分类结构不明确,没有一个统一的分类标 准,或者说一个分类理论。不同的应用从各自的角度出发,无限制地使用包含关系, 对概念进行各种分类,使得概念分类的一致性和合理性难于得到控制。g u a r i n o 等 人在文献【5 ”5 1 对概念的分类做了深入细致的研究,从一般的意义上来分析什么是 概念、概念的特性、概念之间的关系及概念的分类,提出了一套用于指导概念分 类的可行理论。在该理论的基础上,他进一步提出了o n t o l o g y 驱动的建模方法, 从而在理论上为建模提供了一个通用的模式。 概念分类理论的基础是概念的元特性。以概念的元特性为出发点,按照一定 的规则,把具有相同元特性组合的概念归为一类,进而给出一般意义上的概念分类 体系。概念的基本元特性包括:持久特性、非持久特性、反持久特性、半持久特 性、载体标识特性、支持标识特性及外部依赖特性等。 g u a r i n o 等人提出的概念分类体系,不仅从理论上澄清了概念分类上存在的 模糊和混淆的现象,同时为实际应用中o n t o l o g y 概念模型的建立提供了良好的 分析、设计和评估的手段。 ( 2 ) o n t o l o g y 在信息系统中的应用 目前,信息检索技术可分为3 类:全文检索( t e x tr e t r i e v a l ) 、数据检索( d a t a r e t r i e v a l ) 和知识检索( k n o w l e d g er e t r i e v a l ) 知识检索是信息检索研究的重点,特别 是面向w e b 信息的知识检索。 常规的直接基于关键词的信息检索技术己不能满足用户在语义上和知识上 的需求,寻找新的方法也就成为目前研究的热点o n t o l o g y 具有的良好的概念层 次结构和对逻辑推理的支持,因而在信息检索,特别是在基于知识的检索中得到了 广泛的应用5 7 1 。在信息检索领域,o m o l o g y 的研究内容包括: ( 1 ) 在领域专家参与下,借鉴叙词表的知识体系,选择一个专业领域,建立专 业领域术语词汇的词间关系,并总结科学的构建词间关系的程序流程; ( 2 ) 建立包含各类词问关系的领域数据牢,其中包含叙词系统的知识体系; ( 3 ) 通过计算机语言程序,借助语义相关和扩展标i 潞( x m l ) ,编f l 自j o n t o l o g y 知识集成系统; ( 4 ) 将包含词闻关系的数据库转化到o m o l o g y 系统中,构建成专业领域 o n t o l o g y : 领域o n t o l o g y 的构建方法论及其存储研究 ( 5 ) 最后为对建立的o n t o l o g ) i ! 行信息检索验证,对比基于关键词的信息检索, 分析基于o n t o l o g y 的检索结果。 需要说明的是,如果检索系统不需要太强的推理能力,o n t o l o g y 可用概念图 的形式表示并存储,数据可以保存在一般的关系数据库中,采用图的匹配技术来完 成信息检索。如果要求比较强的推理能力,一般需要用一种描述语言 ( 如:l o o m ,o n t o l i n g u a 等) 表示o n t o l o g y ,数据保存在知识库中,采用描述语言的逻 辑推理能力来完成信息检索。由于o n t o l o g y 能通过概念之间的关系来表达概念 语义的能力,所以能够提高检索的查全率和查准率。 ( 3 ) o n t o l o g y :在语义w e b 的应用 语义w c b 的目标是使得w e b 上的信息具有计算机可以理解的语义,满足智能 软件代 里( a g e n t ) 对w w w 上异构和分布信息的有效访问和搜索。b e r n e r s l e e 为 未来的w e b 发展提出了基于语义的体系结构语义w e b 体系结构。其中核心层为 ) c m l 、r d f 、0 n t o l o g y ,这3 层用于表示w e b 信息的语义。 由于) 0 v 【l 中的标签( t a g s ) 集和r d f 中的属性( p r o p e r t i e s ) 集都没有任何限制。 另外,用皿和r d f 并不能解决如下问题:如果某个医院和某个大学的w e b 页面上 都有( d o c t o r ) ,那么d o c t o r 代表的是医生还是博士? 因此舢和r d f 在处理语 义上存在两个问题( 1 ) 同一概念有多种词汇表示;( 2 ) 同一个词有多种含义( 概 念) 。 为了解决上述两个问题,很自然地需要i x o n t o l o g y 。o n t o l o g y i 砬过对概念的 严格定义和概念与概念之间的关系来确定概念精确含义,表示共同认可的、可共 享的知识。对于o n t o l o g y 来说 a u m o r ,c r e a t o r g l w f i t e r 是同一个概念,而d o c t o r 在大 学和医院分别表示的是两个概念。因此在语义w e b q b ,o n t o l o g y 具有非常重要的地 位,是解决语义层次上w e b 信息共享和交换的基础。 语义w e b 是一个新兴的研究方向,o n t o l o g y 名e 其中的应用也仅仅是刚刚开始, 还有许多的问题需要研究和解决。目前有许多著名的大学和科研机构在从事这方 面的研究,著名的项目有o i l t 2 7 1 、s h o e 2 5 1 、d a m l 2 8 l 。 1 8 本文的组织结构 本文着重研究领域o n t o l o g y 构建的方法论和存储方式,及其对构建后的 4 领域o n t o l o g y 的构建方法论及其存储研究 o n t o l o g y 如何评价,为山东省自然科学基金资助项目“基于o n t o l o g y 的海洋科 技文献共享平台研制”研究奠定了基础,。全文安排如下:第2 章“语义w e b ”, 详细介绍了语义w e b 的基本构架,以及关键技术x m l 、r d f 、o n t o l o g y ( o n t o l o g y ) ,从而引出o n t o l o g y 的概念。第3 章“o n t o l o g y 理论”,首先对o n t o l o g y 的研究现状进行综述,在介绍该领域的基本概念之后,对o n t o l o g y 研究中的几个 主要的热点问题进行调研,包括o n t o l o g y 的建模方法、o n t o l o g y 的描述语言和 o n t o l o g y 的建设工具;第4 章主要研究领域o n t o l o g y 构建的方法论,提出了演化 原型法,指导o n t o l o g y 的建设过程,并把这种方法用于构建计算机专业课程的 o n t o l o g y ,并借助j e n a 对o n t o l o g y 的准确性做出评价;第5 章主要介绍了o n t o l o g y 的多种存储方式,并提出对其中的t r i p l e s 存储方式应用部分索引,以提高检索 效率。第6 章首先提出了对大型o n t o l o g y 或者面向w e b 的o n t o l o g y 进行分布式 构建是必要的,然后讨论了分布式o n t o l o g y 的管理。最后,在结束语中总结了本 文的创新和不足、未来的工作建议和未来要研究的方向。 顿域o n t o l o g y 的构建方法论及其存储研究 2 1 概述 第2 章语义w e b 万维网是互联网最重要和最广泛的应用之一,利用万维网用户可以浏览互联 网上所有的信息资源。但是,万维网存在两个明显的不足: ( 1 ) 计算机不能理解网页内容的语义,例如,对于网上一组字符“0 9 0 5 a ”,计 算机分不清它代表的是上午时间“九点零五分”,还是澳大利亚货币“九点零 五元”,因此处理的结果可能不能满足用户的需求; ( 2 ) 网上有用信息难找,即使借助功能强大的搜索引擎,查准率也比较低,它 在帮助用户找到成批相关网页的同时,也夹杂了许多用户不需要的信息垃圾。 存在这些问题的原因在于万维网现在采用的超文本标记语言h t m l ,网页上 的内容设计成专供人类浏览的,而非供计算机理解和处理的,因此无法为用户提 供自动处理网上数据的功能。此外,万维网是按“网页的地址”,而非“内容的 语义”来定位信息资源的,网上所有信息都是由不同的网站发布的,相同主题的 信息分散在全球众多不同的服务器上,又缺少有效工具能将不同来源的相关信息 综合起来,因此形成了一个个信息孤岛,查找自己所需的信息就像大海捞针一样 困难。 因此,人们希望能够按内容的语义表达需求,可以迅速准确的从成千上万的 网页中过滤出自己感兴趣的内容,同时使计算机能够理解网页内容,帮助人们处 理许多繁琐的日常事务,语义w e b 应运而生。 语义w e b 是按照能表达网页内容的“词语”链接起来的全球信息网;换言 之,是用机器很容易理解和处理的方式链接起来的全球数据库。它是现有的万维 网的变革和延伸,它将使“理解网上信息的含义”不再是只有人类才能做到的事 情,计算机在一定程度上也能做到,从而有助于信息与智能的共享,并使网络有 能力提供动态和主动的服务,从而更利于人机之间的对话和协同工作。语义w e b 最大的好处是可以让计算机具有对网络空间所储存的数据,进行智能评估的能 力。这样。计算机就可以像人腩一样“理解”信息的含义,完成“智能代理”的 功能。使用语义w e b 搜索引擎搜索的结果也将比万维网更为精确。 领域o n t o l o g y 的构建方法论及i 堕储研究 2 2 语义w e b 的层次构架 b e m e r s l e e 在提出语义w e b 概念的同时也提出了语义w e b 的体系结构,如 图2 1 所示:从底层到高层分别是:u n i c o d e 与u r i ,x m l ,r d f ( s ) ,o n t o l o g y , l o g i c ,p r o o f , t r u s t 。 图2 1 语义w e b 的体系结构 可以看到,语义w e b 是一个多层次结构,各层功能逐渐增强,下层向上层 提供支持。语义w e b 供可以分为七层,其中它的第二层、第三层和第四层这三 层是语义w e b 的核心层,用于表示w e b 信息的含义,也是目前国内外研究的热 点。下面,对语义w e b 各层分剐作一下介绍。 ( 1 ) u n i c o d e 和u i u 层 这是语义w e b 的最底层,也是整个语义w e b 的基础。u n i c o d e 是一个字符 编码系统标准,支持世界上所有主要语言文本的混合,它可以保证我们使用国际 化、通用化的字符集,避免不同类型字符集之间由于编码不同而造成的存储、传 递和使用上的混乱,同时也可以实现多国语言的混合存储和使用。u r i ( u n i v e r s a l r e s o u r c ei n d i c a t o r 统一资源定位器) 是u r l ( u n i v e r s a lr e s o u r c el o c a t o r ) 的超 集。u r i 是i n t e m e t 资源的一种识别方法,负责标识资源,准确的告诉计算机信 息的含义。在语义w e b 中,任何可以放描述的事物,如网络中的一个w e b 页面 或肴站点、现实中的一个人、一座山等,都可以称为资源,每一个资源都由唯一 一个u r i 所标识,不同的资源拥有不同的u r i ,语义w e b 的统一逻辑语言将这 7 领域o n t o l o g y 的构建方法论及其存储研究 些概念连到w e b 上,并且为整个w w w 所共享。 ( 2 ) x m l 和煳ls c h e m a 层 这一层主要用于从语法上表示数据的内容和结构,通过使用标准的格式语言 将网上资源和信息的表现形式、数据结构和内容分离。 。 x m l 主要用于使信息自描述,准确的告诉机器信息的含义,x m l 包含一些 规则,任何人都可以根据这些规则创建一个标记语言,规则保证一个称为分析器 的简洁程序可以处理这些新语言。x m l 依赖于u n i c o d e ,因此它能在不同计算 机系统间交换信息,也超越了国家和文化的边界;n s ( n a m es p a c e ) 是x m l 的 名称空间,由u r i 的索引确定,在) 函也文档中用作元素类型和属性名;x m l 模式( s c h e m a ) 是描述x m l 文档内容的模型。 ( 3 ) r d f 和r d fs c h e m a 层 提供的语义模型用于描述w e b 上的资源及其类型,为网上资源描述提供了 一种通用表示框架,实现数据集成的元数据解决方案。 r d f ( r e s o u r c ed e s c r i b i n gf r a m e w o r k ,资源描述框架) 定义了一种用于描述资 源及其相互关系的简单模型,是语义w e b 实现的关键技术之一,也是语义信息 描述的有效手段。r d f 可提供一种处理元数据的环境,元数据即描述数据的数 据,其语法可用x m l 定义,网上的数据是机器可读取的,但不一定是机器可理 解的,如果网上的数据都遵循一种标准的描述或标记方法,那么计算机对于它们 处理的资源一定会理解的更多,所以r d f 标准为语义w e b 奠定了基础r d f 基 本数据模型包括三类对象:资源、属性和语句,通常可以用三元式 描述;其中,被描述的资源称为s u b j e c t ,描述资源的属性称为 p r e d i c a t e ,o b j e c t 则是被描述资源的属性所对应的值。 r d f 通过属性和值描述了资源及资源之间的关系,但并没有提供描述这些 属性和属性间关系的机制。r d fs c h e m a ( 简称r d f s ) 提供了这种表达机制, 它引入一个面向对象、可扩展的类型系统到r d f 中,提供方法定义合适的定义 域和值域,以及类和子类层次。 x m l 和r d f 都能为所表述的资源提供一定的语义。但是x m l 中的标签和 r d f 中的属性集部没有任何限制,它们不能处理以下问题:同一概念有多种词 汇表示;同一个词汇表示多种概念。这一问题在o n t o l o g y 层得到解决。 8 塑域o n t o l o g y 的构建方法论避其存储研究 ( 4 ) o n t o l o g yv o c a b u l a r y 层 用来定义应用领域中的共享知识,从而对各种资源之间的语义关系进行描 述,揭示资源本身以及资源之间更为复杂和丰富的语义信息。语义信息的交流必 须以共同的理解为前提,否则双方就会发生误解或者不理解。在语义w e b 中, 这种“共同理解”是由o n t o l o g y 建立和提供的。 o n t o l o g y 也叫做本体,最早是哲学上的一个概念,现在有很多领域都引入了 o n t o l o g y 的概念,如数据库设计、电子商务和知识管理等。1 9 9 3 年,g r u b e 给出 了o n t o l o g y 的一个最为流行的定义:o n t o l o g y 是概念模型的明确的规范说明。后 来,b o r s t 在此基础上,给出了o n t o l o g y 的另外一种定义:o n t o l o g y 是共享概念 模型的形式化规范说明。1 9 9 8 年s t u d e r 对上述两个定义进行了深入研究,将 o n t o l o g y 定义为“共享概念模型的明确的形式化规范说明”,其中概念模型,是 指通过抽象出客观世界中一些现象的相关概念而得到的模型;明确,是指所使用 的概念及使用这些概念的约束都是有明确定义的:形式化,是指o n t o l o g y 中体现 的是共同认可的知识,反映的是相关领域公认的概念集。 o n t o l o g y 是某领域内概念的显式说明和对应的词汇用于描述该领域,一个 o n t o l o g y 可以描述事情的类型之间的关系,如“这是一个过渡的性质”。o n t o l o g y 词汇提供更多元信息,互操作性和互转换性,信息的无缝交换已成为w e b 成功 开发的关键问题。o n t o l o g y 提供了方法捕捉人和机器使用的术语的共享理解性, 帮助信息交换。 ( 5 ) o n t o l o g y 的以上各层;l o g i c 、p r o o f 和t r u s t 层 这三层位于语义w e b 体系结构的项部,也是语义表达的高级要求,目前在 国内外还处于起步阶段,也有一些简单的示范性应用系统正在建设中。其中, l o g i c 即逻辑层,它是在以下四层的基础上进行逻辑推理操作,但目前还没有一 个标准的推理机,各种推理机有不同的推理能力:p r o o f 层即验证层,这一层是 根据逻辑陈述进行验证以得出结论;t r u s t 层即信任层,主要是在用户间建立信 任关系 ( 6 ) d i g i t a ls i g n a t u r e ( 数字签名) 数字签名跨越了中间四层,位于层次模型的右侧。数字签名是一种基于互联 网的安全认证机制。当信息内容从一个层次传递到另一个层次时,允许使用数字 9 领域o n t o l o g y 的构建方法论及其存储研究 签名说明内容的来源和安全性,这样接受方就可以通过它来鉴别起来源和安全性 来决定是否接受。它对于语义w e b 及其使用x m l 进行信息交换的系统非常重要。 以上这些技术层中u n i e o d e 和u r i 层、x v i l 和x m l s c h e m a 层以及o n t o l o g y 层已经比较成熟,w 3 c7 - 作组正在对这些技术层进行标准化。而最高层的逻辑 层、推理层和信任层目前仍然处于研究阶段。当推理层运行规则时,逻辑层能够 完成规则的写入。无论是否信任给定的推理,逻辑层总可以与信任层一起对应用 的机制做出评价。 2 3 语义w e b 的关键技术 2 3 1x m l 技术 x 虬( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 是w 3 c ( w o r l dw i d ew e b c o n s o r t i u m ,万维网联盟) 推荐的下一代网页发布语言,是一种定义标记语言的 工具。x m l 是s g m l ( s t a n d a r dg e n e r a l tz em a r k u pl a n g u a g e ,标准通用标记语言) 的子集,保存了s g m l 的可扩展性、结构化和有效性等特点。虽然,x m l 和耵m l 都是s g m l 的子集,由于在扩展性问题上的差异,相比较而言,h t m l 是被设计用 来显示数据的,重点是,显示数据以及如何显示数据更好,而x m l 是被设计用来 描述数据的,重点是,什么是数据,如何存放数据x m l 使用简单灵活的标准格 式,为基于w e b 上的应用提供了一个描述数据和交换数据的有效手段。 x m l 用来描述结构化数据,包括以下几个方面内容:d t d ( d o c u r n e n tt y p e d e f i n i t i o n ,文档类型定义) 、x s l ( e x t e n s i b l es t 、l l es h e e tl a n g u a g e ,可扩展样式语 言) 和x l l ( e x t e n s i b l el i n l 【l a n g u a g e ,可扩展链接语言) 等 d t d 规定了x m l 文件的逻辑结构,定义了x m l 文件中的元素、元素的属 性以及元素与元素之间的关系。它可以帮助m 。的分析程序校验x m l 文档标 记的合法性;x s l 是用于规定x m l 文档样式的语言,它能在客户端使w e b 浏 览器改变文档的表示法,从而不需要再与服务器进行交互;x l l 将进一步扩展 目前w e b 以后的简单链接。 n s ( n a m es p a c e 。名称空间1 ,指的是x m l 文档引用多个d i d 杯记的机制, 通过在标记前加入d t d 的引用前缀,可以避免不同组织使用相同名称的标记而 1 0 领域o n t o l o g y 的构建方法瞎及其存储研究 引起的冲突当我们在元素的开始标记处使用名称空间时,该元素所有的子元素 将通过一个前缀与同一个名称空间相互关联。 x m l 作为一种资源描述语言,不仅提供对资源内容的表示,同时也提供资 源所具有的结构信息。x m l 让每个人都可以创建自己的标记,允许用户在文档 中加入任意的结构,但无须说明这些结构的意义。对于语义网来说,仅有x m l 是不够的,还需要提供描述x m l 资源的元数据。r d f 是w 3 c 推荐的用于描述 和处理元数据的,是处理元数据的基础。 一个最简单的x m l 文件如下所示: 二 d , 荚 小林 周末一起去吃火锅a 牙 2 3 2r d f 技术 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架) 是一种用于表示w e b 上信息的框架,它是w 3 c 推荐的来解决) 。沮,的语义局限的标准。r d f 提供了 一种处理元数据的环境,元数据即描述数据的数据,它使用的是x m l 的语法, 提供了一个描述特定资源内容的标准。 r d f 的初衷是希望能重新定义互联网上数据的组织方式,从而让计算机能 自动处理存在的海量数据。r d f 用一种计算机可理解的方式组织元数据。让我 们设想这样一种情况:某一经营网上书本销售的门户网站,它们需要定时向网上 的书本供货商索取书目和书的报价。这些书目和书的报价可以构成元数据,若关 于书目的元数据以r d f 的形式描述,则该门户网站只要定时得到供应商的元数 据就可以了不必费劲的从各个不同供应商的网站中千辛万苦的搜索有用的信 息。 r d f 模型语法用来表示r d f 的元数据,它定义了一个简单的模型,该模型 通过命名的属性和属性值来表示资源之间的关系和资源内部的关系。r d f 的基 本数据模型包括三种对象类型:资源、属性和语句。其中,资源是指以u r i 可 唯一确定的任何对象,指所有r d f 表达式描述的事物。资源可能是部分、完整 领域o n t o l o g y 的构建方法论及乓存储研究 网页或网页集,也可能是w e b 不能直接访问的对象;属性指的是被描述资源所 具有的特性,包括资源的特点、性质与其他资源之间的关系等等;语句指的是被 描述资源的属性所具有的值。 r d f 中的三元组是由u i u n i v e r s a lr e s o u r c ei d e n t i f i e r ,统一资源定位器) 识 别的。给每个不同的概念应用不同的u r i ,可以解决语义网同一领域中一词多义 的问题。考虑下面的三元组: h t t p :l l w w w v a l c r i e d e , h a s c r e a t o r , v a l e r i e 其中该三元组的资源是h t t p :w w w v a l e r i e d e :属性是h a s c r e a t o r ;语句是v a l e r i e 。 这个三元组的图形表示如图2 _ 2 所示: 图2 2r d f 模型的图示 三元组和图形是同一r d f 模型的两种不同表示方法。还可以用x m l 文档来表 示r d f 模型。 r d f 用容器( c o n t a i n e r ) 这个概念来表示事物的集合。r d f 有三种容器类 型,包( b a g ) 、序列( s e q u e n c e ) 和选择( a l t e r n a t i v e ) 包和序列均用于表示具 有多个值的资源或者是文字的集合,包中的值可以是无序的,而序列中的值必须 是有序的。选择则表示具有可选值的资源或者是文字的集合。 r d fs c h e m a ( m ) f s ) 定义某种领域内对象的类别特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论