




已阅读5页,还剩70页未读, 继续免费阅读
(计算机应用技术专业论文)xml语义信息提取与本体构建机制研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
x m l 语义信息提取与本体构建机制研究 王洪泉( 计算机应用技术) 指导教师:时念云副教授徐九韵副教授 摘要 x m l 作为w 3 c 数据描述和交换的标准格式语言,已经得到了广泛 的应用,不论是s e m a n t i cw e b 还是w e bs e r v i c e s 都采用x m l 作为其数 据表示和数据交换的标准格式,) a l 业已发展成为信息应用等领域数 据表示与数据交换的主要媒介。但是,x m l 本身只能表达数据的语法, 而不能表示形式化的语义。隐含在l 文档中语义信息只对人类来说 有较大意义,而计算机却难以理解。要实现计算机的对文档信息的理解 和自动处理,文档数据中必须包含明确的语义级信息。本体描述了一个 专业领域知识中重要概念的明确描述以及概念之间的关系。在本体建设 过程中存在很多大量重复性的工作,完成这些工作需要领域专家和知识 工程师的参与,因此从零开始为每类专业领域建立本体并不是最适宜的 方法,最切实际、经济的方法是从现存w e b 中的信息资源中提取语义信 息,构建相应的本体。本论文提出了一个可以抽取蕴含在一组语义相似 的x m l 文档中语义信息的系统框架,该系统可以构建一个表示这一组 x m l 文档的o w l 本体文档以及描述每个x m l 文档资源的本体实例 r d f 文档。在这个本体以及本体实例文档的支持下,可以实现这一组 x m l 文档间的语义级操作,从而将x m l 描述的信息从语法层提升到语 义层。在语义知识获取领域,该系统可以在一定程度上缓解人力的消耗。 关键词:x m l ,x m l 语义,本体,r d f ,o w l r e s e a r c ho ne x t r a c t i n gx m 匝s e m a n t i c s a n db o o t s t r a p p i n go n t o l o g i e sa u t o m a t i c a l l y w a n gh o n g q u a n ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db ya s s o c i a t ep r o f e s s o rs h in i a n - y u n ,a s s o c i a t ep r o f e s s o rx uj i u - y u n a b s t r a e t a st h ew 3 cs t a n d a r dd o c u m e n tf o r m a tf o rw r i t i n ga n de x c h a n g i n g i n f o r m a t i o no nt h ew e b x m lh a sr e a c h e daw i d ea c c e p t a n c ea sd a t a e x c h a n g ef o r m a tl a n g u a g eb e t w e e ni n t e r n a la n d e x t e r n a lo r g a n i z a t i o n s m o r e a n dm o l ex m ld o c u m e n t sh a v eb e e nu s e df o rd a t ae x c h a n g eb e t w e e n i n t e r n a la n de x t e r n a le n t e r p r i s e s ,s u c ha sw e bs e r v i c e s ,s e m a n t i cw e be t c h o w e v e r , x m li t s e l fo n l yp r o v i d e ss y n t a xa n dl i t t l em e a n i n g so fx m l d o c u m e n tc o n t e n t x m li t s e l fd o e sn o th a v et h ea b i l i t yt os p e e i 母m e a n i n g o ft a g sa n di n t e n t i o no fn e s t e ds t r u c t u r e h u m a n sc a n e a s i l yu n d e r s t a n dt h e i n f o r m a t i o nu n d e r l y i n gi na l lx m ld o c u m e n t ,b u tm a c h i n ec a n tp r o c e s s e f f e c t i v e l y f o rm a c h i n et oa c c e s sa u t o m a t i c a l l y ,t h ex m l d o c u m e n tm u s t c o n t a i nf o r m a ls e m a n t i c s a no n t o l o g yi sc o m m o n l yd e f i n e da sa ne x p l i c i l f o r m a ls p e c i f i c a t i o no fas h a r e dc o n c e p t u a l i z a t i o no fad o m a i no fi n t e r e s t s e c a l l s ed e v e l o p i n go n t o l o g i e sf r o ms c r a t c hi sc o s t l ya n d t e d i o u s , e x t r a c t i n g s e m a n t i ci n f o r m a t i o nf r o me x i s t i n gd a t as o u r c e sa u t o m a t i c a l l yi si n t e r e s t i n g i nt h i sp a p e r , w ep r e s e n taf r a m e w o r k ,w h i c hc o n s t r u c t ss p e c i a l i z e dd o m a i n o n t o l o g i e sb yo r g a n i z i n g a n d m i n i n g as e to fs e m a n t i c s i m i l a rx m l d o c u m e n t sa n dg e n e r a t et h er d fm e t a d a t ad e s c r i p t i o nf o re v e r yx m l d o c u m e n t i ns u p p o r to ft h eg e n e r a t e do n t o l o g y , s e m a n t i ci n t e r o p e r a b i l i t y c a nb e c o m ee a s i l ya m o n gm u l t i p l ex m ld o c u m e n t sa n dx m ld a t ac a nb e n i l i f t e df r o mt h es y n t a c t i cl e v e lt ot h es e m a n t i cl e v e l i np a r t st h i sm e t h o di s u s e f u lt oa l l e v i a t eh u m a nw o r k l o a di ns e m a n t i ci n f o r m a t i o na c q u i s i t i o n k e yw o r d s :x m l ,x m ls e m a n t i c s ,o n t o l o g y , o w l ,r d f 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中国 石油大学或其它教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了 谢意。 签名:至速挺 瑚7 年斗月m 关于论文使用授权的说明 本人完全了解中国石油大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件及电子版,允许论文被查阅和借阅:学 校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手 段保存论文。 ( 保密论文在解密后应遵守此规定) 学生虢墓邀袅 加四年啦月i 目 导师躲咝瞌缝哟岬年丫月1 日 中国石油大学( 华东) 硕士论文第1 章前言 第1 章前言 1 1 研究背景 1 1 1 刑州网络的特点和不足 自从万维网( w o r l dw i d ew e b ,w w w ) 1 9 8 9 年起源以来,万维网技 术已经融入到人们的日常工作、学习中的各个角落,万维网的快速发展已 经深刻改变人们彼此交流的方式、信息获取的渠道、商业经营的理念等。 万维网的发展也改变了人们对计算机的认识,最初计算机只是用来数字计 算,而现在计算机的主要应用则是如何对信息的有效处理。 万维网的系统架构是基于u r l ,h t t p 和h t m l 三个基本协议之上的, 其中u r l 提供了资源定位的标准,h r r p 和h n 仉提供了超文本的传输 和表现的标准。在i n t e m e t 上几乎到处可以看到h t m l 书写的精美网页。 h t m l 是迄今最成功的电子出版语言,h t m l 以简单精练的语法、极易掌 握的通用性与易学性,在当今世界互联网的蓬勃发展过程中,h t m l 起着 非常重要的作用。 h t m l 注重数据的表现形式,而不强调数据的结构,但随着万维网的 迅速发展、网络信息的不断增长,这种以h t m l 页面为主要表现形式的网 络不断暴露出其弊端,并阻碍了其进一步的发展: h t m l 是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e 标准通用 标记语言) 的一个实例,它的d t d ( d o c u m e n t t y p ed e f i n i t i o n 文档类型定 义) 作为标准被固定下来,不再具有扩展性,满足不了用户的创建新的信 息结构的要求。 表达能力有限,无法表达数学公式、化学公式等专业术语的表达。 h t m l 将显示格式与数据表示混合在一块,因此h n ,f l 书写的w e b 页面维护起来十分困难,而且由于许多页面的u r l 地址经常变化,而只能 在文档中修改u r l 地址,大大加重了w e b 页面的维护工作量。 h t m l 不支持元数据,难以开发高效率查询的搜索工具。 h t m l 不支持国际字符集。 目前的这种网页内容的设计仪仅针对人类自身的,网页信息的表现方 中国石油大学( 华东) 硕士论文第1 章前言 式也多为自然语言、图片、声音等方式,这些表示数据的方式也仅适应于 人类的阅读和理解,并不适宜计算机理解与处理【1 1 。目前,网上查询信息、 网上信息交流以及网上电子商务等主要网络行为并不能被软件工具很好的 支持。例如:现在人们最常使用的查询信息网络工具是y a h o o 、g o o g l e 等 的搜索引擎,这些搜索引擎都是采用基于关键字为主进行信息查询的方式, 很难在查准率和查全率这两个方面有所突破,搜索到的页面也只是和搜索 关键字相匹配的页面,这样方面可能会遗漏大量内容相关的页面,另一 方面找到太多与意向不相关的页面。另外用户更难以让w e b 作更多的、功 能远远超过目录和搜索的事情,比如让w 曲为用户安排一个去某地的时刻 计划表。 这种机器难以理解的网络越发展,人们拥有的信息量越大,但人们往 往更加难以准确得到想要的信息。 由于h t m l 页面中数据的内容和表现混在一起,而基于w 曲的应用需 要利用后台的数据以及在应用系统之间进行数据的交换,这促使万维网联 合会( w d r l dw i d ew 曲c o n s o r t i u m ,w 3 c ) 开发了一种新的标记语言 可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e ,x m l ) ,在工业界获得了巨 大的成功,x m l 已经成为w e b 上数据表示和数据交换的实施标准,发展成 为w 曲技术架构的基础。 为了让w e b 发挥更大的潜能,t i mb e m e r s _ l e e l 2 j 于1 9 9 8 年首次提出 语义网的概念,w e b 开始迈向语义网的发展道路。 1 1 2 发展中的s e m a n t i cw e b 在2 0 0 0 年的世界x m l 大会上万维网创始人t i m b e m e s l e e 作了题为 s e m a n t i cw 曲的演讲,对语义网做了如下描述1 2 j :语义网并不是一个孤立的 万维网,而是对当前万维网的扩展,语义万维网上的信息具有定义良好的 含义,使得计算机之间以及人类能够更好的彼此合作。语义网的目标是创 建一个通用的数据交换平台,不仅仅是网页,而且包括各种数据库、服务 器、自动化程序、个人设备甚至家用智能工具都可以在这个平台上分享和 创建数据,对信息含义的理解不再是只有依靠人才能完成的事情,机器同 样也可以完成这样的工作。例如,我们看到网页上的天气预报,自然就会 知道其中的含义,但计算机并不知道在那么多的数字中,哪个数字代表 2 中国石油大学( 华东) 硕士论文第1 章前言 温度,哪一个数字代表湿度。而语义网的意义就要在隐藏的编码中,指明 哪个数字代表温度,哪个数字代表湿度,并且说明“温度”和“湿度”的 含义。 研究语义网的主要目的,就是扩展当前的w w w ,使得网络中尽可能 多的信息都是具有语义的,是计算机能够理解和处理的,便于人和计算机 之间的交互与合作。其研究重点就是如何把信息表示为计算机能够理解和 处理的形式,即带有语义。其最终目标是提高互联网的自动化和智能化, 使计算机可以在w e b 资源中准确高效找到用户所需要的信息,从而将万维 网中一个个现存的信息孤岛,发展成一个巨大的知识库。 t i mb e t n e r s l e e 在这次会议上对“s e m a n t i c ”和“w e b ”的概念进行了 解释,提出了s e m a n t i cw e b 的体系结构并预见了这个体系结构在未来十年 将得到发展。s e m a n t i cw e b 的体系结构p 】如图1 一l 所示: 图1 一ls e m a n t i cw e b 体系结构 其中: 第一层:u n i c o d e 是一个新的字符编码系统标准,这个字符集中所有字 符都用两个字节表示,可以表示6 5 5 3 6 个字符,基本上包括了世界上所有 语言的字符。它可以在不同的语言、平台、程序中为不同字符提供了唯一 的编码,用以支持世界上所有主要语言文本的混合。u r l ( u l l i f o r mr e s o u r c e i d e n t i f i e r s 统一资源标志符) 用于标识w e b 上的资源:文档、图片、下载 文件、电子邮箱、服务等其他资源,保证在s e m a n t i cw e b 上的概念唯一性 的标识。在语义网体系结构中,该层是整个语义网的基础,其中u n i c o d e 负责处理资源的编码,u p d 负责资源的标识。 3 中国石油大学( 华东) 硕士论文第1 章前言 第二层:x m l + n s + x m l s c h e m a 。x m l 是s e m a n t i cw e b 的语法层,为 s e m a n t i cw e b 的建立提供对数据表示的通用语法基础,x m l 最大的特点是 用户可以根据自己的需要制定能反映数据内容的标签,实现数据结构和数 据内容的分离。n s ( n a m es p a c e ) 即命名空间,由u r i 索引确定,目的是 为了避免不同的应用使用同样的字符描述不同的事物。x m l 通过x m l s c h e m a 来限制x m l 文档的结构。该层负责从语法上表示数据的内容和结 构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。 第三层:r d f + r d f s c h e m a 。r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k 资源 描述框架) 是一种描述w w w 上的信息资源的一种语言,其目标是建立一 种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势, 进行基于w e b 的数据交换和再利用。r d fs c h e m a 是描述r d f 资源的类和 属性的词汇描述语言。 第四层:o n t o l o g y v o c a b u l a r y 。o n t o l o g y 层作为语义层,本体借鉴了人 工智能领域对知识表示的研究,特别是描述逻辑,引入更丰富的表达能力, 一个本体可以描述一个特定研究领域的形式化的、共享的概念化模型。 o n t o l o g y 扩展了r d fs c h e m a ,为数据对象类、属性、关系提供了更复杂的 描述。通过定义共享的、通用的领域知识,本体可以帮助人和机器明确的 交流,实现语义级的数据交换。 第五层:l o g i c 。l o g i c 层负责提供公理和推理原则,为智能服务提供 基础。逻辑层提供了规则,从而便于进行推理。 第六层:p r o o f p r o o f 层支持代理问通讯的证据交换,证据层在l o g i c 层基础上使代理可以交换推理的结果。 第七层:t r u s t 。t r u s t 层与数字签名( d i g i t a ls i g n a t u r e ) 是为了保证信 息交换的安全问题而设计的。通过数字签名,计算机和代理可以据此证明 所附的信息是由特定的可靠来源提供的。目前,这些工作尚未形成正式标 准。 虽然语义网展现了新一代网络的美好前景,但是语义网的实现仍面临 着巨大的挑战1 4 】: 内容的可获取性,即基于o n t o l o g y 而构建的语义网网页目前还很 少: 4 中国石油大学( 华东) 硕士论文第1 章前言 本体的开发和演化,包括用于所有领域的核心本体的开发、开发过 程中的方法及技术支持、本体的演化及标注和版本控制问题; 内容的可扩展性,即有了语义网的内容以后,如何以可扩展的方式 来管理它,包括如何组织、存储和查找等; 多语种支持; 本体描述语言的标准化。 1 2 问题陈述 1 2 ,1x m i _ 的语义局限性 x m l 已经成为w e b 技术架构的基础,作为一种适宜描述网络半结构 化数据的标准格式较之其他格式已经有很大的进步,但随着x m l 在数据交 换,应用集成等方面的应用,x m l 的一个重要缺陷也越来越被人们所认识, x m l 本身仅提供了语法的表达能力而不具备语义描述能力。 创作x m l 的一个基本思想是:x m l 文档中的数据是通过标签以一种 有意义的和自描述的方式来描述,且标签的名字是领域专家精心选取的1 5 1 , 这些标签体现了人们的共识,例如标签 对人来说意味着价格,这样 就可以推断标签中包含的数据就是关于价格的,但是x m l 本身,包括d t d 或x m ls c h e m a ,都没有提供形式化的机制来说明标签到底是什么意义,因 此x m l 处理器无法理解x m l 文档中标签的含义,对x m l 处理器而言, 标签 与h t m l 标签 的含义是没有什么区别的。 x m l 的标记本身和x m l 的文档结构蕴含着一定的含义,这些标记和 结构信息对人类来说具有较大的意义。例如下面这个x m l 文档片断: a nx m l p r i m o t o m q k 旺 1 9 9 9 q y e m r 10 5 中国石油大学( 华东) 硕士论文第1 章前言 2 9 q d k c p 可a r t i c l e 人们可以从这个x m l 文档片断中很容易获得如下语义信息:这个文档 描述了一篇文章的有关信息( 包含文章的标题、作者、日期信息,日期又 包含具体的年月日) 。但由于x m l 缺少形式化语义描述的能力,x m l 文档 携带的这部分语义信息并不能通过显式的方式形式化描述出来,因而不能 自动被机器理解。 蕴含在x m l 文档中的语义信息,即x m l 语义,是通过x m l 文档的 结构和标签,如元素的嵌套,元素的相邻,x m l 属性等表示的,隐式地表 达在x m l 文档中,称之为x m l 的隐式语义1 6 】o 1 2 2d t d 或x m ls c h e m a 的不足 “l 文档可以通过d t d 或x m ls c h e m a 来定义一个特定领域的特殊 的x m l 标记,以创建在该领域内信息共享与交换的基础。虽然d t d 或x m l s c h e m a 可以用来确定x m l 文档的结构,但d t d 或x m l s c h e m a 只描述了 语法特征,不能用来确定元素的具体含义以及元素之间的语义联系。d t d 或x m ls c h e m a 是用一种层次的方式组织元素,不过这种层次并不包含语 义信息,而仅仅是提供了一种语法来复用一些简单的结构以构造更复杂的 结构,这样将一个给定的领域只是编码到d t d 或x m ls c h e m a 时存在多种 可能的方式。因此通过d t d 或x m ls c h e m a 描述的x m l 数据仍然缺乏形 式化的语义信息。 1 2 3 解决的思路 实现数据在语义环境下的操作,能够实现计算机的对文档信息的理解 和自动处理,而不仅仅只是为适合人类阅读和理解,文档数据中必须包含 明确的语义级信息。实现明确的语义信息,需要两类语义数据的的支持: 描述一个专业领域知识,提供共享词汇支持的本体。 包含明确语义信息的文档实例,即本体描述的本体实例。 s e m a n t i cw 曲和语义w e bs e r v i c e 中使用本体来描述一个专业领域知识 中重要概念的明确描述以及概念之间的关系。通过本体和本体描述的语义 文档,可以实现了计算机对文档理解及自动处理。而本体的目标足一项巨 6 中国石油大学( 华东) 硕士论文第1 章前言 大的工程,迄今为止关于本体的建设仍没有成熟的方法论指导,对设计者 来说只存在一些基本原则,没有统一的模型可以选择,因此目前用户并不 能容易得获得一个适应需要的本体资源。在本体建设过程中存在很多大量 重复性的工作,且这些工作需要领域专家和知识工程师的参与,因此从零 开始为每类专业领域建立本体并不是最适宜的方法,最切实际、经济的方 法是从现存w e b 中的信息资源中提取语义信息,构建相应的本体。因此, 从x m l 文档中抽取隐含语义信息构建描述x m l 文档的形式化语义描述的 本体,可以将x m l 描述的信息从语法层提升到语义层。 目前x m l 在工业界已经得到了普遍认同,已经广泛应用于企业组织内 外间的数据传输交换。但由于x m l 不能表示形式化的语义信息,因此在 x m l 数据之间实现语义级操作仍有较大差距。元数据表示语言r d f 在表 示语义信息方面的优势,使得将当前w e b 中存在的大量x m l 数据转换为 具有语义描述的r d f 数据,成为一个非常重要的问题。 1 3 主要工作 本论文中,为了试图解决x m l 不能表达语义信息,只能表示隐含语 义信息的问题,分析了x m l 的隐含语义表达的方式,以及本体的语义表达 方式,提出了一种将x m l 隐含语义转换为显式语义形式的方法,取得了以 下研究成果: 提出了从x m l 文档本身出发解决语义信息的提取,而不是依赖于 d t d 或x m ls c h e m a 的存在。 提出了从单个x m l 文档中提取语义信息生成o w l 本体的,同时 生成描述这个x m l 文档资源的本体实例r d f 文档方法。 提出了针对一组语义相似的x m l 文档,得到每个x m l 文档相应 的o w l 本体后,基于类、属性相似合并多个本体为描述这一组x m l 文档 的统一o w l 本体的方法。 虽然x m ld t d 或x m ls c h e m a 中相对x m l 文档来说包含了更明确 的文档结构信息、数据类型信息、基数限制等信息,在转化成本体时可以 提供相对丰富的输入信息,但本文并没有采用转换d t d 或x m ls c h e m a 构 建本体的方式是基于以下两种原因: 7 中国石油大学( 华东) 硕士论文 第1 章前言 首先,虽然x m l 文档已经在网络中十分盛行,但是只有很少数的x m l 文档引用了d t d 或x m ls c h e m a ,特别是x m ls c h e m a 的引用更加少( 据 有关统计用x m ls c h e m a 约束的x m l 文档大约只占存在的x m l 文档数量 的0 0 9 t 7 1 ) 。 另一个原因是,将x m l 文档转换成本体注重的是语义的转换,而不 是语法结构的转换,许多不同的x m l 文档可以具有不同d t d 或x m l s c h e m a ,但是他们却可以表达相同的语义信息。例如: l 片段a : h i s t o r y j o h n 2 0 0 3 0 6 0 7 2 0 x m l 片段b : r e a l e j o h n 2 0 0 3 0 6 0 7 2 0 很明显,这两个x m l 片段具有不同的文档结构,片段a 中的s u b j e c t 元素和a u t h o r 元素的s e x 属性在片段b 中采取了不同的处理方式,但是人 们可以很容易看出这两个x m l 文档包含的语义信息是完全相同的。 综上,本文提出的这个系统框架可以抽取蕴含在一组语义相似的x m l 文档中的语义信息,构建一个表示这一组x m l 文档的本体文档以及描述每 8 中国石油大学( 华东) 硕士论文第1 章前言 个x m l 文档资源的本体实例r d f 文档。在这个本体以及本体实例文档的 支持下,可以实现这一组x m l 文档间的语义级操作,从而将x m l 描述的 信息从语法层提升到语义层。 1 4 论文的结构 第l 章介绍了本论文的研究背景,陈述了论文的研究问题及研究的意 义,概括了本论文的主要工作,以及本文的内容安排。 第2 章着重介绍了语义信息提取、本体构建,以及x m l 语义信息提 取领域的国内外相关研究现状。 第3 章介绍了本论文中涉及的x m l 相关技术以及本体相关的相关技 术发展。由于目前国内关于本体研究的中文资料相对较少,本章进行了较 为全面的介绍。 第4 章概述了系统解决框架的方案和主要功能。 第5 章详细阐述了抽取单个x m l 文档构建本体和生成本体实例文档 的算法,以及实例说明了该方法的可行性,验证了结果的有效性。 第6 章详细阐述了基于类、属性相似合并语义相似的本体的算法,并 通过实例说明了该方法的实现。 最后,第7 章总结了本论文的贡献,指出了现有工作的局限性,有待 改进的方面。 9 中国石油大学( 华东) 硕士论文第2 章国内外研究现状 第2 章国内外研究现状 本体的概念自从9 0 年代初引入到人工智能领域以来,在国外就引起了 众多科研人员的关注,并在计算机及相关领域得到了广泛的应用,虽然国 内相关的研究和应用起步较晚,但已经逐步引起了国内科研人员的兴趣和 重视。 目前在本体构建领域已经出现了大量的本体收集、开发以及维护等方 法的研究和实现工具。总的来说,本体建设的方式一般有两种类型:一种 是在领域专家和知识工程师的参与下从头做起,从抽象功能概念入手构建 领域本体框架。另外一种是利用已经存在的自由文本、半结构化数据、数 据库等网络资源,从这些资源中抽取语义信息来构建本体1 8 】。 诸如o n t o s a u r u s l 9 1 是一个基于w e b 的l o o m 和p o w e r l o o m 知识库浏 览器,它由美国南加州大学信息科学学院开发。o n t o s a u r u s 由两个主要部分 组成,一个是本体服务器,另一个是本体浏览服务器。本体服务器采用l o o m 或p o w e r l o o m 作为它的知识表示语言,供用户创建、编辑和修改本体。通 过本体浏览服务器,用户可以动态地创建h 珊l 页面展示本体的层次结构, 并允许在这个页面上编辑本体。另外,它还提供从l o o m 到o n t o l i n g u a ,k i p 甚至c + + 等语言的转换工具。由于o n t o s a u r u s 采用自定的本体描述语言, 限制了它的通用性。 p r o t 6 9 6 2 0 0 0 1 0 1 是由美国s t a n f o r d 大学开发的本体编辑器,是一个基 于手工方式创作本体的辅助工具,p r o t 6 9 6 2 0 0 0 以树形的层次目录结构显示 结构,使用p r o t 6 9 6 2 0 0 0 更像是为数据库录入信息。其它类似的o i l e d j 等 都属于本体创作工具,领域专家通过其可以从抽象的概念模型中手工方式 构建领域本体框架。o n t o e d i t l l 2 】是使用本体信息来标注网页,从而为网页 增添语义信息的工具。c 1 1 i m e m 【1 3 】则提供了查找本体错误的一种工具。 在本体建设过程中存在很多大量重复性的工作,且这些工作需要领域 专家和知识工程师的参与,因此从零开始为每类专业领域建立本体并不是 最适宜的方法,最切实际、经济的方法是从现存w e b 中的各种信息资源中 提取语义信息,构建相应的本体。 目前已经有一些研究从现存的w e b 中的不同信息资源中提取语义信 1 0 中国石油大学( 华东) 硕士论文第2 章国内外研究现状 息,本论文也是受相关研究启发,从已存在的x m l 资源中提取语义信息来 构建本体。如q u a n gt r i n he ta 1 【1 4 】介绍了一种从关系型数据库这种结构化 的数据中提取元数据信息来构建o w l 本体的r d b 2 0 n t 方法,可以帮助 领域专家快速构建和发布描述了关系型数据库信息的本体。h a s a nd a v u l c u e ta 1 0 5 则介绍了一种从一组内容相关的h t m l 网页中提取信息来创建本 体的系统o n t o m i n e r 。o n t o m i n e r 认为重叠的网页中含有领域共享的分类术 语,以此作为建立本体的基础。m a s a h i r o t a n a k a e t a l 0 6 1 则是提出了一种从 1 a b l e 表中抽取本体信息的方法。类似的方法是从不同的数据源中如:自由 文本、h t m l 、主题词表等中抽取本体信息,主要是将不同数据源的结构特 点与本体的特点相结合寻求特定的抽取方法。 为x m l 文档增加语义信息,可以通过两种方式来实现,一种是增强 x m l 的语义描述能力,来丰富x m l 语言的语义表达能力从而使x m l 具 有语义描述的能力。s h e n g p i n g l i u e t a l 1 1 7 1 提出了一种x m l 语义定义语言 x s d l ,增强了l 的语义表达能力,可以使x m l 文档作者清晰地表达 x m l 文档中的语义信息。类似的,h u i y o n gx i a oe ta 1 【i 卅在r d f s 基础之 上定义了一种影射语言r d fm a p p i n gs c h e m a 用以实现x m l 和r d f 资源的 集成。 另一种方式是通过将x m l 文档与本体建立关联,从而为x m l 增加语 义的方式。将x m l 文档与本体建立联系,归纳起来分为两类:自顶向下和 自底向上的方法。自顶向下的方法是由已存在的本体通过影射与x m l 建立 关系,从而为x m l 增加语义的方式,已经有许多研究课题关注于这一方向, m i c h e lk l e i ne ta 1 0 9 1 和雕筋e hr a m ie ta 1 【2 0 】研究的是从一个给定本体生 成x m ls c h e m a 的方法。g e r a l dr e i1 2 1 1 是通过定义x m ls c h e m a 到已知本 体的映射来自动从x m l 数据文档中产生r d f 元数据。 另外,l u x i a oe t a l 2 2 1 、m i c h e l k i e i n l 2 3 , 2 4 1 以及m i c h a e l e r d m a n n e t a l 【2 5 l 都是采用这类方法。这类方法一般是将一个预先定义的本体中类、关系 等概念与要转化的x m l 中相匹配的部分进行影射提升x m l 语义的方法, 这类方法的局限是必须利用已存在的本体资源。 另一类是自底向上的方式,本体的语义信息来自于构建其的资源数据 之中,本体的语义信息会受到资源数据的限制。 中国石油大学( 华东) 硕士论文第2 章国内外研究现状 c a s t a n ose ta 1 闭中作者是在方法论的层面上讨论了一种从己存在的 y d v l l 数据源中半自动抽取本体知识的方法论。作者建议了一种三层结构的 本体组织形式,不同层次的本体基于不同的模式构建,在本体中,) m l 的 内容和结构模式信息根据语义影射模式、中问层模式、分类模型模式组织 到本体的不同层中。 p a v e ls m r ze t a l 1 2 7 j 的目标是向用户提供一个通用的有效转换x m l 到 o w l 表示的本体,转化采用的机制是利用预先定义的x s l t 转换语句将选 定部分的x m l 语句转换成o w l 本体语句。转换过程序要用户手动选定预 转换数据。 rd o ss a n t o sm e l l oe ta 1 1 2 s 中作者提出了一种自底向上由x m l 的 d t d 半自动生成本体的方法,并考虑领域专家进行语义调整。 m a t t h i a s f e r d i a n de t a l 1 2 9 1 中描述了从x m l s c h e m a 到o w l 以及x m l 到r d f 资源的映射,但这两种映射关系之问并不相关,也就是说产生的本 体和本体实例并不一定适应。但是当不存在x m ls c h e m a 的时候,这种方 法并不能处理x m l 实例文档来构建o w l 本体。 除了上面提到的方法外还存在一些类似的方法1 3 0 l ,这些方法一般是提 出一种转换的方法论或是只关注从限制x m l 的结构的d t d 或x m l s c h e m a 着手转换本体知识,并不关注“l 文档的原始内容,忽略了x m l 中的许多原始信息。 与本文工作类似,s e r g e ym e l n i k l 3 1 】也是只考虑x m l 文档本身不考虑 d t d 或x m ls c h e m a 的存在,它认为每个x m l 文档都会包含一个r d f 模 型。作者通过使用一个简化的语法形式来检测x m l 实例中的语义信息,可 以将x m l 实例影射为r d f 文档。 在h a n n e sb o h r i n ge ta 1 d 2 作者提出一种机制如果不存在适宜的 x m ls c h e m a 时从x m l 实例文档中创建一个x m ls c h e m a 。然后,将这个 x m ls c h e m a 影射为一个o w l 本体,这个处理过程需要分三步来完成。但 是作者也同时承认他们从x m l 中自动生成x m ls c h e m a 不像手工创建的 x m ls c h e m a 那样完善,包含诸如数据类型限制、基数限制等信息,他们从 x m l 实例中抽取x m ls c h e m a 亦不能抽取s i m p l e t y p e ,p a t t e r n , s u b s t i t i o n g r o u p s ,f a c e t s ,i d 1 d r e f 等信息。因此该论文更倾向于从x m l 1 2 中国石油大学( 华东) 硕士论文第2 章国内外研究现状 s c h e m a 映射到本体。 另外与本论文方法的不同是这些方法只关注于单个x m l 文档的处理, 并没有涉及多个d l 文档的处理。 1 3 中国石油大学( 华东) 硕士论文第3 幸x m l 与本体相关技术研究与发展 第3 章x m l 与本体相关技术研究与发展 3 1x m l 技术研究与发展 3 1 1x m l 的特点和应用+ x i v l l ( e x t e n s i b l em a r k u pl a n g u a g e 可扩展标记语言) m 】是w 3 c 协会 定义的数据描述语言,它是s g m l 的一个优化子集。s g m l 是1 s 0 国际标 准化组织在1 9 8 6 年推出的一个用来创建标记语言的语言标准,s g m l 为出 版业提供了一种将数据内容与显示分离开来的数据表示方法,使得数据独 立于机器平台和处理程序。s g m l 的确在许多大型出版系统中很有用,但 是它的复杂性使其难以直接应用到i n t e m e t 上,x m l 将s g m l 的丰富功能 与h t m l 的易用性结合到w e b 的应用中。x m l 作为语义网的基础,是实 现语义网的第一步。 x m l 数据由嵌套的标记元素组成,标记包含了对文档存储形式和逻辑 的描述。x m l 的嵌套标记使得它很适合描述w e b 上的半结构化数据,提供 了一种描述复杂信息的方式。 x m l 的主要组件称之为元素( e l e m e n t ) ,它总是由一个开始标记和一 个结束标记组成,例如: j o h n 。 一个x m l 元素可以包含子元素或者文本或者空内容,在一个x m l 的 开始标记中也可以定义一个或多个属性。如: j o h n x m l 允许用户定义自己的标签标记文档内容,通过使用开放的、标准 的语法描述数据的内容,将数据的显示样式与数据本身分离,具有良好的 可扩展性。x m l 简化了网络中的数据交换和表示,使得代码、数据和表示 可以分离。x m l 的核心在于以一种标准化的方式来建立数据表示的结构, 而将具体标记的定义留给了用户。x m l 的这种可扩展性使x m l 可以满足 多种不同领域数据描述的需要。x m l 的元数据基础结构为建立一种在整个 企业内部甚至企业之间都保持一致的元数据层待定了基础不同组织和公 司的不同计算机可以相互进行交流。 x m l 技术一出现就展现了其在数据存储、数据交换等领域的显著优 1 4 中国石油大学( 华东) 硕士论文第3 章x m l 与本体相关技术研究与发展 势,迅速成为一个与平台无关和厂商无关的同一数据格式标准,不论是 s e m a n t i cw e b 还是w e bs e r v i c e s l 3 4 1 都采用x m l 作为其数据表示和数据交 换的标准格式,x m l 业已发展成为电子商务数据交换的主要媒介。 x m l 具有以下优点【j5 ,驯: x m l 具有自我描述的能力,可以为文档内容提供更准确的描述: x m l 允许用户定义自己的标签标记文档内容,使得x m l 具有良好 的可扩展性,极大拓宽了x m l 的应用领域,如科学家们可以利用x m l 来 书写数学公式、化学分子式等; x m l 关注的是数据的表示,将数据表示与显示内容分离开来,使 用户与应用程序之间文件交换更容易; x m l 建构在u n i c o d e 统一字符编码之上,支持世界大多数语言的混 合文本,使得x m l 具有世界通用性; x m l 支持高级搜索功能和文档问的高级链接: x m l 可以通过文档类型定义d t d 或x m l s c h e m a 指定文档中的元 素及各元素之间的关系,这种结构化对大型数据库应用特别有用。 x m l 的这些优点给基于w e b 的应用程序带来了强大的功能和灵活性, x m l 作为一种通用语言,在不同种类的系统之间架设了一座桥梁,不同的 应用程序间可以通过这座桥梁交换复杂的数据。现在一些重要市场,如高 级数据库搜索,网上银行、医药、法律、电子商务等其他领域已经逐渐认 识到x m l 在分配管理数据上的重大优势,x m l 的应用的机会己在日益增 多。下面介绍几个x m l 应用的范例f 3 7 3 8 】: 电子数据交换 e d i ( e l e c t r o n i cd a t ai n t e r c h a n g e ) 是用电子技术代替基于纸张的操作 手段,用于公司之间的单据交换。x m l 丰富的格式语言可用来描述不同类 型的单据,例如信用证、贷款申请表、保险单、图书目录、索赔单以及各 种发票等。结构化的x m l 文档送至w e b 的数据可以被加密,并且很容易 附加上数字签名。x m l 的安全保密措旋可在e d i 的应用中充分显示它的技 术优势,x m l 有希望推动e d i 的大规模的应用。 化学标记语言c m l 和数学标记语言m a t h m l c m l ( c h e m i c a lm a r k u pl a n g u a g e ) 和m a t h m l ( m a t h e m a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 免责旅游合同样本
- 代理购买商标合同标准文本
- 专业摄影服务合同样本
- 产品工厂直供合同范例
- 企业劳务培训合同样本
- 中介加盟合同样本
- 买卖冷冻食品合同样本
- 人车分流合同标准文本
- jiudian运营协议合同样本
- 供冷合同样本
- 2025年山东、湖北部分重点中学高中毕业班第二次模拟考试数学试题含解析
- 2025-2030中国集装箱化和模块化数据中心行业市场发展趋势与前景展望战略分析研究报告
- 2025-2030中国防腐新材料行业市场深度调研及发展策略与投资前景预测研究报告
- 2025年护工考试试题及答案
- 全国第9个近视防控月活动总结
- 人教A版必修第二册高一(下)数学6.3.2-6.3.3平面向量正交分解及坐标表示【课件】
- 2025至2030年中国快速换模系统数据监测研究报告
- 《肺功能康复锻炼》课件
- Unit 3 Weather(说课稿)-2023-2024学年人教PEP版英语四年级下册
- 技术标编制培训
- 【小学数学课件】搭积木课件
评论
0/150
提交评论