（计算机应用技术专业论文）xml语义信息提取与本体构建机制研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：75 大小：1.77MB 积分：0 举报 版权申诉

已阅读5页，还剩70页未读，继续免费阅读

（计算机应用技术专业论文）xml语义信息提取与本体构建机制研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

x m l 语义信息提取与本体构建机制研究王洪泉( 计算机应用技术) 指导教师：时念云副教授徐九韵副教授摘要 x m l 作为w 3 c 数据描述和交换的标准格式语言，已经得到了广泛的应用，不论是s e m a n t i cw e b 还是w e bs e r v i c e s 都采用x m l 作为其数据表示和数据交换的标准格式，) a l 业已发展成为信息应用等领域数据表示与数据交换的主要媒介。但是，x m l 本身只能表达数据的语法，而不能表示形式化的语义。隐含在l 文档中语义信息只对人类来说有较大意义，而计算机却难以理解。要实现计算机的对文档信息的理解和自动处理，文档数据中必须包含明确的语义级信息。本体描述了一个专业领域知识中重要概念的明确描述以及概念之间的关系。在本体建设过程中存在很多大量重复性的工作，完成这些工作需要领域专家和知识工程师的参与，因此从零开始为每类专业领域建立本体并不是最适宜的方法，最切实际、经济的方法是从现存w e b 中的信息资源中提取语义信息，构建相应的本体。本论文提出了一个可以抽取蕴含在一组语义相似的x m l 文档中语义信息的系统框架，该系统可以构建一个表示这一组 x m l 文档的o w l 本体文档以及描述每个x m l 文档资源的本体实例 r d f 文档。在这个本体以及本体实例文档的支持下，可以实现这一组 x m l 文档间的语义级操作，从而将x m l 描述的信息从语法层提升到语义层。在语义知识获取领域，该系统可以在一定程度上缓解人力的消耗。关键词：x m l ，x m l 语义，本体，r d f ，o w l r e s e a r c ho ne x t r a c t i n gx m 匝s e m a n t i c s a n db o o t s t r a p p i n go n t o l o g i e sa u t o m a t i c a l l y w a n gh o n g q u a n ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db ya s s o c i a t ep r o f e s s o rs h in i a n - y u n ，a s s o c i a t ep r o f e s s o rx uj i u - y u n a b s t r a e t a st h ew 3 cs t a n d a r dd o c u m e n tf o r m a tf o rw r i t i n ga n de x c h a n g i n g i n f o r m a t i o no nt h ew e b x m lh a sr e a c h e daw i d ea c c e p t a n c ea sd a t a e x c h a n g ef o r m a tl a n g u a g eb e t w e e ni n t e r n a la n d e x t e r n a lo r g a n i z a t i o n s m o r e a n dm o l ex m ld o c u m e n t sh a v eb e e nu s e df o rd a t ae x c h a n g eb e t w e e n i n t e r n a la n de x t e r n a le n t e r p r i s e s ，s u c ha sw e bs e r v i c e s ，s e m a n t i cw e be t c h o w e v e r , x m li t s e l fo n l yp r o v i d e ss y n t a xa n dl i t t l em e a n i n g so fx m l d o c u m e n tc o n t e n t x m li t s e l fd o e sn o th a v et h ea b i l i t yt os p e e i 母m e a n i n g o ft a g sa n di n t e n t i o no fn e s t e ds t r u c t u r e h u m a n sc a n e a s i l yu n d e r s t a n dt h e i n f o r m a t i o nu n d e r l y i n gi na l lx m ld o c u m e n t ，b u tm a c h i n ec a n tp r o c e s s e f f e c t i v e l y f o rm a c h i n et oa c c e s sa u t o m a t i c a l l y ，t h ex m l d o c u m e n tm u s t c o n t a i nf o r m a ls e m a n t i c s a no n t o l o g yi sc o m m o n l yd e f i n e da sa ne x p l i c i l f o r m a ls p e c i f i c a t i o no fas h a r e dc o n c e p t u a l i z a t i o no fad o m a i no fi n t e r e s t s e c a l l s ed e v e l o p i n go n t o l o g i e sf r o ms c r a t c hi sc o s t l ya n d t e d i o u s , e x t r a c t i n g s e m a n t i ci n f o r m a t i o nf r o me x i s t i n gd a t as o u r c e sa u t o m a t i c a l l yi si n t e r e s t i n g i nt h i sp a p e r , w ep r e s e n taf r a m e w o r k ，w h i c hc o n s t r u c t ss p e c i a l i z e dd o m a i n o n t o l o g i e sb yo r g a n i z i n g a n d m i n i n g as e to fs e m a n t i c s i m i l a rx m l d o c u m e n t sa n dg e n e r a t et h er d fm e t a d a t ad e s c r i p t i o nf o re v e r yx m l d o c u m e n t i ns u p p o r to ft h eg e n e r a t e do n t o l o g y , s e m a n t i ci n t e r o p e r a b i l i t y c a nb e c o m ee a s i l ya m o n gm u l t i p l ex m ld o c u m e n t sa n dx m ld a t ac a nb e n i l i f t e df r o mt h es y n t a c t i cl e v e lt ot h es e m a n t i cl e v e l i np a r t st h i sm e t h o di s u s e f u lt oa l l e v i a t eh u m a nw o r k l o a di ns e m a n t i ci n f o r m a t i o na c q u i s i t i o n k e yw o r d s ：x m l ，x m ls e m a n t i c s ，o n t o l o g y , o w l ，r d f 独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得中国石油大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：至速挺瑚7 年斗月m 关于论文使用授权的说明本人完全了解中国石油大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件及电子版，允许论文被查阅和借阅：学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。 ( 保密论文在解密后应遵守此规定) 学生虢墓邀袅加四年啦月i 目导师躲咝瞌缝哟岬年丫月1 日中国石油大学( 华东) 硕士论文第1 章前言第1 章前言 1 1 研究背景 1 1 1 刑州网络的特点和不足自从万维网( w o r l dw i d ew e b ，w w w ) 1 9 8 9 年起源以来，万维网技术已经融入到人们的日常工作、学习中的各个角落，万维网的快速发展已经深刻改变人们彼此交流的方式、信息获取的渠道、商业经营的理念等。万维网的发展也改变了人们对计算机的认识，最初计算机只是用来数字计算，而现在计算机的主要应用则是如何对信息的有效处理。万维网的系统架构是基于u r l ，h t t p 和h t m l 三个基本协议之上的，其中u r l 提供了资源定位的标准，h r r p 和h n 仉提供了超文本的传输和表现的标准。在i n t e m e t 上几乎到处可以看到h t m l 书写的精美网页。 h t m l 是迄今最成功的电子出版语言，h t m l 以简单精练的语法、极易掌握的通用性与易学性，在当今世界互联网的蓬勃发展过程中，h t m l 起着非常重要的作用。 h t m l 注重数据的表现形式，而不强调数据的结构，但随着万维网的迅速发展、网络信息的不断增长，这种以h t m l 页面为主要表现形式的网络不断暴露出其弊端，并阻碍了其进一步的发展： h t m l 是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e 标准通用标记语言) 的一个实例，它的d t d ( d o c u m e n t t y p ed e f i n i t i o n 文档类型定义) 作为标准被固定下来，不再具有扩展性，满足不了用户的创建新的信息结构的要求。表达能力有限，无法表达数学公式、化学公式等专业术语的表达。 h t m l 将显示格式与数据表示混合在一块，因此h n ，f l 书写的w e b 页面维护起来十分困难，而且由于许多页面的u r l 地址经常变化，而只能在文档中修改u r l 地址，大大加重了w e b 页面的维护工作量。 h t m l 不支持元数据，难以开发高效率查询的搜索工具。 h t m l 不支持国际字符集。目前的这种网页内容的设计仪仅针对人类自身的，网页信息的表现方中国石油大学( 华东) 硕士论文第1 章前言式也多为自然语言、图片、声音等方式，这些表示数据的方式也仅适应于人类的阅读和理解，并不适宜计算机理解与处理【1 1 。目前，网上查询信息、网上信息交流以及网上电子商务等主要网络行为并不能被软件工具很好的支持。例如：现在人们最常使用的查询信息网络工具是y a h o o 、g o o g l e 等的搜索引擎，这些搜索引擎都是采用基于关键字为主进行信息查询的方式，很难在查准率和查全率这两个方面有所突破，搜索到的页面也只是和搜索关键字相匹配的页面，这样方面可能会遗漏大量内容相关的页面，另一方面找到太多与意向不相关的页面。另外用户更难以让w e b 作更多的、功能远远超过目录和搜索的事情，比如让w 曲为用户安排一个去某地的时刻计划表。这种机器难以理解的网络越发展，人们拥有的信息量越大，但人们往往更加难以准确得到想要的信息。由于h t m l 页面中数据的内容和表现混在一起，而基于w 曲的应用需要利用后台的数据以及在应用系统之间进行数据的交换，这促使万维网联合会( w d r l dw i d ew 曲c o n s o r t i u m ，w 3 c ) 开发了一种新的标记语言可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e ，x m l ) ，在工业界获得了巨大的成功，x m l 已经成为w e b 上数据表示和数据交换的实施标准，发展成为w 曲技术架构的基础。为了让w e b 发挥更大的潜能，t i mb e m e r s _ l e e l 2 j 于1 9 9 8 年首次提出语义网的概念，w e b 开始迈向语义网的发展道路。 1 1 2 发展中的s e m a n t i cw e b 在2 0 0 0 年的世界x m l 大会上万维网创始人t i m b e m e s l e e 作了题为 s e m a n t i cw 曲的演讲，对语义网做了如下描述1 2 j ：语义网并不是一个孤立的万维网，而是对当前万维网的扩展，语义万维网上的信息具有定义良好的含义，使得计算机之间以及人类能够更好的彼此合作。语义网的目标是创建一个通用的数据交换平台，不仅仅是网页，而且包括各种数据库、服务器、自动化程序、个人设备甚至家用智能工具都可以在这个平台上分享和创建数据，对信息含义的理解不再是只有依靠人才能完成的事情，机器同样也可以完成这样的工作。例如，我们看到网页上的天气预报，自然就会知道其中的含义，但计算机并不知道在那么多的数字中，哪个数字代表 2 中国石油大学( 华东) 硕士论文第1 章前言温度，哪一个数字代表湿度。而语义网的意义就要在隐藏的编码中，指明哪个数字代表温度，哪个数字代表湿度，并且说明“温度”和“湿度”的含义。研究语义网的主要目的，就是扩展当前的w w w ，使得网络中尽可能多的信息都是具有语义的，是计算机能够理解和处理的，便于人和计算机之间的交互与合作。其研究重点就是如何把信息表示为计算机能够理解和处理的形式，即带有语义。其最终目标是提高互联网的自动化和智能化，使计算机可以在w e b 资源中准确高效找到用户所需要的信息，从而将万维网中一个个现存的信息孤岛，发展成一个巨大的知识库。 t i mb e t n e r s l e e 在这次会议上对“s e m a n t i c ”和“w e b ”的概念进行了解释，提出了s e m a n t i cw e b 的体系结构并预见了这个体系结构在未来十年将得到发展。s e m a n t i cw e b 的体系结构p 】如图1 一l 所示：图1 一ls e m a n t i cw e b 体系结构其中：第一层：u n i c o d e 是一个新的字符编码系统标准，这个字符集中所有字符都用两个字节表示，可以表示6 5 5 3 6 个字符，基本上包括了世界上所有语言的字符。它可以在不同的语言、平台、程序中为不同字符提供了唯一的编码，用以支持世界上所有主要语言文本的混合。u r l ( u l l i f o r mr e s o u r c e i d e n t i f i e r s 统一资源标志符) 用于标识w e b 上的资源：文档、图片、下载文件、电子邮箱、服务等其他资源，保证在s e m a n t i cw e b 上的概念唯一性的标识。在语义网体系结构中，该层是整个语义网的基础，其中u n i c o d e 负责处理资源的编码，u p d 负责资源的标识。 3 中国石油大学( 华东) 硕士论文第1 章前言第二层：x m l + n s + x m l s c h e m a 。x m l 是s e m a n t i cw e b 的语法层，为 s e m a n t i cw e b 的建立提供对数据表示的通用语法基础，x m l 最大的特点是用户可以根据自己的需要制定能反映数据内容的标签，实现数据结构和数据内容的分离。n s ( n a m es p a c e ) 即命名空间，由u r i 索引确定，目的是为了避免不同的应用使用同样的字符描述不同的事物。x m l 通过x m l s c h e m a 来限制x m l 文档的结构。该层负责从语法上表示数据的内容和结构，通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。第三层：r d f + r d f s c h e m a 。r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k 资源描述框架) 是一种描述w w w 上的信息资源的一种语言，其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势，进行基于w e b 的数据交换和再利用。r d fs c h e m a 是描述r d f 资源的类和属性的词汇描述语言。第四层：o n t o l o g y v o c a b u l a r y 。o n t o l o g y 层作为语义层，本体借鉴了人工智能领域对知识表示的研究，特别是描述逻辑，引入更丰富的表达能力，一个本体可以描述一个特定研究领域的形式化的、共享的概念化模型。 o n t o l o g y 扩展了r d fs c h e m a ，为数据对象类、属性、关系提供了更复杂的描述。通过定义共享的、通用的领域知识，本体可以帮助人和机器明确的交流，实现语义级的数据交换。第五层：l o g i c 。l o g i c 层负责提供公理和推理原则，为智能服务提供基础。逻辑层提供了规则，从而便于进行推理。第六层：p r o o f p r o o f 层支持代理问通讯的证据交换，证据层在l o g i c 层基础上使代理可以交换推理的结果。第七层：t r u s t 。t r u s t 层与数字签名( d i g i t a ls i g n a t u r e ) 是为了保证信息交换的安全问题而设计的。通过数字签名，计算机和代理可以据此证明所附的信息是由特定的可靠来源提供的。目前，这些工作尚未形成正式标准。虽然语义网展现了新一代网络的美好前景，但是语义网的实现仍面临着巨大的挑战1 4 】：内容的可获取性，即基于o n t o l o g y 而构建的语义网网页目前还很少： 4 中国石油大学( 华东) 硕士论文第1 章前言本体的开发和演化，包括用于所有领域的核心本体的开发、开发过程中的方法及技术支持、本体的演化及标注和版本控制问题；内容的可扩展性，即有了语义网的内容以后，如何以可扩展的方式来管理它，包括如何组织、存储和查找等；多语种支持；本体描述语言的标准化。 1 2 问题陈述 1 2 ，1x m i _ 的语义局限性 x m l 已经成为w e b 技术架构的基础，作为一种适宜描述网络半结构化数据的标准格式较之其他格式已经有很大的进步，但随着x m l 在数据交换，应用集成等方面的应用，x m l 的一个重要缺陷也越来越被人们所认识， x m l 本身仅提供了语法的表达能力而不具备语义描述能力。创作x m l 的一个基本思想是：x m l 文档中的数据是通过标签以一种有意义的和自描述的方式来描述，且标签的名字是领域专家精心选取的1 5 1 ，这些标签体现了人们的共识，例如标签对人来说意味着价格，这样就可以推断标签中包含的数据就是关于价格的，但是x m l 本身，包括d t d 或x m ls c h e m a ，都没有提供形式化的机制来说明标签到底是什么意义，因此x m l 处理器无法理解x m l 文档中标签的含义，对x m l 处理器而言，标签与h t m l 标签的含义是没有什么区别的。 x m l 的标记本身和x m l 的文档结构蕴含着一定的含义，这些标记和结构信息对人类来说具有较大的意义。例如下面这个x m l 文档片断： a nx m l p r i m o t o m q k 旺 1 9 9 9 q y e m r 10 5 中国石油大学( 华东) 硕士论文第1 章前言 2 9 q d k c p 可a r t i c l e 人们可以从这个x m l 文档片断中很容易获得如下语义信息：这个文档描述了一篇文章的有关信息( 包含文章的标题、作者、日期信息，日期又包含具体的年月日) 。但由于x m l 缺少形式化语义描述的能力，x m l 文档携带的这部分语义信息并不能通过显式的方式形式化描述出来，因而不能自动被机器理解。蕴含在x m l 文档中的语义信息，即x m l 语义，是通过x m l 文档的结构和标签，如元素的嵌套，元素的相邻，x m l 属性等表示的，隐式地表达在x m l 文档中，称之为x m l 的隐式语义1 6 】o 1 2 2d t d 或x m ls c h e m a 的不足 “l 文档可以通过d t d 或x m ls c h e m a 来定义一个特定领域的特殊的x m l 标记，以创建在该领域内信息共享与交换的基础。虽然d t d 或x m l s c h e m a 可以用来确定x m l 文档的结构，但d t d 或x m l s c h e m a 只描述了语法特征，不能用来确定元素的具体含义以及元素之间的语义联系。d t d 或x m ls c h e m a 是用一种层次的方式组织元素，不过这种层次并不包含语义信息，而仅仅是提供了一种语法来复用一些简单的结构以构造更复杂的结构，这样将一个给定的领域只是编码到d t d 或x m ls c h e m a 时存在多种可能的方式。因此通过d t d 或x m ls c h e m a 描述的x m l 数据仍然缺乏形式化的语义信息。 1 2 3 解决的思路实现数据在语义环境下的操作，能够实现计算机的对文档信息的理解和自动处理，而不仅仅只是为适合人类阅读和理解，文档数据中必须包含明确的语义级信息。实现明确的语义信息，需要两类语义数据的的支持：描述一个专业领域知识，提供共享词汇支持的本体。包含明确语义信息的文档实例，即本体描述的本体实例。 s e m a n t i cw 曲和语义w e bs e r v i c e 中使用本体来描述一个专业领域知识中重要概念的明确描述以及概念之间的关系。通过本体和本体描述的语义文档，可以实现了计算机对文档理解及自动处理。而本体的目标足一项巨 6 中国石油大学( 华东) 硕士论文第1 章前言大的工程，迄今为止关于本体的建设仍没有成熟的方法论指导，对设计者来说只存在一些基本原则，没有统一的模型可以选择，因此目前用户并不能容易得获得一个适应需要的本体资源。在本体建设过程中存在很多大量重复性的工作，且这些工作需要领域专家和知识工程师的参与，因此从零开始为每类专业领域建立本体并不是最适宜的方法，最切实际、经济的方法是从现存w e b 中的信息资源中提取语义信息，构建相应的本体。因此，从x m l 文档中抽取隐含语义信息构建描述x m l 文档的形式化语义描述的本体，可以将x m l 描述的信息从语法层提升到语义层。目前x m l 在工业界已经得到了普遍认同，已经广泛应用于企业组织内外间的数据传输交换。但由于x m l 不能表示形式化的语义信息，因此在 x m l 数据之间实现语义级操作仍有较大差距。元数据表示语言r d f 在表示语义信息方面的优势，使得将当前w e b 中存在的大量x m l 数据转换为具有语义描述的r d f 数据，成为一个非常重要的问题。 1 3 主要工作本论文中，为了试图解决x m l 不能表达语义信息，只能表示隐含语义信息的问题，分析了x m l 的隐含语义表达的方式，以及本体的语义表达方式，提出了一种将x m l 隐含语义转换为显式语义形式的方法，取得了以下研究成果：提出了从x m l 文档本身出发解决语义信息的提取，而不是依赖于 d t d 或x m ls c h e m a 的存在。提出了从单个x m l 文档中提取语义信息生成o w l 本体的，同时生成描述这个x m l 文档资源的本体实例r d f 文档方法。提出了针对一组语义相似的x m l 文档，得到每个x m l 文档相应的o w l 本体后，基于类、属性相似合并多个本体为描述这一组x m l 文档的统一o w l 本体的方法。虽然x m ld t d 或x m ls c h e m a 中相对x m l 文档来说包含了更明确的文档结构信息、数据类型信息、基数限制等信息，在转化成本体时可以提供相对丰富的输入信息，但本文并没有采用转换d t d 或x m ls c h e m a 构建本体的方式是基于以下两种原因： 7 中国石油大学( 华东) 硕士论文第1 章前言首先，虽然x m l 文档已经在网络中十分盛行，但是只有很少数的x m l 文档引用了d t d 或x m ls c h e m a ，特别是x m ls c h e m a 的引用更加少( 据有关统计用x m ls c h e m a 约束的x m l 文档大约只占存在的x m l 文档数量的0 0 9 t 7 1 ) 。另一个原因是，将x m l 文档转换成本体注重的是语义的转换，而不是语法结构的转换，许多不同的x m l 文档可以具有不同d t d 或x m l s c h e m a ，但是他们却可以表达相同的语义信息。例如： l 片段a ： h i s t o r y j o h n 2 0 0 3 0 6 0 7 2 0 x m l 片段b ： r e a l e j o h n 2 0 0 3 0 6 0 7 2 0 很明显，这两个x m l 片段具有不同的文档结构，片段a 中的s u b j e c t 元素和a u t h o r 元素的s e x 属性在片段b 中采取了不同的处理方式，但是人们可以很容易看出这两个x m l 文档包含的语义信息是完全相同的。综上，本文提出的这个系统框架可以抽取蕴含在一组语义相似的x m l 文档中的语义信息，构建一个表示这一组x m l 文档的本体文档以及描述每 8 中国石油大学( 华东) 硕士论文第1 章前言个x m l 文档资源的本体实例r d f 文档。在这个本体以及本体实例文档的支持下，可以实现这一组x m l 文档间的语义级操作，从而将x m l 描述的信息从语法层提升到语义层。 1 4 论文的结构第l 章介绍了本论文的研究背景，陈述了论文的研究问题及研究的意义，概括了本论文的主要工作，以及本文的内容安排。第2 章着重介绍了语义信息提取、本体构建，以及x m l 语义信息提取领域的国内外相关研究现状。第3 章介绍了本论文中涉及的x m l 相关技术以及本体相关的相关技术发展。由于目前国内关于本体研究的中文资料相对较少，本章进行了较为全面的介绍。第4 章概述了系统解决框架的方案和主要功能。第5 章详细阐述了抽取单个x m l 文档构建本体和生成本体实例文档的算法，以及实例说明了该方法的可行性，验证了结果的有效性。第6 章详细阐述了基于类、属性相似合并语义相似的本体的算法，并通过实例说明了该方法的实现。最后，第7 章总结了本论文的贡献，指出了现有工作的局限性，有待改进的方面。 9 中国石油大学( 华东) 硕士论文第2 章国内外研究现状第2 章国内外研究现状本体的概念自从9 0 年代初引入到人工智能领域以来，在国外就引起了众多科研人员的关注，并在计算机及相关领域得到了广泛的应用，虽然国内相关的研究和应用起步较晚，但已经逐步引起了国内科研人员的兴趣和重视。目前在本体构建领域已经出现了大量的本体收集、开发以及维护等方法的研究和实现工具。总的来说，本体建设的方式一般有两种类型：一种是在领域专家和知识工程师的参与下从头做起，从抽象功能概念入手构建领域本体框架。另外一种是利用已经存在的自由文本、半结构化数据、数据库等网络资源，从这些资源中抽取语义信息来构建本体1 8 】。诸如o n t o s a u r u s l 9 1 是一个基于w e b 的l o o m 和p o w e r l o o m 知识库浏览器，它由美国南加州大学信息科学学院开发。o n t o s a u r u s 由两个主要部分组成，一个是本体服务器，另一个是本体浏览服务器。本体服务器采用l o o m 或p o w e r l o o m 作为它的知识表示语言，供用户创建、编辑和修改本体。通过本体浏览服务器，用户可以动态地创建h 珊l 页面展示本体的层次结构，并允许在这个页面上编辑本体。另外，它还提供从l o o m 到o n t o l i n g u a ，k i p 甚至c + + 等语言的转换工具。由于o n t o s a u r u s 采用自定的本体描述语言，限制了它的通用性。 p r o t 6 9 6 2 0 0 0 1 0 1 是由美国s t a n f o r d 大学开发的本体编辑器，是一个基于手工方式创作本体的辅助工具，p r o t 6 9 6 2 0 0 0 以树形的层次目录结构显示结构，使用p r o t 6 9 6 2 0 0 0 更像是为数据库录入信息。其它类似的o i l e d j 等都属于本体创作工具，领域专家通过其可以从抽象的概念模型中手工方式构建领域本体框架。o n t o e d i t l l 2 】是使用本体信息来标注网页，从而为网页增添语义信息的工具。c 1 1 i m e m 【1 3 】则提供了查找本体错误的一种工具。在本体建设过程中存在很多大量重复性的工作，且这些工作需要领域专家和知识工程师的参与，因此从零开始为每类专业领域建立本体并不是最适宜的方法，最切实际、经济的方法是从现存w e b 中的各种信息资源中提取语义信息，构建相应的本体。目前已经有一些研究从现存的w e b 中的不同信息资源中提取语义信 1 0 中国石油大学( 华东) 硕士论文第2 章国内外研究现状息，本论文也是受相关研究启发，从已存在的x m l 资源中提取语义信息来构建本体。如q u a n gt r i n he ta 1 【1 4 】介绍了一种从关系型数据库这种结构化的数据中提取元数据信息来构建o w l 本体的r d b 2 0 n t 方法，可以帮助领域专家快速构建和发布描述了关系型数据库信息的本体。h a s a nd a v u l c u e ta 1 0 5 则介绍了一种从一组内容相关的h t m l 网页中提取信息来创建本体的系统o n t o m i n e r 。o n t o m i n e r 认为重叠的网页中含有领域共享的分类术语，以此作为建立本体的基础。m a s a h i r o t a n a k a e t a l 0 6 1 则是提出了一种从 1 a b l e 表中抽取本体信息的方法。类似的方法是从不同的数据源中如：自由文本、h t m l 、主题词表等中抽取本体信息，主要是将不同数据源的结构特点与本体的特点相结合寻求特定的抽取方法。为x m l 文档增加语义信息，可以通过两种方式来实现，一种是增强 x m l 的语义描述能力，来丰富x m l 语言的语义表达能力从而使x m l 具有语义描述的能力。s h e n g p i n g l i u e t a l 1 1 7 1 提出了一种x m l 语义定义语言 x s d l ，增强了l 的语义表达能力，可以使x m l 文档作者清晰地表达 x m l 文档中的语义信息。类似的，h u i y o n gx i a oe ta 1 【i 卅在r d f s 基础之上定义了一种影射语言r d fm a p p i n gs c h e m a 用以实现x m l 和r d f 资源的集成。另一种方式是通过将x m l 文档与本体建立关联，从而为x m l 增加语义的方式。将x m l 文档与本体建立联系，归纳起来分为两类：自顶向下和自底向上的方法。自顶向下的方法是由已存在的本体通过影射与x m l 建立关系，从而为x m l 增加语义的方式，已经有许多研究课题关注于这一方向， m i c h e lk l e i ne ta 1 0 9 1 和雕筋e hr a m ie ta 1 【2 0 】研究的是从一个给定本体生成x m ls c h e m a 的方法。g e r a l dr e i1 2 1 1 是通过定义x m ls c h e m a 到已知本体的映射来自动从x m l 数据文档中产生r d f 元数据。另外，l u x i a oe t a l 2 2 1 、m i c h e l k i e i n l 2 3 , 2 4 1 以及m i c h a e l e r d m a n n e t a l 【2 5 l 都是采用这类方法。这类方法一般是将一个预先定义的本体中类、关系等概念与要转化的x m l 中相匹配的部分进行影射提升x m l 语义的方法，这类方法的局限是必须利用已存在的本体资源。另一类是自底向上的方式，本体的语义信息来自于构建其的资源数据之中，本体的语义信息会受到资源数据的限制。中国石油大学( 华东) 硕士论文第2 章国内外研究现状 c a s t a n ose ta 1 闭中作者是在方法论的层面上讨论了一种从己存在的 y d v l l 数据源中半自动抽取本体知识的方法论。作者建议了一种三层结构的本体组织形式，不同层次的本体基于不同的模式构建，在本体中，) m l 的内容和结构模式信息根据语义影射模式、中问层模式、分类模型模式组织到本体的不同层中。 p a v e ls m r ze t a l 1 2 7 j 的目标是向用户提供一个通用的有效转换x m l 到 o w l 表示的本体，转化采用的机制是利用预先定义的x s l t 转换语句将选定部分的x m l 语句转换成o w l 本体语句。转换过程序要用户手动选定预转换数据。 rd o ss a n t o sm e l l oe ta 1 1 2 s 中作者提出了一种自底向上由x m l 的 d t d 半自动生成本体的方法，并考虑领域专家进行语义调整。 m a t t h i a s f e r d i a n de t a l 1 2 9 1 中描述了从x m l s c h e m a 到o w l 以及x m l 到r d f 资源的映射，但这两种映射关系之问并不相关，也就是说产生的本体和本体实例并不一定适应。但是当不存在x m ls c h e m a 的时候，这种方法并不能处理x m l 实例文档来构建o w l 本体。除了上面提到的方法外还存在一些类似的方法1 3 0 l ，这些方法一般是提出一种转换的方法论或是只关注从限制x m l 的结构的d t d 或x m l s c h e m a 着手转换本体知识，并不关注“l 文档的原始内容，忽略了x m l 中的许多原始信息。与本文工作类似，s e r g e ym e l n i k l 3 1 】也是只考虑x m l 文档本身不考虑 d t d 或x m ls c h e m a 的存在，它认为每个x m l 文档都会包含一个r d f 模型。作者通过使用一个简化的语法形式来检测x m l 实例中的语义信息，可以将x m l 实例影射为r d f 文档。在h a n n e sb o h r i n ge ta 1 d 2 作者提出一种机制如果不存在适宜的 x m ls c h e m a 时从x m l 实例文档中创建一个x m ls c h e m a 。然后，将这个 x m ls c h e m a 影射为一个o w l 本体，这个处理过程需要分三步来完成。但是作者也同时承认他们从x m l 中自动生成x m ls c h e m a 不像手工创建的 x m ls c h e m a 那样完善，包含诸如数据类型限制、基数限制等信息，他们从 x m l 实例中抽取x m ls c h e m a 亦不能抽取s i m p l e t y p e ，p a t t e r n ， s u b s t i t i o n g r o u p s ，f a c e t s ，i d 1 d r e f 等信息。因此该论文更倾向于从x m l 1 2 中国石油大学( 华东) 硕士论文第2 章国内外研究现状 s c h e m a 映射到本体。另外与本论文方法的不同是这些方法只关注于单个x m l 文档的处理，并没有涉及多个d l 文档的处理。 1 3 中国石油大学( 华东) 硕士论文第3 幸x m l 与本体相关技术研究与发展第3 章x m l 与本体相关技术研究与发展 3 1x m l 技术研究与发展 3 1 1x m l 的特点和应用+ x i v l l ( e x t e n s i b l em a r k u pl a n g u a g e 可扩展标记语言) m 】是w 3 c 协会定义的数据描述语言，它是s g m l 的一个优化子集。s g m l 是1 s 0 国际标准化组织在1 9 8 6 年推出的一个用来创建标记语言的语言标准，s g m l 为出版业提供了一种将数据内容与显示分离开来的数据表示方法，使得数据独立于机器平台和处理程序。s g m l 的确在许多大型出版系统中很有用，但是它的复杂性使其难以直接应用到i n t e m e t 上，x m l 将s g m l 的丰富功能与h t m l 的易用性结合到w e b 的应用中。x m l 作为语义网的基础，是实现语义网的第一步。 x m l 数据由嵌套的标记元素组成，标记包含了对文档存储形式和逻辑的描述。x m l 的嵌套标记使得它很适合描述w e b 上的半结构化数据，提供了一种描述复杂信息的方式。 x m l 的主要组件称之为元素( e l e m e n t ) ，它总是由一个开始标记和一个结束标记组成，例如： j o h n 。一个x m l 元素可以包含子元素或者文本或者空内容，在一个x m l 的开始标记中也可以定义一个或多个属性。如： j o h n x m l 允许用户定义自己的标签标记文档内容，通过使用开放的、标准的语法描述数据的内容，将数据的显示样式与数据本身分离，具有良好的可扩展性。x m l 简化了网络中的数据交换和表示，使得代码、数据和表示可以分离。x m l 的核心在于以一种标准化的方式来建立数据表示的结构，而将具体标记的定义留给了用户。x m l 的这种可扩展性使x m l 可以满足多种不同领域数据描述的需要。x m l 的元数据基础结构为建立一种在整个企业内部甚至企业之间都保持一致的元数据层待定了基础不同组织和公司的不同计算机可以相互进行交流。 x m l 技术一出现就展现了其在数据存储、数据交换等领域的显著优 1 4 中国石油大学( 华东) 硕士论文第3 章x m l 与本体相关技术研究与发展势，迅速成为一个与平台无关和厂商无关的同一数据格式标准，不论是 s e m a n t i cw e b 还是w e bs e r v i c e s l 3 4 1 都采用x m l 作为其数据表示和数据交换的标准格式，x m l 业已发展成为电子商务数据交换的主要媒介。 x m l 具有以下优点【j5 ，驯： x m l 具有自我描述的能力，可以为文档内容提供更准确的描述： x m l 允许用户定义自己的标签标记文档内容，使得x m l 具有良好的可扩展性，极大拓宽了x m l 的应用领域，如科学家们可以利用x m l 来书写数学公式、化学分子式等； x m l 关注的是数据的表示，将数据表示与显示内容分离开来，使用户与应用程序之间文件交换更容易； x m l 建构在u n i c o d e 统一字符编码之上，支持世界大多数语言的混合文本，使得x m l 具有世界通用性； x m l 支持高级搜索功能和文档问的高级链接： x m l 可以通过文档类型定义d t d 或x m l s c h e m a 指定文档中的元素及各元素之间的关系，这种结构化对大型数据库应用特别有用。 x m l 的这些优点给基于w e b 的应用程序带来了强大的功能和灵活性， x m l 作为一种通用语言，在不同种类的系统之间架设了一座桥梁，不同的应用程序间可以通过这座桥梁交换复杂的数据。现在一些重要市场，如高级数据库搜索，网上银行、医药、法律、电子商务等其他领域已经逐渐认识到x m l 在分配管理数据上的重大优势，x m l 的应用的机会己在日益增多。下面介绍几个x m l 应用的范例f 3 7 3 8 】：电子数据交换 e d i ( e l e c t r o n i cd a t ai n t e r c h a n g e ) 是用电子技术代替基于纸张的操作手段，用于公司之间的单据交换。x m l 丰富的格式语言可用来描述不同类型的单据，例如信用证、贷款申请表、保险单、图书目录、索赔单以及各种发票等。结构化的x m l 文档送至w e b 的数据可以被加密，并且很容易附加上数字签名。x m l 的安全保密措旋可在e d i 的应用中充分显示它的技术优势，x m l 有希望推动e d i 的大规模的应用。化学标记语言c m l 和数学标记语言m a t h m l c m l ( c h e m i c a lm a r k u pl a n g u a g e ) 和m a t h m l ( m a t h e m a

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）xml语义信息提取与本体构建机制研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）xml语义信息提取与本体构建机制研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档