XML向OWL本体的映射_第1页
XML向OWL本体的映射_第2页
XML向OWL本体的映射_第3页
XML向OWL本体的映射_第4页
XML向OWL本体的映射_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、XML向OWL本体的映射摘要:目前,XML在电子商务领域已经作为一种交换数据标准被广泛接受。但只有在商业伙伴对于其领域的基本概念形成一个共同理解并使用相同的语法时,他们之间的协作才能成为可能。XML能够包括语法层,但缺少对于有效概念分享的支持。Web本体语言(OWL)使用类、属性和实例在分布式环境例如互联网中支持领域知识的表达。本体提供了一种XML中数据模型元素与OWL之间映射的方法,并对其在即将使用的XLST框架中的实现和通用应用评估进行阐述。1 导言目前,XML在电子商务领域已经作为一种交换数据标准被广泛接受。但只有在商业伙伴对于其领域的基本概念形成一个共同理解并使用相同的语法时,他们之间

2、的协作才能成为可能。XML能够包括语法层,但缺少对于有效概念分享的支持。Web本体语言(OWL)使用类、属性和实例在分布式环境例如互联网中支持领域知识的表达。本文的目的是解决XML和OWL之间的差异,我们提出了一种从现有XML数据中自动生成OWL本体的策略,该方法通过在XML不同数据模型和OWL本体之间建立适当映射来完成。研究者提出了很多XML与OWL映射的方法,部分方法解决XML与RDF之间的通用映射问题,而另外一些方法则解决不考虑XML实例数据时XML Schema与OWL的映射问题。但仍然没有完整的方案来解决从一个“合法”的XML实例文档行到OWL本体之间的转换问题。Stefan Dec

3、ker甚至断言,XML与RDF之间的自动映射方法是不可能的,因为XML并没有包含任何语义约束,XML表达的是文档的结构,但是并没有包含任何内容含义的信息。然而另一方面,其他的一些方法则认为XML文档中存在语义,这些语义可以通过文档结构发掘出来。例如,Melnik尝试通过一个简单的语法来检测XML实例文档中的语义并将其映射到RDF文档中,Melnik认为每一个XML文档都包含一个RDF模型。在Vie中,作者提出了一种自动从XML内容映射到RDF元数据的方法(WEESA),该方法通过使用一个从相应XML Schema中创建的本体来完成,其本体只包含模型,并不包含实例。XML数据不会被映射到它的OW

4、L对应项上。目前从XML Schema到OWL本体的映射是通过手动完成的,我们的目标是自动创建该映射。通过结合本体结构定义的RDF标注,WEESA系统能够被进一步用来生成(X)HTML网页。Steve Battle Bat04的目的是描述一个XML和RDF模型之间的直接映射,而不用通过一个特定的序列化对象,例如RDF/XML。此外Steve Battle还认为,相比于Melnik试图建立通用映射的方法,XML Schema对于指导映射过程是有帮助的。要补充的是,我们试图发现一个中间阶段,如果我们已有了一份XML Schema,我们能够使用它创建相应的OWL模型,但是如果我们没有合适的XML S

5、chema,我们通过XML实例文档来产生一个,因此,我们想在缺少XML Schema时也能抽取出概念关系。FZT04作者描述了XML到RDF和XML Schema到OWL的映射,这两个映射相互独立,这也就意味着OWL实例不一定要适用于OWL模型,因为XML文档中的元素可能会被映射到不同的OWL元素中。然而,该方法并没有继续讨论在缺少XML Schema时如果生成OWL模型。另一个比较有意思的系统是Piazza 系统HSM+03,Piazza并不将现有的XML数据转换为OWL本体相应的RDF文档,而是通过一个中间Schema来在XML数据源对之间调整。Pizza能够帮助创建巨大的语义内部链接数据

6、库,但是不能构建集成本体。本文提出的方法与Pizza系统的更大的一个区别是,后者源与目标必须已知才能创建映射,而本文的工作只需要源文档已知,目标本体会被假设,然后产生合理的映射。本文提出了一个框架来执行的转换过程,从一个简单的XML实例文档,到(可能)产生XML Schema,最后生成带有实例的OWL模型。本文认为XML数据包含关系数据,因此我们也试图从XML文档中检测关系结构,并将其存储到数据库中。本文提出的方法首要关注面向数据的XML,即将使用的框架实现了标准XML技术XLST中的映射。2、映射本节中我们将会提供一种从XML/XML Schema映射到OWL的方法,将XML源文档提高到OW

7、L本体的层面上来。我们假设XML文档包含关系结构(见图1),试图检测出它们并用OWL类、属性和实例来表达出来。图1 数据流图XML数据模型Bos97描述了一个带标注的节点树,而OWL的数据模型基于RDF中主语-谓语-宾语(subject-predicate-object)的三元组。RDF-Schema BG02定义了创建类结构、增加类属性和类实例数据的词汇表。因此我们试图挖掘出XML的树结构来创建相应的类层次。通过使用RDF和RDFS基础之上OWL,可以表达一些例如属性的基数约束的限制。这就确保了关系数据在OWL中的直接(straightforward)表达:关系/表相对于类,列相对于属性,行

8、相对于实例。但是XML中关系结构的检测十分困难。例如,有一个更普遍的问题,如果处理嵌套(nested)标签。一方面,它们可以被认为表达“part-of”关系,另一方面,它们可以表达“subtype-of”关系。由于关注面向数据的XML,我们可以假设关系结构并使用源文档中设计的隐形知识来提高优化转换过程。对于嵌套元素,我们选择一个中间方法:例如,当一个元素包含另一个元素,而子元素不只一个文本(literal?)时,我们假设为“part-of”关系,即认为是1:N的关系,这种关系映射到owl:ObjectProperty中,它建立了两类之间的关系。我们也可以创建“subtype-of”关系,例如我

9、们将“xsd:complexTypes”元素链接到一起,然后形成一个继承元素(WTF?)。因此多重继承也有可能(大于一个域)。根据以下规则,类(owl:Class)也从xsd:complexTypes和xsd:elements融合得到:如果源XML树中的元素总是为叶节点,只包含文本而没有属性,当该类表达周围元素时,该元素被映射到owl:DatatypeProperty对象中,XML属性也同样处理,即映射到owl:DatatypeProperty对象中。虽然XML属性没有真实的数据库对应对象,属性大部分都是在面向文档的XML中使用,这就是使得它们可以用来表达数据库列。XML Schema也可以包

10、括数量限制例如xsd:minOccurs 或xsd:maxOccurs,我们可以将其映射到OWL中相应的基数限制owl:minCardinality 和 owl:maxCardinality中,表1总结了具体的映射。3、例子本节我们展示一个从Citeseer元数据集的示例数据的映射。XML文档类似于下面科技出版物的摘要(excerpt)描述。oai:CiteSeerPSU:1A title从一个XML文件示例的抽象开始,我们生成XML Schema。该XML实例自动抽取的XML Schema的片段如下所示:在执行完转换之后,OWL模型会包含表2中显示的类和属性。为了简化问题,我们并没有显示OW

11、L语法。命名和命名空间(Naming and namespaces):从表2中可以看出,有一些属性名称在XML源文档中没有相对应的部分。如果两个元素名称相同,但是位于输入树的不同级别,它们将会映射到同名的类和属性上。这种二义性在OWL中是不被允许的,因为OWL需要每个源都有唯一的标识。因此我们为owl:ObjectProperties的属性has和owl:DatatypeProperties的属性“dtp”引入两个前缀(prexes)。类的示例会自动为rdf:ID产生值。XML实例中的XML元素会根据产生的OWL模型自动地转换为OWL实例。表2 Citeseer示例数据产生的OWL模型owl:

12、DatatypeProperties可以用两种方式表达。第一种引用是在内部定义owl:DatatypeProperties。oai:CiteSeerPSU:1第二种方式描述在外部定义的来自于Dublin Core Metadata Initiative的元素。A title为了更好地支持面向文档的XML,我们也引入一个特殊的数据类型属性。这种属性在xsd:element 包含文本内容且不只一个xsd:attribute时被使用。xsd:element被映射到一个OWL类,xsd:attribute映射到一个数据类型属性,文本内容存储为新增OWL数据类型属性。通过owl:DatatypeProp

13、erties这个例子我们可以看出,XML中数据类型的信息也能集成到本体中。在owl:DatatypeProperties的值域范围内,我们使用XML内置的数据类型BM04。4、实现框架映射过程通过XML stylesheet language transformations(XSLTCla99)来实现,因此需要在不同编程语言中互操作。对于没有附带XML Schema的XML数据,生成一个合适的中间XML Schema,完整的框架架构图如图2所示。图2 系统工作流程图转换过程最多需要三个阶段(只有XML实例数据),最少一个阶段(只有XML Schema)。当只处理XML Schema时,我们只创

14、建带有类和属性的本体模型。如果只有XML实例数据,我们需要执行中间步骤。首先从XML实例数据中抽取XML Schema,这样才能创建下一步的模型。为了可维护性,我们决定只通过XML Schema创建OWL 模型,而不直接从XML实例文件来创建。Stefan Mintert在Min05中认为,在每一个XML实例文档都隐式地包含一个XML Schema,因此我们可以试图提取出来。不幸的是,这样一个自动生成XML Schema的过程是不完全的,因为XML实例文档没有包括手工创建XML Schema所需要的足够的信息。还有一些XML Schema组件不能(至少目前还不能)通过样式表(styleshee

15、t)驱动的抽取机制发现(例如,SimpleTypes, patterns, substitionGroups, facets, ID/IDREF机制)等。此外,XML实例文档还可能包括可选元素或属性,这些信息在文档样本中可能并不存在,因此在XML Schema和OWL本体中也不会出现。因此,我们需要XML Schema抽取器能够合理地表达XML实例文档,这样XML Schema可以成为一个良好的基础。这样一个基础的另一个优势是复用性。XML Schema提取基于Charlie Halpern-Hamu HH99的XLST样式表,我们已经将其扩展到我们的框架中。样式表的未来版本是使用多源文档并添

16、加对于确实XML Schema组件的检测,来提高XML Schema的提取过程。将XML实例文档数据转化为本体实例部分的样式表是同时创建的。样式表自动配置以OWL模型的转换过程。它还会检测元素是否映射到类或属性上,这一过程是必要的,因为XML实例数据会包括可选的元素和属性,而创建的样式表是他们的通用命名器。为了支持模型和数据的分离,OWL模型与OWL实例分开来存储。OWL实例通过owl:import属性来与模型关联,因此每一个引用OWL模型的OWL实例都会获取一个修改后的命名空间前缀。到目前为止,我们的实现包括四个XLST样式表,还有一个是在XML实例数据转换为OWL实例的过程中自动生成的。该

17、框架设计为可扩展的,因此缺失XSD组件的支持能够包含进来,对于面向文档的XML支持也会被集成进来。5 数据用例为了评估本文提出的方法,我们使用Citeseer公开的XML格式生物数据集,以及从关系数据库MySQL和Firebird产生的XML文件,以及使用Mircosoft Excel XML导出的XML数据。不幸的是,这些导出XML数据都不是纯面向数据的XML,因此我们不得不多少处理一些面向文档的XML。MySQL的XML导出器dump了整个数据库,因此可以很容易的映射到本体中。我们也试图映射诸如外键的关系约束,但MySQL目前还不支持。因此我们检查了Firebird RDBMS,它可以使用

18、类似的关系约束,不幸的是,它的XML导出器只能将单个数据库表导出到XML文件中。因为产生的XML Schema对于从某一确定Firebird数据库导出的所有XML文档都是通过的,OWL模型也适合所有对应的OWL实例。另外,通过XML Schema产生的样式表可以用在素有数据库导出的XML文件上。最终的OWL示例可以通过owl:imports机制结合起来。这样就产生了一个优势,即我们获得了一个模块化的本体。但问题是,外键约束并不能很容易地被检测出来,因为XML文件中没有标识外键的信息。因此很多情况下,它们只是通过列名称(例如,author_id表示authors表中的id列),该功能计划在架构的

19、未来版本中添加。因为Mircosoft Excel被广泛用于关系数据的工作中,我们也选用其作为另一个数据用例。Excel表可以被导出为XML文件,而Excel表与关系数据库中的表有很多相似之处。不幸的是,Excel文件导出的XML是面向文档的XML,它并不包含对于数据结构的描述,但是可以被用来编码样式信息,它很难来区别一个元素是语义目的还是样式目的。数据库可能包含大量的数据,导出数据的XML文件也会很庞大。因此如果scale转换过程就很重要。转换过程可以与原始的关系数据加载相比较,转换Citeseer数据效率评估的结构见表3。表3 转换Citeseer数据的效率评估6 总结和下一步工作本文提出

20、了从已有XML数据和关系中自动产生本体的技术。该方法对于在语义网中引用和集成可转换XML和关系数据源来说是非常重要的。OWL在语义上比我们映射结果所表达的能多,而且转换(尤其是没有XML Schema)可以基于启发式(heuristic)的方法,这样就不会产生最优的结果。因此,在转换源文档后需要一些后续的手工工作,来优化和适应本体的需要。我们下一步的工作是解决XML Schema缺失的组件,因此能够产生更精细和准确的本体。此外,我们计划通过让用户控制转换过程来对映射施加更多影响,以此提高对面向文档XML(也包括混合内容)的支持。我们也尝试在处理OWL实例的过程中实现更好的效率。我们提供本文方法

21、在扩展XLST框架下的一个高效实现。该框架可以被任意XLST处理器来使用,并提供下载(/XML2OWL_XSLT)。参考文献Bat04 Steve Battle. Round-tripping between XML and RDF. In International Semantic WebConference(ISWC), Hiroshima, Japan, November 2004. Springer, 2004.Bec04 Sean Bechhofer. Web Ontology Language (OWL) Reference

22、version 1.0.W3C. Tech-nical report, W3C, /TR/owl-ref/, 2004.BG02 Dan Brickley and R.V. Guha. RDF Vocabulary Description Language 1.0: RDFSchema. Technical report, W3C, /TR/2002/WD-rdf-schema-20021112/, 2002.BM04 P. V. Biron and A.Malhotra. XML Schema Part 2: DatatypesW3C

23、Recommendation.Technical report, W3C, /TR/2004/REC-xmlschema-2-20041028/,2004.Bos97 Bert Bos. The XML data model. /XML/Datamodel.html, 1997.Cla99 James Clark. XSL Transformations (XSLT). Technical report, W3C,/TR/xslt, 1999.DMvH+00 Stefan Decker, Serge

24、y Melnik, Frank van Harmelen, Dieter Fensel, Michel C. A.Klein, Jeen Broekstra, Michael Erdmann, and Ian Horrocks. The Semantic Web:The Roles of XML and RDF. IEEE Internet Computing, 4(5):6374, 2000.FZT04 Matthias Ferdinand, Christian Zirpins, and D. Trastour. Lifting XML Schema toOWL. In Nora Koch, Piero Fraternali, and Martin Wirsing, editors, Web Engineer-ing - 4th International Conference, ICWE 2004, Munich, Germany, July 26-30, 2004,Proceedings, pages 354358. Springer Heidelberg, 2004.HH99 Charlie Halpern-Hamu. Transform a sample instance to a schema. 1999.HSM+0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论