基于XML异构数据源集成的研究_第1页
基于XML异构数据源集成的研究_第2页
基于XML异构数据源集成的研究_第3页
基于XML异构数据源集成的研究_第4页
基于XML异构数据源集成的研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于XML异构数据源集成的研究摘要:针对异构数据集成过程中的模式转换问题,提出一种XML模式与关系库模式的转化方法,通过定义XML Schema与关系模式之间的转换规则,以XML Schema文档树生成的结点树为基础,实现了XML模式与关系模式的映射。该方法的最大特点是它不仅可以反映数据的结构特征,而且还能表示数据的语义约束。论文关键词:XML模式;关系模式,数据集成,异构数据源在企业实施信息化进程中,由于企业内各部门的业务和功能归属不同,以及各企业信息化水平存在差异等原因,造成企业拥有许多相互隔离的、由不同核心技术构建的信息服务和管理系统.系统中数据的表示不同,数据交流效果极差,形成“信息孤

2、岛”,从而使得企业内以及企业间的协作效率与效果很不理想。如何将这些异构的数据源集成起来,实现有效的信息查询,就成为了一个迫切需要解决的问题1。只有将这些孤立的数据源集成起来,提供给用户一个统一的视图,才能从这些资源数据中获取人们所需要的信息。而为大量各种各样的数据提供某种统一的表示方法无疑是解决问题的关键,这就要求能找到一种标准、开放的数据结构来表示数据信息。XML的出现无疑为异构数据源的集成带来了新的希望。它以一种开放的自我描述方式定义数据结构,在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关系。同时,本文对关系数据库的完整性约束进行研究,定义了XML模式和关系数据库模式的映射

3、模型,通过对XML模式34的简化和扩展,提出了一种能够完成XML模式和关系模式之间转换的解决方案。2 XML简介XML为可扩展标记语言(Extensible Markup Language)的缩写,是一种具有数据描述功能、高度结构性及可验证性的语言。和HTML一样,XML同样使用标记与属性;和HTML的最大的不同点在于XML的标记与属性允许用户自行定义,并可以按照所定义的标记与属性的语法来开发应用程序,因而具有很好的扩展性。在XML文件中,可以使用标记来描述数据,或配合属性来辅助描述数据,因此XML十分适合用于作为标准的描述语言;由于可以借助验证规则(DTD或XML Schema)来规范一个X

4、ML文件的内容与结构,保证XML文档的有效性,所以XML又很适合作为一种数据交换的格式2。3 基于XML模式的数据源集成解决方案3.1 集成策略在整体结构上采用“数据交换中心”的思想来有效解决不同企业应用系统之间的协同工作。通过采用统一的数据交换标准,使各应用系统与数据交换中心相连,利用数据交换中心来实现数据共享和路由,由于隔离了数据存储层和应用层,使得应用与其底层的数据结构和存储方式无关,从而不需要对原有业务系统进行改造,也不需要对已有的业务流程重新开发。基于数据安全性、系统性能、系统扩展性和实施难度等方面的考虑,整个体系结构在物理拓扑上采用星型结构(如下图所示)。3.2 集成框架数据交换中

5、心之所以能够交换基于不同操作平台和数据库的数据,主要得益于其对信息的统一表示、完整的消息服务能力以及功能完备的交换平台软件系统。信息的统一表示依靠元语言标准、信息标准、元数据标准、显示标准、解析、转换和封装标准来保证。完整的消息服务能力依靠信息的统一封装、统一编址、信息的可靠性传输、路由管理等技术手段实现。交换平台软件系统一般采用基于基础/中心数据库的数据交换、消息中间件服务器等技术方式。以下给出该数据交换中心节点及企业终端节点的框架结构(如下图所示),并对各模块功能予以说明。(1)数据操作引擎:它是负责接收和发送XML数据的平台。(2)XML解析器:主要是完成XML模式确认的过程,即测试文档

6、是否符合施加到其文档类型之上的约束条件。(3)XML映射器:当企业所用的Schema和交换中心使用的Schema不一致的时候,将用到该功能模块。它首先检查是否有相应的XSLT(可扩展样式表语言)文件,如果有,则直接按该文件的规则把企业的XML转换为标准格式的XML文件;如果没有,则从企业用的Schema中提取出对应的数据格式和数据类型以及字段名,根据业务规则把标准Schema中对应的数据格式、数据类型以及字段名一一映射,系统将按此生成一个XSLT文件并用此文件进行映射。(4)XML-based转换器:主要完成XML数据模式与其它相应数据模式(关系模式、HTML文档、文本文件等)的转换。(5)X

7、ML-based封装器:把经过处理后得到的数据按一定的规则转化为XML文件,并将该XML采用SOAP格式进行封装。(6)数据处理器:直接与数据库及其他信息系统进行交互。3.3 框架特点(1)安全性:该框架采用星型拓扑结构,便于对数据集中管理,实施时可以在数据交换中心制定一套统一的安全管理策略。数据交换发生在这个中心节点上,该节点接收来自各个企业的数据,解析接收到的数据并按数据交换目的地所识别的格式进行转换,然到目的地。通过数据交换中心节点,可以在数据源和目的地之间建立一个透明的安全的数据通道。(2)松散耦合和集成:该框架实现了Internet环境下企业应用的松散耦合和集成,使企业可以方便的集成

8、现有的应用并扩展新的应用。基于Web服务的数据交换是一种松散耦合的交换方式,它不依赖于任何一个企业,仅是提供一个方法,该方法在数据的发送者和接收者之间建立一种连接,解析双方的数据模式和数据类型,并在两者之间透明的进行数据的转换和传输。对于数据交换的参与者,无需了解对方的数据模式,所有的交换过程都由该服务的提供者完成。4 关系模式与XML模式双向映射方法4.1 关系模式到XML模式的映射关系模式到XML 模式映射流程如下:关系模式到XML 模式映射的主要过程分为如下三个步骤:(1)关系模式提取。为了保证数据的完整性,该算法不仅提取了关系模式中的属性,并且根据数据库表的主、外键约束,建立数据库中被

9、共享表之间的关系,并将所有属性和约束以有向图表示。(2)关系模式到XML模式的转化。关系模式是对关系的描述,包括关系名,组成该关系的诸属性名,属性向域的映像,属性间的依赖关系等。关系模式具有严格的数学基础,可以看作一种扁平(flat)结构。XML是由多层嵌套的元素所组成的文档结构。XML数据格式是一种层状(hierarchical)的数据格式,目前,有多种模式(包括XML DTD、XML Schema、XDR、SOX、DSD、DCD、DDML等等)用来描述XML的数据结构和约束,但是这些模式都没有严格的数学基础,所以没有统一的数学方法来实现关系模式到XML模式的转化,加之XML模式的多样性,也限制了转化算法的通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论