(计算机应用技术专业论文)异构环境信息集成.pdf_第1页
(计算机应用技术专业论文)异构环境信息集成.pdf_第2页
(计算机应用技术专业论文)异构环境信息集成.pdf_第3页
(计算机应用技术专业论文)异构环境信息集成.pdf_第4页
(计算机应用技术专业论文)异构环境信息集成.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)异构环境信息集成.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

异构环境信息集成 摘要 随着企业规模的不断扩大,企业信息系统的规模也随之扩大,由于实施数据管理系 统的阶段性、技术性以及其它因素的影响,以至于即使在一个单独企业,某些部门自己 就是一个数据源,每个数据源都可能是异构的,它们构成了企业的异构数据源。数据集 成是企业之间或企业内各部门协同合作的需要。它的目标是实现各个异构数据源之间的 数据共享,从而有效地利用资源,提高整个应用系统的性能。 在构建异构数据库集成系统时,主要会面对异构性、完整性、语义冲突等方面的问 题。针对这些问题,本论文首先讨论了异构数据集成的相关理论,并分析了其中存在的 问题,然后分别从j a v a 技术方面以及x m l 在数据模型角度阐述了基于x m l 和j a v a 的异 构数据库集成系统的可行性。 在此基础上提出了一个解决包括半结构化数据在内的异构数据源集成的总体解决 方案,提出了x q u e r y 查询的标准化规则、分解算法并用实验对分解算法的完整性、正 确性、适用性进行了验证。 本文的主要工作:构建了一种基于x 札的数据集成体系结构,实现关系数据源、x m l 数据源的异构集成。在传统的d t d 的基础上采用了x m ls c h e m a 作为全局数据模型、x q u e r y 作为全局查询语言,并提出了一种易于实现的x q u e r y 查询分解算法。 关键字:异构数据库,数据集成,x m l ,j a v a t h ein t e g r a tio no ft h eh e t e r o g e n e o u sin f o r m a tio ns o u r c e a b s t r a c t w i t ht h es u s t a i n i n gd e v e l o p m e n to ft h es c a l eo fc o m p a n y ,t h es c a l eo f c o m p a n y si n f o r m a t i o ns y s t e ma l s oi n c r e a s e s i n f l u e n c e db yt h ed i f f e r e n tp h a s e s o ft h ed a t am a n a g e m e n ts y s t e m ,t e c h n i c a lf a c t o r sa n de t c ,e v e ni nas i n g l ec o m p a n y , s o m ed e p a r t m e n t st h e m s e l v e sw i1 lb e c o m ead a t as o u r c e a n de a c hd a t as o u r c eh a s i t so w nf r a m e w o r k ;a l lo ft h e s ed a t ac o a s t i t u t et h eh e t e r o g e n e o u sd a t as o u r c e o ft h ec o m p a n y d a t ai n t e g r a t i o ni st h ed e m a n do fc o o r d i n a t i o nb e t w e e nn o to n l y d i f f e r e n te n t e r p r i s e sb u ta l s od i f f e r e n td e p a r t m e n t si n s i d ei t s e l f t h eg o a l i st or e a l i z ed a t as h a r i n gb e t w e e nh e t e r o g e n e o u sd a t as o u r c e s ,s oa st ou t i l i z e r e s o u r c e se f f e c t i v e l ya n dg a i nh i g hp e r f o r m a n c eo ft h ew h o l ea p p l i c a t i o ns y s t e m w h e nw ei n t e g r a t eah e t e r o g e n e o u sd a t a b a s es o u r c e ss y s t e m ,ac o m p u t e rm u s t b ed e v e l o p e da n ds e v e r a lc h a l l e n g e sm u s tb eo v e r c o m et oe s t a b l i s hs u c has y s t e m : h e t e r o g e n e i t y ,i n t e g r a l i t y ,s e m a n t i cc o n f l i c ta n ds oo n a g a i n s ta b o v ep r o b l e m s , w ef i r s ti n t r o d u c et h es t a t eo fr e s e a r c hf o rd a t ai n t e g r a t i o na n dp r o b l e m s , a n dt h e na n a l y z et h ef e a s i b i l i t yo fh e t e r o g e n e o u sd a t ai n t e g r a t i o nb a s e do nx m l a n dj a v af r o mj a v aa n dx m lt e c h n o l o g yi nd a t am o d e ls p e c i f i c a t i o n t h e nt h i sp a p e rp r e s e n t sa no v e r a l lp r o j e c t ,w h i c hc a ns o l v et h ei n t e g r a t i o n o fd i f f e r e n td a t as o u r c ei n c l u d i n gt h eh a l f s t r u c t u r e dd a t a t h ep a p e rp r e s e n t s as i m p l e x q u e r yd e c o m p o s i t i o na l g o r i t h m a n dv a l i d a t e si t sc o m p l e t e n e s s , r i g h t n e s sa n da p p l i c a b i l i t yb ya ne x p e r i m e n t t h em a i nc o n t r i b u t i o n so ft h i s p a p e ra r et h ec o n s t r u c t i o no ft h ed a t a i n t e g r a t i o na r c h i t e c t u r eb a s e do nx m l ,i m p l e m e n t a t i o no ft h eh e t e r o g e n e o u s i n t e g r a t i o no fr e l a t i o n a ls o u r c e sa n dx m ls o u r c e ia d o p t ) ls c h e m aa sg l o b a l d a t am o d e l ,x q u e r ya sg l o b a lq u e r yl a n g u a g eo nt h eb a s i so ft r a d i t i o n a ld t da n d p r e s e n tax q u e r yd e c o m p o s i t i o na l g o r i t h m k e y 霄o r d s - h e t e r o g e n e o u sd a t as o u r c e ,d a t ai n t e g r a t i o n ,x m l ,j a v a 原创性声明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论支作者签名:孟约 日期:卫砷2 窆 关于学位论文使用权的说明 本人完全了解中北大学有关保管、使用学位论文的规定,其中包 括:学校有权保管、并向有关部门送交学位论文的原件与复印件; 学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的,复 制赠送和交换学位论文;学校可以公布学位论文的全部或部分内容 ( 保密学位论文在解密后遵守此规定) 。 签名: 墨童函 日期: 竺2 :坐兰兰 导师签名:丝i ! 盎备 中北大学学位论文 1 1 信息集成研究意义 1 绪论 近几十年来,科学技术的迅猛发展和信息化的推进,使得人类社会所积累的信息量 已经超过了过去5 0 0 0 年的总和,信息的采集、存储、处理和传播的数量也与日俱增。 企业实现信息共享,可以使更多的人更充分地使用已有信息资源,减少资料收集、信息 采集等重复劳动和相应的费用支出。但是,在实施数据共享的过程当中,由于不同用户 提供的信息可能来自不同的途径,其信息内容、格式和质量千差万别,有时甚至会遇到 信息格式不能转换或转换格式后丢失信息等棘手问题,严重阻碍了信息在各部门和各软 件系统中的流动与共享。因此,如何对信息进行有效的集成管理已成为增强企业商业竞 争力的必然选择【1 1 1 3 1 。 随着企业信息化的不断深入发展,企业所使用的管理系统越来越多。由于部分企业 中的相关人员对信息系统的搭建和实施缺少系统全面的认识和把握,使企业信息化建设 缺乏整体一致性和系统协调性。这样,企业流程的不同部分采用了不同的信息应用系统, 它们独立存贮自身,产生和从外部输入大量信息。因此,我们必须考虑系统的信息集成 问题,否则,系统越多企业内部的“信息孤岛”就会越多。当今时代,信息正以指数的 增长速率不断存储在各种载体上,要想提高信息资源的整体效用,信息集成工作就显得 尤为必要。其必要性归纳如下 3 1 : ( 1 ) 通过集成提高企业信息资源的利用率。提供统一的信息获取途径,使员工、 客户和供应商等同处于企业生产链、供应链、价值链和增值链上的对象共享信息资源, 在规范化和安全化的前提下实现企业内部信息的自由流动,同时加强与外部有效信息的 交流和沟通,最大限度地实现信息集成。 ( 2 ) 通过信息集成将现有的软硬件资源加以整合。实现原有信息系统之间的无缝 集成与整合,使得跨平台转换和互操作成为可能,减少和防止企业中信息孤岛的形成。 同时可以实现对与信息系统相关的软硬件资源的集中维护和管理,降低整体维护成本。 ( 3 ) 随着网络技术和企业电子商务的迅猛发展,企业开始从内部的信息集成建设 中北大学学位论文 转向基于互联网、面向w e b 的方向发展,使企业的信息资源在时间上和空间上得到极 大的拓展。 ( 4 ) 通过信息集成,促进企业管理创新,促使对企业现有战略和结构做出有效调 整与改革,同时起到规范企业业务流程、优化企业管理体制的作用,从而提高企业的整 体管理素质和管理水平。实践证明,信息集成是提高企业市场应变和竞争能力的重要手 段。信息集成可以推动企业信息化革命,提升企业信息管理技术水平;有利于企业管理 刨新,促进企业革新管理方法、增强企业管理效能,有效地降低企业管理成本和交易成 本。怎样利用信息技术建立一个和国际企业同样的集成管理平台,打通一条通向国际市 场的捷径,保持企业持久的竞争力,是中国企业必须直面的问题。 异构信息集成系统的目的就在于提供一个访问异构信息的统一接口,使用户不必考 虑数据模型的异构性、数据抽取、数据合成等问题。用户只需指定他们想要的数据,而 不必描述怎样得到数据,减轻了寻找相关数据源、访问每个数据源然后整理合并查询结 果的负担。异构数据集成系统提供了底层数据源存储数据的“全局视图”,使用户操作 所有数据源就像操作一个数据源一样。同时,异构数据集成系统还提供全局视图的管理 与维护、模式转换与集成、全局查询处理等功能,完成从实际数据源到统一的数据源视 图的转换,在应用系统中充当数据总线的作用【1 1 1 2 1 。 1 2 国内外研究现状 1 2 1 信息集成概念 首先来辨析一下“数据”和“信息”两个词。数据是信息的载体,信息以数据的形 式表现,但并不是所有的数据都是信息,只有赋予特定含义的数据才可以看作是信息。 从这个意义上来说,数据和信息不能等同。然而,在集成应用中。由于集成的数据都具 有特定的含义,集成的信息也是以数据的形式表现。因此,许多文献不对信息集成和数 据集成进行概念上区分。 信息集成是指针对某一特定领域或组织机构,以信息为对象、信息资源为本体、集 成服务为动力、网络技术为手段、协同作业为方法,以构建资源保障体系为目标,把信 息资源诸要素有机地链接成一个整体的动态过程,也是优化要素,体系重构的过程。这 2 中北大学学位论文 里的“集成”可以理解为构造系统的一种理念,同时集成也是解决系统复杂问题,提高 系统整体功能的方法,是为求得事物状态较优,对信息资源、技术资源和智力资源进行 融合的过程。它强调融合,着眼于要素的相互竞争、制约和依存,它意味着集成后总效 益大于集成前分效益的算术总和。由此可见,信息集成并不是信息或信息载体的简单堆 积。信息集成的理想目标是五个“正确”的实现,即“在正确的时间,将正确的信息以 正确的方式传送给正确的人或机器,以做出正确的决策或操作”。信息集成主要解决企 业中各个自动化孤岛之问的信息交换与共享,其核心是数据集成。从而,实现信息集成 就是要实现数据的转换、数据源的统一、数据一致性的维护、异构环境下不同应用系统 之间的数据传送。 由此看来,所谓的信息集成就是把不同来源、格式、特点性质的信息在逻辑上或物 理上有机地集中,从而为企业提供全面的信息共享。它屏蔽各种异构信息间的差异,对 各种异构信息提供统一的操作,使集成后的异构信息对用户来说是统一的和无差异的【3 】 1 2 2 国内外相关研究 对于异构数据源集成的研究,国内提出了一些解决实施方案,如基于c o p d b a 的异 构数据源集成系统v e r s a t i l e 。该系统与其他异构数据源集成系统( 如g a l i c ,o l e d b ) 相比,最大的特点在于数据源集成的可伸缩性。新数据源经一定的包装后可直接插入系 统,而无需修改系统程序。但这类基于传统分布式对象结构的系统主要应用于企业内部, 必须在对等体系结构间才能进行通信和数据传递,其强耦合性和编程的复杂性导致集成 系统不能直接运用于互联网。 国外在这方面的工作开展得相对较早,对集成系统的公共数据模型研究及其相关查 询的分解和优化方面,取得了一定的突破,如t s i 删i s 和l o r e 等系统都为异构数据源 提供了一种统一的集成存取机制。它们采用基于半结构化数据的0 e m 模型( o b j e c t e x c h a n g em o d e l ,对象交换模型) 或图数据库( g r a p hd a t a b a s e ) 作为各数据源中输出 模式的公共数据模型,以类似0 q l ( o b j e c tq u e r yl a n g u a g e 。对象查询语言) 风格的半 结构化对象查询语言,实现对半结构化数据的查询处理。上述模型均是针对当前w e b 普 遍流行的h t m l 语言,而h t m l 是一种数据显示语言,不具有数据描述和识别能力,由此 建立的模型难以准确描述数据。基于这类模型的原型系统之间很难沟通,实用性欠佳。 3 中北大学学位论文 从采用基于x m l 技术的中间件来集成异构数据源或异构信息的角度来看,目前,相 关研究主要集中在国外。美国政府在1 9 9 8 年通过o p a l 计划开始支持v a t ( 基于中间件 的信息集成系统) 系统的研究,该系统采用m e d i a t o r w r a p p e r 中间件框架实现了关系 模式和s g m l 到o d m g 的转化,在2 0 0 0 年,该系统的研究再次受到o p a l 计划和a q u a r e l l e 资助,并以研究基于x m l 中间件信息集成系统( y a i 系统) 为主,其中v c h r i s t o p h i d e s , s c l u e t 等人主要研究了以x m l 集成视图对异构数据的包装和查询,并提出了相应的代 数体系结构。 w i s c o n s i n 大学和i b ma l m a d e nr e s e a r c hc e n t e r :共同研究和实现了x p e r a n t o 中 间件系统。该中间件系统支持对象关系数据的x m l 发布,支持基于x m lq u e r y 的x m l 关 系数据视图,采用了f l a t 模式转化算法,以d t d 为目标模式,但不支持主外键等约束 的描述,也不支持多表关系约束的转化。r o n a l d od o ss a n t o sm e l l o 等研究利用中间层 结构集成和查询x m l 数据源的问题。m a r y l a n d 大学研究了基于x m l 代码自动部署和数据 交换m o c h a 中间件跚。 关系模式到y d d l 模式转化( 模式转换是基于x m l 的异构数据库集成中间件的核心) 方面来看。己存在转化工具和大量相关算法的研究。一些商业产品实现了关系模式到x m l 文档的转化,例如o d b c 2 x m l ,o r a c l e sx s q l ,x m ls p y ,s i l k r o u t e 工具。目前,除 o d b c 2 x m l ,x m ls p y ,s i l k r o u t 外,大部分的工具都是为相关的数据产品服务,不支持多 种异构数据库更不支持其到x m l 的集成,而o d b c 2 x m l ,x m ls p y ,s i l k r o u t e 虽然支持 多种数据库系统,但仍不支持异构数据库的集成。同时,这些工具大部分都是输出x m l d t d 模式,不支持ls c h e m a 模式。 信息集成中需要进一步研究解决的问题: ( 1 ) 早期的中间件系统采用集中式架构。近来,一种数据库应用需求正在显现,它要 求支持共享分布的、基于站点的环境下的数据集成。在这种环境中,网络中自主的站点 互相连接交换数据和服务。这样,每个站点既是中间件,又是数据源。一些项目已经成立 并正在研究这种新的架构下的问题。 ( 2 ) 更多的研究者正在注意如何利用清洁的数据( c l e a n i n gd a t a ) 来处理数据源 的异构性。一个特殊的问题称为“d a t al i n k a g e ”,其含义为有效和高效的标示和链接 冗余的记录。不同的数据源经常包含表示真实世界同一实体的多个近似但并不相等的冗 4 中北大学学位论文 余的记录或属性。例如“中科院”和“中国科学院”,或者“中国北京”和“北京”。 不同的表示可能源于排版错误、拼写错误、缩写或者其他原因当从w e b 页面上自动抽 取无结构或者半结构化文档时,这个问题变得特别尖锐。对多数据源的数据集成,我们需 要在进一步处理之前首先清洗数据近来已有一些关于数据清洗和链接的工作。 ( 3 ) x m l 的出现给数据集成带来更多需要解决的问题。 1 3 本文的主要工作和组织 第l 章绪论,介绍了课题的研究意义、信息集成的概念以及研究现状。 第2 章信息集成技术,本章首先讲述了x m l 技术产生的原因和特点,以及与h t m l 的对比。接着介绍了本文用到的x m l 技术:x m l 模式与编程接口。最后是x m l 适用 于数据交换的优点。 第3 章实现方法,本章阐述了异构数据库的概念、传统的数据交换和x j v i l 出现后 数据交换的特点、y d v i l 与数据库之间的映射以及关系数据库对x j v i l 的支持。 第4 章系统设计,本章对系统需求进行了分析,提出了异构数据交换系统的总体 设计以及数据交换中涉及到的问题和解决办法。 第5 章基于x m l 的异构数据集成的实现,本章介绍了开发系统采用的平台和开发 工具,并具体讲述了每个模块的实现方法。在前一章总体设计的基础上对系统的查询分 解算法进行了详细的设计说明,并对系统应用实例中的试验数据加以分析,最后总结了 系统实施的效果。 第6 章总结和展望,对本文的工作做了总结,并对进一步的研究工作进行了展望。 5 , 中北大学学位论文 2 1 异构信息集成方法 2 1 1 异构信息集成策略 2 信息集成技术 信息集成技术已经历了2 0 多年的发展过程,研究者已提出了很多信息集成的体系结 构和实现方案,然而这些方法所研究的主要集成对象是传统的异构数据库系统。随着 i n t e r n e t 的飞速发展,网络迅速成为一种重要的信息传播和交换的手段,尤其是在w e b 上,有着极其丰富的数据来源。如何获取w e b 上的有用数据并加以综合利用,即构建w e b 信息集成系统,成为一个引起广泛关注的研究领域。 异构信息集成可以通过转换和标准化来实现。在异构信息系统集成中要解决平台和 网络的透明性、数据模型的转换、模式转换和集成、分布式事务管理等问题。 当前异构数据库系统集成主要采用三种策略:公共编程界面、公共数据库网关和公 共协议:它们都是基于客户服务器体系结构的,这样可以综合各种计算机协同工作、 各尽其能。也可实现对计算机应用系统的规模优化和规模缩小化。 公共编程接口包括客户应用编程界面( c a p i ) 和服务器应用编程界面( s a p i ) 。c a p i 是一组过程库,通常以t s r 方式或d l l 方式驻留在客户工作站上,一个c a p i 可以装载 后端专用的驱动程序,以访问不同的数据源。s a p i 则提供一个应用编程界面,控制服务 器与客户应用请求以及目标数据库之间的交互。 数据库网关是不同d 蹦s 本身自带的一种数据转换接口,客户通过它可以访问异种 数据库。o r a c l e ,s y b a s e ,s q ls e r v e r 等大型数据库厂商都有自己的网关产品。比如 s y b a s ec l i e n t s e r v e ri n t e r f a c e s 允许各种类型的客户端应用访问各种数据源。s y b a s e g a t e w a y s 提供了s y b a s e 与其他s o l 类数据库( 如o r a c l e 和i n f o r m i x ) 的实时集成。 s y b a s eo m n i s o lg a t e w a y 则提供了彻底的位置透明和产品透明,将不同服务器中不同的 数据源集成,为用户提供一个统一的逻辑整体。采用数据库网关这种集成方式可以较为 满意地解决数据库的互操作问题。通过网关可以把第三方的开发工具连接到自己的数据 库产品上。用户无需废弃现有的应用程序,就可利用网关把它们与新的数据库技术互联 6 中北大学学位论文 起来,从而保护己有的投资。但是,n 个异构数据库组成的复杂系统中,要实现任意两 个数据库问的互操作,就必须提供n 木( n 一1 ) 2 个网关,并且数据库网关价格昂贵,这在 实际应用中是很难投入使用的。而且,有些异构数据库间的数据格式、语法或语义的转 换是行不通的,利用数据库网关访问异地异构数据库不易达到完全透明。所以数据库网 关集成方式对于若干异构数据库的集成比较有效,一旦范围扩大,实用性就降低了。 采用公共协议来集成异构数据库是指对客户和服务器间通信的格式和协议以及数 据库语言进行标准化,这是一种比较理想的解决异种数据库集成的方法。目前比较典型 的有s a g ( s o la c c e s sg r o u p ) 规范和i b m 的分布式关系数据库体系结构( d r d a ) 。 这三种策略在异构数据库系统集成中可以配合使用,并不互斥。从各种数据库产品 所提供的异构数据库集成的主要机制来看,g a t e w a y 和a p i 是当今集成异构数据库的主 要方法。当前一些主要的大型数据库厂商的新版本d b m s 几乎都采用了客户机月艮务器 ( c s ) 体系结构,增强对分布式功能的支持;都具有访问异构数据库的能力,实现了 异构集成,它们的不足之处是,集成通常都是单向的、主从式的,一种产品一般只提供 从自己的d b m s 访问异构数据库的机制和产品“1 。 2 1 2 异构数据集成方法 异构数据集成是把不同来源、格式、特点的数据在逻辑上或物理上有机地集中,从 而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利 用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成系统,这些技 术在不同的着重点和应用上解决数据共享和为企业提供决策支持。在这里将对这几种数 据集成模型做一个基本的分析脚。 2 1 2 1 虚拟视图法 采用虚拟视图法实现的数据集成系统,当用户向该系统提交查询请求时,系统根据 命令操作数据源中的数据,所以称这种方法为l a z y 方法。采用虚拟视图法集成数据源主 要有两种体系结构,一种是联邦数据库系统,另一种是m e d i a t e d 系统“。 ( 1 ) 联邦数据库系统( f e d r a t e dd a t a b a s es y s t e m ) 联邦数据库系统即f d b s 是由参与联邦的半自治的数据库系统组成,目的是实现数 据库系统问部分数据的共享。联邦中的每个数据库的操作是独立于其它数据库和联邦 7 中北大学学位论文 的。之所以叫“半自治”是因为联邦中的所有数据库都添加了彼此访问的接口。联邦数 据库系统分为紧藕合f o b s 和松藕合f d b s 两种“”。 紧藕合f d b s 有一个或几个统一的模式,这些模式可通过模式集成技术半自动生成, 也可通过用户手工构造。要解决逻辑上的异构,就需要领域专家决定数据库模式间的对 应关系。由于模式集成技术不易添加删除联邦数据库集成系统中的数据库,所以紧藕 合f d b s 通常是静态的,且很难升级。 松藕合f d b s 没有统一的模式,但它提供了一些查询数据库的统一语言。这样f d b s 中的数据库更具有自治性,但必须用户解决所有语义上的异构。由于松藕合f d b s 没有 全局模式。所以,每个数据库都要创建自己的“联邦模式”。 f d b s 中实现互操作最常用的方法是将每个数据库模式分别和其它所有数据库模式 进行映射,如图2 1 所示。这样联邦中需要建立n 事( n 1 ) 个模式映射规则,但当参 与联邦的数据库很多( n 值很大) 时,建立映射规则的任务就变得不可行了。所以,联 邦数据库集成系统适合于自治数据库的数量比较小的情况,而且希望数据库能够保持 “独立”,允许用户单独查询,数据库间能够彼此联合回答查询的情况。对于网络上越 来越丰富的数据源,f d b s 显然不是一个很好的解决方案。 图2 1 四个数据库的联邦需要1 2 个组件以相互翻译查询 在图2 1 中,我们看到了四个数据库形成了一个联邦。这四个数据库中的每一个都 需要三个组件,以存取其他三个数据库。 ( 2 ) 中介( m e d i a t i o n ) 系统 m e d i a t e d 系统通过提供所有异构数据源的虚拟视图来集成它们,这里的数据源可以 8 中北大学学位论文 是数据库、w e b 数据源等。该系统提供给用户一个全局模式( 也q m e d i a t e d 模式) ,用户 提交的查询是针对该模式的,所以用户不必知道数据源的位置、模式及访问方法。 m e d i a t i o n 体系结构与紧藕合联邦有如下不同之处: ( 1 ) m e d i a t e d 系统可以集成非数据库数据源。 ( 2 ) 基于中介器( m e d i a t o r ) 的系统中的数据源的查询能力可以是受限的,数据 源可以不支持s q l 查询。 ( 3 ) m e d i a t i o n 系统中的数据源是完全自治的,这就意味着很容易向系统中添加 删除数据源。 ( 4 ) 由于m e d i a t e d 系统中的数据源是自治的,所以对系统中数据源的访问通常是 只读的,而f d b s 支持读写访问。 图2 2 所示的是典型的m e d i a t e d 系统体系结构。该系统的主要部分是中介器和针对 每个数据源的包装器。这里中介器的功能是接收针对全局模式生成的查询,根据数据源 描述信息及映射规则将接收的查询分解成每个数据源的子查询,再根据数据源描述信息 优化查询计划,最后将子查询发送到每个数据源的包装器。包装器将这些子查询翻译成 符合每个数据源模型和模式的查询。并把查询结果返回给中介器。中介器将接收的所有 数据源的结果合并成一个结果返回给用户“”。 图2 2m e d i a t e d 系统体系结构 9 中北大学学位论文 2 1 2 2 数据仓库法 数据仓库法需要建立一个存储数据的仓库,由e t l ( e x t r a c t ,t r a n s f o r m ,a n dl o a d ) 工具定期从数据源过滤数据,然后装载到数据仓库,供用户查询。所有的查询都针对数据 仓库中的数据,数据仓库必须随数据的变化而随时更新。其最大优点是能保证查询的性 能的快速高效;缺点是数据缺乏时效性,所有的数据都是冗余的。且实现数据同步非常 困难。与虚拟视图法相似的是用数据仓库集成异构数据源也需要统一的数据视图但不 同的是e t l 工具过滤得到的数据存储到仓库中。而与传统的数据库不同的是数据仓库中 主要存储的是历史和汇总数据,用于决策支持,主要供分析或执行等人员使用;而且为 避免数据仓库与数据源中数据出现不一致。通常不允许用户对数据仓库进行更新。数据 仓库法体系结构如图2 3 所示。 图2 3 数据仓库体系 由于数据仓库系统的昂贵的投资费用、项目实施周期长、项目成功率风险大等原因 制约了数据仓库在中、小型企业或数据积累少的企业解决异构数据源整合和集成需求的 应用;有些数据库管理系统自带的数据转换工具,能低成本地解决异构数据源整合和集 成问题,但在具体项目实际应用过程中,也具有一定的局限性。 数据集成在很大程度上是基于这两种相对的方法。数据仓库和虚拟数据集成系统主 1 0 中北大学学位论文 要的不同是“e a g e r ”和“l a z y ”的对抗。如上所述,数据仓库方法需要建立一个存储 数据的仓库,定期对数据源中的所有信息进行预处理,形成符合仓库模式的信息,然后 下载数据到数据仓库。对数据源中信息的预处理及数据仓库的更新主要是通过e t l 工具。 这种方法的主要好处是查询处理性能高,但主要缺点是数据可能不是最新的,如果仓库 模式设计成静态的,当有新数据源加入或已有数据源发生变化时对仓库的修改代价比较 高,而且创建数据仓库比较费时费力,通常需要6 至1 8 个月的时间。 虚拟视图集成方法用于数据仓库不实用或不能解决的情况,例如:用户只需访问数 据源中- d , 部分数据、数据频繁更新、需要实时数据、提供数据方只能处理有限的查询 或全局模式本身经常改变的情况。在完全的虚拟数据集成中,全局模式是一个逻辑的或 虚拟的实体,系统根据数据源相关信息将针对该模式的查询在系统运行时动态重写成针 对每个实际数据源的查询,中介器通过包装器获得数据,然后整合,返回绘用户。在实 际的数据集成解决方案中多采用虚拟视图集成的方法,该方法定义了一个或多个中介模 式( m e d i a t e ds c h e m a ) ,通常指全局模式。这些模式是用来查询数据,而不是存储数据, 数据仍保存在局部数据源中。当用户向集成系统提交一个查询,系统会将该查询翻译成 针对各个数据源的查询集,然后将结果整合返回给用户。应用这种解决方案得到的查询 结果是最新数据。而且x m l 的出现使得对各种数据信息的标准化描述成为可能,使系统 更易于适应数据源问的不同。 虚拟视图集成优子数据仓库之处在于; ( 1 ) 它能够集成那些只允许对数据进行有限访问的数据源;支持数据的实时视图; 能够同时描述中介模式的多个版本。 ( 2 ) 适合集成系统中的数据源数量很大,而且数据源更新频繁,不可预知用户需 要查询什么信息的情况。虽然虚拟视图集成方法要以一定的性能作代价,因为每次查询 都要连接数据源,如果有些数据源实际位置距中介器很远,则可能出现响应延时,但是 创建数据集成系统很快,而且在中介器中增用缓存策略可解决这一问题,优化系统性能。 2 2 异构数据集成的主要问题 从为企业应用构建支撑系统的角度来讲,必须考虑企业异构数据在集成过程中所遇 到的特殊问题。总的来看,在构建异构数据源集成系统时,主要面对以下几方面问题例: 中北大学学位论文 ( 1 ) 异构性 异构性是异构数据集成必须面对的首要问题,其主要表现在两个方面: 系统异构:数据源所依赖的应用系统、数据库管理系统乃至操作系统之间的不同构 成了系统异构。 模式异构:数据源在存储模式上的不同。一般的存储模式包括关系模式、对象模式、 对象关系模式和文档嵌套模式等几种,其中关系模式为主流存储模式。需要注意的是, 即便是同一类存储模式,它们的模式结构可能也存在着差异。例如o r a c l e 所采用的数 据类型与s q ls e r v e r 所采用的数据类型并不完全一致。 ( 2 ) 透明性 与系统解决异构性的程度相关,决定系统的功能和使用的方便性。包括平台透明性、 系统透明性、数据源透明性和语义透明性。 平台透明性:隐藏了硬件平台、操作系统和通讯协议等各种数据源所基于的平台间 的差异。对于用户来讲,每个数据源像运行在同一个硬件软件平台上。 系统透明性:当数据源的数据管理系统、数据模型和语言间的差异被隐藏时,对用 户来讲,每个数据源像是用同一个数据模型来描述的,由同一个数据管理系统和数据语 言来管理和维护的。 数据源透明性:隐藏了数据源的描述信息,由系统解决诸如:数据的存储位置,数 据如何被查询。用户所见到的只是一个逻辑数据源。 ( 3 ) 自治性 在对原有应用系统的数据进行集成时,不能影响原有系统的正常运行。 ( 4 ) 扩展性 集成系统具有很好的可扩展性和适应性,能够适应数据源的数目、内容以及格式等 的不断交化。 2 3 本章小结 本章主要介绍了异构数据集成的基本策略,详细描述了异构数据集成的方法,提出 了目前异构数据集成所存在的问题。 1 2 中北大学学位论文 3 实现方法 随着信息技术的发展,企业对于数据集成的要求也越来越高,而功能强大的x m l 技 术出现并迅速流行,并凭借其自身的各种优点,在数据集成中得到了日益广泛的应用。 在本章中将详细介绍x m l 技术和与之相关的s c h e m a 、x q u e r y ( 煳lq u e r y ) 及其编程接 口等,总结y a l 技术适用于数据集成的优点,提出采用x m l 技术与j a v a 技术实现数据 集成阱1 。 3 1x m l 相关技术 k m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 可扩展标记语言是一门新兴的面向i n t e r n e t 应用的语言,它是由w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 组织于1 9 9 8 年制定的一组通用 规范。煳l 是s g m l ( 标准通用标记语言) 的一个子集,其最大优点在于适合网上发布和 数据交换。另外,作为对s g m l 语言标准的一种改良,x m l 凭借其良好的扩展性和自描述 性、形式与内容分离、遵循严格的语法要求以及对多语种的支持等特点给跨地域异构应 用间的协同工作、基于语义的智能数据搜索等重要领域带来重大突破。从整体上讲,x m l 定义了应用间所传递数据的结构,而且这种结构的描述不是基于二进制的、只能由程序 去判读的代码,而是一种简单的、能够用任何编辑器读取得文本。利用这种机制,程序 员可以制定底层数据交换的规范,然后在此基础上开发整个系统的各个模块,而各模块 之间传输的数据将是规范的符合既定规则的数据另外,x m l 还允许为特定的应用制定特 殊的数据格式,使其非常适合于在服务器与服务器之间传送结构化数据删“”。 3 1 1x 眦特点 x m l 文档由称为实体的存储单元组成,实体可以包含解析数据或未解析数据。解析 数据由字符组成,其中一些字符组成字符数据,另一些字符组成标记,标记中包含对文 档存储格式和逻辑结构的描述。目前,w 3 c 设定了几个工作组专门讨论与x m l 相关的技术, x m l 标准还在进一步完善和发展之中。 x m l 主要优点如下: 1 3 中北大学学位论文 ( 1 ) 良好的可扩展性 众所周知,各个不同的行业会有不同的特殊要求,要想定义一套各行各业都能够普 遍应用的标记非常困难,x m l 允许各个不同的行业根据自己的需要制定自己的一套标记, 例如:化学标记语言c m l ,数学标记语言m a t h m l 。这就使得该领域中的人们可以自由交 换信息,而不用担心接收端的人是否有特定的软件来查看信息。 ( 2 ) 内容和形式相分离 ) 【m l 文档用于描述数据及其相互之间的关系,x s l 和c s s 用于表现其形式,这样,同 一内容可以根据实际要求呈现多种表现形式,用户可以自行定制数据显示方式。 ( 3 ) 遵循严格的语法要求 h t m l 的语法要求并不严格,浏览器可以显示有语法错误的h t m l 文件。x m l 有严格的 语法要求。制定了一整套基本要求,例如:x m l 文档必须有且只有一个根元素,标记要 配对出现,每个元素都必须有起始和结束标记等。x m l 非常注重准确性,如果语法有丝 毫错误,分析器都会停止对它的进一步处理。这样,保证x m l 文档具有较好的可读性和 可维护性。 ( 4 ) 良好的移植性 x m l 语言可以定义各种数据,像文本图像声音等。这些数据往往有很多种不同的格 式使得数据不能在各系统之闻交流,或使用额外的转换软件来实现跨平台的交流。y d v l l 的这个特性使得只要交换数据的系统都能处理一种格式的文件即) ( 1 l 文档,就能处理由 x m l 标注的各种数据,从而实现了不同格式数据的跨平台交换“。 3 1 2 格式良好的煳l 文件 x m l 文件可以分为两种类型:一种是格式良好的姗l 文件,一种是有效的 ( v a l i d a t i n g ) 剐l 文件。如果一个x 札文件满足x m l 规范中的某些相关法则,且没 有使用模式时,可称这份文件是格式良好的。而如果一个x m l 文件是格式良好,且正确 地使用了模式,模式中的语法又是正确的,那么这个文件就是有效的。只有格式良好的 ) 【l i l 文件才能够被解析器正确地解析出来。 格式良好的x m l 文件必须符合如下规则嘲: ( 1 ) 文件的第一行必须是声明煳l 版本的语句。 1 4 中北大学学位论文 ( 2 ) 每一个文件只能有一个根元素。 ( 3 ) 所有的标记必须成对而且以嵌套的方式出现。 ( 4 ) 煳l 标记区分大小写,因此起始标记与结束标记必须严格匹配。 ( 5 ) 属性值必须用双引号扩起来。 ( 6 ) 内容为空的标记必须在结尾加上“”。 3 1 3d t d 和x m ls c h e m a 3 1 3 1d t d 姗l 的语法是通过文档类型定义d t d 来描述的。d t d 描述了什么是有效的标记,并 进一步定义x m l 文档的结构,即定义页面的元素、元素的属性以及元素和属性之间的关 系。一个d t d 描述了标记语言的语法和词汇表,形成了一系列正则式,解析器将这些正 则式与x m l 文件内部的数据模式相匹配,从而判别该x m l 文档是否有效。它可以通过 3 a y a s c r i p t 、j s c r i p t 、v b s c r i p t 等脚本程序来调用,也可通过c + + 、j a v a 等高级语言 来调用。d t d 为开发基于x m l 的应用系统提供了便利。但是随着x m l 技术的广泛使用, d t d 逐渐暴露了自身存在的不足叫“: ( 1 ) d t d 是基于正则表达式的,描述能力有限。 ( 2 ) d t d 没有数据类型的支持,在大多数应用环境下能力不足。 ( 3 ) d t d 的约束定义能力不足,无法对x m l 实例文档做出更细致的语义限制。 ( 4 ) d t d 的结构不够结构化,重用的代价相对较高。 ( 5 ) d t d 并非使用x m l 作为描述手段,而d t d 的构建和访问并没有标准的编程接口, 无法使用标准的编程方式进行d t d 维护。 3 1 3 2x m ls c h e m a j ( j ls c h e m a 是d t d 之后第二代用来描述x m l 文件的标准。是用来对x 赫l 进行文档的类 型定义的语言。用来规定x m l 文档的数据类型及组织方式,同时还是丰富的元数据资源。 脚ls c h e m a 是一种定义文件的方式,拥有许多类似d t d 的准则,但又要比d t d 更为强大一 些,w 3 c 协会宣称,与d t d 相比】( m ls c h e m a 拥有许多优势。x m ls c h e m a 实际是x m l 的一个 应用。ls c h e m a 可使x m l 和x m l 软件包对数据类型进行描述,使用x m l 命名空间,允许 开发者充分利用继承性,和d t d 不同,它是真正的x m l 文件魄1 。 1 5 中北大学学位论文 x m ls c h e m a 的优点如下: ( 1 )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论