已阅读5页,还剩68页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 中文摘要 异构数据集成查询是当前信息化建设过程中面临的个重要课题,主要用 于解决实际应用中的“信息孤岛问题。异构数据集成查询的目标是集成己有 系统的数据,屏蔽各异构数据源间的差异,为用户提供涉及多个异构数据源的 统一查询机制,使用户不必考虑数据的异构、抽取和集成等问题而获得如同数 据库查询一样的服务。因此,研究异构数据源间数据的综合集成查询,可提高 数据的利用率,有很高的实用价值和应用领域。 本文所研究的异构数据集成查询系统来源于天津港信息化建设面临的实际 问题,结合天津港综合物流信息服务平台优化整合各部门异构的数据源,建立 “一站式”对外信息服务窗口的实际需要,设计了一个基于x m l 和w e b s e r v i c e 的异构数据集成查询系统。该系统采用c s 、b s 相结合的架构,采取数据源向 集成端推送数据的方式构建而成。系统包括两个部分:数据采集子系统和集成 查询子系统,其中数据采集子系统负责定时定期采集数据源更新的数据,将数 据转换为x m l 格式后,提交给集成查询子系统;集成查询子系统负责消除多数 据源提交的数据间的异构,将局部数据集成为全局数据,开放查询接口为用户 提供查询服务。该系统能在保持各数据源相对独立的同时,对各数据源中的数 据进行综合查询,保证了查询结果的时效性,具有部署灵活和易管理的优点, 较好地解决了各异构数据库间数据集成查询的问题,具有较强的现实意义和工 程实用性。 关键词:异构,集成,x m l ,w e b s e r v i c e a b s t r a c t a b s t r a c t a tp r e s e n t ,h e t e r o g e n e o u sd a t ai n t e g r a t i o ni sam a j o ri s s u ei nt h ep r o c e s so f i n f o r m a t i o nb u i l d i n g ,w h i c hi sm a i n l yu s e dt os o l v et h ep r o b l e mo f ”i n f o r m a t i o n i s o l a t e di s l a n d ”i nt h ep r a c t i c a la p p l i c a t i o n t h eg o a lo fh e t e r o g e n e o u sd a t ai n t e g r a t i o n i st oi n t e g r a t ed a t ai ne x i s ts y s t e m s 。s h i e l d i n gt h ed i f f e n e n c eo ft h eh e t e r o g e n e o u sd a t a s o u r c e s ,t op r o v i d eu s e r su n i f i e dm e c h a n i s mi nan u m b e ro fh e t e r o g e n e o u sd a t a s o u r c e s ,s ot h a tu s e r sd on o th a v et oc o n s i d e rt h eh e t e r o g e n e i t yo fd a t a ,d a t ae x t r a c t i o n a n di n t e g r a t i o ni s s u e sa sa c c e s st ot h ed a t a b a s ef o r t h es a m es e r v i c e s t h e r e f o r e ,t h e s t u d yo fh e t e r o g e n e o u sd a t as o u r c e sf o rd a t ai n t e g r a t i o n c a ni m p r o v et h ed a t a u t i l i z a t i o nr a t e ,ah i g hp r a c t i c a lv a l u ea n da p p l i c a t i o n s t h es t u d yo fh e t e r o g e n e o u sd a t ai n t e g r a t i o ne n q u i r ys y s t e mf r o mt h et i a n j i n p o r t sr e a lp r o b l e m so fi n f o r m a t i o nc o n s t r u c ti nt h ep a p e r , w i t ht h et i a n j i np o r t i n t e g r a t e dl o g i s t i c si n f o r m a t i o ns e r v i c ep l a t f o r mo p t i m i z et h ei n t e g r a t i o n o ft h e v a r i o u sd e p a r t m e n t sh e t e r o g e n e o u sd a t as o u r c e s ,t h ee s t a b l i s h m e n to fa ”o n e s t o p w i n d o wo fe x t e r n a li n f o r m a t i o ns e r v i c e sma c t u a ln e e d s d e s i g nab a s e do fx m la n d w e b s e r v i c eh e t e r o g e n e o u sd a t ai n t e g r a t i o ne n q u i r ys y s t e m t h es y s t e mu s e sc s ,b s c o m b i n a t e ds t r u c t u r e ,a n da d o p tt h ed a t as o u r c et op u s hd a t at ot h ei n t e g r a t i o n t h e s y s t e mi n c l u d e st w op a r s :d a t aa c q u i s i t i o ns u b s y s t e ma n di n t e g r a t e ds u b s y s t e m , d a t aa c q u i s i t i o ns u b s y s t e mr e s p o n s i b l ef o rg e tu p d a t e dd a t af o r md a t as o u r s e s r e g u l a r l y , c o n v e r tt h ed a t at ox m lf o r m a t ,s u b m i t t e dt h e d a t at ot h ei n t e g r a t e d s u b s y s t e m ,i n t e g r a t e ds u b s y s t e m sr e s p o n s ef o rt h ee l i m i n a t i o no fm u l t i p l e d a t a s o u r c e st ot h eh e t e r o g e n e o u sd a t a , l o c a ld a t aw i l lb ei n t e g r a t e di n t og l o b a ld a t a ,a n d o p e ni n t e r f a c et op r o v i d eq u e r ys e r v i c ef o rt h eu s e r s t h i ss y s t e mc a r lm a i n t a i nt h e r e l a t i v e l yi n d e p e n d e n to ft h ed a t as o u r c e ,a tt h es a m et i m e ,d y n a m i c a lq u e r yd a t ai nt h e v a r i o u sd a t as o u r c e s ,e n s u r et h ee f f e c t i v e n e s so ft h er e s u l t s ,d e p l o yaf l e x i b l ea n de a s y m a n a g e m e n to ft h em e r i t s ,c a l ls o l v et h ev a r i o u sh e t e r o g e n e o u sd a t a b a s eo fd a t a i n t e g r a t i o nf o rt h ep r o b l e m ,h a ss t r o n gp r a c t i c a ls i g n i f i c a n c e a n de n g i n e e r i n g p r a c t i c a l i t y i i a b s t r a c t k e yw o r d s :h e t e r o g e n e o u s ,i n t e g r a t i o n ,x m l ,w e b s e r v i c e i l l 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:璇峰 砌年占月如日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月 日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:乡妖l j 肇 砂召年r 月如e t 第一章绪论 第一章绪论 第一节研究背景 近十几年来,人们利用信息技术搜集和处理数据的需求大幅度增强,许多 不同类型的数据库被用于商业管理、政府办公、科学研究和工程开发等领域, 这一情况仍将继续并发展下去。于是,一个新的挑战被提了出来,就是如何从 地理上分布在不同区域的不同类型数据源中及时高效地提取有用的信息。另外, 随着计算机网络和数据库技术的发展,人们提出了集成查询分布在不同地理位 置上不同类型数据库资源的要求。这些数据库的数据结构和语义可能差别很大, 相应的数据库管理系统的功能也可能很不相同。那么,如何解决异构多数据库 系统的数据集成查询,提高数据的利用率成为目前一个亟待解决的问题。 本文研究的异构数据集成查询系统来源于天津港信息化建设面临的实际问 题,也是国家十一五项目“数字化口岸关键技术研发及应用”的主要完成内容 之一。天津港根据港口信息化发展的实际需要开发了天津港综合物流信息服务 平台,该平台是一个重要的业务支持和辅助查询系统,涉及到港口、货主、货 贷、船务公司等多个单位。该平台系统功能包括关港联动、船舶作业信息、货 况跟踪、港口资讯、e d i 服务、物资采购等多方面。为了进一步推进天津港综合 物流信息服务平台的建设,该平台需优化整合海关、商检、工商、税务、企业 等区内各职能部门及用户、天津电子口岸及市各委办局的信息资源,建立“一 站式”对外信息服务窗口。通过平台的建设,建立面向全球的物流信息服务网 络,为货主、船舶公司、贸易伙伴等客户提供优质、全面的信息服务。同时, 可以进一步提高海关的通关效率、降低企业交易成本、增加贸易机会,大大促 进天津港经营环境的改善。 在平台整合其它部门信息资源的过程中存在一些问题,参与平台整合的各 部门均建立了自己的应用系统,这些应用系统间没有统一的规划管理,各部门 的系统来源各异,往往采用不同的开发平台和存储结构。各部门系统的信息之 间没有交互,造成许多的信息孤岛,数据不能共享,造成重复性的数据录入, 工作效率不高。因此,如何有效整合异构数据,建立统的数据集成查询平台, 已经成为当前急需解决的问题。 第l 页 第一章绪论 针对上述问题,如果综合各部门业务流程,重新开发一套完整的业务系统, 无论从时间、成本还是实施方面考虑都是不可行、不现实的。所以,现阶段所 能进行的工作就是在现有系统的基础上进行异构数据源的综合集成查询,实现 数据的共享。 第二节国内外研究现状与发展趋势 近年来,许多单位都开展了对异构数据库系统集成的研究,开发出了许多 异构数据集成系统。国外相关的异构数据库系统主要有:s t a n d f o r d 大学研究开 发的异构信息源集成系统t s i m m i s ,i b m 的d b 2i n f o r m a t i o ni n t e g r a t o r 。国内也 有一些单位在研究异构数据集成问题,如东大阿派股份有限公司推出的基于 c l i e n t s e r v e r 结构关系数据库管理软件r d b m so p e n b a s e ,清华大学研制的基 于异构数据库互操作的c m i s 系统,东南大学研制的v e r s a t i l e 联邦数据库管理系 统,华中科技大学的p a n o r a m a 扩展多数据库原型系统,还有北京理工大学开发 研制的u u h d b 系统等p j 。 近几年来,由于x m l 技术和新一代分布式技术w e b s e r v i c e 的发展,利用 x m l 技术解决信息异构问题和采用面向服务的架构解决信息分布、集成实时性 和信息提供者的动态组织等问题成为当前信息集成研究的热点。与此同时,信 息集成也遇到了新的挑战,来自不同信息源的异构信息需要更加复杂的转换操 作才能满足用户视图要求;企业组织的快速变化导致信息源的动态性增强与信 息集成实时性的矛盾;互联网内的信息传输安全保障等问题。 第三节论文的主要内容 港口综合物流信息服务平台需整合的异构数据源具有跨地域、跨系统平台、 跨数据库的特点,因此,本文提出的异构数据集成查询系统设计的出发点就是 要能够屏蔽这些异构模式,满足用户透明查询所需数据的需求。因为用户面对 的是多个数据库,除了异构消解,还需解决数据汇集的问题。系统的构建遵循 准确、迅速、安全、可靠的原则。 通过分析国内外数据集成技术的可知,新技术和新挑战并存。本文针对港 口综合物流信息服务平台优化过程中面临的实际问题,提出一个异构数据集成 第2 页 第一章绪论 查询解决方案。该方案利用x m l 和w e b s e r v i c e 技术,其中x m l 提供了灵活性、 可扩展性和结构化的消息格式【2 1 ;i n t e r n e t 提供了低价普遍的传输方式,i n t e m e t 安全服务提供了私密性、完整性、身份验证等功能;利用w e b s e r v i c e 技术的跨 平台特性和s o a p 消息的简单通用、穿透力强的特性,使用s o a p 消息封装数 据,最终设计并实现了异构数据集成查询的原型系统,系统在保证现有业务系 统正常使用且不增加现有业务系统复杂性的前提下,实现了各部门、单位之间 数据的集成查询。此外,本文还给出了原型系统及关键组件的设计和实现细节。 本文的研究目的是设计并实现异构数据集成查询服务平台,在多个自治异 构数据源的基础上提供统一的查询接口,并不涉及数据源数据的更新操作或事 务。另外数据集成中的一个重要问题,语义不匹配问题,即同一概念在不同的 模式中可能以不同的方式表示,而不同的概念却可能以相同的方式表示等问题, 也不在本论文的研究范围之内。本论文以x m l 技术为基础,研究w e b 环境下 多个自治异构数据源的集成查询所遇到的问题,研究的核心内容包括: 1 异构数据集成查询系统的研究与实现 论文系统地研究了自治异构信息集成技术,并在深入了解多数据库的工作 机制和原理的基础上,对整个查询系统模型进行深入的剖析,设计并实现了一 个异构数据集成查询系统。该系统采用推数据的方式,从局部数据源采集需集 成的数据,将数据在中央服务器集成并接受查询。这种方法避免了传统多数据 库获取信息相对困难的缺点,提高了系统的可用性和查询工作效率。 2 数据异构的消解 异构数据集成查询系统为实现用户的透明查询,必须要将各个自治的独立 数据库的模式统一成一个全局数据模式,这就是异构消解的问题。本文深入研 究了基于模式映射的异构消解方法,根据模式中元素间的语义和映射关系,消 除了数据间的异构,将局部数据集成为全局数据。 3 关系数据采集和x m l 数据合并汇集 系统需从多个数据库中采集数据,将来自于多个局部数据库中的数据进行 集成,最终通过查询接口接受用户查询并返回查询结果。在系统中首先将每个 局部数据库采集的关系数据转换成x m l 数据,然后通过x m l 数据集成器汇集 合并成全局数据后,接受用户的查询。 本论文对分布式异构多数据源集成查询和港口综合物流信息服务平台优化 整合中面临的问题进行了深入探讨,提出了一个新的异构数据集成查询解决方 第3 页 第一章绪论 案,论文对集成中面临的不同问题运用不同的方法加以解决,最终完成了异构 数据集成查询原型系统的设计和实现。经测试,表明本文中所提出的异构数据 集成查询解决方案是可行的、有效的。 第四节论文的主要工作 本文主要研究异构数据集成查询系统的构建和其性能的优化,侧重于如何 方便、快速的建立一个稳定、更具适应性的异构数据集成查询系统。在阅读大 量文献资料的基础上,结合国内外相关研究成果,提出了一个基于x m l 和 w e b s e r v i c e 的异构数据集成查询解决方案,并结合相关的n e t 技术实现了该系统 的核心部分。此方案采用x m l s c h e m a 表示异构数据源的数据模式;利用 w e b s e r v i c e 技术解决异构系统问的互操作,运用模式映射等方法解决数据间语 义的异构。 本文研究的主要工作是: 1 设计异构数据集成系统体系框架,并详细设计实现了其中的关键模块; 2 将异构数据源封装为w e b s e r v i c e ,使系统具有松耦合、灵活、易扩展的良 好特性,能真正实现异构数据源间数据的无缝集成; 3 关系模式到x m l 模式的转换及x m l 模式间的映射; 4 异构数据集成过程中面临的异构问题; 通过结合实际应用项目,设计出异构数据集成查询系统的总体框架,给出 系统主要模块的功能和设计,实现了原型系统。该系统为用户和应用系统提供 统一、透明、高效地查询位于网络环境中分布的异构数据源的能力,解决了数 据集成中可能会出现的平台异构、结构异构、语义异构等问题。系统具有以下 特点: 1 系统采用b s 和c s 相结合的多层分布式体系结构,避免了使用单一体系 结构的缺陷,提高了系统的实用性; 2 采用各数据源主动推送数据的方式,中间件集成各异构数据源提交的相关 数据,克服了网络情况复杂的负面因素,提高了系统的可靠性和查询速度,也 保证了数据的时效性; 3 系统通过为数据配置语义和建立模式间的映射关系,消除了集成中的数据 异构; 第4 页 第一章绪论 4 基于x m l 进行数据汇集,增强了系统的扩展性。 第五节论文的组织结构 第一章主要介绍了课题研究背景,列举了国内外研究现状和发展趋势,然 后介绍了论文的主要研究内容和工作i 最后介绍了论文的组织结构。 第二章首先分析了异构数据集成方法,数据集成查询的目标,然后给出了 一个异构数据集成查询系统的解决方案,最后给出了异构数据集成查询系统的 逻辑层次和相关的技术难点。 第三章简要介绍了异构数据集成查询系统的设计思想,然后对系统主要模 块的功能和结构设计进行了详细的描述,向读者展示该系统的设计思路与实现 方法。 第四章主要讨论了异构数据集成查询系统中所涉及的关键技术,包括关系 模式到x m l 模式的转换、更新数据的获取、语义异构的处理等。 第五章介绍了数据采集子系统和集成查询子系统的业务流程,并通过实例 介绍了异构数据集成查询系统的一个应用。 第六章是对全文总结,概括了本文中所实现系统的特点,同时也指出了其 不足和未来需进一步完善之处。 第5 页 第二章异构数据集成查询系统的总体解决方案 第二章异构数据集成查询系统的总体解决方案 异构数据集成查询系统的目标是集成己有系统的数据,屏蔽各异构数据源 间的差异,为用户提供涉及多个异构数据源的统一查询机制,使用户不必考虑 数据的异构、抽取和集成等问题而获得如同数据库查询一样的服务。它的使用 方便了用户的开发与应用,用户只需指定想要得到什么结果,而不必考虑如何 得到结果。本章从集成查询系统的实现方法入手,主要对异构数据集成查询系 统的体系结构设计和技术特点进行论述。 第一节异构数据集成方法概述 在异构数据集成方法中,最常见的有两种:数据仓库法和虚拟法。 1 数据仓库法 数据仓库法主要通过建立一个全局性的数据存储仓库,将参加集成的各数 据源的数据副本,按照一个集成、统一的视图要求,转换成符合数据仓库的模 式,并存入数据仓库。用户在对数据进行操作时,直接对数据仓库进行数据的 查询等操作。数据仓库法涉及到数据定期从各个数据源中进行过滤、提取、转 换和存储到数据仓库的过程,这个过程通常由e t l ( e x t r a c tt r a n s f o r ma n dl o a d , 抽取转换加载) 工具进行。这种方式的优点是既可用于数据集成,又可用于决 策支持;缺点是数据更新不及时、数据重复存储,其结构如图2 1 所示。 一lf “ 9 i ) b 1d h 2d b 3 图2 1 数据仓库法 第6 页 第二章异构数据集成查询系统的总体解决方案 2 虚拟视图法 虚拟视图法也称中间件法,在这种方式下,数据存储位置保持不变,集成 系统仅提供一个虚拟的集成视图以及对这个集成视图的查询处理机制,用户针 对集成视图提出查询,集成系统必须将全局查询重写为对各数据源的查询,然 后各数据源根据查询要求自行独立处理,如图2 2 所示。这种方式不需要重复存 储大量数据,数据更新及时,比较适合于高度自治、集成数量多且更新变化快 的系统。 图2 2 虚拟视图法 虚拟视图法和数据仓库法最大的不同是用户对数掘操作时,实际上操作的 仍是源数据,只是相当于在其上增加一个或多个“中间模式 。在进行查询时, 系统通过对用户查询的分解来对各局部数据源进行操作,查询完成后把从各个 数据源得到结果进行封装,然后返回给用户。 3 现有数据集成方法的比较 数据仓库法查询性能高,但是在查询时不能保证数据是最新的,所分析的 是历史数据,面向的是决策者,如果仓库模式设计成静态的,当有新数据源加 入或已有数据源发生变化时,对仓库的修改代价比较高。虚拟视图法通过定义 全局模式进行数据查询,数据仍保存在局部数据源中,这种方法在查询时由于 涉及到多个查询的分解等多项处理,因而性能上比数据仓库法差一些,但它不 用保存数据,能够大大降低实施的成本,同时可以保证查询结果为最新的数据, 但是采用虚拟视图法不能对历史性的全局数据进行有效的利用和分析。无论是 采用仓库法还是虚拟法,数据集成系统都必须建立公共的数据模型,对来自不 同数据源的数据进行表示,从而便于统一处理。 4 现有典型的信息整合方案 第7 页 第二章异构数据集成查询系统的总体解决方案 本文主要考查了i b m 和清华同方提供的信息整合解决方案。 1 ) i b md b 2i n f o r m a t i o ni n t e g r a t o r 该软件旨在帮助客户即时访问、集成、管理和分析存储于企业内任何平台 上的各类信息,并整合了i b m 独有的联邦数据管理功能。例如,通过简单的查 询,企业就可访问并集成d b 2 通用数据库与o r a c l e 中集成的关系型数据、l o t u s n o t e s 中的电子邮件、e x c e l 中的电子表格以及w e b s p h e r ea p p l i c a t i o n 服务器生 成的w e b 服务,然后数据将以整合后的面貌展示给用户【6 】。该方案的着眼点在 于企业内部的信息整合,需要对所有的数据库都有直接访问的权限。通过对数 据库的访问,在众多数据库之上加入一个中间层,中间层的数据是经过整合处 理过的,业务系统要使用数据的时候,只要访问这个中间层就可以了。但该方 案不适用于不同部门,不同企业之间的数据集成。 2 ) 清华同方提供的信息整合解决方案 在该解决方案中,信息整合系统既是数据中心也是业务中心,将多个业务 系统中的数据经过抽取后,存储到综合信息平台的数据库中,为更深入的数据 分析及数据共享提供支持。这是一个很有针对性的系统,它的目标用户是己定 的,需要对己有系统的业务流程非常了解,还有可能需要对已有系统做出相应 修改,以适应信息集成的需要。 上面谈到的两个方案,尤其是m m 的解决方案,价格相对昂贵,同时由于 需要考虑到不同部门各种各样的需求,不可避免地导致最后的软件复杂而庞大, 难于使用。因此本文提出一个异构数据集成查询解决方案,从集成查询的实际 情况出发,有效地解决了各个单位之间数据的集成查询,有很强的针对性。 第二节数据集成查询的目标 异构数据源数据整合和集成的目标是为综合物流信息服务平台提供集成、 统一、安全、快捷的信息查询、数据挖掘和决策支持服务,集成后的数据必须 保证一定的集成性、完整性、一致性和访问安全性【3 3 】。 1 集成性 各部门原先孤立的业务数据经过整合、集成后,应该达到查询一个综合信 息不必再到各个业务系统进行分别查询和人工处理,只要在集成后的综合信息 仓库中就可以直接访问到,即集成后的综合信息仓库中的数据是各异构业务数 第8 页 第二章异构数据集成查询系统的总体解决方案 据的有机集成,而不是简单、孤立的堆放在一起。 2 完整性 完整性包括数据完整性和约束完整性,其中数据完整性是指完整提取数据 本身,约束是指数据与数据之间的关联关系,是唯一表征数据间逻辑的特征。 3 一致性 不同业务信息资源之间存在着语义上的区别,从简单的名字语义冲突,到 复杂的结构语义冲突,这些语义冲突会引起各种不完整甚至错误信息的产生, 带来数据集成结果的冗余,干扰数据的处理。 4 访问安全性 由于数据库资源归属不同的单位,各业务系统有各自的用户权限管理模式, 访问和安全管理很不方便,不能集中统一管理,所以在访问异构数据源数据基 础上保障原有数据库的权限不被侵犯,实现对原有数据源访问权限的隔离和控 制。 数据集成查询的目标是在分布式环境下为用户提供统一的查询接口,把所 有相互作用的细节向用户隐藏起来。具体来说,就是用户不管它所需要的数据 在什么地方,来自什么样的数据源,在用户看来,这些数据是透明的,不必知 道数据的物理存储地,就好像所用到的数据全部存储在本地一样。用户只需在 集成查询平台上提出查询请求,就可获得相应的查询结果。 第三节异构数据集成查询系统的解决方案 本文所提出的异构数据集成查询系统的解决方案是针对异构且分布的数据 源的,集成其中相关的业务数据,为用户提供查询服务4 1 。 2 3 1 系统构建中面临的问题 天津港综合物流信息服务平台需将各部门多种不同结构、地理位置分散的 数据源组合在一起,作为一个整体的数据源,对外提供数据查询服务,满足用 户的需要。需集成的数据分属于不同的关系数据库,这些数据库所在的硬件环 境、操作系统、网络协议不同,如何有效地解决数据分布的异构性,实现客户 访问的透明性,同时还要保持局部系统的自治性。通常数据集成面临以下几个 第9 页 第二章异构数据集成杏询系统的总体解决方案 问题: 1 异构性 系统异构:数据所依赖的应用系统、数据库管理系统、操作系统之间的不 同: 模式异构:数据存储模式上的不同,存储模式一般包括关系模式、对象模 式、对象关系模式等几种,其中关系模式为主流存储模式。需要注意的是,即 便是同一类存储模式,它们的模式结构可能也存在着差异。例如o r a c l e 所采用 的数据类型与s q l s e r v e r 所采用的数据类型并不是完全一致的 9 1 。 2 完整性 集成后的数据必须保证一定的完整性,包括数据完整性和约束完整性两方 面。数据完整性是指数据的正确性、一致性和相容性;约束完整性是指数据与 数据之间的关联关系,是唯一表征数据间逻辑的特征。保证约束完整性是良好 的数据集成的前提,可以方便数据处理过程,提高效率。 3 集成内容限定 多个数据源间的数据集成,并不是要将所有的数据进行集成,那么如何定 义要集成的范围,就构成了集成内容的限定问题。一般应由数据源独立决定给 集成系统提供什么数据。 4 语义冲突 信息资源之间存在着语义上的区别,这些语义上的不同可能引起各种冲突, 例如,从简单的命名冲突,到复杂的结构语义冲突,语义冲突将会使数据集成 变得复杂化。 5 权限冲突 由于需集成的数据归属不同的单位或部门,因此如何在访问异构数据源的 基础上保证数据源的权限不被侵犯,就成为异构数据集成必须面对的问题。 以上这些问题是相互联系、相互制约的,不应该简单孤立地对待。在整合 中除上述问题外,根据港口综合物流信息服务平台集成的实际情况,还面临以 下问题: 1 数据库的安全性 为便于异构数据源的动态添加,平台与异构数据源间不可能架设专线,它 们之间只能通过i n t o n e t 连接,而参与集成的异构数据源均具有一定的保密级别。 为了保护数据源的安全,数据源的拥有者不允许开放端口随时接收外部用户对 第l o 页 第二章异构数据集成查询系统的总体解决方案 数据库的查询; 2 i n t e r n e t 连接的不可靠性 i n t e r n e t 上存在多种不可靠因素:软件不可靠、线路不可靠、系统不可靠等。 集成整合平台与异构数据源间通过i n t e r n e t 进行连接,如何在不可靠的连接的基 础上保证数据的安全也是必须考虑的问题; 3 异构数据源自治性的保证 每个数据库系统在加入异构数据集成查询系统之前就已经存在,拥有自己 的d b m s ,在实现数据共享的同时,每个数据库系统仍需保持自己的应用特性、 完整性控制。 上述问题都是集成中必须考虑到的问题。 2 3 2 系统总体解决方案 为了克服集成中面临的问题,本文吸取数据仓库法建立一个全局性的数据 存储仓库,将参加集成的各数据源的数据副本,按照一个集成、统一的视图要 求,转换成符合数据仓库的模式,并存入数据仓库的优点,另外借鉴虚拟视图 法仅提供一个虚拟的集成视图以及对这个集成视图的查询处理机制,用户针对 集成视图提出查询的优点,结合两种方案,采用c s 、b s 相结合的架构,采取 数据源向集成查询平台推送数据的方式构建异构数据集成查询系统【l5 1 。 用户杳询 数据源数据源 图2 3 异构数据集成查询系统 异构数据集成查询系统如图2 3 所示,包括两个部分:数据采集子系统和集 成查询子系统【1 0 】。其中数据的采集和集成采用c s 架构,数据采集子系统利用 第1 1 页 第二章异构数据集成查询系统的总体解决方案 虚拟视图来集成关系数据源,定时定期采集数据源更新的数据,并将数据统一 转换为x m l 格式,提交给集成查询子系统,向集成查询子系统主动推送数据, 此方法不需改变原始数据的存储和管理方式。数据采集子系统处于异构数据源 和集成查询子系统之间,向下协调各数据源,向上为集成查询子系统提供局部 数据模式和数据。集成查询子系统负责数据的集成,通过全局模式和局部模式 间的映射,消除多数据源提交的数据间的异构,将局部数据集成为全局数据, 开放查询接口接受用户的查询【2 0 1 。数据采集子系统与集成查询子系统之间通过 w e b s e r v i c e 进行命令消息和数据的传输,利用w e b s e r v i c e 技术可以克服平台、 系统间的异构。 集成查询子系统对外提供的查询服务及数据分析,如动态和静态信息的可 视化显示以及各种业务功能采用完整的b s 架构,支持开放系统互连标准和协 议。集成查询子系统根据集成查询需求,提供如下两种查询方式: 1 为普通用户提供的查询服务:采用i n t e m e t 浏览器方式,实现查询、简单 的排序、统计等操作,满足一般用户的需求; 2 为有开发要求的用户提供数据查询服务:采用w e b s e r v i c e 的形式提供给 相应的系统开发级接口,用户系统可以将数据查询的功能嵌入到自行开发的软 件系统中,而且无需用户再去开发有关的数据查询功能。 第四节异构数据集成查询系统的逻辑层次 一个设计良好的平台应该把与具体应用无关的公共部分同与业务相关的功 能分离开来,使其具有可重用性【3 】。另外,在数据集成应用中,经常要面对诸如 新的信息源加入、更新和移除等情况。因此,异构数据集成查询系统还应具有 良好的动态适应性。本文采用面向对象的分析设计方法结合分层思想、面向服 务的架构和构件化技术来设计和实现该系统。从逻辑功能上看,异构数据集成 查询系统可以抽象为五个层次,如图2 4 所示。 第1 2 页 第二章异构数据集成查询系统的总体解决方案 jl r 全局数据模式 i 数据源注册模式映射 数据集成 、k , 日* 口- d ,日 z= 。f 厂一一一 通讯层 、 一 一 x 7_ l。占。吴;采集 i 。是。星一 垦 二 图2 4 逻辑层次图 1 表示层 系统对查询用户提供统一简洁的查询界面和接口,用户、其它应用程序可 以通过查询界面或接口提出查询请求,获取相应的查询结果。 2 全局数据集成层 该层是系统的核心所在,利用模式映射技术,消除各异构数据源提交的数 据间的语义异构,集成为全局数据,接受用户查询。当局部数据源提交更新数 据时,更新相应的全局数据。 3 通讯层 该层负责数据数据集成层同数据采集层之间命令消息和数据的传输,通过 w e b s e r v i c e 的网络无关性,利用w e b s e r v i c e 技术传递命令消息和数据文件,屏 蔽网络异构。 4 数据采集层 该层根据集成查询的主题,设定本地数据源数据采集的范围、采集方式等, 定时定期采集数据源更新的数据,并将数据统一转换为x m l 格式后提交给全局 数据集成层。通过数据采集层消除硬件平台异构、操作系统异构,数据间的结 构异构。 第1 3 页 第二章异构数据集成查询系统的总体解决方案 5 数据源层 数据源层是参与集成查询的自治异构数据源的集合。 第五节相关技术问题 在实现异构数据集成查询系统的过程中,必须考虑以下技术问题: 1 关系模式到x m l 模式的转换 关系模式转换为x m l 模式是数据集成领域中的一个重要问题,是确保数据 集成和关系数据正确提取及转换为x m l 数据的前提。 2 增量更新数据的获取 每个数据源均包含大量的数据,如何在短时间快速获取数据源一定时间内 更新的数据,对于保证用户查询结果的实时性尤为重要。 3 全局模式定义及查询接口生成 全局模式是用公共数据模型定义的视图。查询接h 是用户查询全局数据的 媒介,用户通过查询接口访问全局数据,获取相应的查询结果。 4 模式映射 模式映射是局部数据集成为全局数据的前提和保证,来自不同数据源的数 据根据模式间的映射规则,消除模式间数据的异构。 5 数据集成和更新 根据全局模式和局部模式间的映射规则,集成局部数据为全局数据,当局 部数据源提交更新数据时,更新相应的全局数据。 6 命令消息和数据文件的传输 命令消息和数据文件在不同的网络中进行传输,需保证命令消息和数据文 件的安全、快速、正确传递。 上述问题将在第四章进行详细地论述。 第1 4 页 第三章异构数据集成查询系统的设计 第三章异构数据集成查询系统的设计 异构数据集成查询系统的目标是集成己有系统的数据,屏蔽各种异构数据 间的差异,为用户提供涉及多个异构数据源的统一查询机制,使用户不必考虑 数据的异构、抽取和集成等问题而获得如同数据库查询一样的服务。它的使用 方便了用户的开发与应用,用户只需指定想要什么,而不必考虑怎样得到结果。 在第二章,结合异构数据集成查询面临的实际问题,提出了异构数据集成查询 系统的总体解决方案。本章将对异构数据集成查询系统的设计思想、系统每一 部分的功能、体系结构设计进行详细阐述。 第一节设计思想 目前参与天津港综合物流信息服务平台数据整合的各业务部门应用的都是 关系数据库,因此异构数据集成查询主要是针对各部门本身已经存在的关系数 据库,其关系模式及数据对象都已经建立,数据库中存储着大量需要共享的数 据。现在面临的问题是如何在异构的环境下从各数据源获取所需的数据,并在 集成查询端消除各异构数据源提供的数据间的异构,将各数据源提供的数据集 成在一起,接受用户的查询。 在已经存在的多个异构的、分布的数据库基础上实现集成查询,首先需在 这些异构的数据库基础上建立一个集成查询系统,用户通过集成查询系统同时 对多个异构的数据库进行透明访问。用户的查询请求所涉及的数据可能来自于 多个跨i n t e r n e t 的业务部门的数据,由于网络拥塞等原因,很可能导致某个业务 系统数据库某时刻无法访问,单个业务系统的失效可能导致整体查询速度的下 降,甚至导致整个组合查询服务不可用,而且还需保护各个业务系统数据源的 安全。由于各部门信息系统的数据库都是相互独立的实体,都具有相对的独立 性、自主性,为了本部门系统数据库的安全,不允许外来用户随意查询或控制。 也就是说,各数据源只会定期提供相关的业务数据,而不接受实时的查询请求。 异构数据集成查询系统采取各局部数据源定期推送数据的方式,在数据集 成端集成各局部数据源提交的局部数据,接受用户查询。采用推数据的方式既 第1 5 页 第三章异构数据集成查询系统的设计 提高了查询返回速度,又确保了系统的可靠性。异构数据集成查询系统相当于 在多个异构的数据源与查询用户之间建立一个查询服务中间层,在客户端用户 只要拥有一个浏览器,就可以提交相应的查询请求。中间层事先接受各数据源 提交的数据,消除各数据源间数据的异构,将各数据源提交的数据集成在一起, 根据用户提交的查询请求从集成后的数据中获取匹配的数据,再通过服务器将 查询结果返回给用户,这样就可以满足用户的查询请求【2 3 1 。 利用x m ls c h e m a 对数据的结构、类型和约束的强大表达能力,在数据源 端根据需提取数据的关系模式构造源x m l 模式,定时采集数据源更新的关系数 据,并将关系数据转换为符合源x m l 模式的数据,然后推送至数据集成端。在 综合查询端,即数据集成端根据不同的数据集成查询主题构建相应的全局数据 模式,然后配置全局数据模式和源x m l 模式间的映射规则,根据映射规则,集 成异构数据源提交的局部数据为符合全局数据模式的数据,消除数据间的异构, 接受用户的查询【3 。 第二节系统总体设计 异构数据集成查询系统包括集成查询子系统和数据采集子系统两部分。集 成查询子系统和数据采集子系统之间通过i n t e r n e t 通讯,针对系统的集成需求, 分别为集成查询子系统和数据采集子系统构建w e b s e r v i c e 接口,封装集成查询 子系统和数据采集子系统具体的功能。利用w e b s e r v i c e 技术的平台无关性、互 操作性、松散耦合、跨越防火墙、软件重用性等特点,实现集成查询子系统和 数据采集子系统间命令消息和数据文件的传输。异构数据集成查询系统总体结 构如图3 1 所示,每一个数据采集子系统可向多个集成查询子系统提供业务数 据,每一个集成查询子系统可获取多个数据采集子系统提交的数据【l3 1 。在每一 个数据源端部署一个数据采集子系统,而集成查询子系统可根据需要部署在不 同的地方,便于快速构建不同的异构数据集成查询系统f 7 1 。 第1 6 页 第三章异构数据集成查询系统的设计 l 集成查询子系统集成查询了系统 传输器传输器 潋 传输器传输器 l 数据采集子系统数据采集子系统 + d bd b 图3 1 异构数据集成查询系统总体结构 数据采集子系统负责连接各异构的数据源,将源关系模式转换为x m l 局部 模式,定期采集数据源更新的数据,并将采集得到的更新数据转换为x m l 格式 的数据,提交给集成查询子系统。集成查询子系统是异构数据集成查询系统的 核心,它接收数据采集子系统的注册,注册完毕后,为每一个数据采集子系统 建立一个模式库,接收并存储数据采集子系统提交的模式信息,然后为每一个 数据采集子系统创建一个数据存储库,合并、存储数据采集子系统定时提交的 更新数据 1 7 1 。 数据采集子系统和集成查询子系统间通过i n t e r n e t 连接,为了便于两个子系 统间命令消息和数据文件安全、正确传输,每个数据采集子系统和集成查询子 系统均包含一个传输器,用于命令消息和数据文件的传输。下面三节中将分别 介绍数据采集子系统、集成查询子系统和传输器的设计。 第三节数据采集子系统的设计 数据采集子系统是参与集成查询的异构数据源端都需运行的客户端程序, 该程序主要实现采集各个异构数据源相关的业务数据,将数据统一转换为x m l 格式,并将数据传输给集成查询子系统的功能。数据采集子系统在集成查询子 第1 7 页 第三章异构数据集成查询系统的设计 系统中注册,提供本地数据源的x m l 模式、数据采集方式等信息。数据采集子 系统只向注册过的集成查询子系统发送数据。数据库管理员根据数据库的安全 性要求、数据更新频率,配置数据采
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商务合同范本-工程合同模板
- 品牌策划合作协议-合同范本
- 合伙协议书范文
- 2024房屋租赁居间合同
- 2024运输合同物流运输合同纠纷案例
- 2024设立有限责公司出资协议模板
- 2024年冷库转让协议合同书
- 深圳发展银行委托贷款操作流程
- 2024年学校食堂用工合同协议书样本
- 北京借款合同的范本2024年
- 行政许可执法案卷自评表
- 最新一年级数学上册比轻重题汇总
- CNAS-GL004:2018《标准物质_标准样品的使用指南》(2019-2-20第一次修订)
- 科普知识讲座(火箭)PPT精选课件
- 高三一模动员主题班会-课件(PPT演示)
- 车辙的形成原因及预防措施
- 风电场升压站建筑工程主要施工方案
- 第五讲新闻评论的结构与节奏
- 从PK-PD看抗菌药物的合理应用
- 加热炉施工方案
- 意象对话放松引导词2[生活经验]
评论
0/150
提交评论