




已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)基于web+service的异构数据整合方案的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
湖北工业大学硕士学位论文 摘要 目前,在一个系统内,各个基层部门在i n t e r n e t 上已经建立了大量的数据库, 但是这些数据库缺乏相互之间的信息共享,形成信息孤岛。同时,随着企业信息 化的逐步深入,企业内部及企业之间也存在着大量的异构数据库,为了节约成本 充分利用原有资源,企业内和企业间经常需要在异构数据库之间交换信息。而这 些异构数据库的物理分布是跨部门、跨地区的。所以如何实现异构数据库之间信 息的整合和如何实现整合结果的跨地区的传输成为企业信息化建设所面临的问题 之一。 本文分析了现有数据整合方案存在的不足以及当前w e b 技术发展的新趋势,研 究了当前的w e bs e r v i c e s 技术和中间件技术的原理和特点,给出了一个基于w e b s e r v i c e s 技术的异构数据整合的方案,并对其进行了分析,研究了方案实现中的 关键技术。并以铁路远动调度辅助系统中的数据整合为研究案例,对该方案加以 实现,并对其中的关键问题作了较为详尽的分析。 本文的工作主要体现在四大部分: 第一,异构数据库数据共享集成中间件体系结构的设计。结合项目本身提出 并设计了以x m l 为数据交换格式的m e d i a t o r 模式异构数据库数据共享中间件平台 为共享的异构数据的整合提供服务。 第二,提出了关系模式到) ( m ls c h e m a 的转换算法。通过对数据库关系模式和 x m ls c h e m a 分析,完成了合理有效的关系模式到) ( m ls c h e m a 模式转换算法。 第三,提出了查询分配算法。结合项目实际,对基于g a v 方法的查询分配算法 在权限控制方面进行了改进。 第四,讨论了s o a p 协议的通信实现,完成基于请求式的客户端和服务器端的 设计。来现数据库结构和数据的转换结果跨网络传输。 数据整合是数据库领域的一个难题,是随着数据库技术的发展而一直存在的。 对该问题的研究具有广泛的应用前景和现实意义。本文中提出的方案注重实用性 和前瞻性,在对既有系统进行整合的应用中具有很高的实用价值。 关键词:数据整合,w e bs e r v i c e ,中间件,异构 湖北工业大学硕士学位论文 a b s t r a c t a tp r e s e n t ,e a c hd e p a r t m e n ti nl a r g ee n t e r p r i s e sh a sa l r e a d ys e tu pal a r g en u m b e ro f d a t a b a s e so ni n t e r n e t b u tt h e s ed a t a b a s e sl a c kt h ei n f o r m a t i o ns h a r i n ge a c ho t h e r , f o r m i n gt h ed e t a c h e di s l a n do fi n f o r m a t i o n a n d ,w i t ht h ei n c r e a s i n gd e v e l o p m e n to f e n t e r p r i s e sd a t ac o m p u t e r i z e d ,al a r g ea m o u n to fh e t e r o g e n e o u s d a t aa n di n f o r m a t i o n c a nb ef o u n di ni n t r a n e ta n di n t e r n e t a tt h es a m et i m e ,i no r d e rt os a v ec o s ta n da p p l y t h ee x i s t i n gi n f o r m a t i o nr e s o u r c em o r ee f f e c t i v e l y h e t e r o g e n e o u sd a t a b a s eo f t e nh a st o b et r a n s l a t e da n dm o v e da m o n gi n t e r n a la n de x t e r n a le n t e r p r i s e s o nt h eo t h e rh a n d , t h e s eh e t e r o g e n e o u sd a t a b a s e sa r el o c a t e da td i f f e r e n tp l a c ea n dc o n n e c t e da td i f f e r e n t n e t w o r k s t h e r e f o r e ,h o wt oi m p l e m e n tt h ei n t e g r a t i o no fh e t e r o g e n e o u sd a t a b a s ea n d h o wt oc o m m u n i c a t et h er e s u l to f h e t e r o g e n e o u sd a t ai n t e g r a t i o na m o n g d i f f e r e n tp l a c e a r et h ek e yp r o b l e m sc o n f r o n t i n gt h ec o n s t r u c t i o no fe n t e r p r i s e s d a t ac o m p t e r i z a t i o n t h i sp a p e ra n a l y s e st h ed e f e c t so fe x i s t i n ga p p l i c a t i o ni n t e g r a t i o ns o l u t i o n sa n dt h e n e w t e n d e n c yo fp r e s e n tw e b t e c h n i c a ld e v e l o p m e n t ,a n dt h e nr e s e a r c h e st h e o r i e sa n d c h a r a c t e r i s t i c so fw e bs e r v i c e sa n dm i d d l e w a r et e c h n o l o g y i nt h i sa r t i c l et h ed a t a i n t e g r a t i o na n dw e bs e r v i c e sa n dm i d d l e w a r et e c h n o l o g i e sa r ei n t r o d u c e d am o d e lf o r d i s t r i b u t e dd a t ai n t e g r a t i o nb a s e do nw e bs e r v i c e si sr a i s e da n dv a l i d a t e db yar e a lc a s e t h i st h e s i sm a k e sf o u rm a i nc o n t r i b u t i o n s : 1 ) d e s i g no fi n t e g r a t e dm i d d l e w a r ea r c h i t e c t u r e c o m b i n a t i o np r o j e c t ,am e d i a t o r m i d d l e w a r ea r c h i t e c t u r e ,w h i c hu s i n gx m la se x c h a n g ef o r m ,h a sb e e n d e s i g n e df o rh e t e r o g e n e o u sd a t a b a s ed a t as h a r ei n t e g r a t i o n i th a so f f e r e d s e r v i c ef o rt h eu s eo fs h a r ed a t a 2 、lh a v ep u tf o r w a r dt h ec o n v e r s i o na l g o r i t h mo fr e l a t i o ns c h e m at ox m ls c h e m a b a s e do nt h ea n a l y s i so fr e l a t i o ns c h e m aa n dx m ls c h e m a ,i th a v ec o m p l e t e d r e a s o n a b l ee f f e c t i v er e l a t i o ns c h e m at ox m ls c h e m ap a t t e r nc o n v e r s i o n a l g o r i t h m 3 ) h a v ep u tf o r w a r di n q u i r yd i s t r i b u t i o na l g o r i t h m c o m b i n a t i o np r o j e c tr e a l i t y , t h ei n q u i r yd i s t r i b u t i o na l g o r i t h mi m p r o v e dt h ea u t h o r i t yc o n t r o lw a yo fg 硪 m e t h o d 钔h a v ed i s c u s s e dt h ec o m m u n i c a t i o nm e c h a n i s m sb a s e do ns o a p ,a n de x p l a i n h o wt ou s es o 姆t oi m p l e m e n tt h ec o m m u n i c a t i o nf o rc r o s sp l a t f o r m m o r e o v e r t h ep a p e rr e a l i z e st h ed e s i g no fs o a pc l i e n ta n ds o a ps e r v e r d a t ai n t e g r a t i o ni sa l w a y sad i f f i c u l tp r o b l e mi nd a t a b a s ef i e l d t h er e s e a r c ho fi ti s v e r yp r a c t i c a la n dv a l u a b l e t h em o d e lr e f f e r e di nt h i sa r t i c l ep a y sa t t e n t i o nt ot h e p r a c t i c a l b i l i t ya n dp r o s p e c t i th a sh i g hv a l u ew h e nd i f f e r e n te x i s t i n gs y s t e m sa r e i n t e g r a t e d k e y w o r d s :d a t ai n t e g r a t i o n ,w e bs e r v i c e ,m i d d l e w a r e ,h e t e r o g e n e o u s i l 溯班二堂大謦 学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取 得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经 发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律结果由本人承担。 学位论文作者签名:张名。i 嵘 日期:乙d ds 年,月涉日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授 权湖北工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 学位论文作者签名:张甚、嵘 日期:幼6 专年r 月乙箩日 指导教师签名:叔素勿 日期:切宫年争月醪日 湖北工业大学硕士学位论文 第1 章引言 1 1 本论文研究背景及意义 目前,分层管理是大型企业与组织中普遍采用的一种管理模式,例如:铁道系 统包括:铁道部,铁道部下又有包括多个局,每个局又下辖多个站、段、公司, 这些站、段、公司为了满足本部门的需要,建立了专用的系统。由于构建系统时 难以做到统一规划,这些系统常常是自治的,异构的,致使这些系统之间很难进 行信息交换。比如:在武汉铁路局所管辖众多的公司、站、段中,存在着多种不同 的应用程序和数据库管理系统,s y b a s e ,s q ls e v e r ,d b 2 ,o r a c l e ,a c c e s s 等。当 铁路局需要统一收集各个站、段、公司的信息或发布信息时,地理位置和应用系 统的异构、自治性常常使得这种信息的交换异常困难。 随着企业的发展和互联网应用的深入,企业需要将已有的信息资源整合起来, 总公司希望对分公司的信息进行远程的监管,因而整合这些自治而异构的应用系 统是目前企业信息化建设中的一个关键任务。 另外,企业在发展过程中必然会积累大量异构数据源,同时,网络的发展又使不 同企业不同结构的信息交互成为必然,如何以统一的方式实现这些分布异构数据 间的相互识别、相互转换整合,使企业从巨大的数据资源中获取所需的信息,这已 成为目前企业信息化所要解决的主要问题之一因此迫切需要在异构环境下建立 统一的整合平台来支撑分布异构数据的整合交互 在实际应用中,数据整合u 吲。又主要表现在不同应用系统之间数据的共享和交 换,处于不同地理位置的部门之间数据的上传和下达两种情形。实现这类功能的 复杂性表现在如下几个方面: ( 1 ) 数据内容的多样性 需要传输的数据包括多种类型,如关系数据( 结构化数据) ,普通文件,非 结构化数据等。 ( 2 ) 数据访问形式的多样性 参与交换的数据以多种形式存放,导致其访问方式也多种多样,如结构化 数据可以存放在各种数据库管理系统的数据库中,也可以存放在文本文件、x m l 文 件中,因而可以通过访问各种数据库或文件来访问这些数据,有的数据则仅能通 过应用程序提供的数据访问接口进行访问等。 湖北工业大学硕士学位论文 ( 3 ) 信息交换形式的多样性 不同的应用场景对于信息交换方式的要求也不同,有的对于可靠性要求 高,有的对于实时性要求高,有的则希望能够采用多种网络通信方式平台进行数 据传输。因而在实际应用中,需要根据不用的情况采用不同的数据交换途径,如 消息队列、f t p ,甚至e - m a i l 等。 ( 4 ) 参与方对数据要求的不一致性 数据整合过程中的多个参与方对数据的要求可能是不一致的,这种不一致 性包括数据的表现形式、数据的模式、数据的内容等三个方面。 表现形式不一致:对于同一批数据,有的参与方需要以x m l 格式呈现, 有的则需要以格式化文本文件呈现; 数据模式不一致:例如,对于同是日期数据,有的需要用一个日期型数 据项表示,有的需要用年月日三个数据项表示: 数据内容不一致:例如,对于同一批数据,有的需要细节数据,有的需 要汇总数据。 ( 5 ) 传输的复杂性 在实际的应用中,数据在传输的过程时需要多种控制机制来支持,包括自 动传输要求,安全性要求,数据流转控制等方面:而且在不同的应用中,这些要求 差别也比较大。 自动传输要求:数据交换既可以由人工触发,也可以按照指定的周期自 动完成。 安全性要求:需要采用相应的措施保证数据传输的安全性。 数据流转控制:一个完整的数据整合过程可能不仅仅涉及到一对发送 接收方,其参与者会有多个。数据需要在这多个参与方之间按照指定 的流程进行流转。数据整合工具应具备支持数据流转的功能。 总的来说,目前信息资源交换和整合的障碍包括:系统平台的异构和数据源的 异构。比如,在武汉铁路局远动调度数据资源的交换和整合上就同时存在着这两 方面的问题。 因此,在异构环境下建立统一的整合平台成为信息资源共享的迫切需要,而理 想的整合平台应可以屏蔽各种体系结构的异构性,提供访问异构数据的服务,不需 要改变底层数据的存储和管理方式,即可实现分布异构数据的互操作同时,企业 业务逻辑可以封装在整合平台的组件中,当业务逻辑发生变化时,只需对该组件进 行修改即可,增强了系统的灵活性和适用性。在这方面,本文研究了现有数据整合 的各种方案的优缺点,给出了“w e bs e r v i c e + 基于x m l 的数据整合中间件”的整 2 湖北工业大学硕士学位论文 合方案。并初步应用于铁路远动调度辅助系统中,以解决并满足对异构数据源进 行查询、整合、传输方面的难点与需要。 1 2 国内外研究现状 1 2 1 国内外异构数据库整合技术理论的研究现状 自从8 0 年代以来,异构多数据库系统一直是数据库领域的一个主要研究方向。 进入9 0 年代后,由于计算机网络技术的迅猛发展,对数据库又有了新的要求:各 种数据库中的信息不仅需要在i n t e r n e t 发布,而且大量的应用需要能够同时访问 多个数据库中的数据。这样异构多数据库又一次成为数据库领域的一个研究热点。 为了解决异构数据库之间的互联整合问题,国际化标准组织和各数据库厂家做了 不懈的努力。目前,有以下几种比较常见的异构数据库整合方法:数据仓库,联 邦数据库,中间件整合,p 2 p 或网格的整合方法。本文将在第2 章给出几种方法的 比较,并进行更为系统和详细的研究和探讨,给出为什么要在方案并于方案所应 用的原型系统中选择基于x m l 的数据库中间件来做底层数据整合的原因。 1 2 2 实际应用的应用整合模型的研究现状 近几年来,出现了基于分布式对象模型的应用整合技术来解决企业内部以及企 业间的数据共享问题。目前主流的分布式对象模型有:j a v ar m i h 儿副( r e m o t em e t h o d i n v o c a t i o n ,远程方法调用) 、d c o m 副( d i s t r i b u t e dc o m p o n e n to b j e c tm o d e l , 分布式组件对象模型) 和c o r b a 憎川w ( c o m m o no b j e c tr e q u e s tb r o k e ra r c h i t e c t u r e , 通用对象请求代理结构) 等,这些技术作为比较成熟的体系,己各自占据了相当大 的市场,但三者都有自身无法克服的缺点,也正是由于这些缺点阻碍了它们的更 广泛应用。j a v ar m i 的实现需要通信的两端都有j a v a 运行环境,这从根本上阻碍 了它的推广。传统上认为d c o m 和c o r b a 都是合理的服务器到服务器端的通信协议。 但是,二者对客户端到服务器端的通信都存在着明显的弱点尤其是客户机被散布 在i n t e r n e t 上的时候。用d c o m 和c o r b a 来创建跨平台、跨i n t e r n e t 、适应i n t e r n e t 可伸缩性的应用时,存在着:与平台相关,不易整合,以及跨防火墙的问题。最后 一种,是本文将研究和介绍的w e bs e r v i c e 技术。本文将在第4 章做详细的探讨。 给出为什么在方案并于方案所应用的原型系统中选用w e bs e r v i c e 技术及其核心协 议s o a p 来做中间件层到应用层的数据传输方面的工作。并在第5 章给出系统中具体 是如何应用并完成这方面工作的。 3 湖北工业大学硕士学位论文 1 3 本文研究中的主要技术难点 异构数据整合系统u u 的关键和难点是以局部数据库模式为基础,建立全局的数 据模式或全局外视图,经过异构数据整合后的数据必须保证一定的集成性、完整 性、一致性和访问安全性。 本文提出的方案在进行异构数据整合时遇到的典型问题有,对模式的理解,如 何识别数据,保持数据的一致性,如何处理异构分布式数据处理环境所引发的冲 突问题,如何高效地对信息进行组织、调度和共享等。另外,建立统一的公共模 型,解决信息系统带来地数据冗余和语义不规则的问题,也是一个艰巨任务u 引。 1 4 本文的创新点 过去的研究,要么是偏重于数据整合这一方面,要么是偏重于应用整合特别是 应用整合服务是如何提供的,也就是说要么侧重于底层整合,要么侧重于上层的 应用,很少有论述由底层数据层开始直到用户应用全过程的整合方案。本文将详 细介绍w e bs e r v i c e s 这一技术在数据整合方面的应用,其在底层能以其标准的x m l 来作为数据整合的全局模式,而其重要的组成协议:s o a p 等更可以实现x m l 文档 的无缝封装和有效的跨平台的传输,给出了一种较为实用的信息整合方案。同时, 本文给出了整合方案中关键技术即模式提取和模式转换方面的算法u ”心。关系 模式提取算法( r e l a t i o ns c h e m ao b t a i nr s o ) 和数据库关系模式到x m ls c h e m a 转 换算法( r e l a t i o ns c h e m at ox m ls c h e m at r a n s f o r mr s x s t ) 。此外,还给出了整 合前先进行数据库注册并建立公共模型以解决语义不同的问题这一思想,这是与 其他方案不同的地方,且将之实现于铁路远动调度辅助系统的设计中。 1 5 本文的组织结构 本文在充分研究w e bs e r v i c e s 、x m l 、中间件等技术的基础上给出了基于w e b s e r v i c e 的异构数据库的整合思路并在关键问题上给出了解决方案,同时将这些思 路与方案初步应用于铁路远动调度辅助系统的开发上。按照给出的思路,本文的 结构将共分为七章,主要章节如图1 。1 所示 4 湖北工业大学硕士学位论文 图1 1 论文的主要组织结构 本文组织结构介绍如下: 第一章引言:本章介绍了研究背景、意义、本文的技术难点和本文的创新 点和本文的工作。 第二章整合方案的体系结构分析:本章介绍了异构数据库系统的概念,发 展历史,特点和分类。研究了异构数据库整合技术的发展情况和要求,并分析和 比较了目前的整合技术策略、方法和技术方案。给出了为何选用基于x m l 的数据 库整合中间件技术+ w e bs e r v i c e s 技术这一整合方案,分析并给出了选用这一方案 的基本体系结构。 第三章异构数据库整合中间件技术:本章介绍了中间件技术和x m l 及其相 关技术,并分析了x m l 的特点,说明了异构数据库数据整合中基于x m l 的数据库 整合中间件模式,以及如何在原型系统中解决语义不一致的问题。 第四章w e bs e r v i c e s 技术:本章介绍了w e bs e r v i c e s 技术,介绍了该技 术在网络传输和跨平台方面的优缺点。特别是介绍了该技术的核心协议s o a p 协议。 第五章原型系统的关键技术实现及算法的设计:本章给出了整合方案应用 于在铁路远动调度辅助系统中时,其中一些关键及难点问题的解决以及模式提取 和模式转换方面的算法设计。 第六章总结与展望:本章是本文工作的总结,并提出本文工作的展望 5 湖北工业大学硕士学位论文 第2 章整合方案的体系结构分析 2 1 异构数据库整合方法的比较与分析 自从8 0 年代以来,异构多数据库系统一直是数据库领域的一个主要研究方向。 进入9 0 年代后,由于计算机网络技术的迅猛发展,对数据库又有了新的要求:各 种数据库中的信息不仅需要在i n t e r n e t 发布,而且大量的应用需要能够同时访问 多个数据库中的数据。这样异构多数据库又一次成为数据库领域的一个研究热点。 为了解决异构数据库之间的互联整合问题,国际化标准组织和各数据库厂家做了 不懈的努力。目前,有以下几种比较常见的异构数据库整合方法。 2 1 1 数据复制方法 数据复制方法u 副将各个数据源的数据复制到与其相关的其它数据源上,并维 护数据源整体上的一致性、提高信息共享和利用的效率。数据复制可以是整个数 据源的复制,也可以是仅对变化数据的传播与复制。数据复制方法可以减少用户 使用数据整合系统时对异构数据源的数据访问量,从而提高数据整合系统的性能。 比较常用的数据复制方法就是数据仓库方法瞄。该方法将各个数据源的数据复制 到同一数据仓库中,用户则直接访问数据仓库获取数据。体系结构见图2 1 : l 脚“至卿璧k j l 数搬仓障 l 一三兰 d 啦ae 耻r 砒;。州救撼抽嘏 i d m a 队露r a i k 嘲钕籀抽般, l l 图2 1 数据仓库方法体系结构图 数据复制通常直接采用端到端方式,也有一些数据整合系统使用专为数据周 转服务的数据平台。数据复制时,数据发布者先将数据传送到这个数据平台上, 由数据平台处理后转发给数据订阅者。数据平台要处理好网络负载和并发控制问 题。使用数据平台的好处是单点控制、便于管理。但数据平台增加了系统的复杂 性,降低了系统的可靠性。特别是对于铁路远动调度这样实时性和可靠性要求高 6 湖北工业大学硕士学位论文 的工作,比较难于满足要求。 2 1 2 模式整合方法 模式整合方法的基本思想是:在构建整合系统时,将各数据源共享的数据视图 整合为全局模式,供用户按照全局模式透明地访问各数据源的数据瞄。全局模式 描述了数据源共享数据的结构、语义及操作等。用户直接在全局模式的基础上提 交请求,由数据整合系统处理这些请求,转换成各个数据源在本地数据视图基础 上能够执行的请求。 模式整合方法的特点是直接为用户提供透明的数据访问方法,用户无需关心 数据的位置、结构以及与全局模式的映射方式。由于用户使用的全局模式是数据 源的虚拟视图,所以该方法又可称作虚拟视图整合方法比。 联邦数据库 早期的解决方案一般采用联邦数据库的方法瞄引。联邦数据库中数据源之 间共享自己的一部分数据模式,形成一个联邦模式。联邦数据库系统按整合 度可分为两类比引:采用紧密耦合联邦数据库系统和采用松散耦合联邦数据库 系统。紧密耦合联邦数据库系统使用统一的全局模式,将各数据源的数据模 式映射到全局数据模式上,解决了数据源间的异构性。这种方法整合度较高, 用户参与少:缺点是构建一个全局数据模式的算法复杂,扩展性差。松散耦合 联邦数据库系统比较特殊,没有全局模式,采用联邦模式。该方法提供统一 的查询语言,将很多异构性问题交给用户自己去解决。松散耦合方法对数据 的整合度不高,但其数据源的自治性强、动态性能好,整合系统不需要维护 一个全局模式。其体系结构如图2 2 : 中间件整合方法 图2 2 联邦数据库体系结构图 7 湖北工业大学硕士学位论文 中问件整合方法是另一种典型的模式整合方法,它同样使用全局数据模式心川。 与联邦数据库不同,中间件系统不仅能够整合结构化的数据源信息,还可以整合 半结构化或非结构化数据源中的信息。基于中间件的数据整合系统主要包括中间 件和包装器,其中每个数据源对应一个包装器,中间件通过包装器和各个数据源 交互。用户在全局数据模式的基础上向中间件发出查询请求。中间件处理用户请 求,将其转换成各个数据源能够处理的子查询请求,并对此过程进行优化,以提 高查询处理的并发性,减少响应时间。包装器是对特定数据源进行了封装,将其 数据模型转换为系统所采用的通用模型,并提供一致的访问机制。中间件将各个 子查询请求发送给包装器,由包装器来和其封装的数据源交互,执行子查询请求, 并将结果返回给中间件。中间件注重于全局查询的处理和优化,其体系结构如图 2 3 所示。中间件相对于联邦数据库系统的优势在于:它能够整合非数据库形式的 数据源,有很好的查询性能,自治性强,对实时性要求的满足要稍好些:中间件整 合的缺点在于它通常是只读的,而联邦数据库对读写都支持。而且,中间件的方 法在海量数据的处理方面没有数据仓库有优势。根据,中间件技术比较容易满足 实时性要求的优点,所以,本文选用该技术来做底层数据整合的工作。并将之实 现于铁路远动调度辅助系统的设计中。 2 捆 l 专潮 嘲 1 一 纛氍档麓曩请赫辨 j c 鞫( 二奢塑) = = l 数摄霹秘牡lll 数据痒n 8 名i 、- - 一 一k 一 图2 3 中间件整合数据库体系结构图 p e e r t o p e e r 数据整合方法 p 2 p 数据整合方法是对原有的模式整合方法的扩展,它是在新兴的p 2 p 计算技 术的基础上发展起来的。p 2 p 是一种基于对等网络的架构,是计算机系统的结构从 传统的集中式发展为松散藕合分布式的新模式。p 2 p 系统具有如下的特征m 3 ( 1 ) 节点之间通过直接的交互而实现资源共享:( 2 ) 资源分布在各个节点中,而不是集 中在一个服务器中管理:( 3 ) 节点具有动态性和即时性:( 4 ) 纯粹的p 2 p 系统没有任 何集中控制机制,系统中各结点运行的p 2 p 系统软件功能相同,各结点之间的交 互对称。在p 2 p 数据整合方法中,参与整合的各个数据源节点分别被视作一端 8 湖北工业大学硕士学位论文 ( p e e r ) ,每个节点可以将自己的一部分本地数据模式映射成为端共享模式,向其 它节点共享自己的数据。纯粹的p 2 p 数据整合方法没有全局数据模式,各节点可 以直接通过p 2 p 映射使用其它节点共享的数据模式,从而形成各节点之间对等的 数据共享与访问机制。p 2 p 数据整合方法已成为当前数据整合研究的一个热点。但 该技术的缺点是研究还很不成熟,其本地数据模式映射成端共享模式方面以及对 等的共享和访问机制的设计方面比较难实现,其中的技术难点还比较多。当然, 其发展前景不容忽视。 2 1 3 两种方法的比较 以上两种数据整合方法各有优缺点及适用范围。模式整合方法为用户提供了全 局数据视图及统一的访问接口,透明度高:但该方法并没实现数据源间的数据交 互,用户查询时经常需要访问多个数据源,因此该方法需要系统有很好的网络性 能。数据复制方法在用户使用某个数据源之前,将用户可能用到的其它数据源的 数据预先复制过来,用户使用时就会大大提高系统处理的效率:但数据复制通常存 在数据的无法即时更新,使用该方法时,很难保障数据源之间数据的实时一致性。 表2 1 列出了两种方法的优缺点。 表2 1 两种整合方法的比较 2 2 数据传输部分的分析 近几年来,出现了基于分布式对象模型的应用整合技术来解决企业内部以及企 业间的数据共享问题。目前主流的分布式对象模型有:j a v ai n i 钔5 1 ( r e m o t e m e t h o di n v o c a t i o n ,远程方法调用) 、d c o m 6 8 1 ( d i s t r i b u t e dc o m p o n e n to b j e c t m o d e l ,分布式组件对象模型) 年i l c o r b a 9 3m 1 ( c o m m o no b j e c tr e q u e s tb r o k e r 9 湖北工业大学硕士学位论文 a r c h i t e c t u r e ,通用对象请求代理结构) 等,这些技术作为比较成熟的体系,己各 自占据了相当大的市场,但三者都有自身无法克服的缺点,也正是由于这些缺点 阻碍了它们的更广泛应用。j a v ar m i 的实现需要通信的两端都有j a v a 运行环境, 这从根本上阻碍了它的推广。传统上认为d c o m 和c o r b a 都是合理的服务器到服务器 端的通信协议。但是,二者对客户端到服务器端的通信都存在着明显的弱点尤其 是客户机被散布在i n t e r n e t 上的时候。用d c o m 和c o r b a 来创建跨平台、跨i n t e r n e t 、 适应i n t e r n e t 可伸缩性的应用时,存在着以下几个问题: ( 1 ) 平台相关 d c o m 和c o r b a 都是平台相关的。基于d c o m 和c o r b a 创建的应用系统无法扩展到 互联网上,它们要求服务客户端与系统提供的服务本身之间必须进行紧密耦合, 即要求一个同类基本结构。这意味着在d c o m 的情况下,每台机器都要运行于 w i n d o w s 平台:在c o r b a 情况下,每台机器都要运行o r b ( 对象请求代理) 。这样的系 统往往十分脆弱:如果一端的执行机制发生变化,那么另一端便会崩溃。 ( 2 ) 不易整合 要使得两个基于不同技术的系统协同工作,必须创建某种类型的桥,这是一 种从一个系统消息格式中翻译消息的技术,这样另一个不同的系统就可以理解并 根据请求进行处理和响应。这些桥实际存在但是并不理想,因为困难在于要将所 有的d c o m 功能、数据结构类型等等映射至i j c o r b a ,反之亦然。 ( 3 ) 防火墙问题 作为互联网上的一种安全策略,防火墙一般会根据协议的端口号对来访的数 据请求进行控制。d c o m 和c o r b a ii o p ( i n t e r n e ti n t e r - o r bp r o t o c 0 1 ) 协议是基于 t c p i p 体系结构的,它们使用动态分配的端口号,而端口号的选择是随意的,这 样防火墙就会阻挡该协议的访问,使远程过程调用无法成功进行。解决这个问题 的一个办法是将防火墙配置为允许端口号在某个范围内的访问,然后将d c o m 或 i i o p 协议所需的端口号限制在这个范围之内,则客户的请求就可以成功地到达服 务器,但是这样做同时会带来安全性方面的问题。另一个方法是m i c r o s o f t 的c o m i n t e r n e t 服务,但这项技术只用于m i c r o s o f t 的i n t e r n e ti n f o r m a t i o ns e r v e r 和 d c o m ,也还不是一个完全的解决方案,仍然需要一种更一般的方式。 解决这些问题的最好办法是使用一种统一的格式来定义对象的接口标志、在 网络上传输的格式等等。 w e bs e r v i c e 比副是一种优秀的分布式计算技术,它的主要目标就是在现有的各 种异构平台的基础上构筑一个通用的与平台无关、语言无关的技术层,各种不同 平台之上的应用依靠这个技术层来实施彼此的连接和整合。w e bs e r v i c e s 在 1 0 湖北工业大学硕士学位论文 i n t e r n e t 或者i n t r a n e t j :通过使用标准的) ( m 叫协议和信息格式来展现商业应用 服务。使用标准的x m l 协议使得w e bs e r v i c e s 平台、语言和发布者能够互相独立。 通过开放的i n t e r n e t 标准:s o a p u ( s i m p l eo b j e c ta c c e s sp r o t o c o l ,简单对象 访问协议) ,w s d l 心驯( w e bs e r v i c e sd e s c r i p t i o nl a n g u a g ew e b 服务描述语言) 和 u d d i 比圳( u n i v e r s a ld e s c r i p t i o nd i s c o v e r ya n di n t e g r a t i o n ,统一描述、发现 和整合规范) ,w e bs e r v i c e s 消除了现有应用整合方案中存在的问题,是解决异构 数据共享与整合问题的最佳解决方案。 2 3 整合方案的给出及其体系结构 根据以上的分析,由于模式整合的方法和w e bs e r v i c e s 有比其他方法更好的 特性,因此,本文给出基于x m l 的数据库中间件力h w e bs e r v i c e s 技术的整合方案。 对于w e bs e r v i c e s 来说,。其使用的标准x m l 技术是一个较好的全局数据模式,扩展 标记语言x m l 定义了一种文件格式和数据保存方法,使数据信息能在异构平台之间 平稳无障碍地传递和共享它的自描述性、可扩展性、表达内容与形式相分离等特 性使它具备了全局模式所必须的条件x m l 的出现尽管只有短短的几年,但已得到 了广泛的认可和采纳,很多软件和网络构架已经开发了对x m l 的直接支持,因此基 于x m l 的分布异构数据整合平台将具有很大的发展潜力和很好的开放性,如果将各 异构数据库中的数据转换为此模式,一方面,工作量较小,另一方面,可以不用 复制和转移各异构数据库中的数据,同时,由于x m l 技术是w e bs e r v i c e s 技术的一 部分,方便使用w e bs e r v i c e s 技术来跨平台传输,从而屏蔽平台的异构性。在整 个整合的思路中,我们以中间件技术来做将数据库中的数据转换为x m l 文档以及处 理从用户端传来的查询要求并将这些以x m l 文档形式存在的要求转换或映射为数 据库中的数据或查询,最后将结果再转换为x m l 文档形式的工作。而以w e bs e r v i c e s 技术来处理x m l 文档在网络平台上的传输工作。两者分工合作,共同完成数据从各 个异构数据库到各个有服务需求的用户端的一系列传输、加工、响应的工作。整 合方案的体系结构如下 湖北工业大学硕士学位论文 图2 4 基于w e bs e r v i c e s 的数据整合方案的体系结构 在这里x m l 数据转换器和数据预处理是通过中间件( 见3 3 节) 完成的,包 括中介器,解析器和包装器。而中间件部分的设计和实现在本方案中是个难点问 题,做为数据整合的基本,本文将在下一章介绍本文中所用到相关的中间件技术, 并在第5 章给出相关技术在铁路远动辅助系统设计中是如何设计与实现的。 1 2 湖北工业大学硕士学位论文 第3 章异构数据库整合中间件技术 3 1 中间件的概念 中间件( m i d d l e w a r e ) 是处于应用软件和系统软件之间的一类软件,属于可 复用软件的范畴u 。中间件在操作系统、网络和数据库之上,应用软件的下层, 总的作用是为处于自己上层的应用软件提供运行与开发的环境,帮助用户灵活、 高效地开发和整合复杂的应用软件。 国际数据公司( i n t e r n e td a t ac o r p o r a t i o n ,i d c ) 对于中间件的表述是:中间 件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技 术之间共享资源,中间件位于客户机服务器的操作系统之上,管理计算资源和网 络通信,如图3 1 所示。 卜 表示厝 | | 表示羼 l j 工i 工 中间件 ( 分布系统勇猛务) j 王u 数据库数据库 搡律系统揉作系统 硬件硬件 3 2 中间件分类 图3 1 中间件系统架构 随着计算机软件技术的发展,中间件技术也己经日渐成熟,并且出现了不同 层次、不同类型的中间件产品。按照i d c 的分类方法,中间件可分为六类。分别 是数据库中间件、远程过程调用中间件、消息中间件叭3 、事务处理中间件、对象 中间件等。而我们方案中选用的是基于x m l 的数据库整合中间件。 1 3 湖北工业大学硕士学位论文 3 3 基于x m l 的中间件数据整合模型 利用x m l 文档作为访问数据库的中间层,将数据库数据转换为x m l 的数据源,然 后基于x m l 数据源在客户端进行访问,可以屏蔽多数据源的异构性和分布性。 3 3 1 模型框架 本文给出的基于) ( m l 的中问件数据整合模型魄3 3 3 5 1 见图3 2 ,主要包括:解析 器、中介器、包装器年i x d b c ( x m ld a t e b a s ec o n n e c t i v i t y ) 统一接口组成。 应用层 中介器 旬菇照犀 信息数据库层 li x d b c 接口 解析器 lj 合法 i 查询分配器 结果整合器 $l3 i s q l 包装器s q l 包装器s q l 包装器 $ll 亡刁亡jej 图3 2 基于x m l 中间件数据整合模型 解析器用于核对x q u e r y 的语法,如果没有语法错误,则发送到中介器中查询 分解器,若有错误,提示错误信息; 中介器主要由查询分配器、结果整合器组成。它通过x d b c 统一接口接收用户 应用提出的x q u e r y 请求,负责将全局查询分解成针对每个数据源输出模式的子查 询,并有效地将子查询传送到相应的数据源包装器,通过统一接口得到) ( m l 形式的 结果片断,处理合并这些结果片断后通过x d b c 接口将结果返回给用户。 包装器接收中介器发送来的子查询,将其转换为各个数据源能够处理的查询, 并将查询结果转换成x m l 形式返回给查询执行引擎; 3 3 2 模式整合 模式整合啪 3 刀是指将各个数据源中的信息在逻辑上用同样的概念模式表示即 建立全局模式表示,达到数据共享的目的。通过模式转换,将异构数据模型转换 为x m l 数据格式的视图,用户可以使用x m l q b 统一的x q u e r y 查询语言来操作异构数 据源中的数据。 1 4 湖北工业大学硕士学位论文 3 3 3 语义问题的解决 做为数据整合的关键技术问题,解决语义的不一致问题是个重点与难点。在这方 面,本文针对铁路远动调度的实际特点,专门设计了数据库注册和权限管理模块 及公共模型生成模块共同来完成这一难点。通过数据库注册和权
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湘潭理工学院《新能源汽车》2023-2024学年第二学期期末试卷
- 山东省安丘市重点名校2025届初三总复习质量调查(一)数学试题试卷含解析
- 江苏省兴化市顾庄区三校2025年初三下学期3月质量检测试题数学试题试卷含解析
- 华侨大学《信息内容安全》2023-2024学年第二学期期末试卷
- 聊城大学东昌学院《中国传统文化与中医》2023-2024学年第一学期期末试卷
- 武汉设计工程学院《BM5D项目管理》2023-2024学年第二学期期末试卷
- 云南省保山市施甸县2025届初三下学期两校期中联考数学试题含解析
- 泉州市晋江市2024-2025学年三年级数学第二学期期末检测试题含解析
- 浙江中医药大学滨江学院《物理化学实验》2023-2024学年第二学期期末试卷
- 江西旅游商贸职业学院《食品微生物检验技术实验》2023-2024学年第二学期期末试卷
- 吊车包月租赁合同完美参考
- DB52∕T 046-2018 贵州省建筑岩土工程技术规范
- 高中客观题的10大解题技法
- 六年级下册语文《狱中联欢》课件
- 螺杆压缩机知识(课堂PPT)
- 铸件砂芯清理—水爆清砂
- 预算业务管理流程图
- 美国环保局—空气污染物排放和控制手册
- LED灯具PCB板工艺设计规范(完整版)
- 婚内财产归婚生子女所有协议
- 中国移动集客维护支撑工作管理办法
评论
0/150
提交评论