(计算机应用技术专业论文)电子政务平台下数据转换技术的研究.pdf_第1页
(计算机应用技术专业论文)电子政务平台下数据转换技术的研究.pdf_第2页
(计算机应用技术专业论文)电子政务平台下数据转换技术的研究.pdf_第3页
(计算机应用技术专业论文)电子政务平台下数据转换技术的研究.pdf_第4页
(计算机应用技术专业论文)电子政务平台下数据转换技术的研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北方工业大学硕士学位论文 摘要 随着计算机技术和网络技术的发展,实施电子政务,重组优化政府组织结构和工 作流程,建立一个精简、高效、廉洁、公平的虚拟政府,是社会信息自动化发展的必 然趋势。在电子政务发展过程中,由于缺少统一规划和部署,政府各部门业务系统的 建设技术不同、数据库不同、操作系统不同,导致各系统之间数据无法共享和交换, 形成一个个“信息孤岛”。如何有效地利用已有的数据资源是电子政务目前需要解决 的问题,其实质是对已有数据资源的转换和共享。 针对电子政务中数据转换的需求,通过学习和研究网格开发平台g l o b u st o o l k i t 以及网格中间件o g s a - d a i 的内部结构和运行原理,提出基于网格技术的电子政务 数据转换平台设计方案,实现了虚拟政府中各部门业务系统之间的数据交换。 本文重点阐述了电子政务中数据转换技术的研究与实现。该平台将多个独立业务 系统集成到网格开发平台g i o b u s t o o l k i t 下,并利用o g s a - d a i 中间件对注册节点提 供元数据管理服务,通过x m l 格式进行数据的传输和转换,消除不同系统的数据模 式的异构性。提供了异构数据源的注册发布、数据查询以及数据转换功能,在数据转 换过程中保证了数据的实体完整性和域完整性,并提供了转换定时调度功能,实现了 各个独立的、分布的系统之间的数据共享和交换。 关键词:电子政务;数据转换;x l 1 l t 网格 北方工业大学硕士学位论文 t h er e s e a r c ho fd a t at r a n s f o r m a t i o nt e c h n o l o g yi ne g o v e r n m e n t a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rt e c h n o l o g ya n dn e t w o r kt e c h n o l o g y , i ti sf l l l i n e v i t a b l et r e n do ft h ed e v e l o p m e n to fi n f o r m a t i o ns o c i e t yt h a tt h ei m p l e m e n t a t i o no f e l e c t r o n i cg o v e r n m e n t ,r e o r g a n i z a t i o na n do p t i m i z a t i o no fs t r u c t u r ea n dw o r k f l o wo ft h e g o v e r n m e n t ,e s t a b l i s h m e n t o far i g h t s i z i n g 。 e f f i c i e n t ,i n c o r r u p t i b l ea n df a i r v i r t u a l g u v e r n m e n t d u et ot h el a c ko fu n i f i e dp l a n n i n ga n dd e p l o y m e n ti nt h ed e v e l o p m e n t p r o c e s so f e - g o v e r n m e n t , v a r i o u sg o v e r n m e n td e p a r t m e n t sb u i l tt h eb u s i n e s ss y s t e m sw i t h t h ed i f f e r e n tt e c h n o l o g y , d a t a b a s e sa n do p e r a t i n gs y s t e m s ,r e s u l t i n gi nt h ed a t ab e t w e e n s y s t e m sc a nn o tb es h a r e da n de x c h a n g e d ,w h i c hl e a d st oo n ea n da n o t h e r d e t a c h e di s l a n d o fi n f o r m a t i o n h o wt oe f f e c t i v e l yu t i l i z et h ee x i s t e n td a t ar e s o u r c e so fe g o v e r n m e n ti s c u r r e n t l yt h o r n yi s s u et ob er e s o l v e d ,i t se s s e n o ei st o 仃a n s f o r ma n ds h a r et h ea v a i l a b l e d a t ar e s o u r c e s a i m i n ga tt h er e q u i r e m e n t so fd a t at r a n s f o r m a t i o ni nt h ee - g o v e r n m e n t t h i sp a p e r r e s e a r c h e sa n da n a l y z e st h ea r c h i t e c t u r ea n di n n e rp r o c e s so fg l o b u st o o l k i ta n d o g s a - d a i ,p r o p o s e sad e s i g ns c h e m eo fd a t at r a n s f o r m a t i o np l a t f o r mb a s e do ng r i d t e c h n o l o g yw h i c hr e s o l v e st h ep r o b l e mo ft h ee x c h a n g eo fd a t ai ne a c hb r a n c ho f g o v e r n m e n tf i r m l y t h i sp a p e rm a i n l yd i s c u s s e st h er e s e a r c ha n di m p l e m e n t a t i o nf o rt h ed a t a 白r a n s f o r m a t i o no fe - g o v e r n m e n t t h ep l a t f o r mc a ni n t e g r a t ed i f f e r e n tb u s i n e s ss y s t e mi n t o g r i de n v i r o n m e n tg l o b u st o o l k i t , p r o v i d et h em e t a d a t am a n a g e m e n ts e r v i c e sf o rr e g i 【s t e r e d d a t a b a s eu s i n go g s a - d a ia n du s ex m lf o rd a t at r a n s m i s s i o na n dt r a n s f o r m a t i o nt o e l i m i n a t eh e t e r o g e n e i t yo f d a t am o d e lf r o mv a r i o u ss y s t e m s rp r o v i d e sal o to ff u n c t i o n s s u c ha st h em l e a s i n go fd a t ar e s o u r c e s ,d a t aq u e r y i n ga n dd a t at r a n s f o r m i n g , e t c i nd a t a t r a n s f o r m a t i o np r o c e s s , i te n s l l 麟t h ei n t e g r i t yo fd a t ae n t i t ya n dd o m a i n , a n dp r o v i d e st h e f u n c t i o no fr e g u l a rs c h e d u l i n gt r a n s f o r m a t i o n i ti m p l e m e n t st h es h a r i n ga n de x c h a n g eo f d a t ab e t w e e nt h ei n d e p e n d e n ta n dd i s t r i b u t e ds y s t e m k e yw o r d s :e - g o v e r n m e n t ;d a t at r a n s f o r m a t i o n ;x m l ;g r i d - 3 一 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得韭友王些太堂或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名疡冻签字日期硼年岁翩日 学位论文版权使用授权书 本学位论文作者完全了解韭友王些太堂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅 和借阅。本人授权j 友王些太堂可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:f ;艮j 磊 签字日期最o d 7 年姗日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师弥二马吨君 签字日期:出分阵妇 旧 电话: 邮编; 北方工业大学硕士学位论文 1 引言 1 。1 研究背景 1 1 1 电子政务概述 电子政务i lj ( e g o v e r n m e n t ) 就是利用计算机和网络技术,来管理和维持政府日 常办公,是一项将政府工作标准化、服务化、信息化、网络化、公开化的系统工程, 它打破了时间、空间和部门分割的制约,为社会公众及自身提供一体化的高效、优质、 廉洁的管理和服务的过程。电子政务系统由“三网一库”构建而成,“一库”指的是 政务系统的中心数据库,“三网”由三个组成部分:一是政府部门内部的信息化办公 即g 2 g 模式( g o v e r n m e n tt og o v e r n m e n t ) ,目前各个政府部门使用的办公自动化系 统就属于此类;二是政府各个部门之间通过计算机网络而进行的信息和资源共享以及 即时通信,即g 2 b 模式( g o v e r n m e n tt ob u s i n e s s ) ,目前已经基本建设完毕的“三金” 工程就是该类的典型例子;三是政府部门通过网络和公众、企业等进行的双向信息交 流,即g 2 c 模式( g o v e r n m e n tt oc i t i z e n ) ,例如政府的信息发布、网上申报、网上招 聘等就属于第三种电子政务的范畴。所以,一个完整的电子政务系统应当是上述三种 系统的有机的结合。 电子政务的任务就是应用计算机技术来构建政府工作的综合信息化,并与其它的 系统进行有效的联系,归纳起来,其主要功能主要有如下: ( 1 ) 提高政府机关在行政、服务、管理等方面的效率,有助于精简政府机构,简 化办事程序。 ( 2 ) 在计算机技术、信息技术等高新技术的支持下,可以提高政府机关的民主管 理和科学决策水平。 ( 3 ) 利用政府机关丰富的资源库和便捷的网络设备,可以为企事业单位、公民等 提供优质的多元化的信息服务。 电子政务目前存在的主要问题: 政府是社会信息资源的主要汇集中心,而这些资源,特别是用户信息分散存储在 政府的各个职能部门。电子政务的目的就是能够有效的利用这些数据资源协同办公, 提高政府办公效率。但是在电子政务渐进式的发展过程中,由于缺乏统一的建设规划 和标准的技术规范,导致各级政府和部门在开展电子政务时往往各自为政,采用不同 的技术、数据库和操作系统,造成各部门之问、各部门与公众之间的数据信息不能共 北方工业大学硕士学位论文 享和交换,使得各部门的数据资源形成了一个个“信息孤岛”,无法在电子政务上共 享。信息孤岛的存在,致使这些分布的、异构的业务系统数据无法共享和交换,是电 子政务发展的“瓶颈”。 1 1 2 研究背景 随着全球政治经济一体化的日益明显,以电子政务为代表的政府管理服务职能的 无纸化、自动化已在很多国家尤其是发达国家中迅速发展【l 】。在世界各国积极倡导的 “信息高速公路”的五个应用领域中,电子政务被列为第一位。因此可以说政府信息 化是社会信息化的先导,电子政务是信息化社会发展的必然。 近年来,我国投入了大量的人力、物力进行电子政务建设,取得丰硕的成果。随 着技术的发展、管理思想的不断演进,新的需求不断出现,电子政务的建设逐渐从单 向信息发布向政府部门与公众双向互动、集成办公发展。同时在我国电子政务建设过 程中,一直存在着重新建轻整合、重硬件轻软件、重管理轻服务、重电子轻政务的误 区,缺少统一规划和部署,在渐进式发展的过程中,政府各部门的业务办公系统的建 i 设时间不同,厂商不同,技术设备不同,数据库格式不同,操作系统不同,乃至应用 软件和用户界面都不同,导致业务流、信息流不统一、各系统间数据通讯困难、部门 之闻信息不能共享,形成各自互不相通的“信息孤岛”,无法形成柔性管理和统一管 理,严重影响着政务信息的共享和利用。 电子政务不仅仅是需要访问本部门内部的资源,还需要与其它部门的系统交互, 以提高政务效率。要放弃这些投入大量资源开发、运行良好的、分布的、异构的应用 软件是不现实的,因此,保护现有资源,让新的系统能够和现有的系统应用交互整合, 提高互连互通政务效率,避免资源浪费,这就需要实现在一个异构环境下,用一种统 一的方式组织来自不同系统的数据,实现这些系统之间的数据共享与转换是目前电子 政务的必走之路。 1 2 课题来源、目的及意义 本课题来源于“北京市门头沟区工业局电子政务系统”项目,主要包括局内的办 公自动化系统、对企业乡镇的业务系统等。 北京市门头沟工业局是国家行政部门,门头沟区工业局管辖范围内有若干乡镇、 开发区、企业,而这些乡镇和企业都有各自的业务模式,由于没有统一的开发规范和 标准,这些已有的业务系统的开发平台、操作系统、后台数据库都是异构的。工业局 系统的体系结构主要包括网络基础设施层、数据转换层、电子政务应用支撑层、电子 政务功能层以及应用层,图1 1 是工业局电子政务系统的总体结构图。 北方工业大学硕士学位论文 0 2 go2 b 鬲磊习f i i 焉毫 统 能 鬣 t j 维 护 l 乜。严政务斑矧系缆 匮重夏委重要蜀一区至亘霍要至墅雪 l 毡r 政务心埘支撵、静 统一飚妒锻琏l l 作漉臀鲤 数榭转换 数攒熊成产岛 孵搿_ 魑虢髓臆 安 盒 审 t _ t 女 r b a ( : 蜜 令 i , 泓 障 体 系 图1 1 工业局电子政务系统总体结构图 工业局电子政务系统体系结构的本质是基于协议的层次结构,如图1 1 所示可 知,数据转换层是应用层和功能层的基础。其目的是要将系统范围内的数据库进行整 合与交换,形成统一格式的数据管理平台。门头沟区工业局电子政务系统是政府对企 业模式( g 2 b 模式) 的系统,它管辖范围内有若干乡镇、开发区、企业,而这些乡 镇和企业原来都有各自的业务模式,这些已有的业务系统的开发平台、操作系统、后 台数据库等都可能是异构的,有基于s q ls e r v e r 数据库的,有基于o r a c l e 数据库的。 因此工业局的数据库群包括局机关的数据库、乡镇的数据库和企业的数据库。工业局 对外的访问要在这些异质的、异构的、分布的数据库间进行。在现有工业局电子政务 系统中,机关业务系统可以获得下属企业、乡镇的项目数据、产品数据等基本信息, 但是对下属企业、乡镇具体的生产数据、经营数据、销售数据则无法获取,使得机关 业务系统无法执行一些涉及到几个企业、乡镇信息的业务操作,例如需要获得几个企 业、乡镇相同产品的经营数据,并统一数据格式形成报表等情况。 为了充分利用企业、乡镇现有的业务系统数据协同办公,增强工业局系统的灵活 性,满足统计各企业生产、经营、销售信息的需要,就必须用一种统一的技术实现各 部门数据的共享和转换。近年来网格技术的兴起为电子政务数据转换提出了新的思 路,通过建立网格环境,政府可以充分利用现有的各部门系统的数据,最大限度地减 少跨部门系统建设时的重复投资。网格提供了一系列的标准来解决异构平台、系统之 间的集成转换问题。网格的基础是基于x m l 的消息传递,它用x m l 对各种数据、 消息在各个系统之间进行信息交换。 本文结合工业局电子政务系统的现状,主要对数据转换层进行研究,提出了基于 网格技术的电子政务数据转换平台的设计与实现,此平台在不破坏原有企业系统的基 北方工业大学硕士学位论文 础上,解决工业局下各个乡镇及企业业务系统间的数据异构性问题,从而真正地做到 共享数据,建立部门白j 的沟通渠道,为协同办公提供平台和信息支持,提高政府办公 效率,是解决电子政务“信息孤岛”的有效途径。有利于推进跨部门应用,实现“一 站式”电子政务。 1 3 国内外研究现状 数据转换目前在国内外主要是应用在数据仓库的e t l 工具中,数据抽取、转换和 装载( e x t r a c t ,t r a n s f o r m ,l o a d ) 负责将数据从业务系统或外部系统中获得,转换 和处理成数据仓库需要的格式和形态,并在规定的时间装入到数据仓库中去。通常我 们把这三个具体的步骤统称为e t l ,而e t l 工具的本质是数据转换,它提供种从 源系统到目的系统转换数据的方法。 1 3 1 国内研究现状 国内数据仓库的研究起步较晚,其应用范围主要集中在少数几个行业中。国内有 几所高校对e t l 进行了研究,像华中科技大学研制的自主知识产权的d m s 【2 l d m 3 提供了e t l 工具。d m 3 采用面向对象的开发方法,用c o m 技术实现o l ed b 接口和d t s 接口,开发了一个具有良好可扩展性的d m 3 数据转换工具e t l ;m s e t “2 】 是中国科学院自主研发的一种e t l 工具,它的主要目的是为多策略数据挖掘平台提 供高质量的数据,提供友好界面并对e t l 过程进行统一的元数据管理,该工具设计 了e t l 任务模型,并提供e t l 任务模型描述语言( x t d l ) 描述任务。 1 3 2 国外研究现状 国外数据仓库的研究已经得到大规模的应用,几乎每个数据仓库厂商都有自己的 e t l 系统,目前市场上已经有相当成熟的商用e t l 工具。下面重点介绍一下主流的 数据仓库e t l 解决方案: ( 1 ) i b m 公司的v i s u a lw a r e h o u s e 提供的e t l 工具,可以访问各种关系数据库 和非关系数据,支持的数据源广泛。它是基于s q l 的简单转换和基于u d p ( u s e r d e f i n e dp r o g r a m ) 的复杂转换,具有高效装载的特性。除了现有基于s q l 的目标装 载,v i s u a lw a r e h o u s e 还提供了用于文件传输和装载过程管理的程序。并且可以定义 工作流,实现交易视图的定时调度、条件调度、并行调度和外部事件时间调度。 ( 2 ) o r a c l e 公司o r a c l o w a r e h o u s e b u i l d e r 作为包括e t l 在内的综合工具,它可 以完成导入数据源定义、设计和创建目标数据库模式、定义和创建源和目标之间的数 据迁移和操纵。定义e t l 过程之间的约束性和流程、管理、更新源定义和目标模式 等多种任务。它提供转换过程中载入( t r a n s f o r mw h i l el o a d i n g ) 的e t l 新处理模式, - 4 北方工业大学硕士学位论文 提供全抽取和增量抽取两种逻辑抽取方法。提供多阶段转换和流水线转换的转换流 程,使用s q l 、p l s q l 、表函数的转换机制,提供s q l l o a d e r 、外部表、o c ia n d d i r e c t - p a t h a p i s ,e x p o r t i m p o r t 的加载机制。提供多种新功能以增强e t l 处理的性能。 ( 3 ) m i s c r o s o f t 公司提供d t s 作为e t l 工具。d t s 支持广泛数据源:o l ed b 数据源,o d b c 数据源,文本文件。使用d t s ,能够在数据库管理系统之间拷贝表 的模式和数据;创建定制转换对象,使其能集成到第三方产品中;通过交互式或自动 方式从多个异构数据源导入和转换数据,在提供o l ed b 驱动程序的数据库管理系统 中创建数据仓库和数据集市;创建和执行d t s 包,一个d t s 包完整的描述了所有的 转换工作,它定义了一个或者几个数据转换步骤,每一步能够完成一个不同类型的操 作。d t s 还提供自动调度d t s 包中任务工作流的功能。此外,d t s 提供导入导出向 导和d t s 设计器等工具来简化数据转换工作。 虽然市场上的e t l 工具比较成熟,具有比较完善的体系结构,产品的功能强大, 但是这些e t l 价格昂贵,可扩展性、开放性和兼容性差,多数只能作为独立产品使 用,而且针对性强,操作复杂,缺乏适用性。针对工业局电子政务系统的数据转换需 求,借鉴d t s 的原理,设计并实现了通用性、扩展性、操作性以及移植性较强的基 于网格技术的数据转换平台。 1 4 课题研究主要内容 本课题根据工业局系统的业务需求,主要实现工业局系统管辖下各个异构数据源 的数据采集、数据转换以及数据加载功能。主要研究一下几个问题: ( 1 ) 各业务系统的异构性:这是数据转换面临的首要问题。其主要包括两个方 面:一是系统异构:计算机体系结构不同,操作系统不同;二是数据异构:主要是模 式的异构。数据存储模式包括关系模式、对象模式、x m l 文档树型模式等等。而在 主流的关系模式中,数据也存在着差异。利用网格技术搭建数据转换平台很好的解决 了数据源异构、共享和分布的问题; ( 2 ) 元数据模型管理:元数据是指关于数据的数据,元数据模型管理主要指异 构数据源的元数据获取及应用,包括数据源定义、目标定义、转换规则等相关的关键 数据。要对这些信息进行妥善保存,并很好的管理,为数据转换提供基础; ( 3 ) 数据的转换:这是数据转换的关键问题。主要包括类型转换、结构转换、 完整性约束。根据选择的源数据源和目的数据源,结合元数据模型建立的数据转换规 则进行数据的统一转换; ( 4 ) 数据的加载:通过元数据模型建立的数据转换规则对数据进行加载,主要 北方工业大学硕士学位论文 包括定时转换任务流的调度、日志信息管理和数据报表。 1 5 本文的组织结构 本文分析了电子政务系统的特点、网格技术的特点以及数据集成转换研究采用的 方法和技术,在此基础上,深入介绍了工业局电子政务系统数据转换平台的设计与实 现过程。论文结构如下: 第一章引言部分主要介绍了课题的研究背景、研究目的、意义以及研究的主要内 容。 第二章介绍了数据转换的一般架构、目前的电子政务下数据转技术研究现状,给 出了工业局系统数据转换的主要目标。 第三章介绍了工业局系统数据转换平台实现的关键技术,重点分析了网格技术和 中间件o g s a - d a i 的内部架构及其执行过程。 第四章介绍了数据转换平台的分析、设计和技术难点的解决方案。 第五章介绍了数据转换平台的开发、运行环境以及系统主要功能的实现,并结合 运行界面对平台的实现进行说明,此外还对平台进行了功能测试和性能测试。 最后对论文进行了总结,综述了平台设计特点,总结了本课题的研究工作。 1 6 本章小结 本章介绍了电子政务的特点、课题的研究背景、来源、目的以及课题的意义。分 析了数据转换工具的国内外研究现状,最后介绍了本论文的组织结构。 北方工业大学硕士学位论文 2 数据转换技术研究 2 1 数据转换方法 数据转换是一项很重要的数据库技术,它关系到应用系统的可移植性和二次开发 能力。数据转换可以很好地解决信息技术的发展和数据库的升级所带来的问题,能够 最大限度地利用现有资源避免重复开发的浪费。下面主要介绍三种数据转换方法以及 这三种方法的比较。 2 1 1 基于o d b c 的数据转换方法 开放数据库连接【3 1 ( o p e nd a t a b a s ec o n n e c t i v i t y ,o d b c ) 是m i c r o s o f t 公司提出 的标准应用程序接口。它允许一个应用程序访问o d b c 支持的不同数据源。应用程 序使用结构化查询语句s q l 作为标准的数据访问语言。o d b c 为w i n d o w s 开发者提 供了s q l 数据库访问函数调用,屏蔽了底层数据库系统的不同,从而简化了对数据 库的访问。o d b c 为异构数据库的访问提供了统一的接口,它允许应用程序以s q l 语言为数据存取标准,来存取不同的d b m s 管理的数据。 o d b c 数据转换原理 o d b c 为异构数据库的访问提供了统一的接口,它允许应用程序以s q l 语言为 数据存取标准,来存取不同的d b m s 管理的数据。o d b c 的分层结构如图2 1 所示, 包括应用程序( a p p l i c a t i o n ) 、驱动程序管理器( d r i v e rm a n a g e r ) 、驱动程序( d r i v e ) 、 数据源( d a t as o l l r o e ) 4 个组件。 尸j 一= ;冀+ 9 露鳓章一蘅争、零譬净誊爹:? ” b ” ”;“:驱动程序鬻理嚣二,纛;, : 。塑肇璧j 匕塑譬些逐耋譬! 燮 数据源i数据源2数据源n 图2 1 基于o d b c 的数据转换 网络 北方工业大学硕士学位论文 应用程序作为数据库对用户的界面,它通过调用o d b c a p i ,执行s q l 语句对数 据库进行查询等工作。o d b c 应用程序必须包括三个对象:环境( e n v i r o n m e n t ) 、联 接( c o n n e c t i o n ) 和语句( s t a t e m e n t ) 。这三部分都是通过各自的旬柄( h a n d l e ) 来标 志和控制的。o d b ca p l 是o d b c 运用数据通信方法、数据传输协议、d b m s 等多 种技术定义的一个标准接口。应用程序通过o d b ca p i 与数据源进行数据交换。 o d b ca p i 包括函数库、o d b cs q l 语法、o d b c 数据库类型和一套错误代码。 通过o d b c 进行数据转换按照以下步骤:o d b c 分配环境句柄、执行s q l 语句、 检索结果与服务器断开。具体过程如下: ( 1 ) 初始化( 包括分配环境,分配联接句柄,与服务器连接,分配语句句柄) ,可 视化界面下连接数据源与目标数据库; ( 2 ) 通过相关的o d b ca p i 读取源数据的信息; ( 3 ) 驱动程序通过函数返回数据源数据类型与o d b cs q l 类型之问的映射关系, 从中找出源数据类型与目标数据类型的对应关系,生成目标表的结构信息; ( 4 ) 在界面下可显示源数据库和目标数据库的表结构和列映射关系,提供检查和 修改的手段; ( 5 ) 在目标数据库上建立目标表结构; ( 6 ) 逐行读取源表记录,调用方法进行加载到目标数据库中,直到读取最后一条 记录: ( 7 ) 终止( 包括释放语句旬柄,与服务器断开,释放连接句柄,释放环境) 。 2 1 2 基于o l e d b 的数据转换 通用数据访问技术u d a 包括o l ed b 和a d o 两层标准接口,o l ed b 3 】是系统 级的编程接口,而a d o 是应用层的编程接口,它通过o l e d b 提供的c o m 接口访 问数据。通用数据访问的软件层次模型如图2 2 所示。 北方工业大学硕士学位论文 数据使用者 由o l e d b 提 供的服务 数据提供者 图2 2 通用数据访问的软件层次模型 o l ed b 技术及数据转换原理 u d a 技术的核心是o l ed b ,o l ed b 是一套通过c o m 接口访问数据的a c t i v e x 接口,它建立了数据访问的标准接口,把所有的数据源经过抽取形成行集( r o w s e t ) 的概念。o l ed b 还提供了一组标准的服务组件,用于提供查询、缓存、数据更新、 事务处理等操作。因此,数据提供方只需提供一些简单的数据操作,在使用方就可以 获得全部的数据控制能力。 o l ed b 接口相当通用,足以提供一种访问数据的统一手段,而不管存储数据所 使用的方法如何。o l ed b 模型主要包括以下一些c o m 对象: ( i ) 数据源( d a t as o u r c e ) :数据源对象对应于一个数据提供者,它负责管理用户 权限、建立与数据源的连接等初始操作; ( 2 ) 会话( s e s s i o n ) :在数据源连接的基础上建立会话对象,会话对象提供了事务 控制机制; ( 3 ) 命令( c o m m a n d ) :数据使用者利用命令对象执行各种数据操作,如查询命令、 修改命令等; ( 4 ) 行集( r o w s c t ) :提供了数据的抽象表示,它可以是命令执行的结果,也可以 直接由会话对象产生,它是应用程序主要的操作对象。 o l ed b 分为两部分,一部分由数据提供者实现,包括一些基本功能,如获取数 据、修改数据、添加数据项等;另一部分由系统提供,包括一些高级服务,如游标功 能、分布式查询等等。这样的层次结构既为数据使用者即应用程序提供了多种选择方 案,又为数据提供方简化了服务功能的实现手段,它只需按o l ed b 规范编写一个 北方工业大学硕士学位论文 c o m 组件程序即可,使得第三方发布更为简便,而在应用程序方面可以得到全面的 功能服务。 a d o 技术及数据转换方法 a d o 是一种用于开发o l ed b 数据源应用程序的a p i ,它提供了更高级并容易 理解的服务器o l ed b 数据库机制,在o l ed b 提供者的支持下,a d o 还可以用来 访问己有的o d b c 数据源。a d o 内存覆盖低,线程安全,支持分布式事务和基于 w e b 的远程数据访问,与一般的数据库接口相比,a d o 可更好地用于网络环境,通 过优化技术,尽可能地降低网络流量。a d o 的另一个特性是使用简单,因为它是一 个面向高级用户的数据库接口,而且使用了一组简化的接口用以处理各种数据源,作 为m i c r o s o f tu d a 策略的一部分,a d o 成为基于跨平台的、数据源异构的数据访问 标准模型。a d o 的对象模型如图2 3 所示。 图2 3 a d o 的对象模型 在a d o 模型中,主体对象只有三个:c o n n e c t i o n ,c o m m a n d 和r e c o r d s e t ,其他 四个集合对象e r r o r s ,p r o p e r t i e s ,p a r a m e t e r s 和f i e l d s 分别对应e r r o r ,p r o p e r l y , p a r a m e t e r 和f i e l d 对象,整个a d o 对象模型由这些对象组成。通过a d o 进行数据 转换时使用c o n n e c t i o n 对象建立与数据源的连接,然后用c o m m a n d 对象给出对数据 库操作的命令,比如查询或者更新数据等,而r e c o r d s e t 用于对结果集数据进行维护 或者浏览等操作。 2 1 3 基于x m l 的数据转换 可扩展的标识语言x m l 描述了一类成为x m l 文档的数据对象,而且部分地描 述了处理这些对象的计算机程序的行为。它是s g m l ( s t a n d a r dg e n e r a l i z e sm a r k 北方工业大学硕士学位论文 l a n g u a g e ) 的一个应用案例。x m l 是由w 3 c ( w o r l dw e bc o n s o r t i u m ) 对其进行标 准化的,它可应用于计算机、数字化广播、通讯、电子出版等许多领域,已成为电子 发布和数据交换的格式【3 0 】,成为数据交换的标准和规范。 、 基于x m l 数据转换的基本原理就是在数据的转换过程当中以x m l 格式为中介, 首先将异构数据转换为x m l 模式,将x m l 模式进行处理之后,再将其转换为目标 数据库,如图2 4 所示; 数据源n 图2 4 基于x m l 的数据转换 x m l 与数据库之间的转换包括数据库到x m l 文档和x m l 文档到数据库之间的 转换【4 1 ,数据库表达的是完全结构化的信息,而x m l 文档表达的是半结构化的信息, 特别适合表达层次型的数据,灵活性更好。在网络数据交换中,x m l 作为数据交换 的标准在各行各业特别是在电子商务中起到了更大的作用。将其作为数据转换的标 准,使转换工具具有更强的通用性和更高的转换效率。 2 1 4 已有数据转换方法的比较 以上介绍的三种不同的转换方法在异构数据源数据转换上各有优劣。 基于o d b c 的数据转换方法能够直接对底层设置和控制数据库,因此功能强大, 容易得到数据源的各种元数据信息。但编程复杂,对底层的o d b ca p i 的理解程度要 求较高。对关系数据库系统支持较好,而对其他数据源如对象数据库和其他非关系数 据库支持不好。这种方法过多的依靠某一数据源所提供的o d b c 驱动程序接口,如 果提供的有关数据源的信息不正确,则无法正确转换模式,同时数据在转换过程中也 可能出现错误。 基于o l ed b 的数据转换方法,通用性强,支持多种数据源,可以对所有的文件 北方工业大学硕士学位论文 系统( 关系数据库和非关系数据库) 进行转换。对于某些特定的o l ed b 驱动程序, 转换效率高。采用a d o 读取数据并进行转换,使其实现得到简化,且具有更高的程 序灵活性。但这种方法难于取得完整的数据源信息,而且需要安装相应的o l ed b 驱动程序以及a d o 对象库。 基于x m l 的数据转换提供了对各种异构数据源的支持,包括各种文档以及w e b 页面。但这种转换方法实现较为复杂,转换过程中的映射关系难于确定,转换过程中 难以避免的会丢失很多信息,转换的正确性有待提高。 本文借鉴基于x m l 中问件的数据转换方法【i 孤,提供了元数据管理、数据类型转 换、完整性约束和定时数据转换调度功能,对于那些不经常更新的数据,采用数据复 制方法定时转换导入。采用网格技术,利用网格环境下中间件工具包g l o b u s 和d a i 来构建全局查询,实现了松散耦合的数据转换新的模式。 2 2 电子政务中数据转换技术应用研究现状 “信息孤岛”问题不仅困扰着电子政务的有效运转,也严重制约了信息技术在各 领域的充分应用和进一步发展,因而不同的国际机构纷纷制定各式各样的技术或标 准,试图局部地或根本性地解决该问题。如“国际互操作性联盟”( i n t e r n a t i o n a l a l l i a n c e f o ri n t e r o p e r a t i o n - i a i ) 开发的“产业基础分类”数据模型、i n t e m e t 技术、电子数 据交换( e d i ) 、产品数据管理( p d m ) 以及c a d 数据交换格式等等。 到了2 0 世纪9 0 年代,基于i n t e r a c t 的集成技术成为研究的热点。该技术可以把 传统的应用软件移植到i n t e m e t 上,从而摆脱硬件平台、操作时间、操作地点等方面 的限制,达到信息共享的目的。目前,这种集成技术迅速发展到以支持应用互操作的 需求为核心,以面向对象技术为主要特征的分布对象技术,在分布对象环境中实现信 息资源的重用、重构与共享,实现面向协同应用的信息共享与应用互操作。以下将着 重讲述每种分布式技术的特点。 2 2 1 分布式对象模型 分布式对象的实质是将应用服务分割成具有完整逻辑含义的独立子模块,各个子 模块可放在同一台服务器或分布在多台服务器上运行,模块之间通过远程调用及消息 传递进行交互。其目的是为了降低主服务器的负荷,共享网络资源,平衡网络中计算 机业务处理的分配,提高计算机系统协同处理的能力,使得应用系统的实现更为灵活 【5 1 。 分布式对象结构是从中间件的概念发展起来的,它将程序数据封装在具有函数接 口的对象之中。在分布式对象结构中,对象内的执行细节对于调用者来说也是不可见 北方工业大学硕士学位论文 的。分布对象往往又被称为组件( c o m p o n e n t ) ,组件是一些独立的代码封装体,在 分布计算的环境下可以是一个简单的对象,但大多数情况下是一组相关的对象复合 体,提供一定的服务。并且在分布式对象结构中,对于对象中的方法调用也作了限制, 用户不能像调用a p i 一样直接调用这些方法,而只能通过问接的形式进行调用垆j 。另 外,用户在调用对象的时候也只需要使用对象的引用,而不再需要创建本地实例。分 布式环境下,组件是一些灵活的软件模块,它们可以位置透明、语言独立和平台独立 地互相发送消息,实现请求服务。 图2 5 分布式对象模型结构图 2 2 2 传统分布式系统技术解决方案 传统的分布式应用解决方案用到的技术主要有d c o m ,c o r b a ,r m f e j b 等。 每种技术都有自己的优势但也有不足之处。下面分别分析一下传统的解决方案及其缺 陷。 c o r b a 和d c o m 解决方案及其缺陷 d c o m 和c o r b a 是目前两种使用比较广泛的分布式计算实现方案吼3 。它们都 能提供一种面向对象的r - p c 调用机制。两种系统都提供了透明的存储机制,用户在 编写程序时不需要操心组件的具体物理存放位置。组件把如何找到该组件的信息提供 给对象请求协调器( o b j e c tr e q u e s tb r o k e r ,简称o r b ) 。当程序需要某个组件的时候, 它会到o r b 那里去查询特定的组件或者组件类型,而o r b 会给出一个对应的检索索 引,这个检索索引在该组件体系结构里是有明确含义的。o r b ( o b j e c t r e q u e s t b r o k e r ) 作为它们的核心,在分布异构环境中的不同应用之间提供互操作性,并可实现多个对 象系统之间的无缝连接。 北方工业大学硕士学位论文 图2 6 c o r b a 参考模型 然而d c o m 和c o r b a n n 都是适合服务器到服务器的通信协议,二者对客户端 到服务端的通信存在明显弱点,尤其是在客户端被散布在l n t e m c t 上的时候。更糟的 情况是防火墙或代理服务器分隔开了客户端和服务端,任何c o r b a 和d c o m 的数 据包要通过的可能性是很低的,主要是由于大多数i n t a n a 连接技术都使用h t r p 协 议所致。此外 n t e m e t 上的分布式应用系统要求服务端与客户端的连接松散,客户端 向服务端发出请求,服务端返回结果,连接就会关闭,这因为i n t e m e t 上的服务端由 数目众多的客户端使用,由于每一台客户端都有一个与服务端的连接,对于很少使用 服务端或根本不使用服务端的客户端,应该断开连接以保护宝贵的服务端资源。而 d c o m 却是面向连接的,虽然d c o m 有办法处理这些问题,但是增加了许多复杂性。 另外,d c o m 和c o r b a 都依赖于周密管理的环境,特别是在考虑安全性的时候更 是如此。 e j b r _ m i 解决方案及其缺陷 r m l l 7 1 是j a v a 语言的远程调用机制,也是构建分布式应用系统时常使用的一种技 术。r m i 的数据封包非常简单,它并没有像d c o m 和c o r b a 那样提供复杂的对象 模型机制,并且由于r m i 有t u n n e l i n g 机制,可以和防火墙较好的搭配工作。但是 r m i 也存在很大的缺陷:r m i 局限于j a v a 语言,而且r m i 使用注册表机制来存储对 象信息,因此在延展性上和d c o m 一样受限于管理注册表的服务器的计算能力和服 务器位置。此外r m i 的执行效率不太好,它并不适合作为企业分布式架构的标准。 e j b 的出现迟于c o r b a 但却成为比较热门和流行的组件模型,f j b 模型使用了 s t u b s k e l e t o n 的机制让客户端和服务端通信,同时低层的通信协议使用t c p i p ,这种 构架使得它有能力去整合多种应用程序。但它并不是在i n t e m e t 或w e b 环境下组件模 型集成的最终解决方案,因为e j b 中的通信也是使用了自己定义的数据封包格式, 北方工业大学硕士学位论文 而且s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论