数据共享与交换平台解决方案_第1页
数据共享与交换平台解决方案_第2页
数据共享与交换平台解决方案_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、。数据共享与交换平台解决方案一、方案概述随着信息社会的到来,计算机网络环境和分布处理技术的深入发展。信息系统中的数据源所呈现的形式也日益繁多,在这些数据中有模式固定的结构化数据,也有无模式的无序数据。这种无论是已知确定来自数据库的数据或是来自网络上的各式各样结构不固定、不完全或不规则的数据,都给信息系统在向国民经济信息化发展的过程中产生了很大的障碍。因此,完成不同数据的共享与交换成为各个企业与部门进行信息交换时所必须要解决的重要问题。主要原理如下图:二、主要工具1.工具简介数据集成的目的就是要运用一定的技术手段将系统中的数据按一定的规则组织成为一个整体,使得用户能有效地对其进行操作。 数据处理

2、的对象是系统中的各种异构数据库中的数据或者无格式数据,而数据集成的主要过程则是建立完善的数据仓库, 以及采用数据挖掘技术获取更多数据信息。ETL作为数据库级的数据集成工具,擅长大量数据的迁移,能从多个数据源中抽取数据, 然后进行数据转换和加载, 最终得到统一的、完备的主题数据库或数据仓库,原来分散的应用仍独立运作。 ETL中三个字母分别代表的是 Extract 、 Transform 、Load,即抽取、转换、加载。数据抽取: 从源数据源系统抽取目的数据源系统需要的数据;数据转换: 将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工。数据加载:

3、 将转换后的数据装载到目的数据源。ETL原本是作为构建数据仓库的一个环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。一个简单的 ETL体系结构如图1.1 所示。2. ETL关键技术数据抽取。1。数据抽取是从数据源中抽取数据的过程。实际应用中,数据源较多采用的是关系数据库。从数据库中抽取数据一般有以下几种方式:全量抽取:全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。增量抽取:增量抽取只抽取自

4、上次抽取以来数据库中要抽取的表中新增或修改的数据。在ETL使用过程中。增量抽取较全量抽取应用更广。目前增量数据抽取中常用的捕获变化数据的方法有:触发器、时间戳、全表比对、日志对比。数据转换和加工从数据源中抽取的数据不一定完全满足目的库的要求,例如数据格式的不一致、数据输入错误、数据不完整等等,因此有必要对抽取出的数据进行数据转换和加工。数据的转换和加工可以在ETL引擎中进行,也可以在数据抽取过程中利用关系数据库的特性同时进行。相比在 ETL引擎中进行数据转换和加工,直接在 SQL语句中进行转换和加工更加简单清晰,性能更高。对于SQL语句无法处理的可以交由ETL引擎处理。数据装载将转换和加工后的

5、数据装载到目的库中通常是ETL过程的最后步骤。装载数据的最佳方法取决于所执行操作的类型以及需要装入多少数据。当目的库是关系数据库时,一般来说有两种装载方式: 1)直接 SQL语句进行 insert、update 、delete操作;2)采用批量装载方法,如 bcp、bulk 、关系数据库特有的批量装载工具或api 。3.主流 ETL 工具ETL工具从厂商来看分为两种, 一种是数据库厂商自带的ETL工具 , 如 Oracle warehouse builder、Oracle DataIntegrator。另外一种是第三方工具提供商,如Kettle 。Oracle Data Integrator(

6、ODI):ODI 主要定位于在ETL 和数据集成的场景里使用,ODI 能够检测事件,一个事件可以触发 ODI 的一个接口流程,从而完成近乎实时的数据集成。ODI 的主要功能特点有:使用CDC作为变更数据捕获的捕获方式、代理支持并行处理和负载均衡、完善的权限控制、 版本管理功能、 支持数据质量检查, 清洗和回收脏数据、支持与 JMS消息中间件集成、支持Web Service 。KETTLE:说到 ETL 开源项目, Kettle当属翘首,项目名称很有意思,水壶。按项目负责人Matt 的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。Kettle分为四大块: Chef工作 (job) 设计工具 (GUI 方式 ) 、Kitchen 工作 (job)执行器 ( 命令行方式 ) 、 Spoon转换 (transform)设计工具(GUI方式 ) 、 Span转换(trasform)执行器 ( 命令行方式 )三、数据集成工具选择1. 对平台的支持程度2. 对数据源的支持程度3. 抽取和装载的性能是不是较高,且对业务系统的性能影响大不大,倾入性高不高

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论