《数据采集与处理技术》课件-第 6 章 数据仓库中的数据集成_第1页
《数据采集与处理技术》课件-第 6 章 数据仓库中的数据集成_第2页
《数据采集与处理技术》课件-第 6 章 数据仓库中的数据集成_第3页
《数据采集与处理技术》课件-第 6 章 数据仓库中的数据集成_第4页
《数据采集与处理技术》课件-第 6 章 数据仓库中的数据集成_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

6

数据仓库中的数据集成目

录6.1

数据仓库概念6.2

数据集成6.3

ETL6.4

CDC6.1数据仓库概念数据仓库的概念01

传统的数据仓库02

实时主动数据仓库数据仓库概念面向主题集成数据仓库AB反映历史变化D相对稳定C数据仓库的数据来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成、统一与综合之后才能进入数据仓库在构建数据仓库时,会每隔一定的时间从数据源抽取数据并加载到数据仓库,可用来进行商务智能分析数据仓库是不可更新的,数据仓库是为决策分析提供数据,所涉及操作主要是数据的查询操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织传统的数据仓库数据仓库概念1月1日1月31日...分析一个商品在1月内销量变化反映历史变化数据仓库概念数据库数据仓库数据仓库是面向主题设计的数据库是面向事务的设计数据库一般存储在线交易数据数据仓库存储的一般是历史数据数据仓库概念图

数据仓库体系架构数据仓库概念不包含当前数据经过处理后加载到数据仓库数据抽取周期为一个月一次、一周一次、或一天一次01实时主动数据仓库02数据仓库传统的数据仓库实时捕获数据源中发生的变化根据预先设置的规则做出战术决策数据仓库概念图

实时主动数据仓库的体系结构实时主动数据仓库6.2

数据集成数据集成01

数据集成方式03数据集成技术02数据分发方式数据集成方式和数据分发方式数

成脚

本ETL数据的批量加载CDC

技术数据集成方式和数据分发方式数据集成方式数据整合数据联邦数据传播混合方法使数据源中发生的数据变化及时反映到数据仓库中,保证为实时应用提供最新的数据实时主动数据仓库集成方法四种数据集成方式和数据分发方式数据整合逻辑视图对外界应用屏蔽数据在数据源的分布细节,统一数据访问入口集成整合不同应用都使用的数据采用数据整合的方式进行集成数据目标利用ETL工具把数据源中的数据批量地加载到数据仓库传播消息在企业应用集成解决方案中,不同应用可以传播消息进行交互数

合数

邦数

播混

式数据集成方式和数据分发方式数据分发方式010203推(push)和拉(pull)周期和非周期一对一和一对多数据集成方式和数据分发方式推拉周期非周期一对一一对多数据分发选择拉非周期一对一请求/响应一对多请求/探测式响应周期一对一轮询一对多探测式轮询推非周期一对一-------一对多发布/订阅周期一对一发送电子邮件一对多电子邮件列表不同数据分发方式的组合数据集成技术脚本ETLEAICDC01020304数据集成技术脚

本优点使用灵活且比较经济容易着手开发和进行修改绝大部分DBMS可使用脚本缺点耗费开发者的时间和精力不好管理和操作不能满足服务水平协议数据集成技术ETLETL

任务通常都是在“维护时间窗口”进行,数据源默认不会发生变化数据集成技术EAIEAI解决方案演化成实时数据获取和集成的解决方案,通常和ETL解决方案并存,增强ETL的功能调用应用分发命令和消息实现应用的集成数据集成技术CDCCDC

提供连续变化数据的捕捉和分发能力,且只需要很低的开销和时间延迟(不到1s)能够维护数据事务的一致性OLTP

系统数据仓库数据集成技术属性脚本ETLEAICDC数据量中等很高低高频率间歇性间歇性连续性连续性延迟中到高中到高低低数据集成无无保证保证转换中度高级基本基本处理开销高高中等低表

不同数据集成技术的比较6.3ETLETL简介和基本模块ETL

工具

ETL

模式ETL

基本模块ETL

简介数据集成的关键技术ETL简介和基本模块ETL简介将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据ETL简介和基本模块ETL

任务通常都是在“维护时间窗口”进行,数据源默认不会发生变化ETL简介和基本模块3其他类型数据(消息队列)2文

件1数据库ETL简介和基本模块周期性的“拉”模式ETL支持基于数据整合的数据集成以批处理的方式工作“拉”模式采用在线方式工作“推”模式事件驱动的“推”模式ETL简介和基本模块0102数

换数

载数据重构和整合数据内容清洗或集成刷新整个目标数据存储对目标数据存储进行增量更新ETL简介和基本模块本地数据库和应用接口ODBCJDBCJMSETL简介和基本模块从平面文件和关系数据库中捕捉数据→并把这些数据整合到数据仓库中ETL简介和基本模块遗产数据、应用打包XML文件、WEB日志、EAI源、WEB服务和非结构化数据额外的数据源EAI目标和WEB服务额外的目标用户自定义EXIT、数据剖析和数据质量管理、支持标准编程语言、DBMS引擎开发和WEB服务改进的数据转换功能工作计划和追踪、元数据管理和错误恢复

更好的管理01020304ETL简介和基本模块并行处理、负载平衡、缓存、支持本地DBMS应用和数据加载接口更好的性能更好的可视化开发接口改进的可用性支持外部安全包和外部网增强的安全性支持基于数据联邦的数据集成方法05060708ETL简介和基本模块ETL

基本模块数据抽取数据清洗与转换数据加载ETL简介和基本模块ETL

基本模块ETL简介和基本模块数据抽取确定数据源确定数据抽取方法定义数据接口ETL简介和基本模块数据清洗与转换清洗与转换不完整数据错误数据重复数据空值处理数据标准数据拆分数据验证数据替换数据关联ETL简介和基本模块数据加载全量方式增量方式ETL

模式触发器模式增量字段全量同步日志比对ETL

模式触发器模式插

入修

改删

除ETL

模式源表名称更新的关键字值更新操作类型增量日志表ETL

模式

123优/缺

4数据抽取的性能高ETL加载规则简单速度快无需修改表结构可实现数据的递增加载要求业务表建立触发器对业务系统有一定的影响容易对源数据库构成威胁ETL

模式增量字段在数据表中增加增量字段,时间戳字段就会被修改为相应的系统时间,自增长字段就会增加ETL

模式0102030405抽取性能比较高判断过程比较简单ETL系统设计清晰源数据抽取相对清楚简单可以实现数据的递增加载未考虑到增量字段,需要对业务系统进行改造,有可能出现漏数据的情况性

能设

计抽

取ETL

模式全量同步全表删除插入方式每次抽取前先删除目标表数据,抽取时全新加载数据ETL

模式不影响已有系统表结构无需修改业务操作程序管理维护统一,无风险可实现数据递增加载设计复杂,速度慢;被动的进行全表数据的比对,性能较差;准确性较差ETL

模式日志比对日

对日志文件结构存在差异性访

限ETL

模式CDC

技术捕获变化数据捕获删除数据新

增更

新删

除ETL

模式CDC优缺点比较优

点缺

点010203业务系统数据库版本与产品不统一难以统一实现,实现过程相对复杂12ETL同步效率较高无需修改业务系统表结构

可实现数据的递增加载ETL

模式四种模式的比较ETL模式兼容性完备性抽取性能源库压力源库改动量实现难度触发器模式关系型数据库高优高高容易增量字段关系型数据库“具有字段”结构的其它数据格式低较优低高容易全表同步任何数据格式高极差中无容易日志比对关系型数据库高较优中中难ETL

具抽

取转

换加

载ETL

具数据来自不同的物理主机减少开销需要将数据整理成统一格式数据来源复杂处理海量数据123会导致数据库资源不足ETLETL

具在选择ETL工具时考虑因素集成性和开放性43对数据源的支持程度2抽取和装载的性能1对平台的支持程度管理和调度的功能65数据转换和加工的功能ETL

具市场上主流的ETL工具GoldengateTalendDataxInformaticaDataPipelineKettleETL

具KettleJava编写,可以在Windows、Linux、Unix上运行,以一种指定的格式流出DataPipeline整合数据质量分析、质量校验、质量监控等,保证完整性、一致性、准确性及唯一性Talend可以运行于Hadoop集群之间,直接生成MapReduce代码供Hadoop运行Informatica包括InformaticaPowerCenter和InformaticaPowerExchangeDatax离线数据同步工具,可以实现各种异构数据源之间高效的数据同步功能OracleGoldengate基于日志的结构化数据复制软件,实现大量交易数据的实时捕捉、变换和投递6.4CDCCDC

的特性和组成数据集成主动高效实时CDC

的特性和组成01020304CDC的特性CDC的组成CDC具体应用场景需要考虑的问题CDC

的特性和组成CDC

的特性010203没有宕机时间CDC可在操作型系统运行时进行变化数据的分发减少系统开销只转移变化的数据,消耗的资源更少保持数据新颖性频繁甚至是实时地分发新数据,提供及时的信息CDC

的特性CDC

的特性和组成CDC

的组成变化捕捉代理变化数据服务变化分发机制CDC

的组成010203CDC

的特性和组成变化分发机制把变化分发到变化的消费者那里。变化分发机制可支持一个或多个消费者负责确定和捕捉发生在操作型数据存储源系统中的数据变化变化捕捉代理变化数据服务包括过滤、排序、附加数据、生命周期管理和审计CDC

的特性和组成使用数据库触发器数据日志比较优

化对变化捕捉代理进行专门优化,使它适用于特定的源系统CDC

的特性和组成变化分发机制把变化分发到变化的消费者那里。变化分发机制可支持一个或多个消费者负责确定和捕捉发生在操作型数据存储源系统中的数据变化变化捕捉代理变化数据服务包括过滤、排序、附加数据、生命周期管理和审计CDC

的特性和组成功能解释过滤确保只接收已经提交的数据排序接收数据时基于事务、表或时间戳进行排序附加数据为分发的变化增加一些参考数据以便于对数据进行进一步的处理生命周期管理在多长时间内应用可以得到变化的数据;多长时间以后丢弃所分发的数据审计允许对系统的端到端行为的监听和对趋势的检查CDC

的特性和组成变化分发机制把变化分发到变化的消费者那里。变化分发机制可支持一个或多个消费者负责确定和捕捉发生在操作型数据存储源系统中的数据变化变化捕捉代理变化数据服务包括过滤、排序、附加数据、生命周期管理和审计CDC

的特性和组成变化分发机制推方式:用消息中间件实现拉方式:如ODBC或JDBC提供动态返回和请求旧的变化CDC

具体应用场景及需要考虑的问题CDC的具体应用场景面向批处理的CDC面向实时的CDCpullCDCpushCDCCDC

具体应用场景及需要考虑的问题面向批处理的

CDC周期性地请求变化捕捉到的变化一天两次15分钟1次数据表标准接口CDC

具体应用场景及需要考虑的问题面向批处理的

CDCETL只需要转移变化的数据减少资源消耗宕机时间时

延传统ETLCDC

具体应用场景及需要考虑的问题面向实时的CDC变化分发机制探测到变化push给ETL程序MQSeries零延迟CDC

具体应用场景及需要考虑的问题面向消息面向事件EAI

产品零延迟最新的数据CDC

具体应用场景及需要考虑的问题CDC需要考虑的问题23456178变化捕捉方法对操作型系统的入侵程度捕捉延迟过滤和排序服务支持多个消费者失败和恢复主机和遗产数据源和ETL工具的无缝集成CDC

具体应用场景及需要考虑的问题延迟性可扩展性对操作型系统入侵读取日志文件数据库触发器数据比较编写事件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论