久其etl数据集成工具培训实战演练_第1页
久其etl数据集成工具培训实战演练_第2页
久其etl数据集成工具培训实战演练_第3页
久其etl数据集成工具培训实战演练_第4页
久其etl数据集成工具培训实战演练_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

久其ETL数据集成工具培训(实战演练)测试中心罗志勃目录ETL实施步骤1作业4如何设计一个ETL方案2答疑35ETL实施步骤数据源确认源数据确认数据转换流程实现数据质量保证实施步骤一:数据源确认数据源是指相对于数据仓库项目数据获取的来源例如综合业务系统、中间业务系统、电子银行系统等数据源确认包括数据的传输形式(文件、数据库表)数据源的操作系统(IBMMVS/VSE/VM、OS/400、UNIX、WINNT/W2K等)数据源的数据库系统(DB2、ORACLE、SYBASE等)各源系统到达目标数据仓库的数据传输途径网络、磁带、磁盘、人工输入等网络传输的带宽调查与数据量的估算数据源到中心数据仓库的数据传送方式主动发送/等待接收,对于等待接收的情况,要明确数据抽取时间实施步骤二:源数据确认源数据指的是各个源系统中的每一个数据库表或抽取出来的数据文件确认源数据的抽取周期每日、每周、每月、近实时等确认源数据的抽取方式增量抽取/全量抽取,并确定初始抽取策略确认源数据的文件格式:数据的编码方式ASCII/EBCDIC数据文件的记录组织形式,固定或可变长度数据文件的记录分割符,字段分割符是否为打包的压缩文件是否采用数据加密实施步骤三:数据转换针对每个数据源确认数据的转换规则每个字段应该与数据仓库中的哪张表的哪个字段对应,或某个字段为某特定值时对数据仓库中的表进行不同的处理源数据与目标数据表的映射关系可能为:一对一一对多多对一多对多实施步骤四:ETL流程实现实现源数据的抽取定义ETL任务,实现数据加载和转换根据源数据与目标表的对应关系,定义ETL任务间的依赖关系,触发关系性能优化(可选)存储优化:索引、分区表、数据库参数调整等方案优化实施步骤五:数据质量保证物理层面的数据质量保证与业务无关的数据验证文件命名规范、记录参照完整性、文件大小、记录数等的验证逻辑层面的数据质量保证检查数据之间的严格逻辑关系数据表的字段之间的关联关系,主外键约束检查等应用层面的数据质量保证业务层面数据合理性、正确性检查指标勾稽关系数据合理性、合规性数据预警……目录ETL实施步骤1作业4如何设计一个ETL方案2答疑35举例场景举例某公司ERP系统每天按照特定格式吐出接口文件,并把文件上传至文件服务器,为保证文件网络传输的正确性,每一个文件对应一个校验文件,通过ETL工具实现把接口文件中的数据抽取到ERP拓展系统数据仓库中。ERP系统经分系统FTP接口服务器ETL&FTPXX项目ERP拓展系统网络拓扑图ERP拓展系统数据仓库分析分析数据来源什么系统?数据来源接口文件命名格式?数据来源接口文件格式?

接口文件生产周期?文件传输方式及正确性保证?

目标数据结构要求?历史文件处理?

源目标数据源确认分析数据来源文件服务器,文件以文本文件格式传输;数据来源接口文件命名格式

A:代表全量数据M:代表增量数据.ALV:数据文件.CHK:校验文件AE0.AVL红色代表日期绿色代表文件序号

源数据确认分析数据来源接口文件格式?记录之间每一列记录之间用“|”分割;

源数据确认分析接口文件生产周期?

文件分全量(A)和增量(M)

文件每天向接口文件服务器吐文件文件传输方式及正确性保证?

文件通过FTP工具进行网络传输,通过校验文件进行文件传输正确性校

历史文件处理?

文件抽取完毕后,对历史文件进行压缩备份

数据转换分析

流程实现ERP系统ODS层中间层应用层ERP拓展系统数据仓库ERP拓展系统ETL服务器经分系统FTP接口服务器电讯盈科ETL&FTP久其ETL&FTP久其ETLstep1step2step3XX项目ERP拓展系统ETL方案整体设计ETL数据抽取流程图数据仓库分层ERP…ODS数据仓库数据集市CRM人力…ODS层:操作型数据存储DW层:数据仓库DM层:数据集市方案实现—文件检查方案实现—文件是否存在和文件校验方案实现—数据抽取备份方案实现—数据抽取和备份数据抽取数据备份目录如何设计一个ETL方案1作业4ETL实施步骤2答疑35问题答疑问题答疑目录如何设计一个ETL方案1作业4ETL实施步骤2答疑35作业某公司销售系统每月按照特定格式吐出接口文件,并把文件上传至文件服务器,为保证文件网络传输的正确性,每一个文件对应一个校验文件,通过ETL工具实现把接口文件中的数据抽取到数据仓库中。

实现产品自动提取。ERP系统经分系统FTP接口服务器ETL&FTPXX公司系统网络拓扑图ERP拓展系统数据仓库作业–数据源说明公司一次性的把产品和零售商的信息导出存放到文件服务器,如果产品和零售商的信息需要变更,则会再次从销售系统导出产品和零售商的信息,并覆盖原有文件服务器中产品和零售商的信息。公司每月从销售系统中导出产品销售明细,导出文件名字格式如下:20110101XSMX.xls,导出文件后,把文件存放到文件服务器中。作业–目标数据结构销售明细表:createtableFACT_XCUBE(CPIDVARCHAR2(255),LSSIDVARCHAR2(255),TIMEKEYVARCHAR2(255),ZSRNUMBER(20,4),ZCBNUMBER(20,4),CPSLNUMBER(20,4))作业–目标数据结构零售商信息表:createtableDIM_LSS(LSSIDVARCHAR2(255)notnull,LSSMCVARCHAR2(255),SZCSVARCHAR2(255),H_ORDERNUMBER(10))作业–目标数据结构产品信息表:createtableDIM_XSCP(CPIDVARCHAR2(255)notnull,CPMCVARCHAR2(255),CPDLVARCHAR2(255),CPSJDMVARCHAR2(255),CPCDVARCHAR2(255),H_ORDERNUMBER(10),SYS_TREECODEVARCHAR2(500),SYS_TREELEVELNUMBER(10),SYS_TREELEAFNUMBER(10))作业–

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论