版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中国人民保险公司保险数据模型及业务标准化 数据模型及业绩指标和风险测算分析,ETL方法介绍 2004年4月15日,2,内容,ETL基本概念 ETL过程讲解 PICC ETL总体架构 PICC ETL开发方法,3,ETL基本概念主要目的,将源系统数据经过抽取转换过程,最终装载到目标系统 将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据,4,ETL基本概念术语解释,ETL,Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程,DW,DataWarehousing,根据Bill.Inmon的定义,“数据仓库
2、是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统,MetaData,元数据,就是描述数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据,5,ETL基本概念数据仓库中的位置,6,ETL基本概念数据质量,正确性(Accuracy):数据是否正确体现在现实或可证实的来源 完整性(Integrity):数据之间的参照完整性是否存在或一致 一致性(Consistency):数据是否被一致的定义或理解 完备性(Completeness):所有需要的数据是否都存在 有效性(Validity):数据是否在企业定义的可接受的范围之内 时效性(Ti
3、meliness):数据在需要的时间是否有效 可获取性(Accessbility):数据是否易于获取、易于理解和易于使用,7,ETL基本概念数据质量原因,业务系统不同时期数据模型不一致 业务系统不同时期业务过程有变化 各个源系统之间相关信息不一致 遗留系统和新业务、管理系统数据集成不完备带来的不一致性 源系统缺少输入验证过程,不能阻止非法格式的数据进入系统 可以验证但不能改正数据,验证程序不能发现格式正确但内容不正确的错误 源系统不受控制的更改,而这种更改不能及时的传播到受影响的系统 数据由多个交叉的访问界面,难以统一管理数据质量问题 缺少参照完整性检查低劣的源系统设计 数据转换错误,比如ET
4、L过程错误或数据迁移过程的错误 源系统与数据仓库系统的数据组织方式完全不同,8,ETL基本概念数据转换,空值处理 规范化数据格式 拆分数据 验证数据合法性 数据替换 实现数据规则过滤 数据排序 数据类型统一转换 .,9,ETL过程讲解逻辑架构,10,ETL过程讲解 Extract,设计原则 为提高ETL效率,数据在进入ETL系统后的EXF文件都将转换为Flat Text文件格式 从ETL程序设计的灵活性和整体结构的一致性考虑,尽量采用Pull的方式,减少对源系统的影响和对其他开发队伍的依赖,并减少网络压力 由于Batch Windows的限制,如果日源数据量大于5GB则必须考虑采用Push的方
5、式以提高传送速度,如,可以由源系统将数据转换为Flat Text文件后,由ETL程序采用FTP的方式进行传送 EXF的文件格式接近数据源的数据结构定义 在Extract过程中过滤数据仓库不需要的数据记录和字段 Push和Pull Push 在源系统上根据定义的数据格式将每日增量数据生成数据文件,再通过FTP或文件拷贝的方式传送给ETL程序处理 Pull 由ETL程序通过DRDA或ODBC等数据库协议直接访问源数据库获取所需数据进行处理,11,ETL过程讲解数据转换过程中产生的文件,EXF (Extracted Format) 由数据源Extract产生的文件,文件结构与Source相似,经过过
6、滤,部分字段被忽略。 CIF (Common Interface Format) CIF是ETL经过C/S/S过程产生的中间数据文件。 PLF (Pre-Load Format) 经过数据转换,用于直接加载到数据仓库的文本文件,其数据结构与数据仓库中的表定义一致,12,ETL过程讲解数据转换过程中一般需要完成的操作,数据检查与稽核 数据类型统一转换 赋缺省值 数据排序 数据拆分 筛选不合格的数据并记录到Rejected文件中 根据加载要求,CIF文件分为Load/Append和Snapshot两类 数据拷贝 数据翻译 数据聚合 复杂计算 数据匹配 对于必须通过比较才能确定变化的记录的数据,通过
7、比较产生Delta数据和新的基准数据,13,ETL过程讲解数据处理流程,14,ETL过程讲解数据对照开发流程,Source Table,CIF,Target Table,PLF,1,2,3,6,EXF,5,6,4,1、收集整理所有数据源,定义源数据结构(与EXF相同) 2、根据物理模型设计定义数据仓库数据(与PLF相同)结构 3、设计源数据表(文件)与数据仓库数据表对应关系(Table Mapping),确定Pilot的数据源范围 4、设计源数据字段与数据仓库字段的数据对照 5、设计CIF的数据结构 6、设计源数据字段EXFCIFPLF数据仓库数据字段的数 据对照,15,PICC ETL总体架
8、构处理机制,中间数据存放机制 通用方式:文本文件或者数据库表 PICC:数据库表 数据装载机制 通用方式:全量装载、增量装载和全增量混合装载 PICC:全量装载 数据装载周期 通用方式:日、周、旬、月、季、半年、年 PICC:月以上 数据映射完成机制 通用方式:程序处理、工具处理以及混合处理 PICC:程序处理,16,PICC ETL总体架构应用框架,17,PICC ETL总体架构数据抽取(Extract,从旧系统中导出20张表(详见应用框架组成部分),每个表的最后都要增加一个字段字段名称(Source_system_labe),字段数据类型(char(10),字段的值(V2001A) 从新系
9、统(车险数据库)中导出24张表(详见应用框架组成部分),每个表的最后都要增加一个字段:字段名称(Source_system_labe),字段数据类型(char(10),字段的值(V2003A) 从新系统(财险数据库)中导出如下8张表(详见应用框架组成部分), 每个表的最后都要增加一个字段:字段名称(Source_system_labe),字段数据类型(char(10),字段的值(V2003P) 手工整理Excel表格共20张(详见应用框架组成部分) 把旧系统导出的20张表数据导入到表群EXF-Core System中 把新系统车险数据导出的24张表数据导入到表群EXF-New System中
10、把新系统财险数据导出的8张表数据导入到表群EXF-New System中 把手工整理的20张Excel表数据导入到表群EXF-External中,18,PICC ETL总体架构数据抽取(Extract,19,PICC ETL总体架构数据转换(1)(Transform1,在CIF第一层表中每生成一条记录产生一个唯一的记录ID 进行数据类型转换 进行空值替换 进行数据格式统一 进行新旧系统到本系统的代码映射 根据业务需求对数据进行必要的转换 其它一些代码的转换(例如RiskCode、KindCode替换成Product_id等) 把不符合数据质量要求的记录写入相应的Reject表中,并调查原因,重
11、新制定映射和清洗规则 在CIF第二层表中每生成一条记录产生一个表内唯一的Fundamental ID,注意在这个过程不进行任何整合过程,而是从CIF第一层每过来一条相关记录就生成一个Fundamental ID 根据数据的Mapping,生成各个数据域的值 在CIF第二层表中写入相关的CIF第一层表的唯一记录ID 在CIF第二层表中写入与数据级别相关的标识字段值,例如Policy_no、Cliam_no、Coverage_no等 需要回写的整合过的Fundamental ID,放入空值 把不符合数据质量要求的记录写入相应的Reject表中,并调查原因,重新制定映射和整合规则,20,PICC E
12、TL总体架构数据转换(1)(Transform1,21,PICC ETL总体架构数据转换(2)(Transform2,进行从CIF第二层表到PLF的Fundamental Entities的整合过程,生成真正的全局唯一的Fundamental ID 向CIF第二层表中回写全局唯一的Fundamental ID 把CIF - Program表群导入到PLF相应表中 把EXF - External表群导入到PLF相应表中 由PLF的Fundamental Entities生成相应的Anchor Entities数据 把全局唯一的Anchor Entity ID回写到相应的Fundamental E
13、ntity中 根据CIF第二层表中的附加字段(例如Policy_no等),生成Fundamental Entity级别的Relationship Entity数据 如果CIF第二层不足以满足生成Relationship Entity数据的需要,则根据附加的标识CIF第一层数据来源的唯一记录字段中的值(唯一记录ID),回溯到CIF第一层表中找到相关字段的值,并据此生成相应的Relationship Entity数据 Anchor Entity级别的Relationship Entity数据要根据Anchor Entity的ID回溯到Fundamental Entity,并进一步回溯到CIF第二层
14、表中才能获取到 根据PLF - Atomic表群生成PLF - Aanlytical表群的数据,把此过程需要临时存放的数据写入到CIF第二层的Analytical表群中 把不符合数据质量要求的记录写入相应的Reject表中,并调查原因,重新制定映射和整合规则,22,PICC ETL总体架构数据转换(2)(Transform2,23,PICC ETL总体架构数据装载(Load,把PLF- Atomic表群按照外键约束顺序依次倒入到Enterprise Model的Atomic表群中 把PLF- Analytical表群按照外键约束顺序依次倒入到Enterprise Mode的Analytical表群中 把PLF- Dimension表群按照外键约束顺序依次倒入到Enterprise Model的Dimension表群中,24,PICC ETL总体架构数据装载(Load,25,PICC ETL开发方法开发流程,程序设计开发阶段 框架程序设计与开发 映射程序模板与例子设计与开发 映射程序设计与开发 控制程序设计与开发 程序测试阶段 映射程序单元测试 结合框架
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 淮阴师范学院《人体解剖生理学》2023-2024学年第一学期期末试卷
- 淮阴师范学院《篮球》2021-2022学年第一学期期末试卷
- 淮阴师范学院《装饰雕塑》2022-2023学年第一学期期末试卷
- 黄山学院《电磁场与电磁波》2022-2023学年期末试卷
- 淮阴师范学院《伴奏与弹唱》2023-2024学年第一学期期末试卷
- DB6505T188-2024花生病虫害绿色防控技术规程
- 关于进一步做好全员安全生产培训工作的通知修改版
- 机器人在安全监控服务的创新考核试卷
- 污水处理中的藻类光合作用技术研究考核试卷
- 化学纤维在人力资源招聘等行业的应用考核试卷
- 【历史】七年级上册期中复习(1-15课)(复习课件) 2024-2025学年七年级历史上册(统编版2024)
- DB3301-T 1139-2024 地理标志产品 千岛湖鲢鳙
- 劳动一年级上册(人民版)第十课《我帮爸妈择择菜》(教学设计)
- 2024年河北廊坊开发区管理委员会聘用制人员招聘40人历年高频500题难、易错点模拟试题附带答案详解
- 2024-2030年中国陶瓷珠市场发展趋势及投资可行性价值评估报告
- Unit 5 The colourful world (教学设计)-2024-2025学年人教PEP版(2024)英语三年级上册
- 7.比较不同的土壤课件教科版科学四年级下册
- 供应链中的供应链合规性考核试卷
- 2022年北京海淀区初三(上)期中考化学试题及答案
- 消化内镜护士进修汇报
- 湘教版(2024新版)七年级上册地理2.2《地球的运动》教案
评论
0/150
提交评论