数据质量管理【苍松书苑】_第1页
数据质量管理【苍松书苑】_第2页
数据质量管理【苍松书苑】_第3页
数据质量管理【苍松书苑】_第4页
数据质量管理【苍松书苑】_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据管理,演讲人: 部门: 职务,数据管理,2,目标一:安全 访问安全 存储安全 目标二:正确 数据精确 数据正确 目标三:效率 常规加载的效率 非常规加载的效率,数据管理的目标,3,数据管理,4,数据质量管理的难点与重点,5,数据本身的数据质量 数据的真实性: 数据必须真实准确的反映实际发生的业务。 数据的完备性: 数据的完备性是说数据是充分的,任何有关操作的数据都没有被遗漏。 数据的自治性 数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这种约束描述了数据的关联关系。数据必须能够满足这种数据之间的关联关系,而不能够相互矛盾,数据质量概念,数据的真实性、完备性、自洽性是数据本身应具有

2、的属性,称为数据的绝对质量,是保证数据质量的基础。除了数据的绝对质量外,还有我们在利用和存贮数据的过程中所产生的数据质量,包括使用质量、存贮质量和传输质量,称之为过程质量,6,数据的过程质量 数据的使用质量: 数据的使用质量是指数据被正确的使用。再正确的数据,如果被错误的使用,就不可能得出正确的结论。 数据的存贮质量: 指数据被安全的存贮在适当的介质上。所谓安全是指采用了适当的方案和技术来抵制外来的因素,使数据免受破坏,备份是我们常使用的技术,如异地备份和双机备份等,所谓存贮在适当的介质上是指当需要数据的时候能及时方便的取出。 数据的传输质量: 数据的传输质量是指数据在传输过程中的效率和正确性

3、。在现代信息社会中,数据在异地之间的传输越来越多,保证传输过程中的高效率和正确性非常重要,数据质量概念,7,关系建设系统成败 很多数据仓库应用程度不高或最后失败,归根结底都是数据质量不高造成的。 数据质量好坏关系到结果与预期是否一致 低下的数据质量往往造成开发出来的系统与用户的预期大相径庭 数据质量是决策正确的保障 数据信息是企业重要的战略资源,合理有效的使用正确的数据能指导企业领导作出正确的决策,提高企业的竞争力。不合理的使用不正确的数据(即差的数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里。 数据质量是长期困扰开发的难题 数据质量不高已经成为困扰此类项目的开发人员与用户的一个严重问题

4、,数据质量重要性,8,数据质量不高的主要原因,9,数据质量归类,10,数据质量示例,11,数据质量管理方法,12,数据管理,13,数据质量控制方法论,14,数据源检验方法,数据源检验是对HDS中的源表进行的数据质量检查。数据源检验分为时效性 检验和正确性检验两个大类,其中正确性检验又分为完整性检验、原则性检验、 逻辑性检验,15,数据源检验方法,时效性检验 判断在约定的时间内,数据源的数据是否按时到达 完整性检验 HDS数据表与代码表的一致性检查 HDS数据表记录数检查 原则性检验 HDS数据表中字段的数值是否在合法的区间内 逻辑性检验 单表或多个表内字段间逻辑关系的检查,16,数据源检验适用

5、的规则,时效性检验 规则一:时效性检验适用于HDS中所有的代码表和数据表。 完整性检验 规则二:包含外键字段的HDS数据表必须进行代码一致性检验。 规则三:包含日期型字段且可以确定记录数范围的HDS数据表必须进行记录条数检验。 原则性检验 规则四:HDS数据表中可以确定取值范围的字段必须进行原则性检验。 逻辑性检验 规则五:单表或多个表内的字段具有相同的业务含义,不同的统计口径,且存在汇总关系。满足此条件时必须进行逻辑性检验。 规则六:本表的字段与其他表中的字段的业务含义、统计口径相同。满足此条件时必须进行逻辑性检验。 规则七:单表或多个表内的字段具有不同的业务含义,相同的统计口径,在业务上有

6、逻辑公式成立。满足此条件时必须进行逻辑性检验,17,数据检验方法,数据校验是对DDS数据库中前台应用直接使用的相关表的检验。数据校验分为时 效性检验和正确性检验两个大类,其中正确性检验又分为完整性检验、原则性检验、 模糊性检验、逻辑性检验,18,数据检验方法,时效性检验 判断在约定的时间内,前台应用直接使用的相关表是否按时加载 完整性检验 DDS事实表与维度表的一致性检查 DDS事实表记录数检查 原则性检验 DDS事实表中单字段的数值是否在合法的区间内 同一表内字段间逻辑关系的检查 模糊性检验 判断字段的数值及其同比值是否在合理的区间内 逻辑性检验 由不同数据源加工得到的多个表内字段间逻辑关系

7、的检查,19,数据检验适用的规则,时效性检验 规则一:时效性检验适用于DDS中所有的维度表和事实表。 完整性检验 规则二:包含外键字段的DDS中事实表必须进行代码一致性检验。 规则三:包含日期型字段且可以确定记录数范围的DDS事实表必须进行记录条数检验。 原则性检验 规则四:表中的字段可以确定取值范围,同时可以判定不在此范 围内的数据必定是错误的。满足此条件必须进行原则性检验。 规则五:同表内多个字段间具有相同的业务含义,不同的统计口径,存在汇总关系时,必须进行原则性检验。 规则六:同表内多个字段间具有不同的业务含义,相同的统计口径,在业务上有逻辑公式成立时,必须进行原则性检验,20,数据检验

8、适用的规则,模糊性检验 规则七:不能进行完整性、原则性检验的情况下,必须进行模糊性检验。 规则八:规则七不成立时,根据系统的重要程度决定是否进行模糊性检验。系统的重要程度及哪些系统要进行模糊性检验由客户方确定。 逻辑性检验 规则九:本表的字段与其它表中的字段具有相同的业务含义,不同的统 计口径,存在汇总关系,且两张表的数据不是经同一数据源加工得到。满足此条件时必须进行逻辑性检验。 规则十:本表的字段与其他表中的字段的业务含义、统计口径相同,且两张表的数据不是经同一数据源加工得到。满足此条件时必须进行逻辑性检验。 规则十一:本表的字段与其他表中的字段具有不同的业务含义,相同的统计口径,在业务上有

9、逻辑公式成立,且两张表的数据不是经同一数据源加工得到。满足此条件时必须进行逻辑性检验,21,数据质量检验的顺序,1、数据源完整性检验 数据源的完整性检验报异常时应停止ETL加载过程,不需要再进行后续的检验 2、数据源原则性检验 数据源的原则性检验报异常时应停止ETL加载过程。不需要再进行后续的检验 3、数据校验完整性检验 数据校验的完整性检验报异常时应停止ETL加载过程,不需要再进行后续的检验 4、数据校验原则性检验 数据校验的原则性检验报异常时应停止ETL加载过程,不需要再进行后续的检验 5、数据源时效性检验、数据源逻辑性检验、数据校验时效性检验、 数据校验模糊性检验、数据校验逻辑性检验 这

10、五类检验方法报异常时,ETL加载正常进行,但需要给出预警提示,22,数据管理,23,数据质量检验的案例,下面以行业对比报表中的全国卷烟市场分类销量情况表(分价类)为例来介绍如何根据数据质量管理方案进行各类规则的制定实施过程,24,步骤一确定相关的表,全国卷烟市场分类销售情况表(分价类) 在DDS中直接使用的表为:APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL 对应的HDS中的源表为:EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL。 因此下面的检验规则主要针对这两张表来制定,25,步骤二确定数据源的时效性检验规则,根据表EIIRECV.EIIREC

11、V_TZ_BS_Y_Q_M_SELLDETAIL的数据到达规律,定义该表每月最晚到达日期为8日,26,步骤三 确定数据源的完整性检验规则,根据数据源检验适用规则的规则二、三: 1、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL中包含有外键字段 I_Province (省份代码)、 I_Org (机构代码)、C_Brand(规格)。 I_Province (省份代码)对应代码表DM.T_DM_GJJ_QGSF中的QGSFDM; I_Org (机构代码)对应代码表DM.T_DM_GJJ_ZZJG中的ZZJGDM; C_Brand(规格)对应代码表T_DM_GJJ_JY

12、中的THTXBS 。 该表符合规则二的检验条件,需要进行代码一致性检查。 2、该表包含有日期型字段Y,M,但记录条数每月不确定,因此不满足规则三,无法进行记录条数检查,27,步骤四 确定数据源的原则性检验规则,根据数据源检验适用规则的规则四: 1、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL中包含有数据字段sell(系统外总销量 )、Out_Sell_Retail_Amount (系统外零售量)、Out_Sell_Amount (系统外批发销量 )、End_Store_Amount (期末库存 ); 根据业务经验确定: sell=0 Out_Sell_Retai

13、l_Amount=0 Out_Sell_Amount=0 End_Store_Amount=0,28,步骤五 确定数据源的逻辑性检验规则,根据数据源检验适用规则五: 1、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL表包含字段Out_Sell_Retail_Amount、Out_Sell_Amount、End_Store_Amount 2、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_BASIC表也包含字段Out_Sell_Retail_Amount、Out_Sell_Amount、End_Store_Amount 3、这两张表对应字段具有相同业务含义、

14、不同的统计口径,存在以下汇总关系: EIIRECV.EIIRECV_TZ_BS_Y_Q_M_BASIC 表统计商业企业的系统外批发销售量、系统外零售量、期末商业库存数据。EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL表统计商业企业分卷烟规格的系统外批发销售量、系统外零售量、期末商业库存数据。因此EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL表中某商业企业分规格的汇总数据应该等于表EIIRECV.EIIRECV_TZ_BS_Y_Q_M_BASIC中对应的商业企业的数据,29,步骤五 确定数据源的逻辑性检验规则,根据数据源检验适用规则的规

15、则六、七: 1、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAILL表中不包含字段与其 他表中的字段具有相同的业务含义、统计口径。因此不满足规则六逻辑检 验。 2、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAILL表中包含有字段 sell(系统外总销量)、 Out_Sell_Retail_Amount (系统外零售 量)、Out_Sell_Amount (系统外批发销量 ) End_Store_Amount (期 末库存 )、ratio_stock_sell(存销比)。 具有不同的业务含义、相同的统计口径,存在业务逻辑关系: ratio_s

16、tock_sell= End_Store_Amount/sell sell= Out_Sell_Retail_Amount+ Out_Sell_Amount,30,步骤六 确定数据的时效性检验规则,根据表APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL使用的源表的最晚到达时间,加上后台数据加工处理的时间,定义该表的最晚加载日期为每月12日,31,步骤七 确定数据的完整性检验规则,根据数据检验适用规则的规则二、三: 1、APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL不包含外键字段,因此不符 合规则二,不需要进行代码一致性检查。 2、该表包含有日期型字段DQRQ,

17、记录条数每月确定,因此满足规则三,需要进行记录条数检查,此表每月加载量为35行,32,步骤八 确定数据的原则性检验规则,根据数据检验适用规则的规则四: 1、APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL表中包含有字段 BY_SYXL、 BY_HCY 、 BY_JL1、BY_JL2、BY_JL3、BY_JL4、BY_JL5、LJ_SYXL、LJ_HCY、LJ_JL1、LJ_JL2、LJ_JL3、LJ_JL4、LJ_JL5;可以确定取值范围,根据业务经验确定: BY_SYXL、BY_HCY、 LJ_SYXL、LJ_SYXL 0; BY_JL1、BY_JL2、BY_JL3、BY_J

18、L4、BY_JL50; LJ_JL1、LJ_JL2、LJ_JL3、LJ_JL4、LJ_JL50,33,步骤八 确定数据的原则性检验规则,根据数据检验适用规则的规则五、六: 1、APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL中包含有字段SCLXMC、 BY_SYXL、 BY_HCY 、 BY_JL1、BY_JL2、BY_JL3、BY_JL4、BY_JL5、LJ_SYXL、LJ_HCY、LJ_JL1、LJ_JL2、LJ_JL3、LJ_JL4、LJ_JL5;存在有相同业务含义,不同的统计口径,其中市场类型为全国的数据对应于市场类型为本土市场、重点市场和其他市场的汇总数据。 2、AP

19、P_JJYX.T_FT_JJYX_JYSCFLXLQK_JL中不包含字段具有不同的业务含义,相同的统计口径,在业务上存在业务逻辑公式的。因此不满足数据检验的规则六,34,步骤九 确定数据的模糊性检验规则,根据数据检验适用规则的规则七、八: 1、APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL表中包含有字段BY_SYXL、BY_HCY、 LJ_SYXL、LJ_HCY、 BY_JL1_BL、BY_JL2_BL、BY_JL3_BL、BY_JL4_BL、BY_JL5_BL、LJ_JL1_BL、LJ_JL2_BL、LJ_JL3_BL、LJ_JL4_BL、LJ_JL5_BL;不满足规则七,

20、满足规定八。 2、其中字段BY_SYXL、BY_HCY、LJ_SYXL、LJ_HCY的数据根据业务经验确定,数据审核规范如下:市场类型为全国的对应以上字段数据同比的合理区间在010%;市场类型除全国外其他类型的同比合理区间在-10%20,35,步骤九 确定数据的模糊性检验规则,根据数据检验适用规则的规则七、八: 3、其中字段BY_JL1_BL、BY_JL2_BL、BY_JL3_BL、BY_JL4_BL、 BY_JL5_BL、LJ_JL1_BL、LJ_JL2_BL、LJ_JL3_BL、LJ_JL4_BL、LJ_JL5_BL的数据根据统计学公式确定,数据审核规范如下:区分市场类型使用99%置信区间

21、;合理区间在历史数据平均值-3(历史数据标准差/历史数据记录数的平方根)历史数据平均值+3(历史数据标准差/历史数据记录数的平方根,36,步骤十 确定数据的逻辑性检验规则,根据数据检验适用规则的规则九: 1、APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL表包含有字段SCLXMC、 BY_JL1、BY_JL2、BY_JL3、BY_JL4、BY_JL5 2、ZHGL.L_T_ZHGL_JYFLSPDXYBBLJ表(烟草系统卷烟分类商品电讯月报表累计)包含有字段DQ、YLYNCLJ、ELYNCLJ、SLYNCLJ、SILYNCLJ、WLYNCLJ 3、这两张表对应字段具有相同业务含

22、义,不同的统计口径,存在汇总 关系: APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL表中为各省份的分价类销量的分月的数据ZHGL.T_ZHGL_JYFLSPDXYBBLJ表表中各省份、分价类商业销量的累计数据 因此APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL表各省份的分价类销量的分月的汇总数据等于该电讯月报ZHGL.T_ZHGL_JYFLSPDXYBBLJ表对应省份、对应价类商业销量的累计数据,37,步骤十 确定数据的逻辑性检验规则,根据数据检验适用规则的规则九: 4、APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL表包含有字段SCLXMC、 BY_SYXL, 5、ZHGL.T_ZHGL_JYXTSPDXYBBLJ表(烟草系统卷烟商品电讯月报累计)包含有字段DQ、XTWXSHJ 6、这两张表具有相同业务含义,不同的统计口径,存在汇总关系: APP_JJY

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论