数据质量管理ppt课件.ppt_第1页
数据质量管理ppt课件.ppt_第2页
数据质量管理ppt课件.ppt_第3页
数据质量管理ppt课件.ppt_第4页
数据质量管理ppt课件.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据管理 演讲人 部门 职务 数据管理 目标一 安全访问安全存储安全目标二 正确数据精确数据正确目标三 效率常规加载的效率非常规加载的效率 数据管理的目标 数据管理 数据质量管理的难点与重点 数据本身的数据质量数据的真实性 数据必须真实准确的反映实际发生的业务 数据的完备性 数据的完备性是说数据是充分的 任何有关操作的数据都没有被遗漏 数据的自治性数据并不是孤立存在的 数据之间往往存在着各种各样的约束 这种约束描述了数据的关联关系 数据必须能够满足这种数据之间的关联关系 而不能够相互矛盾 数据质量概念 数据的真实性 完备性 自洽性是数据本身应具有的属性 称为数据的绝对质量 是保证数据质量的基础 除了数据的绝对质量外 还有我们在利用和存贮数据的过程中所产生的数据质量 包括使用质量 存贮质量和传输质量 称之为过程质量 数据的过程质量数据的使用质量 数据的使用质量是指数据被正确的使用 再正确的数据 如果被错误的使用 就不可能得出正确的结论 数据的存贮质量 指数据被安全的存贮在适当的介质上 所谓安全是指采用了适当的方案和技术来抵制外来的因素 使数据免受破坏 备份是我们常使用的技术 如异地备份和双机备份等 所谓存贮在适当的介质上是指当需要数据的时候能及时方便的取出 数据的传输质量 数据的传输质量是指数据在传输过程中的效率和正确性 在现代信息社会中 数据在异地之间的传输越来越多 保证传输过程中的高效率和正确性非常重要 数据质量概念 关系建设系统成败很多数据仓库应用程度不高或最后失败 归根结底都是数据质量不高造成的 数据质量好坏关系到结果与预期是否一致低下的数据质量往往造成开发出来的系统与用户的预期大相径庭数据质量是决策正确的保障数据信息是企业重要的战略资源 合理有效的使用正确的数据能指导企业领导作出正确的决策 提高企业的竞争力 不合理的使用不正确的数据 即差的数据质量 可导致决策的失败 正可谓差之毫厘 谬以千里 数据质量是长期困扰开发的难题数据质量不高已经成为困扰此类项目的开发人员与用户的一个严重问题 数据质量重要性 数据质量不高的主要原因 数据质量归类 数据质量示例 数据质量管理方法 数据管理 数据质量控制方法论 数据源检验方法 数据源检验是对HDS中的源表进行的数据质量检查 数据源检验分为时效性检验和正确性检验两个大类 其中正确性检验又分为完整性检验 原则性检验 逻辑性检验 数据源检验方法 时效性检验判断在约定的时间内 数据源的数据是否按时到达完整性检验HDS数据表与代码表的一致性检查HDS数据表记录数检查原则性检验HDS数据表中字段的数值是否在合法的区间内逻辑性检验单表或多个表内字段间逻辑关系的检查 数据源检验适用的规则 时效性检验 规则一 时效性检验适用于HDS中所有的代码表和数据表 完整性检验 规则二 包含外键字段的HDS数据表必须进行代码一致性检验 规则三 包含日期型字段且可以确定记录数范围的HDS数据表必须进行记录条数检验 原则性检验 规则四 HDS数据表中可以确定取值范围的字段必须进行原则性检验 逻辑性检验 规则五 单表或多个表内的字段具有相同的业务含义 不同的统计口径 且存在汇总关系 满足此条件时必须进行逻辑性检验 规则六 本表的字段与其他表中的字段的业务含义 统计口径相同 满足此条件时必须进行逻辑性检验 规则七 单表或多个表内的字段具有不同的业务含义 相同的统计口径 在业务上有逻辑公式成立 满足此条件时必须进行逻辑性检验 数据检验方法 数据校验是对DDS数据库中前台应用直接使用的相关表的检验 数据校验分为时效性检验和正确性检验两个大类 其中正确性检验又分为完整性检验 原则性检验 模糊性检验 逻辑性检验 数据检验方法 时效性检验判断在约定的时间内 前台应用直接使用的相关表是否按时加载完整性检验DDS事实表与维度表的一致性检查DDS事实表记录数检查原则性检验DDS事实表中单字段的数值是否在合法的区间内同一表内字段间逻辑关系的检查模糊性检验判断字段的数值及其同比值是否在合理的区间内逻辑性检验由不同数据源加工得到的多个表内字段间逻辑关系的检查 数据检验适用的规则 时效性检验 规则一 时效性检验适用于DDS中所有的维度表和事实表 完整性检验 规则二 包含外键字段的DDS中事实表必须进行代码一致性检验 规则三 包含日期型字段且可以确定记录数范围的DDS事实表必须进行记录条数检验 原则性检验 规则四 表中的字段可以确定取值范围 同时可以判定不在此范围内的数据必定是错误的 满足此条件必须进行原则性检验 规则五 同表内多个字段间具有相同的业务含义 不同的统计口径 存在汇总关系时 必须进行原则性检验 规则六 同表内多个字段间具有不同的业务含义 相同的统计口径 在业务上有逻辑公式成立时 必须进行原则性检验 数据检验适用的规则 模糊性检验 规则七 不能进行完整性 原则性检验的情况下 必须进行模糊性检验 规则八 规则七不成立时 根据系统的重要程度决定是否进行模糊性检验 系统的重要程度及哪些系统要进行模糊性检验由客户方确定 逻辑性检验 规则九 本表的字段与其它表中的字段具有相同的业务含义 不同的统计口径 存在汇总关系 且两张表的数据不是经同一数据源加工得到 满足此条件时必须进行逻辑性检验 规则十 本表的字段与其他表中的字段的业务含义 统计口径相同 且两张表的数据不是经同一数据源加工得到 满足此条件时必须进行逻辑性检验 规则十一 本表的字段与其他表中的字段具有不同的业务含义 相同的统计口径 在业务上有逻辑公式成立 且两张表的数据不是经同一数据源加工得到 满足此条件时必须进行逻辑性检验 数据质量检验的顺序 1 数据源 完整性检验数据源的完整性检验报异常时应停止ETL加载过程 不需要再进行后续的检验2 数据源 原则性检验数据源的原则性检验报异常时应停止ETL加载过程 不需要再进行后续的检验3 数据校验 完整性检验数据校验的完整性检验报异常时应停止ETL加载过程 不需要再进行后续的检验4 数据校验 原则性检验数据校验的原则性检验报异常时应停止ETL加载过程 不需要再进行后续的检验5 数据源 时效性检验 数据源 逻辑性检验 数据校验 时效性检验 数据校验 模糊性检验 数据校验 逻辑性检验这五类检验方法报异常时 ETL加载正常进行 但需要给出预警提示 数据管理 数据质量检验的案例 下面以行业对比报表中的全国卷烟市场分类销量情况表 分价类 为例来介绍如何根据数据质量管理方案进行各类规则的制定实施过程 步骤一确定相关的表 全国卷烟市场分类销售情况表 分价类 在DDS中直接使用的表为 APP JJYX T FT JJYX JYSCFLXLQK JL对应的HDS中的源表为 EIIRECV EIIRECV TZ BS Y Q M SELLDETAIL 因此下面的检验规则主要针对这两张表来制定 步骤二确定数据源的时效性检验规则 根据表EIIRECV EIIRECV TZ BS Y Q M SELLDETAIL的数据到达规律 定义该表每月最晚到达日期为8日 步骤三确定数据源的完整性检验规则 根据数据源检验适用规则的规则二 三 1 EIIRECV EIIRECV TZ BS Y Q M SELLDETAIL中包含有外键字段I Province 省份代码 I Org 机构代码 C Brand 规格 I Province 省份代码 对应代码表DM T DM GJJ QGSF中的QGSFDM I Org 机构代码 对应代码表DM T DM GJJ ZZJG中的ZZJGDM C Brand 规格 对应代码表T DM GJJ JY中的THTXBS 该表符合规则二的检验条件 需要进行代码一致性检查 2 该表包含有日期型字段Y M 但记录条数每月不确定 因此不满足规则三 无法进行记录条数检查 步骤四确定数据源的原则性检验规则 根据数据源检验适用规则的规则四 1 EIIRECV EIIRECV TZ BS Y Q M SELLDETAIL中包含有数据字段sell 系统外总销量 Out Sell Retail Amount 系统外零售量 Out Sell Amount 系统外批发销量 End Store Amount 期末库存 根据业务经验确定 sell 0Out Sell Retail Amount 0Out Sell Amount 0End Store Amount 0 步骤五确定数据源的逻辑性检验规则 根据数据源检验适用规则五 1 EIIRECV EIIRECV TZ BS Y Q M SELLDETAIL表包含字段Out Sell Retail Amount Out Sell Amount End Store Amount2 EIIRECV EIIRECV TZ BS Y Q M BASIC表也包含字段Out Sell Retail Amount Out Sell Amount End Store Amount3 这两张表对应字段具有相同业务含义 不同的统计口径 存在以下汇总关系 EIIRECV EIIRECV TZ BS Y Q M BASIC表统计商业企业的系统外批发销售量 系统外零售量 期末商业库存数据 EIIRECV EIIRECV TZ BS Y Q M SELLDETAIL表统计商业企业分卷烟规格的系统外批发销售量 系统外零售量 期末商业库存数据 因此EIIRECV EIIRECV TZ BS Y Q M SELLDETAIL表中某商业企业分规格的汇总数据应该等于表EIIRECV EIIRECV TZ BS Y Q M BASIC中对应的商业企业的数据 步骤五确定数据源的逻辑性检验规则 根据数据源检验适用规则的规则六 七 1 EIIRECV EIIRECV TZ BS Y Q M SELLDETAILL表中不包含字段与其他表中的字段具有相同的业务含义 统计口径 因此不满足规则六逻辑检验 2 EIIRECV EIIRECV TZ BS Y Q M SELLDETAILL表中包含有字段sell 系统外总销量 Out Sell Retail Amount 系统外零售量 Out Sell Amount 系统外批发销量 End Store Amount 期末库存 ratio stock sell 存销比 具有不同的业务含义 相同的统计口径 存在业务逻辑关系 ratio stock sell End Store Amount sellsell Out Sell Retail Amount Out Sell Amount 步骤六确定数据的时效性检验规则 根据表APP JJYX T FT JJYX JYSCFLXLQK JL使用的源表的最晚到达时间 加上后台数据加工处理的时间 定义该表的最晚加载日期为每月12日 步骤七确定数据的完整性检验规则 根据数据检验适用规则的规则二 三 1 APP JJYX T FT JJYX JYSCFLXLQK JL不包含外键字段 因此不符合规则二 不需要进行代码一致性检查 2 该表包含有日期型字段DQRQ 记录条数每月确定 因此满足规则三 需要进行记录条数检查 此表每月加载量为35行 步骤八确定数据的原则性检验规则 根据数据检验适用规则的规则四 1 APP JJYX T FT JJYX JYSCFLXLQK JL表中包含有字段BY SYXL BY HCY BY JL1 BY JL2 BY JL3 BY JL4 BY JL5 LJ SYXL LJ HCY LJ JL1 LJ JL2 LJ JL3 LJ JL4 LJ JL5 可以确定取值范围 根据业务经验确定 BY SYXL BY HCY LJ SYXL LJ SYXL 0 BY JL1 BY JL2 BY JL3 BY JL4 BY JL5 0 LJ JL1 LJ JL2 LJ JL3 LJ JL4 LJ JL5 0 步骤八确定数据的原则性检验规则 根据数据检验适用规则的规则五 六 1 APP JJYX T FT JJYX JYSCFLXLQK JL中包含有字段SCLXMC BY SYXL BY HCY BY JL1 BY JL2 BY JL3 BY JL4 BY JL5 LJ SYXL LJ HCY LJ JL1 LJ JL2 LJ JL3 LJ JL4 LJ JL5 存在有相同业务含义 不同的统计口径 其中市场类型为全国的数据对应于市场类型为本土市场 重点市场和其他市场的汇总数据 2 APP JJYX T FT JJYX JYSCFLXLQK JL中不包含字段具有不同的业务含义 相同的统计口径 在业务上存在业务逻辑公式的 因此不满足数据检验的规则六 步骤九确定数据的模糊性检验规则 根据数据检验适用规则的规则七 八 1 APP JJYX T FT JJYX JYSCFLXLQK JL表中包含有字段BY SYXL BY HCY LJ SYXL LJ HCY BY JL1 BL BY JL2 BL BY JL3 BL BY JL4 BL BY JL5 BL LJ JL1 BL LJ JL2 BL LJ JL3 BL LJ JL4 BL LJ JL5 BL 不满足规则七 满足规定八 2 其中字段BY SYXL BY HCY LJ SYXL LJ HCY的数据根据业务经验确定 数据审核规范如下 市场类型为全国的对应以上字段数据同比的合理区间在0 10 市场类型除全国外其他类型的同比合理区间在 10 20 步骤九确定数据的模糊性检验规则 根据数据检验适用规则的规则七 八 3 其中字段BY JL1 BL BY JL2 BL BY JL3 BL BY JL4 BL BY JL5 BL LJ JL1 BL LJ JL2 BL LJ JL3 BL LJ JL4 BL LJ JL5 BL的数据根据统计学公式确定 数据审核规范如下 区分市场类型使用99 置信区间 合理区间在历史数据平均值 3 历史数据标准差 历史数据记录数的平方根 历史数据平均值 3 历史数据标准差 历史数据记录数的平方根 步骤十确定数据的逻辑性检验规则 根据数据检验适用规则的规则九 1 APP JJYX T FT JJYX JYSCFLXLQK JL表包含有字段SCLXMC BY JL1 BY JL2 BY JL3 BY JL4 BY JL52 ZHGL L T ZHGL JYFLSPDXYBBLJ表 烟草系统卷烟分类商品电讯月报表累计 包含有字段DQ YLYNCLJ ELYNCLJ SLYNCLJ SILYNCLJ WLYNCLJ3 这两张表对应字段具有相同业务含义 不同的统计口径 存在汇总关系 APP JJYX T FT JJYX JYSCFLXLQK JL表中为各省份的分价类销量的分月的数据ZHGL T ZHGL JYFLSPDXYBBLJ表表中各省份 分价类商业销量的累计数据因此APP JJYX T FT JJYX JYSCFLXLQK JL表各省份的分价类销量的分月的汇总数据等于该电讯月报ZHGL T ZHGL JYFLSPDXYBBLJ表对应省份 对应价类商业销量的累计数据 步骤十确定数据的逻辑性检验规则 根据数据检验适用规则的规则九 4 APP JJYX T FT JJYX JYSCFLXLQK JL表包含有字段SCLXMC BY SYXL 5 ZHGL T ZHGL JYXTSPDXYBBLJ表 烟草系统卷烟商品电讯月报累计 包含有字段DQ XTWXSHJ6 这两张表具有相同业务含义 不同的统计口径 存在汇总关系 APP JJYX T F

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论