数据质量DCI测量实现设计方案_第1页
数据质量DCI测量实现设计方案_第2页
数据质量DCI测量实现设计方案_第3页
数据质量DCI测量实现设计方案_第4页
数据质量DCI测量实现设计方案_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据质量DCI测量实现设计数据质量量化指标定义量化指标维度测量过程量化应用说明完备性测量12不可为空的字段需要被填充N空值率测量的空值记录数测量的总记录数越低越好,理论上空值率必须等于0%完整性测量13重复数据删除(标记)R重复率测量的重复记录数测量的总记录数越低越好,要求单字段有主键的特性,如果某待测系统没有任何具有主键特征的字段,此维度与完备性合并 RN测量14重复数据历史性比较(合理性,只适合有合理性预期的字段,比如性别比例)难以量化一致性测量30合理性检查,值的记录数分布与过去填充相同字段的数据实例做比较(只适合有合理 性预期的字段),前后一致F填充率1-测量的空值记录数测量的总记录数

2、。总体上看,越高越好。高低与业务相关,可以说是数据密度。还是测量填充率,表明该字段有多少数据,这属于业务上的要求,而不是数据库的范式要求及时性测量49,DCI增量抽取数据的更新或新数据的条数U更新率测量的抽取间隔中发生的更新、新增记录数测量的总记录数高低与业务相关,系统范围来看越高越好,新增、更新频繁间接表明数据比较及时有效性测量27将数据与既定的域(参照表,范围或数学规则)中的有效值做比较C合规率 1- 测量的不符合码值的记录数测量的总记录数越高越好表11.完备性2.完整性3.一致性4.及时性5.有效性指标解读:指标反应某个数据字段的数据质量,量化指标由测量根据规则计算得到,测量是对某个数据

3、值的数据质量表示。从指标量化的定义上,可以看出FRUC指标是字段级的指标,是对字段的数据质量的表示。产品功能上需求测量数据,并计算指标。要求测量后返回如下监控结果。测量: 是否为空,返回空数据是否重复,返回重复数据是否新增,返回新增记录是否更新,返回更新记录是否满足取值范围(码值范围),返回不满足取值数据其中测量c,d无法做到单个数据值的测量,可以做到记录行级的测量,指标U更高一级,是对表的数据质量的表示。Q值Q值 Q(N, F,U,R,C) ( ( 1 N空值率 ) + (1 R重复率) F填充率 + U更新率 + C合规率 )5 )* 100%从数据质量维度出发,我们可以定相应的归一量化指

4、标,分别是空值率、填充率、重复率、更新率与符合率。参见 REF _Ref340999004 h 错误!未找到引用源。测量级别定义测量级别适用测量数据值a,b,e记录行c,d字段F,R,C表Q,U数据源系统Q测量需求目前数据质量产品不实现测量计算过程和规则定义,只时间测量结果的展示。展示的信息需要完全开发DCI作业实现,DCI测量可分解成一下几个步骤。划定测量范围人工手动确定测量范围,需要测量的源数据的系统名,表名,字段名,待测指标。其中单个字段只定义一个测量指标。表样:系统名表名表中文名表主键字段名字段中文名测量类别质量维度取值范围问题描述教务系统JW_ZYXXSJLB专业数据ZYHZYH专业号b完整性教务系统JW_ZYXXSJLB专业数据ZYHZYMC专业中文名称b完整性教务系统JW_ZYXXSJLB专业数据ZYHZYFXH专业方向a完备性教务系统JW_ZYXXSJLB专业数据ZYHSSXK所属学科a完备性教务系统JW_ZYXXSJLB专业数据ZYHXZ学制a完备性教务系统JW_ZYXXSJLB专业数据ZYHPYCC培养层次e有效性CODE:01,DESC:本科,CODE:02,DESC:专科,CODE:03,DESC:专升本设计DC

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论