数据质量管理.ppt_第1页
数据质量管理.ppt_第2页
数据质量管理.ppt_第3页
数据质量管理.ppt_第4页
数据质量管理.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据管理,演讲者:部门:职位:数据管理,目标1 :安全访问安全存储安全目标2 :准确的数据准确目标3 :正常负载效率异常负载效率、数据管理目标、数据管理、数据质量管理难点和重点、数据本身数据质量数据完整性:数据完整性数据自主的数据并不是独立地存在的,并且在数据之间通常存在描述数据关联的各种约束。 数据必须能够满足这种数据之间的关联关系,不能相互矛盾。 数据质量的概念、数据的真实性、完整性、自我接触性是数据本身应具有的属性,被称为数据的绝对质量,是保证数据质量的基础。 除了数据的绝对质量之外,还有我们在利用数据保存过程中生成的数据质量。 其中包括使用质量、保存质量和传输质量,称为过程质量。 数据

2、的过程质量数据的使用质量:数据的使用质量是指正确使用数据。 更正确的数据如果被错误地使用,则不能得出正确的结论。 数据记忆质量:表示数据安全地存储在适当的介质中。 所谓安全性,就是采用适当的方案和技术抵抗外来因素,保护数据免受破坏,备份是我们经常使用的技术,例如异地备份和双机备份等,保存在适当的媒体上,在需要数据时能够立即方便地获取在现代信息社会,异地之间的数据传输正在增加,保证传输过程中的效率和准确性非常重要。 数据质量的概念,关系建设体系的成败是由于许多数据仓库的应用程度不高或最后失败,结果数据质量不高所致。 数据质量的好坏随着结果是否与预期一致而下降数据质量经常与开发的系统和用户的预期大

3、不相同,确定数据质量是正确的保障数据信息是企业的重要战略资源, 合理有效地使用正确的数据指导企业领导做出正确的决定,如果不合理地使用不正确的数据(也就是数据质量差),可能导致决策失败,正好差的毫分,可以说是错误的千里。 数据质量是长期困扰开发的难题,数据质量不高对困扰着这些项目的开发者和用户来说是一个严重的问题。 数据质量的重要性、数据质量不高的主要原因、数据质量分类、数据质量示例、数据质量管理方法、数据管理、数据质量管理方法、数据源检验方法、数据源检验是对HDS的源表的数据质量检验。 数据源检验可分为时效性检验和准确性检验两大类,其中准确性检验可分为完整性检验、原则性检验和逻辑性检验。 在数

4、据源检查方法、时效性检查判断约定的时间内, 数据源中的数据按时完整性检查HDS数据表和代码表的完整性检查HDS数据表记录数检查原则性检查HDS数据表中字段的数值是合法的区间内逻辑检查表或多个表内字段之间的逻辑关系的检查完整性检查规则3:HDS数据表包括日期类型字段,可以确定记录数的范围,必须进行记录数检查。 原则检查规则4:hds数据表中可以决定取值范围的字段必须进行原则检查。 逻辑检查规则5 :单个表或多个表内的字段具有相同的业务意义,具有不同的统一口径,有摘要关系。 要满足这个条件需要逻辑上的验证。规则6 :本表字段与其他表字段的业务语义统一修订口径相同。 要满足这个条件需要逻辑上的验证。

5、 规则7 :单个表或多个表内的字段具有不同的业务意义,以相同的统一订正口径,业务上逻辑公式成立。 要满足这个条件需要逻辑上的验证。 数据检查方法、数据检查是应用直接用于DDS数据库前台的关联表的检查。 数据检验分为时效性检验和准确性检验两大类,其中准确性检验分为完整性检验、原则性检验、模糊性检验、逻辑性检验。 数据检查方法、 时效性检查的判断是在约定的时间内前台直接使用的相关表按时检查一致性DDS事实表和维表的一致性检查DDS事实表记录数检查原则检查DDS事实表的单一字段的数值在正当的区间内同一表内字段间逻辑关系的检查模糊性检查判断字段比率是否在合理的区间内进行逻辑检查,编辑关系的检查,应用于

6、数据检查的规则,时效性检查规则1 :时效性检查应用于DDS中的所有维表和事实表。 一致性检查规则2 :包含外键字段的DDS中的事实表必须进行代码一致性检查。 规则3:DDS事实表(包括日期类型字段,可以确定记录数的范围)必须进行记录数检查。 原则性的检查规则4 :表中的字段可以决定取值的范围,同时可以判断这个范围以外的数据一定是错误的。 要满足这个条件必须进行原则性的检查。 规则5 :具有与表内多个字段相同的业务意义、不同的统一口径,有统一订正关系时,必须进行原则性的检查。 规则6 :同表内多个场域间具有不同业务意义,同一统一订正口径,业务上逻辑公式成立时,必须进行原则性检查。 适用于数据检查

7、的规则、模糊性检查规则7 :不能进行完整性、原则性检查时,必须进行模糊性检查。 规则8 :规则7不成立时,根据系统的重要度决定是否进行模糊性检查。 系统的重要性和哪些系统进行模糊性检查由客户决定。 逻辑检验规则9 :本表的字段与其他表的字段具有相同的业务意义,具有不同的统一口径、聚合关系,而且两个表的数据不在同一数据源加工。 要满足这个条件需要逻辑上的验证。 规则10 :此表中的字段与其他表中字段的业务含义、统一口径相同,两个表中的数据不在同一数据源中加工。 要满足这个条件需要逻辑上的验证。 规则11 :本表字段与其他表字段具有不同的业务意义,相同的统一口径,业务逻辑公式成立,且两个表的数据不

8、在同一数据源加工。 要满足这个条件需要逻辑上的验证。数据质量检验的顺序、1、数据源的完整性检验如果数据源的完整性检验报告异常则停止ETL加载过程,然后的检验2、数据源的原则检验如果数据源的原则检验报告异常则停止ETL加载过程。 后续检查3、不需要数据检查完整性检查数据检查的完整性检查报告异常时,应停止ETL加载过程;后续检查4、不需要数据检查原则性检查数据检查的原则性检查报告异常时,应停止ETL加载过程。 后续检验5、数据源时效性检验、数据源逻辑检验、数据检验时效性检验、数据检验模糊性检验、数据检验逻辑检验5种检验方法不需要报告异常时,ETL装载可以正常进行,但需要提出警告提示、数据管理、数据

9、质量检验的案例步骤关联的表确定后,全国烟草市场分类销售状况表(分价类)在DDS中直接使用的表是与app _ jjyx.t _ ft _ jjyx _ jyscflxlqk _ JL对应的HDS中的来源表。 因此,以下的检查规则主要是针对这两个表制定的。 然后,步骤2确定数据源的时效性检验规则,并且基于表EII recv.EII recv _ tz _ bs _ y _ q _ m _ sell detail中的数据到达规则将该表的每个月的最晚到达日期定义为8天。 第三步:确定数据源完整性检查规则,基于数据源检查应用规则的规则2,3:1,在EII recv.EII recv _ tz _ bs

10、_ y _ q _ m _ sell detail中包含外键字段i_的I _ prove 机构代码对应代码表DM.T_DM_GJJ_ZZJG中的ZZJGDM。 支持标准的代码表T_DM_GJJ_JY中的THTXBS。 此表符合规则2的检查条件,需要代码完整性检查。 2 .此表包含日期型字段y、m,但每月记录条数不确定,因此不符合规则3,无法检查记录条数。 步骤4确定数据源的原则检验规则,根据数据源检验应用该规则的规则4:1,将数据字段sell (根据系统外业务经验, 数据源检查应用规则5:1,数据源检查应用规则5:1,数据源检查应用规则5:1。 在包含字段Out_Sell_Retail_Amo

11、unt的EII recv.EII recv _ tz _ bs _ y _ q _ m _ basic表中,也包含字段Out_Sell_Retail_Amount、out_sell EII recv.EII recv _ tz _ bs _ y _ q _ m _ sell detail表收集商业企业分类烟草标准的系统外批发销售量、系统外零售量、期末商业库存数据。 因此,eiirecv.eiirecv_tz_bs_ y _ q _ m _销售详细信息表中业务公司规范的汇总数据必须等于表EII recv.EII recv _ tz _ bs _。 步骤5确定数据源的逻辑检验规则,并且根据数据源检

12、验应用该规则的规则6,7:1,EII recv.EII recv _ tz _ bs _ y _ q _ m _ selldetaill表包含字段和其他表2、EII recv.EII recv _ tz _ bs _ y _ q _ m _ selldetaill表格中包含字段sell (系统外总销售量)、out_sell_reel。具有不同的业务意义、相同的统一订正口径, 存在业务逻辑关系: ratio _ stock _ sell=end _ store _ amount/sell sell=out _ sell _ re Taal表app _ jjyx.t _ ft _ jjyx _ j

13、yscflxlqk _ JL中使用的索引步骤7确定数据完整性检查规则,基于数据检查应用规则的规则2,3:1,因为app_jjyx_jyscflxlqk_jl不包含外键字段,所以不需要2 .此表显示日期类型字段然后,在步骤8,确定数据的原则检查规则,根据数据检查来应用规则4:1,并且确定在表app _ jjyx.t _ ft _ jjyx _ jyscflxlqk _ JL中包含字段BY_SYXL和by的可取值的范围BY_JL1、BY_JL2、BY_JL3、BY_JL4和BY_JL50。 LJ_JL1、LJ_JL2、LJ_JL3、LJ_JL4、LJ_JL50。步骤8确定数据的原则检验规则,根据数据检验应用规则的规则5、6:1,app_jjyx_jyscflxlqk_jl中存在同一业务含义、不同的统一口径,其中市场类型为全国的2、app _ jjyx.t _ ft _ jjyx _ jyscflxlqk _ JL中不包含的场所具有不同的业务意义,在相同的统一口径下,存在业务上业务逻辑式。 因此,它不满足数据验证规则6。 然后,在表7、8:1和表app _ jjyx.t _ ft _ jjyx _ jyscflxlqk _ JL中包含字段BY_SYXL、BY_HCY和lj,以确定步骤9中对数据的模糊性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论