大数据管理与应用概论 课件 5.4-数据质量提升方法_第1页
大数据管理与应用概论 课件 5.4-数据质量提升方法_第2页
大数据管理与应用概论 课件 5.4-数据质量提升方法_第3页
大数据管理与应用概论 课件 5.4-数据质量提升方法_第4页
大数据管理与应用概论 课件 5.4-数据质量提升方法_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5.4数据质量提升方法数据质量提升方法数据质量提升方法从数据流过程的视角出发,可作用于数据质量管理的事前、事中、事后三个阶段。通过对不同时期数据的不同处理方式,实现事前预防、事中监控、事后改善。数据质量管理的事前阶段控制和业务含义关联度不大的数据质量,确保数据处理过程的数据质量的合规合理数据质量管理的事中阶段数据质量管理的事后阶段针对业务执行过程存在的不规范、不合理之处,给出指导业务改进的建议规范、标准的操作,以及清晰的流程系统,是确保产生正确数据的关键事前数据质量提升方法(一)预防措施预防措施主要是通过防止低质量数据进入组织,把已知的错误防止发生从而影响数据的质量。预防措施的具体内容主要包括:(1)建立数据输入控制。创建数据输入规则来防止无效或不准确的数据进入系统。(2)培训数据生产者。确保上游系统的员工了解数据对下游用户的影响。(3)定义和执行规则。创建一个用于应用程序中“数据防火墙”。(4)要求数据供应商提供高质量数据。检查外部数据供应商的结构、定义、数据源等流程。(5)实施数据治理和管理制度。确保参与规则、决策权和有效管理数据和信息资产的责任。(6)制定正式的变更控制。确保在实施之前对存储数据的所有变更进行定义和测试。事前数据质量提升方法(二)建立数据质量管理规范、制度和系统数据质量管理是企业数据管理的重要组成部分,根据国内外同业实践经验,数据质量管理框架体系需要科学的组织保障体系、清晰的管理流程、明确的管理制度和有效的技术支撑平台。主要内容包括:(1)制定明确的质量管控规范。制定完备的统计数据质量考核、评价标准。(2)建立科学的统计制度。进一步完善并改进各项普查制度,建立健全相关法律法规。(3)应用统计数据质量管控系统。改变统计数据事后检验的方法,实行质量全过程控制。事前数据质量提升方法(三)建立数据质量闭环管理流程数据质量管理流程包含五大步骤,这五大步骤以循环的形式存在,从而持续有效地对数据质量进行有效管理。数据质量闭环管理流程设计数据质量提升方案。(1)方案制定。确定数据质量检核范围及检核规则。(2)质量评估。(3)问题管理。定期发布数据质量报告。根据分析结果给出数据质量提升和整改建议。(4)提升优化。持续跟踪分析整改情况。(5)跟踪控制。事前数据质量提升方法(四)成立数据治理组织健全的数据治理组织是全面开展数据治理工作的基础,数据治理组织应包括管理人员、业务人员和技术人员,缺一不可。数据治理组织可以设置三种角色:数据治理组织角色人员组成负责任务数据治理委员会由校领导、IT部负责人和业务部门负责人组成负责制定数据治理的目标、制度、规范、流程、标准等,协调解决相关人员责、权、利问题,推行数据治理文化数据治理业务组由业务部门业务专家、系统管理员组成负责业务系统参数、基础数据维护,以及审核、检查、整改业务数据,在数据产生源头提高数据质量数据治理技术组由IT部的相关技术人员组成,包括系统开发人员、数据治理人员、数据库管理员系统开发人员负责录入符合数据校验标准和数据治理标准的数据;数据治理人员负责开发数据质量检测规则、监控数据质量、批量修改数据等工作;数据库管理员负责系统数据的备份、恢复、审计等工作事中数据质量提升方法(一)缺失数据质量提升由于缺失数据的类型分类较多,目前较为成熟的缺失数据质量提升方法只考虑完全随机性的缺失数据,代表性的如完全随机性缺失数据的质量提升方法:首先假设数据是完全随机缺失的,假设存在一个数据集Y,Y中的缺失数据完全与Y无关,同时存在一个控制变量数据集X,那X与Y存在如下的关系:Pr(Y缺失|X,Y)=Pr(Y缺失|X)上式表明X集合中的数据与Y集合中的数据存在某种对应关系,那么Y中的缺失数据可以依据X与Y的对应关系进行补充。事中数据质量提升方法(二)错误数据质量提升错误数据依靠人工检测,往往不太准确。目前较为常见的自动检测和纠正的方法是回归分析方法:首先假设集合数据X与集合数据Y存在一定的相关关系,并且假设这种错误数据产生的原因完全是随机性的,而且Y集合中的错误数据与Y集合中其他数据无关,其数学表达式如下:Pr(Y错误|X,Y)=Pr(Y错误|X)上式表明,通过找到集合X与集合Y的对应关系以及对应的数学表达式,既可用Y中的错误值对应的X中的数值进行计算并替代,从而纠正Y中的错误值。事中数据质量提升方法(三)非标准化数据质量提升非标准化数据一般出现在文本型数据中,面对这样的数据,只能具体问题具体分析,其一般过程包括:(1)定义标准化数据。在定义标准化数据时,必须由数据使用的目的来决定。(2)筛选非标准化数据。一般通过文本提取的方法将非标准化数据进行分类提取。(3)非标准化数据的标准化。针对数值型数据,在格式上采用四舍五入的方法进行标准化;而文本型数据则采用词匹配的方法进行标准化。事后数据质量提升方法(一)纠正措施数据质量问题应该系统地、从根本上解决,以最大限度地降低纠正措施的成本和风险,“就地解决问题”是数据质量管理中的最佳实践。执行数据修正一般有三种方法:(1)自动修正。使用自动修正技术,包括基于规则的标准化、规范化和更正。(2)人工检查修正。在纠正提交到持久存储之前进行人工检查。(3)人工修正。在缺乏工具、自动化程度不足或确定通过人工监督能更好地处理交更的情况下,人工修正是唯一的选择。事后数据质量提升方法(二)建立数据质量评分与考核机制数据管理部门对分支机构开展数据质量专项考核,通过质量规则核查各系统内数据质量情况,推动数据清理与整改,并对整改情况进行评分。具体内容主要包括:将有问题的数据检核出来并在数据管理系统中展示,由各分支机构每日登录系统查询,以便及时完成整改或举证。日常检核数据质量管理部门按月发布分支机构数据质量考核检测情况通报。月底统计对考核的结果进行汇总,上报考核评价部门。季末报送数据质量管理部门对考核结果进行汇总统计并计算得分,上报考核评价部门,发布年度数据质量提升情况的报告。年终总结事后数据质量提升方法(三)定期检查和清洗数据常态化定期开展数据质量的检查和清洗工作。具体内容主要包括:(1)设置数据质量规则。基于数据的元模型配置数据质量规则。(2)设置数据检查任务。对存量数据进行检查,形成数据质量问题清单。(3)出具数据质量问题报告。根据数据质

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论