版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据治理系列5:浅谈数据质量管理“数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目的是通过可靠的数据提高数据在使用中的价值,并最后为公司赢得经济效益。”——以上内容摘自百度百科。笔者观点:“数据质量管理不单纯是一种概念,也不单纯是一项技术、也不单纯是一种系统,更不单纯是一套管理流程,数据质量管理是一种集办法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提高公司数据变现的能力。在数据治理过程中,一切业务、技术和管理活动都围绕这个目的和开展”。一、数据质量问题盘点接下来我们盘点下公司普通都会碰到哪些数据质量问题:数据真实性:数据必须真实精确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是公司统计工作的灵魂,是一切管理工作的基础,是经营者进行对的经营决策必不可少的第一手资料。数据精确性:精确性也叫可靠性,是用于分析和识别哪些是不精确的或无效的数据,不可靠的数据可能会造成严重的问题,会造成有缺点的办法和糟糕的决策。数据唯一性:用于识别和度量重复数据、冗余数据。重复数据是造成业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。数据完整性:数据完整性问题涉及:模型设计不完整,例如:唯一性约束不完整、参考不完整;数据条目不完整,例如:数据统计丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大减少,也是数据质量问题最为基础和常见的一类问题。数据一致性:多源数据的数据模型不一致,例如:命名不一致、数据构造不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相似的数据有多个副本的状况下的数据不一致、数据内容冲突的问题。数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、有关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的成果,进而影响管理决策。数据及时性:数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与公司的数据解决速度及效率有直接的关系,是影响业务解决和管理效率的核心指标。二、数据质量问题根因分析说到数据质量问题的因素,做过BI或数仓项目的小伙伴必定都懂得,这是一种业务和技术经常扯来扯去、互相推诿的问题。在诸多状况下,公司都会把数据质量问题推给技术部门,让技术部门去查找和解决。但是公司的数据质量问题真的都是技术引发的吗,技术部门人一定会说:“这个锅我不背!”其实,影响数据质量的因素重要就技术、业务、管理三个方面,下面我们就来从这三方面分析下产生数据质量问题都有哪些因素。1、技术方面数据模型设计的质量问题,例如:数据库表构造、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引发数据重复、不完整、不精确。数据源存在数据质量问题,例如:有些数据是从生产系统采集过来的,在生产系统中这些数据就存在重复、不完整、不精确等问题,而采集过程有无对这些问题做清洗解决,这种状况也比较常见。数据采集过程质量问题,例如:采集点、采集频率、采集内容、映射关系等采集参数和流程设立的不对的,数据采集接口效率低,造成的数据采集失败、数据丢失、数据映射和转换失败。数据传输过程的问题,例如:数据接口本身存在问题、数据接口参数配备错误、网络不可靠等都会造成数据传输过程中的发生数据质量问题。数据装载过程的问题,例如:数据清洗规则、数据转换规则、数据装载规则配备有问题。数据存储的质量问题,例如:数据存储设计不合理,数据的存储能力有限,人为后台调节数据,引发的数据丢失、数据无效、数据失真、统计重复。业务系统各自为政,烟囱式建设,系统之间的数据不一致问题严重。2、业务方面业务需求不清晰,例如:数据的业务描述、业务规则不清晰,造成技术无法构建出合理、对的的数据模型。业务需求的变更,这个问题其实是对数据质量影响非常大的,需求一变,数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节都会受到影响,稍有不慎就会造成数据质量问题的发生。业务端数据输入不规范,常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错。人工录入的数据质量与录数据的业务人员亲密有关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。数据作假,对,你没看错,就是数据作假!操作人员为了提高或减少考核指标,对某些数据进行解决,使得数据真实性无法确保。3、管理方面认知问题。公司管理缺少数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。没有明确数据归口管理部门或岗位,缺少数据认责机制,出现数据质量问题找不到负责人。缺少数据规划,没有明确的数据质量目的,没有制订数据质量有关的政策和制度。数据输入规范不统一,不同的业务部门、不同的时间、甚至在解决相似业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。缺少有效的数据质量问题解决机制,数据质量问题从发现、指派、解决、优化没有一种统一的流程和制度支撑,数据质量问题无法闭环。缺少有效的数据管控机制,对历史数据质量检查、新增数据质量校验没有明确和有效的控制方法,出现数据质量问题无法考核。小结:影响数据质量的因素,能够总结为两类,客观因素和主观因素。客观因素:在数据各环节流转中,由于系统异常和流程设立不当等因素,从而引发的数据质量问题。主观因素:在数据各环节解决中,由于人员素质低和管理缺点等因素,从而操作不当而引发的数据质量问题。三、数据质量管理的办法论在数据治理方面,不管是国际的还是国内的,我们能找到诸多数据治理成熟度评定模型这样的理论框架,作为公司实施的指导。而说到数据质量管理的办法论,其实业内还没有一套科学、完整的数据质量管理的体系。诸多公司对数据质量的重视程度还不够,即使部分公司在朝着这个方向努力,也是摸着石头过河。数据是数字化时代公司的重要资产,数据能够以产品或服务的形态为公司发明价值。既然数据能够是产品、能够是服务,那问题就简朴了。即使数据质量管理没有成熟办法论支撑,但是产品和服务的质量管理体系却已非常的成熟了,何不尝试用产品和服务的质量管理体系来管理数据质量?!那国际上最权威的质量管理体系IOS9001与否也合用于公司的数据质量管理呢?下图是ISO9001基于PDCA的质量管理核心思想,其重点强调以客户为关注焦点、领导作用、全员参加、过程办法、持续改善、循证决策和关系管理。注:图中的数字代表的是本原则在ISO9001的有关章节,无业务含义。下列内容是根据笔者对质量体系有关资料的查阅和粗浅理解,给出数据质量管理的办法论,不免有所偏误,欢迎拍砖和指正。根据ISO9001以及公司在数据治理方面的有关经验,笔者认为公司数据质量管理应从下列几个方面着手:1、组织环境我们在数据治理框架、主数据管理、数据原则管理等章节,都提到了组织机构的设立,这里再次强调一种强有力的数据管理组织的建设是数据治理项目成功的最根本的确保。其作业是两个层面:一是在制度层面,制订公司数据治理的有关制度和流程,并在公司内推广,融入公司文化。二是在执行层面,为各项业务应用提供高可靠的数据。2、数据质量管理方针为了改善和提高数据质量,必须从产生数据的源头开始抓起,从管理入手,对数据运行的全过程进行监控,强化全方面数据质量管理的思想观念,把这一观念渗入到数据生命周期的全过程。数据质量问题是影响系统运行、业务效率、决策能力的重要因素,在数字化时代,数据质量问题影响的不仅仅是信息化建设的成败,更是影响公司降本增效、业务创新的核心要素,对于数据质量问题的管理,深度执行的总体方略“垃圾进,垃圾出(garbagein,garbageout)”,采用事前防止控制、事中过程控制、事后监督控制的方式进行数据质量问题的管理和控制,持续提高公司数据质量水平。3、数据质量问题分析有关质量问题的分析,笔者推荐采用典型的六西格玛(缩写:6σ或6Sigma),六西格玛是一种改善公司质量流程管理的技术,以“零缺点”的完美商业追求,以客户为导向,以业界最佳为目的,以数据为基础,以事实为根据,以流程绩效和财务评价为成果,持续改善公司经营管理的思想办法、实践活动和文化理念。六西格玛重点强调质量的持续改善,对于数据质量问题的分析和管理,该办法仍然合用。根据六西格玛的DMAIC模型,我们能够将数据质量分析定义为六个阶段:(1)定义阶段(D阶段)。界定数据质量治理的范畴,并将数据质量改善的方向和内容界定在合理的范畴内。通过使用主数据识别法、专家小组法、问卷调查法、漏斗法等办法,定义出数据治理的对象和范畴。公司数据质量治理对象普通重要涉及两类数据:一类是操作型数据,例如:主数据、参考数据和交易数据。另一类是分析型数据,例如:主题数据、指标数据等。注:根据笔者经验以及80/20法则,公司的数据责问题80%是由于管理不当或业务操作不规范引发的,参考:《主数据的3大特点、4个超越和三个80/20原则》。(2)测量阶段(M阶段)。在定义出数据治理对象和内容后,需要选用下列若干个指标来作为数据质量评价指标,建立数据质量评定模型,对公司的数据进行评定和测量。惯用的数据质量评价指标就是我们上述提到的:数据唯一性、数据完整性、数据精确性、数据一致性、数据关联性、数据及时性等。(3)分析阶段(A阶段)。基于数据质量评定模型,执行数据质量分析任务,通过数据分析,找到发生数据质量问题的重灾区,拟定出影响数据质量的核心因素。数据治理和大数据分析是密不可分的,数据治理的目的是提高数据质量从而提高数据分析的精确性,而大数据分析技术也可反向作用于数据治理,通过大数据分析算法和大数据可视化技术,能够更精确、更直观的定位到发生数据质量问题的症结所在。该阶段能够用的大数据技术涉及:回归分析、因子分析、鱼骨图分析、帕累托分析、矩阵数据分析等。(4)改善阶段(I阶段)。通过制订改善管理和业务流程、优化数据质量的方案,消除数据质量问题或将数据质量问题带来的影响减少到最小程度。我们始终在强调数据质量的优化和提高,绝不单单是技术问题,应从管理和业务入手,找出数据质量问题发生的根因,再对症下药。同时,数据质量管理是一种持续优化的过程,需要公司全员参加,并逐步培养起全员的数据质量意识和数据思维。该过程重要用到办法:流程再造、绩效激励等。(5)控制阶段(C阶段)。固化数据原则,优化数据管理流程,并通过数据管理和监控手段,确保流程改善成果,提高数据质量。重要办法有:原则化、程序化、制度化等。4、数据质量监控数据质量监控能够分为数据质量的事前防止控制、事中过程控制和事后监督控制:事前防止控制建立数据原则化模型,对每个数据元素的业务描述、数据构造、业务规则、质量规则、管理规则、采集规则进行清晰的定义,以上的数据质量的校验规则、采集规则本身也是一种数据,在元数据中定义。面对庞大的数据种类和构造,如果没有元数据来描述这些数据,使用者无法精确地获取所需信息。正是通过元数据,使得数据才能够被理解、使用,才会产生价值。构建数据分类和编码体系,形成公司数据资源目录,让顾客能够轻松地查找和定位到有关的数据。实践告诉我们做好元数据管理,是防止数据质量问题的基础。数据质量问题的防止控制最有效的办法就是找出发生数据质量问题的根本因素并采用有关的方略进行解决。1)拟定根本因素:拟定引发数据质量问题的有关因素,并分辨它们的优先次序,以及为解决这些问题形成具体的建议。2)制订和实施改善方案:最后拟定有关行动的具体建议和方法,基于这些建议制订并且执行提高方案,防止将来数据质量问题的发生。事中过程控制事中数据质量的控制,即在数据的维护和使用过程中去监控和解决数据质量。通过建立数据质量的流程化控制体系,对数据的新建、变更、采集、加工、装载、应用等各个环节进行流程化控制。数据质量的过程控制,要做好两个强化:(1)强化数据的原则化生产,从数据的源头控制好数据质量,该过程能够采用系统自动化校验和人工干预审核相结合的方式进行管理,数据的新增和变更首先通过系统进行数据校验,对于不符合质量规则的数据不允许保持,另首先采集流程驱动的数据管理模式,数据的新增和变更操作都需要人工进行审核,只有审核通过才干生效。(2)强化数据质量预警机制,对于数据质量边界含糊的数据采用数据质量预警机制。数据预警机制是对数据相似性和数据关联性指标的重要控制办法。针看待管理的数据元素,配备数据相似性算法或数据关联性算法,在数据新增、变更、解决、应用等环节调用预置的数据质量算法,进行相识度或关联性分析,并给出数据分析的成果。数据预警机制惯用在业务活动的交易风险控制等场景。事后监督控制是不是我们最佳了事前防止控制和事中过程控制,就不会再有数据质量问题的发生了?答案显然与否认的。而事实上,不管我们做了多少防止方法、多严格的过程控制,总是尚有数据质量问题的“漏网之鱼”,你会发现只要是人为干预的过程,总会存在数据质量的问题。数据质量问题一旦产生就已经是“木已成舟”,为了避免或减低其对业务的影响,我们需要及时的发现它。这里,数据质量的事后监督控制就尤为重要了。定时开展数据质量的检查和清洗工作应作为公司数据质量治理的常态工作来抓。1)设立数据质量规则。基于数据的元模型配备数据质量规则,即针对不同的数据对象,配备对应的数据质量指标,不限于:数据唯一性、数据精确性、数据完整性、数据一致性、数据关联性、数据及时性等。2)设立数据检查任务。设立成手动执行或定时自动执行的系统任务,通过执行检查任务对存量数据进行检查,形成数据质量问题清单。3)出具数据质量问题报告。根据数据质量问题清单汇总形成数据质量报告,数据质量报告支持查询、下载等操作。4)制订和实施数据质量改善方案,进行数据质量问题的解决。5)评定与考核。通过定时对系统开展全方面的数据质量状况评定,从问题率、解决率、解决时效等方面建立评价指标进行整治评定,根据整治优化成果,进行适宜的绩效考核。笔者观点:数据治理的“常态化”才是数据质量问题的最佳解决方式,而要实现常态化治理就需要变化原来的公司组织形式、管理流程、转变观念,以适应这种变化。数据治理的“常态化”要经得起折腾,因此千万不能老做些重新发明轮子的亊情!5、数据全周期管理数据的生命周期从数据规划开始,中间是一种涉及设计、创立、解决、布署、应用、监控、存档、销毁这几个阶段并不停循环的过程。公司的数据质量管理应贯穿数据生命周期的全过程,覆盖数据原则的规划设计、数据的建模、数据质量的监控、数据问题诊疗、数据清洗、优化完善等方面。(1)数据规划。从公司战略的角度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 预订住房协议
- 圣女果交易合同
- 英语翻译服务协议
- 森林监控采购合同案例
- 探究采购合同与采购计划的联系与区别
- 双向转诊合作协议范例解析
- 铝合金板采购协议
- 跨境采购合同样本
- 短期工业用途借款合同
- 投资代理合同
- 2024年教育培训机构线上课程合作协议
- 第一例应用ECMO患者护理查房
- 基于区块链技术的农产品追溯与智能化管理方案
- 环保设备售后服务体系建设方案
- 第四单元(学习任务单)七年级语文上册大单元教学名师备课系列(统编版2024)
- 浙江省杭州市2024-2025学年高一上学期期中考试语文试卷(含答案)
- 湖南财政经济学院《体育保健学(运动伤害急救与防护)》2022-2023学年第一学期期末试卷
- 第6课 三国两晋南北朝政权更迭与民族交融(课件)-【中职专用】《中国历史》魅力课堂教学三件套(高教版2023•基础模块)
- 广东省深圳市五年级上学期科学期中试卷三(含答案)
- 中医医院绩效考核细则及评分办法(中医药工作)
- 【核心素养】人音版三年级上册第2课《我是草原小牧民》教案
评论
0/150
提交评论