![DW Concept 数据质量分册_第1页](http://file4.renrendoc.com/view2/M03/24/34/wKhkFmY0yQCAGjnyAACnfbYM1CI467.jpg)
![DW Concept 数据质量分册_第2页](http://file4.renrendoc.com/view2/M03/24/34/wKhkFmY0yQCAGjnyAACnfbYM1CI4672.jpg)
![DW Concept 数据质量分册_第3页](http://file4.renrendoc.com/view2/M03/24/34/wKhkFmY0yQCAGjnyAACnfbYM1CI4673.jpg)
![DW Concept 数据质量分册_第4页](http://file4.renrendoc.com/view2/M03/24/34/wKhkFmY0yQCAGjnyAACnfbYM1CI4674.jpg)
![DW Concept 数据质量分册_第5页](http://file4.renrendoc.com/view2/M03/24/34/wKhkFmY0yQCAGjnyAACnfbYM1CI4675.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
整体技术部DWConceptPAGE内部资料注意保密第14页DWConcept数据质量分册作者任少斌时间审核时间批准时间北京用友华表软件技术有限公司修订记录版本号发布日期编制人审核人/批准人修改章节号V1.0前言目的本规范的制定是为了更好的实施数据仓库的数据质量管理的建设,数据质量的监控和全视图使得我们在数据处理的各个环节中能及时发现、定位和解决各类数据质量问题,确保数据质量的稳定可靠,是信息交付的保障。范围本文档规定了一般数据仓库过程中数据质量管理的建设内容,供数据质量管理系统设计开发人员及欲了解数据仓库数据质量管理的同事共同使用,内容涉及数据质量监控与问题处理(数据质量规则库、采集、告警或质量报告、质量问题处理)、元数据变更监控、数据质量知识库以及数据质量对外服务等。引用文件下列文件为本规范引用文件列表。《DWConcept数据建模分册.doc》《DWConcept元数据分册.doc》缩略语解释字母名词解释S数据质量监控自动获取数据仓库各环节的数据质量信息,结合元数据库中的有关检查规则,对数据质量情况进行诊断,并及时向数据质量监控人员报告S数据质量知识库数据质量管理系统存储层上的存储信息库,主要包括各种检查规则和检查结果报告(包括告警),以及数据质量问题的处理过程信息UUSP统一调度平台,即数据仓库工作流引擎Y元数据元数据(MetaData)泛指描述领域概念(DomainConcepts)、领域关系(DomainRoles)、领域规则(DomainRules)的数据,其中,领域语义(Semantics)和知识(Knowledge)也属于元数据的范畴Y元数据变更监控元数据变更监控是获取元数据变更信息,调用元数据管理系统相关分析功能对元数据变更进行影响分析,对元数据变更进行关键实体影响的监控数据质量概述数据质量管理系统是数据仓库数据管理域的重要组成部分。本章从数据质量概述、建设目标和数据质量问题域三个方面对数据质量管理系统进行概要描述。数据质量概述数据质量管理系统包括对数据源接口、数据实体、数据处理过程、数据应用和业务指标等相关内容的管控机制和处理流程,也包括对数据质量管控和处理的信息总结和知识应用等辅助内容。本手册描述了数据质量管理的范围和要求,描述了数据质量管理体系结构,规定了数据质量管理系统的基础功能和处理流程,强调了元数据变更联动机制的构建,强调了数据质量管控信息总结、知识沉淀和经验重用。本规范要求形成由数据质量监控与问题处理(数据质量规则库、采集、告警或质量报告、质量问题处理)、元数据变更监控、数据质量知识库以及数据质量对外服务等功能构成的数据质量管理系统,以及基于该系统的数据质量管控流程和技术要求。数据质量管理系统的某些功能将引用元数据管理系统的相关支持,详见《DWConcept元数据分册.doc》。一般监控流程数据质量管理一般流程如下图所示。系统建设目标数据质量管理系统以“深化数据质量管控能力,构建元数据变更联动机制”为建设目标,具体包括:实现对元数据变更的监控管理,通过对元数据变更的获取及影响分析,在数据质量管控基础上,尽快暴露由各种实体变更或者数据处理过程变更而引起的数据质量问题,构建元数据变更联动机制。建立有效的数据质量监控机制,在数据仓库数据处理主要阶段设置数据质量检测点,实现关键实体监控、实体关系监控、明细汇总监控、关键指标监控以及元数据变更监控,实现从源系统接口层到应用层的全流程数据质量监控,便于数据质量问题提前发现和及时处理。同时,管理在数据质量监控中产生的告警信息,并集成元数据信息,实现拓扑呈现,提供数据处理状态和质量状况的全局视图。建立数据质量报告功能,实现对数据质量管理系统各种信息的汇总、梳理、统计和分析,提供全面及时的数据质量报告,预防和控制错误范围的扩大,便于数据质量管控信息总结、知识沉淀和经验重用。数据质量问题域数据质量问题按照来源和具体原因,可以分为信息、技术、流程和管理四个问题域,如下图所示。信息问题域信息类问题是由于对数据本身的描述、理解及其度量标准偏差而造成的数据质量问题,如下图所示。产生这类数据质量问题的原因主要有:元数据描述及理解错误、数据度量得不到保证和变化频度不恰当等。数据度量主要包括完整性、唯一性、一致性、准确性和合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。信息类问题中易引起描述及理解错误的元数据主要包括:业务元数据——主要包括业务规则、业务术语和业务指标口径等;技术元数据——主要包括数据源接口规范、依赖关系、ETL转换、数据建模和工具等方面的内容。技术域问题技术类问题是指由于具体数据处理的各技术环节异常而造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷,如下图所示。技术类数据质量问题主要产生在数据创建、数据获取、数据传递、数据装载、数据使用和数据维护等环节,具体描述如下:数据创建质量问题主要包括:业务系统数据延迟入库、创建数据默认值不当和数据录入的校验规则不当,导致指标统计结果不一致、数据无效和记录重复等;数据获取质量问题主要包括:数据源不当、取数时间点不正确以及接口数据在获取过程中失真。如:编码转换处理错误或精度不够,导致指标统计结果不一致或数据无效等;数据传递质量问题主要包括:接口数据及时率低、接口数据漏传和网络传输过程不可靠,如包丢失、文件传输方式错误、传输技术问题和协议使用不当导致的数据不完整等;数据装载质量问题主要包括:数据清洗算法、数据转换算法、数据加载算法的错误和调度机制不合理等;数据使用质量问题主要包括:展示工具使用错误、展示方式不合理和展示周期不合理等;数据维护质量问题主要包括:数据备份/恢复错误、数据的存储能力有限、维护过程缺乏验证机制和人为后台调整数据等。流程问题域流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,如下图所示。流程类问题主要来源于数据创建流程、数据传递流程、数据装载流程、数据使用流程、数据维护流程和稽核流程等各环节,具体描述如下:数据创建流程质量问题主要指操作员数据录入时缺乏审核流程;数据传递流程质量问题主要指通信流程沟通不畅;数据装载流程质量问题主要指清洗流程缺乏/不当、调度流程逻辑错误、数据加载流程逻辑错误及数据转换流程逻辑错误;数据使用流程质量问题主要指数据使用流程缺乏流程管理;数据维护流程质量问题主要指缺乏变更维护流程、缺乏错误数据维护流程、缺乏数据测试流程以及对人工后台调整数据没有严格的流程监控;稽核流程质量问题主要指缺乏数据检查及问题反馈流程。管理问题域管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题,如下图所示。管理类问题主要包括人员的管理、培训和激励等方面的措施不当导致的管理缺失。人员培训所产生的质量问题主要指对数据质量相关人员缺少长期培训计划;人员管理所产生的质量问题主要指缺乏管理目标、责任人缺失或有关人员缺乏责任心和工作的优先级安排不当;人员激励所产生的质量问题主要指缺乏奖惩制度、奖惩制度的执行不到位、激励反馈渠道不畅和缺乏反馈机制。数据质量管理体系结构本章从功能结构和技术结构两个方面简单介绍了数据质量管理系统的体系结构,在功能结构一节简要描述了各个层次的功能,在技术结构一节描述了各个组件的实现方式以及数据质量管理系统与相关外系统的关系。系统功能结构数据质量管理功能结构如下图所示。数据质量管理系统功能按层次划分为获取层、存储层以及功能层。下面简要描述各层要求实现的功能:获取层本层主要实现的是数据质量数据的采集功能。数据质量管理系统采集所需的质量监控数据,它是数据质量功能和应用的基础。采集的数据范围有:关键实体信息采集、实体关系信息采集、明细汇总信息采集、关键指标信息采集以及元数据变更信息采集。存储层存储层中存储的数据质量信息主要包括三个部分:数据质量规则库:存储数据质量系统的相关规则信息,包括数据质量配置规则(监控的实体或域、监控内容以及告警或报告推送配置)、数据质量校验规则(质量校验准则或表达式)、数据质量采集规则(获取层的采集调度规则);数据质量信息库:存储所有的数据质量采集信息、告警信息、报告内容以及数据据质量问题处理信息等;数据质量知识库:存储元数据变更监控知识(介绍元数据内容、变更监控的原理以及元数据变更监控的实例等)、数据质量监控知识(介绍数据质量管理系统提供的质量监控方式、相应规则配置、哪些环节应当实施监控以及一些监控实例等)以及数据质量问题处理知识(记录每次质量问题的原因、改善方法等,以便再次碰到这个问题时可有参考)。功能层功能层包含了数据质量管理系统的基础功能,它为数据质量管理的服务提供了基本的功能支撑,主要包括以下五个部分的功能:数据质量监控:数据质量监控是根据配置的规则库,对采集数据进行数据质量监控,对发现的数据质量情况进行告警或形成报告的过程,包括关键实体监控、实体关系监控、明细汇总监控、关键指标监控、规则配置以及告警管理等功能。元数据变更监控:元数据变更监控可以使得相关人员获取数据处理过程中的实体变更或者处理过程变更信息(尤其是源系统的变更),调用元数据管理系统的相关分析功能对实体变更信息进行影响分析,以对关键的变更信息进行及时报警,将会引起的质量问题尽早曝光。数据质量报告:数据质量报告是对数据质量管理各环节累积的各种信息进行汇总、梳理、统计和分析,形成统计报告的过程,基本功能主要包括:报告生成、报告推送和报告归档。数据质量知识库:数据质量知识库作为质量知识普及、质量监控配置指南以及质量问题处理的经验沉淀,希望对数据质量关注人员提供一些帮助,包括知识产生和知识应用。数据质量对外服务:数据质量对外服务负责数据质量管理系统与外部系统的信息交互。功能层的详细说明与要求,详见第5章。系统技术结构数据质量管理系统的技术结构包括数据质量存储库、功能组件(采集组件与分析组件)、数据质量控制台和数据质量对外服务接口等部分,如下图所示。数据质量存储库存储数据质量规则库、数据质量信息库以及数据质量知识库的所有数据。功能组件数据质量采集组件:数据质量采集组件是构成系统的重要组件。从数据源系统的数据文件通过接口机进入数据仓库,并经过ETL处理、仓库处理、数据集市处理、数据应用处理以及前端应用处理等环节,在每个数据处理环节中,均需要根据业务特点部署数据质量采集点,执行与处理相关的数据采集功能。采集到的数据存储在数据质量存储库中,并作为监控检查的输入。数据质量分析组件:数据质量监控告警:由数据质量采集组件输入的采集数据,根据校验规则进行质量校验,判断是否生成告警信息,推送告警,与USP交互,保存管理告警信息日志等。数据质量报告生成:由数据质量采集组件输入的采集数据生成相关报告,推送报告,报告归档等。数据质量规则引擎:负责将用户配置的数据质量规则库,转换为相应的可执行的SQL代码,并输送给数据质量采集组件。元数据变更分析:负责和元数据管理系统的相关模块进行交互,得到实体或处理过程的变更信息,调用影响分析接口,得到变更将会影响到的实体或处理过程,并将影响列表发送给关注人。数据质量控制台数据质量控制台是相关人员操作的界面,包括规则库的配置、信息库的查询以及知识库的管理等。控制台界面可以通过Portlet/iFrame等方式嵌入到数据门户中。数据质量对外服务接口对外服务接口是数据质量管理系统提供给外部使用的服务接口,通过接口调用可以实现数据质量告警或者报告的推送,与调度系统USP的交互,向元数据管理系统展示实体的数据质量信息等。数据质量管理详细功能本章详细说明元数据管理模块的获取层、存储层和功能层的各项功能要求。数据质量监控数据质量监控是根据预先配置的规则或算法,进行监控数据采集和规则校验,并依据稽核和检查过程中发现的数据质量异常情况进行告警的过程。数据质量监控由四个主要功能环节构成,包括关键实体监控、实体关系监控、明细汇总监控以及关键指标监控。下面对每个功能环节分别进行说明。关键实体监控关键实体监控是对数据处理所有环节中的单个关键实体对象进行多方面的质量监控。行数:关键实体数据行数的同比环比或者阀值监控。分布:关键实体关键域的值分布,即特定取值的行数与总行数的比例,可以有同比环比或者阀值的监控。空值:关键实体关键域的空值监控,对实体关键域为空的行数进行监控,可以有同比环比或者阀值的监控。域范围:关键实体关键域的取值范围监控,对实体关键域的取值范围可以进行样本数据采集,监控其区间值或枚举值是否合理。关键域汇总:关键实体关键域的汇总值监控,可以有同比环比或者阀值的监控。唯一性:关键实体业务键值的唯一性监控,即监控是否有关键业务数据的重复。时效性:关键实体业务的实效性监控,即关键实体对象的加工完成时间点要符合一定的业务需求。实体关系监控引用完整性监控:关键实体对维表引用或者其它实体引用时,是否会造成业务数据的缺失。实体一致性监控:多个业务相关的关键实体间的一致性监控,即实体行数的对比。域汇总值关系监控:多个关键实体的关键域的汇总值之间关系的监控,如汇总值要匹配或者汇总值1+汇总值2=汇总值3等明细汇总监控对关键实体和其汇总表的关键域分别进行汇总,对比汇总值,在业务平衡上要求其值基本一致,如订单明细表的金额和订单汇总表的金额对比。关键指标监控对关键业务指标的监控,包括指标波动、指标平衡以及阀值监控。指标波动:对关键业务指标的值进行监控,计算其同比、环比的波动,以及节假日对指标值的影响。指标平衡:对多个相关的业务指标进行平衡监控,使其在业务层面上比较合理,如指标A=(B+C)×系数。指标阀值:对关键业务指标的阀值如果预先可以估计,则可以设置监控,提前发现其异常值。元数据变更监控源系统的业务流程变更或库表、维度以及数据处理过程变更,可能会引起一系列潜在的数据质量问题。元数据变更监控可以使得相关人员获取数据处理过程中的实体变更或者处理过程变更信息(尤其是源系统的变更),调用元数据管理系统的相关分析功能对实体变更信息进行影响分析,以对关键的变更信息进行及时报警,将会引起的质量问题尽早曝光。数据质量报告数据质量报告是对数据质量管理系统累积的各种信息进行汇总、梳理、统计和分析,形成统计报告的过程。数据质量报告提供了一个集中展示数据仓库数据质量状况的窗口,数据质量关注人员对数据质量报告进行分析讨论,以总结经验、沉淀知识和改进方法,不断提高数据仓库的数据质量问题的处理能力。报告生成数据质量报告按照统计方式不同可以分为两方面内容:数据质量事项列表报告和数据质量事项汇总统计分析报告。数据质量事项列表统计报告数据质量事项列表统计报告是对各种日常监控的数据如告警、问题接收与处理、知识录入等进行详细列表统计的过程,包括对象名称、发生时间、级别、状态、结果等相关属性信息。数据质量事项汇总统计报告数据质量事项汇总统计报告是对一段时间的监控数据或质量评估的结果做汇总性分析的过程,包括但不限于以下:数据事项总数量:指在一定时间范围内,出现数据质量事项的总数量(包括重复出现次数);问题处理完成比率:指在一定时间范围内,处理完成的数据质量问题数量与数据质量问题总数量的比值;问题平均处理时长:指在一定时间范围内,数据质量问题处理总时长与数据质量问题总数量的比值;重大事项出现次数:指在一定时间范围内,出现重大数据质量事项的次数;数据质量综合评估:指综合评估某一集合数据的质量状况。报告发布质量报告根据不同数据源和不同周期定期或根据订阅要求在质量报告模块上进行发布。从时间周期上可分为日报告、周报告、月报告、季报告和年报告等,还可从报告级别或地域维度等维度对报告内容进行分类。数据质量报告的发布要求具备一定的时效性。数据质量报告的发布需与用户的角色和权限对应,用户应在所赋权限范围内查看质量报告,数据质量报告按需采用界面或EMAIL等方式发送给相关质量关注人员。报告归档数据质量报告是数据质量子系统的一种知识沉淀方式,包括了数据质量管理各个环节的统计数据、分析结果和处理意见。数据质量报告的归档可以将相关报告按照分类如模块、时间和级别等知识库格式要求归档到数据质量知识库中,作为后续数据质量问题处理和分析的参照。另外质量报告归档要求可以将报告导出成文件(Excel、Text或其他格式),存放到文件服务器中以方便查询和调阅。数据质量知识库数据质量知识主要来源于对数据质量问题的总结,同时,对数据质量问题的不同解决方案,以及对知识本身的评价,也是对数据质量知识的补充与完善。通过数据质量管理系统的知识库管理界面可以提交数据质量知识。数据质量知识库中包括了以下经验的集合:元数据变更监控知识(介绍元数据内容、变更监控的原
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《档案技能训练》课件
- 《卫星运动规》课件
- 《财务报告分析》课件2
- 《电拖接触器》课件
- 2025年铜川货车资格证考试题
- 我国食品添加剂的种类和要食品工业方面的作用
- 2025年百度生态项目合作计划书
- 幼儿园中秋节亲子游戏活动方案
- 退加盟申请书
- 五年级数学小数除以整数同步自测口算题带答案
- 网咖成本预算明细表
- 2023年上半年重庆三峡融资担保集团股份限公司招聘6人上岸笔试历年难、易错点考题附带参考答案与详解
- 译林版四年级下册第一单元课件
- 标志设计 课件
- 化工制图CAD教程-工艺流程图课件
- 金属常见的腐蚀形态及防护措施-课件
- (完整版)客户拜访方案
- 老年病科工作手册
- 【基于哈佛分析框架的上市公司财务研究-以中百集团为例】
- 《字体设计》模块四 具象性变化设计技巧的训练
- (名师整理)部编人教版语文初中课内古诗文大全(五四制)
评论
0/150
提交评论