数据质量管理_数据仓库ppt课件_第1页
数据质量管理_数据仓库ppt课件_第2页
数据质量管理_数据仓库ppt课件_第3页
数据质量管理_数据仓库ppt课件_第4页
数据质量管理_数据仓库ppt课件_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库专题讲座数据仓库专题讲座之之数据质量管理数据质量管理20052005年年9 9月月2;.目录目录数据质量问题分析数据质量问题分析数据质量方法论数据质量方法论质量保证成功因素质量保证成功因素案例分析案例分析3;.数据质量归类数据质量归类Copyright 2004, Oracle. All rights reserved.数据质量金字塔数据质量金字塔不同数据源相同不同数据源相同实体数据不同实体数据不同已汇总数据与详已汇总数据与详细数据的再汇总细数据的再汇总不一致不一致处理数据超出了处理数据超出了用户忍耐用户忍耐结果过时结果过时业务规则业务规则统计口径统计口径违反唯一性约束违反唯一性约束违

2、反主外键关系违反主外键关系丢失数据丢失数据丢失数据包含的丢失数据包含的属性信息属性信息数据超出值域范围数据超出值域范围数据类型不匹配数据类型不匹配数据日期格式错数据日期格式错准确性准确性及时性及时性一致性一致性唯一性和参考完备性唯一性和参考完备性完整性完整性数据类型和值域数据类型和值域4;.错误的值错误的值错误的数据依赖错误的数据依赖重复属性重复属性缺乏引用完整性缺乏引用完整性违反商务规则违反商务规则多种数据源中缺乏数据对应多种数据源中缺乏数据对应源数据和目标缺乏同步源数据和目标缺乏同步没有理由的关联没有理由的关联缺少数据缺少数据错误的计算错误的计算主键重复主键重复无标准的格式无标准的格式稀少

3、的实体解释稀少的实体解释数据质量的示例错误的范围错误的范围5;.原因分析原因分析各专业之间的指标体系及编码规则不一致各专业之间的指标体系及编码规则不一致多个生产系统的数据源存在不一致现象多个生产系统的数据源存在不一致现象 数据源本身存在脏数据噪声数据数据源本身存在脏数据噪声数据数据存在人工操作数据存在人工操作不同数据源由不同部门管理不同数据源由不同部门管理由于生产系统的数据由于生产系统的数据是随生产而变化的,是随生产而变化的,在不同的时间点在不同的时间点进行数据抽取的数据进行数据抽取的数据是不一致的是不一致的 生产系统的不同版本生产系统的不同版本各分公司市场政策的差异各分公司市场政策的差异同一

4、产品、业务、套餐同一产品、业务、套餐在生产系统在生产系统业务处理规则业务处理规则编码差异很大编码差异很大 统计口径统计口径数据抽取时间点问题数据抽取时间点问题 业务规则问题业务规则问题数据源问题数据源问题6;.客户关系管理操作型数据整合环境业务运作系统企业数据仓库EDW数据集市客户洞察BSSCRM计费结算OSS资源管理服务开通综合网管专业网管MSS/ERP人力资源财务管理工程管理数据复制EAIODS数据视图访问ODS ETL数据复制EAIODS数据反馈ETLODS/EDW数据视图访问EDW ETL客户价值客户流失数据集市决策支持 整合的前端报表查询和分析环境多维数据访问ODS书籍营销活动渠道管

5、理客户关怀客户洞察经营分析绩效管理KPI元数据管理安全和权限管理系统管理收入分析业务发展分析客户分析客户细分营销分析营销评估监控信用度计算渠道监控综合查询综合报表数据稽核数据质量监控当企业的所有系统,包括业务系统当企业的所有系统,包括业务系统、管理系统、管理系统、EDAEDA系统都结为一体的时候,系统都结为一体的时候,系统监控、系统监控、 工作流、工作流、 数据流、数据流、 系统管理变成一个重要挑战系统管理变成一个重要挑战7;.目录目录数据质量问题分析数据质量问题分析数据质量方法论数据质量方法论质量保证成功因素质量保证成功因素案例分析案例分析8;.数据质量管理方法论数据质量管理方法论管理机制的

6、保障是数据质量控制的关键验证检查是数据保障的督促和推动严谨的过程定义是数据质量保障的基础有效的落实是数据质量保障的根本有效的组织机构是管理机制的有力支持完善文档的建立和维护是数据质量保障各个环节以及组织之间沟通的依据建立合理的数据管理机构、制定数据质量管理机制、 落实人员执行责任、保障组织间高效的沟通、持续监控数据应用过程和领导强有力的督促是保证企业数据质量的关键9;.数据质量保障流程数据质量保障流程启动启动项目范围定义定义里程碑制定工作计划评估项目并获取相应资源风险评估、快速启动项目定义定义定义数据质量焦点区域描述当前数据使用状况确定关键数据质量因素定义数据质量标准评估评估评估基础框架结构评

7、估关键数据分析导致错误的根本原因预设处理环境实现处理环境清洗并纠正错误数据对结果进行评估清洗清洗改进改进预设新的处理环境实现新的处理环境迁移至新的环境中对结果进行评估工具支持工具支持识别已知的数据质量问题 按照制定的规范获取相应的项目资源、支撑工具以及制定工作计划定义详细的过程、数据、组织的划分以及质量元素、标准及测算方法。对现存数据及业务环境进行评估,以便识别项目对数据、过程、系统以及组织架构所造成的影响。建立业务环境,改进现有数据的数据质量。10;.目录目录数据质量问题分析数据质量问题分析数据质量方法论数据质量方法论质量保证成功因素质量保证成功因素案例分析案例分析11;.综述综述按照现代质

8、量观念,质量是一个过程而不是结果。按照现代质量观念,质量是一个过程而不是结果。数据仓库的数据质量应当在整个数据仓库规划、设计、建设、维护中体现和实现。数据仓库的数据质量应当在整个数据仓库规划、设计、建设、维护中体现和实现。鉴于系统建设情况鉴于系统建设情况( (业务系统、经营分析系统业务系统、经营分析系统) ),应该重点关注,应该重点关注q管理、管理、q过程过程q评估评估评估评估管理管理 123质量保证质量保证关键成功因素关键成功因素KSFKSF12;.质量保证质量保证KSFKSF组织保证组织保证q设计岗位设计岗位q明确岗位的要求和职责明确岗位的要求和职责制定标准制定标准q制定数据上传计划制定数

9、据上传计划q制定统一编码库制定统一编码库过程过程评估评估管理管理 123质量保证质量保证关键成功因素关键成功因素KSFKSF在数据处理的流程上进行规范并设置相应的控制点和稽核点规范的流程过程校验点和稽核点异常处理措施制定数据质量的评测标准并按所制定的标准对其进行考核:标准q及时性、准及时性、准确性、一致确性、一致性等性等考核q奖励、惩罚奖励、惩罚阶段评估 13;.管理岗位管理岗位经营分析系统经营分析系统项目组项目组主管副总项目负责人项目经理数据质量管理员经营分析系统建设单位成员经营分析系统开发组业务系统接口员市场、网络、客服、计费、财务等数 据 质 量 管数 据 质 量 管理小组理小组经营分析

10、系统需求使用单位图4-1:组织结构图为经营分析系统的数据质量管理工作提供宏观方向指导,并予以授权 支持数据质量管理小组的部门或系统间协调工作 全面负责经营分析系统的建设和维护领导数据质量管理员进行数据质量管理工作编写和维护数据质量工作相关文档,如数据质量检测标准、控制流程;定期组织相关力量对经营分析系统的业务和设计(包括数据模型设计)的完备性进行评估,总结问题,及时发现影响数据质量的隐患;定期、不定期地进行质量评估;监控数据质量问题解决的整个流程;数据质量相关知识的培训;建立、维护数据质量问题解决的经验集负责经营分析系统与业务系统间的协调和工作落实参与质量方案的评估和方案制定负责监督和管理相应

11、业务系统建设、维护单位进行的与经营分析系统数据质量问题有关的活动14;.管理数据上传计划管理数据上传计划上传的文件上传的内容上传的时间计划JF_SERV_DISCT优惠用户清单每月28日20点JF_SERV_PRODUCT新业务资料每天22点JF_SERV_PRODUCT新业务资料的月基量每月28日20点JF_TRUNK_TICKET长途清单每天22点JF_ZERO_LIST零次户清单每月28日20点JF_CARD_SERV_ITEM本地智能网卡清单汇总每月28日20点JF_PHS_SERV_ITEM小灵通预付费清单汇总每月28日20点ZN_PROV_TICKET省智能网清单每月28日20点制

12、定各个业务系统的数据上传内容计划,此计划需要业务系统相应岗位人员认制定各个业务系统的数据上传内容计划,此计划需要业务系统相应岗位人员认真执行:真执行:15;.管理统一编码库管理统一编码库标准代码是指省公司统一各分公司的业务情况整理的标准的业务代码,内容是代码、名标准代码是指省公司统一各分公司的业务情况整理的标准的业务代码,内容是代码、名称及代码分类。标准代码是数据源的主要业务代码,所有的分析都是此代码组合的维度称及代码分类。标准代码是数据源的主要业务代码,所有的分析都是此代码组合的维度基础上,因此维护好代码也是保证数据质量的关键之一基础上,因此维护好代码也是保证数据质量的关键之一q建立的原则建

13、立的原则q维护的原则维护的原则分公司应该理解省公司编码有代表的实际业务内容,然后把本公司的业务对应到省公司分公司应该理解省公司编码有代表的实际业务内容,然后把本公司的业务对应到省公司的标准代码上的标准代码上q建立的原则建立的原则q维护的原则维护的原则16;.质量保证质量保证KSFKSF在行政管理以及职能上设置相应的人员、设立相应的岗位进行数据质量管理,包含以下内容:设计岗位;明确岗位的要求和职责;制定数据上传计划制定统一编码库评估评估管理管理 过程过程123质量保证质量保证关键成功因素关键成功因素KSFKSF规范规范q规范的流程检查点检查点q过程校验点和稽核点q异常处理措施制定数据质量的评测标

14、准并按所制定的标准对其进行考核:标准q及时性、准确性及时性、准确性、一致性等、一致性等考核q奖励、惩罚奖励、惩罚阶段评估 17;.过程规范的流程过程规范的流程定义了用于构造一个完善的、满足业务功能的数据仓库系统所不可缺少定义了用于构造一个完善的、满足业务功能的数据仓库系统所不可缺少的步骤和任务。这是一组预定义好的、在整个数据仓库项目中起指导作的步骤和任务。这是一组预定义好的、在整个数据仓库项目中起指导作用的、可用多种方法管理的实施步骤用的、可用多种方法管理的实施步骤 18;.过程校验点过程校验点对数据的稽核应包括三个层面的对数据的稽核应包括三个层面的KPIsKPIs检查校验,其中业务层面对于数

15、据质检查校验,其中业务层面对于数据质量保证更为重要,也更为复杂量保证更为重要,也更为复杂数据稽核 技术指标稽核 业务指标稽核 操作指标稽核文件命名是否正确文件个数是否正常索引标识是否对应文件中记录行数是否正常文件大小是否正常文件中各类指标汇总值是否异常波动根据历史经验和季节规律进行时间序列分析数据校验利器在系统中予以固化,提供自动异常预警,使操作人员可以方便地进行审核确认19;.过程稽核点过程稽核点由于各省数据情况复杂,因此数据在上传集团公司的过程中,应经过多次稽核检由于各省数据情况复杂,因此数据在上传集团公司的过程中,应经过多次稽核检验把关,才能各环节数据的质量验把关,才能各环节数据的质量本

16、地网生成并稽本地网生成并稽核核1省公司进行稽省公司进行稽核核2省公司生成并稽省公司生成并稽核核3集团进行稽核集团进行稽核4集团进行处理并展集团进行处理并展现现5省公司省公司本地网本地网生成数据生成数据检查通过?检查通过?检查通过?检查通过?处理处理/ /生成生成检查通过?检查通过?检查通过?检查通过?处理处理/ /稽核稽核/ /展现展现 省公司管控范围 集团公司管控范围 20;.过程稽核方法过程稽核方法1 1在从分公司到省公司的在从分公司到省公司的ETLETL过程中,采取总量稽核与分量稽核方法来校验环节之间的过程中,采取总量稽核与分量稽核方法来校验环节之间的数据平衡关系数据平衡关系对两个相邻环

17、节中,对数据的总量进行验证,总量指标包括:总记录数,所有度量指标的总值等。总量正确说明数据没有被丢弃,没有不符合装载逻辑规则的脏数据存在。总量不正确,则需要检查本环节装载日志中是否有被抛弃的记录,如果没有数据丢失,则需要检查数据运算逻辑规则。总量稽核要对每个度量进行,才算完整的稽核分量稽核是指对相邻的两个环节中,在总量正确的前提下,对数据分布情况的稽核,在这个过程中,需要对每个维度上的分布的每个度量进行查询,如果数据在每个维上的分布都正确,则在组合维查询时数据也正确,可以保证多维分析的正确性。在总量正确的基础之上,做分量稽核时只需要选择任一度量进行稽核,可认为在其他度量上的分量正确分量稽核分量

18、稽核总量稽核总量稽核121;.过程稽核方法过程稽核方法2 2本地网:武汉本地网 计划上传总数:25 其中 : 已采集: 20 处理中:0 未上传:5 计划外:0 文件入库入库成功文件数入库处理耗时(分钟)上传文件大小上传文件行数 实际文件大小稽核1941051867537537834105186753-入库失败文件数总记录数正确记录数错误记录数1753783475378304平衡ODS转换已转换文件数转换处理耗时(分钟)总记录数正确记录数错误记录数19 5475378307537683147平衡分析加载可加载文件数需加载文件数已加载文件数 未加载文件数19 1615 1 平衡列出整体的数据处理

19、情况,包括入库和采集及分析与渠道系统的使用列出整体的数据处理情况,包括入库和采集及分析与渠道系统的使用 222;.过程稽核方法过程稽核方法3 3 此稽核方法可以作为总量和分量稽核的辅助,即针对某个度量而言在总量上或分量上的波动在设定的阙值内认为数据时正常的,否则认为为异常,需要检查确认 对比稽核对比稽核月份08月09月增加 %产品大类费用(万元)费用(万元)费用(万元)1语音业务44,527.8045,691.602.61%2基础数据961.50990.102.97%3互联网4,361.304,522.603.70%4网元出租1,513.401,489.20-1.60%5其他产品8.611.3

20、30.99%9未知-481.30-432.1010.22%合计50,891.3052,272.702.71%总量稽核总量稽核分量稽核分量稽核323;.过程稽核方法过程稽核方法3 3 逻辑稽核主要对于某个度量在某个分量(维度)上的分布是否符合业务逻辑,逻辑稽核也是以自定义的方式实现 逻辑稽核逻辑稽核逻辑规则1月2月3月4月5月月租的次数是否为零月租的时长是否为零本地市话话计费时长应被60整除长途通话计费时长应被6整除本地市话费计费时长应大于通话时长长途通话费计费时长应大于通话时长324;.过程稽核方法过程稽核方法4 44在上传集团公司之前,通过稽核模板,对关键业务指标等在上传集团公司之前,通过稽

21、核模板,对关键业务指标等KPIsKPIs进行环比和趋势分析进行环比和趋势分析审核,确认数据在正确的范围之内审核,确认数据在正确的范围之内25;.过程异常处理措施过程异常处理措施对于存在的错误和异常情况,本地网维护人员进行原因分析和相应处理,通过对于存在的错误和异常情况,本地网维护人员进行原因分析和相应处理,通过界面回收错误数据界面回收错误数据26;.质量保证质量保证KSFKSF在行政管理以及职能上设置相应的人员、设立相应的岗位进行数据质量管理,包含以下内容:设计岗位;明确岗位的要求和职责;制定数据上传计划制定统一编码库评估评估管理管理 过程过程123质量保证质量保证关键成功因素关键成功因素KS

22、FKSF在数据处理的流程上进行规范并设置相应的控制点和稽核点规范的流程过程校验点和稽核点异常处理措施评估标准评估标准q及时性、准确性一致性等考核考核q奖励、惩罚阶段评估阶段评估 27;.评估标准评估标准数据质量分级目标数据质量分级目标q报表数据报表数据q报表数据一般对于数据的准确性要求比较高,特别是财务方面的指标,是严格报表数据一般对于数据的准确性要求比较高,特别是财务方面的指标,是严格限定在误差范围内的。对于报表的指标,即使是允许的误差范围,也要求给出限定在误差范围内的。对于报表的指标,即使是允许的误差范围,也要求给出误差产生的原因,例如是小数点四舍五入或是由于秒转换到分钟算法不同等。误差产

23、生的原因,例如是小数点四舍五入或是由于秒转换到分钟算法不同等。qOLAPOLAP数据分析数据分析 qOLAPOLAP分析一般是总体数据的宏观比例、趋势等分析,对于数据总量的误差有一分析一般是总体数据的宏观比例、趋势等分析,对于数据总量的误差有一定的限制,但要求数据在不同维度上的分布比例正确,能够正确反映宏观比例定的限制,但要求数据在不同维度上的分布比例正确,能够正确反映宏观比例和趋势。和趋势。q数据挖掘数据挖掘 q数据挖掘一般使用比较复杂的数学算法对于数据进行处理,因算法比较复杂,数据挖掘一般使用比较复杂的数学算法对于数据进行处理,因算法比较复杂,对于硬件环境要求比较高,同时也限定了使用的数据

24、集合不能太大,一般要求对于硬件环境要求比较高,同时也限定了使用的数据集合不能太大,一般要求对于全体数据进行采样,因此在这个过程中,仅关心样本的代表性。对于全体数据进行采样,因此在这个过程中,仅关心样本的代表性。 28;.评估标准评估标准接口数据接口数据q文件传送完整率文件传送完整率q每日传送至分析系统中的完整的接口文件百分比(其中,完整的接口文件指文每日传送至分析系统中的完整的接口文件百分比(其中,完整的接口文件指文件的名称、格式、时间标识、文件大小等均符合经营分析系统接口规范规定的件的名称、格式、时间标识、文件大小等均符合经营分析系统接口规范规定的接口文件)接口文件)q文件记录合法率文件记录

25、合法率q接口文件记录中各数据项长度、类型及值域均符合接口规范定义接口文件记录中各数据项长度、类型及值域均符合接口规范定义q文件传送及时率文件传送及时率q在接口规范中规定的文件传送时间窗口内传送至分析系统的文件个数百分比在接口规范中规定的文件传送时间窗口内传送至分析系统的文件个数百分比29;.评估标准评估标准接口表接口表q数据处理及时率数据处理及时率q在文件正确到达后及时处理文件比率在文件正确到达后及时处理文件比率ODSODS层数据层数据q数据处理及时率数据处理及时率q转换后的转换后的ODSODS层及时准确情况层及时准确情况 数据仓库检查数据仓库检查q数据处理及时率数据处理及时率q数据仓库层处理

26、及时准确情况数据仓库层处理及时准确情况30;.目录目录数据质量问题分析数据质量问题分析数据质量方法论数据质量方法论质量保证成功因素质量保证成功因素案例分析案例分析31;.案例案例11某省电信某省电信源系统的数据质量问题源系统的数据质量问题q信息不正确:数据无效或错误,违反数据约束规则、业务规则等。信息不正确:数据无效或错误,违反数据约束规则、业务规则等。q信息不完整:源系统中某些信息缺失或未填充,虽然不影响源系统正常运转,但这信息不完整:源系统中某些信息缺失或未填充,虽然不影响源系统正常运转,但这些信息的缺失会严重影响数据仓库的应用分析。些信息的缺失会严重影响数据仓库的应用分析。q信息不一致:

27、当同一信息内容来自多个源系统时,存在冲突和差异,或者同一业务信息不一致:当同一信息内容来自多个源系统时,存在冲突和差异,或者同一业务系统内部的冗余信息之间存在冲突。系统内部的冗余信息之间存在冲突。编码映射问题编码映射问题 q标准编码不完全、不合理标准编码不完全、不合理 :许多本地网编码不能归类到标准编码,导致:许多本地网编码不能归类到标准编码,导致 “ “未知未知”一栏的数量奇高,降低了应用分析的价值,并影响使用人员对系统的信任度。一栏的数量奇高,降低了应用分析的价值,并影响使用人员对系统的信任度。q编码映射不合理:将本地网编码归类到标准编码时有错误或不合理,导致与业务系编码映射不合理:将本地

28、网编码归类到标准编码时有错误或不合理,导致与业务系统形成重大差距。统形成重大差距。q本地网编码发生调整,数据仓库未同步修改:将导致新增编码归类到本地网编码发生调整,数据仓库未同步修改:将导致新增编码归类到 “ “未知未知”一类一类,发生变化的编码,归类到错误的标准编码。,发生变化的编码,归类到错误的标准编码。指标统计问题指标统计问题q指标定义不一致:各本地网对指标理解不一致,导致提供上来的数据不标准、不具指标定义不一致:各本地网对指标理解不一致,导致提供上来的数据不标准、不具可比性。可比性。q统计口径不一致:各本地网对统计口径理解不一致,导致本系统可能与各本地网系统计口径不一致:各本地网对统计

29、口径理解不一致,导致本系统可能与各本地网系统形成重大差距。统形成重大差距。ETLETL数据质量问题数据质量问题q技术性问题:包括脚本未按规范编写,存在语法错误或逻辑错误,或者没有遵循数技术性问题:包括脚本未按规范编写,存在语法错误或逻辑错误,或者没有遵循数据约束规则(如唯一性、引用性、非空等)。据约束规则(如唯一性、引用性、非空等)。q非技术性问题:包括对业务规则理解不准确、编码规则不一致等产生的问题。非技非技术性问题:包括对业务规则理解不准确、编码规则不一致等产生的问题。非技术性问题通常需要向业务专家、统计专家、源系统维护人员咨询。术性问题通常需要向业务专家、统计专家、源系统维护人员咨询。3

30、2;.数据质量检查的技术方法及考核指标数据质量检查的技术方法及考核指标文件级检查:文件级检查:q及时性及时性q正确性:打开正常正确性:打开正常、文件大小正常、文件大小正常/ /波波动范围内动范围内q记录合法性:记录记录合法性:记录数、记录长度正常数、记录长度正常文件级检查:文件级检查:数据域检查:数据域检查:q记录中数值字段、日期字段是否合法记录级检查:记录级检查:q主键检查q外键检查q编码映射检查q数据值域检查q业务规则检查记录级检查:记录级检查:q业务规则检查业务指标检查:业务指标检查:q业务指标平衡性检查q同一指标在临时区、DW、DM/OLAP平衡检查q客户、用户q业务指标波动性检查q收入、详单数q业务指标与业务系统比对文件级文件级KPIKPI:q文件及时率q文件正确率文件级文件级KPIKPI:q文件及时率/正确率q文件处理及时率q记录合法率记录级记录级KPIKPI:q主键合法率q外键合法率q编码映射合法率q数据值域合法率q业务规则合法率记录级记录级KPIKPI:q业务规则合法率业务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论