版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库专题讲座
之
数据质量管理缪翀莺2005年9月目录数据质量问题分析数据质量方法论质量保证成功因素案例分析数据质量归类Copyright©2004,Oracle.Allrightsreserved.数据质量金字塔•不同数据源相同实体数据不同•已汇总数据与详细数据的再汇总不一致•处理数据超出了用户忍耐•结果过时•业务规则•统计口径•违反唯一性约束•违反主外键关系•丢失数据•丢失数据包含的属性信息•数据超出值域范围•数据类型不匹配•数据日期格式错准确性及时性一致性唯一性和参考完备性完整性数据类型和值域错误的值错误的数据依赖重复属性缺乏引用完整性违反商务规那么多种数据源中缺乏数据对应源数据和目标缺乏同步没有理由的关联缺少数据错误的计算主键重复无标准的格式稀少的实体解释数据质量的例如错误的范围原因分析各专业之间的指标体系及编码规那么不一致多个生产系统的数据源存在不一致现象数据源本身存在脏数据噪声数据数据存在人工操作不同数据源由不同部门管理由于生产系统的数据是随生产而变化的,在不同的时间点进行数据抽取的数据是不一致的生产系统的不同版本各分公司市场政策的差异同一产品、业务、套餐在生产系统业务处理规那么编码差异很大统计口径数据抽取时间点问题
业务规那么问题数据源问题客户关系管理操作型数据整合环境ODS业务运作系统企业数据仓库EDW数据集市客户洞察BSSCRM计费结算OSS资源管理效劳开通综合网管专业网管MSS/ERP人力资源财务管理工程管理数据复制EAIODS数据视图访问ODSETL数据复制EAIODS数据反响ETLODS/EDW数据视图访问EDWETL客户价值客户流失数据集市决策支持整合的前端报表查询和分析环境多维数据访问ODS书籍营销活动渠道管理客户关心客户洞察经营分析绩效管理KPI其他数据反响分析数据元数据管理平安和权限管理系统管理收入分析业务开展分析客户分析客户细分营销分析营销评估监控信用度计算渠道监控综合查询综合报表数据挖掘数据稽核数据质量监控当企业的所有系统,包括业务系统、管理系统、EDA系统都结为一体的时候,系统监控、工作流、数据流、系统管理变成一个重要挑战目录数据质量问题分析数据质量方法论质量保证成功因素案例分析数据质量管理方法论管理机制的保障是数据质量控制的关键验证检查是数据保障的催促和推动严谨的过程定义是数据质量保障的根底有效的落实是数据质量保障的根本有效的组织机构是管理机制的有力支持完善文档的建立和维护是数据质量保障各个环节以及组织之间沟通的依据建立合理的数据管理机构、制定数据质量管理机制、落实人员执行责任、保障组织间高效的沟通、持续监控数据应用过程和领导强有力的催促是保证企业数据质量的关键数据质量保障流程启动项目范围定义定义里程碑制定工作计划评估项目并获取相应资源风险评估、快速启动项目定义定义数据质量焦点区域描述当前数据使用状况确定关键数据质量因素定义数据质量标准评估评估基础框架结构评估关键数据分析导致错误的根本原因预设处理环境实现处理环境清洗并纠正错误数据对结果进行评估清洗改进预设新的处理环境实现新的处理环境迁移至新的环境中对结果进行评估工具支持识别已知的数据质量问题按照制定的标准获取相应的工程资源、支撑工具以及制定工作方案定义详细的过程、数据、组织的划分以及质量元素、标准及测算方法。对现存数据及业务环境进行评估,以便识别工程对数据、过程、系统以及组织架构所造成的影响。建立业务环境,改进现有数据的数据质量。目录数据质量问题分析数据质量方法论质量保证成功因素案例分析综述按照现代质量观念,质量是一个过程而不是结果。数据仓库的数据质量应当在整个数据仓库规划、设计、建设、维护中表达和实现。鉴于系统建设情况(业务系统、经营分析系统),应该重点关注管理、过程评估评估管理123质量保证关键成功因素KSF质量保证KSF组织保证设计岗位明确岗位的要求和职责制定标准制定数据上传方案制定统一编码库过程评估管理123质量保证关键成功因素KSF在数据处理的流程上进行标准并设置相应的控制点和稽核点标准的流程过程校验点和稽核点异常处理措施制定数据质量的评测标准并按所制定的标准对其进行考核:标准及时性、准确性、一致性等考核奖励、惩罚阶段评估
管理-岗位经营分析系统项目组主管副总项目负责人项目经理数据质量管理员经营分析系统建设单位成员经营分析系统开发组业务系统接口员市场、网络、客服、计费、财务等数据质量管理小组经营分析系统需求使用单位图4-1:组织结构图为经营分析系统的数据质量管理工作提供宏观方向指导,并予以授权
支持数据质量管理小组的部门或系统间协调工作全面负责经营分析系统的建设和维护领导数据质量管理员进行数据质量管理工作编写和维护数据质量工作相关文档,如数据质量检测标准、控制流程;定期组织相关力量对经营分析系统的业务和设计〔包括数据模型设计〕的完备性进行评估,总结问题,及时发现影响数据质量的隐患;定期、不定期地进行质量评估;监控数据质量问题解决的整个流程;数据质量相关知识的培训;建立、维护数据质量问题解决的经验集负责经营分析系统与业务系统间的协调和工作落实参与质量方案的评估和方案制定负责监督和管理相应业务系统建设、维护单位进行的与经营分析系统数据质量问题有关的活动管理-数据上传方案上传的文件上传的内容上传的时间计划JF_SERV_DISCT优惠用户清单每月28日20点JF_SERV_PRODUCT新业务资料每天22点JF_SERV_PRODUCT新业务资料的月基量每月28日20点JF_TRUNK_TICKET长途清单每天22点JF_ZERO_LIST零次户清单每月28日20点JF_CARD_SERV_ITEM本地智能网卡清单汇总每月28日20点JF_PHS_SERV_ITEM小灵通预付费清单汇总每月28日20点ZN_PROV_TICKET省智能网清单每月28日20点制定各个业务系统的数据上传内容方案,此方案需要业务系统相应岗位人员认真执行:管理-统一编码库标准代码是指省公司统一各分公司的业务情况整理的标准的业务代码,内容是代码、名称及代码分类。标准代码是数据源的主要业务代码,所有的分析都是此代码组合的维度根底上,因此维护好代码也是保证数据质量的关键之一建立的原那么维护的原那么分公司应该理解省公司编码有代表的实际业务内容,然后把本公司的业务对应到省公司的标准代码上建立的原那么维护的原那么质量保证KSF在行政管理以及职能上设置相应的人员、设立相应的岗位进行数据质量管理,包含以下内容:设计岗位;明确岗位的要求和职责;制定数据上传方案制定统一编码库评估管理过程123质量保证关键成功因素KSF标准标准的流程检查点过程校验点和稽核点异常处理措施制定数据质量的评测标准并按所制定的标准对其进行考核:标准及时性、准确性、一致性等考核奖励、惩罚阶段评估
过程-标准的流程定义了用于构造一个完善的、满足业务功能的数据仓库系统所不可缺少的步骤和任务。这是一组预定义好的、在整个数据仓库工程中起指导作用的、可用多种方法管理的实施步骤过程-校验点对数据的稽核应包括三个层面的KPIs检查校验,其中业务层面对于数据质量保证更为重要,也更为复杂数据稽核技术指标稽核业务指标稽核操作指标稽核文件命名是否正确文件个数是否正常索引标识是否对应文件中记录行数是否正常文件大小是否正常文件中各类指标汇总值是否异常波动根据历史经验和季节规律进行时间序列分析--数据校验利器在系统中予以固化,提供自动异常预警,使操作人员可以方便地进行审核确认过程-稽核点由于各省数据情况复杂,因此数据在上传集团公司的过程中,应经过屡次稽核检验把关,才能各环节数据的质量本地网生成并稽核1省公司进行稽核2省公司生成并稽核3集团进行稽核4集团进行处理并展现5省公司本地网生成数据检查通过?检查通过?处理/生成检查通过?检查通过?处理/稽核/展现省公司管控范围集团公司管控范围过程-稽核方法1在从分公司到省公司的ETL过程中,采取总量稽核与分量稽核方法来校验环节之间的数据平衡关系对两个相邻环节中,对数据的总量进行验证,总量指标包括:总记录数,所有度量指标的总值等。总量正确说明数据没有被丢弃,没有不符合装载逻辑规那么的脏数据存在。总量不正确,那么需要检查本环节装载日志中是否有被抛弃的记录,如果没有数据丧失,那么需要检查数据运算逻辑规那么。总量稽核要对每个度量进行,才算完整的稽核分量稽核是指对相邻的两个环节中,在总量正确的前提下,对数据分布情况的稽核,在这个过程中,需要对每个维度上的分布的每个度量进行查询,如果数据在每个维上的分布都正确,那么在组合维查询时数据也正确,可以保证多维分析的正确性。在总量正确的根底之上,做分量稽核时只需要选择任一度量进行稽核,可认为在其他度量上的分量正确分量稽核总量稽核1过程-稽核方法2本地网:武汉本地网
计划上传总数:25
其中:已采集:
20
处理中:0
未上传:5
计划外:0
文件入库入库成功文件数入库处理耗时(分钟)上传文件大小上传文件行数实际文件大小稽核1941051867537537834105186753-
入库失败文件数
总记录数正确记录数错误记录数
1
753783475378304平衡ODS转换已转换文件数转换处理耗时(分钟)总记录数正确记录数错误记录数
195475378307537683147平衡分析加载
可加载文件数需加载文件数已加载文件数未加载文件数
1916151平衡列出整体的数据处理情况,包括入库和采集及分析与渠道系统的使用2过程-稽核方法3此稽核方法可以作为总量和分量稽核的辅助,即针对某个度量而言在总量上或分量上的波动在设定的阙值内认为数据时正常的,否那么认为为异常,需要检查确认对比稽核月份08月09月增加%产品大类费用(万元)费用(万元)费用(万元)[1]语音业务44,527.8045,691.602.61%[2]基础数据961.50990.102.97%[3]互联网4,361.304,522.603.70%[4]网元出租1,513.401,489.20-1.60%[5]其他产品8.611.330.99%[9]未知-481.30-432.1010.22%合计50,891.3052,272.702.71%总量稽核分量稽核3过程-稽核方法3逻辑稽核主要对于某个度量在某个分量〔维度〕上的分布是否符合业务逻辑,逻辑稽核也是以自定义的方式实现逻辑稽核逻辑规则1月2月3月4月5月月租的次数是否为零√√√√√月租的时长是否为零√√√√√本地市话话计费时长应被60整除√√√√√长途通话计费时长应被6整除√√√√√本地市话费计费时长应大于通话时长√√√√×长途通话费计费时长应大于通话时长×√√√√3过程-稽核方法44在上传集团公司之前,通过稽核模板,对关键业务指标等KPIs进行环比和趋势分析审核,确认数据在正确的范围之内过程-异常处理措施对于存在的错误和异常情况,本地网维护人员进行原因分析和相应处理,通过界面回收错误数据质量保证KSF在行政管理以及职能上设置相应的人员、设立相应的岗位进行数据质量管理,包含以下内容:设计岗位;明确岗位的要求和职责;制定数据上传方案制定统一编码库评估管理过程123质量保证关键成功因素KSF在数据处理的流程上进行标准并设置相应的控制点和稽核点标准的流程过程校验点和稽核点异常处理措施评估标准及时性、准确性
一致性等考核奖励、惩罚阶段评估评估-标准数据质量分级目标报表数据报表数据一般对于数据的准确性要求比较高,特别是财务方面的指标,是严格限定在误差范围内的。对于报表的指标,即使是允许的误差范围,也要求给出误差产生的原因,例如是小数点四舍五入或是由于秒转换到分钟算法不同等。OLAP数据分析OLAP分析一般是总体数据的宏观比例、趋势等分析,对于数据总量的误差有一定的限制,但要求数据在不同维度上的分布比例正确,能够正确反映宏观比例和趋势。数据挖掘数据挖掘一般使用比较复杂的数学算法对于数据进行处理,因算法比较复杂,对于硬件环境要求比较高,同时也限定了使用的数据集合不能太大,一般要求对于全体数据进行采样,因此在这个过程中,仅关心样本的代表性。评估-标准接口数据文件传送完整率每日传送至分析系统中的完整的接口文件百分比〔其中,完整的接口文件指文件的名称、格式、时间标识、文件大小等均符合经营分析系统接口标准规定的接口文件〕文件记录合法率接口文件记录中各数据项长度、类型及值域均符合接口标准定义文件传送及时率在接口标准中规定的文件传送时间窗口内传送至分析系统的文件个数百分比评估-标准接口表数据处理及时率在文件正确到达后及时处理文件比率ODS层数据数据处理及时率转换后的ODS层及时准确情况数据仓库检查数据处理及时率数据仓库层处理及时准确情况目录数据质量问题分析数据质量方法论质量保证成功因素案例分析案例1——某省电信源系统的数据质量问题信息不正确:数据无效或错误,违反数据约束规那么、业务规那么等。信息不完整:源系统中某些信息缺失或未填充,虽然不影响源系统正常运转,但这些信息的缺失会严重影响数据仓库的应用分析。信息不一致:当同一信息内容来自多个源系统时,存在冲突和差异,或者同一业务系统内部的冗余信息之间存在冲突。编码映射问题标准编码不完全、不合理:许多本地网编码不能归类到标准编码,导致“未知〞一栏的数量奇高,降低了应用分析的价值,并影响使用人员对系统的信任度。编码映射不合理:将本地网编码归类到标准编码时有错误或不合理,导致与业务系统形成重大差距。本地网编码发生调整,数据仓库未同步修改:将导致新增编码归类到“未知〞一类,发生变化的编码,归类到错误的标准编码。指标统计问题指标定义不一致:各本地网对指标理解不一致,导致提供上来的数据不标准、不具可比性。统计口径不一致:各本地网对统计口径理解不一致,导致本系统可能与各本地网系统形成重大差距。ETL数据质量问题技术性问题:包括脚本未按标准编写,存在语法错误或逻辑错误,或者没有遵循数据约束规那么〔如唯一性、引用性、非空等〕。非技术性问题:包括对业务规那么理解不准确、编码规那么不一致等产生的问题。非技术性问题通常需要向业务专家、统计专家、源系统维护人员咨询。数据质量检查的技术方法及考核指标文件级检查:及时性正确性:翻开正常、文件大小正常/波动范围内记录合法性:记录数、记录长度正常文件级检查:数据域检查:记录中数值字段、日期字段是否合法记录级检查:主键检查外键检查编码映射检查数据值域检查业务规那么检查记录级检查:业务规那么检查业务指标检查:业务指标平衡性检查同一指标在临时区、DW、DM/OLAP平衡检查客户、用户业务指标波动性检查收入、详单数业务指标与业务系统比对文件级KPI:文件及时率文件正确率文件级KPI:文件及时率/正确率文件处理及时率记录合法率记录级KPI:主键合法率外键合法率编码映射合法率数据值域合法率业务规那么合法率记录级KPI:业务规那么合法率业务指标KPI:指标处理及时率指标一致性指标准确性数据质量工作组织机构与各方职责经营分析及决策支持系统开发及维护人员数据质量领导小组公司领导及管理人员
数据质量管理员源系统维护人员数据质量专家组业务专家检查、发现数据质量问题,及时向质量管理员提交数据质量问题报告;参与数据质量问题解决方案讨论;解决本系统范围内的数据质量问题;向质量管理员反馈处理结果。分析源系统数据质量问题原因,拟定解决方案;解决处理源系统数据质量问题分析源系统升级可能对经营
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国风电主轴行业开拓第二增长曲线战略制定与实施研究报告
- 2025-2030年中国在线出境游行业全国市场开拓战略制定与实施研究报告
- 2025-2030年中国连锁酒店行业开拓第二增长曲线战略制定与实施研究报告
- 2025-2030年中国美甲行业全国市场开拓战略制定与实施研究报告
- 2025-2030年中国黄金行业开拓第二增长曲线战略制定与实施研究报告
- 肇庆地区地质地貌实习报告-总结报告模板
- 2025年中国采矿采石设备制造行业市场需求预测与投资战略规划分析报告
- 广西河池市罗城县2021-2022学年五年级上学期英语期末试卷
- 春节新媒营销之道
- 春节购房共筑新希望
- 教育管理学课件-管理、教育管理和教育管理学之概述
- 东方电影学习通超星期末考试答案章节答案2024年
- 安徽省安庆市迎江区2023-2024学年四年级上学期期末数学试卷
- 护理教学基本方法与技巧
- 肺炎试题及答案
- 化粪池计算表格Excel(自动版)
- 倪海厦《天纪》讲义
- DB44∕T 1379-2014 化妆刷-行业标准
- 平安礼仪规范
- 幼儿专注力训练-运笔练习-连线练习-可打印(共26页)
- 铭心集团校企合作订单班实施方案
评论
0/150
提交评论