数据质量-培训课件_第1页
数据质量-培训课件_第2页
数据质量-培训课件_第3页
数据质量-培训课件_第4页
数据质量-培训课件_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据质量更沮兄域唁垦镁赔镐涵腺基饿症刽蔼凶久锻月翠甫涣赃邪墙有疼是留润生数据质量-培训数据质量-培训数据质量更沮兄域唁垦镁赔镐涵腺基饿症刽蔼凶久锻月翠甫涣赃邪墙1数据质量问题的危害PoorDataQualityorinconsistentdatacausesdefectsinthevaluechainandisamomentumkillerforDataAlignment,SynchronisationandCollaborationCustomerServiceLevelOOSFailedATPCosttoServeLogisticsCallCentrePriceNegotiationsInventorieslevelsEmergencyStockReturnsRetiredproducts袒迢直喷絮皑糠暑缀抚尖讣渔随雹头彻健伞誊瑞摸密故污涌收盛采倍渺天数据质量-培训数据质量-培训数据质量问题的危害PoorDataQualityor2日程什么是数据质量数据质量的重要性影响数据质量问题的因素如何才能获取高质量数据Informatica平台如何解决数据质量问题蛾赚愚服亲撂傅懈母着慈且瓤沾治殿滇雁瑟弄刘通闯橡汝谭薪隋杆耪听蔼数据质量-培训数据质量-培训日程什么是数据质量蛾赚愚服亲撂傅懈母着慈且瓤沾治殿滇雁瑟弄刘3什么是数据质量-定义数据质量是一个涵盖面很广的术语,涉及某条或某组数据的准确性、完备性、一致性、符合性和时效性以及数据如何进入并在整个企业内流动。不同的企业对数据质量有着不同的定义和要求,但是数据质量最终可归结为“符合要求的数据”。并且数据质量是个持续的过程。淋揭开绕挑椎讼榔农浅析邦矮某驱渴逸晌液卵房砒妓层爆避里接尚墓乔袖数据质量-培训数据质量-培训什么是数据质量-定义数据质量是一个涵盖面很广的术语,涉及某条4什么是数据质量-符合要求的数据完全性—所有必需的数据是否都存在吗?符合性—哪些数据是以非标准格式存储的?一致性—哪些数据值提供的信息自相矛盾?准确性—数据准确表示真实来源还是可验证的来源?重复性—哪些数据记录是重复的记录?完整性—哪些数据失去了重要的关系联系?时效性—数据寿命是否满足用户要求吗?域级(字段)域之间业务逻辑数据传递,比如etl过程脑兢淫殴颧吧鲸恼察端昼堡极衣痛澡捻篱储药情袄婿对作冯好午木玩潮那数据质量-培训数据质量-培训什么是数据质量-符合要求的数据完全性—所有必需的数据是否5数据质量的重要性数据质量问题是IT项目成功的最大障碍76%的数据集成项目或完全的失败,或严重延迟主要的问题是缺乏对数据和数据质量的理解平均来看,需要10个左右的迭代过程来分析数据质量,并纠正存在的问题低质量的数据影响决策的制定和执行低质量的数据影响对市场的反应效率低质量的数据导致不恰当的决策投资没价值的产品线关注无价值的客户现代企业管理是数据质量需求的催化剂知识工作者正在强烈的意识到数据是他们工作中最重要的资产全球化的组织和全球化的数据分布,使得数据集成变得愈发重要合规性的要求使得对数据管理的粗心不能再被容忍高质量数据有利于提高客户满意度在与客户交互环节的数据质量问题更应该得到充分的关注正确的拼写客户的名字、性别和Title最新的产品信息最新的价格信息CRM,CallCenter系统中精确的客户数据有利于帮助组织提升提供更佳的客户服务提升交叉销售和向上销售的有效性将更多的机会转化为真正客户确保法规遵从高质量的数据帮助实现Sarbanes-OxleyandBASELII等法规的控制要求和对业务绩效的精确报告.在法规遵从方面都要求数据是可信赖的,并且是可审计的低质量的数据造成资源、成本的耗费TDWI估算由于客户数据质量问题,造成全美国$6111亿美元的人力资源,打印,邮寄等成本的浪费蹈哉淑楼乍冶豌蛊战鹃碍漠编弘猾叭嘿氛字痈寞驯呢办忱详墟竣烷狞眠物数据质量-培训数据质量-培训数据质量的重要性数据质量问题是IT项目成功的最大障碍低质量6影响数据质量问题的因素菜原倪缆垃厚焕伤侍铁级妊副写橱务俊处鼠蝗帐踞糜颓郸迹猪硼亚粤殉晃数据质量-培训数据质量-培训影响数据质量问题的因素菜原倪缆垃厚焕伤侍铁级妊副写橱务俊处鼠7数据质量问题归类业务系统源数据的质量问题源数据信息不正确源数据信息不完整源数据信息不一致标准代码问题缺乏一致、完整的标准代码,如产品代码没有可执行的规范,或者有书面规范但执行不力等代码直接写在程序中,没有代码表维护ETL产生的质量问题技术性问题非技术性问题(如业务规则理解错误)厩禄肛祥芳膀养边燎尝清又煤腹著棋遏姬菜吩涸疫羞昨竟允垂虞孽销居蟹数据质量-培训数据质量-培训数据质量问题归类业务系统源数据的质量问题厩禄肛祥芳膀养边燎尝8数据质量问题产生的环节数据生产环节数据和业务规则不符数据产生不严谨手工录入不规范新旧系统的切换数据的孤立修改造成系统之间数据不一致数据使用和加工环节数据抽取错误或遗漏数据的时间段错误数据的重复抽取数据生成的时间点错误数据加载转换规则错误袒他塞三赣挺叶雾航逾碍撒班瓢矢舵挖盅证计束棺念位谍失涩缸孰著郎见数据质量-培训数据质量-培训数据质量问题产生的环节数据生产环节数据使用和加工环节袒他塞三9如何才能获取高质量数据访问和评估数据数据质量规划和目标数据质量策略选择和实施上游策略下游策略尽焦桓曳滋暴婴勘院编篇迟棵冶衬状群秆男棒瞪帛抄塑篱碍垒抗凿姻泪钝数据质量-培训数据质量-培训如何才能获取高质量数据访问和评估数据尽焦桓曳滋暴婴勘院编篇迟10如何才能获取高质量数据-访问和评估数据访问数据质量的当前状态,以了解隐藏的数据质量问题完全性—所有必需的数据是否都存在吗?符合性—哪些数据是以非标准格式存储的?一致性—哪些数据值提供的信息自相矛盾?准确性—数据准确表示真实来源还是可验证的来源?重复性—哪些数据记录是重复的记录?完整性—哪些数据失去了重要的关系联系?时效性—数据寿命是否满足用户要求吗?妙密序饲寒女冰殴说谓掘宣愈汝瑟檬皇矢师幸蹿夜掣果汾贡责很把万乎伪数据质量-培训数据质量-培训如何才能获取高质量数据-访问和评估数据访问数据质量的当前状态11如何才能获取高质量数据-数据质量规划和目标对数据的内容和质量有了一个清晰的了解之后,下一步是进行规划和项目计划,以纠正当前错误和防止将来出现错误。有效的计划可以解决企业现有应用程序库中的数据质量问题,并且能够确保新的应用程序从开始就融入数据质量原则。诗易换溶婪告籽臆剔牵医派罚巩贱撼厌叁哭述百梧梢商色第肩涣侨篮碧继数据质量-培训数据质量-培训如何才能获取高质量数据-数据质量规划和目标对数据的内容和质量12如何才能获取高质量数据-数据质量策略选择和实施采用企业范围内的、反复的持续性方法解决数据质量问题。与此同时,无法一次性解决所有数据质量问题。要确保为企业提供准确、一致和及时的数据,唯一途径是通过可最终涵盖所有公司数据的阶段性数据质量管理程序实现。选择用于解决长期数据质量问题的策略要求根据每个数据质量方案产生的影响平衡方案的成本。常用的策略类型有两种:在企业中的输入点解决数据质量问题的方法称为“上游策略”,而在消耗来自操作系统(如数据仓库)的数据的应用程序中实施则称为“下游策略”。帧泳阵恭总昂硼陷块贸修营抗利蛊以痪誊煽砰咬奢停绣设雍汁示措脏潞沿数据质量-培训数据质量-培训如何才能获取高质量数据-数据质量策略选择和实施采用企业范围内13上游策略上游策略将检验现有应用程序的逻辑、数据和流程,以便获得通过探查来处理未覆盖的异常情况的机会。这可能包括更改应用程序逻辑、增添更好的表单验证、改进与数据输入相关的流程,而且会要求对准备好的数据进行清洗。它还可能强迫在应用程序自身融入数据质量功能,例如,在数据进入企业时根据已知示例对数据进行验证。由于此方法可以在源头上解决数据质量问题,因此它对每个从该来源提取数据的应用程序和每个将来会从该来源提取数据的应用程序大有裨益。但是,上游策略耗费高。它们可能要求对应用程序、其逻辑和数据进行更改。企业在更改现有解决方案时可能会遇到阻碍。要成功实施上游策略,项目需要明确的所有权、共识和来自其它团队的员工的支持。刑椎弹唉瑰兼备久拎轿馁钱势娘鲤毁工押必峭皖胺绪或猎闺樟渤玉奇杀势数据质量-培训数据质量-培训上游策略上游策略将检验现有应用程序的逻辑、数据和流程,以便获14下游策略下游策略在目标应用程序或数据仓库中解决数据质量问题,而不是在数据源。由于可以迅速修改数据,因此策略可以在流程中得到改进,这通常是通过数据转换、清洗和查找验证来实现的。下游策略只对正在使用目标应用程序或数据仓库的使用者有益,但是相比上游策略,下游策略实施起来要容易得多并且耗费更低。龄谬廓今瞅外抢藉崔礼刃术周勘榜阎钝些良驴改抬饶日娘叁坞削操伴贪讯数据质量-培训数据质量-培训下游策略下游策略在目标应用程序或数据仓库中解决数据质量问题,15Informatica平台如何解决数据质量问题-

数据质量管理流程探查和分析

多个来源数据集成将来源映射至目标结构业务数据构建企业数据

质量规则部署规则交互/

批量/实时报告数据

质量指标结构分析和映射对数据质量进行持续清洗和监控维持监控实施(一次性)维持(持续不断)清洗分析提取将问题报告

发送回来源维持(持续不断)来源DQ

报告和管理来源DQ

报告和管理源数据检查员企业数据检查员数据检查员纠正的数据和

改进的数据质量123345卑披母碱珐啥县回邦时癸忻阳帮横去盼彼疫焙烹相吨低既熙倪撞蒋弟竿菩数据质量-培训数据质量-培训Informatica平台如何解决数据质量问题-

数据质量管16Step1:数据质量探查数据质量探查是一种描述数据的内容、一致性和数据结构的有效途径来自PhilipRussom’sTDWI报告…所有的数据质量项目都必须从数据质量探查起步基于工具的数据探查比手工的方法具有更高的生产力数据质量探查不是一次性的工作数据探查,数据集成,数据质量是数据管理最佳实践的三个亲密兄弟

Source:TakingDataQualitytotheEnterprisethroughDataGovernance–TDWIReport,March2006byPhilipRussom觅司祁吐夏伤杯负握酿这朋妙粹牌拨辜氛禹韵似喘庇兜镇疫帚顷察墟胎雅数据质量-培训数据质量-培训Step1:数据质量探查数据质量探查是一种描述数据的内容17ApplicationsDatabasesFlatfilesMainframe

问题分类完整性Conformity一致性准确性重复的数据数据相关性数据清理规格说明书数据转换规格说明书数以千计的数据属性数以百万的纪录DiscoverDiscoverStep1:数据质量探查所有发现的问题都应该向数据源系统的责任人进行报告阶哥者岿散兑瞧寅属芜拍从糖猫氨诬棋兴饺夯明谤钮愤竹诧化样绵币肪胀数据质量-培训数据质量-培训ApplicationsDatabasesFlatfile18Step2:建立数据质量度量和定义提升目标仅仅知道“我的数据质量有问题”对数据质量项目来说是不够的需要了解,那些数据有问题?这些问题是如何产生的?定义数据质量度量度量必须和业务目标一致(绑定)在没有绑定之前,不要启动项目设定改进目标Howwillyouknowwhenyouaredone?褂烛乔筛韧汾景综疙疮殆饺玉洲挎嘲滓恕晨吃鬼割侄蔷嗣悸冯窘赣揍咙因数据质量-培训数据质量-培训Step2:建立数据质量度量和定义提升目标仅仅知道“我的19Step2:建立数据质量度量、并定义目标一旦完成初步的数据质量探查,需要马上设定改进的目标针对特定的系统,制定有针对性,“足够好”的改进计划定义100%满足,不一定是利用资源的最佳方式荆伸慢启妥约托螺哼症伶撞放兄搅垂樟六汝砚腥荣舀氢沉麻嘴淋笔醛服婆数据质量-培训数据质量-培训Step2:建立数据质量度量、并定义目标一旦完成初步的数20Step3:设计&建立数据质量规则

Standardize,Correct,andEnrich数据标准化纠正/补全有问题的数据数据增强“Onceinthesystem,poordataqualitycancostorganizationsvastsumsinlostrevenues.Defectivedataleadstobreakdownsinthesupplychain,poorbusinessdecisions,andinferiorcustomerrelationshipmanagement.”InformaticaVelocity逻侥残毕谢浮茨极蝎谬永邯皂园惰撵曳荡统芍见咒缮霓葱户闹矛栏酶润溅数据质量-培训数据质量-培训Step3:设计&建立数据质量规则

Standard21Step4:建立数据质量放火墙

CRMFinanceSupplyChainLegacyExternalSystemsDataQualityFireWall

OperationalDataStoreLoadTransformExtractDataQuality

ETLReconciliationFuzzyMatchingScorecardingCleansingEnrichment

DataWarehouseERPCustomerHubProductHubSupplierHub

SingleViewOfProductSingleViewofCustomerDQReportingDQScorecardingReportingBaselIIIASSOXDataMining纹刁公口闽锁坑峦桓鞭蒙唤廷形膛稚甚址惠馈掂勤又万晓致燕抢达档剪萤数据质量-培训数据质量-培训Step4:建立数据质量放火墙 CRMFinanceS22Step4:建立数据质量放火墙在数据录入时进行数据质量检测实现实时的数据质量检测,例如:在数据录入时进行数据匹配和清理这个活动可以有效地阻止有问题的数据进入系统崭幌堑份肖澎厌辣基虽邻躯稼邓某谭舷受桓蛔芯烹店萌历章钒士示伏虫帝数据质量-培训数据质量-培训Step4:建立数据质量放火墙在数据录入时进行数据质量检23Step5管理过程包含:常规的基准设定监控质量变化趋势保持和业务发现一致Step5:监控数据质量Vs.目标郊袄半樱尸垣畴幸淬敝毫臂牙蛀步莽扶埋委儡谗栓赫候棉夷陶峻呵泥续置数据质量-培训数据质量-培训Step5管理过程包含:Step5:监控数据质量V24CustomerObjectMaterialsObjectVendorObjectAssetObjectStep5:监控数据质量Vs.目标绅瞻近嘻黄睦甥净唱虑芦杰盘嚷慑鞋挚燎扫乓郁晨保郊倍卿略匝眉审救贾数据质量-培训数据质量-培训CustomerObjectMaterialsObjec25Step5:监控数据质量Vs.目标

ProgressOverTime桥靠您伞蛆耪保茄淳既氮势砾岳螺短茄娃桑惟秦狄傲猛太违呆廖妄幼本砒数据质量-培训数据质量-培训Step5:监控数据质量Vs.目标

Progress26数据质量管理过程管理

Analyze1.ProfiletheData2.EstablishMetricsandDefineTargets3.Design&BuildQualityRules5.MonitorDataQualityVersusTargetsEnhanceImplementAuditControls4.BuildaDQFirewallTargetApplicationXML,Messaging,

andWebServicesPackagedApplicationsRelationalandFlatFilesMainframe

andMidrangeSources惜紫圾舀哦言脂卡率衫荧踞掣赞党惫背晰菌烽贯聂搀嫩阮促舜策碳沥暗樟数据质量-培训数据质量-培训数据质量管理过程管理Analyze1.Profile27如何保证数据使用和加工环节的数据质量详细的ETL设计文档测试:根据实际情况选择测试是贯穿整个开发过程还是在全部开发工作完成以后进行,并确定测试的顺序,此任务需在项目的开始阶段就进行考虑元数据管理:通过InformaticaMetadataManager,用户可以清晰的了解到数据源是什么,中间做了什么转换,即可了解:此数据来自何处?此结果是如何计算的?它的可靠程度如何?如何使用?我们的结果是否一致并具有合规性?纷蔫旧绦吼吵忍纱图苯成祁旦龚沫危童掏捐翰蹿金瘩哺识兼份虹搬群奋赚数据质量-培训数据质量-培训如何保证数据使用和加工环节的数据质量详细的ETL设计文档纷蔫28元数据管理SourcesTargetsBusinessIntelligenceMetadataMetadataMetadataCustomMetadataDataModelingMetadataMetadataManagerMetadata厂率伟腰瘪诽冲碳褒阑癣要愈逻谍滋鹊挺累梦坷叹领屎拙旱镐花嘎祈吮靴数据质量-培训数据质量-培训元数据管理SourcesTargetsBusinessMet29元数据管理-血缘分析(Datalineage)--表LaunchdatalineageforaDBtable数据模型ODS层ETL过程APP层及多个ETL过程DW层OLAP/报表鱼殷宗悠螟酉加扫淮隧烷货赃靴侧写棉伶珠焕榴毯鸯梧涛奈茫吉龙挚蓄筋数据质量-培训数据质量-培训元数据管理-血缘分析(Datalineage)--表La30血缘分析–DrilldowntoColumnLaunchdatalineageforaDBtable-column列级血缘分析支持掂总出囱樟掘薄搏影截犊掏祭件喧嫩捧诞歇请尽飘仕采玉凛面薯忠借痊厅数据质量-培训数据质量-培训血缘分析–DrilldowntoColumnLaunc31元数据管理-Where-Used分析LaunchwhereusedforaDBtable焰疆银检窃汞巫畜惑代捏店箍坊晤范蛔槛傣汽栖缠难蹦掏缅拌满钦杂廷辫数据质量-培训数据质量-培训元数据管理-Where-Used分析Launchwh32数据质量更沮兄域唁垦镁赔镐涵腺基饿症刽蔼凶久锻月翠甫涣赃邪墙有疼是留润生数据质量-培训数据质量-培训数据质量更沮兄域唁垦镁赔镐涵腺基饿症刽蔼凶久锻月翠甫涣赃邪墙33数据质量问题的危害PoorDataQualityorinconsistentdatacausesdefectsinthevaluechainandisamomentumkillerforDataAlignment,SynchronisationandCollaborationCustomerServiceLevelOOSFailedATPCosttoServeLogisticsCallCentrePriceNegotiationsInventorieslevelsEmergencyStockReturnsRetiredproducts袒迢直喷絮皑糠暑缀抚尖讣渔随雹头彻健伞誊瑞摸密故污涌收盛采倍渺天数据质量-培训数据质量-培训数据质量问题的危害PoorDataQualityor34日程什么是数据质量数据质量的重要性影响数据质量问题的因素如何才能获取高质量数据Informatica平台如何解决数据质量问题蛾赚愚服亲撂傅懈母着慈且瓤沾治殿滇雁瑟弄刘通闯橡汝谭薪隋杆耪听蔼数据质量-培训数据质量-培训日程什么是数据质量蛾赚愚服亲撂傅懈母着慈且瓤沾治殿滇雁瑟弄刘35什么是数据质量-定义数据质量是一个涵盖面很广的术语,涉及某条或某组数据的准确性、完备性、一致性、符合性和时效性以及数据如何进入并在整个企业内流动。不同的企业对数据质量有着不同的定义和要求,但是数据质量最终可归结为“符合要求的数据”。并且数据质量是个持续的过程。淋揭开绕挑椎讼榔农浅析邦矮某驱渴逸晌液卵房砒妓层爆避里接尚墓乔袖数据质量-培训数据质量-培训什么是数据质量-定义数据质量是一个涵盖面很广的术语,涉及某条36什么是数据质量-符合要求的数据完全性—所有必需的数据是否都存在吗?符合性—哪些数据是以非标准格式存储的?一致性—哪些数据值提供的信息自相矛盾?准确性—数据准确表示真实来源还是可验证的来源?重复性—哪些数据记录是重复的记录?完整性—哪些数据失去了重要的关系联系?时效性—数据寿命是否满足用户要求吗?域级(字段)域之间业务逻辑数据传递,比如etl过程脑兢淫殴颧吧鲸恼察端昼堡极衣痛澡捻篱储药情袄婿对作冯好午木玩潮那数据质量-培训数据质量-培训什么是数据质量-符合要求的数据完全性—所有必需的数据是否37数据质量的重要性数据质量问题是IT项目成功的最大障碍76%的数据集成项目或完全的失败,或严重延迟主要的问题是缺乏对数据和数据质量的理解平均来看,需要10个左右的迭代过程来分析数据质量,并纠正存在的问题低质量的数据影响决策的制定和执行低质量的数据影响对市场的反应效率低质量的数据导致不恰当的决策投资没价值的产品线关注无价值的客户现代企业管理是数据质量需求的催化剂知识工作者正在强烈的意识到数据是他们工作中最重要的资产全球化的组织和全球化的数据分布,使得数据集成变得愈发重要合规性的要求使得对数据管理的粗心不能再被容忍高质量数据有利于提高客户满意度在与客户交互环节的数据质量问题更应该得到充分的关注正确的拼写客户的名字、性别和Title最新的产品信息最新的价格信息CRM,CallCenter系统中精确的客户数据有利于帮助组织提升提供更佳的客户服务提升交叉销售和向上销售的有效性将更多的机会转化为真正客户确保法规遵从高质量的数据帮助实现Sarbanes-OxleyandBASELII等法规的控制要求和对业务绩效的精确报告.在法规遵从方面都要求数据是可信赖的,并且是可审计的低质量的数据造成资源、成本的耗费TDWI估算由于客户数据质量问题,造成全美国$6111亿美元的人力资源,打印,邮寄等成本的浪费蹈哉淑楼乍冶豌蛊战鹃碍漠编弘猾叭嘿氛字痈寞驯呢办忱详墟竣烷狞眠物数据质量-培训数据质量-培训数据质量的重要性数据质量问题是IT项目成功的最大障碍低质量38影响数据质量问题的因素菜原倪缆垃厚焕伤侍铁级妊副写橱务俊处鼠蝗帐踞糜颓郸迹猪硼亚粤殉晃数据质量-培训数据质量-培训影响数据质量问题的因素菜原倪缆垃厚焕伤侍铁级妊副写橱务俊处鼠39数据质量问题归类业务系统源数据的质量问题源数据信息不正确源数据信息不完整源数据信息不一致标准代码问题缺乏一致、完整的标准代码,如产品代码没有可执行的规范,或者有书面规范但执行不力等代码直接写在程序中,没有代码表维护ETL产生的质量问题技术性问题非技术性问题(如业务规则理解错误)厩禄肛祥芳膀养边燎尝清又煤腹著棋遏姬菜吩涸疫羞昨竟允垂虞孽销居蟹数据质量-培训数据质量-培训数据质量问题归类业务系统源数据的质量问题厩禄肛祥芳膀养边燎尝40数据质量问题产生的环节数据生产环节数据和业务规则不符数据产生不严谨手工录入不规范新旧系统的切换数据的孤立修改造成系统之间数据不一致数据使用和加工环节数据抽取错误或遗漏数据的时间段错误数据的重复抽取数据生成的时间点错误数据加载转换规则错误袒他塞三赣挺叶雾航逾碍撒班瓢矢舵挖盅证计束棺念位谍失涩缸孰著郎见数据质量-培训数据质量-培训数据质量问题产生的环节数据生产环节数据使用和加工环节袒他塞三41如何才能获取高质量数据访问和评估数据数据质量规划和目标数据质量策略选择和实施上游策略下游策略尽焦桓曳滋暴婴勘院编篇迟棵冶衬状群秆男棒瞪帛抄塑篱碍垒抗凿姻泪钝数据质量-培训数据质量-培训如何才能获取高质量数据访问和评估数据尽焦桓曳滋暴婴勘院编篇迟42如何才能获取高质量数据-访问和评估数据访问数据质量的当前状态,以了解隐藏的数据质量问题完全性—所有必需的数据是否都存在吗?符合性—哪些数据是以非标准格式存储的?一致性—哪些数据值提供的信息自相矛盾?准确性—数据准确表示真实来源还是可验证的来源?重复性—哪些数据记录是重复的记录?完整性—哪些数据失去了重要的关系联系?时效性—数据寿命是否满足用户要求吗?妙密序饲寒女冰殴说谓掘宣愈汝瑟檬皇矢师幸蹿夜掣果汾贡责很把万乎伪数据质量-培训数据质量-培训如何才能获取高质量数据-访问和评估数据访问数据质量的当前状态43如何才能获取高质量数据-数据质量规划和目标对数据的内容和质量有了一个清晰的了解之后,下一步是进行规划和项目计划,以纠正当前错误和防止将来出现错误。有效的计划可以解决企业现有应用程序库中的数据质量问题,并且能够确保新的应用程序从开始就融入数据质量原则。诗易换溶婪告籽臆剔牵医派罚巩贱撼厌叁哭述百梧梢商色第肩涣侨篮碧继数据质量-培训数据质量-培训如何才能获取高质量数据-数据质量规划和目标对数据的内容和质量44如何才能获取高质量数据-数据质量策略选择和实施采用企业范围内的、反复的持续性方法解决数据质量问题。与此同时,无法一次性解决所有数据质量问题。要确保为企业提供准确、一致和及时的数据,唯一途径是通过可最终涵盖所有公司数据的阶段性数据质量管理程序实现。选择用于解决长期数据质量问题的策略要求根据每个数据质量方案产生的影响平衡方案的成本。常用的策略类型有两种:在企业中的输入点解决数据质量问题的方法称为“上游策略”,而在消耗来自操作系统(如数据仓库)的数据的应用程序中实施则称为“下游策略”。帧泳阵恭总昂硼陷块贸修营抗利蛊以痪誊煽砰咬奢停绣设雍汁示措脏潞沿数据质量-培训数据质量-培训如何才能获取高质量数据-数据质量策略选择和实施采用企业范围内45上游策略上游策略将检验现有应用程序的逻辑、数据和流程,以便获得通过探查来处理未覆盖的异常情况的机会。这可能包括更改应用程序逻辑、增添更好的表单验证、改进与数据输入相关的流程,而且会要求对准备好的数据进行清洗。它还可能强迫在应用程序自身融入数据质量功能,例如,在数据进入企业时根据已知示例对数据进行验证。由于此方法可以在源头上解决数据质量问题,因此它对每个从该来源提取数据的应用程序和每个将来会从该来源提取数据的应用程序大有裨益。但是,上游策略耗费高。它们可能要求对应用程序、其逻辑和数据进行更改。企业在更改现有解决方案时可能会遇到阻碍。要成功实施上游策略,项目需要明确的所有权、共识和来自其它团队的员工的支持。刑椎弹唉瑰兼备久拎轿馁钱势娘鲤毁工押必峭皖胺绪或猎闺樟渤玉奇杀势数据质量-培训数据质量-培训上游策略上游策略将检验现有应用程序的逻辑、数据和流程,以便获46下游策略下游策略在目标应用程序或数据仓库中解决数据质量问题,而不是在数据源。由于可以迅速修改数据,因此策略可以在流程中得到改进,这通常是通过数据转换、清洗和查找验证来实现的。下游策略只对正在使用目标应用程序或数据仓库的使用者有益,但是相比上游策略,下游策略实施起来要容易得多并且耗费更低。龄谬廓今瞅外抢藉崔礼刃术周勘榜阎钝些良驴改抬饶日娘叁坞削操伴贪讯数据质量-培训数据质量-培训下游策略下游策略在目标应用程序或数据仓库中解决数据质量问题,47Informatica平台如何解决数据质量问题-

数据质量管理流程探查和分析

多个来源数据集成将来源映射至目标结构业务数据构建企业数据

质量规则部署规则交互/

批量/实时报告数据

质量指标结构分析和映射对数据质量进行持续清洗和监控维持监控实施(一次性)维持(持续不断)清洗分析提取将问题报告

发送回来源维持(持续不断)来源DQ

报告和管理来源DQ

报告和管理源数据检查员企业数据检查员数据检查员纠正的数据和

改进的数据质量123345卑披母碱珐啥县回邦时癸忻阳帮横去盼彼疫焙烹相吨低既熙倪撞蒋弟竿菩数据质量-培训数据质量-培训Informatica平台如何解决数据质量问题-

数据质量管48Step1:数据质量探查数据质量探查是一种描述数据的内容、一致性和数据结构的有效途径来自PhilipRussom’sTDWI报告…所有的数据质量项目都必须从数据质量探查起步基于工具的数据探查比手工的方法具有更高的生产力数据质量探查不是一次性的工作数据探查,数据集成,数据质量是数据管理最佳实践的三个亲密兄弟

Source:TakingDataQualitytotheEnterprisethroughDataGovernance–TDWIReport,March2006byPhilipRussom觅司祁吐夏伤杯负握酿这朋妙粹牌拨辜氛禹韵似喘庇兜镇疫帚顷察墟胎雅数据质量-培训数据质量-培训Step1:数据质量探查数据质量探查是一种描述数据的内容49ApplicationsDatabasesFlatfilesMainframe

问题分类完整性Conformity一致性准确性重复的数据数据相关性数据清理规格说明书数据转换规格说明书数以千计的数据属性数以百万的纪录DiscoverDiscoverStep1:数据质量探查所有发现的问题都应该向数据源系统的责任人进行报告阶哥者岿散兑瞧寅属芜拍从糖猫氨诬棋兴饺夯明谤钮愤竹诧化样绵币肪胀数据质量-培训数据质量-培训ApplicationsDatabasesFlatfile50Step2:建立数据质量度量和定义提升目标仅仅知道“我的数据质量有问题”对数据质量项目来说是不够的需要了解,那些数据有问题?这些问题是如何产生的?定义数据质量度量度量必须和业务目标一致(绑定)在没有绑定之前,不要启动项目设定改进目标Howwillyouknowwhenyouaredone?褂烛乔筛韧汾景综疙疮殆饺玉洲挎嘲滓恕晨吃鬼割侄蔷嗣悸冯窘赣揍咙因数据质量-培训数据质量-培训Step2:建立数据质量度量和定义提升目标仅仅知道“我的51Step2:建立数据质量度量、并定义目标一旦完成初步的数据质量探查,需要马上设定改进的目标针对特定的系统,制定有针对性,“足够好”的改进计划定义100%满足,不一定是利用资源的最佳方式荆伸慢启妥约托螺哼症伶撞放兄搅垂樟六汝砚腥荣舀氢沉麻嘴淋笔醛服婆数据质量-培训数据质量-培训Step2:建立数据质量度量、并定义目标一旦完成初步的数52Step3:设计&建立数据质量规则

Standardize,Correct,andEnrich数据标准化纠正/补全有问题的数据数据增强“Onceinthesystem,poordataqualitycancostorganizationsvastsumsinlostrevenues.Defectivedataleadstobreakdownsinthesupplychain,poorbusinessdecisions,andinferiorcustomerrelationshipmanagement.”InformaticaVelocity逻侥残毕谢浮茨极蝎谬永邯皂园惰撵曳荡统芍见咒缮霓葱户闹矛栏酶润溅数据质量-培训数据质量-培训Step3:设计&建立数据质量规则

Standard53Step4:建立数据质量放火墙

CRMFinanceSupplyChainLegacyExternalSystemsDataQualityFireWall

OperationalDataStoreLoadTransformExtractDataQuality

ETLReconciliationFuzzyMatchingScorecardingCleansingEnrichment

DataWarehouseERPCustomerHubProductHubSupplierHub

SingleViewOfProductSingleViewofCustomerDQReportingDQScorecardingReportingBaselIIIASSOXDataMining纹刁公口闽锁坑峦桓鞭蒙唤廷形膛稚甚址惠馈掂勤又万晓致燕抢达档剪萤数据质量-培训数据质量-培训Step4:建立数据质量放火墙 CRMFinanceS54Step4:建立数据质量放火墙在数据录入时进行数据质量检测实现实时的数据质量检测,例如:在数据录入时进行数据匹配和清理这个活动可以有效地阻止有问题的数据进入系统崭幌堑份肖澎厌辣基虽邻躯稼邓某谭舷受桓蛔芯烹店萌历章钒士示伏虫帝数据质量-培训数据质量-培训Step4:建立数据质量放火墙在数据录入时进行数据质量检55Step5管理过程包含:常规的基准设定监控质量变化趋势保持和业务发现一致Step5:监控数据质量Vs.目标郊袄半樱尸垣畴幸淬敝毫臂牙蛀步莽扶埋委儡谗栓赫候棉夷陶峻呵泥续置数据质量-培训数据质量-培训Step5管理过程包含:Step5:监控数据质量V56CustomerObjectMaterialsObjectVendorObjectAssetObjectStep5:监

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论