数据质量-培训_第1页
数据质量-培训_第2页
数据质量-培训_第3页
数据质量-培训_第4页
数据质量-培训_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据质量数据质量量问题的的危害Poor DataQualityorinconsistentdatacausesdefectsinthevaluechainand is amomentumkillerfor DataAlignment,Synchronisationand CollaborationCustomer ServiceLevelOOSFailed ATPCost to ServeLogisticsCall CentrePrice NegotiationsInventories levelsEmergency StockReturnsRetired products日程什么是数数据质量

2、量数据质量量的重要要性影响数据据质量问问题的因因素如何才能能获取高高质量数数据Informatica平台如何何解决数数据质量量问题什么是数数据质量量-定义数据质量量是一个个涵盖面面很广的的术语,涉及某某条或某某组数据据的准确确性、完完备性、一致性性、符合合性和时时效性以以及数据据如何进进入并在在整个企企业内流流动。不不同的企企业对数数据质量量有着不不同的定定义和要要求,但但是数据据质量最最终可归归结为“符合要要求的数数据”。并且且数据质质量是个个持续的的过程。什么是数数据质量量-符合要求求的数据据完全性所有必需需的数据据是否都都存在吗吗?符合性哪些数据据是以非非标准格格式存储储的?一致性哪些数

3、据据值提供供的信息息自相矛矛盾?准确性数据准确确表示真真实来源源还是可可验证的的来源?重复性哪些数据据记录是是重复的的记录?完整性哪些数据据失去了了重要的的关系联联系?时效性数据寿命命是否满满足用户户要求吗吗?域级(字字段)域之间业务逻辑辑数据传递递,比如如etl过程数据质量量的重要要性数据质量量问题是是IT项目成功功的最大大障碍76%的数据集集成项目目或完全全的失败败,或严严重延迟迟主要的问问题是缺缺乏对数数据和数数据质量量的理解解平均来看看,需要10个左右的的迭代过过程来分分析数据据质量,并纠正正存在的的问题低质量的的数据影影响决策策的制定定和执行行低质量的的数据影影响对市市场的反反应效率

4、率低质量的的数据导导致不恰恰当的决决策投资没价价值的产产品线关注无价价值的客客户现代企业业管理是是数据质质量需求求的催化化剂知识工作作者正在在强烈的的意识到到数据是是他们工工作中最最重要的的资产全球化的的组织和和全球化化的数据据分布,使得数数据集成成变得愈愈发重要要合规性的的要求使使得对数数据管理理的粗心心不能再再被容忍忍高质量数数据有利利于提高高客户满满意度在与客户户交互环环节的数数据质量量问题更更应该得得到充分分的关注注正确的拼拼写客户户的名字字、性别别和Title最新的产产品信息息最新的价价格信息息CRM,Call Center系统中精精确的客客户数据据有利于于帮助组组织提升升提供更佳佳

5、的客户户服务提升交叉叉销售和和向上销销售的有有效性将更多的的机会转转化为真真正客户户确保法规规遵从高质量的的数据帮帮助实现现Sarbanes-OxleyandBASELII等法规的的控制要要求和对对业务绩绩效的精精确报告告.在法规遵遵从方面面都要求求数据是是可信赖赖的,并并且是可可审计的的低质量的的数据造造成资源源、成本本的耗费费TDWI估算由于于客户数数据质量量问题,造成全全美国$6111亿美元的的人力资资源,打打印,邮邮寄等成成本的浪浪费影响数据据质量问问题的因因素数据质量量问题归归类业务系统统源数据据的质量量问题源数据信信息不正正确源数据信信息不完完整源数据信信息不一一致标准代码码问题缺

6、乏一致致、完整整的标准准代码,如产品品代码没没有可执执行的规规范,或或者有书书面规范范但执行行不力等等代码直接接写在程程序中,没有代代码表维维护ETL产生的质质量问题题技术性问问题非技术性性问题(如业务务规则理理解错误误)数据质量量问题产产生的环环节数据生产产环节数据和业业务规则则不符数据产生生不严谨谨手工录入入不规范范新旧系统统的切换换数据的孤孤立修改改造成系系统之间间数据不不一致数据使用用和加工工环节数据抽取取错误或或遗漏数据的时时间段错错误数据的重重复抽取取数据生成成的时间间点错误误数据加载载转换规规则错误误如何才能能获取高高质量数数据访问和评评估数据据数据质量量规划和和目标数据质量量策

7、略选选择和实实施上游策略略下游策略略如何才能能获取高高质量数数据-访问和评评估数据据访问数据据质量的的当前状状态,以以了解隐隐藏的数数据质量量问题完全性所有必需需的数据据是否都都存在吗吗?符合性哪些数据据是以非非标准格格式存储储的?一致性哪些数据据值提供供的信息息自相矛矛盾?准确性数据准确确表示真真实来源源还是可可验证的的来源?重复性哪些数据据记录是是重复的的记录?完整性哪些数据据失去了了重要的的关系联联系?时效性数据寿命命是否满满足用户户要求吗吗?如何才能能获取高高质量数数据-数据质量量规划和和目标对数据的的内容和和质量有有了一个个清晰的的了解之之后,下下一步是是进行规规划和项项目计划划,以

8、纠纠正当前前错误和和防止将将来出现现错误。有效的的计划可可以解决决企业现现有应用用程序库库中的数数据质量量问题,并且能能够确保保新的应应用程序序从开始始就融入入数据质质量原则则。如何才能能获取高高质量数数据-数据质量量策略选选择和实实施采用企业业范围内内的、反反复的持持续性方方法解决决数据质质量问题题。与此此同时,无法一一次性解解决所有有数据质质量问题题。要确确保为企企业提供供准确、一致和和及时的的数据,唯一途途径是通通过可最最终涵盖盖所有公公司数据据的阶段段性数据据质量管管理程序序实现。选择用于于解决长长期数据据质量问问题的策策略要求求根据每每个数据据质量方方案产生生的影响响平衡方方案的成成

9、本。常常用的策策略类型型有两种种:在企企业中的的输入点点解决数数据质量量问题的的方法称称为“上上游策略略”,而而在消耗耗来自操操作系统统(如数数据仓库库)的数数据的应应用程序序中实施施则称为为“下游游策略” 。上游策略略上游策略略将检验验现有应应用程序序的逻辑辑、数据据和流程程,以便便获得通通过探查查来处理理未覆盖盖的异常常情况的的机会。这可能能包括更更改应用用程序逻逻辑、增增添更好好的表单单验证、改进与与数据输输入相关关的流程程,而且且会要求求对准备备好的数数据进行行清洗。它还可可能强迫迫在应用用程序自自身融入入数据质质量功能能,例如如,在数数据进入入企业时时根据已已知示例例对数据据进行验验

10、证。由由于此方方法可以以在源头头上解决决数据质质量问题题,因此此它对每每个从该该来源提提取数据据的应用用程序和和每个将将来会从从该来源源提取数数据的应应用程序序大有裨裨益。但是,上上游策略略耗费高高。它们们可能要要求对应应用程序序、其逻逻辑和数数据进行行更改。企业在在更改现现有解决决方案时时可能会会遇到阻阻碍。要要成功实实施上游游策略,项目需需要明确确的所有有权、共共识和来来自其它它团队的的员工的的支持。下游策略略下游策略略在目标标应用程程序或数数据仓库库中解决决数据质质量问题题,而不不是在数数据源。由于可可以迅速速修改数数据,因因此策略略可以在在流程中中得到改改进,这这通常是是通过数数据转换

11、换、清洗洗和查找找验证来来实现的的。下游游策略只只对正在在使用目目标应用用程序或或数据仓仓库的使使用者有有益,但但是相比比上游策策略,下下游策略略实施起起来要容容易得多多并且耗耗费更低低。Informatica平台如何何解决数数据质量量问题-数据质量量管理流流程探查和分分析多个来源源数据集成成将来源映映射至目目标结构构业务数据构建企业业数据质量规则则部署规则则交互/批量/实时报告数据据质量指标标结构分析析和映射射对数据质质量进行行持续清清洗和监监控维持监控实施(一一次性)维持(持持续不断断)清洗分析提取将问题报报告发送回来来源维持(持持续不断断)来源DQ报告和管管理来源DQ报告和管管理源数据检

12、查查员企业数据据检查员员数据检查查员纠正的数数据和改进的数数据质量量123345Step 1:数据质量量探查数据质量量探查是是一种描描述数据据的内容容、一致致性和数数据结构构的有效效途径来自PhilipRussomsTDWI报告所有的数数据质量量项目都必须从数据质量量探查起起步基于工具的数据探探查比手手工的方方法具有有更高的的生产力数据质量量探查不是一次次性的工作数据探查查,数据集成成,数据质量量是数据管管理最佳佳实践的的三个亲亲密兄弟弟Source:TakingDataQuality to theEnterprise throughDataGovernance TDWIReport, Mar

13、ch 2006byPhilip RussomApplicationsDatabasesFlat filesMainframe 问题分类类完整性Conformity一致性准确性重复的数数据数据相关关性数据清理理规格说说明书数据转换换规格说说明书数以千计计的数据属性性数以百万万的纪录录DiscoverDiscoverStep 1:数据质量量探查所有发现现的问题题都应该该向数据据源系统统的责任任人进行行报告Step 2:建立数据据质量度度量和定定义提升升目标仅仅知道道“我的的数据质质量有问问题”对对数据质质量项目目来说是是不够的的需要了解解,那些些数据有有问题?这些问问题是如如何产生生的?定义数据据

14、质量度度量度量必须须和业务务目标一一致(绑绑定)在没有绑绑定之前前,不要要启动项项目设定改进进目标Howwillyouknowwhen youaredone?Step 2:建立数据据质量度度量、并并定义目目标一旦完成成初步的的数据质质量探查查,需要要马上设设定改进进的目标标针对特定定的系统统,制定定有针对对性,“足够好好”的改改进计划划定义100%满足,不不一定是是利用资资源的最最佳方式式Step 3:设计&建立数据据质量规规则Standardize,Correct,and Enrich数据标准准化纠正/补全有问问题的数数据数据增强强“Onceinthesystem,poor dataqual

15、itycancostorganizations vastsumsinlost revenues.Defective dataleadstobreakdownsinthesupply chain,poor business decisions,and inferior customer relationshipmanagement.”InformaticaVelocityStep 4:建立数据据质量放放火墙 CRMFinanceSupplyChainLegacyExternalSystemsData QualityFireWall OperationalData StoreLoadTransfo

16、rmExtractData Quality ETL Reconciliation Fuzzy Matching Scorecarding Cleansing Enrichment DataWarehouseERPCustomerHubProductHubSupplierHub SingleViewOfProductSingleViewof CustomerDQReportingDQScorecardingReportingBaselIIIASSOXDataMiningStep 4:建立数据据质量放放火墙在数据录录入时进进行数据据质量检检测实现实时时的数据据质量检检测,例例如:在在数据录录入时进

17、进行数据据匹配和和清理这个活动动可以有有效地阻阻止有问问题的数数据进入入系统Step 5管理过程程包含:常规的基基准设定定监控质量量变化趋趋势保持和业业务发现现一致Step 5:监控数据据质量Vs.目标Customer ObjectMaterials ObjectVendor ObjectAsset ObjectStep 5:监控数据据质量Vs.目标Step 5:监控数据据质量Vs.目标ProgressOver Time数据质量量管理过过程管理理 Analyze1.Profile theData2.EstablishMetricsandDefine Targets3.Design&BuildQ

18、uality Rules5.Monitor DataQualityVersusTargetsEnhanceImplementAuditControls4.Builda DQ FirewallTargetApplicationXML, Messaging, and Web ServicesPackaged ApplicationsRelational and Flat FilesMainframe and MidrangeSources如何保证证数据使使用和加加工环节节的数据据质量详细的ETL设计文档档测试:根根据实实际情况况选择测测试是贯贯穿整个个开发过过程还是是在全部部开发工工作完成成以后进进行,并并确定测测试的顺顺序,此此任务需需在项目目的开始始阶段就就进行考考虑元数据管管理:通通过InformaticaMetadataManager,用户可可以清晰晰的了解解到数据据源是什什么,中中间做了了什么转转换,即即可了解解:此数据来来自何处处?此结果是是如何计计算的?它的可靠靠程度如如何?如何使用用?我们的结结果是否否一致并并具有合合规性?元数据管管理SourcesTargetsBusinessIntelligenceM

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论