




已阅读5页,还剩51页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本 科 毕 业 论 文 基于数据仓库的企业数据质量控制Data Quality Control of Enterprises Based on Data Warehouse姓 名: 学 号:学院:软件学院系:软件工程专 业:软件工程年 级: 指导教师: 年 月摘 要数据仓库赋予企业在行业中保持领先地位的能力,数据质量是决定数据仓库成败的关键。然而,经过数十年的研究与实践,业界仍然缺少完整的企业数据质量控制方法。本文提出了基于数据仓库的企业数据质量控制,力求为企业IT人员提供一套指导手册式的解决方案,在基于数据仓库的企业数据质量的各个方面给予指导和建议。这套方法主要包括总体数据质量管理和ETL(数据的抽取、转换、清洗、装载)工具两个方面,分别处理与数据源相关和与数据整合相关的数据质量问题。在本文中,我们对TDQM各阶段使用的技术进行了详细的介绍,就企业数据质量的建模、评估、分析和如何改进数据质量展开了探讨。同时,本文根据ETL工具的分类和实现方式(购买/自行开发),对如何选用和开发合适的ETL工具以及如何控制ETL实施过程本身产生的数据质量问题进行了简单的讨论。关键词:数据仓库;数据质量;总体数据质量管理;ETL工具AbstractData quality is critical to data warehouse, which enables an organization to maintain its leading position in the industry. However, despite decades of active research and practice, the field lacks comprehensive methodologies of enterprise-level data quality control. Here, we develop such a methodology, the Data Quality Control of Enterprises Based on Data Warehouse, which aims to provide manual-like solutions to the IT departments of organizations, and to present guidance and recommendations in all aspects of data quality control of enterprises based on data warehouse.The methodology encompasses Total Data Quality Management (TDQM) and ETL (Extraction, Transformation, Cleansing, Loading) tools, separately handling problems related to data sources and data integration. This paper has a detailed explanation of the techniques used in each stage of the TDQM methodology, and discusses about how to model, estimate, analyze and improve data quality of an organization. Meanwhile, we provide a brief introduction on how to choose or develop ETL tools that are suitable for an organization, as well as how to deal with data quality problems produced by the ETL process.Key words: Data Warehouse; Data Quality; Total Data Quality Management; ETL.目 录第一章绪论11.1研究背景11.2概述21.2.1数据仓库的拓扑结构21.2.2数据仓库中的数据质量问题分类31.2.3论文组织结构3第二章数据源数据质量控制42.1定义阶段52.1.1定义IP特征62.1.2定义IP质量72.1.3定义信息系统102.2测量阶段112.2.1数据质量维度112.2.2数据质量指标122.2.3实际评估152.3分析阶段162.3.1数据质量问题分类162.3.2单数据源中孤立点的检测182.3.3探索性数据分析202.3.4数据标记技术在TDQM分析阶段的运用262.4改进阶段262.4.1规范化和重复记录消除262.4.2对数据值空缺的处理282.4.3解决新老系统不兼容问题292.4.4小结29第三章数据仓库数据质量控制303.1ETL工具的功能和分类303.2购买ETL工具313.3自行开发ETL工具343.3.1探测和消除星型模式中的相似重复记录343.3.2ETL工具开发流程383.4ETL过程中的数据质量问题及相应保障手段393.4.1ETL过程中可能出现的数据质量问题403.4.2相应的保障手段40第四章总结与展望414.1总结414.2未来研究展望41参考文献43致 谢45CONTENTSChapter 1 Introduction11.1Backgrounds11.2Overview21.2.1Topology Structure of Data Warehouse21.2.2Classifications of DQ Problems in Data Warehouse31.2.3Architecture of This Paper3Chapter 2 DQ Control at Data Source42.1Defining52.1.1Define IP Characteristics62.1.2Define IP Quality72.1.3Define Information Manufacturing System102.2Measuring112.2.1Data Quality Dimensions112.2.2DQ Metrics122.2.3Evaluation in Practice152.3Analyzing162.3.1Classifications of DQ Problems162.3.2Outlier Detection in Single Data Source182.3.3Exploratory Data Analysis202.3.4Data Tagging in the Analyzing Phase of TDQM262.4Improving262.4.1Standardization and Duplicate Removal262.4.2Dealing with Missing Values282.4.3Crosswalks292.4.4Summary29Chapter 3 DQ Control at Data Warehouse303.1Functions and Classifications of ETL Tools303.2Buy ETL Tools313.3How to Develop ETL Tools343.3.1Duplicate Detection and Removal in Star-Shaped Pattern343.3.2Development of ETL Tools383.4DQ Problems Produced by ETL Process and Solutions393.4.1DQ Problems in the ETL Process403.4.2Possible Solutions40Chapter 4 Conclusions and Future Study414.1Conclusions414.2Future Study41References43Acknowledgements45第一章 绪论第一章 绪论1.1 研究背景信息已经成为企业最重要的产品和财富创造者之一,在创造企业竞争优势过程中的作用至关重要。数据质量的保证对于信息而言是必需的。根据“垃圾进,垃圾出”(Garbage In Garbage Out,GIGO)原理,正确的决策支持要求其所管理的数据可靠,没有错误,能够准确的反映企业的实际情况。因此,企业数据质量的控制正在获得越来越多的关注。过去,数据质量被认为是数据本身的概念,独立于数据产生和使用的环节。这种对数据库中数据固有质量的关注,不能解决复杂的企业数据问题。现代数据质量的定义更加关注数据的使用价值:数据质量是指数据能够被用来高效、经济、快速的制定和评估决策的能力。换言之,数据质量最好的定义就是“适于使用”。这同时意味着数据质量是一个相对的概念,在一种情况中相对合适的数据也许并不适用于另外一种情况。数据仓库的出现使得企业的IT部门从信息通道变为信息通道的建立者。数据仓库的迅速发展和企业数据用户对数据的直接访问促进了企业对于高质量数据的认知和需求。同时,“适于使用”迫使IT人员需要比单纯的数据准确性看的更远。从传统OLTP系统中取得的数据可能是准确的,但如果不具有足够的时效性,就不适合使用;另外,即使企业各个部门各自的数据库是准确的,如果需要把多个格式不兼容的部门数据库结合到一起,不做合适的处理,这些数据库仍然不适合使用。确保基于数据仓库的企业数据质量是一项非常困难的工作,其原因来自于多个方面。首先,数据源的组成具有不确定性。数据可能来自原始OLTP系统,外部系统,Excel电子表格甚至是纸制表格中。同时,数据质量问题经常被赋予低优先级。如同计算机安全问题一样,尽管保证数据质量得到了越来越广泛的关注和认可,但事实上几乎没有人把它列为高优先级的企业事务。另外,由于数据需要整合在一个特定的平台上(如数据仓库),那么就需要有大量的措施来处理数据间的不一致性。此外,如何为企业数据质量选择一个合适的级别也是一个棘手的问题。固然IT人员希望企业的所有数据在任何一种情况下都是完美的,但显然这不可能达到。“适于使用”意味着数据质量的合适级别依赖于特定的环境。当不同的用户有着不同需求的时候,决定数据质量需求就变得十分困难。现今,数据质量相关的研究人员和从业者已经对数据质量进行了广泛而深入的研究,并且取得了可观的成果。然而,业界仍然缺少一套关于如何控制基于数据仓库的企业数据质量的完整而富有实践意义的方法。本文在以往研究成果的基础上,总结开发出这样一套方法,旨在为企业IT人员从基于数据仓库的企业数据质量的各个方面提供具有借鉴意义的指导。1.2 概述1.2.1 数据仓库的拓扑结构 数据仓库的拓扑结构表示的是一种可变的事务。数据是从诸如OLTP系统和平面文件这样的数据源抽取的。然后,这些数据通过一些途径(如Oracle公司的SQL* Loader和数据仓库装载工具等)装载到数据仓库中。数据仓库将在用户所要求信息的最详细级别上建立。然后,数据仓库被用于聚居各种不同的面向处理的数据集市。这些数据集市将以星型模式来构造以获得最好的检索性能。这样整个数据仓库就形成一个能够为最终用户提供报表服务和联机在线分析服务的集成系统。 图1-1 数据仓库拓扑结构图从数据仓库的拓扑图可以看出,影响数据仓库中的数据质量的两个关键环节是数据源和数据准备区,处理好数据源的数据质量问题和数据源整合时的数据质量问题对于确保数据仓库中数据的质量具有重要的意义。1.2.2 数据仓库中的数据质量问题分类数据质量问题可以出现在单个数据集合中,如出现在一个文件或数据库中,这可以由数据输入时错误的拼写、错误信息以及其他的无效数据等原因引起。数据仓库中的数据来自于多个数据源,是对多个数据集的继承,单个数据集合中的数据质量问题因此被放大而显得尤为突出。同时,不同数据源中的数据在进行合成时往往存在着结构冲突,数据冗余等一系列数据质量问题。数据仓库中的数据质量是由进入数据仓库中数据源的质量决定的。我们可以将数据仓库中的数据质量问题粗略的划分为单数据源和多数据源问题两大类,每一类又可以细分为模式相关和实例相关两个方面的问题。具体关于数据质量问题的探讨详见2.3.1。1.2.3 论文组织结构针对影响企业数据仓库中数据质量的两个关键环节,数据源和数据准备区,以及数据仓库中数据质量的两大类问题,单数据源和多数据源问题,本文提出了总体数据质量管理(Total Data Quality Management,TDQM)与ETL工具相结合的解决方案。TDQM主要在数据源一端解决与单数据源相关的问题。本文在第二章重点探讨了TDQM循环的四个阶段以及各阶段的概念、原则和相关技术。第二章还对数据标记(Data Tagging), 数据质量指标(DQ Metrics)以及探索性数据分析(Explor- atory Data Analysis, EDA)等数据质量领域的关键技术在TDQM中的应用进行了介绍。ETL工具主要负责处理多个数据源整合的问题,衔接数据源和数据仓库。第三章对ETL工具的功能与分类以及如何选用或者自行开发合适的ETL工具进行了一定的探讨。第四章在已有讨论的基础上,对论文进行了总结,并且对未来研究方向进行了展望。47第二章 数据源数据质量控制第二章 数据源数据质量控制TDQM方法学最早由MIT的Richard Y. Wang提出,其目标在于推动由企业高管提出的企业总体数据质量政策的实现1。TDQM源自于在产品制造和信息生产之间的一个类比。产品制造可以被看作是一个从原材料中制造物质产品的过程;类似的,信息生产可以被看作从原始数据生成信息产品的过程。产品制造业关于总体质量管理(Total Quality Management, TQM)的原则,指导方针和技术等已经发展的相当成熟。在TQM的基础上,衍生出一套不断发展的有关数据质量实践的理论,也就是TDQM。在TDQM的引导下,企业遵循有关数据质量项目的指导原则,识别关键性的问题,开发能够支持数据质量的持续分析和改进的相关规程和衡量体系。在系统的介绍TDQM之前,首先介绍两个关键术语:IP和TDQM循环。IP 指信息产品(Information Products)。TDQM方法学把信息系统看作一个制造生产信息产品的系统。引入IP概念的目的在于强调信息作为信息系统的产品,具有可传递给信息使用者的价值。在TDQM中,数据质量被固化为IP的质量IPQ (Information Products Quality),因而在以后的讨论中,IP质量和数据质量的内涵是相同的。TDQM循环 定义和持续的测量、分析、改进数据质量对于确保数据质量是至关重要的。在传统制造业的TQM中,对提高产品质量具有广泛实践意义的德明循环(Deming circle)包括了计划,生产,核查和执行四个阶段。相应的,TDQM循环包括定义,测量,分析和改进。定义阶段识别出相对重要的数据质量维度和相应的数据质量需求,测量阶段通过主观评价和客观测量两个方面综合评估数据质量,分析阶段寻找数据质量问题的根源,估算低质量数据带来的影响,而改进阶段提供了各种提高数据质量的技术。在TDQM循环中各个阶段是迭代进行的。图2-1 TDQM循环在应用TDQM方法学时,一个企业首先应该: (1) 在企业商业术语中明确IP的意义;(2) 建立一个由企业高管带领,由熟悉TDQM方法学的IP工程师以及数据的提供者、生产者、使用者和管理者组成的IP队伍;(3) 对所有与IP相关的人员进行数据质量评估和数据质量管理技能的培训(4) 使持续的数据质量改进在企业中制度化。1.2.22.1 定义阶段由图2-1我们可以得出这样的结论,信息产品IP是由IP特征,IP质量以及信息系统三个维度共同定义的。因而在定义阶段,我们需要分别对IP的这三个维度进行定义。2.1.1 定义IP特征IP特征主要在两个层次上定义。较高的层次上,IP被抽象为一系列它所要为信息使用者提供的功能。这就好比如果需要定义一部手机的特征的时候,我们首先关注手机的基本功能如打电话、发短信,而不去关注这部手机是否是智能的,摄像头有多少万像素等等这些可选的特性。在较低的层次上,IP的特征定义类似于传统的数据建模,识别每一个IP的基本构成单元以及他们之间的相互关系。识别IP的基本单元对于定义IP是至关重要的,因为它描述了IP是如何被产出、使用和管理的。在一个客户数据库中,每一条单独的客户信息就是一个基本单元。假设在一个电子商务网站数据库中,客户被account number唯一标识,同时还有name, address和telephone number等属性。商品被item number唯一标识,同时有name, price, description等属性。交易保存了客户和商品之间的买卖信息,当客户购买或售出商品的时候,相关的信息如date, buy/sell, quantity等被作为一条记录存入交易TRADES。这个应用的IP特征定义E-R视图如图2-2。 图2-2 某电子商务网站部分E-R视图在定义IP特征阶段结束时,我们得到了一个应用视图(Application View),即上述E-R视图。2.1.2 定义IP质量数据标记技术在讨论如何定义IP质量之前,我们首先引入另一个关键技术:数据标记(Data Tagging)技术。 数据标记采用数据质量属性(Data Quality Attribute)来描述数据质量。数据质量属性由两部份组成,数据质量参数(Data Quality Parameter)和数据质量指示(Data Quality Indicator). 数据质量参数是一个主观或者量化的维度,用户通过其估计数据质量。来源可信度和时效性等等都可以作为数据质量参数。数据质量指示是一组关于数据的客观信息,如数据的来源,创建时间,收集方法等。用户定义的函数可以被用来把数据质量指示的值映射到数据质量参数的值。例如,如果一组数据的数据质量指示值是人民日报(来源),那么用户定义的函数可能会得出这组数据的数据质量参数“来源可信度”的值是“高”。表2-1是一个在数据库中使用数据标记的例子。表2-1 数据标记技术使用实例Co_nameAddress#employeesFruit Company12 Jay Street4,004Nut Company62 Lois Avenue700虽然给数据添加额外的数据质量指示从某种程度上增加了表所占用的磁盘空间,但在长期的研究和实践中我们发现,与不使用数据质量指示而造成的数据质量分析困难和信息可信度下降相比,这些磁盘空间的浪费几乎是微不足道的。定义数据质量需求IP特征被定义后,下一步就是识别IP所涉及的各个角色(信息提供者,操作者,使用者和管理者)对于数据质量的需求。这一步主要采用调查问卷的形式使各个角色主观描述自己对于数据质量各个方面的需求。例如,我们可能在整理问卷信息后得出如图2-3这样的结果:图2-3 数据质量评估调查问卷结果维度1至16依次代表正确性、客观性、数据声望、可信度、相关度、增值、时效性、完整性、信息量合适度、可翻译性、易懂性、一致表达性、表达简明度、易操作性、可访问性和安全性。从图2-3可以看出,信息提供者认为IP的正确性很高(打出了7分,而10分就意味着数据完全没有任何错误),然而信息使用者却不这么认为(只打了4分)。信息提供者和信息使用者都同意IP中包含足够客观的数据(都打了7分)。被调查者评价的最大分歧出现在维度8,完整性。尽管信息提供者评定IP具有相对完整的数据(7.6分),信息使用者的意见却大相径庭(只给出了1分)。IP质量建模有了IP特征和数据质量需求分析的结果,我们可以引入数据质量属性(Data Quality Attribute)进行IP的逻辑和物理设计。时效性对于电子商务系统中的客户信息和商品信息都是很重要的。在图2-4中,商品的price属性被标记为时效性意味着电子商务系统不允许出现过期的商品价格信息。 图2-4 数据质量参数视图(Parameter View)图2-4被称作参数视图(Parameter View),集中反映了IP特征和对IP质量的需求。接着,数据质量需求被优化为更加客观的,可测量的特性。在图2-5中,参数视图中的数据质量参数被替换为可映射的数据质量指示。例如,时效性被替代为数据的创建时间,商品描述的可信度被替代为信息来源,而客户电话号码的准确性被替代为信息收集方式。信息收集方式的值可以为“用户填写”或者“通过电话确认”等。 图2-5 数据质量模式图(Data Quality Schema) 由上文的讨论可知,定义IP质量的过程以应用视图作为输入,经过调查数据质量需求,引入数据质量参数和将数据质量指示映射到数据质量参数后,输出数据质量模式图。2.1.3 定义信息系统定义信息在企业信息系统中的处理过程也十分重要。企业信息系统可能由以下几个部分组成:数据来源VB(Vendor Block),数据质量控制模块QB(Data Quality Block),数据处理模块PB(Processing Block),数据存储模块SB(Storage Block),数据使用模块CB(Consuming Block)以及数据单元DU(Data Unit)。图2-6是一个企业的信息系统结构模式图,图中有三个数据来源VB1, VB2和VB3,提供DU1, DU2, DU3, DU4和DU5给该信息系统。这五个数据单元在经过一系列的处理后,分别被CB1, CB2和CB3所使用。这样的信息系统结构模式图可以帮助IP队伍评估当前的数据质量,同时在信息系统的分析和改造中也发挥着重要的作用。图2-6 某企业信息系统结构模式图2.2 测量阶段几乎所有数据质量的相关研究都是建立在对数据质量进行有效测量和评估的基础上的。没有科学的数据质量评价指标体系,就无法得知当前企业数据质量的状况,对数据质量问题的分析和改进更无从谈起。研究人员对数据质量评估的关注大多集中在数据质量维度(Dimensions)上。2.2.1 数据质量维度长久以来,将数据质量划分为多个维度或属性被认为是描述和研究数据质量的最佳实践。Ballou和Pazer两位数据质量领域的先驱最早将数据质量划分为四个维度:准确性(Accuracy),完备性(Completeness),一致性(Consistency)和时效性(Timeliness)。准确性要求数据准确的描述了实际情况,完备性要求所有相关信息都被记录而没有遗漏,一致性要求所有信息使用统一的格式记录,而时效性则要求事件在发生后立即被记录,过时无效的信息是不允许进入数据库的2。另一种维度划分能全面的覆盖数据质量的各个方面。数据质量维度被划分到四个大类里面:固有特征,上下文特征,可表达特征和可访问特征。固有特征意味着信息本身具有一定的质量。上下文特征主要关注数据质量在实际情况中被考虑的情形,它必须是相关的,及时的,完整的和数量适中的。可表达特征和可访问特征强调了用来存储信息和提供信息访问的计算机系统的重要性;也就是说,该系统必须能够把信息以一种可被翻译,容易理解,容易操作且简洁和一致的方式表达出来;同时,系统必须能够提供安全访问。每一个大类包含的具体数据质量维度见表2-2。在这些维度中,有一些只能够进行质的评估,也就是主观的评估,如可表达特征中的可翻译性,易懂性等等;但对于大多数维度来说,一般既可以进行主观的质的评估,又可以进行客观的量的测量和计算。表2-2 数据质量维度数据质量类别数据质量维度固有特征准确性,客观性、可信度、声誉上下文特征相关性、增值、时效性、完整性、信息量可表达特征可翻译性、易懂性、表达简明度、一致表达性可访问特征可访问性、安全性 对数据质量维度的主观评估通常采用问卷调查的形式。调查问卷类似于2.1.2中定义数据质量需求部分使用的调查问卷。调查问卷中的大多数问题是形如“这些信息是(某个维度)的”,例如“这些信息是容易理解的”,“这些信息的可信度很高”或者“这些信息(对我来说)是过时的”。被调查者应该包括信息的提供者,操作者,使用者和管理者,他们被要求对问题根据主观判断进行评分回答。通常我们采用0-10分的11分制,其中0分表示“一点也不”,10分表示“完全正确”。经验告诉我们,传统的9分制会诱导被调查者趋向于选择上半部分的分数,因为从某种程度上讲,信息的提供者,操作者和管理者更愿意把他们的数据质量评估在中等偏上的水平。事实上,关于如何开发有效的数据质量调查问卷有一套完整的方法,Yang W. Lee和Diane M. Strong在他们的论文AMIQ : A Methodology for Information Quality Assessment进行了更为详细的探讨。对数据质量维度的客观测量和计算主要采用数据质量指标(DQ Metrics)。尽管当前数据质量指标仍然是一个探索性的研究课题,我们还是在已有研究的基础上尽可能的介绍了数据质量指标的概念和实践意义。2.2.2 数据质量指标测量数据质量的关键在于数据质量指标(DQ Metrics)。数据质量指标既可以独立于事务又可以依赖于事务。独立于事务的指标反映了在不考虑应用上下文的情况下数据的状态,可以不考虑当前的事务而应用于任何数据集。这些指标可以是诸如数据准确性,时效性,完整性,一致性等最基本的对数据质量的衡量。下文给出了两个独立于事务的指标的例子。完整未损指标(Intactness) 一个表的完整未损指标是指该表中通过了完整性检查,一致性检查和合理性检查的记录数占表中总记录数的百分比。通常,完整未损指标的值走低标志着低劣的数据质量。维度有效性 D*(Dimensional Efficiency D*) 给定一个含有D个属性的表,该表的D*被定义为既不是所有记录都一样,又没有缺失到使该属性完全失去作用的地步,同时也不是由其他属性计算得来的属性的个数占全部属性个数D的百分比3。依赖于事务的指标包含了企业中的商业规则,政府规约以及数据库管理员提出的各种约束,在特定的上下文中开发和应用。例如,在银行的贷款系统中,客户贷款的总数不应该超过一个限定的值,而这个限定值应该要考虑到同时拥有多个账户的客户。为了将类似的商业规则运用到工作中,IP队伍应当制定相应的账户连接规则和数据质量指标。如何开发数据质量指标我们将提出三种在开发数据质量指标过程中无处不在的功能形式以及这些功能形式实际运用的例子。IP队伍可以轻易地对这些功能形式进行优化,如加入某种参数。通常情况下,最困难的工作是如何精确定义与企业特定应用相关的维度或维度的某几个方面;而一旦这一步完成以后,根据功能形式推导出数据质量指标几乎是顺水推舟的事情。比率 比率用来计算满足需要的结果数和总数的比值。很多传统的数据质量指标,例如无错性(Free-Of-Error),完整性(Completeness)和一致性(Consistency)都采用这种形式。无错性(Free-Of-Error)代表数据的正确性。该指标被定义为没有错误的数据单元数和总数据单元数的比值。在实际使用的时候,定义数据单元的组成以及定义什么是错误需要一系列明确的标准。例如,单个文字错误如果出现在人名中是不能忍受的;但如果单个文字错误出现在一段很长的介绍信息中,也许是可以允许的。完整性(Completeness)在不同的角度有不同的数据质量指标与之相对应。在最抽象的级别,也就是模式完整性(Schema Completeness),完整性指标被定义为数据模式中未缺失的实体和属性数与全部实体和属性数的比值;在数据级别,也就是列完整性(Column Completeness),完整性指标被定义为表中某一列的内容未缺失的记录数与记录总数的比值。另外还有一种叫做群体完整性(Population Completeness)。例如,如果表示属于美国某个州的那一列需要50个州至少每个出现一次,但实际只出现了47个州,那么我们就称其破坏了群体完整性。一致性(Consistency)也可以从不同的角度看待。在实际情况中可能会制定一系列的一致性规则,而一致性指标就可以被定义为没有违反任何一致性规则的数据与所有数据的比值。最大最小值 当需要多个数据质量参数(Data Quality Parameter)共同来评估某个维度的时候,可以使用最大最小值。最小值是较为保守的方式,因为它把所有数据质量参数中的最差值(所有数据质量参数的值被映射到0-1之间的某个值)赋给被测量的维度;而最大值一般在从宽评估有意义的时候使用,它把所有数据质量参数中的最好值(所有数据质量参数的值被映射到0-1之间的某个值)赋给被测量的维度。可信度(Believability)表示数据被认为是正确和可信的程度。可信度反映了对数据来源可靠程度,与广泛被接受的标准的比较结果以及基于之前经验等多方面的综合评估。假设某数据的数据来源可靠程度是0.6,与广泛被接受的标准比较的结果是0.8,基于经验这段数据的可信度是0.7,那么总体可信度可以取最小值min(0.6, 0.8, 0.7),即0.6。数据量的适合度(Appropriate Amount of Data)意味着数据量既不应太大也不应大小,应该符合实际的需要。通用的关于这个维度的数据质量指标是取两个比率里的最小值:需要的数据量与实际提供的数据量的比值,实际提供的数据量与需要的数据量的比值。时效性(Timeliness)是指在特定事务中数据的相对新旧程度。一个通用的数据质量指标是在以下两个值中取最大值:0和1-cv的值。其中,C表示数据的年龄(用户使用数据的时间 - 数据第一次被录入的时间 + 数据在第一次录入时的已有年龄),V表示该数据可被视作有效的时间长度。可访问性(Accessibility)维度用来衡量数据是否容易获得和使用。一个典型的反映可访问性的数据质量指标可以使用与时效性相似的算法:在0和1- 从用户请求数据到用户得到数据的时间间隔从用户请求数据到该数据不再有效的时间间隔 的值之间取最大值。加权平均 当需要多个数据质量参数(Data Quality Parameter)共同来评估某个维度时,可以采用例如上述的最大最小值方法开发数据质量指标。同时,如果企业对每一个数据质量参数的值在评估维度中的重要性理解十分透彻,就可以引入加权平均的方法。数据质量参数在被映射到0-1之间的值以后,分别根据其重要性被赋予不同的权重。计算时采用加权平均的方法,得出总体的维度值。2.2.3 实际评估在实践中,对数据质量进行评估分以下三步:第一步,分别对数据质量的维度进行主观评估(主要是通过问卷调查形式)和客观评估(主要采用数据质量指标计算)。第二步,利用图2-7分析比较主观评估和客观评估之间的差异,寻找差异的根源所在。分析结果会落在图中四个象限之一,其中第四象限是目标象限;如果分析结果落在另外三个象限中的任何一个,IP队伍就应该着手于分析造成差异的根本原因并采取一定的措施。图2-7 数据质量主客观评估参照图如果某个企业的数据质量评估分析结果落在第四象限,也就意味着对该企业数据质量的主观和客观评估结果都处于比较高的水平,那么也许企业只需要继续坚持采用当前已有的数据质量控制手段;如果结果落在第三象限,对数据质量的客观评估认为数据质量比较高,而主观评估认为数据质量处于较低的水平,那么这也许是由于参与调查的人员在主观因素中掺入了过去对于该企业数据质量的看法,IP队伍应该找出问题究竟是由什么引起的;同样的,如果结果落在第一象限,有可能是由于数据质量指标的设置过于苛刻,超过了被调查人员对于数据质量的需求造成的。如果数据质量评估分析结果落在第二象限,那么毫无疑问,IP队伍需要对企业的信息系统和数据质量控制环节做一个彻底的分析和改造了。实践中数据质量评估的第三步是确定需要做出的改进并将其付诸行动。2.3 分析阶段得到TDQM测量阶段的结果后,IP队伍应当着手于研究造成各种数据质量问题的根本原因。TDQM分析阶段可以采用的方法和工具有很多,既可以很简单,又可以很复杂。简单的方法如利用数据标记(Data Tagging)追溯问题数据的源头,复杂的如统计学知识的运用,模式识别,图表分析等等。下文我们将在介绍数据质量问题分类之后,引入一些在分析阶段常常使用的技术2.3.1 数据质量问题分类概述中提到可以将数据仓库中的数据质量问题划分为单数据源和多数据源问题两大类,每一类又可以细分为模式相关和实例相关两个方面的问题,如图2-8所示。图2-8 数据质量问题分类单数据源问题 长期以来,对数据源中的质量人们往往只关注其中具体的数据即实例相关的问题,而忽视模式相关的问题。事实上,一个数据源的数据质量在很大程度上是由数据模式以及相应的完整性约束决定的。数据模式和完整性约束控制了所允许进入数据源中的数据范围。如果在一个数据源中没有数据模式,就会对进入和存储的数据缺乏相应的限制,出现数据错误和不一致数据的几率将大大提高。模式相关的数据质量问题会由于缺乏合适的数据模型或特定应用的完整性约束而引起。模式相关的问题可以进一步细分为属性(字段)、记录、记录类型及源四种不同范围的错误。表2-3给出了单数据源中与模式相关问题的一些例子。表2-3 单数据源中与模式相关问题举例范围问题脏数据问题的原因属性错误的数据birthdate = 1970.13.30数值越界(月份应12)记录属性依赖冲突age = 22, birthdate = 1970.12.02age应该等于当前年份 出生年份记录类型唯一性冲突emp1 = (name = “张三”, ID = “330103661107128”)emp2 = (name = “李四”, ID = “330103661107128”)身份证号码应该是唯一的源参照完整性冲突emp3 = (name = “王五”, deptno = “127”)系别号127在相应的表中没有定义实例相关的问题是在模式一级无法避免的问题。典型的实例相关问题包括:(1) 空缺值:在一些记录的属性上没有记录值,这往往由于在数据输入时没有合适的数据或者采用了缺省值等原因引起。(2) 拼写错误。(3) 缩写:例如将Data Quality缩写为DQ,而没有任何额外的注释。(4) 内嵌数据:一个属性包括多个数据。这经常出现在一些具有自由格式的属性中。(5) 属性依赖冲突:如城市名与邮编应该相对应。(6) 数据重复:由于数据输入错误导致有多条记录表示现实世界中的同一个实体。多数据源问题 每一个数据源都是为了满足特定的需要而进行设计、部署和维护的,也就是说,它们在设计开发时往往是相互独立的。这样做的结果是不同的数据源在数据库管理系统、数据模型、模式设计以及数据存储格式等方面都存在很大的不同。在数据仓库应用中,将多个数据源进行集成时数据质量问题表现得尤为突出。多数据源问题中存在的模式相关的问题主要是命名冲突和结构冲突。命名冲突表现在同一个名字表示不同的对象或者不同的名字表示同一个对象;结构冲突的典型表现是在不同的数据源中同一对象采用不同的表现方式,如不同的成分结构、数据类型、完整性约束等。除了模式级别的冲突外,许多冲突只出现在实例级。在单数据源中出现的各种实例问题都将以不同方式出现在不同的数据源中(如重复的记录、矛盾的记录等)。即使在具有相同属性名称和数据类型的情况下,也可能有不同的数据表示(如在其中一个数据源中使用M、F分别表示男、女,而在另一个数据源中使用0、1来表示)或者不同的解释(如计量单位一个是公斤,另一个是磅)。事实上,实例级别的数据质量问题较之模式级别需要更多的领域知识,因而利用通用方法解决的难度更大。目前业界主要利用问题领域的专家手工或者半自动化的方法来解决这些问题。2.3.2 单数据源中孤立点的检测一些单数据源中数据质量问题的检测和消除是比较容易的。如属性依赖冲突,可以简单地通过给出一张属性之间的对照检查表来解决;又如数值越界问题,可以事先给定数值的范围,然后通过自动化的比较就可以检测出来。然而,有些数据质量问题的检测是相当复杂的,需要应对这些类型的错误进行深入的检查和分析。即便如此,也不能完全检测并消除数据中所包含的错误。由于每种方法所能检测的错误类型及范围是不同的,为了能尽可能多地检查出存在的错误,应该同时采用多种方法来进行错误检测。在数据集中经常存在一些数据对象,它们不符合数据的一般模型。这样的数据对象被称为孤立点(Outlier),它们与数据的其它部分不同或不一致。孤立点可能是度量或记录错误所导致,也可能是有一定意义的数据变异性的产物。例如一个人的年龄为-999很可能是由程序对未记录的年龄设定了缺省值所产生的;而一个公司总经理的工资,自然远远高于公司其他雇员的工资,成为一个孤立点。由于数据错误往往表现为孤立点,所以对数据质量的分析往往通过检测孤立点的方法来进行。但并非所有的孤立点都是错误的数据,在检测出孤立点后还应结合领域知识或元数据(Metadata)从中找出真正的错误数据。目前人们已经研究和开发出众多的方法进行孤立点的检测,其中有三种方法经实践证明是行之有效的,它们是基于统计的方法、聚类的方法以及基于偏离的方法。基于统计的方法 一种基于统计学知识的方法对给定的数据集合假定一个分布或概率模型(例如一个正态分布),然后根据模型采用不一致性检验来确定孤立点。该检验要求知道数据集参数(例如假设的数据分布)、分布参数(例如平均值和方差)和预期的孤立点数目。利用基于统计的方法进行孤立点检测一个主要缺点是,绝大多数检测是针对单个属性的,而许多数据仓库问题要求在多维空间中发现孤立点。而且,统计学方法要求关于数据集合参数的知识,例如数据分布,但是在许多情况下,这些参数很可能是未知的。同时,基于统计的方法不能确保所有的孤立点被发现,或者观察到的分布不能恰当地被某一个标准分布来模拟。2.3.3中关于探索性数据分析(EDA)的探讨提供了更多关于利用统计学知识对数据质量进行分析的内容。基于聚类的方法 聚类(Clustering)就是将数据对象划分到多个类或簇(Cluster)中。同一簇中的对象之间具有较高的相似度而不同簇中的对象差别较大。在许多应用中,可以将一个簇中的数据对象作为一个整体来考虑。通过聚类,人能够识别密集和稀疏的区域,从而发现全局的分布模式,以及数据属性之间有趣的相互关系。作为数据挖掘的一个分支,聚类分析已经被广泛地研究了许多年,特别是基于距离的(Distance-based, DB)聚类分析。因此,采用聚类的方法进行孤立点检测大多是采用基于距离的方法进行的。基于距离的孤立点定义如下:如果数据集合S中对象至少有p部分与对象o的距离大于d,则对象o是一个带参数p和d的基于距离的(DB)孤立点。换句话说,不依赖于统计检验,我们可以将基于距离的孤立点看作是那些没有足够多“邻居”的对象,这里的“邻居”是基于距给定对象的距离来定义的。与基于统计的方法相比,基于距离的孤立点检测拓宽了多个标准分布的不一致性检验的思想。但是该方法要求用户设置参数p和d。寻找这些参数的合理设置可能需要多次的试探和校正。基于偏离的方法 基于偏离的孤立点检测不采用统计检验或基于距离的度量值来确定异常对象。相反,它通过检查一组对象的主要特征来确定孤立点。与给出的描述相“偏离”的对象被认为是孤立点。2.3.3 探索性数据分析探索性数据分析(Exploratory Data Analysis, EDA)提供了一种行之有效的,从统计学的视角分析数据质量,寻找异常数据的方法。在实际案例中,EDA以图形化为主导,辅以对关系数据库相关问题的考虑,可以有效地解决:元数据(Metadata)问题,包括关于数据库的各种信息如数据库结构、表、空缺值和不完整的值;单个属性的特征,如数据合法性和值域分布情况;属性之间的关系,包括不同关系表之间的属性一致性检查;关系型数据特征,如数据库中的主键、外键约束以及表与表之间的连接。案例分析的数据来自于Alan F. Karr和Ashish P. Sanil所著Data Quality: A Statistical Perspective。尽管一个案例并不能囊括现代数据质量的所有内容,但是却很好的示范了探索性数据分析EDA在TDQM分析阶段的有效运用。图形化在其中扮演了非常重要的角色。案例分析:FARS数据的ITDB版本背景 FARS(美国国家公路交通安全管理局,2002)是对全美五十个州,哥伦比亚特区以及波多黎各发生的致命性交通事故的一个统计数据库。每年来自警署和紧急医疗系统(Emergency Medical System, EMS)的报告都存放在四
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新乡职业技术学院《分子细胞生物学专论》2023-2024学年第二学期期末试卷
- 浙江横店影视职业学院《流体输配管网课程设计》2023-2024学年第一学期期末试卷
- 浙江省慈溪市六校2024-2025学年高中毕业班联考生物试题含解析
- 湖南省长沙市天心区长郡中学2024-2025学年高三3月月考生物试题理试卷含解析
- 山西省晋南地区达标名校2025届初三调研试题(一)生物试题含解析
- 浙江省金华市义乌市2025届高三下学期第十二次重点考试历史试题含解析
- 新疆新源县2025年高中毕业生五月供题训练(二)化学试题含解析
- 星海音乐学院《合成生物技术》2023-2024学年第二学期期末试卷
- 山东省济宁地区(SWZ)重点中学2025年初三下学期第八次模拟考试物理试题试卷含解析
- 江苏省南京玄武区十三中学集团科利华2024-2025学年初三考前全真模拟密卷数学试题试卷(6)含解析
- 2023届高考作文模拟写作:“成器”和“不器”导写及范文
- GB/T 8237-2005纤维增强塑料用液体不饱和聚酯树脂
- GB/T 14713-2009旋切机通用技术条件
- 低成本自动化的开展与案例课件
- 不予受理反诉民事上诉状(标准版)
- 高中英语语法之虚拟语气(课件3份)
- 粤教版2022年小学六年级科学下册期中测试试卷及答案2022-2023
- 北师大六年级下册数学第三单元《图形的运动》教学设计
- 国际石油合作主要合同模式课件
- 桥梁加固改造工程施工质量管理体系与措施
- 第二十六章慢性肾小球肾炎演示文稿
评论
0/150
提交评论