已阅读5页,还剩72页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 数据仓库的架构大体可以分为三部分:后台是数据存储和计算引擎,前端 是数据展现分析的用户界面,还有一。个重要的部分就是e t l 。 e t l 所完成的工作主要包括三方面:首先,在数据仓库和业务系统之间搭 建起座桥梁,确保新的业务数据源源不断地进入数据仓库;其次,用户的分 析和应用也能反映出最新的业务动态,虽然e t l 在数据仓库架构的i 部分中技 术含量并1 i 算高,但其涉及到大量的业务逻辑和异构环境,冈此在。般的数据 仓库项目中e t l 部分往往也是牵扯精力最多的;第三,如果从整体角度来看, e t l 主要作用在于屏蔽了复杂的业务逻辑,从而为各种基于数据仓库的分析和 庵用提供了统一的数据接l j ,这也是构建数据仓库最重要的意义所在。 e t l 的过程分为抽取、转换、装载三个步骤。数据抽取、转换是根据新旧 系统数据库的映射关系进行的,而数据差异分析是建立映射关系的前提,这其 中还包括对代码数据的差异分析。转换步骤一般还要包含数据清洗的过程,数 据清洗主要是针对源数据库中,对出现二义性、重复、不完整、违反、i k 务或逻 辑规则等问题的数据进行相应的清洗操作。 在数据清洗之前需要进行数据质量分析,以找出存在问题的数据,否则数 据清洗将无从谈起。数据质量分析是e t l 过程的一个重要组成部分,数据装载 足通过装载工具或自行编写的s o l 程序将抽取、转换后的结果数据加载到j = = j 标 数据库中。 本文详细分析了e t l 技术的相关内容,结合a s c e n t i a ld a t a s t a g e 研究了e t l 技术在银行信用系统项目中的应用,其中重点研究了数据清理方法、数据质量 分析过程和数据质量分析方法,根据实际项目的应用提出了数据质量分析的方 法和数据质量分析的管理过程。 关键词:数据仓库;e t l ;数据质量分析 兰堕型:三奎堂兰堂堡主堂竺笙苎 a b s t r a c t t h ea r c h i t e c t u r eo fd a t aw a r e h o u s ec a l la l m o s tb ed i v i d e di n t ot h r e ep a r t s :t h e b a c k g r o u n d i n c l u d e sd a t a s t o r a g e a n d c a l c u l a t i n ge n g i n e f o r e g r o u n d i su s e r 8 i n t e r f a c ef o rd a t a se x h i b i t i o na n da n a l y s i s a n dt h el a s ti m p o r t a n t p a r t i se t l t h ew o r k se t l a c c o m p l i s h e dh a v et h r e ea s p e c t s :f i r s t l y , e t l b u i l d sab r i d g e b e t w e e nd a t aw a r e h o u s ea n db u s i n e s ss y s t e m ,a si n s u r e sn e wd a t ao fb u s i n e s sc a nb e p u ti n t h ed a t aw a r e h o u s ep e r p e t u a l l y ;s e c o n d l y , t h ea n a l y s i sa n da p p l i c a t i o no f u s e r sa l s oc a nr e f l e c tt h el a t e s tb u s i n e s ss i t u a t i o n a l t h o u g he t l d o n tn e e dm u c h t e c h n o l o g yi nt h ed a t aw a r e h o u s ea r c h i t e c t u r e ,i ti n v o l v e si nal o to f b u s i n e s sl o g i c a n d h e t e r o g e n e o u s e n v i r o n m e n t s oi nm o s to fd a t aw a r e h o u s ep r o j e c t s ,e t l d e m a n d sm o s t w o r k l o a d ;f i n a l l y , t a k i n ga l li n t oc o n s i d e r a t i o n ,t h em a i n f u n c t i o no f e t li st os h i e l dt h ec o m p l i c a t e do p e r a t i o nl o g i c s ot h a ti tc a np r o v i d eu n i t i v ed a t a i n t e r f a c ef o ra n a l y s i sa n da p p l i c a t i o nb a s e do nd a t aw a r e h o u s e t h i si st h em o s t i m p o r t a n tm e a n i n g o f b u i l d i n gt h ed a t aw a r e h o u s e t h e p r o c e s s o fe t li n c l u d e s e x t r a c t ,t r a n s f o r m , a n dl o a d e x t r a c ta n d t r a n s f o r ma r eb a s e do nt h em a p p i n gr e l a t i o nb e t w e e nt h en e ws y s t e md b a n do l d s y s t e md b a n d t h ep r e m i s eo fs e 竹i n gu pt h em a p p i n gr e l a t i o ni sa n a l y s i so fd a t a s d i f f e r e n c e s ,a sw e l la st h es o u r c ec o d e sd i f f e r e n c e s i ng e n e r a l l y , t r a n s f o r ma l s o i n c l u d e sd a t ac l e a n i n g ,w h i c hi st oc l e a rt h ed a t at h a ti sf r o mo r i g i n a ld b ,a n d t h a ti s m u l t i v o c a l ,r e p e a t e d ,i n c o m p l e t e ,d i s o b e y i n gt h eb u s i n e s sa n dl o g i cr u l e s ,a n ds o o n b e f o r ed a t ac l e a n i n g ,a n a l y s i so fd a t a sq u a l i t yi sd e m a n d e d a sl o n g a st h ei f f y d a t ai sf o u n d ,i tc a nb ec l e a r e d a n a l y s i so fd a t a sq u a l i t yi sa ni m p o r t a n tp a r to f e t l d a t al o a d i n gi st ol o a dt h ed a t aw h i c hh a sb e e ne x t r a c t e da n d t r a n s f o r m e di n t o t h ed e s t i n a t i o nd a t a b a s et h r o u g hl o a d i n gt o o l sa n ds o l s e n t e n c e sp r o g r a m m e d m a n u a l l y t h i sp a p e rd e t a i l e d l ya n a l y z e st h e r e l e v a n tc o n t e n ta b o u tt h et e c h n o l o g yo f e ,n 一c o m b i n e dw i t ha s c e n t i a ld a t a s t a g e i ts t u d i e st h ea p p l i c a t i o no fe t li nt h e b a n kc r e d i ts y s t e mp r o j e c t ,i nw h i c ht h ep r o c e s sa n dm e t h o d so f a n a l y s i so fd a t a s q u a l i t yh a v eb e e n s t u d i e dd e e p l y ,a n dt h es t e p so fa n a l y s i so fd a t a sq u a l i t ya n dt h e p r o c e s so fm a n a g e m e n t a l s oh a v eb e e np r e s e n t e d t h e s et h e o r i e sh a v eb e e n a p p l i e d t ot h er e s e a r c ho f p r o j e c t ,w h i c ha c h i e v e s a ni d e a lr e s u l t k e yw o r d s :d a t aw a r e h o u s e ;e t l ;a n a l y s i so fd a t aq u a l i t y i l l 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导f 独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 伞意识到本声明的法律后果由本人承担。 作者签名:肖国荣 肖阂艇 日期:2 0 0 4 年5 月2 6 同 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上相应方框内打“4 ”) 作者签名:肖国荣岿阂泉 导师签名:郑肩伦铆豫 日期:2 0 0 4 年5 月2 6 日 1 3 期:2 0 0 4 年5 月2 6 日 第一章绪论 1 1 数据仓库技术与e t l 2 0 世纪9 0 年代初期,美国著名的信息工程学家w h 1 n 3 0 1 3 在建立 数据仓库一书中提出了“数据仓库”的定义:数据仓库( d a t a w a r e h o u s e ) 是面向 主题的、集成的、稳定的、包含历史数据的数据集合。数据仓库是个环境, 丽不是一件产品,它提供用户用于决策支持的当时和历史数据,这些数据在传 统的操作性数据库中很难或不能得到。数据仓库是一种有效的管理技术,将分 布在网络t 争不同站点的商业数据集成到一起,为决策者提供各种类型的、有效 的数据分析起到决策支持作用。 整个数据仓库系统由三大部分组成:数据集成、数据仓库和数据集市、多 维数据分析。通常,商务智能运作所依靠的信息系统是一个由传统系统、不兼 容数据源、数据库与应用所共同构成的复杂数据集合,各个部分之间不能彼此 交流。从这个层面看:目前运行的应用系统是花费了很大精力和财力构建的、 不可替代的系统,特别是系统的数据。而新建的商务智能系统目的就是要通过 数据分析来辅助自己决策,恰恰这些数据的来源、格式不群,导致了系统实 施、数据接合的难度。此时,企业非常希望有个全面的解决方案来解决困境, 解决余业的数据一致性与集成化闯题,使能够从所有传统环境与平台中采集数 据,并利用一个单一解决方案对其进行高效的转换。这个解决方案就是e t l 。 通常,企业的数据源分布在各个子系统和节点中,利用e t l 将各地方_ k 务 系统| j - 的数据,通过自动化f 四或手动控铝8 传到u n i x 或n t 服务器上,进行 抽取、清洗和转化处理,然后加载到数据仓库。因为现有业务数据源多,保证 数据的一致性,真正理解数据的业务含义,跨越多平台、多系统整合数据,最 大可能提高数据的质量,迎合业务需求不断变化的特性,是e t l 技术处理的关 键。 数据仓库系统先天不足,是在、( k 务系统的基础上发展而束的,其内部存储 的数据来自于事务处理的业务系统和外部数据源。商企业内各原数据缺少统一 的标准,凶企业的业务系统是在不同时期、不同背景、面对不同应用、不同开 华南理_ r 大学硕十学位论文 发商等各种客观前提下建立的,其数据结构、存储平台、系统平台均存在很大 的异构性。因而其数据难以转化为有用的信息,原始数据的不一致性导致决策 时其可信度的降低。 1 2e t l 技术意义 数据仓库的架构大体町以分为三部分,后台是数据存储和计算引擎;前端 足数据展现分析的用j 1 i 界面:还有一部分就是数据抽取( e t l ) 。如刚才所说 e t l 完成的l 作主要包括三方面,其在数据仓库和业务系统之间搭建了一座桥 梁,确保新的业务数据能源源不断进入数掘仓库,同时用户的分析和应用也能 反应池最新的业务动念。虽然e t l 在数据仓库架构的二部分中技术含量并不算 商,但其涉及到大量的业务逻辑和异构环境,因此存一般的数据仓库项目中e t l 部分往往是牵扯精力最多的。如果从整体角度来看,e t l 主要作用在于其屏蔽 了复杂的业务逻辑从而为符种基于数据仓库的分析和应用提供了统一的数据接 口,这也可以说是构建数据仓库最重要的意义所在。 对于更多的负载,数据仓库环境不仅要交换,在许多系统巾还要集成、重 新安排和合并数据,因而为商务智能提供了新的一体化信息。此外,数据仓库 环境中的数据量很大。 e t l 足b i d w 的核心和灵魂,按照统一的规则集成并提高数据的价值, 是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要 步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖轧的话, 那么e t l 就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型 设训,而e t l 规则设计和实施则是1 j 作量最大的,其工作量要占整个项日的 6 0 8 0 ,这是国内外从众多实践中得到的普遍共识。 1 3 数据质量分析 肘十创建数据仓库及其后续工作,如数据挖掘等。都需要数据的i e 确性 ( c o r r e c m e s s ) 、一致性( c o n s i s t e n c y ) 、完整性( c o m p l e t e n e s s ) 和可靠性 ( r e l i a b i l i t y ) ,而目前的现存管理系统中的数据存在很多的问题,容易造成脏 数据,主要原因如下:滥用缩写词、惯用语、数据输入错误、数据中的内嵌控 2 第、章绪论 制信息、重复记录、丢失值、拼写变化、不同的计量单位和过时的编这些脏数 据可能带来如操作费用昂贵、决策制定失败甚至于错误、组织和下属的不信任、 分散管理的注意力等等,因此针对脏数据的有效处理是进行辅助决策的必要步 骤。而数据清洗处理可以有效的清除脏数据、保证数据的质量。 数据清洗处理是构建数据仓库的第一步,鉴于数据的海量,不可能进行人 工处理,在数据清洗之前需要进行数据质量分析,以找出存在问题的数据,否 则数据清洗将无从谈起。 众所周知,数据仓库和知识发现已经从理论走向了实际的应用,世界5 8 0 强食业中9 9 使用了数据仓库进行信息辅助决策。而数据清洗保证信息源的数 据质量,从而保证了辅助决策的原始数据的正确性和准确性。没有数据清洗, 很可能就会导致错误的决策,因此数据清洗是构建数据仓库和知识发现的必要 吲素。 1 4 国内外动态 目前,e t l 面临的最大挑战是接收数据时其各原数据的异构性和数据的低 质量。用户在构建数据仓库应用的过程中一个非常重要的问题就是要保障良好 的数据质量,如果原数据本身是“脏”数据,那么有可能导致分析出的结果与实 际情况大相径庭,这不是技术问题,而是方法和应用的问题。 数据质量被定义4 个指标:数据的致。陛( c o n s i s t e n c y ) 、正确性( c o r r e c t n e s s ) 、 完整性( c o m p l e t e n e s s ) 和可靠性( r e l i a b i l i t y ) 在信息系统中得到满足的程度i 】1 。 数据质量衡量指标分为两类:数据质量指示器和数据质量参数口1 前者是客观的 信息,比如数据的收集时间,来源等,而后者是主观性的,比如数据来源的可信度 ( c r e d i b i l i t y ) 、数据的及时性( t i m e l i n e s s ) 等。 数据清洗( d a t ac l e a n i n g ,d a t ac l e a n s i n g 或者d a t as c r u b b i n g ) 目的是检测数 据中存存的错误和不致,剔除或者改j f 它们,这样就提高了数据的质量。 数据清洗处理是构建数据仓库的第一步,鉴于数据的海量,不可能进行人 工处理,因此自动化数据清洗受到工业晃的广泛关注。提出了自动数据清洗的 概念框架:定义和判断错误类型;查找并标示错误实例;修改没有发现的错误。 但是,又出于这个问题比较凌乱而显得难以采用通用的方法进行处理,数据清 3 华南理r 大学硕士学位论文 洗的研究目前并不是特别活跃。一些研究人员研究相似重复记录的识别和剔除 1 9 1 2 j ,还有一些与数据清洗相关的1 作i l s m 】。 大多数研究工作都针对特定领域的数据集,或者是对不同性质的异常数据 进行的通用处理。国内关于数据仓库领域的研究都是以理论为主,很少涉及实 例层次的研究。 王见在困外的相关研究乇要包括以下几个方面: 一、提出高效的数据异常检测算法,来避免扫描整个庞大的数据集; :、在自动检测数据异常和进行清洗处理的步骤之间增加人工判断处理, 来防i e 对j f 确数据进行错误处理: 三、数据清洗时对数据集文件的并行处理; 四、如何消除合并后数据集中的重复数据: 五、建立一个通j j 的领域无关的数据清洗框架; 六、关于模式集成问题。 e t l 过程在很大程度上受企业对原数据的理解程度和数据质量高低的影 响,也就是说从业务的角度看数据集成和数据质量非常重要。冈此如何应用数 据质量分析技术提高数据的质量以及进行数据清理是目前幽内外e t l 技术研 究的热点问题。 1 5 项目背景意义 国内银行业开展信用卡业务已有多年,信用卡业务的经营运作已从简单的 扩大规模、追求规模效应的迅速增长阶段进入了成熟阶段。越来越多的银行意 珏 到信厢卡作为银行与客户,尤其是与个人消费者之间联系最直接的部门,只 有突出营销和服务的意识,为客户提供更新、更便捷的金融产品才能保证利润 来源。凶此,各商业银行不断推出新的服务品种和花样繁多的增值服务,以提 高市场占有率和赢得最大利润。国内信用卡市场的竞争日趋激烈,矧时,v c f o 的来临,外资银行的进入,又将使国内银行业面临更加严峻的挑战。如何留住 优质客户? 如何挖掘客户的消费潜力? 如何科学地评价客j 、的风险度? 如何及 时地提供止付名单? 如何制定市场营销策略? 这一系列问题,都是银行各级领 导、分析、市场人员必须迫切需要面划的问题。 4 第一章绪论 2 0 0 2 年底某银行的零售贷款总笔数已达1 5 万笔左右,其中9 9 已纳入了 总行丌发的消费信贷系统( 简称c c s 系统) 中管理,系统的集中管理和数据录 入的标准化,为我行对客户和贷款信息进行数据加工和统计分析提供了可能。 伴随零售信贷业务的不断发展,零售信贷品种的不断增加、客户群范围的小断 扩大。如何选择目标客户,确定我行的目标市场:如何识别、防范和控制贷款 风险,就成为了银行零售信贷业务部门迫切的需求。这就要求银行尽快建立适 应现时零售信贷业务发展和管理要求的零售贷款风险管理与个人信用评估系 统。 1 6 本文研究内容 本文详细分析了e t l 技术的相关内容,结合a s c e n t i a ld a t a s t a g e 研究了e t l 技术在银行信用系统项目中的应用,其中重点研究了数据清理方法、数据质量 分析过程和数据质量分析方法,根据实际项目的应用提出了数据质量分析的方 法和数据质量分析的管理过程。 1 7 本章小结 本章介绍了数据仓库的概念和基本架构,介绍了e t l 技术,e t l 技术是 b i d w 的核心和灵魂,是负责完成数据从数据源向目标数据仓库转化的过程, 是实施数据仓库的重要步骤,提升 了数据质量分析对于数据仓库的重要性,分 析了闩前数据质量分析技术的国内外动态。 华南理工人学硕十学位论文 2 1e t l 技术概要 第二章e t l 技术介绍 e t l :e x l r a c t r a n s f o r m l o a d 的缩写,数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、 装载( l o a d ) 的过程。e t l 包含了二方面,首先是抽取:将数据从各利,原 始的业务系统中读取出来,这是所有工作的前提。其次转换:按照预先设计 好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。最后的 装载:将转换完的数据按计划增量或全部的导入到数据仓库中1 3 2 l 。 e t l 平台相关文件存储示意图如下图: 母冒 田四 图2 1e t l 平台相关文件存储不恿图 f i g u r e 2 - 1a c c e s so fe t u sr e l e v a n td o c u m e n tm o d e l e t l 处理中发生了什么? 存提取过程中,所需数据须经识别,然后从多种 不同数据源,包括数据库系统和应用程序中提取。通常,指定具体的所需数据 子集足不可能的。既然在下一时问点将进行相关数据的识别,冈此提取的数据 耍多于所需数据。依靠源系统的功能( 例如,o s 资源) ,一些转换可能在提取 6 第,章e t l 技术介绍 过程q j 发生。提取数据的大小,根据源系统和业务状况,从几千字节到几兆字 节变化。t f 如数据提取大小可能广泛变化,数据提取频率也可能广泛变化:时 间跨度在天j 、时和秒之间变化,甚至接近实时。 提取数据后,该数据在物理上必须转到日标系统或媒介系统以便进一步处 理。根据所选择的传送机制,在此过程中必须进行一些转换。 提取( 传送) 数据后,紧接着是更具挑战性和更耗时的e t l 部分:转换 和载入日标系统。这可能包括: 应用复杂过滤器。 通过与已经存在丁目标数据库表中的信息对照,确认提入数据是否有 效。 把新数据与已存在于数据仓库中的现有数据相比较,决定新数据是否 需要插入或更新。 统计总数和其它基于新数据的衍生数据。 这些操作应该尽可能快地以呵伸缩方式进行,但必须确保现有目标为了检 索信息而进行的并发访问。 2 2e t l 的必要性 e t l 的必要性体现在以下几方面: ( 1 ) 解决数据分散问题 对下企业来说,数据主要有四个方面的来源:客户信息、客户行为、生产 系统和其它相关数据。也就是说大量的数据分散在不同的系统中,客户的信息 也分散在不同的系统中。 如果只对某个系统的数据进行分析,以作为决策支持的依据,显然有信息 不全面、分析不准确的缺点。e t l 可以解决这些问题。根据企业决策的需求, 数据仓库将决策分析用的数据集中在一起。 ( 2 ) 解决数掘不清洁问题 分散的数据也带来了数据不清洁的问题。同一个客户的信息在小同系统中 的数据不一致,而且有些数据可能是不真实的。另外,分散的业务系统中的数 据是面向业务的,而不是而向决策的。e t l 模块解决了数据不清洁问题,并将 华南理1 大学硕十学位论文 数据转换为决策分析所需要的类型。通过对分散数据的集中、清洁和转换,数 捌仓库中存储着清洁、 1 致、全面和面向决策的数据。这些数据为了方便用户 的分析与查询,设计成多维模型结构。 ( 3 ) 方便企业各部、j 构筑数据中心 数据仓库是面向整个企业的数据应用,而针对各个部门的信息应用是构筑 数据中心。数据中心的数据是按部门从数据仓库中抽取,并进行加工处理。数 据中心构筑工具,就是提供从数据仓库自动进行数掘的抽h 、变换功能,具有 e t l 功能,可以大幅提高运行效率。 2 3e t l 工作过程 通常e t l 工作过程分为抽取、清洗、转换、装载几个步骤: 抽取手要足针对各个业务系统及不同网点的分散数据,充分理解数据定义 后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取的定 义,在提取过程中,所需数据须经识别,然后从多种不同数据源,包括数据库 系统和应用程序中提取。提取数据的大小,根据源系统和业务状况,从几千字 宵到几兆字节变化。正如数据提取大小可能,“泛变化,数据提取频率也可能广 泛变化:时间跨度在天d , 时和秒之间变化,甚至接近实时。 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境, 它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存 储介质中导入到数据仓库。 清沈主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、 违反业务规则等问题,允许通过试抽取,将有问题的纪录先剔除出来,根掘实 际情况调整相应的清洗操作。 转换二t 要是针对数据仓库建立的模型,通过一系列的转换来文。 业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实 现了各种复杂的转换,并且支持调试环境,清楚的监控数据转换的状态。 通常会遇到的转换要求有:字段映射;映射的自动匹配;字段的拆分;多 字段的混合运算;跨异构数据库的关联;多数据类型支持;复杂条件过滤;数 据的批量装载;时间类型的转换;去重复记录;记录拆分;行、列变换;排序; 8 第二章e t l 技术介绍 统计:按行,按列的分组聚合等。 装载二 三要是将经过转换的数据装载到数据仓库里面,可以通过数据文件直 接装载或直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的 时候可以随时凋整数据抽取j l :作的运行方式,可以灵活的集成到其他管理系统 中。 数据源分布在各个子系统和节点中,利用e t l 将各地方、l k 务系统上的数 据,通过自动化f t p 或手动控制传到u n i x 或n t 服务器j 二,进行抽耿、清洗 和转化处理,然后加载到数据仓库。因为现有业务数据源多,保证数据的一致 性,所以真t e 理解数据的、i k 务含义,跨越多平台、多系统整合数据,最大町能 提高数据的质量,迎合q k 务需求不断变化的特性,是e t l 技术处理的关键。 山于业务系统的开发一般有一个较长的时间跨度,这就造成统一种数据存 业务系统中可能会有多种完全不同的存储格式,甚至还有许多数据仓库分析中 所要求的数据在业务系统中并不直接存在,而是需要根据某些公式对各部分数 据进行计算才能得到。因此,这就要求e t l 工具必须对抽取到的数据能进行灵 活的计算、合并、拆分等转换操作。 e t l 过程早已不再是一个简单的小程序就能完成,日前主流的工具都采用 像采用多线程、分布式、负载均衡、集中管理等高性能高可靠性与易管理和扩 展的多层体系架构,冈此这就要求e t l 的管理和调度卜都具备相应的功能。一 般这方惭的一些基本功能包括:抽取过程的备份与恢复;升级;版本管理:丹 发和发布:支持统一以及自定义的管理平台:支持时间触发方式;支持事件触 发方式;支持命令行执行方式;支持用户对计算机资源的管理和分配;负载均 衡;文档的自动生成;调度过程中能否执行其他任务等。 一个优秀的e t l 设计应该具有如下功能:管理简单;采用元数据方法,集 中进行管理;接 j 、数据格式、传输有严格的规范;尽量不在外部数据源安装 软件;数据抽取系统流程自动化,并有自动调度功能;抽取的数据及时、准确、 完整;可以提供同各种数据系统的接口,系统适应性强;提供软件框架系统, 系统功能改变时,应用程序很少改变便可适应变化;可扩展性强。 华南理下大学硕士学位论文 2 4 本章小结 本章介绍了e t l 技术的概念以及相关文件存储结构图,并详细解释了e t l 技术的工作过程:抽取、转换、装载过程。 l o 第三章数据质量问题的研究 第三章数据质量问题的研究 数据仓库作为支持决策制定过程的重要手段,近几年来得到了迅速地发展, 并已经成功地应用到制造业、零售业、金融服务、电信、运输等多个行、忆正显 示了其勃勃生机和强大的生命力。但是在数据仓库的建设过程中,一个被广泛认 纵但又常常被忽略的问题是数据仓库中的数据质量的控制。高质量的决策必然 依赖于高质量的数据。为了避免得h _ j 错误的结论数据的正确性是至关重要的, 否则就会出现所谓的垃圾进,垃圾出( g a r b a g ei n ,g a r b a g e0 4 的现象。如何检 测并排除潜藏在进入数据仓库中数据的错误,以保证数据仓库中数据质量,进而 为i 卜确的决策打卜,坚实的基础,这是在建设数据仓库时必须重点考虑的核心问 题 也是数据仓库建设成败的关键。 3 1 数据质量问题综述 数据质量问题呵以出现在单个数据集合中,例如出现在一个文件或数据库 中这可以由在数据输入时错误的拼写、错误的信息以及其它无效的数据等引 起。数据仓库中的数据来自于多个数据源,是对多个数据集的集成,数据的质量问 题届得尤为突出。 幽_ | _ 二要集成的数据经常具有如下一些特点: 数据存储在不同的模式中; 数据存储在不同的文件和数据库中; 数据存储在物理上独立的多个数据中心中; 数据存储在不同的硬件平台之上,并且这些平台运行不同的操作系统。 所以在将刁i 同数据源中的数据进行合成时往往存在着结构冲突、数据 剩余等等一系列质量问题。数据仓库中的数据质量是由进入数据仓库 中数据源的质量决定的。 3 1 1 单数据源问题 长期以来,对于原数据中的质量人们往往只关注源中具体的数据即实例相 1 l 华南理工大学顽十学位论文 父的问题,而忽视模式相关的问题。事实上一个数据源的数据质量在很大程度t 足由数据模式以及相应的完整性约束决定的。数据模式和完整性约束控制了所 允i ,i :进入源中数据的范围。如果在个源中没有数据模式,就会对进入和存储的 数据缺乏秆1 应的限制,出现数据错误和不一致的概率将人大提高。模式相关的数 据质量问题会由于缺乏合适的数据模型或特定应用的完整性约束而引起。模式 相关的问题可以进一步细分为属性( 字段) 、记录、记录类型以及源( s o u r c e ) 四 种不同范围的错误。 实例树关的问题是在模式一级无法避免的问题( 如:拼写错误等) 。典型的实 例相关的问题包括: 空缺值:在一些记录的属性上没有记录值,这往往由于存数据输入时没 有合适的数据或者采用缺省值等而引起。 拼写错误 缩写:如将d a t aw a r e h o u s e 缩写为d w 。 内嵌数据:一个字段包括多个数据,这经常出现在些具有自山格式的 字段中。 属性依赖冲突:如城市名与邮政编码应该相对应。 数据重复:如由于数据输入的错误导致有多条记录表示现实世界中的 i - j 一个实体。 3 。1 2 多数据源问题 每个数据源都是为了满足特定的需要而进行设计、部署和维扩1 的,也就足 说它们在设计丌发时往往是相互独立的。其结果是在数据库管理系统、数据模 型、模式设计以及数据格式等都存在很大的小同。在将多数据源进行集成时数 据质量问题表现得尤为突出。 在多数据源中存在的模式相关的问题丰要是名字冲突和结构冲突。名字冲 突表现在同一个名字表示不同的对象或不同的名字表示同个对象;结构冲突 的典型表现是:在不同的源中同一对象用不同的表示方式。例如在不l 刊数据源的 属性j 表中,同一对象可以表现为不同的成分结构、不同的数据类型以及刁i 同的 煮整一瞪:约束等。 第章数据质量问题的研究 除了模式级的冲突外,许多冲突只出现在实例级( 数据冲突) 。在单数据源中 所出现的各种问题都将以不同方式出现在不同的数据源中f 如:重复的记录、矛 盾的汜录等) 。即使在具有相同属性名称和数据类型的情况下,也可能有不同的 数据表示( 如:在某一个数据源中用m 、f 分别表示男、女,而在另一个数据源 中用g 、l 来表示) 或者彳i 同的解释( 如:计量单位个是公斤,另一个是吨1 。 还有在不同的数据源中信息的聚集程度f 如:每件商品的销售额对每组商品的 销售额1 以及代表的时间点都有可能不同。 3 2 数据质量问题的解决方法 在数据仓库中,为了提高数据的质量,一般需要进行数据的预处理,其中 数据清理a t ac l e a n i n g ) 是数据预处理中的重要步骤。另外,除数据清理之外, 必须采取措施,消除数据集成时数据的冗余。 数据清理原理:利用有关技术如数理统计、数据挖掘或预定义的清理规则将 肌j 数据转化为满足数据质量要求的数据。 按数据清理的实现方式与范围,可分为4 种【1 6 卜【1 ”: f 1 1 手_ 1 j 实现,通过人工检查,只要投入足够的人力物力财力,也能发现所有 错误但效率低下。在大数据量的情况下,几乎是不可能的。 f 2 1 通过专门编写的应用程序,这种方法能解决某个特定的问题,但不够灵 活,特别是在清理过程需要反复进行( 一般来说,数据清理一遍就达到要求的很少) 时,导致程序复杂,清理过程变化时,工作量大。而且这种方法也没有充分利用目 前数据库提供的强大数据处理能力。 r 3 1 解决某类特定应用域的问题,如根据概率统计学原理查找数值异常的记 录,对姓名、地址、邮政编码等进行清理,这是目前研究得较多的领域,也是应用 最成功的一类。如商用系统:t f i l l i n ms o f t w a r e ,s y s t e mm a t c h 2 m a k e t r 等。 似1 与特定应用领域无关的数据清理,这一部分的研究主要集中在清理重复 的记录l ,如d a t a c l e a n s e rd a t a b l a d em o d u l e ,i n t e g r i t y 系统等。 华南理工大学硕十学位论文 3 2 1 单数据源和多数据源的解决方法 单数据源中存在的数据质量问题的检测和消除有些是比较简单的。如属性 依赖冲突,可以简单地通过给出一张属性之间( 如城市名与邮政编码1 的对照 检查表来解决;再如数值越界问题,可以通过给定数值的范围即上下界,通过比较 就可以检测出来。然而,有些数据质量问题的检测和消除是相当复杂的,应对这些 类型的错误进行深入的检查和分析,即便如此也并不能完全检测并消除数据中 所包含的错误。由丁每种方法所能检测的错误类型及范围是不同的,为了能尽可 能多地检查出存在的错误,应该同时采用多种方法来进行错误检测。 在数据集中经常存在一些数据对象,它们不符合数据的一般模型。这样的数 据对象被称为孤立点( o u t l i e r ) ,它们与数据的其它部分不同或不一致。孤立点u j - 能足度量或执行错误所导致,也可能性足固有的数据变异性的结果。如:个人 的年龄为9 9 9 可能是程序对未记录的年龄的缺省设置所产生的;一个公司总经 理的t 资,自然远远高于公到其他雇员的工资,成为个孤立点。由于数据错误往 往表现为孤立点,所以在数据仓库中对数据质量的控制往往通过检测孤立点的 方法来进行。但是,并非所有的孤立点都是错误的数据,所以在检测出孤立点后还 应结合领域知识或所存储的元数据从中找出相应的错误数据。目前,已研究开发 出众多的算法进行孤立点的检测。其中有i 种方泫经实践证明是比较行之有效 的。它们是:统计的方法、聚类的方法以及基于偏离的方法。 3 2 2 多数据源中模式的重构和冗余数据的清除 多数据源数据清理的一个主要问题是识别重复数据,文献【1 5 】、【1 6 】尤其是 对现实世界中同一实体( 如:客户) 的记录匹配问题。另外,还包括对象识别问 题、重复的消除或合并问题。处理多数据源中的问题要求重构模式以获得模式 集成。这往往包括对源中的埔性和表进行分解、合并、展开等模式重构工作。 典型的重复数据的消除任务是在其它变换和清理步骤完成后才进行的。重复数 据的消除要经过两步: 1 通过实例匹配找出表示同一现实世界实体的类似的记录。 2 将类似的记录合并到包含所有相关属性并没有剩余属性的记录。 1 4 第三章数据质量问题的研究 3 3 数据质量评价方法 3 3 1 直接评价法 计算机程序自动检测方法 编写计算软件自动检测数据集中可以用逻辑判断对错的内容,同时也检测 可能出现错误的内容,以缩小人t 检查范围。当采用计算程序自动检测叫,用 于检测的自动检测程序的名称、算法和其它参考信息应当在数据质量报告中说 明,以使评价结果可信。 人工检测法 借助于计算机或其他工具辅助或直接用肉眼检查数据集错误。 随机抽样检奄方法 对数据集的不同要素,在不同数据生产、集成阶段采用不同比例进行随机 抽样检查。一般生产阶段自查或作业组检查比率为1 0 0 ,集成数据抽样比率 为1 0 ,重要要素可以增大抽样比率。在抽样样本确定后,可以采用计算机或 人工的方法检奄。 3 3 2 间接评价法 叫接评价法即基丁相关知识或信息进行演绎推理来确定数据集的数据质量 等级或符合程度。用于演绎推理的知识或信息包括用途、数据历史记录、数据 源的质量、数据生产方法和系统的信息以及误差传递模型等。 用j :演绎推理方法和知识或信息应当在质量评价报告中阐述,以提高演绎 推理的可信度。 3 3 3 综合评价法 数据集、要素或属性的总体质量可以由综合它们的各组成部分的质量评定 结果来确定。在综合过程中,需要考虑这些组成部分的出错率。 综合评价方法应当在数据质量评价报告中说明a 华南理一l 人学硕士学位论文 3 4 本章小结 本章研究了数据仓库中存在的质量问题,并提出了解决方法。数据仓库中的 数据质量的控制是一个非常复杂又是非常重要的问题,它直接关系到数据仓库 建设的成败,迸而直接关系到决策质量的高低。 第四章提高数据质量的三个环节 第四章提高数据质量的三个环节 数据清沈处理是构建数据仓库的第一步,而在数据清洗之前需要进行数据 质量分析,以找出存在问题的数据,否则数据清洗将无从谈起。因此数据质量 是构件数据仓库的关键。 企、业信息工厂的心脏是数据仓库,第一个主要的数据质量问题就是:怎样 保证数据仓库中的数据都是最高质量的? 在数据准备装入数据仓库前,有三个 环节可提商并保证数据质量。这二个提高数据质量的环节各自针对某方面。 这i 个环节是: 征数据来源即应用程序环境中进行数据清理; 当数据离开应用程序进入整台转换层时进行数据清理; 在数据装入数据仓库后进行数据清理; 4 1 应用程序级的数据清理 初看起来,好象保障数据质量的最佳环节应在应用程序中,数据最初就是 从此进入企业信息工厂的。的确,入口处的数据越清洁,企业信息工,的状况 会越好。种理论认为,如果数据在应用程序层次上完全清洁了,那么在其它 地方就不需要再进行类似工作,) i i 幸的是,事实并非如此。 有几个令人头痛的因素决定了应用程序不可能成为数据质量的万能药。 第一个困难足应用程序本身的状况。许多情况卜f ,应用程序是陈旧而缺乏 支持文档的,应用程序编制者一般都不愿去回顾旧的程序代码,也不愿进行任 何修改,这是出于这样一种顾虑:一个问题也许能得到解决,但同时会出现另 外的两个问题。解决一个问题可能会引发一系列其它的问题,结果导致应用程 序比修改前更糟。 使应用程序开发者不愿州顾i h f 弋码的第二个原因是他们认为这样做没什么 好处,j 监用程序开发者关注的是即时需求,他们认为,没有必要为了解决其他 人的问题而网顾旧代码并进行修改,这关系f i 火,因而也就没有积极性,最终 这就导致到底什么,4 是蕈要的、什么是不重要的之类的争论。因此,在应用程 1 7 华南理工大学硕士学位论文 序层次卜尝试进行某些改变,这牵涉到积极性和组织性的问题。 但是,就算可以在应用程序级上随心所欲地做任何想做的事,也仍需在企 业信息工厂的其它地方进行数据清理。 就算应用程序数据已经完善了,也必须在整合转换层进行数据清理,这是 凼为应用程序数据尚未被整合。对于单个的应用程序开发者或用户来说,数据 或许已经很完美了,但是存在于应用程序中的数据必须在跨越整个企业信息丁 j 的范围内进行整合,清理应用程序数据与整合应用程序数据问有着巨大的差 别,只有当数据从应用程序中出来后j + 有可能、有必要进行数据整合,数据整 合的第一个时机就是当数据进入整合转换层时。 4 2 整合转换层的数据清理 众多的廊用程序将数据送入整合转换层,每个应用程序都有着自己对数据 的理解,这是最初由应用程序设计者决定的。关键字、属性、结构、编码规则 等在众多的应用程序巾各卅i 相同,但为了在数据仓库中得到整合数据,必须将 这些应用程序的结构和规则整合成套单一的、综合的结构和规则,这就在整 合转换处理过程的存储方面出现了个复杂任务。 众多应用程序间,一i 仅关键字、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国高装电子支架数据监测研究报告
- 2024至2030年中国白18k珍珠耳钉数据监测研究报告
- 2024至2030年中国指甲修磨器行业投资前景及策略咨询研究报告
- 2024至2030年中国五金品数据监测研究报告
- 2024至2030年平板钢闸门项目投资价值分析报告
- 高中生的演讲稿大全(7篇)
- 音乐老师工作计划范文(3篇)
- 企业年度工作计划5篇
- 医用恒温箱市场发展预测和趋势分析
- 狮子王的观后感6篇3
- 公益广告广告策划书
- 特种设备作业人员资格复审申请表
- T∕ZS 0237-2021 托育机构内部管理规范
- 喉炎并喉梗阻护理查房课件
- DBJ50∕T-346-2020 无障碍设计标准
- 高中信息技术 必修1 数据的分析(课件)
- 校本课程评价表
- 红色经典朗诵稿3-5分钟18篇
- 高中学生创新思维能力现状调查问卷
- 洞口封堵工程(混凝土楼板)施工方案
- 临时便道施工方案47107
评论
0/150
提交评论