




已阅读5页,还剩61页未读, 继续免费阅读
(计算机软件与理论专业论文)海洋环境数据仓库etl系统的研究与开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文摘要 海洋环境数据仓库e t l 系统的研究与开发 摘要 建国以来,各相关单位在中国海域和大洋地区相继开展了多次大规模的海洋调查研 究工作,积累了丰富的海洋数据。如何有效地管理和利用这些数据,为国民经济建设和 国防服务,是一个亟待解决的问题。 “海洋环境数据仓库和数据挖掘研究 正是基于此而提出的一个课题,它是由东北 大学软件所和国家海洋信息中心合作开发,包括数据仓库、数据挖掘和o l a p 三个部分。 本文重点讨论海洋环境数据仓库中e t l 系统关键技术的研究及系统设计和实现。 提高数据仓库的数据质量是e t l 的重要任务,数据清洗相关算法的研究已经相当成 熟,然而数据清洗是否有效更重要的在于清洗规则制定的准确程度。为了方便数据仓库 的开发人员和源数据管理员的沟通,提高清洗规则制定的准确度和可信度,本文提出了 把数据清洗的部分工作放在e t l 过程的开始部分执行的改进架构。它将原来主要集中 在e t l 服务器上的数据清洗工作分散到了各个源数据端的服务器上,增强了系统的并 行度,减轻了e t l 服务器的负担,提高了清洗效率。该架构同时将源数据改造和一般 性变换后,利用数据库自带的专用工具进行数据加载,大大提高了e t l 的速度,减少 了编码的工作量,增强了系统的可靠性。该改进的架构还支持统一的增量数据抽取,以 及对空间数据特有的e t l 问题进行了扩展。 本文提出了基于多线程进程和任务平衡调度的优化策略,以进一步提高数据加载的 速度和资源的利用率。并对任务平衡调度策略进行了比较深入的研究,建立了基于工作 流原理的多任务平衡调度模型,提出了静态调度,动态调度和同层划分的优化调度策略。 在本文的最后给出了改进的e t l 架构在海洋环境数据仓库中的应用,以及具体的 e t l 系统的设计和实现。实践表明,改进的e t l 架构便于系统的并行开发,缩短了项 目周期,根据它实现的系统运行稳定,速度快。 关键字:数据仓库;e t l ;任务调度;增量抽取;海洋环境 i i 东北大学硕士学位论文a b s t r a c t r e s e a r c ha n d d e v e l o p m e n t o ft h ee t l s y s t e m i nt h eo c e a ne n v i r o n m e n td a t a 研匀r e h o u s e a b s t r a c t i n t e r r e l a t e db r a n c h e sh a v el a u n c h e dm a n yl a r g e s c a l ei n v e s t i g a t i o n si nc h i n e s es e aa n d o c e a na r e a ss i n c ef i f t yy e a r sa g o ,a n da c c u m u l a t e dp l e n t yo fd a t a h o wt oe f f e c t i v e l ym a n a g e a n du t i l i z et h e s ed a t at os e r v ef o rt h ec o n s t r u c t i o n so fn a t i o n a le c o n o m ya n dd e f e n s ei sa p r o b l e mw h i c hi su r g e n t l yt ob es o l v e d r e s e a r c ho ft h ed a t aw a r e h o u s ea n dd a t am i n i n gi no c e a ne n v i r o n m e n t s ”i sap r o j e c t p r o p o s e dr e c e n t l yf o ri t i ti sd e v e l o p e db yt h ec o o p e r a t i o no ft h ei n s t i t u t eo fc o m p u t e r s o f t w a r ea n dt h e o r yo fn o r t h e a s t e r nu n i v e r s i t ya n dn a t i o n a lo c e a ni n f o r m a t i o nc e n t e r , w h i c hc o n s i s t so fd a t aw a r e h o u s e ,d a t am i n i n ga n do l a p t h e k e yd i s c u s s i o no ft h i st h e s i si s t h ee s s e n t i a lt e c h n i q u er e s e a r c ho ft h ee t li nd a t aw a r e h o u s ea n dt h e d e s i g na n d i m p l e m e n t a t i o no ft h es y s t e m t oi m p r o v ed a t aq u a l i t yi sa ni m p o r t a n tt a s ki nd a t aw a r e h o u s i n g t h er e s e a r c ho nd a t a c l e a n i n ga l g o r i t h m si sq u i t em a t u r e b u tw h e t h e rd a t ac l e a n i n gi se f f e c t i v em o r eh i g h l y d e p e n d so nt h ea c c u r a c yo fc l e a n i n gr u l e s i no r d e rt of a c i l i t yt h ec o m m u n i c a t i o nb e t w e e n d a t aw a r e h o u s ed e v e l o p e r sa n da d m i n i s t r a t o r so fs o u r c ed a t aa n di m p r o v ev e r a c i t ya n d c r e d i b i l i t yo fc l e a n i n gr u l e s t h et h e s i sp r o p o s e sa ni m p r o v e df r a m e w o r kw h i c hp l a c e sp a r t s o fd a t ac l e a n i n gw o r ki nt h eb e g i n n i n go fe t l t h ef r a m e w o r kd e c e n t r a l i z e st h ew o r k l o a do f d a t ac l e a n i n gt h a tc o n c e n t r a t eo nt h ee t ls e r v e rt ot h ed a t as o u r c es e r v e r ss ot h a ti ti m p r o v e s t h ep a r a l l e lo fs y s t e m ,l i g h t e n st h el o a do fe t ls e r v e ra n dr a i s e st h ec l e a n i n ge f f i c i e n c y t h e n , i tu s e ss p e c i a lt o o l sw h i c he m b e d d e di nad b m st ol o a dd a t aa f t e rr e b u i l d i n gs o u r c ed a t aa n d u n i v e r s a ld a t at r a n s f o r m a t i o n t h u si te n h a n c e st h el o a d i n gs p e e da n dt h er e l i a b i l i t yo ft h e s y s t e ma n dr e d u c e st h ew o r k l o a do fp r o g r a m m i n g t h ei m p r o v e df r a m e w o r ka l s os u p p o r t s u n i f o r md a t ai n c r e m e n t a le x t r a c t i o na n d p r o v i d e st h ee x t e n s i o nf o rt h es p e c i a le t lp r o b l e m o fs p a t i a ld a t a t h et h e s i sp u t sf o r w a r dt oo p t i m i z i n gs t r a t e g yb a s e do nt h em u l t i t h r e a d p r o c e s s t e c h n i q u ea n dt a s kb a l a n c e a b l es c h e d u l e r , i no r d e rt oe n h a n c et h es p e e do fd a t al o a d i n ga n d t h ea v a i l a b i l i t yr a t i oo fr e s o u r c e m e a n w h i l e ,i td i s c u s s e sm o r ea b o u to p t i m a lt a s ks c h e d u l e , i i i 东北大学硕士学位论文 a b s t r a c t b u i l d st h em o d e lo fm u l t i t a s ko p t i m a ls c h e d u l eb a s e do nw o r k f l o wt h e o r y , a n dp r o p o s e s s t r a t e g i e so ft h es t a t i cs c h e d u l e ,d y n a m i cs c h e d u l e ,a n dl e v e lp a r t i t i o n t h ee n do ft h i st h e s i sg i v e st h ea p p l i c a t i o no ft h ei m p r o v e de t lf r a m e w o r ki nt h eo c e a n d a t aw a r e h o u s i n g i ta l s oi n c l u d e st h ed e s i g na n di m p l e m e n t a t i o no ft h ee t l s y s t e mi nd e t a i l p r a c t i c e ss h o wt h a tt h ei m p r o v e de t lf r a m e w o r kf a c i l i t i e sp a r a l l e ld e v e l o p m e n ta n dr e d u c e s t h ep r o j e c tc y c l e t h es y s t e mw h i c hb a s e do nt h ei m p r o v e df r a m e w o r kr u n sf a s t e ra n d s t e a d i e r k e yw o r d s :d a t aw a r e h o u s e ,e t l ,t a s ks c h e d u l e ,i n c r e m e n te x t r a c t i o n ,o c e a ne n v i r o n m e n t i v 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加 以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为 获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论 文中作了明确的说明并表示诚挚的谢意。 学位论文作者签名:刘这尚 签字日期:俐,工 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即 学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交 流。 ( 如作者和导师同意网上交流,请在下方签名:否则视为不同意) 学位论文作者签名:娄】逛尚 导师签名: 签字日期:们西。f ,工签字日期: 东北大学硕士学位论文 第一章引言 第一章引言 1 1 课题来源 “海洋环境数据仓库与数据挖掘技术研究 是东北大学软件与理论研究所和国家海 洋信息中心合作的国家重点项目。该项目主要完成针对海洋环境数据构建数据仓库,并 在此基础之上进行数据挖掘。本文主要讨论海洋环境数据仓库的e t l 子系统的关键技 术,并基于此设计和实现该e t l 系统。 1 2 问题的提出 近年来, 随着信息技术的飞速发展,“数字地球”的观念深入人心,各发达国家竞 相投入巨大的人力、财力进行研究和开发。“数字地球”的基础平台是多维、多分辨率 的,能嵌入大量的地理数据、属性数据和多媒体数据等。“数字海洋 则是“数字地球” 的重要组成部分【l 】。建国以来,各相关单位在中国海域和大洋地区相继开展了多次大规 模的海洋调查研究工作,积累了丰富的资料。随着以信息化技术为代表的高新技术的应 用,例如遥感、多波束探测等,海洋研究数据呈指数增长。海洋学是一门综合性极强的 学科,涉及众多的领域,包括沉积学、矿物学、地球化学与海水化学,天体物理、地球 物理学、古海洋、海洋物理、遥感、生物学等,而以上领域从资料采集、数据处理到研 究方式都有很大的不同,这种状况形成一个个所谓的“信息孤岛”,即“数据富裕 而 “信息贫乏 的现象【2 】。如何从这些门类多样,格式复杂的海量数据资料中快速得到格 式统一、模式一致的信息用于分析和决策,更好地服务于国民经济建设和国防现代化, 以及更好地参与全球信息交换,是一个亟待解决的问题。而数据仓库技术可以很好的解 决这个问题。 数据仓库系统不同于传统的事务数据库系统,它能把决策所需的信息从异构的数据 源中分离出来,把分散的、难以访问的原始操作型数据转化为集中统一随时可用的信息, 为决策者和分析人员提供一个强大的数据合成、分析和综合的平台。因此数据仓库系统 是解决海洋数据存储,管理和使用的有效途径。 e t l ( e x t r a c t i o n 、t r a n s f o r m a t i o n 、l o a d i n g ,抽取、转换和加载) 是建立数据仓库 的必要步骤。根据调查统计,建立数据仓库有6 0 - - 8 0 的精力花费在e t l 上【3 】。e t l 就是对数据仓库的数据源数据进行抽取、转换、加载,使它们成为数据仓库系统集成的 模式一致的数据。一个单位想成功地构建数据仓库,并且期望它在单位的决策分析中发 挥重要作用,那么e t l 工具是关键所在。 东北大学硕士学位论文 第一章引言 数据仓库的数据来源多种多样,有的是文本文件,有的是事务数据库的表等,因此, 这些异构的数据源中不可避免地存在很多模式冲突和数据冲突,并且存在数据错误,据 统计数据错误大约占到总数据量的5 4 , 5 1 。如果劣质数据进入了数据仓库,它会毁掉数 据访问者的信心。因此数据清洗对于整个e t l ,乃至整个数据仓库系统来说具有至关重 要的作用。现有对数据清洗的算法已经非常多【6 7 】,也相当成熟,而数据质量的提高更加 依赖于对质检规则的正确确定。常规的方法一般是把数据抽取之后,再由清洗程序进行 数据查错和修改。而在实际项目的实施过程中,统一的数据格式,数据范围,缺失值的 确定,异常值的取舍等清洗规则的制定都需要在数据源端的管理员和用户的参与下反复 修改,才能最终确定下来。现在的e t l 架构不便于数据源端管理员和用户的参与,这 是因为源数据经过抽取后进行清洗后,格式和表现形式可能与数据源端的相差较大,数 据源端的管理员和用户很难看明白;或者在许多元数据的帮助下将发现问题的数据的格 式逆转回来,供数据源端的用户查看和确认,但这样实现和管理起来都需要花费较大的 代价,对数据质量的提高也是极为不利的。同时,各个数据源的端的数据的数据质量往 往也是相差很大的,把所有的数据集中到一起再进行数据清洗,也不便于提高清洗效率 和数据质量。 现有e t l 架构的数据清洗工作主要集中在e t l 服务器上执行,而各个数据源端的 主机一般都是具有富裕资源的服务器,这些资源在当前的e t l 架构下都浪费了。 过去的实践表明,数据加载一直是e t l 系统耗时最多的一个环节,由于各种数据 库底层的快速接口一般是不公开的,常用的o d b c 或j d b c 接口,通用性好,但是效率 低下,而各种数据库自带的快速加载工具,如d b 2 的l o a d 和o r a c l e 的s q ll o a d e r 的 数据加载的速度都很快,还有多种可配置的优化选项,但是对数据源的格式要求比较苛 刻,所以很难直接使用。 数据仓库的数据来自操作系统、平台各不相同的数据源,除了首次通过e t l 系统 把大量的原始数据加载到数据仓库中以外,还需要加载数据源源源不断地产生新的数 据。现有的e t l 架构大都支持增量的数据抽取,但是它们都是以已经获取了增量源数 据为基础的。如何在e t l 架构中提供一个统一的平台,方便、快捷、准确地抽取这些 增量数据,还是一个值得研究的问题。 此外e t l 架构还需要有很好的扩展性,如在海洋环境数据仓库中还需要支持多波 束之类的地理数据,二进制,多媒体数据等特殊数据。 1 3 本文所完成的工作 本文首先提出了一种高效,通用的e t l 架构,它把部分数据清洗的工作调整到了 2 东北尢学硕士学位论丈第一章引言 数据源端,减轻了e t l 服务器的负担,方便了数据源端用户和管理员的参与,增强了 数据清洗规则的可靠性;该架构基于模块化的设计,把e t l 的过程分成几个独立的阶 段,设计标准的变换接口,便于系统的并行开发,缩短了项月周期,同时增强了对数据 源变化的适应性。以往的实践表明,数据加载一直是e t l 系统的瓶颈,本文对此进行 了深入的讨论和分析,设计和实现了基于s q ll o a d e r 和任务平衡调度的高效数据加载 模块,并给出了实验对比分析:此外还对该e t l 架构进行了支持数据增量抽取的扩展, 同时给出了地理数据,二进制和多媒体数据在e t l 过程中遇到问题的解决方案。最后 叙述了海洋环境数据仓库e i l 系统的具体设计和实现。 1 4 本文结构 全文组织结构如下: 第一章是引言部分,主要叙述了项目来源和现有的e t 。架构存在的问题,同时对 本文所完成的工作做了简单的介绍。 第二章主要介绍了数据仓库和e t l 的概念与特征。 第三章首先介绍海洋环境数据仓库释数据挖搦系境中三个主要模块:数据仓库,数 据挖掘和o l a p 模块,接着重点介绍了一种通用、高效的e t l 架构,并详述它的槊构 思想,优点及适用范围,鼹后介绍数据仓库元数据及e t l 中的元数据的管理。 第四章是全文的核心,重点讨论了改进e t l 架构巾几个关键问题的研究,包括多 任务并行加载优化调度问题,增量数据抽取和空间数据的e t l 问题等。 第五章介绍了本文提出的e t l 系统的架构在海洋环境数据仓库中的应用,并介绍 了整个子e t l 系统的具体实现。 了整个子e t l 系统的具体实现。 3 东北大学硕士学位论文第二章数据仓库与e t l 第二章数据仓库与e t l 2 。1 数据仓库的基本概念 数据仓库在整个“海洋环境数据仓库与数据挖掘技术研究 项目中处于支撑地位, 以下是一些关于数据仓库概念的介绍。 2 1 1 数据仓库定义 美国斯坦福大学数据仓库研究小组是这样定义数据仓库的:数据仓库是集成信息的 存贮中心,这些信息可用于查询或分析。i b m 的数据仓库红皮书中说,数据仓库是管理 和生成用于决策的、完整的、适时的、精确的、可理解的信息的设计与实施过程、工具 以及其他设施。它包括这个组织为了创建、管理和维护一个数据仓库或数据集市的所有 活动。 w h 1 n m o n 是业界公认的数据仓库概念的创始人。在他撰写的 b u i l d i n gt h ed a t a w a r e h o u s e ) ) 【8 l 书中,他给出了数据仓库的定义:“数据仓库是一个面向主题的、集成的、 不可更新的且随时间不断变化的数据集合,用来支持管理人员的决策。”由于i n m o n 本 人在数据仓库发展中的作用,上述对数据仓库定义的描述不断被技术文献所引用,成为 对数据仓库比较权威的定义。与其他数据库应用不同,数据仓库更像一种过程,对分布 在企业内部各处的业务数据的整合、加工和分析的过程,而不是仅仅一种可以购买的产 品。数据仓库是面向决策支持系统的分析型数据库,它存放了大量的只读数据,为用户 分析判断决策提供所需的信息。数据仓库把业务处理信息系统中的事务数据加以归纳整 理,并及时提供给相应的决策分析人员。数据仓库的用户称为决策支持( d s s ) 分析员, 他们的主要工作是指出和发现在企业决策中所需要使用的信息。他们在发现模式下工 作,直到看到报表或屏幕上的数据,他们才开始探讨有没有必要进行下一步d s s 分析, 以及如何进行。这个过程和传统的需求驱动的软件开发生命周期( s o f t w a r ed e v e l o pl i f e c y c l e ,s d l c ) 是完全不同的。数据仓库系统由数据开始,一旦数据到手就集成数据。 然后,如果数据有偏差,再检查数据存在什么偏差,再针对数据写程序、分析程序和执 行结果,最后,系统需求才得到理解,有人把这个与传统的系统开发生命周期完全相反 的过程称为c l d s ( 与s d l c 顺序相反) ,也就是说,数据仓库是由数据驱动削明。 2 1 。2 数据仓库的特征 由i n m o n 的数据仓库定义出发,我们可以知道,数据仓库与传统的联机事务处理领 域的数据库技术相比,具有以下特征: 。5 东北大学硕士学位论文 第二章数据仓库与e t l ( 1 ) 数据仓库的数据是面向主题的 传统的信息系统中的数据组织方式是面向应用的,数据库模式与实际业务处理流程 中所设计的单据或文档有较好的对应关系,如物资仓库管理中的进仓单、出仓单,在物 资仓库管理信息系统的数据库模式中具有直接的对应部分。但这种方式使数据围绕着业 务处理过程,不便于对数据作高层抽象的分析。 数据仓库中数据以面向主题方式组织。主题是某分析领域所涉及的分析对象,例 如商场销售分析系统中“商品是一个主题分析对象,有关“商品 分析需要的数 据围绕着这一主题组织,包括商品的基本信息、采购信息、销售信息、库存信息等。面 向主题的数据组织方式就是在较高层次上对分析对象的数据作一个完整、一致的描述, 能有效地刻画出分析对象所涉及的各项数据及数据间的联系。这种数据组织方式更适合 于较高层次的数据分析,便于发现数据中蕴涵的模式和规律。 ( 2 ) 数据仓库的数据是集成的 数据仓库的数据是从原有的、分散的事务处理系统数据库中抽取得来。联机事务处 理系统中的操作型数据和决策支持系统中的分析型数据有着较大的差别。数据仓库中每 一主题对应的源数据在原有的各分散数据库中可能是重复出现的、不一致的,数据仓库 中的数据不能从原有数据库系统直接得到,事务处理系统中的操作型数据在进入数据仓 库之前,必须经过统一和综合,变为分析型数据。这是数据仓库建设中最复杂的一步, 需要完成的工作包括:统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单 位不统一、长度不一致等;对源数据进行综合和计算,生成面向主题分析的高层、综合 的数据,例如根据商品销售原始数据,计算生成每天、每月的销售综合数据等。 ( 3 ) 数据仓库的数据是不可更新的 数据仓库中存放的是供分析决策用的历史数据,而不是联机处理的当前数据,涉及 的数据操作主要是数据查询,一般不进行数据的增、删、改操作,业务系统中的数据经 集成进入数据仓库之后极少或根本不再更新。如果对数据仓库中的数据进行了修改,就 失去了统计分析正确性的基础数据的真实性。由于数据仓库中的数据量往往很大, 因此数据仓库系统要采用各种复杂的索引技术,以提高数据查询的性能。 ( 4 ) 数据仓库的数据是随时间变化的。 数据仓库的数据不可更新是对数据仓库的应用而言,即数据仓库的用户在进行分析 处理时不进行数据更新操作,但这不是说数据仓库数据是永远不变的。数据仓库数据是 随时间变化的,数据仓库系统需要不断获取联机事务处理( o l l 摩) 系统不同时刻点的 数据,经集成后追加到数据仓库中,因此数据仓库中数据的码( 键) 都包含时间项,以 6 东j 匕大学硕士学位论文第二章数据仓库与e t l 表明数据的历史时期,并可在时间维度上对数据进行分析;另外,数据仓库中的数据也 有时间期限,在新数据不断进入的同时,过期的数据也要从数据仓库中排除出去。 2 1 3 数据仓库的体系结构 作为一个系统,数据仓库至少应包括3 个基本的功能部分:数据获取、数据存储和 管理,以及信息访问和分析。东北大学软件研究所在完成“海洋环境数据仓库与数据挖 掘技术研究”的基础之上提出了一个数据仓库体系结构。 根据信息的产生过程和流向,大体上可将该系统分为数据仓库模块、o l a p 模块和 数据挖掘模块。其中数据仓库子模块包括源数据登记( 录入、浏览) ,数据抽取 ( e x t r a c t i o n ) 、清洗( c l e a n i n g ) 、转换( t r a n s f o r m a t i o n ) 、集成( i n t e g r a t i o n ) 和加载( l o a d ) , 数据集市建立、源数据管理和数据仓库维护和元数据的管理。o l a p 模块包括数据立方 的创建和数据立方的可视化展示,其中数据立方采用了o r a c l e 实例化视图技术,前端展 示使用了h y p e r i o n 的前端展示软件,展示过程中涉及到o l a p 查询的重写。数据挖掘 子模块由挖掘新模型,使用模型和模型维护三个模块构成。整个系统功能模块的划分如 图2 1 所示。下面就这个划分分别介绍这三个模块。 图2 1 数据仓厍结构 f i g 2 1t h e s t r u c t u r eo f d a t aw a r e h o u s e 数据源:为数据仓库提供源数据,如各种业务处理信息系统的数据库、联机事务处 理系统( o l l p ) 的操作型数据,以及其他相关文本、文档等。 数据抽取、转换、装载和刷新工具:功能是从数据源中抽取数据,进行检验和整理, 并根据数据仓库的设计要求对数据进行重新组织和加工,装载到数据仓库的目标数据库 中,周期性地刷新数据仓库中的数据。 数据建模工具:用于为数据仓库的源数据库和目标数据库建立信息模型,以描述数 7 东北大学硕士学位论文第二章数据仓库与e t l 据检验、整理、加工的需求和相应过程及步骤。 监控和管理工具:对数据仓库的运行提供监控和管理手段,包括系统资源的使用情 况、用户操作的合法性管理、安全管理、存储管理等。 元数据仓储:用于存储数据模型和元数据,其中元数据描述了数据仓库中源数据和 目标数据本身的信息,定义了从源数据到目标数据的转换过程。 数据仓库和数据集市的目标数据库:存储经检验、整理、加工和重新组织后的数据, 数据集市即部门级规模的数据仓库。r o l a p 服务器:提供功能强大的数据操作引擎,支持多维数据结构操作,为前端工 具提供多维数据视图及服务。 前端数据访问和分析工具:不但提供一般的数据访问功能,如查询、汇总、统计等, 还要提供对数据的深入分析功能,如数据的比较、趋势分析、模式识别等,即所谓的“数 据挖掘功能。 从以上所述的数据仓库的体系结构,可以看出数据仓库系统的一般应用过程:从业 务处理信息系统等外部数据源获取数据,经加工整理后进入数据仓库,根据数据分析挖 掘的需求特性对数据进行建模和组织,用户利用各种前端数据分析和挖掘工具,或直接 访问数据仓库,或通过o l a p 服务器,对数据仓库中的数据作各种查询、分析、挖掘工 作。 o r a c l e 9 i 的数据仓库选项直接提供了维和实例化视图,使用扩展的s q l 语句可以方 便地进行多维分析和聚合运算。聚合是数据仓库的基础。为了提高聚合的性能。o r a c l e 提供了g r o u pb y 条款的扩展,包括c u b e ,r o l l u p 扩展,3 个g m u p i n g 函数;g r o u p i n g s e t 扩展等。这种扩展聚合,带来了很多好处,包括简化代码编程,快而高效的查询处 理,减少客户端负载和网络负载,由于简单的查询可以缓冲聚合。 2 2e t l 概念 e t l 即数据抽取( e x t r a c t i o n ) 、清洗( c l e a n i n g ) 、转换( t r a n s f o r m a t i o n ) 、集成 ( i n t e g r a t i o n ) 和加载( l o a d ) ,是构建数据仓库过程中最困难的部分,在具体的设计过 程中,大部分要解决的技术难点集中在这一层中。 数据仓库位于操作环境之外,数据从这些操作性系统中抽取出来,转换成与数据仓 库一致的格式,再加载到中心数据库即数据仓库中。数据仓库是一个将操作环境中多个 独立系统中的数据结合起来的系统。要实现这一目标首先要解决如何抽取数据及如何处 理数据中的错误,即保证数据质量问题;其次是具体执行,规定抽取哪些数据及如何转 换。数据仓库中的数据来自予多种业务数据源,这些数据源可能是在不同的硬件平台上, r 东北大学硕士学位论文第二章数据仓库与e t l 使用不同的操作系统,因而数据以不同的格式存在不同的数据库中。如何向数据仓库中 加载这些数量大、种类多i 拊数据,已成为建立数据仓库所面临的一个关键问题。 2 2 1 数据抽取 抽取处理是数据仓库成功的关键。在抽取过程中,数据会被格式化,并分发给需要 从操作环境中得到数据的资源。元数据的工作是定义和解释数据资源和数据标准。因此, 在操作数据上执行的抽取过程应该用元数据中定义的标准数据格式处理数据。 确认( v a l i d a t i o n ) 是验证数据中潜在的无效( i n v a l i d ) 、缺少( m i s s i n g ) 、越界( o u t o f r a n g e ) 和重复( d u p l i c a t e ) 的数据。对于数据源本身,在产生时经常出现如下的错误: 如字段值输入错误,字段名称发生错误,字段内容不详,对于同一字段的同一内容使用 了不同表达方式,也可能会造成对数据含义理解的二意性。完成确认的方法有两种:频 率报告( f r e q u e n c yr e p o r t s ) ,频率报告可以通过频率统计实现,如利用s q l 的s e l e c t d i s t i n c t 实现。它适用于单个值较少的情况。异常报告( e x c e p t i o nr e p o r t s ) ,异常报 告仅显示没有达到描述标准的值。 2 2 2 数据集成 集成是当数据从o l t p 系统或其他系统移入数据仓库时,取得一致性的过程。它是 通过将多样的数据属性和数据取值调整为标准、致格式的方法来获得数据的一致性。 源数据从多个数据源中抽取出来,并结合成为一个新的实体。这些源数据往往遵守 的不是同一套业务规则,在集成到数据仓库时,必须考虑到它们之间的差异。 数据的一致性包括以下几个方面:变量属性、数据值、变量的单位、数据的物理属 性等。 变量属性集成:它包括命名约定、输入格式、输出格式、标签等内容的一致性。 这个工作可以在抽取阶段完成。 数据值集成:当数据仓库数据来源于不同的源或系统时,不同的代码具有相同 的含义,如性别,有m a l e ,f e m a l e ;m ,f :0 ,l ;男,女。 变量单位( 测度) 集成:来源于不同的数据源的数据,其测度单位可能不同, 尤其是国内数据与国际数据更是如此。如距离、重量、货币单位、时间等。 物理属性的集成:物理属性包括变量类型和长度。根据需要将字符变量转换为 数值型变量,同时指定长度,或反之。 ( 1 ) 字段级映射 这种映射是指将数据中的一个字段转移到目标数据字段中的过程。在这过程中,这 9 东北大学硕士学位论文 第二章教据仓库与e t l 个字段可以利用前面讨论过的简单变换方式进行变换,它可以被清洗或重新格式化。这 种映射在数据变换总量中占绝大部分。 ( 2 ) 复杂集成 在数据仓库构建中,有1 0 2 0 的从源字段到目标字段的映射需要进行集成处理。 为了将源数据转换为目标数据,这些复杂集成要完成比简单移动更多的分析和处理。这 些分析和处理要解决以下几个问题:标识符问题,这是许多公司在建立数据仓库时所遇 到的最困难的集成问题之一。当同一业务实体存在于多个系统,并且没有明确的办法确 认这些实体是否为同一实体时,往往会发生这个问题。这个问题很难用自动方式解决。 通常,要先采用复杂的算法找出所有可能的匹配。在数据仓库中存入所有可能的匹配有 时是可以接受的,但有时这些匹配在存入数据仓库之前必须先进行人工检验。为此,很 多企业采用两阶段策略:第一阶段是隔离阶段,在这一阶段中,为不同实体的每个具体 值都指派一个唯一标识符;第二阶段是调和阶段,确认哪些实体是相同的,然后将这些 实体的各个具体值合并在一起。第二就是目标数据的多个来源问题当同一个目标数据有 多个来源时,很难保证该数据的各个来源总能保持一致。实际上,这种情况下数据冲突 的可能性比存在冗余值的可能性更大。解决冲突的简单办法是指定某一系统为主要系 统。其他的还有数据缺失问题和派生数据,计算数据等问题。 2 2 3 数据转换 数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平台 上,使用不同的操作系统,因而数据以不同的格式存储在不同的数据库中。如何向数据 仓库中加载这些数量大、种类多的数据,已成为建立数据仓库所面临的一个关键问题。 在数据迁移的过程中,通常需要将操作数据转换成另一种格式以更加适用于数据仓 库设计【l o 】。在大多数情况下,转换是将数据汇总,使它更有意义。 在转换结构中,确保能找出一种最好的方法保证数据从传统的数据存储器到数据仓 库的同步。同步结构应当把重点放在转换语言的标准化、数据移动平台、通信策略和支 持策略方面。数据仓库与操作数据存储器之间的同步过程能够采取不同的结构。 除寻找自动化转换操作的工具之外,还应估计数据转换的复杂性。大多数传统的数 据存储方法缺乏标准,常常有些不规则的东西让开发人员不知所措。工具正在不断改进 以有助于转换过程的自动化,包括复杂问题,如传统标准的缺乏及不统一的关键数据( 多 表之间) o 与数据抽取相同,执行数据转换过程也应该用元数据库中定义的标准数据格式存储 数据。 1 0 东北大学硕士学位论文 第二章数据仓库与e t l ( 1 ) 构造 是为了满足用户的需要,重新构造新变量或修改已有变量的过程,为用户提供所需 的主题信息。例如将连续数值型变量转化为离散型分类变量。 ( 2 ) 简单变换 简单变换是所有数据变换的基础,该变换一次只处理一个字段,而不必考虑其他的 相关字段。简单变换主要包括以下几种形式: 数据类型转换 最常见的简单变换是转换一个数据属性的类型。当现有应用程序存储某个类型的数 据只在该应用程序的背景下有意义,在企业水平上却没有意义时,就常常要求进行这类 变换。这类转换可以通过编写简单的程序完成。 日期时间格式的转换 由于大多数业务环境都有许多不同的日期和时间类型,几乎每个数据仓库的实现都 必须将日期和时间变换成标准的格式。这可以通过手工编程来完成,把一个日期或时间 字段拆成几个子部分,然后再将它们拼成想要的格式。 字段解码 数据一般不应该以编码的格式放在数据仓库中。在业务数据库中建立代码是为了节 省数据库存储空间。虽然人不理解这些代码,但由于与这些代码的交互是由应用程序完 成的,这些程序在必要时可为我们进行解码。 在数据仓库环境中,情况完全不同。因为用户可能来自公司的任何一个部门,不可 能都有足够的背景知识和培训,使他们能够理解在业务数据库中使用的代码值。因此, 业务系统和外部数据中的代码值在存入数据仓库之前,应该转换为经过解码的、易于理 解的相应值。一方面,需要把代码值充分扩展,使它们便于被大多数的用户理解;另一 方面,把一个值扩展得太多要占用额外的存储空间,而且把该值当作查询中的检索条件 也很麻烦。由于代码不被普遍理解,所以应该扩展为一个有意义的、易于理解的值。其 准则是必须达到足以被大多数仓库用户所理解。 从技术角度看,字段解码是个易于实现的过程,可以很容易地结合到变换程序中去, 也可以在数据转换工具中轻松地完成,然而,确定应该进行多少解码工作是很难的。一 个好的解决方法是提供足够的解码,使大多数用户都可以理解字段值的含义,此外,通 过数据属性值及其用法的元数据可进一步加深理解。 ( 3 ) 聚集和概括 大多数数据仓库都要用到数据的某种聚集和概括。这有助于将某一实体的实例个数 东北大学硕士学位论文第二章数据仓库与e t l 减少到易于控制的水平,也有助于预先计算出经常查询的聚合数据,以使一个查询不必 重新计算它们。概括是指按照一个或几个业务维将相近的数值加在一起。聚集指将不同 业务元素加在一起或为一个公共总数。在数据仓库中它们是以相同的方式进行的。 数据仓库中存放的最具体的数据不会与业务系统中存放的细节数据一起进行聚集。 这样有必要在变换业务数据的过程中加入一些数据聚集功能,以减少存储在数据仓库中 的记录个数。 聚集还可以去除数据仓库中的过时细节。正常数据在一定时期内需要以很具体的级 别存放着,当过了某个时限,对这些细节的需求就大大减小了。此时,这些非常具体的 数据应该传送到离线存储器或近线存储器( n e a rl i n es t o r a g e ) 中,而将数据的概括形 式存放在数据仓库中。 概括是聚合细节数据生成概括数据的过程。如计算概括统计量或计算非连续属性的 个数等。概括数据是数据仓库和数据集市的查询和报表的主要数据源。根据终端用户的 需要确定对哪些数据进行概括。 2 2 4 数据清洗 数据清洗( 数据清洁或洗涤) ,是通过探测并删除数据的错误和矛盾以确保数据质 量【7 1 。数据清洗的目标是保证数据的一致性( c o n s i s t e n c e ) ,确保数据的参照完整性 ( r e f e r e n t i a li n t e g r i t y ) 和数据的精确性( a c c u r a c y ) 。 清洗( c l e a n i n g ) 和刷洗( s c r u b b i n g ) 是两个可以互换的术语,是比简单变换更复 杂的一种数据交换。在这种变换中,要检查的是字段或字段组的实际内容和隐含内容, 而不仅是存储格式。一种清洗是检查数据字段中的异常值,这可以通过范围检验、枚举 和相关检验来完成。另一种是检查整条记录是否重复,可以通过s q l 或一些算法实现。 ( 1 ) 有效值检验 范围检验是数据清洗韵最简单形式,它是指检验一个字段中的数据以保证它落在预 期范围之内,通常是数字范围或日期范围。 枚举也相对容易实现。这种方法是对照数据字段可接受值的清单检验该字段的值。 相关检验稍微复杂一些,因为它要求将一个字段中的值与另一个字段中的值进行对比。 通常,数据清洁规则往往是这些不同方法的结合。 ( 2 ) 复杂的重新格式化 数据刷洗的另一主要类型是重新格式化某些类型的数据,这种方法适用予可以用许 多不同方式存储在不同数据来源中的信息,必须在数据仓库中把这类信息转换成一种统 一的表示方式。例如,对于英文地址信息,由于没有一种获取地址的标准方式,所以同 12 东北大学硕士学位论文第二章数据仓库与e t l 一个地址可以用许多不同方式表达出来。这就要求将地址解析成几个组成部分,然后将 这些组成部分进行转换并重新排列成统一的格式。 2 2 5 数据加载 将经过清洗、过滤达到用户满意的数据装入数据仓库中指定的主题和细节库中。传 统的方法主要是通用的o d b c 或j d b c 的连接把数据加载到数据库中。现在的一些数据 库系统提供了快速加载工具,如o r a c l e 的s q ll o a d e r ,d b 2 的l o a d ,它们不是一条一 条地进行数据加载,而是成块加载,而且它们还提供了许多针对不同类型的源数据和硬 件环境的优化选项,因此它们的加载速度非常快。不过实践表明,它仍然是整个e t l 系统的瓶颈。文献【1 1 】提出了工作流流的策略来优化数据加载。在实际的产品常常使用 多线程多进程的技术来加快加载的速度。 2 3e t l 的现状 在数据仓库实施中,人们逐渐认识到了e t l 工具的重要性,于是相关的e t l - f 具 也纷纷出台,其中比较著名的是i b m 的v i s u a lw a r e h o u s e 、a r d e m 公司的d a ms t a g e 、 o r a c l e 公司的o r a c l ew a r e h o u s eb u i l d e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 楼宇赎回贷款合同模板
- 销售合同范本正规范本
- 社区科学理论知识
- 组建与管理创业团队
- 房屋转让合同范本大全
- 运动解剖学练习题库含参考答案
- 租赁合同的可变性与调整策略
- 等待戈多课件
- 简约商务述职报告
- 航空货物运输代理合同
- 项目部管理岗位人员配置及职责表
- 成人癌性疼痛护理-中华护理学会团体标准2019
- 清明节主题班会缅怀先烈致敬英雄爱国主义教育PPT课件(含完整内容)
- 《病理学基础》知识考核试题题库与答案
- YC/T 227-2007光滑工件退刀槽
- 定向井设计暨compass操作指南讲解
- 惯性导航PPT汇总
- FZ/T 10005-2018棉及化纤纯纺、混纺印染布检验规则
- 《绿色建筑概论》整套教学课件
- 福利资本主义的三个世界课件
- 中石化巴陵石油化工有限公司炼油部环己酮装置技术升级改造项目环评报告书
评论
0/150
提交评论