(通信与信息系统专业论文)数据仓库数据抽取转换加载系统的研究.pdf_第1页
(通信与信息系统专业论文)数据仓库数据抽取转换加载系统的研究.pdf_第2页
(通信与信息系统专业论文)数据仓库数据抽取转换加载系统的研究.pdf_第3页
(通信与信息系统专业论文)数据仓库数据抽取转换加载系统的研究.pdf_第4页
(通信与信息系统专业论文)数据仓库数据抽取转换加载系统的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(通信与信息系统专业论文)数据仓库数据抽取转换加载系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕士学位论文摘要 摘要 数据抽取、转换和加载( e t l ) 是解决异构数据一致性和集成化的有效方 案,e t l 按照统一的规则集成数据,完成数据从数据源向目标数据仓库的转 化。论文首先论述了数据仓库和e t l 技术的基本理论;然后以某电业公司的 变压器状态分析系统为研究背景,实现变压器试验信息数据仓库的设计,包 括数据仓库的概念设计、逻辑设计和物理设计,之后针对该电业公司的数据 源和数据仓库实现e t l 系统的程序设计,对e t l 系统中各部分的功能和设计 进行详细分析;最后应用在p o w e r b u i l d e r 上开发的w o r d 抽取模块实现w o r d 文档中数据的抽取,应用o r a c l ew a r e h o u s eb u i l d e r 实现数据仓库及其e t l 过 程,包括源数据库、目标数据仓库、表、维、事实数据表、映射的创建,e t l 过程的部署和执行。 关键词;数据仓库。抽取转换加载,元数据,o r a c l e 数据仓库构建器 a b s t r a c t d a t ae x t r a c t i o n , t r a n s f o r m a t i o na n dl o a d i n gi sa l le f f e c t i v ei n g r a i nw h i c hs o l v i n g c o n s i s t e n c ya n di n t e g r a t i o no fh e t e r o g e n e o u sd a t a , e t li n t e g r a t e sd a t aw i t hu n i f o r m r u l e sa n dc o m p l e t e sc o n v e r s i o no fd a t af r o md a t as o u l c et ot h et a r g e td a t aw a r e h o u s e a tf n _ g t , t h ep a p e rd i s c u s s e st h eb a s i ct h e o r yo fd a t aw a r e h o u s ea n de t l t h e o r y ;a n d t h e nt h ea r t i c l et a k e st r a n s f o r m e rs t a t ea n a l y s i ss y s t e mo fe l e c t r i c i t yc o m p a n ya st h e r e s e a r c hb a c k g r o u n d c a r l i e so u tt h ed e s i g no ft r a n s f o r m e rt e s ti n f o r m a t i o nd a t a w a r e h o u s e ,i n c l u d i n gd a t aw a r e h o u s ec o n c e p td e s i g n , l o g i cd e s i g na n dp h y s i c sd e s i g n , a i m i n ga td a t as o u i c e sa n dd a t aw a r e h o u s eo fe l e c t r i c i t yc o m p a n ya c h i e v e st h e p r o g r a md e s i g no fe t ls y s t e m ,c o n d u c t sd e t a i l e da n a l y s i s0 1 1t h ef u n c t i o na n dd e s i g n o ft h ev a r i o u sp a r t si ne t ls y s t e m ;f i n a l l y , t h et h e s i su s e sw o r de x t r a c t i o nm o d u l e b a s e d0 1 1p o w e r b u i l d e rt oi m p l e m e n td a me x 仃a c t i o nf r o mw o r dd o c u m e n t , i m p l e m e n t s d a t aw a r e h o u s ea n de t lp r o c e s sw i t ho r a c l ew a r e h o u s eb u i l d e r , i n c l u d i n gt h e e s t a b l i s h m e n to f $ o u r c ed a t a b a s e ,d e s t i n a t i o nd a t aw a r e h o u s e ,t a b l e ,d i m e n s i o n , f a c t t a b l e ,m a p p i n g ,t h ed e p l o y m e n ta n de x e c u t i o no f e t lp r o c e s s q il i g a n g ( c o m m u n i c a t i o n sa n di n f o r m a t i o ns y s t e m ) d i r e c t e db yp r o f y u a nj i n s h a k e yw o r d s :d a t aw a r e h o u s e ,e t l ,m e t a d a t a 。o w b 声明尸明 本人郑重声明:此处所提交的硕士学位论文数据仓库数据抽取转换加载系 统的研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究 工作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名:解刘因9 日 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有 权保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩 印或其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅; 学校可以学术交流为目的,复制赠送和交换学位论文;同意学校可以用不同方 式在不同媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:盔型勤 导师签名: 日 期:趔6 f 兰:“ 日 期: 华北电力大学硕士学位论文 1 1 课题背景 第一章引言 数据仓库概念起源于8 0 年代中期,在9 0 年代,数据仓库技术已经成为一大热点, 遍及世界的公司都在试图利用多年来存储在他们计算机内的信息。业界公认的数据 仓库概念创始人w h i n m o n 在建立数据仓库一书中对数据仓库做了精确的定 义:数据仓库是面向主题的、集成的、非易失的、随时间不断变化的数据集合,用 来支持管理人员的决策过程。数据仓库有别于运作中的数据库,数据仓库是一个 综合的解决方案,而数据库只是一个现成的产品而己。后者以多种方式支持在线事 务处理o l t p ( o nl i n et r a n s a c t i o np r o c e s s i n g ) ,而前者主要支持在线分析处理o l a p ( o nl i n ea n a l y s i sp r o c e s s i n g ) 。 , 在激烈的市场竞争中,信息对于企业的生存和发展起着至关重要的作用,表达 信息的数据随着时间的增加和业务的发展而不断膨胀,当今的时代是信息爆炸的时 代。同时这些数据分布在不同的系统平台上,具有多种存储形式,如何从这样复杂 的数据环境中得到有用的决策数据是一个迫切需要解决的问题。随着分布式结构的 成熟、数据库技术的提高和数据处理技术的发展,数据仓库( d a t aw a r e h o u s e ) 和决 策支持系统( d e c i s i o ns u p p o r ts y s t e m ) 应运而生”1 。 数据仓库是计算机和数据应用发展到一定阶段的必然产物。数据仓库的目的是 为了建立一种体系化的数据存储环境,将分析决策所需的大量数据从传统的操作环 境中分离出来,使分散、不一致的操作数据转换为集成、统一的信息。然而,这个 过程并非易事,这里所谓的传统的操作环境,是指企业在不同时期、在不同的背景 下开发出来的事务处理系统,这些业务系统的建立,也往往是面向不同的应用、由 不同的开发商来完成的,其数据的存储结构、存储平台和系统平台具有很大的异构 性。如何将这些异构的数据有效地集成到数据仓库中,是企业所面临的一个难题。 企业需要一个全面的解决方案来解决数据的一致性和集成化问题,使得企业能够从 所有传统平台和环境中采集数据,并利用一个解决方案对其进行高效的转换,这个 解决方案就是e t l “。 e t l ( e x t r a c t i o n t r a n s f o r m a t i o n l o a d i n g ) 是数据抽取转换装载系统,一般 把它简称为数据抽取系统。e t l 包括三个方面:首先是抽取,将数据从各种原始的业 务系统中提取出来,这是所有工作的前提;其次是转换,按照预先设计好的规则对 抽取的数据进行转换,使得本来异构的数据格式能够统一起来;最后就是加载,将 转换好的数据按计划增量或者全部导入到数据仓库中“1 。 华北电力大学硕士学位论文 可以说,e t l 在传统的业务系统和数据仓库之间架立起了一座桥梁,确保新的 数据能够源源不断地进入数据仓库。从整体的角度来看,e t l 的主要作用在于其屏 蔽了复杂的业务逻辑,从而为各种基于数据仓库的分析和应用提供了统一的数据接 口d 。e t l 涉及到大量的业务逻辑和异构环境,在一般的数据仓库项目中e t l 部分往 往是牵扯精力最多的,一般来讲,开发e t l 要占到整个项目工作量的6 0 - 8 0 ”1 。 总之,e t l 过程是构建数据仓库的关键环节,对于数据仓库的建立起着举足轻 重的作用,此外,e t l 也是研究领域的热门课题。因此,不论在实用性还是研究性 方面,e t l 系统的构建都具有重要意义。 1 2 国内外概况 1 2 1 国内概况 国内数据仓库的应用起步较晚,其应用范围主要集中在金融、证券、电信等少 数行业中,且大多数由国外数据仓库产品所垄断。国内某些大学对数据仓库有些研 究,如哈尔滨工业大学开发的并行数据仓库管理系统p d w m s 、南京大学开发的数据 仓库原型系统s o f tb a s e a r e 、华中科技大学数据库与多媒体技术研究所开发的 原型系统d m _ d w ,但专门针对e t l 的研究不多。文献 9 中利用o l ed b 接口和 m i c r o s o f ts o ls e r v e r 中的数据转换服务( d a t at r a n s f o r m a t i o ns e r v i c e s ,d t s ) 组件设计实现了一个e t l i 具,通过c o m 技术实现了国产d m 3 数据库的o l ed b 接口, 利用m sd t s 组件作为模板实现了d m 3d t s 组件。该工具可以提供类似m sd t s 的功能, 但依赖于m sd t s 组件。文献 1 0 中采用专家系统体系结构,针对航空公司数据仓库 和数据集市应用,设计并初步实现了一个数据清理工具,将航空公司中来源于不同 应用系统的同一类数据进行清洗,使之具有同一口径和分类方式。 1 。2 2 国外概况 国外数据仓库已经得到大规模的应用,几乎每个数据仓库厂商都有自己的e t l 系统,市场上已经存在许多比较成熟的商用e t l 系统。典型的商用系统有i b m 的 v i s u a lw a r e h o u s e ,o r a c l e 的o r a c l ew a r e h o u s eb u i l d e r ,m i c r o s o f t 的d t s , i n f o r m i x 的a r d e n t ,d a t am i r r o r ,e t i 。下面重点介绍一下几个主流数据库厂商提 供的数据仓库e t l 解决方案。 v i s u a lw a r e h o u s e 是i b m 数据仓库解决方案的重要组成部分,它提供e t l 的功能, 可以访问各种关系型数据库,如d b 2 数据库家族、o r a c l e 数据库、s y b a s e 数据库、 i n f o r m i x 数据库和非关系型的数据库,例如集成制造系统( i n t e g r a t e d m a n u f a c t u r i n gs y s t e m ,i m s ) 和v s a m ( v i r t u a ls t o r a g ea c c e s sm e t h o d ) 。v i s u a l 2 华北电力大学硕士学位论文 w a r e h o u s e 提供基于s o l 的简单转换和基于u d p ( u s e rd e f i n e dp r o g r a m ) 的复杂转换, 它具有高效装载的特性,另外,除了现有的基于s o l 的目标装载,v i s u a lw a r e h o u s e 现在还提供用于文件传输和装载过程管理的程序。它可以定义工作流,实现交易视 图( b u s i n e s sv i e w ) 的定时调度、条件调度、并行调度和外部事件触发调度;管理 数据迁移过程,监控执行状态和收集和报告数据仓库过程的统计数数据。当用户有 特殊需求时,可以通过编程接口编程实现或选择第三方厂商( 如e t i 和v a n i t y t e c h n o l o g y ) 的产品“1 。 o r a c l e 提供的o r a c l ew a r e h o u s eb u i i d e r 作为包括e t l 在内的一个综合工具。 o r a c l ew a r e h o u s eb u i l d e r 可以完成导入数据源定义、设计和创建目标数据库模式、 定义和创建源和目标之间的数据迁移和操纵、定义e t l 过程之间的约束性和流程、 管理和更新源定义和目标模式等多种任务“”。从o r a c l e g i 开始,o r a c l e 数据库的 功能明显增强,尤其能处理一些e t l 环境下的任务。e t l 处理流程可以显著地改变, 数据库可以成为完整的数据转换引擎,许多传统的e t l 过程可能不再需要,而其它 的有些过程则可以更有效、更有可扩展性地执行。o r a c l el o g 不是为转换后载入或 载入后转换的e t l 处理模式而设计的,o r a c l el o g 提供了转换过程中载入的e t l 新处 理模式。o r a c l el o g 提供全抽取和增量抽取两种逻辑抽取方法。使用平面表、分布 式操作、可传输表空间等方法进行数据传输操作。它提供多阶段转换和流水线转换 的转换流程,使用s o l 、p l s o l 、表函数的转换机制。它提供s q l * l o a d e r 、外部表、 o c ia n dd i r e c t p a t ha p i s 、e x p o r t i m p o r t 的加载机制。o r a c l el o g 提供了多种 新功能以增强e t l 处理的性能。o r a c l e 变化数据捕获机制提供了从o r a c l e 数据源捕 获更新数据的功能。o r a c l el o g 的外部表特性,允许外部数据如同其它常规表中的 数据一样,在数据库中出现。多表插入提供了一个新的s o l 命令,该命令可以将数 据插入多个目标表中。o r a c l el o g 的表函数支持流水线方式和并行方式,实现一系 列复杂的转换而不需要中间临时表,避免了在各种转换步骤中数据流的中断。可传 输表空间是一种在o r a c l e 数据库之间移动数据的高效机制,因为可传输表空间允许 在不经过卸载或重载的条件下移动数据。通过可恢复执行语句,如果运行时间长的 数据库操作时发生了可修正的错误,o r a c l el o g 能够挂起或继续执行当前的操作。 m i c r o s o f t 提供d t s 作为e t l i 具。d t s 能够从广泛的数据源抽取数据,可以支持 以下数据源:o l ed b 数据源、o d b c 数据源、文本文件。使用d t s ,用户能够完成以 下任务:在数据库管理系统之间拷贝表的模式和数据:创建定制转换对象,使其能 集成到第三方的产品中去;通过交互式或自动的方式从多个异构数据源导入和转换 数据,在提供o l ed b 驱动程序的数据库管理系统中创建数据仓库和数据集市;创建 和执行d t s 包,一个d t s 包完整的描述了所有的转换工作,一个d t s 包定义了一个或 者几个数据转换步骤,每一步能够完成一个不同类型的操作“”。此外,d t s i 丕提供 3 华北电力大学硕士学位论文 d t s 导入导出向导和d t s 设计器等工具来简化数据的转换工作。用户使用a c t i v e x s c r i p t 语言可以描述复杂的转换规贝i j ,能够完成格式化和转换数据,自定义函数, 创建、使用和改变存储在d t s 全局变量中的值,操纵c o m 对象,创建a d o 对象来存取 数据库等几乎任何复杂的任务此外,d t s 还提供自动调度d t s 包中任务工作流的功 能。 此外,国外和e t l 相关的研究非常多,范围也很广,主要集中在数据质量和质 量管理、数据转换、过程建模等方面。 1 3 课题主要工作 本文以某电业公司的变压器状态分析系统为研究背景,在数据仓库的基础之上 实现该电业公司内部试验数据的集成,在此过程中研究了变压器试验信息数据仓库 及其e t l 过程的设计与实现方法,主要完成了以下工作: ( 1 ) 以变压器状态分析系统为研究背景,根据系统的需求对该电业公司内部变 压器试验数据进行分析,实现变压器试验信息数据仓库的设计,包括数据仓库的概 念设计、逻辑设计和物理设计。 ( 2 ) 通过对该电业公司内部的各种数据源进行分析,在变压器试验信息数据仓 库设计的基础上实现数据仓库e t l 系统的设计,包括e t l 系统的架构设计、系统中 w o r d 抽取模块、o r a c l e 透明网关、映射模块等部分的设计和功能分析。 ( 3 ) 应用在p o w e r b u i l d e r 中创建的w o r d 抽取模块实现w o r d 文档数据源中数据 的抽取,并将抽取出的数据存储在o r a c l e 数据库中。使用o r a c l ew a r e h o u s eb u i l d e r 创建数据仓库及其e t l 过程,包括源数据库和目标数据仓库的创建、源表的导入、 维表、事实数据表和映射的创建、e t l 过程的部署和运行。 1 4 论文安排 全文共分六章,具体结构和组织为: 第一章综述论文的研究背景、国内外e t l 技术的研究概况、课题的主要工作和 论文的组织结构。 第二章首先阐述了数据仓库的概念、特点、体系结构和数据仓库中的元数据、 粒度、分割等重要概念,然后论述t e t l 的概念、e t l 在数据仓库中的重要作用和地 位一分析了主流e t l 产品的体系结构和e t l 过程中元数据的作用。 第三章以某电业公司变压器状态分析系统为研究背景,根据系统的需求实现变 压器试验信息数据仓库的设计,包括数据仓库的概念设计、逻辑设计和物理设计。 4 华北电力大学硕士学位论文 第四章首先分析了数据仓库中的e t l 策略;然后详细分析了e t l 过程中的数 据抽取、转换和加载的具体实现方法;最后实现变压器试验信息数据仓库的e t l 系统的设计,包括e t l 系统的框架设计、系统中各个部分的设计和功能分析。 第五章首先应用在p o w e r b u i l d e r 中创建的w o r d 抽取模块实现w o r d 文档中数 据的抽取,并将抽取出的数据储存在o r a c l e 数据库中。然后应用o r a c l e w a r e h o u s e b u i l d e r 创建数据仓库及其e t l 过程,包括源数据库和目标数据仓库的创建、源表 的导入、维表、事实数据表和映射的创建、e t l 过程的部署和运行。 第六章对全文的工作进行总结,并对未来的工作进行展望。 华北电力大学硕士学位论文 第二章数据仓库和e t l 技术 本章主要阐述了数据仓库和e t l 技术的基本概念和理论。首先介绍了数据仓库 的概念、特点、体系结构等,然后论述了e t l 的概念、e t l 产品的体系结构以及e t l 过程中元数据的重要作用。 2 1 数据仓库技术 2 1 1 数据仓库的概念 数据仓库技术是2 0 世纪8 0 年代中期提出的。它是伴随着信息与决策支持系统 的发展过程而产生的,在数据仓库的发展过程中,许多人对此做出了贡献。其中, d e v l i n 和m u r p h y 在1 9 8 8 年发表了一篇关于数据仓库论述的最早文章。而p r i s m s m u t i o n s 公司副总裁w i l l i a mh i n m o n 在1 9 9 2 年所写的论著建立数据仓库 ( b u i l d i n gt h ed a t aw a r e h o u s e ) 则首先系统地阐述了关于数据仓库的思想和理论, 为数据仓库的发展奠定了历史基石。为此,w h i n m o n 被尊称为数据仓库之父。在 建立数据仓库一书中,他将数据仓库定义为:数据仓库是一个面向主题的、集 成的、不可更新的、随时间变化的用来支持管理人员决策的数据集合“1 。 2 1 2 数据仓库的特点 数据仓库的定义概况了数据仓库的最主要的四个特征: ( 1 ) 数据仓库的数据是面向主题的 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归纳 并进行分析利用的抽象。面向主题的数据组织方式是在较高层次上对分析对象的数 据的一个完整、一致的描述、能完整统一的刻画各个分析对象所涉及的企业的各项 数据,以及数据之间的联系。主题的实现依然是基于关系数据库的。每个主题在数 据仓库中都是由一组关系表实现的。在具体的实现中,一个主题可以划分为多个表, 主题只是一个逻辑的概念。数据仓库中的数据不再是事务处理的流水账,而是经过 了一定程度的综合。基于一个主题的所有表都含有一个称为公共码键的属性作为其 主码的一部分。公共码键将各个表统一联系起来,体现它们是属于一个主题的。根 据数据被关心的程度不同,可以将同一主题下的不同表存放在不同的存储介质上, 一般将年代久远的、细节的或查询频率低的数据存放在廉价慢速设备上,而将近期 的、综合的或查询频率高的数据存放在快速设备上。 ( 2 ) 数据仓库的数据是集成的 6 华北电力大学硕士学位论文 数据仓库的数据是从原有的分散的数据库数据抽取来的。 第一,数据仓库的每一个主题所对应的源数据在原有的各分散数据库中有许多 重复和不一致的地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在 一起。 第二,数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据 进入数据仓库之前,必然要经过统一与综合,这是数据仓库建设中最关键、最复杂 的一步,所要完成的工作有:要统一源数据中所有矛盾之处,如字段的同名异义、 异名同义、单位不统一、字长不一致等;进行数据综合和计算。数据仓库中的数 据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成 的,即进入数据仓库以后进行综合生成的。 ( 3 ) 数据仓库的数据是不可更新的 数据仓库的数据主要供企业决策分析用的,所涉及的数据操作主要是数据查 询,一般情况下并不进行更新操作只能进行追加。数据仓库的数据反映的是一段相 当长的时间内历史数据的内容,是不同时间的数据库快照的集合,以及对这些快照 进行统计、综合和重组的导出数据。数据库中进行事务处理的数据经过集成输入到 数据仓库中。一旦数据仓库中存放的数据已超过数据仓库的数据存储期限,这些数 据应从数据仓库中删除。 ( 4 ) 数据仓库的数据是随时间变化的 数据仓库中的数据随时间变化的特性表现在以下几个方面: 数据仓库随时间变化不断增加新的数据内容。数据仓库系统必须不断捕捉 o l t p 数据库中变化的数据,追加到数据仓库中去。 数据仓库随时间变化不断删去i e t 的数据。数据仓库中的数据也有存储期限, 一旦超过了这一期限,过期数据就要被删除。只是数据仓库内的数据时限要远远长 于操作型环境中的数据时限。 数据仓库中包含大量的综合数据,这些综合数据中很多跟时间有关,如数 据经常按照时间进行综合,或按一定的时间片进行抽样等。这些数据要随着时间的 变化不断地进行重新综合。因此,数据仓库的数据特征都包含时间项,以标明数据 的历史时期“”。 2 1 3 数据仓库的体系结构 图2 1 所示是带有数据准备区和数据集市的数据仓库体系结构。从图中可以看 出数据仓库体系结构由数据源、数据准备区、数据仓库数据库、数据集市、显示服 7 华北电力大学硕士学位论文 务组成。 图2 i 数据仓库的体系结构 ( 1 ) 数据源 数据仓库用于为决策者提供信息,为此数据仓库必须将来自单位中的许多源数 据聚集合并为一致的数据集,以准确地反映单位的业务动作情况和历史记录。数据 仓库中使用的数据源必须被标识,并且进行技术开发以便从中析取数据。 单位通常有多个业务处理系统来捕获日常的业务运作情况。这些业务处理系统 很少与数据仓库同时设计。它们甚至可能是由不同单位设计的。数据库架构和数据 元素标识键在数据库之间通常是不同的。从这些业务处理系统中析取的数据必须转 换为常用表示法。已使用多年的传统系统常常包含不规范的数据和不常见的数据标 识设计,而且在查询上不够灵活。对业务分析至关重要的数据甚至可能驻留在个别 台式机上的个人数据库和电子表格中,尤其当单位是在没有中央信息技术组的情况 下发展壮大的时候,必须将这些数据捕获到数据仓库中。 ( 2 ) 数据准备区 用予数据仓库的数据必须从数据源中析取,进行清理及格式化以保持一致性, 并转换为数据仓库架构。数据准备区有时称为数据中间存储区,它是关系数据库, 在这里从数据源中析取数据,将数据转换为常用格式,检查一致性和弓j 用完整性, 并准备装入数据仓库数据库。在某些数据仓库实施方案中,数据准备区和数据仓库 数据库可以组合在一起,只要清理和转换操作不影响为数据仓库数据的最终用户提 供服务的性能或操作即可。由于数据源不同以及数据准备操作强加在联机事务处理 系统上的处理负荷,几乎无法选择在源数据库中执行准备操作。用于数据准备操作 的关系数据库无论在何处执行,都必须具有强大的数据操作和转换功能。 最初装载数据仓库后,需不断地利用数据准备区为更新数据仓库准备新数据。 在大多数数据仓库系统中,这些不断进行的操作是定期执行的,常被调度以使对可 操作数据源系统的影响最小。数据准备区是关系数据库,它为数据准备操作的常规 华北电力大学硕士学位论文 工作区提供服务。它包含源数据的相关的表、转换数据的表,以及许多临时表,还 包含从源数据系统中析取数据的进程和过程。 ( 3 ) 关系数据库 关系数据库是为数据仓库提供强大功能的基础引擎。许多特性和功能已经开发 出来并得到增强,使得关系数据库成为联机事务处理( o l t p ) 系统的主力,而且这些 特性和功能可直接应用于数据仓库。 关系数据库用于数据仓库系统,其作用是在数据库中临时存储、清理和转换传 入的数据,容纳和管理数据仓库数据库中的大量数据,并支持数据集市。数据仓库 存储、管理和操作巨大的数据量,这些数据常由数亿行历史信息组成。关系数据库 必须提供快速的数据传输和灵活高效的索引,以及先进高效的查询能力,以便组织 和检索数据仓库的数据。 ( 4 ) 数据集市 在有些设计中,数据集市是完全独立的数据仓库,作为分布式数据仓库成员补 充总体结构。而在有些设计中,数据集市则通过定期更新,接收来自主数据仓库的 数据,在这种情况下,数据集市的功能经常受限于客户端的显示服务。无论数据集 市提供何种功能,它们都必须被设计为主数据仓库的组件,以使数据的组织、格式 和架构在整个数据仓库内保持一致。表的设计、更新机制或维度层次结构如果不一 致,可能会使数据无法在整个数据仓库内重新使用,并可能导致由相同的数据生成 不一致的报表的情况。 ( 5 ) 显示服务 数据仓库的目的是表现业务信息,供单位的决策者使用。如果没有工具帮助它 分析和评估,包含数亿条数据的数据仓库对决策者将毫无用处。这些分析工具在简 单的报表和高级的数据挖掘算法之间可能有所不同。应用程序接口( a p i ) 还必须能 够支持开发使用数据仓库信息的自定义应用程序。显示服务主要包括以下几个方 面: 联机分析处理 联机分析处理很适合探测分析。分析者希望在数据中发现趋势和异常,并探测 数据的不同区域以找到趋势和异常的根源。联机分析处理( o l a p ) 是个分析工具, 旨在帮助对大量的数据仓库数据进行这种分析。为探测数据仓库中的数据,管理人 员询问有关数据的问题,然后根据答案询问相关的或不同的问题。 数据挖掘 o l a p 将数据组织为预定义的多维结构以便于探测,而数据挖掘与o l a p 相反, 9 华北电力大学硕士学位论文 其目的是执行探测分析并识别信息中有趣且有价值的东西,如将数据分组以供分析 者或管理人员检查。数据挖掘还可创建决策树,用于根据现有数据元素的特性预测 将来的数据。 预定义报表 预定义报表很适合其特殊目的。简单的预定义汇总报表可以定期或根据需要, 为管理人员提供某个即时点的业务状态快照。更高级的报表可以显示预定义的业务 变化的趋势。若要捕获最新状态,必须不断地从数据源系统中生成快照的详细信息 和汇总报表。定期报表与数据仓库的更新相协调,并且可以转换到数据仓库以减少 可操作系统的负荷。使用历史数据评估趋势的报表应在数据仓库中完成,数据仓库 中包含具有适当格式且随时可用的历史数据,并且可以处理大量的汇总数据n “。 2 1 4 数据仓库中的重要概念 2 1 4 1 元数据 元数据,即m e t a d a l a ,是描述数据的数据,在数据仓库建设过程中所产生的有 关数据源内容和位置、目标定义、转换规则等相关的关键数据。一般来说,它有两 方面的用途:首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息 的元数据能帮助用户使用数据n ”。其次,元数据能支持系统对数据的管理和维护, 如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。按用途的不 同分为两类,技术元数据和商业元数据1 ”“”。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据 仓库使用的数据,它主要包括以下信息: 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的 定义,以及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式; 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇 总、预定义的查询与报告; 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、 数据提取、清理、转换规则和数据刷新规则、安全( 用户授权和存取控制) 。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际 系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的 数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象 名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报 1 0 华北电力大学硕士学位论文 表的信息。具体包括以下信息: 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据 模型的高层信息、整个企业的业务概念和相互关系。 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员 在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合 规则。这里的数据立方体表示某主题域业务事实表和维表的多维组织形式。 2 1 4 2 粒度 粒度是数据仓库的重要概念,粒度是指数据仓库的数据单位中保存数据的细化 或综合程度的级别n 1 。细化程度越高,粒度级别越小;细化程度越低,粒度级别就 大。粒度问题是设计数据仓库的一个重要方面,将直接影响到存放在数据仓库中的 数据量的大小和数据仓库所能回答的查询类型。一方面,粒度越低,细节程度越高, 所回答查询的种类就越多,但同时数据仓库中数据的量也就越大。当要查询综合性 的问题时,就要从大量细节数据中综合并计算答案,效率将十分低下。另一方面, 粒度的加大将会提高综合数据的查询效率,但同时也造成回答细节问题能力的下 降。 2 1 4 3 分割 分割是数据仓库中另一个重要概念,它是指将数据分散到各自的物理单元中以 便能分别独立处理,以提高数据处理效率“”。数据分割可选择按日期、地区和业 务领域等等,也可是其组合。一般而言,分割标注总应包括日期项,它十分自然, 而且分割均匀。分割之后,小单元内的数据相对独立,处理起来更快、更容易。 2 2 e t l 技术 2 2 1e t l 的概念 e t l 是e x t r a c t t r a n s f o r m l o a d 的缩写,即数据抽取、转换、装载的过程。e t l 包含三个方面:( 1 ) 抽取( e x t r a c t ) :将数据从各种原始的业务系统中读取出来,这 是所有工作的前提。( 2 ) 转换( t r a n s f o r m ) :按照预先设计好的规则将抽取得到的数 据进行转换,使得本来异构的数据格式统一起来。( 3 ) 装载( l o a d ) :将转换后的数 据按计划增量或全部导入数据仓库。这三部分并非完全独立,有时在抽取过程中做 部分转换,有时在装载的同时进行一些转换工作。 e t l 是数据仓库的核心和灵魂。e t l 按照统一的规则集成并提高数据的价值, 负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。 通常,企业的数据源分布在各个子系统和节点中,利用e t l 将各地方的业务系统 华北电力大学硕士学位论文 上的数据抽取、转换、装载到数据仓库。因为现有业务数据源很多,保证数据的一 致性,真正理解数据的业务含义,跨越多平台、多系统整合数据,最大可能提高数 据的质量,迎合业务需求不断变化的特性,是e t l 技术处理的关键。从整体角度 来看,e t l 主要作用在于其屏蔽了复杂的业务逻辑从而为各种基于数据仓库的分析 和应用提供了统一的数据接口,这正是构建数据仓库的重要目的。在整个数据仓库 的建设的过程中最难的部分是用户需求分析和模型设计,而e t l 规则设计和实旌 则是工作量最大的,根据t w d i2 0 0 3e t l 和数据集成平台评估报告“指出,在数 据仓库项目中,e t l 的工作量要占整个项目的6 0 一8 0 “”。 2 2 2e t l 产品的体系结构 图2 2 摘自t w d i2 0 0 3e t l 权威报告,体现了主流e t l 产品框架的主要组成部 分n ”。e t l 是指从源系统中提取数据,转换数据为一个标准的格式,并且加载数 据到目标数据存储区,通常是数据仓库。 d a l , t b u e 矗n 腑 l c g 辨y 酆中h c 硼。强 图2 2e t l 产品框架的主要组成部分 e x t r a c t :通过接口提取源数据,例如:专用数据库接口、o d b c 和平面文 件提取器。参照元数据来决定提取何处的数据和怎样提取。 t r a n s f o r m :将提取的数据,按照业务需要转换为目标数据结构,并实现 汇总。 l o a d :加载经转换和汇总的数据到目标数据仓库中,可实现批量加载。 1 2 吕口 国 华北电力大学硕士学位论文 m e t ad a t am a n a g e m e n t :提供一个关于e t l 设计和运行处理等相关定义、 管理信息的元数据资料库。e t l 引擎在运行时和其它应用都可以参考此资 料库中的元数据。 d e s i g nm a n a g e r :提供一个图形化的映射环境,让开发者定义从源到目标 的映射关系和处理流程。设计过程的各对象的逻辑定义存储在元数据资料 库中。 t r a n s p o r ts e r v i c e s :利用网络协议或者文件协议,在源和目标系统之间 移动数据,利用内存在e t l 处理各组件中移动数据。 a d m i n i s t r a t i o na n do p e r a t i o n :可让管理员基于事件和时间进行调度、 运行、监测e t l 作业、管理错误信息、从失败中恢复和调节从源系统的输 出。 2 2 3e t l 的元数据 典型的元数据是对数据对象的描述“。在现行应用的异构性与分布性越来越 普遍的情况下,统一的元数据就愈发重要了。元数据对于e t l 的集中表现为: 定义数据源的位置及数据源的属性; 确定从源数据到目标数据的对应规则; 确定相关的业务逻辑; 在数据实际加载前的其它必要的准备工作等。 e t l 过程主要分为4 步,首先从数据源( 底层的业务系统) 中,将所需要的数 据抽取出来,然后转换为目标数据存储的数据格式,再进行清洗,最后将转换后的 数据加载到目标数据存储中。在这4 步中,每步都和元数据密切相关,如图2 3 所 示n ”。 第1 步,如果没有相应的映射规则,e t l 就无法决定从数据源中抽取哪些数据。 当然,要顺利地抽取到正确的数据,还需要其他一些元数据的辅助,这里把和数据 抽取相关的元数据称为抽取元数据。 第2 步,要完成数据格式从源数据存储格式到目标数据存储( 数据仓库) 格式 的转换,就需要关于源数据存储格式和目标数据存储格式的信息。而且,还需要相 应的转换规则方面的元数据,从而实现数据存储格式按照相应的转换规则完成转 换。这里把和数据转换相关的元数据称为转换元数据。 第3 步,要对转换后的数据按照一定的规则进行清洗,就需要映射清洗方面的 元数据,与之相关的元数据称为清洗元数据。 华北电力大学硕士学位论文 第4 步,要把转换后的数据加载到数据仓库中,同样需要映射规则方面的元数 据,否则就无法知道应该将数据加载到什么地方,这里把和加载有关的元数据称为 加载元数据。 图2 3e t l 与元数据的关系 由此可见,e t l 过程的自始至终都需要元数据的指导,需要在元数据的控制下 才能顺利完成。可以说,元数据就是e t l 的“控制中心”,在e t l 的开发过程中发 挥着重要的作用“”。 2 3 本章小结 本章首先阐述了数据仓库的概念、特点、体系结构等;然后对数据仓库中的一 些重要概念,如:元数据、粒度、分割等进行简要论述:最后阐述了e t l 的基本概 念,说明了e t l 在数据仓库中的重要作用和地位,分析了目前主流的e t l 产品的体系 结构和e t l 过程中元数据对于数据抽取、转换和加载的重要作用。 1 4 华北电力大学硕士学位论文 第三章变压器试验信息数据仓库的设计 本章以某电业公司的变压器状态分析系统为研究背景,通过对该系统的业务 需求进行分析,实现变压器试验信息数据仓库的设计,包括数据仓库的概念设计、 逻辑设计和物理设计。 3 1 变压器试验信息数据仓库的需求分析 变压器试验信息数据仓库是以某电业公司的变压器状态分析系统为研究背景 创建的。变压器状态分析系统通过贝叶斯网络和灰色预测理论分析变压器的当前和 历史试验数据,对变压器设备所处的状态进行评估,识别变压器故障的早期征兆, 在设备性能下降到一定程度或故障将要发生之前进行维修,为实现变压器的状态检 修提供技术依据和智力支持。通过对该电业公司进行一段时间的调研工作后,发现 该电业公司内部的变压器基本信息、变压器的各种试验数据等大部分以w o r d 电子 文档的形式存在,这种数据存储方式无法为变压器状态分析系统提供状态检修和评 估时所需的试验数据。为了向该系统提供状态分析所需要的变压器设备当前和历史 试验数据,需要设计并构建变压器试验信息数据仓库,将存储在w o r d 文档中的试 验数据抽取出来,经过转换后加载到数据仓库中,为下一步的变压器状态评估提供 数据支持。 3 2 数据仓库的概念设计 概念设计的关键是建立面向不同主题的信息包图,而创建信息包图要根据需求 分析和数据流程图定义关键性能指标、维度和类别。 经过对该电业公司的项目调研,根据用户的需求确定了变压器试验信息数据仓 库是面向变压器试验数据信息的,为变压器的状态检修提供决策支持的系统。通过 对该电业公司的变压器试验数据进行分析,创建了变压器试验信息数据仓库的数据 分析信息图,如图3 1 所示。 时间变压器信变压器电压变压器型号变压器制造厂试验人员交压器试验数据 信息息 等级信息 信息 家基本信息信息 信息 亟 变压器编 变压器电压 变压器型号 制造厂家名称试验部门绝缘电阻 季度码等级电业局名称国家名称名称吸收比 月 变电站名变电站名称省名称试验人员极化指数 日 称市名称名称泄漏电流 额定容量制造厂家地址整体介质损耗因 华北电力大学硕士学位论文 额定电压 制造厂家电话数 额定电流 整体电容值 空载电流套管介质损耗因 空载损耗 数 阻抗电压 套管电容值 短路损耗套管末屏对地绝 冷却方式 缘电阻 接线组别 铁芯对地绝缘电 相数 阻 频率绕组直流电阻 铁芯绝缘电阻 变压比 油介质损耗因数 油介质电阻 氢、氧、一氧化碳、 二氧化碳、甲烷、 乙烯、乙炔、乙烷、 图3 1 变压器数据分析信息图 3 3 数据仓库的逻辑设计 逻辑设计是数据仓库设计中的重要一环,因为它能直接反映出用户对业务的需 求,同时对数据仓库的物

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论