第12章_第12章 数据仓库技术ppt课件_第1页
第12章_第12章 数据仓库技术ppt课件_第2页
第12章_第12章 数据仓库技术ppt课件_第3页
第12章_第12章 数据仓库技术ppt课件_第4页
第12章_第12章 数据仓库技术ppt课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第12章 数据仓库技术12.1 从数据库到数据仓库12.2 数据仓库根本概念12.3 数据仓库中的数据组织12.4 数据仓库系统的体系构造12.5 企业的体系化数据环境12.6创建数据仓库12.7 小结 .12.1 从数据库到数据仓库 数据库管理系统作为数据管理的最新手段,胜利地用于事务处置领域虽然数据库在事务处置方面的运用获得了宏大的胜利。但它对分析处置的支持不断不能令人称心,尤其是当以事务处置为主的OLTP运用与以分析处置为主的DSS运用共存于同一个数据库管理系统中时,这两种类型的处置发生了明显的冲突。.12.1 从数据库到数据仓库 事务处置环境不适宜DSS运用的缘由概括起来主要有以下四个

2、方面:1事务处置和分析处置的性能特性不同2数据集成问题3历史数据问题4数据的综合问题 以上这些问题阐明在事务型环境中直接构建分析型运用是一种失败的尝试。数据仓库本质上是对这些存在问题的回答。.12.2 数据仓库根本概念 分析处置和事务处置具有极不一样的性质,因此两者对数据也有着不同的要求。 数据仓库概念的开创人W.H. Inmon在其一书中,列出了操作型数据与分析型数据之间的区别,如表12.1所示。.12.2 数据仓库根本概念 操作型数据 分析型数据 细节的 综合的,或提炼的 在存取瞬间是准确的 代表过去的数据 可更新 不更新 操作需求事先可知道 操作需求事先不知道 生命周期符合SDLC 完全

3、不同的生命周期 对性能要求高 对性能要求宽松 一个时刻操作一元组 一个时刻操作一集合 事务驱动 分析驱动 面向应用 面向分析 一次操作数据量小 一次操作数据量大 支持日常操作 支持管理决策需求表12.1 操作型数据和分析型数据的区别.12.2 数据仓库根本概念 基于上述操作型数据和分析型数据之间的区别,我们可以给出数据仓库定义:数据仓库是一个用以更好地支持企业或组织的决策分析处置的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合。 数据仓库本质上和数据库一样是长期储存在计算机内、有组织、可共享的数据集合。.12.2 数据仓库根本概念 数据仓库和数据库主要的区别是数据仓库中的数据具有以

4、下四个根本特征:数据仓库的数据是面向主题的。数据仓库的数据是集成的。数据仓库的数据是不可更新的。数据仓库的数据是随时间不断变化的。.12.2 数据仓库根本概念12.2.2 主题与面向主题 从逻辑意义上讲,主题是企业中某一宏观分析领域所涉及的分析对象。主题是一个笼统的概念,是在较高层次上将企业信息系统中的数据综合、归类并进展分析利用的笼统。所谓较高层次是相对面向运用的数据组织方式而言的,是指按照主题进展数据组织的方式具有更高的数据笼统级别。.12.2 数据仓库根本概念 我们用一个例子来详细阐明。 一家采用“会员制运营方式的商场,按业务已建立起销售、采购、库存管理以及人事管理子系统。按照其业务处置

5、要求,建立了各子系统的数据库方式:采购子系统: 订单(订单号,供应商号,总金额,日期) 订单细那么(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,).12.2 数据仓库根本概念销售子系统: 顾客(顾客号,姓名,性别,年龄,文化程度,地址,) 销售(员工号,顾客号,商品号,数量,单价,日期)人事管理子系统: 员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门称号,部门主管,).12.2 数据仓库根本概念库存管理子系统: 领料单领料单号,领料人,商品号,数量,日期 进料单进料单号,订单号,进料人,收料人,日期 库存商品号,库房号,库存量,日期 库房库房号

6、,仓库管理员,地点,库存商品描画 应该分为两个步骤来组织数据: 抽取主题以及确定每个主题所应包含的数据内容。.12.2 数据仓库根本概念抽取主题 应该是按照分析的要求来确定主题。 1.在OLTP数据库中进展数据组织时要思索如何更好地记录下每一笔采购业务的情况,我们用“订单、“订单细那么以及“供应商三个数据库方式来描画一笔采购业务所涉及的数据内容,这就是面向运用来进展数据组织的方式; .12.2 数据仓库根本概念 2.在数据仓库中,对于商品采购的分析活动主要是要了解各供应商的情况,显然“供应商是采购分析的对象。我们并不需求象“订单和“订单细那么这样的数据库方式,由于它们包含的是纯操作型的数据;但

7、是仅仅只用OLTP数据库的“供应商中的数据又是不够的,因此要重新组织“供应商这个主题。.12.2 数据仓库根本概念确定主题的数据内容 概括各种分析对象,我们抽取了商场的供应商、商品、顾客三个主题。然后确定每个主题所应包含的数据内容。以“商品主题为例,应该包括两个方面的内容: 第一,商品固有信息,如商品称号,商品类别以及型号、颜色等描画信息; 第二,商品的流动信息,如某商品采购信息、商品销售信息及商品库存信息等。.12.2 数据仓库根本概念 对比商场原有数据库的数据方式,我们可以看到: 首先,在从面向运用到面向主题的转变过程中,丢弃了与分析活动关系不大的信息。 其次,在原有的数据库方式中,关于商

8、品的信息分散在各子系统中。.12.2 数据仓库根本概念 面向主题的数据组织方式是根据分析要求将数据组织成一个完备的分析领域, 即主题域。主题域应该具有: 1.独立性, 它必需具有独立内涵。 2. 完备性,就是要求对任何一个对商品的分析处置要求, 我们应该能在“商品这一主题内找到该分析处置所要求的内容。.12.2 数据仓库根本概念 主题是一个在较高层次上对数据的笼统, 这使得面向主题的数据组织可以独立于数据的处置逻辑, 因此可以在这种数据环境上方便地开发新的分析型运用;同时这种独立性也是建立企业全局数据库所要求的, 所以面向主题不仅是适用于分析型数据环境的数据组织方式, 同时也是适用于建立企业全

9、局数据库的组织。.12.2 数据仓库根本概念12.2.3 数据仓库的数据是集成的 数据仓库的数据是从原有的分散的数据库数据中抽取来的。在表11-1中我们曾经看到,操作型数据与DSS分析型数据之间差别甚大。第一, 数据仓库的每一个主题所对应的源数据在原有的各分散数据库中有许多反复和不一致的地方,且来源于不同的联机系统的数据都和不同的运用逻辑捆绑在一同; 第二, 数据仓库中的综合数据不能从原有的数据库管理系统直接得到; 因此在数据进入数据仓库之前,必然要经过转换、一致与综合。.12.2 数据仓库根本概念12.2.4 数据仓库的数据是不可更新的 数据仓库的数据反映的是一段相当长时间内的历史数据,是不

10、同时点的数据库快照的集合, 以及基于这些快照进展统计、综合和重组的导出数据,而不是联机处置的数据。OLTP数据库中的数据经过抽取Extracting、清洗Cleaning、转换Transformation后装载Loading到数据仓库中, 一旦数据存放到数据仓库中,数据就不再更新了。.12.2 数据仓库根本概念12.2.5 数据仓库数据是随时间不断变化的 数据仓库的用户在进展分析处置时是不进展数据更新操作的。但并不是说, 从数据仓库数据整体来看就一成不变了。恰恰相反, 数据仓库是随时间不断变化的。.12.2 数据仓库根本概念 数据仓库的数据随时间不断变化是数据仓库数据的第四个特征。这一特征表如

11、今以下三方面: 第一, 数据仓库随时间变化将不断添加新的数据内容。 第二, 数据仓库随时间变化不断删去旧的数据内容。 第三, 数据仓库中包含有大量的综合数据, 这些综合数据中很多跟时间有关。.12.3 数据仓库中的数据组织 数据仓库的数据组织构造如图12.1所示。数据仓库中的数据分为多个级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过抽取、清洗、转换、后装载进数据仓库。首先进入当前细节级。根据详细分析需求进一步综合为轻度综合级乃至高度综合级。随着时间的推移早期的数据将转入早期细节级。.12.3 数据仓库中的数据组织 高度综合级 轻度综合级 当前细节级 早期细节级 元 数 据图1

12、2.1 数据仓库的数据组织构造.12.3 数据仓库中的数据组织 数据仓库中数据具有不同的综合级别,我们普通称之为“粒度。粒度是数据仓库数据组织的一个重要概念。粒度越大、表示细节程度越低、综合程度越高。 例如图12.2是利客隆连锁商店的数据仓库,存放了各个地域历年的各种商品销售明细数据。其中1990-1995年的销售明细数据曾经成为历史数据,对应早期细节级。当前细节级中存放1996-2000年的各地各种商品的销售明细表。轻度综合级是1996-2000年每月销售表。高度综合级是1996-2000年每年销售表。.12.3 数据仓库中的数据组织 1996-2000年 每年销售表1996-2000年每月

13、销售表 高度综合级 轻度综合级 当前细节级 早期细节级1996-2000年销售明细表1990-1995年销售明细表图12.2 利客隆连锁店数据仓库的数据组织 .12.3 数据仓库中的数据组织 数据仓库中另一类重要的数据就是元数据。所谓元数据Metadata是关于数据的数据,即是对数据的定义和描画。数据仓库的元数据包括与数据库的数据字典中的类似内容,括数据仓库的特有的关于数据的描画信息。 元数据的内容在数据仓库设计、开发、实施以及运用过程中不断完善,不仅为数据仓库的远行提供必要的信息、描画和定义,还为DSS分析人员访问数据仓库提供直接的或辅助的信息。.12.4 数据仓库系统的体系构造 数据仓库系

14、统总体上由以下几个部分组成:数据仓库的后台工具、数据仓库效力器、OLAP效力器和前台工具。 图12.3是一个典型的数据仓库系统的体系构造。.12.4 数据仓库系统的体系构造外部数据操作型数据库数据数据源抽取工具转换工具装载工具维护工具DW 与DW效力器数据集市元数据多维分析查询报表外部数据数据发掘外部数据前台工具元数据管理工具OLAP效力器图12.3 数据仓库体系构造.12.4 数据仓库系统的体系构造12.4.1 数据仓库的后台工具 数据仓库的后台工具,包括:数据抽取Extracting清洗Cleaning转换Transformation装载Load维护Maintain.12.4 数据仓库系统

15、的体系构造 由于数据仓库的数据来源于多种不同的数据源。它们能够是不同平台上异构数据库中的数据,也能够是外部独立的数据文件、Web页面、市场调查报告等等。 因此,这些数据经常是不一致的。例如:1同一字段在不同运用中具有不同数据类型;2同一字段在不同运用中具有不同的名字;3同名字段,不同含义。.12.4 数据仓库系统的体系构造 为了将这些不一致的分散的数据集成起来,必需对它们进展转换后才干供分析之用。数据抽取、清洗、转换工具就是用来完成这些任务。 数据抽取工具主要经过网关或规范接口把原来OLTP系统中的数据按照数据仓库的数据组织进展抽取。 数据清洗主要是对源数据之间的不一致性进展专门处置,并且要去

16、除与分析无关的数据或不利于分析处置的躁声数据。.12.4 数据仓库系统的体系构造 数据经过抽取、清洗和转换后,就可以装载到数据仓库中,这由数据仓库的装载工具来实现。 装载工具要处理的另一个问题是对大数据量的处置。数据仓库中的数据量比OLTP系统要大得多,进展装载需求很长的时间。目前通常的处理方式有两种:并行装载和增量装载。并行装载是把义务进展分解,充分利用CPU资源。增量装载就是只装载修正的元组以减少需求处置的数据量。.12.4 数据仓库系统的体系构造 数据仓库维护的主要内容是,周期性把操作型环境中的新数据定期参与pump数据仓库中、刷新数据仓库的当前细节数据、将过时的数据转化成历史数据,去除

17、不再运用的数据,调整粒度级别等。 .12.4 数据仓库系统的体系构造 元数据管理工具是数据仓库系统的一个重要组成部分。由于分析需求的多变性,导致数据仓库的元数据也会经常变化,对元数据的维护管理比传统数据库对数据字典的管理要复杂和频繁得多。因此,需求一个专门的工具软件来管理元数据。.12.4 数据仓库系统的体系构造12.4.2 数据仓库效力器和OLAP效力器 数据仓库效力器相当于数据库管理系统中的数据库管理系统,它担任管理数据仓库中数据的存储管理和数据存取,并给OLAP效力器和前端工具提供存取接口如SQL查询接口。 OLAP效力器透明地为前端工具和用户提供多维数据视图 。.12.4 数据仓库系统

18、的体系构造 数据仓库效力器和OLAP效力器之间的功能划分没有严厉的界限。其含义是: 从逻辑功能上可以划分为数据仓库效力器软件和OLAP效力器软件。 从物理实现上可以分别开发数据仓库效力器软件和OLAP效力器软件,也可以合二为一。.12.4 数据仓库系统的体系构造12.4.3 前台工具 查询报表工具、多维分析工具、数据发掘工具和分析结果可视化工具等结合在一同构成了数据仓库系统的前台工具层。 在实践任务中,查询工具、分析工具和发掘工具是相互补充的,只需很好结合起来运用,才干到达最好的效果。 .12.4 数据仓库系统的体系构造 总之,数据仓库系统是多种技术的综合体,它由数据仓库,数据仓库的后台工具、

19、数据仓库效力器、OLAP效力器和前台工具等多个部分组成。在整个系统中,数据仓库居于中心位置,是数据分析和发掘的根底; 数据仓库管理系统担任管理整个系统的运转,是整个系统的引擎; 而数据仓库工具那么是整个系统发扬作用的关键。.12.5 企业的体系化数据环境 体系化数据环境是在一个企业或组织内, 由面向运用的各个OLTP数据库、以及各级面向主题的数据仓库所组成的完好的数据环境;并在这个数据环境上建立一个企业或部门的从联机事务处置到企业管理和决策的一切运用。.12.5 企业的体系化数据环境12.5.1 数据环境的层次 个企业的数据环境普通分为四个层次:操作型环境、全局级数据仓库、部门级的部分仓库和个人级的数据仓库,如图12.4所示。 数据仓库部分仓库操作型环境全局级个人仓库部门级个人级联机事务处置全局运用和决策支持中层部门管理和决策个人级分析决策图12.4 企业的体系化数据环境.12.5 企业的体系化数据环境12.5.2 数据集市Data Mart) 人们采取“自底向上 的方法, 即先建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论