第2章 数据仓库的数据存储与处理_第1页
第2章 数据仓库的数据存储与处理_第2页
第2章 数据仓库的数据存储与处理_第3页
第2章 数据仓库的数据存储与处理_第4页
第2章 数据仓库的数据存储与处理_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第2 2章章 数据仓库的数据存储与处理数据仓库的数据存储与处理教师:郭荣熙教师:郭荣熙数据仓库与数据挖掘数据仓库与数据挖掘第2章 目 录数据仓库的数据结构数据仓库的数据结构12数据仓库的数据特征数据仓库的数据特征数据仓库的数据数据仓库的数据ETLETL过程过程3多维数据模型多维数据模型4小结小结52.1、数据仓库的数据结构三层数据结构2.1、数据仓库的数据结构各个组成部分的含义 操作性数据 :来源于业务系统中的数据。 调和数据:存储在企业级数据仓库中的数据。 导出数据:从数据仓库中导出并存储在各个数据集市中的数据。 企业数据模型:企业组织所需数据的整体轮廓。 元数据 :有关数据的说明。第2章

2、 目 录数据仓库的数据结构数据仓库的数据结构12数据仓库的数据特征数据仓库的数据特征数据仓库的数据数据仓库的数据ETLETL过程过程3多维数据模型多维数据模型4小结小结52.2、数据仓库的数据特征 状态数据与事件数据 当前数据与周期数据 数据仓库中的元数据2.2、数据仓库的数据特征状态数据与事件数据 状态数据:描述对象状态的数据。 事件数据:描述对象发生的事件的数据。 数据库和数据仓库中存储的基本数据类型是状态数据。 但是数据仓库中往往还存储事务或事件数据的汇总。当前数据与周期数据 当前数据(业务系统):保留的最新数据。 周期数据(数据仓库):保留的历史数据。 数据仓库中的元数据 数据仓库中的

3、另一特征。第2章 目 录数据仓库的数据结构数据仓库的数据结构12数据仓库的数据特征数据仓库的数据特征数据仓库的数据数据仓库的数据ETLETL过程过程3多维数据模型多维数据模型4小结小结52.3、数据仓库的数据ETL过程 ETL概念 ETL过程前后数据的特征 数据的ETL过程描述 抽取(Capture/Extract) 清洗(Scrub/Cleanse) 转换(Transform) 加载和索引(Load/Index)2.3、数据仓库的数据ETL过程 数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrub or data cleansi

4、ng)、转换(Transform)、装载与索引(Load and Index)等数据调和工作。 ETL概念2.3、数据仓库的数据ETL过程数据的ETL过程描述2.3、数据仓库的数据ETL过程数据抽取的几点要求 数据源命名的透明度。 源系统实施的业务规则的完整性和准确性。 数据格式的一致性。SELECTINTO、存储过程等方法。2.3、数据仓库的数据ETL过程数据清洗原因:操作型业务系统中的数据质量很差。 错误拼写的名字和地址。 不可能的或错误的出生日期。 不匹配的地址和电话区号。 缺失的数据。 重复的数据。 2.3、数据仓库的数据ETL过程数据转换 在ETL过程中处于中心位置,又很麻烦。 将经

5、过清洗后的数据(源系统)转换成装载对象(目标系统)的格式。数据加载和索引 将整理好的数据添加到数据仓库中。 建立索引。2.3、数据仓库的数据ETL过程数据ETL过程的实施要点 ETL过程是一个数据流动的过程,中间的“T”(转换)是关键 ; ETL工具的选择非常重要,运用合适的工具会事半功倍 ; 如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值 。第2章 目 录数据仓库的数据结构数据仓库的数据结构12数据仓库的数据特征数据仓库的数据特征数据仓库的数据数据仓库的数据ETLETL过程过程3多维数据模型多维数据模型4小结小结52.4.1多维数据模型 多维数据模型及其相关概念 多维数据模型的物

6、理实现 多维建模技术简介 一个星模式的例子2.4.1多维数据模型 有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等 关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级多维数据模型及其相关概念 维、维类别、维属性、度量、粒度及分割等有关多维数据模型的几个概念2.4.1多维数据模型维的类别即维的分层。可分为: 简单层次 复杂层次维类别 西南西南云南云南贵州贵州四川四川西南西南贵州贵州四川四川云南云南贵阳市贵阳市安顺市安顺市平坝县平坝县复杂层次复杂层次2.4.1多维数据模型2.4.1多维数据模型 维的一个取值。维属性 度量即度量值,

7、是多维数据空间中的单元格,用以存放数据,也叫事实。度量2.4.1多维数据模型 数据粒度:是对数据仓库中的数据的综合程度高低的度量。(一般分为四个级别:高度综合级、轻度综合级、当前细节级、早期细节级) 分割:将数据分散到各自的物理单元中去以便能分别处理,提高数据处理效率,数据分割后的数据单元称为分片。 数据分割的标准:可按日期、地域、业务领域或按多个分割标准的组合。 数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、扫描。粒度与分割2.4.1多维数据模型 一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级 关于数据综合级别与粒度的确定:2.4.1多维数据模型一个典型

8、的数据仓库的数据组织结构图数数据据仓仓库库层层后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级每“月”电话呼叫情况信息每“天”电话呼叫情况信息电话呼叫情况信息电话呼叫明细情况信息2.4.2多维数据模型的物理实现 多维数据库(MDDB),其数据是存储在大量的多维数组中,而不是关系表中 ,与之相对应的是多维联机分析处理(MOLAP) 关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP)2.4.2多维数据模型的物理实现多维数据库(MDDB)产品名称产品名称销售地区销售地区销售数量销售数量电器电器电器电器电器电器服装服装服装服装服装服装江苏江苏上海上

9、海北京北京江苏江苏上海上海北京北京940450340830350270江苏江苏上海上海北京北京电器电器服装服装940830450350340270关系数据库存储方式关系数据库存储方式多维数据库存储方式多维数据库存储方式2.4.2多维数据模型的物理实现产品名产品名称称销售地销售地区区销售数销售数量量电器电器电器电器电器电器电器电器服装服装服装服装服装服装服装服装汇总汇总汇总汇总汇总汇总汇总汇总江苏江苏上海上海北京北京汇总汇总江苏江苏上海上海北京北京汇总汇总江苏江苏上海上海北京北京汇总汇总9404503401730830350270145017708006103180江苏江苏上海上海北京北京汇总汇

10、总电器电器服装服装汇总汇总9408301770450350800340270610173014503180具有汇总数据项的关系数据库具有汇总数据项的关系数据库具有汇总值的多维数据库具有汇总值的多维数据库2.4.2多维数据模型的物理实现 二维数据容易理解,但维数扩展到三维或更高的维度时,多维数据库MDDB就成了一种“超立方”体的结构 ,理解就困难多了。 在MDDB中,其数据的存储是由许多类似于数组的对象来完成,对象中包含了经过高度压缩的索引和指针,利用这些索引和指针将许多存储数据的单元块联结在一起 。 实际组合中往往由于各种原因会导致某些组合没有具体的值,或值是空的或者为零。 产生了多维数据库的

11、稀疏矩阵问题。 稀疏矩阵将导致存储空间的浪费,所以需要采用压缩技术。2.4.2多维数据模型的物理实现 事实表 维度表关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP)将数据的多维结构划分为两类表: 星型模型 雪花模型按照两种结构设计:2.4.2多维数据模型的物理实现星型模式在关系数据库中的表示星型模式在关系数据库中的表示 产品ID 时间ID 销售商ID 地址ID产品ID销售商ID地址ID时间ID销售数量销售成本总收入销售商维度表地理位置维表时 间维表产品维表2.4.2多维数据模型的物理实现雪花模式在关系数据库中的表示雪花模式在关系数据库中的表示 产品维表

12、产品ID 时间ID 销售商ID 地址ID图5.9雪花模式的关系数据库表示地理位置维表时间维表产品ID产品名称公司ID公司名称产品颜色ID产品颜色产品商标ID商标名称产品类型ID产品类型名销售商维度表产品ID销售商ID地址ID时间ID销售数量销售成本总收入产品ID公司ID产品颜色ID产品商标ID产品类型ID2.4.3多维建模技术 两种主流建模技术 :由Inmon提出的企业级数据仓库模型和由Kimball提出的多维模型 ; 基于关系数据库的多维数据建模,如星型,雪花和事实星座模式; 关于事实表、维表及键的设计 。2.4.3多维建模技术星型模型星型模型 事实表维度表维度表维度表维度表维度表2.4.3多维建模技术雪花模型雪花模型 事实表维度表维度表维度表维度表维度表详细类别表详细类别表2.4.3多维建模技术一个星型模式的例子一个星型模式的例子第2章 目 录数据仓库的数据结构数据仓库的数据结构12数据仓库的数据特征数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论