第2章数据仓库的数据存储及处理_第1页
第2章数据仓库的数据存储及处理_第2页
第2章数据仓库的数据存储及处理_第3页
第2章数据仓库的数据存储及处理_第4页
第2章数据仓库的数据存储及处理_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2/3/2023数据仓库与数据挖掘1第2章数据仓库的数据存储与处理2/3/2023数据仓库与数据挖掘2数据存储与数据处理是数据仓库系统实施的三个关键环节中的中心环节。数据存储结构设计和数据处理技术的研究在数据仓库理论中占有重要地位。第2章数据仓库的数据存储

与处理

2/3/2023数据仓库与数据挖掘32.1数据仓库的数据结构三层数据结构2/3/2023数据仓库与数据挖掘42.1数据仓库的数据结构各个组成部分的含义:操作性数据:来源于业务系统中的数据。调和数据:存储在企业级数据仓库中的数据。导出数据:从数据仓库中导出并存储在各个数据集市中的数据。企业数据模型:企业组织所需数据的整体轮廓。元数据:有关数据的说明。2/3/2023数据仓库与数据挖掘52.2数据仓库的数据特征状态数据与事件数据当前数据与周期数据数据仓库中的元数据2/3/2023数据仓库与数据挖掘6状态数据与事件数据:状态数据:描述对象状态的数据。事件数据:描述对象发生的事件的数据。数据库和数据仓库中存储的基本数据类型是状态数据。但是数据仓库中往往还存储事务或事件数据的汇总。

2/3/2023数据仓库与数据挖掘7当前数据与周期数据:当前数据(业务系统):保留的最新数据。周期数据(数据仓库):保留的历史数据。2/3/2023数据仓库与数据挖掘8数据仓库中的元数据:数据仓库中的另一特征。2/3/2023数据仓库与数据挖掘92.3数据仓库的数据ETL过程ETL概念ETL过程前后数据的特征数据的ETL过程描述抽取(Capture/Extract)清洗(Scrub/Cleanse)转换(Transform)加载和索引(Load/Index)2/3/2023数据仓库与数据挖掘10ETL的概念:数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrubordatacleansing)、转换(Transform)、装载与索引(LoadandIndex)等数据调和工作。

2/3/2023数据仓库与数据挖掘11数据的ETL过程描述:2/3/2023数据仓库与数据挖掘12数据抽取:几点要求:数据源命名的透明度。源系统实施的业务规则的完整性和准确性。数据格式的一致性。SELECT……INTO、存储过程等方法。2/3/2023数据仓库与数据挖掘13数据清洗:原因:操作型业务系统中的数据质量很差。错误拼写的名字和地址。不可能的或错误的出生日期。不匹配的地址和电话区号。缺失的数据。重复的数据。……2/3/2023数据仓库与数据挖掘14数据转换:在ETL过程中处于中心位置,又很麻烦。

将经过清洗后的数据(源系统)转换成装载对象(目标系统)的格式。2/3/2023数据仓库与数据挖掘15数据加载和索引:将整理好的数据添加到数据仓库中。建立索引。2/3/2023数据仓库与数据挖掘16数据ETL过程的实施要点:ETL过程是一个数据流动的过程,中间的“T”(转换)是关键;ETL工具的选择非常重要,运用合适的工具会事半功倍;如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值。2/3/2023数据仓库与数据挖掘172.4多维数据模型和星模式多维数据模型及其相关概念多维数据模型的物理实现多维建模技术简介一个星模式的例子

2/3/2023数据仓库与数据挖掘18多维数据模型及其相关概念有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级2/3/2023数据仓库与数据挖掘19有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等2/3/2023数据仓库与数据挖掘20维的类别即维的分层。可分为:简单层次复杂层次全国江苏北京上海维类别2/3/2023数据仓库与数据挖掘21全国江苏北京上海苏州市扬州市宝应县复杂层次2/3/2023数据仓库与数据挖掘22维属性维的一个取值。2/3/2023数据仓库与数据挖掘23度量即度量值,是多维数据空间中的单元格,用以存放数据,也叫事实。度量2/3/2023数据仓库与数据挖掘24粒度与分割

数据粒度:是对数据仓库中的数据的综合程度高低的度量。(一般分为四个级别:高度综合级、轻度综合级、当前细节级、早期细节级)分割:将数据分散到各自的物理单元中去以便能分别处理,提高数据处理效率,数据分割后的数据单元称为分片。数据分割的标准:可按日期、地域、业务领域或按多个分割标准的组合。数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、扫描。2/3/2023数据仓库与数据挖掘25关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级2/3/2023数据仓库与数据挖掘26一个典型的数据仓库的数据组织结构图:

数据仓库层后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级每“月”电话呼叫情况信息每“天”电话呼叫情况信息电话呼叫情况信息电话呼叫明细情况信息2/3/2023数据仓库与数据挖掘27多维数据模型的物理实现多维数据库(MDDB),其数据是存储在大量的多维数组中,而不是关系表中,与之相对应的是多维联机分析处理(MOLAP)关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP)2/3/2023数据仓库与数据挖掘28多维数据库(MDDB)产品名称销售地区销售数量电器电器电器服装服装服装江苏上海北京江苏上海北京940450340830350270江苏上海北京电器服装940830450350340270关系数据库存储方式多维数据库存储方式2/3/2023数据仓库与数据挖掘29产品名称销售地区销售数量电器电器电器电器服装服装服装服装汇总汇总汇总汇总江苏上海北京汇总江苏上海北京汇总江苏上海北京汇总9404503401730830350270145017708006103180江苏上海北京汇总电器服装汇总9408301770450350800340270610173014503180具有汇总数据项的关系数据库具有汇总值的多维数据库关系数据库中,将“多对多”的关系转化为多个“一对多”的关系不直观直观2/3/2023数据仓库与数据挖掘30二维数据容易理解,但维数扩展到三维或更高的维度时,多维数据库MDDB就成了一种“超立方”体的结构,理解就困难多了。在MDDB中,其数据的存储是由许多类似于数组的对象来完成,对象中包含了经过高度压缩的索引和指针,利用这些索引和指针将许多存储数据的单元块联结在一起。实际组合中往往由于各种原因会导致某些组合没有具体的值,或值是空的或者为零。产生了多维数据库的稀疏矩阵问题。稀疏矩阵将导致存储空间的浪费,所以需要采用压缩技术。2/3/2023数据仓库与数据挖掘31将数据的多维结构划分为两类表:事实表维度表按照两种结构设计:星型模型雪花模型关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP)2/3/2023数据仓库与数据挖掘32

产品ID

时间ID销售商ID

地址ID产品ID销售商ID地址ID时间ID销售数量销售成本总收入销售商维度表地理位置维表时间维表产品维表1.星型模式在关系数据库中的表示

2/3/2023数据仓库与数据挖掘332.雪花模式在关系数据库中的表示

产品维表

产品ID

时间ID 销售商ID

地址ID图5.9 雪花模式的关系数据库表示地理位置维表时间维表产品ID产品名称公司ID公司名称产品颜色ID产品颜色产品商标ID商标名称产品类型ID产品类型名销售商维度表产品ID销售商ID地址ID时间ID销售数量销售成本总收入产品ID公司ID产品颜色ID产品商标ID产品类型ID2/3/2023数据仓库与数据挖掘34多维建模技术简介两种主流建模技术:由Inmon提出的企业级数据仓库模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论