数据仓库课件_第1页
数据仓库课件_第2页
数据仓库课件_第3页
数据仓库课件_第4页
数据仓库课件_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

E-CMOERCEINSTXTUDE

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

第十章数据仓库

10.1数据仓库基本概念

10.2数据仓库的基本原理

10.3多维数据库与OLAP分析

10.4数据仓库模型设计’」

10.5数据仓库的应用

10。小结

0200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDE

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

10.1数据仓库基本概念

10.1.1数据仓库的产生

10.1.2数据仓库与数据库的区别

10.1.3数据仓库的定义

O200J东北射性大学电「向修学院AllRifhtfKeasrvetl

E-CMOERCEINSTXTUDE

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

10.1.1数据仓库的产生

•随着数据库技术的广泛应用,企业拥有了越来越

多的数据。

•传统的关系型数据库无法满足分析数据、支持决

策的需求。

•传统的关系数据库处理企业的日常事务,数据仓

库则用于分析数据中隐含的信息,以支持决策。

O200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDE[九**

:客户关案道理::CUSTOMERRELATIONSHIPMANAGEMENT

10」.2数据仓库与数据库的区别

•数据仓库和数据库的区别

特性数据库数据仓库

数据当前数据历史数据

面向业务操作数据分析

存取读写操作多为只读

使用频率同J较低

数据访问量少多

要求的响应时间较短可以很长

关注数据输入信息输出

表10-1数据仓库和数据库的区别

O200J东北射终大学电r向修学院AllXithuReserved

E-CMOERCEINSTXTUDEdll”九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

10.1.3数据仓库的定义

著名的数据仓库专家W.HJnmon的定义是:

数据仓库(DataWarehouse)是一个面向主题

的、集成的、非易失的、随时间变化的数据集合,

用于支持管理决策。该定义指出了数据仓库的四

个特性:

(1)面向主题的特性

(2)集成性

(3)非易失性

(4)时变性

0200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

10.2数据仓库的基本原理

1021数据仓库的体系结构

1022数据仓库的相关概念

1023数据集市(DataMart)

1024操作数据存储

0200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDE

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1021数据仓库的体系结构

•数据仓库的体系结构可以用图10」来表示

数据仓库存储

企业外部数据

数指清洗年市提取仓库

飒福黄国

业务操作型系统

图10-1数据仓库的体系结构

O200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**

V::容产关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1022数据仓库的相关概念

(1)数据抽取

数据提取是指从外部数据源中收集数据。

(2)数据清理

将提取出来的数据进行检测,并修正数据中的错误的过程称

为数据清理。

(3)数据转化

将不同格式的数据转换成相同格式过程称为数据转化。

(4)外部数据

外部数据是从系统外部获得的与分析主题相关的数据。

O200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdh”九**

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1022数据仓库的相关概念

(5)历史数据

历史数据是指组织在长期的信息处理过程中所积累

下来的数据。

(6)元数据

元数据是关于数据的数据。它是数据仓库中数据综

合的一种类型。

(7)数据粒度

数据粒度有两种形式。第一种形式的数据粒度是面

向OLAP,见表10-2o第二种形式的数据粒度

是面向数据挖掘的,它反映的是抽样率。

e200J东北射终大学电r向修学院AUXifhUServed

E-CMOERCEINSTXTUDE[九**

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1022数据仓库的相关概念

粒度级别综合程度数据量数据细节

(详细度:)

__i__.口

rm小低

低低大rnj

表10-2数据粒度的相关指标

O200J东北射终大学电r向修学院AllXithuReserved

E-CMOERCEINSTXTUDEdll”九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1023数据集市(DataMart)

•数据集市也叫数据市场,是企业级数据仓库中针

对某一主题的数据库,它是企业数据库的一个子

集。

(1)独立的数据集市的数据直接来源于各信息系

统。

(2)依赖的数据集市的数据直接来源于中央数据

仓库,也就是说它是在数据仓库的基础上建立起

来的。

0200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDE

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1024操作数据存储(Operational

DataStoreQDS)

•ODS是用于支持企业日常的全局应用的数据集合。

•ODS中的数据按照主题来组织,ODS只存放当

前和近期数据。

•ODS的应用一般体现在两个方面:

(1)企业级的联机事务处理(OLTP)应用。

(2)近期的联机分析处理(OLAP)o

0200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

10.3多维数据库与OLAP分析

10.3.1多维数据库的基本概念

10.3.2多维数据模型上的OLAP操作

10.3.3多维数据库模式

10.3.4多维数据的数据存储与可视化

1035多维数据库与数据仓库

O200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1031多维数据库的基本概念

(1)变量

变量是分析数据时要考察的属性。

(2)维

用户分析问题的角度或决策分析的出发点构成了

数据仓库布的维。

(3)维的层次性,

数据仓库中的维是具有层次性的。用地理维度来

解释维的层次性是最容易理解的。如图10・2所

0200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDE[九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

10.3.1多维数据库的基本概念

图10-2地理维的层次性

O200J东北射终大学电r向修学院AllXithuReserved

E-CMOERCEINSTXTUDEdh”九**

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

10.3.1多维数据库的基本概念

(4)维成员

维成员是维的一个取值,如果维分成了几个层次,

那么维成员就是不同维层次取值的组合

(5)事实

每一个维都取一个维成员,则可得到唯一确定的

一个变量值。一

(6)多维数据立方体.

多维数据立方体对应的是一个多维数组,。

e200J东北射终大学电r向修学院AUXifhUServed

E-CMOERCEINSTXTUDE[九**

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

10.3.1多维数据库的基本概念

图10-3三维数据立方体

O200J东北射终大学电r向修学院AllXithuReserved

E-CMOERCEINSTXTUDEdll”九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1032多维数据模型上的OLAP操作

OLAP技术的核心是多维分析。下面我们具

体介绍OLAP的分析动作。

(1)切片

•对多维数据集(维1、维2……维i……维n、

变量)在维度i上选定一个维成员,得到一个n・

1维多维数据集,称得到的这个n・1维多维数据

集为原数据集在第i维上的数据切片。图10・4表

示了一个数据切片动作。

0200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1032多维数据模型上的0LAP操作

•时

图10-4数据切片

0200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**FWH9R

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1032多维数据模型上的OLAP操作

(2)数据切块

在多维数据立方体中,确定某些维度的取值范围,得到

一个原立方体的子立方体的过程称为数据切块。

(3)数据钻取

数据钻取也叫数据下钻,是由概括的数据到详细的数据

的过程。数据钻取的具体操作参见图10・3中的数据钻取

部分。

(4)数据聚集

数据聚集又叫数据上卷,它是数据钻取的逆过程。

图10-5显示了一个数据立方体的钻取和聚集的过程。

e200J东北射终大学电r向修学院AUXifhUServed

E-CMOERCEINSTXTUDEdll”九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1032多维数据模型上的OLAP操作

L

98,

□匚

99・

□□c

图10・5数据钻取和聚集

0200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDE

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1032多维数据模型上的OLAP操作

(5)数据旋转

数据旋转即变换维度的位置,也就是转动数据的

视角,给用户提供一个从不同的角度观察数据的

方法。具体方法如下图所示。

0200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**FWH9R

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1032多维数据模型上的OLAP操作

*1998*1999

*Al*200*230

*A2*456*478

*A3*100*120

*Al*A2•A3

*1998*200*456*100

*1999*230*478*120

图10-6数据旋转

0200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDE

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1033多维数据库模式

(1)星型模式

要了解星型模式首先要了解维表和事实表的概

念。将维度抽取出来定义主键,由维的主键和

维的取值构成的表是维表。图10-7是一个星型

模式的示例。

0200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDE

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1033多维数据库模式

图10-7星型模式

0200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1033多维数据库模式

(2)雪花模式

雪花模式是星型模式的一种衍生。

图10-8雪花模式

0200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1033多维数据库模式

(3)星座模式

有时,在复杂的数据应用时,多个事实表需要共

享维表。这种模式可以看成是星型模式的集合,

因此又叫星系模式。

•三种多维数据模式中,星型模式和雪花模式比较

适合对单个主题建模,而其中星型模式又更为流

行。在具体应用时,要根据维表的复杂程度选择

合适的模式。

e200J东北射终大学电r向修学院AUXifhUServed

E-CMOERCEINSTXTUDEdll”九**FWH9R

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1034多维数据的数据存储与可视化

•多维数据库中的变量值的数量为每个维度维成员

个数的乘积。多维数据库常采用数据压缩技术来

解决存储空间的浪费这个问题。

•对于三维或三维以上的多维数据,由于无法在平

面上直接体现,只有将数据进行切片转化为一维

或二维数据,然后用相应的平面图或立体图来表

示。对于维度很高的多维数据库,要进行多次数

据切片操作才能将维度降到可视化的程度。

O200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**FWH9R

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1035多维数据库与数据仓库

•多维数据库与数据仓库是有区别的。数据仓库中

的细节数据为多维数据库提供数据源。

•多维数据库中的数据是从数据仓库中导入的,因

此从存储数据的数量上看,数据仓库存储的数据

量比多维数据库中的数据量要大。多维数据库实

际上是与OLAP的应用共存的。由多维数据库和

OLAP共同构成了多维联机分析处理MOLAPo

e200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

10.4数据仓库模型设计

1041企业模型设计

1042概念模型设计

10.4.3逻辑模型设计

10.4.4物理模型设计

0200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**FWH9R

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1041企业模型设计

(1)ER模型

­ER图是由实体和实体间关系构成的。实体间的

关系分为一对一的关系、一对多的关系和多对多

的关系。图10・9是一个ER图示例。

图10-9ER图示例

0200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDE

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1041企业模型设计

(2)对象模型

•对象模型采用的是面向对象的方法。面向对象的

方法首先要确定模型中需要的类。

•企业模型的设计是数据仓库模型设计的第一步。

它为数据仓库的设计的提供一个全面、整体的认

识。数据仓库的设计是分阶段逐步进行的。

0200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1042概念模型设计

•概念模型设计包括了两个方面,一是确定主题及

主题所涉及的对象;二是进行技术准备工作。

•主题的选择是由数据仓库开发人员利企业用户共

同完成的。

•技术准备工作则是指估计数据仓库中的数据量、

根据结果选择适合的软件和硬件等基础的准备工

作。

•在概念模型设计完成后,还要对模型进行评审。

e200J东北射终大学电r向修学院AUXifhUServed

E-CMOERCEINSTXTUDEdll”九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1043逻辑模型设计

•数据仓库的逻辑模型设计包括分析主题域、确定

粒度划分层次、确定数据分割策略、定义关系模

式、定义数据抽取模型等过程。

(1)分析主题域

(2)划分粒度层次

(3)确定数据分割策略

(4)定义关系模式

(5)定义数据抽取模型

O200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1044物理模型设计

(1)确定数据结构的类型

(2)确定索引策略

(3)确定数据存放位置

(4)优化存储分配

•最后一个过程是数据装载接口设计。对于一个数

据仓库,企业模型和概念模型设计只需要进行一

次,而逻辑模型、物理模型和数据装载接口设计

则是针对每一个主题都要进行设计的重复循环过

程。

0200J东北射终大学电r向修学院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

::客户关票管理::CUSTOMERRELATIONSHIPMANAGEMENT

10.5数据仓库的应用

1051数据仓库的分类

1052数据仓库的用户

1053数据仓库的应用

10.5.4客户关系管理中的数据仓库

1055数据仓库应用的效益分析

0200J东北射终大学电r向修学院AllXifhUServed

E-CMOERCEINSTXTUDE

V::喜尸关奈管理::

CUSTOMERRELATIONSHIPMANAGEMEN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论