第4章数据仓库基本原理_第1页
第4章数据仓库基本原理_第2页
第4章数据仓库基本原理_第3页
第4章数据仓库基本原理_第4页
第4章数据仓库基本原理_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主讲:鲁明羽主讲:鲁明羽大连海事大学计算机科学与技术学院大连海事大学计算机科学与技术学院研究方向:智能数据分析与数据挖掘研究方向:智能数据分析与数据挖掘电电 话:话mail:第第4 4章章 数据仓库的基本原理数据仓库的基本原理本章目标本章目标 随着信息技术的不断推广和应用,许多企业都已在使用MIS系统处理管理事务和日常业务,积累了大量信息 企业管理者开始考虑如何利用这些海量信息为企业管理提供决策支持。因此,产生了与传统数据库有很大差异的数据环境要求和从这些海量数据中获取特殊知识的深层需求。 这种需求加上计算机软硬件能力的飞速发展,导致了数据仓库和数据挖掘技术的出现。本

2、章目标本章目标 本章目标是:1) 了解数据仓库的定义和特点了解数据仓库的定义和特点2) 了解了解数据仓库的数据组织方式数据仓库的数据组织方式3)3)理解数据仓库的体系结构和参照结构理解数据仓库的体系结构和参照结构4)4)了解数据仓库管理员的作用和常用工具集了解数据仓库管理员的作用和常用工具集目目 录录1 1 数据仓库的起源数据仓库的起源2 2 数据仓库的定义和特点数据仓库的定义和特点3 3 与数据仓库相关的几个概念与数据仓库相关的几个概念4 4 数据仓库的数据组织数据仓库的数据组织5 5 数据仓库的体系结构数据仓库的体系结构数据仓库的层次结构数据仓库的层次结构数据仓库管理员数据仓库管理员数据仓

3、库常用工具集数据仓库常用工具集 练练 习习1. 1. 数据仓库的起源数据仓库的起源1.1 1.1 数据库技术的发展数据库技术的发展 6060年代早期:利用文件系统,生成各种报告年代早期:利用文件系统,生成各种报告 6060年代中期:大量的文件使得维护和开发的复年代中期:大量的文件使得维护和开发的复杂性提高,数据的同步亦成问题杂性提高,数据的同步亦成问题 7070年代早期:年代早期:E. F. CoddE. F. Codd提出关系数据模型和提出关系数据模型和E-RE-R数据建模方法,数据库技术日趋成熟数据建模方法,数据库技术日趋成熟 7070年代中期:高性能的年代中期:高性能的OLTPOLTP应

4、用越来越广泛应用越来越广泛1. 1. 数据仓库的起源数据仓库的起源1.1 1.1 数据库技术的发展数据库技术的发展 8080年代早期:年代早期:OLTPOLTP,MIS/DSSMIS/DSS,以,以IBMIBM的的“Information Warehouse”Information Warehouse”为代表,提出了为代表,提出了数据仓库的思想数据仓库的思想 8080年代中期:由于技术和实现费用的原因,数年代中期:由于技术和实现费用的原因,数据仓库思想没有引起太多注意据仓库思想没有引起太多注意 9090年代:以年代:以W.H.InmonW.H.Inmon为代表,数据仓库为代表,数据仓库(Dat

5、a (Data Warehouse)Warehouse)迅速兴起迅速兴起 = OLAP= OLAP,DMDM,OLAMOLAM1. 1. 数据仓库的起源数据仓库的起源1.2 1.2 从传统数据库到数据仓库从传统数据库到数据仓库 随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机处理每天所发生的事务数据,而是需要利用信息辅助管理决策过程。这就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术,而传统的数据库系统无法承担这一责任,主要表现在决策处理中的系统响应问题、决策数据需系统响应问题、决策数据需求问题求问题和和决策数据操作问题决策数据操作问题,等等。 对比内容数

6、据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序,重复处理面向主题域、管理决策分析应用数据特性动态变化,按字段更新静态,不能直接修改、只定时添加数据结构高度结构化,复杂,适合操作计算简单,适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位数据仓库与传统数据库的对比数据仓库与传统数据库的对比Prism SolutionsPrism Solutions公司创始人之一的公司创始人之一的W.H.InmonW.H.Inmon在在Building the Data Warehou

7、seBuilding the Data Warehouse一书中对一书中对“数据仓库数据仓库(DW)”(DW)”定义如下:定义如下:数据仓库是一个面向主题的、集成的、数据仓库是一个面向主题的、集成的、随时间变化的、非易失性的数据集合,用随时间变化的、非易失性的数据集合,用于支持管理决策过程。于支持管理决策过程。2. 2. 数据仓库的定义和特点数据仓库的定义和特点这个定义本身就说明了数据仓库中数据的组这个定义本身就说明了数据仓库中数据的组织方式以及建立数据仓库的目的是什么。织方式以及建立数据仓库的目的是什么。数据仓库特点:数据仓库特点: 面向主题性 数据集成性 数据的时变性 数据的非易失性 数据

8、的集合性 支持决策作用2. 2. 数据仓库的定义和特点数据仓库的定义和特点其中前4项是其主要特点。数据仓库中的数据是面向主题的数据仓库中的数据是面向主题的. . 主题是数据归类的标准,每个主题是数据归类的标准,每个主题主题对应对应一个客一个客观分析观分析领域领域,如客户和商店等,因此,数据仓库中,如客户和商店等,因此,数据仓库中的数据是按主题要求而组织的。的数据是按主题要求而组织的。 业务应用业务应用 主题领域主题领域2. 2. 数据仓库的定义和特点数据仓库的定义和特点例如,对一个保险公司来说,它的业务应用例如,对一个保险公司来说,它的业务应用系统可能有汽车保险、人寿保险、健康医疗保险系统可能

9、有汽车保险、人寿保险、健康医疗保险及家庭财产保险等,而保险公司的主题领域可以及家庭财产保险等,而保险公司的主题领域可以是客户、保单、保费及索赔等。是客户、保单、保费及索赔等。一个数据仓库可以包含若干个主题,而每个一个数据仓库可以包含若干个主题,而每个主题可以分解为若干个子主题,每个子主题又可主题可以分解为若干个子主题,每个子主题又可进一步分解为更细的子主题,形成逐层分解的主进一步分解为更细的子主题,形成逐层分解的主题层次结构。题层次结构。2. 2. 数据仓库的定义和特点数据仓库的定义和特点2. 2. 数据仓库的定义和特点数据仓库的定义和特点数据仓库中的数据是集成的数据仓库中的数据是集成的. .

10、 为了实现辅助决策的目标和要求,数据仓库需要集成为了实现辅助决策的目标和要求,数据仓库需要集成多个部门、不同系统的大量数据。需要集成的数据源既多个部门、不同系统的大量数据。需要集成的数据源既有关系数据库,也有文本数据库、面向对象数据库以及有关系数据库,也有文本数据库、面向对象数据库以及文件系统等,而且同一种数据模型集合体中又有不同的文件系统等,而且同一种数据模型集合体中又有不同的DBMSDBMS。因此,数据集成是一个复杂问题。因此,数据集成是一个复杂问题。 不同数据源中的数据并不是全部转移到数据仓库中,不同数据源中的数据并不是全部转移到数据仓库中,而是运用多种转换规则,通过选择、合并、变换等方

11、法而是运用多种转换规则,通过选择、合并、变换等方法转换为数据仓库中的集成数据转换为数据仓库中的集成数据 -需要需要ETLETL模块模块支持。支持。 此外,数据源中可能存在数据重复、不一致和各种此外,数据源中可能存在数据重复、不一致和各种错误,因此,需要进行错误,因此,需要进行数据清洗数据清洗。2. 2. 数据仓库的定义和特点数据仓库的定义和特点数据仓库中的数据是集成的数据仓库中的数据是集成的. . 不同的应用在编码、命名、属性的度量等方面都有不同的应用在编码、命名、属性的度量等方面都有很大的差别,数据集成就是要解决这些问题。很大的差别,数据集成就是要解决这些问题。举例举例1 1:编码编码APP

12、 AAPP A:M M,F FM M,F FAPP BAPP B:1 1,0 0APP CAPP C:X X,Y YAPP DAPP D:MALEMALE,FEMALEFEMALE2. 2. 数据仓库的定义和特点数据仓库的定义和特点举例举例2 2:命名命名APP AAPP A:IDIDUser_IDUser_IDAPP BAPP B:IdentityIdentityAPP CAPP C:User_IDUser_IDAPP DAPP D:Custom_IDCustom_ID 举例举例3 3:属性属性度量度量APP AAPP A:CMCMCMCMAPP BAPP B:INCHESINCHESAPP

13、 CAPP C:M MAPP DAPP D:DMDM2. 2. 数据仓库的定义和特点数据仓库的定义和特点举例举例4 4:关键字冲突关键字冲突APP AAPP AKEY CHARKEY CHAR(1010)APP BAPP BKEY DEC FIXEDKEY DEC FIXED(9 9,2 2)APP CAPP CKEY PIC 999999KEY PIC 999999APP DAPP DKEY CHARKEY CHAR(1212) KEY CHARKEY CHAR(1212)举例举例5 5:多源多源APP AAPP A:DESCRIPTION1DESCRIPTION1APP BAPP B:DE

14、SCRIPTION2DESCRIPTION2? DESCRIPTIONDESCRIPTIONAPP CAPP C:DESCRIPTION3 DESCRIPTION3 2. 2. 数据仓库的定义和特点数据仓库的定义和特点数据仓库中的数据是稳定的数据仓库中的数据是稳定的. . 数据仓库包含大量的历史数据,经集成进入数据仓库包含大量的历史数据,经集成进入数据仓库后主要用于决策分析(查询类操作),数据仓库后主要用于决策分析(查询类操作),而极少更新。可以将其理解为只读的而极少更新。可以将其理解为只读的。 业务应用业务应用 数据仓库数据仓库插入插入更新更新删除删除插入插入访问访问查询查询加载加载 以记录

15、为单位的数据操作以记录为单位的数据操作大量的数据加载和数据访问大量的数据加载和数据访问2. 2. 数据仓库的定义和特点数据仓库的定义和特点数据仓库中的数据是随时间变化的数据仓库中的数据是随时间变化的. . 主要体现在主要体现在数据的时限、数据的内容、数据数据的时限、数据的内容、数据的码健的码健。 业务应用业务应用 数据仓库数据仓库数据时限:数据时限:1 1个月至个月至1 1年年 数据时限:数据时限:5 5到到1010年年数据内容:记录更新数据内容:记录更新 数据内容:复杂的数据快照数据内容:复杂的数据快照关键字结构:可能包含时间元素关键字结构:可能包含时间元素 关键字结构:包含时间标记关键字结

16、构:包含时间标记2. 2. 数据仓库的定义和特点数据仓库的定义和特点数据仓库是为管理决策提供服务的数据仓库是为管理决策提供服务的. . 数据仓库主要应用在两个方面:数据仓库主要应用在两个方面:使用浏览分析工具在数据仓库中寻找有用的信息;使用浏览分析工具在数据仓库中寻找有用的信息;基于数据仓库,在基于数据仓库,在数据仓库系统数据仓库系统上建立应用,形成上建立应用,形成决策支持系统决策支持系统。 事务处理事务处理 分析处理分析处理从数据从数据数据数据从数据从数据 信息(知识)信息(知识) OLTPOLTP OLAP OLAP(DMDM、OLAMOLAM)DBDBDWDW3. 3. 与数据仓库相关的

17、几个概念与数据仓库相关的几个概念 OLTPOLTP:联机事务处理,完成对数据的增、:联机事务处理,完成对数据的增、删、改等操作删、改等操作 OLAPOLAP:联机分析处理,完成对数据的向上:联机分析处理,完成对数据的向上综合、向下细化、旋转、切片和分割(又综合、向下细化、旋转、切片和分割(又称局部分析)等操作。称局部分析)等操作。OLAPOLAP以多维分析为以多维分析为基础,刻画了管理和决策过程中对数据进基础,刻画了管理和决策过程中对数据进行多层面、多角度的分析处理。又分为行多层面、多角度的分析处理。又分为MOLAPMOLAP、ROLAPROLAP3. 3. 与数据仓库相关的几个概念与数据仓库

18、相关的几个概念 DMDM:数据挖掘,从大量数据中发现数据模式:数据挖掘,从大量数据中发现数据模式, , 预测趋势和行为,致力于知识的自动发现预测趋势和行为,致力于知识的自动发现 OLAMOLAM:联机分析挖掘,将:联机分析挖掘,将OLAPOLAP与与DMDM技术结合起技术结合起来的一种技术来的一种技术 DSSDSS:决策支持系统,利用:决策支持系统,利用OLAPOLAP、DMDM、OLAMOLAM等等技术为企业或政府的管理决策提供服务的系统技术为企业或政府的管理决策提供服务的系统4. 4. 数据仓库的数据组织数据仓库的数据组织 数据仓库中的数据依据下面数据仓库中的数据依据下面4 4个原则进行组

19、织:个原则进行组织:1)1) 面向主题面向主题2)2) 采用关系表结构形式的数据模式采用关系表结构形式的数据模式3)3) 在数据源和数据仓库之间建立转换规则在数据源和数据仓库之间建立转换规则4)4) 数据按粒度分为若干个层次数据按粒度分为若干个层次4. 4. 数据仓库的数据组织数据仓库的数据组织1 1)面向主题组织数据)面向主题组织数据构建数据仓库的前提首先是确定数据仓库的主题,然后构建数据仓库的前提首先是确定数据仓库的主题,然后才能以主题为单位,组织满足主题目标与需求的数据。才能以主题为单位,组织满足主题目标与需求的数据。一个数据仓库一般有若干个主题,而每个主题又有一个一个数据仓库一般有若干

20、个主题,而每个主题又有一个数据集合体作为支撑,称为主题域(数据集合体作为支撑,称为主题域(subject fieldsubject field),因此),因此,一个数据仓库可以按主题划分为若干个主题域。,一个数据仓库可以按主题划分为若干个主题域。主题域应具有:主题域应具有:独立性:主题域有明确的边界和独立内涵,可以有交叉独立性:主题域有明确的边界和独立内涵,可以有交叉,但不影响其独立性。,但不影响其独立性。完备性:每个主题的分析要求所需要的数据均能在其主完备性:每个主题的分析要求所需要的数据均能在其主题域中获得。题域中获得。4. 4. 数据仓库的数据组织数据仓库的数据组织2 2)按关系模式组织

21、主题域)按关系模式组织主题域数据仓库中的主题域按照传统的关系表形式进行组织。数据仓库中的主题域按照传统的关系表形式进行组织。一个主题域往往由若干个关系表构成,而这些关系表中的数一个主题域往往由若干个关系表构成,而这些关系表中的数据来自于数据源,其中的属性按统计、汇总需求,可分为三据来自于数据源,其中的属性按统计、汇总需求,可分为三种形式:静态的(即不可统计的)、动态的(即可统计的)种形式:静态的(即不可统计的)、动态的(即可统计的)以及半动态的(即有时可统计的)。以及半动态的(即有时可统计的)。在同一个主题域内的各个关系表之间,一般存在一定的在同一个主题域内的各个关系表之间,一般存在一定的联系

22、,为此,需要建议一个主题域的公共码键,称为主题码联系,为此,需要建议一个主题域的公共码键,称为主题码(subject keysubject key),以关联主题域内各个关系表。),以关联主题域内各个关系表。4. 4. 数据仓库的数据组织数据仓库的数据组织3 3)在数据源和数据仓库之间建立转换规则)在数据源和数据仓库之间建立转换规则由于不同数据源中的数据并不是全部转移到数据仓库中,由于不同数据源中的数据并不是全部转移到数据仓库中,而是通过选择、合并、变换等方法,转换为数据仓库中的集而是通过选择、合并、变换等方法,转换为数据仓库中的集成数据,因此,需要在数据源和数据仓库之间建立成数据,因此,需要在

23、数据源和数据仓库之间建立数据转换数据转换规则规则。这些数据转换规则形成了。这些数据转换规则形成了数据仓库管理系统中元数据数据仓库管理系统中元数据,而,而ETLETL模块模块负责运用所建立的转换规则进行数据加载。负责运用所建立的转换规则进行数据加载。4. 4. 数据仓库的数据组织数据仓库的数据组织数据转换规则规定数据转换规则规定:v数据源中的哪些数据进入数据仓库哪个数据域的哪些数据源中的哪些数据进入数据仓库哪个数据域的哪些关系表中?关系表中?v在进入数据仓库之前,数据源中哪些数据需要合并为在进入数据仓库之前,数据源中哪些数据需要合并为主题域中的哪项数据?主题域中的哪项数据?v在进入数据仓库之前,

24、数据源中哪些数据需要进行何在进入数据仓库之前,数据源中哪些数据需要进行何种变换?种变换?v其它转换规定其它转换规定 4. 4. 数据仓库的数据组织数据仓库的数据组织4 4)数据按粒度分为若干个层次)数据按粒度分为若干个层次综合与细化是数据仓库中的两种主要操作,为此,数据综合与细化是数据仓库中的两种主要操作,为此,数据仓库中的数据需要划分为不同层次,而每个数据层次反映仓库中的数据需要划分为不同层次,而每个数据层次反映了数据综合的程度(称为粒度)。一般地,数据仓库包含了数据综合的程度(称为粒度)。一般地,数据仓库包含4 4个级别的数据:个级别的数据:a)a) 当前数据当前数据b)b) 轻度综合数据

25、轻度综合数据c)c) 高度综合数据高度综合数据d)d) 历史数据历史数据 数据仓库从数据仓库从传统数据库传统数据库或或其它数据源其它数据源获得原始数据,先获得原始数据,先按辅助决策的主题要求形成当前按辅助决策的主题要求形成当前基本数据层基本数据层,再按综合,再按综合决策的要求形成决策的要求形成综合数据层综合数据层(又分为轻度综合层和高度(又分为轻度综合层和高度综合层)。随着时间的推移,由时间控制机制将当前基综合层)。随着时间的推移,由时间控制机制将当前基本数据层转为本数据层转为历史数据层历史数据层。高度综合高度综合 01-0201-02年所有产年所有产 品月销售数据品月销售数据轻度综合轻度综合

26、 01-0201-02年某产品年某产品 周销售数据周销售数据当前数据当前数据 01-0201-02年年 销售数据销售数据历史数据历史数据 1980-20001980-2000 销售数据销售数据数据仓库的数据仓库的逻辑结构逻辑结构元数据4. 4. 数据仓库的数据组织数据仓库的数据组织4 4)数据按粒度分为若干个层次)数据按粒度分为若干个层次数据粒度越大,其综合度越高,细化程度越低;反之,数据粒度越大,其综合度越高,细化程度越低;反之,数据粒度越小,其细节程度越大,综合度越低。数据粒度越小,其细节程度越大,综合度越低。上页的数据仓库数据层次划分是一种常见方式,在实际上页的数据仓库数据层次划分是一种

27、常见方式,在实际应用中,还可以进一步提升或降低。应用中,还可以进一步提升或降低。 元 数 据早期细节级销售细节1994-1997操作型转 换当前细节级销售细节1998-2003子生产线每周销售1990-2003高度综合级 轻度综合级(数据集市)生产线每月销售1994-2003数据仓库的数据组织实例数据仓库的数据组织实例1.1. 业务背景:业务背景:某个采用会员制的连锁超市的数据仓库某个采用会员制的连锁超市的数据仓库2.2. 现有系统现状:现有系统现状:采购管理系统,销售管理系统,采购管理系统,销售管理系统, 库存管理系统,人事管理系统库存管理系统,人事管理系统3.3. 现有系统的数据库结构:现

28、有系统的数据库结构:1)1) 采购管理系统采购管理系统 订单(订单号,供应商号,日期,总金额)订单(订单号,供应商号,日期,总金额) 订单明细(订单号,商品名,商品号,类别,订单明细(订单号,商品名,商品号,类别, 单价,数量)单价,数量) 供应商(供应商号,供应商名,地址,电话)供应商(供应商号,供应商名,地址,电话)数据仓库的数据组织实例数据仓库的数据组织实例2 2)销售管理系统)销售管理系统 顾客(顾客号,姓名,性别,年龄,顾客(顾客号,姓名,性别,年龄, 文化程度,地址,电话)文化程度,地址,电话) 销售(员工号,顾客号,商品号,数量,单价,金额)销售(员工号,顾客号,商品号,数量,单

29、价,金额)3 3)库存管理系统)库存管理系统 领料单(领料单号,领料人,商品号,数量,日期)领料单(领料单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号,进料人,收料人,日期)进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存量,日期)库存(商品号,库房号,库存量,日期) 库房(库房号,保管员,地点,库存商品描述)库房(库房号,保管员,地点,库存商品描述)数据仓库的数据组织实例数据仓库的数据组织实例4 4)人事管理系统)人事管理系统 员工(员工号,姓名,性别,年龄,文化程度,部门号)员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门名称

30、,部门主管,电话)部门(部门号,部门名称,部门主管,电话)4.4. 主题选择:商品,供应商,顾客主题选择:商品,供应商,顾客5.5. 主题域:分别对应三个主题主题域:分别对应三个主题(1 1)商品商品主题域主题域 P P 数据源:采购,销售和库存管理系统数据源:采购,销售和库存管理系统数据仓库的数据组织实例数据仓库的数据组织实例 数据关系表:数据关系表: P1 - P1 - 商品固有信息:商品号,商品名,类别商品固有信息:商品号,商品名,类别 P2 - P2 - 商品采购信息:商品号,供应商号,供应价商品采购信息:商品号,供应商号,供应价 供货日期,供应量供货日期,供应量 P3 - P3 -

31、商品销售信息:商品号,顾客号,售价商品销售信息:商品号,顾客号,售价 销售日期,销售量销售日期,销售量 P4 - P4 - 商品库存信息:商品号,库存号,库存量,日期商品库存信息:商品号,库存号,库存量,日期 主题码:商品号主题码:商品号 数据属性:数据属性: P1 P1 :静态或半动态:静态或半动态 P2P2、P3P3、P4P4:动态:动态数据仓库的数据组织实例数据仓库的数据组织实例(2 2)供应商供应商主题域主题域 S S 数据源:采购管理系统数据源:采购管理系统 数据关系表:数据关系表: S1 - S1 - 供应商固有信息:供应商号,供应商名供应商固有信息:供应商号,供应商名 地址,电话

32、地址,电话 S2 - S2 - 供应商品信息:供应商号,商品号,供应价供应商品信息:供应商号,商品号,供应价 供货日期,供应量供货日期,供应量 主题码:供应商号主题码:供应商号 数据属性:数据属性:S1 - S1 - 静态或半动态静态或半动态 S2 - S2 - 动态动态数据仓库的数据组织实例数据仓库的数据组织实例(3 3)顾客顾客主题域主题域 C C 数据源:销售管理系统数据源:销售管理系统 数据关系表:数据关系表: C1 - C1 - 顾客固有信息:顾客号,顾客姓名,性别,年龄顾客固有信息:顾客号,顾客姓名,性别,年龄 文化程度,地址,电话文化程度,地址,电话 C2 - C2 - 顾客购物

33、信息:顾客号,商品号,售价顾客购物信息:顾客号,商品号,售价 购买日期,购买量购买日期,购买量 主题码:顾客号主题码:顾客号 数据属性:数据属性:C1 - C1 - 静态或半动态静态或半动态 C2 - C2 - 动态动态数据仓库的数据组织实例数据仓库的数据组织实例6.6. 按不同粒度组织数据按不同粒度组织数据(1 1)商品主题域)商品主题域1 1)商品采购信息)商品采购信息 单笔记录:存储与数据源中单笔记录:存储与数据源中 按日记录按日记录 P2.1: P2.1: 商品号,(年,月,日),采购总额商品号,(年,月,日),采购总额 按月记录按月记录 P2.2: P2.2: 商品号,(年,月),采

34、购总额商品号,(年,月),采购总额 按年记录按年记录 P2.3: P2.3: 商品号,年,采购总额商品号,年,采购总额数据仓库的数据组织实例数据仓库的数据组织实例6.6. 按不同粒度组织数据按不同粒度组织数据(1 1)商品主题域)商品主题域2 2)商品销售信息)商品销售信息 单笔记录:存储与数据源中单笔记录:存储与数据源中 按日记录按日记录 P3.1: P3.1: 商品号,(年,月,日),销售总额商品号,(年,月,日),销售总额 按月记录按月记录 P3.2: P3.2: 商品号,(年,月),销售总额商品号,(年,月),销售总额 按年记录按年记录 P3.3: P3.3: 商品号,年,销售总额商品

35、号,年,销售总额数据仓库的数据组织实例数据仓库的数据组织实例6.6. 按不同粒度组织数据按不同粒度组织数据(1 1)商品主题域)商品主题域3 3)商品库存信息)商品库存信息 单笔记录:存储与数据源中单笔记录:存储与数据源中 按日记录按日记录 P4.1: P4.1: 商品号,(年,月,日),库存总额商品号,(年,月,日),库存总额 按月记录按月记录 P4.2: P4.2: 商品号,(年,月),库存总额商品号,(年,月),库存总额 按年记录按年记录 P4.3: P4.3: 商品号,年,库存总额商品号,年,库存总额数据仓库的数据组织实例数据仓库的数据组织实例6.6. 按不同粒度组织数据按不同粒度组织

36、数据(2 2)供应商主题域)供应商主题域 单笔记录:存储于数据源中单笔记录:存储于数据源中 按日记录按日记录 S2.1: S2.1: 供应商号,(年,月,日),供应总额供应商号,(年,月,日),供应总额 按月记录按月记录 S2.2: S2.2: 供应商号,(年,月),供应总额供应商号,(年,月),供应总额 按年记录按年记录 S2.3: S2.3: 供应商号,年,供应总额供应商号,年,供应总额数据仓库的数据组织实例数据仓库的数据组织实例6.6. 按不同粒度组织数据按不同粒度组织数据(3 3)顾客主题域)顾客主题域 单笔记录:存储与数据源中单笔记录:存储与数据源中 按日记录按日记录 C2.1: C

37、2.1: 顾客号,(年,月,日),购买总额顾客号,(年,月,日),购买总额 按月记录按月记录 C2.2: C2.2: 顾客号,(年,月),购买总额顾客号,(年,月),购买总额 按年记录按年记录 C2.3: C2.3: 顾客号,年,购买总额顾客号,年,购买总额数据仓库的数据组织实例数据仓库的数据组织实例7.7.数据仓库中的数据组织概况数据仓库中的数据组织概况 共有共有1818个关系表,个关系表,2929个属性,其数据来自于个属性,其数据来自于4 4个个管理系统管理系统(1 1)商品主题域)商品主题域 P P 主题码:商品号主题码:商品号 关系表关系表: P1: P1 P2.1, P2.2, P2

38、.3 P2.1, P2.2, P2.3 P3.1, P3.2, P3.3 P3.1, P3.2, P3.3 P4.1, P4.2, P4.3 P4.1, P4.2, P4.3数据仓库的数据组织实例数据仓库的数据组织实例(2 2)供应商主题域)供应商主题域 S S 主题码:供应商号主题码:供应商号 关系表关系表: S1: S1 S2.1, S2.2, S2.3 S2.1, S2.2, S2.3(3 3)顾客主题域)顾客主题域 C C 主题码:顾客号主题码:顾客号 关系表关系表: C1: C1 C2.1, C2.2, C2.3 C2.1, C2.2, C2.38.8. 数据转换规则:见参考书,表数

39、据转换规则:见参考书,表3.33.35. 5. 数据仓库的体系结构数据仓库的体系结构5.1 5.1 数据仓库的概念结构数据仓库的概念结构 从数据仓库的概念结构看,应该包含:数据源数据源、数据数据准备区准备区、数据仓库数据库数据仓库数据库、数据集市数据集市/ /知识挖掘库知识挖掘库以及各种管理工具和应用工具管理工具和应用工具。 数据源业务系统外部数据源数据准备区数据仓库数据库应用工具管理工具数据集市/知识挖掘库应用工具数据集市/知识挖掘库图5.1 数据仓库的概念结构结果展现结果展现5.2 5.2 数据仓库的虚拟结构数据仓库的虚拟结构 虚拟数据仓库利用描述业务系统中数据位置和抽取虚拟数据仓库利用描

40、述业务系统中数据位置和抽取数据算法的元数据,直接从业务系统中抽取查询的数据,数据算法的元数据,直接从业务系统中抽取查询的数据,进行概括、聚合操作后,将最终结果提供给用户进行概括、聚合操作后,将最终结果提供给用户 用户图1.2 虚拟数据仓库结构数据仓库查询管理服务器业务系统数据库5. 5. 数据仓库的体系结构数据仓库的体系结构5.3 5.3 数据集市数据集市 在为企业建立数据仓库时,开发人员必须在为企业建立数据仓库时,开发人员必须针对所有的用户、从企业的全局出发,来对待企针对所有的用户、从企业的全局出发,来对待企业需要的任何决策分析。这样建立数据仓库就成业需要的任何决策分析。这样建立数据仓库就成

41、了一个代价高、时间长、风险大的项目。了一个代价高、时间长、风险大的项目。 因此,更加紧凑集成、拥有完整应用工具、因此,更加紧凑集成、拥有完整应用工具、投资少、规模小的数据集市(投资少、规模小的数据集市(Data MarketData Market)就)就应运而生。应运而生。5. 5. 数据仓库的体系结构数据仓库的体系结构 数据仓库查询管理服务器业务系统数据库应用1应用2 数据集市数据集市也称为面向应用的数据仓库面向应用的数据仓库,是一种是一种更小、更集中的数据仓库更小、更集中的数据仓库,可以为企业提供分析,可以为企业提供分析商业数据的一条廉价途径。商业数据的一条廉价途径。5. 5. 数据仓库的

42、体系结构数据仓库的体系结构数据集市是具有特定应用的数据仓库,主要针对数据集市是具有特定应用的数据仓库,主要针对某个某个具有战略意义的应用具有战略意义的应用或具体或具体部门级的应用部门级的应用。 它支持客户利用已有的数据获得重要的竞争它支持客户利用已有的数据获得重要的竞争优势,或找到进入新市场的整体解决方案。优势,或找到进入新市场的整体解决方案。5. 5. 数据仓库的体系结构数据仓库的体系结构 数据集市数据集市可通过两种方式构建: (1) 独立型数据集市:直接建立数据集市(2)依赖型数据集市:通过数据仓库的发布而形成5. 5. 数据仓库的体系结构数据仓库的体系结构数据集市的特点:数据集市的特点:

43、 规模小规模小,面向部门,而不是整个企业,面向部门,而不是整个企业 面向特定的应用面向特定的应用,不是满足企业所有的决策,不是满足企业所有的决策分析需求;分析需求; 主要由主要由业务部门定义、设计和实现业务部门定义、设计和实现; 可以由可以由业务部门管理和维护业务部门管理和维护; 成本低,开发时间短,投资风险较小成本低,开发时间短,投资风险较小 可以升级可以升级到企业完整的数据仓库。到企业完整的数据仓库。5.4 5.4 单一数据仓库结构单一数据仓库结构 将所有的主题都集中到一个大型数据库中的体系结构。数据源将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照同一标准抽取到独立的数

44、据仓库中,用户在使用时再中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中根据主题将数据仓库中的数据发布到数据集市中。 数据仓库查询管理服务器业务系统数据库数据仓库数据集市1数据集市25. 5. 数据仓库的体系结构数据仓库的体系结构 站点A 站点B 站点C 站点D全局数据仓库局部数据仓库局部数据仓库局部数据仓库局部数据仓库总部5.5 5.5 分布式数据仓库结构分布式数据仓库结构 在企业各个分公司具有相当大的独立性时,企业总部设置一个在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓全

45、局数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据经过转换的综合数据5. 5. 数据仓库的体系结构数据仓库的体系结构6. 6. 数据仓库的层次结构数据仓库的层次结构 数据仓库的基本功能层数据仓库的基本功能层包含:数据抽取,数据筛选、清数据抽取,数据筛选、清洗,清洗后的数据加载,设立数据集市,完成数据仓库洗,清洗后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作的查询、决策分析和知识的挖掘等操作。 数据仓库的管理层数据仓库的管理层:分

46、为数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理。 环境支持层环境支持层:包含数据传输和数据仓库基础两部分。数据仓库基本功能层数据仓库管理层数据仓库环境支持层6.1 6.1 数据仓库基本功能层数据仓库基本功能层数据源数据准备区数据仓库结构 数据集市/知识挖掘库存取与使用6. 6. 数据仓库的层次结构数据仓库的层次结构数据源数据源:主要包含业务数据、历史数据、办公数据、Web数据、外部数据以及数据源元数据。数据准备区数据准备区:主要完成数据标准化处理、数据的过滤与数据标准化处理、数据的过滤与匹配、数据的净化处理、标明数据的时间戳、匹配、数据的净化

47、处理、标明数据的时间戳、确认数据质量与元数据抽取和创建确认数据质量与元数据抽取和创建等操作。6. 6. 数据仓库的层次结构数据仓库的层次结构数据仓库数据仓库:其功能结构部分由数据重整数据重整、数据仓库创建数据仓库创建 以及元数据管理等元数据管理等组成。数据集市数据集市/ /知识挖掘库知识挖掘库:其功能结构与数据仓库的功能 结构极为相似。数据仓库的数据存取与使用数据仓库的数据存取与使用:主要为数据仓库的最终用户提供决策分析和挖掘知识功能,包含数据仓库数据仓库的存取与检索的存取与检索、元数据管理元数据管理以及数据仓库分析与数据仓库分析与报告报告。6.2 6.2 数据仓库的管理层数据仓库的管理层 数

48、据抽取、新数据需求与查询管理数据抽取、新数据需求与查询管理 主要负责完成从数据源中抽取数据的管理。数据抽取,新数据需求与查询管理数据加载、存储、刷新和更新系统安全性与用户授权管理系统数据归档、恢复及净化系统6. 6. 数据仓库的层次结构数据仓库的层次结构6.2.1 6.2.1 数据仓库的数据管理层数据仓库的数据管理层 数据加载、存储、刷新和更新数据加载、存储、刷新和更新 负责对从数据源中所抽取的数据在完成筛选、净化处理以后,将这些数据加载、存储加载、存储到数据仓库中;捕获数据源中的数据变化,用最新数据刷新刷新数据仓库;根据用户的需求和数据仓库管理的要求,对数据仓库进行更新更新等工作。6. 6. 数据仓库的层次结构数据仓库的层次结构 安全性与用户授权管理安全性与用户授

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论