版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
6.1数据仓库的基本原理6.2数据仓库系统6.3联机分析处理6.4数据仓库的决策支持第六章数据仓库
6.1数据仓库的基本原理第六章数据仓库
16.1数据仓库的基本原理数据仓库的兴起1.“数据太多,信息不足”的现状2.异构环境的数据源据美国《幸福》杂志所列的全球2000家大公司中已有90%将Internet网络和数据仓库这两项技术列入企业计划。数据仓库是1995年开始盛行起来的。6.1数据仓库的基本原理数据仓库的兴起26.1.1数据仓库的概念(1)W.H.Inmon在《建立数据仓库》一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。6.1.1数据仓库的概念(1)W.H.Inmon在31、数据仓库的概念(2)SAS软件研究所定义:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。1、数据仓库的概念(2)SAS软件研究所定义:41、数据仓库的概念
传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。
数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立决策支持系统(DSS)的基础。1、数据仓库的概念传统数据库用于事务处理,也叫操作型5操作型数据(DB数据)与分析型数据(DW数据)之间的差别为:操作型数据(DB数据)与62、数据仓库特点(1)数据仓库是面向主题的
主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是否继续给予贷款。2、数据仓库特点(1)数据仓库是面向主题的72、数据仓库特点(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。2、数据仓库特点(2)数据仓库是集成的82、数据仓库特点(3)数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。(4)数据仓库是随时间变化的数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。2、数据仓库特点(3)数据仓库是稳定的92、数据仓库特点
大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)需要一个巨大的硬件平台需要一个并行的数据库系统最好的数据仓库是大的和昂贵的。2、数据仓库特点大型DW是一个TB(1000GB)级10
近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。
历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。
轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。
高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。6.1.2数据仓库结构近期基本数据:是最近时期的业务数据,是数据仓11专家与决策支持系统课程12数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。6.1.3数据集市(DataMarts)6.1.3数据集市(DataMarts)13数据集市(DataMarts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。数据集市是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。数据集市概念数据集市概念14独立数据集市(IndependentDataMart)从属数据集市(DependentDataMart)数据集市的种类独立数据集市(IndependentDataMart)数151、规模是小的2、特定的应用3、面向部门4、由业务部门定义,设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、工具集的紧密集成10、更详细的、预先存在的数据仓库的摘要子集11、可升级到完整的数据仓库数据集市的特性1、规模是小的数据集市的特性16
元数据是数据仓库的重要组成部分。
元数据描述了数据仓库的数据和环境,即关于数据的数据(metadata)
元数据包括四种元数据。6.1.4元数据元数据是数据仓库的重要组成部分。6.1.4元数据17元数据是现有的业务系统的数据源的描述信息。元数据是对不同平台上的数据源的物理结构和含义的描述。具体为:(1)数据源中所有物理数据结构,包括所有的数据项及数据类型。(2)所有数据项的业务定义。(3)每个数据项更新的频率,以及由谁或那个过程更新的说明。(4)每个数据项的有效值。1、关于数据源的元数据元数据是现有的业务系统的数据源的描述信息。元数据是对不同平台18
数据仓库的数据模型是星型模型。通常企业数据模型被用作建立仓库数据模型的起始点,再对模型加以修改和变换。2、关于数据模型的元数据2、关于数据模型的元数据19元数据是数据源与数据仓库数据间的映射。当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那些转换,变换和加载过程。3、关于数据仓库映射的元数据元数据是数据源与数据仓库数据间的映射。3、关于数据仓库映射的20这类元数据是数据仓库中信息的使用情况描述。数据仓库的用户最关心的是两类元数据:
(1)元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主题查看数据仓库的内容。(2)元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。4、关于数据仓库使用的元数据这类元数据是数据仓库中信息的使用情况描述。4、关于数216.2数据仓库系统
6.2.1数据仓库系统结构
数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。6.2数据仓库系统6.2.1数据仓库系统结构221、数据仓库管理系统(1)定义部分
用于定义和建立数据仓库系统。它包括:(1)设计和定义数据仓库的数据库(2)定义数据来源(3)确定从源数据向数据仓库复制数据时的清理和增强规则(2)数据获取部分
该部件把数据从源数据中提取出来,依定义部件的规则,抽取、转化和装载数据进入数据仓库。
1、数据仓库管理系统(1)定义部分23(3)管理部分
它用于管理数据仓库的工作,包括:(1)对数据仓库中数据的维护(2)把仓库数据送出给分散的仓库服务器或DSS用户(3)对仓库数据的安全、归档、备份、恢复等处理工作1、数据仓库管理系统(3)管理部分1、数据仓库管理系统24(4)信息目录部件(元数据)
数据仓库的目录数据是元数据,由三部分组成:
技术目录:由定义部件生成,关于数据源、目标、清理规则、变换规则以及数据源和仓库之间的映象信息。
业务目录:由仓库管理员生成,关于仓库数据的来源及当前值;预定义的查询和报表细节;合法性要求等。
信息引导器:使用户容易访问仓库数据。利用固定查询或建立新的查询,生成暂时的或永久的仓库数据集合的能力等。1、数据仓库管理系统(4)信息目录部件(元数据)1、数据仓库管理系统25分析工具集分两类工具:(1)查询工具数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。一般包含:
可视化工具:以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。2、数据仓库工具集分析工具集分两类工具:2、数据仓库工具集26多维分析工具(OLAP工具):通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。2、数据仓库工具集2、数据仓库工具集27(2)数据挖掘工具从大量数据中挖掘具有规律性知识,需要利用数据挖掘(DataMining)工具。2、数据仓库工具集(2)数据挖掘工具2、数据仓库工具集283、数据仓库的运行结构
数据仓库应用是一个典型的客户/服务器(C/S)结构形式。数据仓库采用服务器结构,客户端所做的工作有:客户交互、格式化查询、结果显示、报表生成等。
服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。现在,越来越普通的一种形式是三层C/S结构形式,即在客户与数据仓库服务器之间增加一个多维数据分析(OLAP)服务器。3、数据仓库的运行结构数据仓库应用是一个典型的客户/29
OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。这种结构形式工作效率更高。三层C/S结构OLAP服务器将加强和规范化决策支持的服务工30
数据仓库存储采用多维数据模型。
维就是相同类数据的集合。例如:商店的集合是一维,时间的集合是一维,商品的集合是一维;每一个商店、每一段时间、每一种商品就是某一维的一个成员;每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。
6.2.2数据仓库的存储数据仓库存储采用多维数据模型。6.2.231数据仓库是以多维表型的“维表—事实表”结构形式组织的,共有三种形式:1、星型模型大多数的数据仓库都采用“星型模型”。
星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。星型模型数据如下图:数据仓库是以多维表型的“维表—事实表”结构形式组32专家与决策支持系统课程33
2、雪花模型雪花模型是对星型模型的扩展,雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是最大限度地减少数据存储量,以及把较小的维表联合在一起来改善查询性能。在上面星型模型的数据中,对“产品表”“日期表”“地区表”进行扩展形成雪花模型数据见下图。
2、雪花模型34专家与决策支持系统课程353、星网模型
星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。3、星网模型36
联机分析处理(OnLineAnalyticalProcessing,OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。在数据仓库系统中,联机分析处理是重要的数据分析工具。
OLAP的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。6.3联机分析处理联机分析处理(OnLineAnalytic376.3.1基本概念
OLAP是在OLTP的基础上发展起来的。
OLTP是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据的查询和增、删、改等进行处理。
OLAP是以数据仓库为基础的数据分析处理。它有两个特点:一是在线性(OnLine),由客户机/服务器这种体系结构来完成的;二是多维分析,这也是OLAP的核心所在。6.3.1基本概念OLAP是在OLTP的基础上发381、OLAP的定义
联机分析处理是共享多维信息的快速分析。它体现了四个特征:(1)快速性:用户对OLAP的快速反应能力有很高的要求。(2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析。(3)多维性:系统必须提供对数据分析的多维视图和分析。(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息1、OLAP的定义联机分析处理是共享多维39
1993年,E.F.Codd提出OLAP的12条准则,其主要的准则有:多维数据分析;客户/服务器结构;多用户支持;一致的报表性能等。
2、OLAP准则1993年,E.F.Codd提出OLAP的12条准则403.多维概念视图企业的数据空间本身就是多维的。因此OLAP的概念模型也应是多维的。用户可以对多维数据模型进行切片、切块、旋转坐标或进行多维的联合(概括和聚集)分析。3.多维概念视图企业的数据空间本身就是多维的。因此OLAP的414.稳定的报表性能
报表操作不应随维数增加而削弱,即当数据维数和数据的综合层次增加时,提供的报表能力和响应速度不应该有明显的降低。
4.稳定的报表性能报表操作不应随维数增加而削弱,即425.客户/服务器体系结构
OLAP是建立在客户/服务器体系结构上的。要求多维数据库服务器能够被不同的应用和工具所访问。5.客户/服务器体系结构OLAP是建立在客户/服务438.多用户支持
当多个用户要在同一分析模式上并行工作,需要这些功能的支持。
11.灵活的报表生成
报表必须充分反映数据分析模型的多维特征,并可按用户需要的方式来显示它。8.多用户支持44OLAP是针对特定问题的联机数据访问和分析。
(1)变量:变量是数据的实际意义,即描述数据“是什么”。
(2)维:维是人们观察数据的特定角度。如产品维、顾客维、时间维等。
(3)维的层次:数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。
(4)维成员:维的一个取值称为该维的一个维成员。如“某年某月某日”是时间维的一个成员。
3、OLAP的基本概念OLAP是针对特定问题的联机数据访问和分析。3、OLAP45(5)多维数组:一个多维数组可以表示为:(维1,维2,……,维n,变量)
一个5维的结构,即(产品,地区,时间,销售渠道,销售额)。(6)数据单元(单元格):多维数组的取值称为数据单元。如:5维数据单元(牙膏,上海,1998年12月,批发,销售额为100000)。
3、OLAP的基本概念(5)多维数组:一个多维数组可以表示为:3、OLAP的基本概46(1)OLTPOLTP是低层人员利用计算机网络对数据库中的数据进行查询、增、删、改等操作,以完成事务处理工作。OLTP利用数据库快速地处理具体业务。OLTP应用要求多个查询并行。
4、OLAP与OLTP的关系与比较(1)OLTP4、OLAP与OLTP的关系与比较47(2)OLAPOLAP是高层人员对数据仓库进行信息分析处理。①存取大量的数据②包含聚集的数据③按层次对比不同时间周期的聚集数据④以不同的方式来表现数据⑤要包含数据元素之间的复杂的计算⑥能够快速的响应用户的查询
4、OLAP与OLTP的关系与比较(2)OLAP4、OLAP与OLTP的关系与比较48(3)OLAP与OLTP对比(对比表)OLTPOLAP数据库数据数据仓库数据细节性数据综合性数据当前数据历史数据一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理用户数量大用户相对较少面向应用,事务驱动面向分析,分析驱动(3)OLAP与OLTP对比(对比表)OLTPOLAP数据库496.3.2OLAP的数据组织
MOLAP和ROLAP是OLAP的两种具体形式:
ROLAP是基于关系数据库存储方式建立的OLAP。多维数据映射成平面型的关系表。采用星型模型。6.3.2OLAP的数据组织MOL50
MOLAP是基于多维数据库存储方式建立的OLAP;表现为“超立方”结构,类似于多维数组的结构。在分析中,需要“旋转”数据立方体以及“切片”、“切块”等操作。MOLAP是基于多维数据库存储方式建立的OLAP;51MOLAP和ROLAP的对比表MOLAPROLAP固定维可变维维交叉计算多维视图行级计算超大型数据库读-写应用维数据变化速度快数据集市数据仓库MOLAP和ROLAP的对比表MOLAPROLAP固定维可变52OLAP多维数据分析例如,以“产品、城市、时间”三维数据,如图6.3.3OLAP的决策支持OLAP多维数据分析6.3.3OLAP的决策支持531、基本功能:切片和切块
对三维数据,通过“切片”,分别从城市和产品等不同的角度观察销售情况:
1、基本功能:切片和切块对三维数据,通过“切片”,54钻取钻取:例如,1995年各部门销售收入表如下:钻取钻取:例如,1995年各部门销售收入表如下:55对时间维进行下钻操作,获得新表如下:钻取(续)对时间维进行下钻操作,获得新表如下:钻取(续)56旋转前的数据旋转旋转前的数据旋转57旋转后的数据旋转(续)旋转后的数据旋转(续)58旋转后再切片旋转后再切片592、广义OLAP功能
1、基本代理操作
“代理”是一些智能性代理,当系统处于某种特殊状态时提醒分析员。(1)示警报告定义一些条件,一但条件满足,系统会提醒分析员去做分析。如每日报告完成或月定货完成等通知分析员作分析。
(2)异常报告当超出边界条件时提醒分析员。如销售情况已超出预定义阈值的上限或下限时提醒分析员。2、广义OLAP功能1、基本代理操作60
2、计算能力计算引擎用于特定需求的计算或某种复杂计算。
3、模型计算增加模型,如增加系统优化、统计分析、趋势分析等模型,以提高决策分析能力。
2、广义OLAP功能2、计算能力2、广义OLAP功能61假设有一个5维数据模型,5个维分别为:商店,方案,部门,时间,销售。1.三维表查询在指定“商店=ALL,方案=现有”情况的三维表(行为部门,列为时间和销售量)6.3.4、OLAP实例
假设有一个5维数据模型,5个维分别为:商店,方案62
19941995%增长率销售量利润增长%销售量利润增长%销售量利润增长服装234,67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6(8.0)汽车375,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9指定商店、方案后的三维表
19941995%增长率销售量利润增长%销售量利润增长%销63
19941995%增长率销售利润增长%销售利润增长%销售利润增长汽车375,09822.4325,40227.2(13.2)21.4维修195,05114.2180,78615.0(7.3)5.6附件116,28043.9122,54547.55.38.2音乐63,7678.222,07114.2(63.4)7.3
2、向下钻取对汽车部门向下钻取出具体项目的销售情况和利润增长情况。
19941995%增长率销售利润增长%销售利润增长%销售利64
1995销售量服装381,102家具66,005汽车325,402所有其它306,6773、切片表切片(Slice)操作是除去一些列或行不显示
1995销售量服装381,102家具66,005汽车32565
1995销售量现有计划差量差量%服装381,102350,00031.18.9家具66,00569,000(2,995)(4.3)汽车325,402300,00025,4028.5所有其它306,677350,000(44,322)12.74、旋转表这次旋转操作得到1995年的交叉表方案为:现有、计划、差量、差量%。
1995销售量现有计划差量差量%服装381,102350,66
6.4.1数据仓库的开发1、数据仓库规划
①数据仓库开发的范围怎样?
②要解决的业务问题是什么?③开发的数据仓库的决策支持能力是什么?6.4数据仓库的决策支持及实例6.4.1数据仓库的开发6.4数据仓库的决策支持及实例67决策者的需求:对信息的需求对业务过程的需求对数据访问的需求2、定义体系结构决策者的需求:2、定义体系结构68确定体系结构(1)来源:数据应该来自于什么DBMS的源数据?(2)传输:数据通过什么样的网络拓扑结构传送过来?(3)目的地:数据发送到数据仓库的什么硬件环境?(4)元数据:确定存储和访问数据的元数据。(5)变换:编制数据抽取、变换、装载的程序。(6)访问:最终用户怎样才能查询数据?
确定体系结构(1)来源:数据应该来自于什么DBMS的源数据69(1)主题域分析
确定所需数据的范围和内容。并建立数据仓库的数据模型:主题域范围数据仓库的数据模型(2)物理数据库设计
数据的实际存储设计3、数据仓库设计(1)主题域分析3、数据仓库设计70
(1)确定源数据、检查其完整性,进行评价。(2)完成源数据变换到目标数据仓库中去。4、源系统分析与数据变换设计(1)确定源数据、检查其完整性,进行评价。4、源系统分71
完成数据加载;评审;元数据加载;系统测试5、建立数据仓库完成数据加载;评审;元数据加载;系统测试5、建立数据72提供给用户访问的形式:(1)使用现有的特定工具;(2)开发一个最终用户访问程序。6、用户访问方法的设计和开发提供给用户访问的形式:6、用户访问方法的设计和开发736.4.2数据仓库的决策支持美国著名的NCR数据仓库公司对数据仓库总结5种决策支持能力。
1、报表(“发生了什么”)2、随机分析(“为什么会发生”)3、预测(“将要发生什么”)4、实时决策(“正在发生什么”)5、事件触发的自动决策(“希望发生什么”)6.4.2数据仓库的决策支持美国著名的NCR数据仓库公741、报表数据仓库所面临的最大挑战是数据集成。传统的环境经常有上百个数据源,每一数据源都有各自定义的标准和实施技术。建立的数据仓库是通过收集各种来源的数据,来回答预先设置的一些问题,告诉决策者“发生了什么”。它为以后数据仓库的发展奠定了基础。
1、报表数据仓库所面临的最大挑战是数据集成。传统的环752、随机分析
数据仓库应用的第二种决策支持是,从“发生了什么”转向“为什么会发生”。分析活动就是了解报表数据的涵义,需要更多更详细的数据进行各种角度的分析。在第二阶段的数据仓库主要用于随机分析。
2、随机分析数据仓库应用的第二种决策支持是,从“发763、预测
数据仓库的第三种决策支持是帮助决策者来预测未来,回答“将要发生什么”。数据仓库需要利用历史资料创建预测模型。
3、预测数据仓库的第三种决策支持是帮助决策者来预测774、实时决策
数据仓库的第4种决策支持是企业需要准确了解“正在发生什么”,从而需要建立动态数据仓库(实时数据库),用于支持战术型决策,即实时决策。有效地解决当前的实际问题。
第1到第3种决策支持的数据仓库都以支持企业内部战略性决策为重点,帮助企业制定发展战略。
第4种决策支持侧重在战术性决策支持。
动态数据仓库能够逐项产品、逐个店铺、逐秒地作出最佳决策支持。4、实时决策数据仓库的第4种决策支持是企业需要准确了785、事件触发的自动决策
数据仓库的第5种决策支持是由事件触发,利用动态数据库自动决策,达到“希望发生什么”。例如,电子货架标签技术结合动态数据仓库,可以帮助企业按照自己的意愿实现复杂的价格管理自动化,以便以最低的损耗售出最多的存货。5、事件触发的自动决策数据仓库的第5种决策支持是由事796.4.3数据仓库应用实例
NCR公司成功地开发了很多实际数据仓库系统,在此介绍一例典型的数据仓库系统。实例:金融业数据仓库解决方案
数据仓库是金融银行机构实现客户关系管理(CustomerRelationshipManagement)的核心技术,也是金融银行业竞争优势的来源,主要的应用业务部门为信用卡部、信贷部、市场部和零售业务部等,应用领域是以客户为中心的的分销渠道管理、客户利润分析、客户关系优化、风险评估和管理。6.4.3数据仓库应用实例NCR公司成功地开发了80
银行只有通过以客户为中心(CustomerCentric)的数据仓库决策支持系统,才能使用科学的方法实现个性化服务。数据仓库系统存放每一位客户同银行往来的详细的历史交易明细数据,对客户有统一的视图。能帮助银行业务用户以科学的手段快速地分析、模拟和预测客户的个性化需求,进而设计符合客户需求的产品或服务。通过客户喜好的渠道完成交易,是增强商业银行竞争能力最有效的手段。
银行只有通过以客户为中心(CustomerCent81
什么是个性化服务呢?可以从客户和银行的观点来看。
客户认为个性化服务是:银行知道我(Who)在什么时间(When)、需要什么产品或服务(What)、以我可以接受的价格(HowMuch)、经由我喜好的分销渠道(Where),对我提供销售。什么是个性化服务呢?可以从客户和银行的观点来看。82
银行的定义是:以有竞争性的产品或服务(What)、在适当的时间(When)、通过适当的分销渠道(Where)、对信用好风险低的客户(Who)、以合理的价格(HowMuch)和利润(Profitable)完成销售。
两者都是在精打细算的前提下,以达成各自的需求和目标。
银行的定义是:以有竞争性的产品或服务(What)、在831、分销渠道的分析和管理银行通过分析知道客户、渠道、产品或服务三者之间的关系;了解客户的购买行为;客户或渠道对业务收入的贡献;哪些客户比较喜好经由什么渠道在何时和银行打交道;目前的分销渠道的服务能力如何;需要增加哪些分销渠道才能达到预期的服务水平。1、分销渠道的分析和管理银行通过分析知道客户、渠道、842、利润评价模型
建立所有客户的每一个帐号的利润评价模型,以便了解每一位客户对银行的总利润贡献度。银行可以依客户的利润贡献度安排合适的分销渠道提供服务和销售,知道哪些有利润的客户需要留住,采用什么方法留住客户,交叉销售改善客户的利润贡献度,那些客户应该争取。另外,银行可以模拟和预测,新产品对银行利润的贡献度,或是新政策对银行会产生什么样的财务影响,或是客户流失或留住对银行的整体利润的影响。2、利润评价模型建立所有客户的每一个帐号的利润评价模853、
客户关系优化
客户在每一笔交易中都能主动地告诉银行需要什么产品和服务,如定期存款是希望退休养老使用等;银行利用客户购买倾向模型、渠道喜好模型等主动地和客户沟通,达到留住客户和增加利润的目标。
3、
客户关系优化
客户在每一笔交易中都能主动地告诉864、
风险评估和管理
风险评估和管理主要利用各种数学模型进行分析,模拟风险和利润间的关系。银行实现了以客户为中心的个性化服务数据仓库决策支持系统,就可以在满足高利润低风险客户需求的前提下,达成银行收益的极大化。4、
风险评估和管理风险评估和管理主要利用各种数学模876.1数据仓库的基本原理6.2数据仓库系统6.3联机分析处理6.4数据仓库的决策支持第六章数据仓库
6.1数据仓库的基本原理第六章数据仓库
886.1数据仓库的基本原理数据仓库的兴起1.“数据太多,信息不足”的现状2.异构环境的数据源据美国《幸福》杂志所列的全球2000家大公司中已有90%将Internet网络和数据仓库这两项技术列入企业计划。数据仓库是1995年开始盛行起来的。6.1数据仓库的基本原理数据仓库的兴起896.1.1数据仓库的概念(1)W.H.Inmon在《建立数据仓库》一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。6.1.1数据仓库的概念(1)W.H.Inmon在901、数据仓库的概念(2)SAS软件研究所定义:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。1、数据仓库的概念(2)SAS软件研究所定义:911、数据仓库的概念
传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。
数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立决策支持系统(DSS)的基础。1、数据仓库的概念传统数据库用于事务处理,也叫操作型92操作型数据(DB数据)与分析型数据(DW数据)之间的差别为:操作型数据(DB数据)与932、数据仓库特点(1)数据仓库是面向主题的
主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是否继续给予贷款。2、数据仓库特点(1)数据仓库是面向主题的942、数据仓库特点(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。2、数据仓库特点(2)数据仓库是集成的952、数据仓库特点(3)数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。(4)数据仓库是随时间变化的数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。2、数据仓库特点(3)数据仓库是稳定的962、数据仓库特点
大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)需要一个巨大的硬件平台需要一个并行的数据库系统最好的数据仓库是大的和昂贵的。2、数据仓库特点大型DW是一个TB(1000GB)级97
近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。
历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。
轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。
高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。6.1.2数据仓库结构近期基本数据:是最近时期的业务数据,是数据仓98专家与决策支持系统课程99数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。6.1.3数据集市(DataMarts)6.1.3数据集市(DataMarts)100数据集市(DataMarts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。数据集市是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。数据集市概念数据集市概念101独立数据集市(IndependentDataMart)从属数据集市(DependentDataMart)数据集市的种类独立数据集市(IndependentDataMart)数1021、规模是小的2、特定的应用3、面向部门4、由业务部门定义,设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、工具集的紧密集成10、更详细的、预先存在的数据仓库的摘要子集11、可升级到完整的数据仓库数据集市的特性1、规模是小的数据集市的特性103
元数据是数据仓库的重要组成部分。
元数据描述了数据仓库的数据和环境,即关于数据的数据(metadata)
元数据包括四种元数据。6.1.4元数据元数据是数据仓库的重要组成部分。6.1.4元数据104元数据是现有的业务系统的数据源的描述信息。元数据是对不同平台上的数据源的物理结构和含义的描述。具体为:(1)数据源中所有物理数据结构,包括所有的数据项及数据类型。(2)所有数据项的业务定义。(3)每个数据项更新的频率,以及由谁或那个过程更新的说明。(4)每个数据项的有效值。1、关于数据源的元数据元数据是现有的业务系统的数据源的描述信息。元数据是对不同平台105
数据仓库的数据模型是星型模型。通常企业数据模型被用作建立仓库数据模型的起始点,再对模型加以修改和变换。2、关于数据模型的元数据2、关于数据模型的元数据106元数据是数据源与数据仓库数据间的映射。当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那些转换,变换和加载过程。3、关于数据仓库映射的元数据元数据是数据源与数据仓库数据间的映射。3、关于数据仓库映射的107这类元数据是数据仓库中信息的使用情况描述。数据仓库的用户最关心的是两类元数据:
(1)元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主题查看数据仓库的内容。(2)元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。4、关于数据仓库使用的元数据这类元数据是数据仓库中信息的使用情况描述。4、关于数1086.2数据仓库系统
6.2.1数据仓库系统结构
数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。6.2数据仓库系统6.2.1数据仓库系统结构1091、数据仓库管理系统(1)定义部分
用于定义和建立数据仓库系统。它包括:(1)设计和定义数据仓库的数据库(2)定义数据来源(3)确定从源数据向数据仓库复制数据时的清理和增强规则(2)数据获取部分
该部件把数据从源数据中提取出来,依定义部件的规则,抽取、转化和装载数据进入数据仓库。
1、数据仓库管理系统(1)定义部分110(3)管理部分
它用于管理数据仓库的工作,包括:(1)对数据仓库中数据的维护(2)把仓库数据送出给分散的仓库服务器或DSS用户(3)对仓库数据的安全、归档、备份、恢复等处理工作1、数据仓库管理系统(3)管理部分1、数据仓库管理系统111(4)信息目录部件(元数据)
数据仓库的目录数据是元数据,由三部分组成:
技术目录:由定义部件生成,关于数据源、目标、清理规则、变换规则以及数据源和仓库之间的映象信息。
业务目录:由仓库管理员生成,关于仓库数据的来源及当前值;预定义的查询和报表细节;合法性要求等。
信息引导器:使用户容易访问仓库数据。利用固定查询或建立新的查询,生成暂时的或永久的仓库数据集合的能力等。1、数据仓库管理系统(4)信息目录部件(元数据)1、数据仓库管理系统112分析工具集分两类工具:(1)查询工具数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。一般包含:
可视化工具:以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。2、数据仓库工具集分析工具集分两类工具:2、数据仓库工具集113多维分析工具(OLAP工具):通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。2、数据仓库工具集2、数据仓库工具集114(2)数据挖掘工具从大量数据中挖掘具有规律性知识,需要利用数据挖掘(DataMining)工具。2、数据仓库工具集(2)数据挖掘工具2、数据仓库工具集1153、数据仓库的运行结构
数据仓库应用是一个典型的客户/服务器(C/S)结构形式。数据仓库采用服务器结构,客户端所做的工作有:客户交互、格式化查询、结果显示、报表生成等。
服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。现在,越来越普通的一种形式是三层C/S结构形式,即在客户与数据仓库服务器之间增加一个多维数据分析(OLAP)服务器。3、数据仓库的运行结构数据仓库应用是一个典型的客户/116
OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。这种结构形式工作效率更高。三层C/S结构OLAP服务器将加强和规范化决策支持的服务工117
数据仓库存储采用多维数据模型。
维就是相同类数据的集合。例如:商店的集合是一维,时间的集合是一维,商品的集合是一维;每一个商店、每一段时间、每一种商品就是某一维的一个成员;每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。
6.2.2数据仓库的存储数据仓库存储采用多维数据模型。6.2.2118数据仓库是以多维表型的“维表—事实表”结构形式组织的,共有三种形式:1、星型模型大多数的数据仓库都采用“星型模型”。
星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。星型模型数据如下图:数据仓库是以多维表型的“维表—事实表”结构形式组119专家与决策支持系统课程120
2、雪花模型雪花模型是对星型模型的扩展,雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是最大限度地减少数据存储量,以及把较小的维表联合在一起来改善查询性能。在上面星型模型的数据中,对“产品表”“日期表”“地区表”进行扩展形成雪花模型数据见下图。
2、雪花模型121专家与决策支持系统课程1223、星网模型
星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。3、星网模型123
联机分析处理(OnLineAnalyticalProcessing,OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。在数据仓库系统中,联机分析处理是重要的数据分析工具。
OLAP的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。6.3联机分析处理联机分析处理(OnLineAnalytic1246.3.1基本概念
OLAP是在OLTP的基础上发展起来的。
OLTP是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据的查询和增、删、改等进行处理。
OLAP是以数据仓库为基础的数据分析处理。它有两个特点:一是在线性(OnLine),由客户机/服务器这种体系结构来完成的;二是多维分析,这也是OLAP的核心所在。6.3.1基本概念OLAP是在OLTP的基础上发1251、OLAP的定义
联机分析处理是共享多维信息的快速分析。它体现了四个特征:(1)快速性:用户对OLAP的快速反应能力有很高的要求。(2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析。(3)多维性:系统必须提供对数据分析的多维视图和分析。(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息1、OLAP的定义联机分析处理是共享多维126
1993年,E.F.Codd提出OLAP的12条准则,其主要的准则有:多维数据分析;客户/服务器结构;多用户支持;一致的报表性能等。
2、OLAP准则1993年,E.F.Codd提出OLAP的12条准则1273.多维概念视图企业的数据空间本身就是多维的。因此OLAP的概念模型也应是多维的。用户可以对多维数据模型进行切片、切块、旋转坐标或进行多维的联合(概括和聚集)分析。3.多维概念视图企业的数据空间本身就是多维的。因此OLAP的1284.稳定的报表性能
报表操作不应随维数增加而削弱,即当数据维数和数据的综合层次增加时,提供的报表能力和响应速度不应该有明显的降低。
4.稳定的报表性能报表操作不应随维数增加而削弱,即1295.客户/服务器体系结构
OLAP是建立在客户/服务器体系结构上的。要求多维数据库服务器能够被不同的应用和工具所访问。5.客户/服务器体系结构OLAP是建立在客户/服务1308.多用户支持
当多个用户要在同一分析模式上并行工作,需要这些功能的支持。
11.灵活的报表生成
报表必须充分反映数据分析模型的多维特征,并可按用户需要的方式来显示它。8.多用户支持131OLAP是针对特定问题的联机数据访问和分析。
(1)变量:变量是数据的实际意义,即描述数据“是什么”。
(2)维:维是人们观察数据的特定角度。如产品维、顾客维、时间维等。
(3)维的层次:数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。
(4)维成员:维的一个取值称为该维的一个维成员。如“某年某月某日”是时间维的一个成员。
3、OLAP的基本概念OLAP是针对特定问题的联机数据访问和分析。3、OLAP132(5)多维数组:一个多维数组可以表示为:(维1,维2,……,维n,变量)
一个5维的结构,即(产品,地区,时间,销售渠道,销售额)。(6)数据单元(单元格):多维数组的取值称为数据单元。如:5维数据单元(牙膏,上海,1998年12月,批发,销售额为100000)。
3、OLAP的基本概念(5)多维数组:一个多维数组可以表示为:3、OLAP的基本概133(1)OLTPOLTP是低层人员利用计算机网络对数据库中的数据进行查询、增、删、改等操作,以完成事务处理工作。OLTP利用数据库快速地处理具体业务。OLTP应用要求多个查询并行。
4、OLAP与OLTP的关系与比较(1)OLTP4、OLAP与OLTP的关系与比较134(2)OLAPOLAP是高层人员对数据仓库进行信息分析处理。①存取大量的数据②包含聚集的数据③按层次对比不同时间周期的聚集数据④以不同的方式来表现数据⑤要包含数据元素之间的复杂的计算⑥能够快速的响应用户的查询
4、OLAP与OLTP的关系与比较(2)OLAP4、OLAP与OLTP的关系与比较135(3)OLAP与OLTP对比(对比表)OLTPOLAP数据库数据数据仓库数据细节性数据综合性数据当前数据历史数据一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理用户数量大用户相对较少面向应用,事务驱动面向分析,分析驱动(3)OLAP与OLTP对比(对比表)OLTPOLAP数据库1366.3.2OLAP的数据组织
MOLAP和ROLAP是OLAP的两种具体形式:
ROLAP是基于关系数据库存储方式建立的OLAP。多维数据映射成平面型的关系表。采用星型模型。6.3.2OLAP的数据组织MOL137
MOLAP是基于多维数据库存储方式建立的OLAP;表现为“超立方”结构,类似于多维数组的结构。在分析中,需要“旋转”数据立方体以及“切片”、“切块”等操作。MOLAP是基于多维数据库存储方式建立的OLAP;138MOLAP和ROLAP的对比表MOLAPROLAP固定维可变维维交叉计算多维视图行级计算超大型数据库读-写应用维数据变化速度快数据集市数据仓库MOLAP和ROLAP的对比表MOLAPROLAP固定维可变139OLAP多维数据分析例如,以“产品、城市、时间”三维数据,如图6.3.3OLAP的决策支持OLAP多维数据分析6.3.3OLAP的决策支持1401、基本功能:切片和切块
对三维数据,通过“切片”,分别从城市和产品等不同的角度观察销售情况:
1、基本功能:切片和切块对三维数据,通过“切片”,141钻取钻取:例如,1995年各部门销售收入表如下:钻取钻取:例如,1995年各部门销售收入表如下:142对时间维进行下钻操作,获得新表如下:钻取(续)对时间维进行下钻操作,获得新表如下:钻取(续)143旋转前的数据旋转旋转前的数据旋转144旋转后的数据旋转(续)旋转后的数据旋转(续)145旋转后再切片旋转后再切片1462、广义OLAP功能
1、基本代理操作
“代理”是一些智能性代理,当系统处于某种特殊状态时提醒分析员。(1)示警报告定义一些条件,一但条件满足,系统会提醒分析员去做分析。如每日报告完成或月定货完成等通知分析员作分析。
(2)异常报告当超出边界条件时提醒分析员。如销售情况已超出预定义阈值的上限或下限时提醒分析员。2、广义OLAP功能1、基本代理操作147
2、计算能力计算引擎用于特定需求的计算或某种复杂计算。
3、模型计算增加模型,如增加系统优化、统计分析、趋势分析等模型,以提高决策分析能力。
2、广义OLAP功能2、计算能力2、广义OLAP功能148假设有一个5维数据模型,5个维分别为:商店,方案,部门,时间,销售。1.三维表查询在指定“商店=ALL,方案=现有”情况的三维表(行为部门,列为时间和销售量)6.3.4、OLAP实例
假设有一个5维数据模型,5个维分别为:商店,方案149
19941995%增长率销售量利润增长%销售量利润增长%销售量利润增长服装234,67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6(8.0)汽车375,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9指定商店、方案后的三维表
19941995%增长率销售量利润增长%销售量利润增长%销150
19941995%增长率销售利润增长%销售利润增长%销售利润增长汽车375,09822.4325,40227.2(13.2)21.4维修195,05114.2180,78615.0(7.3)5.6附件116,28043.9122,54547.55.38.2音乐63,7678.222,07114.2(63.4)7.3
2、向下钻取对汽车部门向下钻取出具体项目的销售情况和利润增长情况。
19941995%增长率销售利润增长%销售利润增长%销售利151
1995销售量服装381,102家具66,005汽车325,402所有其它306,6773、切片表切片(Slice)操作是除去一些列或行不显示
1995销售量服装381,102家具66,005汽车325152
1995销售量现有计划差量差量%服装381,102350,00031.18.9家具66,00569,000(2,995)(4.3)汽车325,402300,00025,4028.5所有其它306,677350,000(44,322)12.74、旋转表这次旋转操作得到1995年的交叉表方案为:现有、计划、差量、差量%。
1995销售量现有计划差量差量%服装381,102350,153
6.4.1数据仓库的开发1、数据仓库规划
①数据仓库开发的范围怎样?
②要解决的业务问题是什么?③开发的数据仓库的决策支持能力是什么?6.4数据仓库的决策支持及实例6.4.1数据仓库的开发6.4数据仓库的决策支持及实例154决策者的需求:对信息的需求对业务过程的需求对数据访问的需求2、定义体系结构决策者的需求:2、定义体系结构155确定体系结构(1)来源:数据应该来自于什么DBMS的源数据?(2)传输:数据通过什么样的网络拓扑结构传送过来?(3)目的地:数据发送到数据仓库的什么硬件环境?(4)元数据:确定存储和访问数据的元数据。(5)变换:编制数据抽取、变换、装载的程序。(6)访问:最终用户怎样才能查询数据?
确定体系结构(1)来源:数据应该来自于什么DBMS的源数据156(1)主题域分析
确定所需数据的范围和内容。并建立数据仓库的数据模型:主题域范围数据仓库的数据模型(2)物理数据库设计
数据的实际存储设计3、数据仓库设计(1)主题域分析3、数据仓库设计157
(1)确定源数据、检查其完整性,进行评价。(2)完成源数据变换到目标数据仓库中去。4、源系统分析与数据变换设计(1)确定源数据、检查其完整性,进行评价。4、源系统分158
完成数据加载;评审;元数据加载;系统测试5、建立数据仓库完成数据加载;评审;元数据加载;系统测试5、建立数据159提供给用户访问的形式:(1)使用现有的特定工具;(2)开发一个最终用户访问程序。6、用户访问方法的设计和开发提供给用户访问的形式:6、用户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度厂房装修工程设计与施工监理合同4篇
- 2025年度厂房租赁安全协议书(智能管理系统适用)4篇
- 2024版货品物流服务协议
- 2025年度新型建材2024grc线条装饰线条供应协议3篇
- 工程建设国家标准《大体积混凝土温度测控技术规范》条文说明
- 2025年度人工智能教育平台开发与应用合同9篇
- 专属2024财务代表协议条款版B版
- 个人房产抵押借款协议标准格式版
- 2024虚拟现实产品开发与销售合同
- 2024版单身公寓租赁合同附图书阅览室使用协议3篇
- 保洁服务岗位检查考核评分标准
- 称量与天平培训试题及答案
- 超全的超滤与纳滤概述、基本理论和应用
- 2020年医师定期考核试题与答案(公卫专业)
- 2022年中国育龄女性生殖健康研究报告
- 各种静脉置管固定方法
- 消防报审验收程序及表格
- 教育金规划ppt课件
- 呼吸机波形分析及临床应用
- 常用紧固件选用指南
- 私人借款协议书新编整理版示范文本
评论
0/150
提交评论