第3章LAP技术_第1页
第3章LAP技术_第2页
第3章LAP技术_第3页
第3章LAP技术_第4页
第3章LAP技术_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2第第3 3章章 联机分析处理联机分析处理3.1 olap概念与特性3.2 olap的数据模型3.3 多维数据的显示3.4 多维数据分析3.5 olap的结构与分析工具 联机分析处理联机分析处理(on line analytical processingon line analytical processing,olapolap)在在数据仓库系统中,是重要的数据分析工具。数据仓库系统中,是重要的数据分析工具。 olapolap的基本思想是从多方面和多角度以多维的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。的形式来观察企业的状态和了解企业的变化。43.1 olap概念

2、与特性概念与特性 olap是在是在oltp的基础上发展起来的。的基础上发展起来的。 oltp是以数据库为基础的,面对的是操作人员和低层管是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据的查询和增、删、改等进行处理。理人员,对基本数据的查询和增、删、改等进行处理。 olap是以数据仓库为基础的数据分析处理。它有两个特是以数据仓库为基础的数据分析处理。它有两个特点:点: 一是在线性(一是在线性(on line),由客户机),由客户机/服务器这种体系结构服务器这种体系结构来完成的;表现为对用户请求的快速响应和交互式操作。来完成的;表现为对用户请求的快速响应和交互式操作。 二是多维分析,

3、这也是二是多维分析,这也是olap的核心所在。的核心所在。53.1.1 olap的定义的定义1. olap理事会给出的定义n联机分析处理(olap)是一种软件技术软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。n这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。 联机分析处理是共享多维信息的快速分析。联机分析处理是共享多维信息的快速分析。 它体现了四个特征:它体现了四个特征: (1)快速性)快速性:用户对用户对olap的快速反应能力有很高的要求。的快速反应能力有很高的要求。 (2)可分析性)可分析性:olap系统应能处理任何逻

4、辑分析和统计分系统应能处理任何逻辑分析和统计分析。析。 (3)多维性)多维性:系统必须提供对数据分析的多维视图和分析。系统必须提供对数据分析的多维视图和分析。 (4 4)信息性)信息性:olapolap系统应能及时获得信息,并且管理大容量系统应能及时获得信息,并且管理大容量的信息。的信息。 7 19931993年,年,e.f.codde.f.codd提出提出olapolap的的1212条准则,其主条准则,其主要的准则有:要的准则有: 多维数据分析;多维数据分析; 客户客户/ /服务器结构;服务器结构; 多用户支持;多用户支持; 一致的报表性能等。一致的报表性能等。 81.1.必须提供多维概念视

5、图必须提供多维概念视图n企业的数据空间本身就是多维的。因此olap的概念模型也应是多维的。n用户可以对多维数据模型进行切片、切块、旋转坐标或进行多维的联合(概括和聚集)分析。92.2.一致稳定的报表性能一致稳定的报表性能 报表操作不应随维数增加而削弱,即当数据维数和数据的综合层次增加时,提供的报表能力和响应速度不应该有明显的降低。 103客户客户/服务器体系结构服务器体系结构 olap是建立在客户/ 服务器体系结构上的。 多维数据库服务器能够被不同的应用和工具所访问。 客户端负责应用逻辑及用户界面。 4多用户支持能力 当多个用户要在同一分析模式上并行工作,olap工具应能够提供并发访问等功能。

6、 5灵活的报表生成 报表必须充分反映数据分析模型的多维特征,并可按用户需要的方式来显示它。 olap olap是针对特定问题的联机数据访问和分析。是针对特定问题的联机数据访问和分析。 (1 1)变量)变量 :变量是数据的实际意义,即描述数据变量是数据的实际意义,即描述数据“是什么是什么”。 (2 2)维)维:维是人们观察数据的特定角度。如产品维、:维是人们观察数据的特定角度。如产品维、顾客维、时间维等。顾客维、时间维等。 (3 3)维的层次)维的层次:数据的细节不同程度为维的层次。如:数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。日、月、季、年是时间维的层次。 (4 4)维成员

7、)维成员:维的一个取值称为该维的一个维成员。:维的一个取值称为该维的一个维成员。如如“某年某月某日某年某月某日”是时间维的一个成员。是时间维的一个成员。 (5 5)多维数组)多维数组:一个多维数组可以表示为:一个多维数组可以表示为:(维(维1 1,维,维2 2,维,维n n,变量),变量) 一个一个4 4维的结构,即(产品,地区,时间,销售渠道,销售维的结构,即(产品,地区,时间,销售渠道,销售额)。额)。(6 6)数据单元(单元格)数据单元(单元格): 多维数组的取值称为数据单元。多维数组的取值称为数据单元。 如:如:4 4维数据单元(牙膏,上海,维数据单元(牙膏,上海,19981998年年

8、1212月,批发,销售月,批发,销售额为额为100000100000)。)。 3.2.1 数据立方体的有效计算模型3.2.2 rolap数据模型3.2.3 molap数据模型3.2.4 molap与rolap的比较3.2.5 holap数据模型3.2.1 数据立方体的有效计算数据立方体的有效计算17方体计算的有效方法方体计算的有效方法183.2.2rolap数据模型nrolap是基于关系数据库的olap。n它是一个平面结构,用关系数据库表示多维数据时,采用星型模型。 方体的操作方体的操作253.2.3molap的数据模型的数据模型 molap是基于多维数据库存储方式建立的olap;表现为“超立

9、方”结构,采用类似于多维数组的结构。 例如,二维mddb(数组,即矩阵)的数据组织见表3.1所示。 26表表3.1 mddb(二维)数据组织(二维)数据组织北京北京上海上海广州广州衣服衣服600700500鞋鞋800900700帽子帽子10020080molap的存储方法的存储方法molap中的数据立方体计算中的数据立方体计算molap中的数据立方体计算中的数据立方体计算n多路数组聚集(多路数组聚集(multiway)方法:方法:n使用多维数组作为基本数据结构,计算完全数据立方体。它是一种使用数组直接寻址的典型的molap方法,其中,维值通过位置或对应数组维值的下标访问。34(1)将数组分块)

10、将数组分块n块是一个子立方体,其大小能够放入立块是一个子立方体,其大小能够放入立方体计算时可用的内存。方体计算时可用的内存。n采用分块(采用分块(chunking)将)将n维数组划分维数组划分成小的成小的n维块的方法。维块的方法。n对于稀疏数组,采用压缩稀疏数组结构;对于稀疏数组,采用压缩稀疏数组结构;(2)通过访问立方体单元(即存储)通过访问立方体单元(即存储立方体单元的值)计算聚集。立方体单元的值)计算聚集。n保证每个单元必须重复访问的次数最小化,保证每个单元必须重复访问的次数最小化,从而减少内存访问和存储开销。从而减少内存访问和存储开销。n同时计算一些可能同时的聚集,避免不必要同时计算一

11、些可能同时的聚集,避免不必要的单元再次访问。的单元再次访问。38总结:总结:n由于分块技术设计由于分块技术设计“重叠重叠”某些聚集计某些聚集计算,称该技术为多路数组聚集算,称该技术为多路数组聚集(multiway array aggregation)n它同时聚集它同时聚集即同时对多个维计算聚即同时对多个维计算聚集。集。393.2.4 molap与rolap的比较1.数据存取速度数据存取速度2.数据存储的容量数据存储的容量3.多维计算的能力多维计算的能力4.维度变化的适应性维度变化的适应性5.数据变化的适应性数据变化的适应性6.软硬件平台的适应性软硬件平台的适应性7.元数据管理元数据管理401.

12、数据存取速度nrolap服务器需要将sql语句转化为多维存储语句,临时“拼合”出多维数据立方体。因此,rolap的响应时间较长。n molap在数据存储速度上性能好,响应速度快。 412.数据存储的容量nrolap使用的传统关系数据库的存储方法,在存储容量上基本没有限制。nmolap通常采用多平面叠加成立体的方式存放数据。n当数据量超过操作系统最大文件长度时,需要进行数据分割。n多维数据库的数据量级难以达到太大的字节级。 423.多维计算的能力nmolap能够支持高性能的决策支持计算。nrolap无法完成多行的计算和维之间的计算。434.维度变化的适应性维度变化的适应性nmolap增加新的维度

13、,则多维数据库通常需要重新建立。nrolap对于维表的变更有很好的适应性。445.数据变化的适应性数据变化的适应性n当数据频繁的变化时,当数据频繁的变化时,molap需要进行需要进行大量的重新计算,甚至重新建立索引乃大量的重新计算,甚至重新建立索引乃至重构多维数据库。至重构多维数据库。n在在rolap中灵活性较好,对于数据变化中灵活性较好,对于数据变化的适应性高。的适应性高。6.软硬件平台的适应性软硬件平台的适应性rolap对软硬件平台的适应性很好,而对软硬件平台的适应性很好,而molap相对较差。相对较差。7.元数据管理元数据管理目前在元数据的管理,目前在元数据的管理,molap和和rola

14、p都都没有成形的标准。没有成形的标准。 molapmolap和和rolaprolap的对比简表的对比简表molapmolaprolaprolap固定维固定维可变维可变维维交叉计算维交叉计算多维视图多维视图行级计算行级计算超大型数据库超大型数据库读读- -写应用写应用维数据变化速度快维数据变化速度快数据集市数据集市数据仓库数据仓库473.2.5holap数据模型数据模型 nholap(hybrid olap),即混和),即混和olap介于介于molap和和rolap之间。在之间。在holap中,对最常中,对最常用的维度和维层次,使用多维数据表来存储,对用的维度和维层次,使用多维数据表来存储,对于

15、用户不常用的维度和数据,采用于用户不常用的维度和数据,采用rolap星型星型结构来存储。结构来存储。 n在在holap的多维数据表中的数据维度少于的多维数据表中的数据维度少于molap中的维度表,数据存储容量也少于中的维度表,数据存储容量也少于molap方式。方式。nholap在数据存取速度上又低于在数据存取速度上又低于molap。493.3 多维数据的显示多维数据的显示3.3.1 多维数据显示方法多维数据显示方法3.3.2 多维类型结构多维类型结构(mts)3.3.3 多维数据的分析视图多维数据的分析视图503.3.1 多维数据显示方法多维数据显示方法n多维数据的显示只能在平面上展现出来。多

16、维数据的显示只能在平面上展现出来。三维数据无法在平面上展现出来。三维数据无法在平面上展现出来。n三维数据显示见表三维数据显示见表3.6所示。所示。 产品名地区时间销售量衣服北京1月100衣服北京2月200衣服北京3月300衣服上海1月200衣服上海2月300衣服上海3月400衣服广州1月150衣服广州2月250衣服广州3月300鞋北京1月150鞋北京2月300鞋北京3月350鞋上海1月200鞋上海2月300鞋上海3月400鞋广州1月150鞋广州2月250鞋广州3月300523.3.2 多维类型结构多维类型结构(mts)n表示方法是:每一个维度用一条线段来表示方法是:每一个维度用一条线段来表示。

17、维度中的每一个成员都用线段上表示。维度中的每一个成员都用线段上的一个单位区间来表示。的一个单位区间来表示。n例如,用三个线段分别表示时间、产品例如,用三个线段分别表示时间、产品和指标三个维的多维类型结构如图和指标三个维的多维类型结构如图3.3所所示。示。 53图图3.3三维三维mts例例n在图在图3.3多维类型结构多维类型结构(mts)中,指定时间维成中,指定时间维成员是员是3月,产品维成员是鞋,指标维成员是销售月,产品维成员是鞋,指标维成员是销售量,这样它代表了三维数据总得一个空间数据点,量,这样它代表了三维数据总得一个空间数据点,如图如图3.4所示。所示。图图3.4多维类型结构中的空间数据

18、点多维类型结构中的空间数据点553.3.3多维数据的分析视图多维数据的分析视图n在平面的屏幕上显示多维数据,是利用在平面的屏幕上显示多维数据,是利用行、列和页面三个显示组来表示的。例行、列和页面三个显示组来表示的。例如,对上例的四维如,对上例的四维mts实例,在页面上实例,在页面上选定商店维度中选定商店维度中“商店商店3”,在行中选定,在行中选定时间维的时间维的“1月、月、2月、月、3月月”共共3个成员,个成员,在列中选定产品维中的在列中选定产品维中的“上衣、裤、帽上衣、裤、帽子子”三个成员,以及指标维中的三个成员,以及指标维中的“固定固定成本、直接销售成本、直接销售”二个成员。该四维数二个成

19、员。该四维数据的显示如图据的显示如图3.6所示。所示。56商店3(页面)上衣裤帽子直接销售固定成本直接销售固定成本直接销售固定成本1月4503505504505004002月3802804603604003203月400310480410450400图图3.6 四维数据的显示四维数据的显示n对于更多维度的数据显示,需要选择维度及其成对于更多维度的数据显示,需要选择维度及其成员分布在行或者列中。在页面上可以选定多个维员分布在行或者列中。在页面上可以选定多个维度,但每个维度只能显示一个成员。在行或者列度,但每个维度只能显示一个成员。在行或者列中一般只选择二个维,每个维可以多个成员。例中一般只选择二

20、个维,每个维可以多个成员。例如,对如,对6个维度数据,它的个维度数据,它的mts如图如图3.7所示。所示。图图3.7 六维维六维维mts例例n对以上对以上6维数据中,设定页面维度为商店的维数据中,设定页面维度为商店的成员是成员是“商店商店3”,客户维度成员是,客户维度成员是“老年老年”。行维度含时间维和产品维共行维度含时间维和产品维共2个维度,其中个维度,其中时间维中成员为时间维中成员为“1月、月、2月、月、3月月” 。产品。产品维中成员为维中成员为“桌子、台灯桌子、台灯”。列维度含指标。列维度含指标维和场景维共维和场景维共2个维度,其中指标维中成员个维度,其中指标维中成员为为“直接销售、间接

21、销售、总销售直接销售、间接销售、总销售”。场景。场景维中成员为维中成员为“实际、计划实际、计划”。具体的显示数。具体的显示数据如图据如图3.8所示。所示。商店3,老年(页面)直接销售间接销售总销售实际计划实际计划实际计划1月桌子250300125150375450台灯2653201331604004802月桌子333400167200500600台灯2833401421704255103月桌子350420175210525630台灯250300125150375450图图3.8六维数据的显示六维数据的显示613.4oalp的多维数据分析的多维数据分析3.4.1 多维数据分析的基本操作多维数据分

22、析的基本操作3.4.2 广义广义olap功能功能3.4.3 多维数据分析实例多维数据分析实例62例如,以例如,以“产品、城市、时间产品、城市、时间”三维数据,如三维数据,如图图时间城市产品电视机电冰箱广州上海959663 1. 1.切片切片 对三维数据,通过对三维数据,通过“切片切片” ” ,分别从城市和产,分别从城市和产品等不同的角度观察销售情况:品等不同的角度观察销售情况: 电视机电冰箱广州上海642.切块切块n(1)在多维数组的某一个维上选定某一区间的维成员)在多维数组的某一个维上选定某一区间的维成员的操作的操作n切块可以看成是在切片的基础上,确定某一个维成员切块可以看成是在切片的基础上

23、,确定某一个维成员的区间得到的片段,也即由多个切片叠合起来。的区间得到的片段,也即由多个切片叠合起来。n(2)选定多维数组的一个三维子集的操作)选定多维数组的一个三维子集的操作n在多维数组(维在多维数组(维1,维,维2,维,维n,变量)中选定,变量)中选定3个维,维个维,维i、维、维j、维、维k,在这,在这3个维上分别取一个区间,个维上分别取一个区间,或任意维成员,而其它维都取定一个维成员。或任意维成员,而其它维都取定一个维成员。65图图3.11 三维数据切块三维数据切块663.钻取钻取n钻取有向下钻取(钻取有向下钻取(drill down )和向上)和向上钻取(钻取(drill up )操作

24、。)操作。n向下钻取是使用户在多层数据中能通过向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。导航信息而获得更多的细节性数据。n向上钻取获取概括性的数据。向上钻取获取概括性的数据。 67钻取:例如,钻取:例如,20052005年各部门销售收入表如下:年各部门销售收入表如下:68对时间维进行下钻操作,获得新表如下:对时间维进行下钻操作,获得新表如下:2005年部门1季度2季度3季度4季度部门1200200350150部门225050150150部门3200150180270694.旋转旋转n通过旋转可以得到不同视角的数据。旋通过旋转可以得到不同视角的数据。旋转操作相当于平面数据

25、将坐标轴旋转。转操作相当于平面数据将坐标轴旋转。例如,旋转可能包含了交换行和列,或例如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去。是把某一个行维移到列维中去。n或是把页面显示中的一个维和页面外的或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的维进行交换(令其成为新的行或列中的一个)一个) 70时间维产品维产品维时间维(a)行列交换旋转以改变显示布局时间维地区维产品维时间维产品维地区维71旋转前的数据旋转前的数据72旋转后的数据旋转后的数据73旋转后再切片旋转后再切片74 1、基本代理操作 当系统处于某种特殊状态时“代理”提醒分析员。 (1)示警报告 定义一些条

26、件,一但条件满足,系统会提醒分析员去做分析。如每日报告完成或月定货完成等通知分析员作分析。 (2)时间报告 按日历和时钟提醒分析员。 (3)异常报告 当超出边界条件时提醒分析员。如销售情况已超出预定义阈值的上限或下限时提醒分析员。75 2数据分析模型数据分析模型 n(1)绝对模型)绝对模型n通过比较历史数据值或行为来描述过去通过比较历史数据值或行为来描述过去发生的事实。发生的事实。n绝对模型只能对历史数据进行比较,并绝对模型只能对历史数据进行比较,并且利用回归分析等一些分析方法得出趋且利用回归分析等一些分析方法得出趋势信息。势信息。 76(2)解释模型)解释模型n利用系统已有的多层次的综合路径

27、层层利用系统已有的多层次的综合路径层层细化,找出事实发生的原因。细化,找出事实发生的原因。n n假设今年销售量下降,那么解释模型应假设今年销售量下降,那么解释模型应当能找出原因,即下滑与时间、地区、当能找出原因,即下滑与时间、地区、商品及销售渠道四者中的何种因素有关。商品及销售渠道四者中的何种因素有关。 77(3)思考模型)思考模型n说明在一维或多维上引入一组具体变量说明在一维或多维上引入一组具体变量或参数后将会发生什么。或参数后将会发生什么。 n例如该公司决策者为了了解某商品的销例如该公司决策者为了了解某商品的销售量是否与顾客的年龄有关,引入了行售量是否与顾客的年龄有关,引入了行变量年龄,即

28、在当前的多维视图上增变量年龄,即在当前的多维视图上增加了顾客的年龄维。加了顾客的年龄维。 78(4)公式模型)公式模型n该模型表示在多个维上,需要引入哪些该模型表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。变量或参数,以及引入后所产生的结果。n公式模型自动完成上述变量引入工作,公式模型自动完成上述变量引入工作,从而最终找出与销量有关的全部因素,从而最终找出与销量有关的全部因素,并给出了引入后的结果。并给出了引入后的结果。793.商业分析模型商业分析模型n(1)分销渠道的分析模型)分销渠道的分析模型n(2)客户利润贡献度模型)客户利润贡献度模型n(3)客户关系(信用)优化模型)

29、客户关系(信用)优化模型n(4)风险评估模型)风险评估模型80(1)分销渠道的分析模型)分销渠道的分析模型n通过客户、渠道、产品或服务三者之间通过客户、渠道、产品或服务三者之间的关系,了解客户的购买行为、客户和的关系,了解客户的购买行为、客户和渠道对业务收入的贡献、哪些客户比较渠道对业务收入的贡献、哪些客户比较喜好由什么渠道在何时和银行打交道。喜好由什么渠道在何时和银行打交道。n为此,银行需要建立客户购买倾向模型为此,银行需要建立客户购买倾向模型和渠道喜好模型等。和渠道喜好模型等。81(2)客户利润贡献度模型)客户利润贡献度模型n 通过该模型能了解每一位客户对银行通过该模型能了解每一位客户对银

30、行的总利润贡献度。的总利润贡献度。n知道哪些利润高的客户需要留住,采用知道哪些利润高的客户需要留住,采用什么方法留住客户,交叉销售改善客户什么方法留住客户,交叉销售改善客户的利润贡献度,哪些客户应该争取,完的利润贡献度,哪些客户应该争取,完成个性化服务。成个性化服务。82(3)客户关系(信用)优化模型)客户关系(信用)优化模型n银行对客户的每一笔交易中,知道客户需要什银行对客户的每一笔交易中,知道客户需要什么产品或服务,例如,定期存款是希望退休养么产品或服务,例如,定期存款是希望退休养老使用,申请信用卡需要现金消费,询问放贷老使用,申请信用卡需要现金消费,询问放贷利息需要住房贷款等。利息需要住

31、房贷款等。n通过模型计算,主动地对客户沟通并进行交叉通过模型计算,主动地对客户沟通并进行交叉销售,达到留住客户和增加利润的目标。销售,达到留住客户和增加利润的目标。83(4)风险评估模型)风险评估模型n模拟风险和利润间的关系,建立风险评模拟风险和利润间的关系,建立风险评估的数学模型,在满足高利润、低风险估的数学模型,在满足高利润、低风险客户需求的前提下,达到银行收益的极客户需求的前提下,达到银行收益的极大化。大化。84 假设有一个假设有一个5 5维数据模型,维数据模型,5 5个维分别为:商个维分别为:商店,方案,部门,时间,销售。店,方案,部门,时间,销售。 1 1多维数据存储多维数据存储 在

32、指定在指定“商店商店=all=all,方案,方案= =现有现有”情况的三维情况的三维表(行为部门,列为时间和销售量)表(行为部门,列为时间和销售量) 20042005%增长率销售量利润增长%销售量利润增长%销售量利润增长服装234,67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6(8.0)汽车375,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9 20042005%增长率增长率销售销售利润增利润增长长%销售销售利润增利润增长长%销售销售利润增利润增长长汽车汽车375,09822.4325,40227.2(13.2)21.4维修维修195,05114.2180,78615.0(7.3)5.6附件附件116,28043.9122,54547.55.38.2音乐音乐63,7678.222,07114.2(63.4)7.3 对汽车部门向下钻取出具体项目的销售情况和对汽车部门向下钻取出具体项目的销售情况和利润增长情况。利润增长情况。 2005销售量销售量服装服装38

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论