




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、在线分析处理在线分析处理Online Analytical ProcessingOnline Analytical Processing赵卫东 博士复旦大学软件学院OLAP发展背景发展背景n60年代,关系数据库之父年代,关系数据库之父E.F.Codd提出了关系模型,促进提出了关系模型,促进了联机事务处理了联机事务处理(OLTP)的发展的发展(数据以表格的形式而非文件数据以表格的形式而非文件方式存储方式存储)。1993年,年,E.F.Codd提出了提出了OLAP概念,认为概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,已不能满足终端用户对数据库查询分析的需要,SQL对对大型数据库进行
2、的简单查询也不能满足终端用户分析的要求。大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即提出了多维数据库和多维分析的概念,即OLAP。n OLAP是目前是目前RDBMS不可缺少的功能,可以作为一个独立不可缺少的功能,可以作为一个独立的的OLAP服务器实现,也可以集成在服务器实现,也可以集成在RDBMS中。中。什么是什么是OLAPOLAP
3、?n定义定义1 :OLAP(联机分析处理联机分析处理)是针对特定问题的联机数据访是针对特定问题的联机数据访问和分析。通过对信息问和分析。通过对信息(维数据维数据)的多种可能的观察形式进行快的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。深入观察。n定义定义2 :OLAP(联机分析处理联机分析处理) 是使分析人员、管理人员或执是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进
4、行快速、一为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技致、交互地存取,从而获得对数据的更深入了解的一类软件技术。术。(OLAP委员会的定义委员会的定义)nOLAP的目标的目标是满足决策支持或多维环境特定的查询和报表需是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是求,它的技术核心是“维维”这个概念,因此这个概念,因此OLAP也可以说是也可以说是多维数据分析工具的集合。多维数据分析工具的集合。OLAPOLAP决策分析决策分析nOLAPOLAP分析属于验证驱动型发现:用户首先提出分析属于验证驱动型发现:用户首先提出自己的假
5、设,然后利用自己的假设,然后利用OLAPOLAP工具检索查询以验工具检索查询以验证或否定假设。证或否定假设。OLAPOLAP的数据源的数据源OLTP & LegacyERPFlat FilesData Warehouses,Data Marts, ODSSpreadsheetsOLAPOLAP基本概念基本概念n维:维:是人们观察数据的特定角度,是是人们观察数据的特定角度,是考虑问题时的一类属性考虑问题时的一类属性 ( (时间维、地时间维、地理维等理维等) )。n维的层次:维的层次:人们观察数据的某个特定人们观察数据的某个特定角度角度( (即某个维即某个维) )还可以存在细节程度还可以存
6、在细节程度不同的各个描述方面不同的各个描述方面( (时间维:日期、时间维:日期、月份、季度、年月份、季度、年) )。n维的成员:维的成员:维的一个取值。是数据项维的一个取值。是数据项在某维中位置的描述。在某维中位置的描述。(“(“某年某月某某年某月某日日”是在时间维上位置的描述是在时间维上位置的描述) )n多维数组:多维数组:维和变量的组合表示。一维和变量的组合表示。一个多维数组可以表示为:个多维数组可以表示为:( (维维1 1,维,维2 2,维,维n n,变量,变量) )。( (时间,地区,时间,地区,产品,销售额产品,销售额) )n数据单元数据单元( (单元格单元格) ):多维数组的取值。
7、多维数组的取值。(2000(2000年年1 1月,上海,笔记本电脑,月,上海,笔记本电脑,$100000)$100000)产 品时 间财 务 指 标进 口 烟国 产 烟收 入开 销Q1 Q 2 Q 3 Q4卷 烟 销 售 分 析OLAPOLAP特性特性n快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。客户/服务器体系结构两层或三层C/S结构。n可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。n多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。n信息性:不论数据量有多大,
8、也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。OLAP多维数据结构多维数据结构n超立方结构超立方结构(Hypercube)(Hypercube) 多维数据集多维数据集n立方体或超立方结构指用三维或更多的维数来立方体或超立方结构指用三维或更多的维数来描述一个对象描述一个对象, ,每个维彼此垂直。每个维彼此垂直。n数据的测量值发生在维的交叉点上数据的测量值发生在维的交叉点上, ,数据空间的数据空间的各个部分都有相同的维属性各个部分都有相同的维属性 ( (收缩超立方结构,收缩超立方结构,这种结构的数据密度更大这种结构的数据密度更大, ,数据的维数更少数据的维数更少, ,并并
9、可加入额外的分析维可加入额外的分析维) )。 客户种类数量分布多维立方客户种类数量分布多维立方 OLAP操作操作nCoddCodd从可视化角度提出,主要基于统计的方法:从可视化角度提出,主要基于统计的方法:n切片和切块切片和切块(Slice and Dice(Slice and Dice) )n在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。n钻取钻取(Drill) (Drill) n钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,钻取的
10、深度与维所划分的层次相对应。 n 旋转旋转(Rotate)/(Rotate)/旋转旋转(Pivot)(Pivot)n通过旋转可以得到不同视角的数据。n辅之于各种图形展示分析结果辅之于各种图形展示分析结果 切片、切块切片、切块销售数据的销售数据的4-D表示表示 Dicing ExampleDicing:FilteringbyAUS1+AUS2andWholesaleSlicing ExampleSlicing:FilteringbyAUS2Web数据的多维分析数据的多维分析钻取钻取数据聚集旋转旋转时间产品财务指标财务指标产品时间pivotDrill-across:Distributionfirs
11、t,SalesOrg.second按城市的销售数据按城市的销售数据按产品的销售数据按产品的销售数据国际体育用品公司的数据分析(国际体育用品公司的数据分析(1)IBM Visual Warehouse V3.1 Lotus Approach或或Microsoft Access Intelligent Miner for data/text 国际体育用品公司的数据分析(国际体育用品公司的数据分析(2)按地区划分的头盔销售数据按地区划分的头盔销售数据按地区和国家划分的头盔销售数据按地区和国家划分的头盔销售数据 国际体育用品公司的数据分析(国际体育用品公司的数据分析(3)按地区、国家和城市划分的头盔销
12、售数据按地区、国家和城市划分的头盔销售数据 山地车和头盔销售的比较山地车和头盔销售的比较Brio Enterprise丰富的钻取功能丰富的钻取功能 图4.5 Cognos的钻取操作IBM Cognos的钻取操作 OLAPOLAP分类分类按照存储方式按照存储方式OLAPMOLAPHOLAPROLAP按照处理地点按照处理地点Client OLAPServer OLAPRelational databaseCubeMicrosoft SQL Server OLAP ServiceROLAPMOLAPHOLAP基于关系数据库的基于关系数据库的OLAPROLAPn用关系表达式描述多维概念大量的关系表。用
13、关系表达式描述多维概念大量的关系表。n用星型模型、雪花模型构造维模型。用星型模型、雪花模型构造维模型。DBDW基础数据基础数据元数据元数据计算结果计算结果多维综合引多维综合引擎擎多维多维视图视图SQL存取存取多维多维存取存取RDBMS服务器服务器关系型关系型OLAP 服务器服务器 客户客户MOLAPMOLAP的多维立方体的多维立方体(Multicube)(Multicube)DBDW多维视图多维视图 基础数据基础数据 计算结果计算结果多维数据多维数据库引擎库引擎客户客户多维多维存取存取基于多维数据库基于多维数据库(MDDB)的的OLAPMOLAPOLAP服务器:存储服务器:存储OLAP服务软件
14、和多维数据库服务软件和多维数据库MDDB存储:采用存储:采用“超立方超立方体体”形式形式MDDB存取存取:多维操作:多维操作数据组织形式数据组织形式nRDB数据组织 - MDDB数据组织 - 关系表中综合数据的存放 n多维数据库中综合数据的存放 产品名称地区销售量冰箱东北50冰箱西北60冰箱华北100彩电东北40彩电西北70彩电华北80空调东北90空调西北120空调华北140 东北西北华北冰箱5060100彩电407080空调90120140产品名称地区销售量冰箱东北50冰箱西北60冰箱华北100冰箱总和210彩电东北40彩电西北70彩电华北80彩电总和190空调东北90空调西北120空调华北
15、140空调总和350总和东北180总和西北250总和华北320总和总和750 东北西北华北总和冰箱5060100210彩电407080190空调90120140350总和180250320750ROLAP与与MOLAP比较比较n在MOLAP中,不但把多维实视图在概念上看成一个超立方体,而且在物理上把多维实视图组成一个多维数组,而不象ROLAP以表的形式存储实视图。n在MOLAP中,维的属性值被映射成多维数组的下标值或下标的范围,而总数据作为多维数组的值存储在数据的单元中。nROLAP在节省存储空间、灵活性、与关系数据库保持一致性等方面有明显的优势; MOLAP则在性能和管理的简便性方面有其优点。nMOLAP的查询速度比较快,但有下面限制:n用多维数组实现多维实视图,需要很大的存储空间。在实际的数据仓库中,每维的属性值个数可能数万。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB31/T 845-2020新能源汽车公共数据采集技术规范
- DB31/T 554-2015大型公共文化设施建筑合理用能指南
- DB31/T 5000-2012住宅装饰装修服务规范
- DB31/T 34-2020工业炉窑热平衡测试与计算通则
- DB31/T 192.2-2015单季晚稻栽培技术规范第2部分:机械化育插秧栽培技术
- DB31/T 1240.2-2020公共数据共享交换工作规范第2部分:平台接入技术要求
- DB31/T 1143-2019空压机系统能效在线监测技术规范
- DB31/T 1065-2017公共汽(电)车线路和站点统一编码规范
- DB31/T 1055-2017电动汽车无线充电系统第2部分:设备要求
- DB31/ 833-2014钢铁感应热处理工序单位产品能源消耗限额
- 2025-2030年中国煤电行业市场深度发展趋势与前景展望战略研究报告
- 2025年医院感染控制试题及答案
- 浙江省温州市环大罗山联盟2024-2025学年高一下学期期中考试 英语 PDF版含答案
- 环境保护项目进度安排与保障措施
- 公路工程标准施工招标文件(2018年版)
- DL∕T 5776-2018 水平定向钻敷设电力管线技术规定
- 精神发育迟滞的护理查房
- 家庭住房情况查询申请表
- 2019年甘肃省天水市中考生物试题(word版,含答案)
- 磁芯参数对照表
- 人造草坪设计说明
评论
0/150
提交评论