数据仓库的概念和体系结构综述课件_第1页
数据仓库的概念和体系结构综述课件_第2页
数据仓库的概念和体系结构综述课件_第3页
数据仓库的概念和体系结构综述课件_第4页
数据仓库的概念和体系结构综述课件_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章

数据仓库的概念与体系结构

11/17/20221数据仓库与数据挖掘第1章数据仓库的概念与体系结构11/10/20221数1.1数据仓库的概念、特点与组成数据仓库的概念数据仓库就是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,通常用于辅助决策支持(DDS)11/17/20222数据仓库与数据挖掘1.1数据仓库的概念、特点与组成数据仓库的概念11/10/1.1数据仓库的概念、特点与组成数据仓库的特点:面向主题;集成的;相对稳定的;反映历史变化。11/17/20223数据仓库与数据挖掘1.1数据仓库的概念、特点与组成数据仓库的特点:11/1011/17/20224数据仓库与数据挖掘11/10/20224数据仓库与数据挖掘数据库与数据仓库的比较11/17/20225数据仓库与数据挖掘数据库与数据仓库的比较11/10/20225数据仓库与数据挖1.1数据仓库的概念、特点与组成数据仓库的组成:数据仓库数据库;数据抽取工具;元数据:技术元数据与业务元数据;访问工具;数据集市(DataMarts);数据仓库管理;信息发布系统。11/17/20226数据仓库与数据挖掘1.1数据仓库的概念、特点与组成数据仓库的组成:11/101.2数据挖掘的概念与方法数据挖掘的概念数据挖掘(DataMining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)11/17/20227数据仓库与数据挖掘1.2数据挖掘的概念与方法数据挖掘的概念11/10/2021.2数据挖掘的概念与方法数据挖掘的方法:直接数据挖掘间接数据挖掘。11/17/20228数据仓库与数据挖掘1.2数据挖掘的概念与方法数据挖掘的方法:11/10/201.2数据挖掘的概念与方法数据仓库与数据挖掘的关系若将数据仓库(DataWarehouse)比作矿井,那么数据挖掘(DataMining)就是深入矿井采矿的工作数据挖掘是从数据仓库中找出有用信息的一种过程与技术11/17/20229数据仓库与数据挖掘1.2数据挖掘的概念与方法数据仓库与数据挖掘的关系11/11.3数据仓库的技术、方法与产品联机事务处理(OLTP)与联机分析处理(OLAP)的比较;OLTPOLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动11/17/202210数据仓库与数据挖掘1.3数据仓库的技术、方法与产品联机事务处理(OLTP)与OLAP技术的有关概念:多维数据集、维度、数据立方体、度量值和多维分析;1.多维数据集是数据的集合(多维数组)多维数据集是决策支持的依据,也是OLAP的核心。OLAP展现的结果是一幅幅多维视图。多维数据集可以用一个多维数组表示。例如经典的时间、地理位置和产品的多维数据集可以表示为:(时间,地理位置,产品,销售数据),类似地,其它多维数据集可表示为:(维1,维2,维3,……,维n,观察变量)形式。11/17/202211数据仓库与数据挖掘OLAP技术的有关概念:多维数据集、维度、数据立方体、度量数据仓库是用于决策支持的,管理人员在进行决策分析时,经常需要选择一个对决策支持活动有重要影响的因素去进行决策分析,这些决策因素就构成了分析问题的角度,这些分析角度就是数据仓库中的维度。从而构成了三维、多维空间。维度是数据仓库中识别数据的索引。维度具有层次性。可以根据数据的组织层次进行“上卷”或“下钻”,了解具体信息。2.维度维是人们观察数据的特定角度11/17/202212数据仓库与数据挖掘数据仓库是用于决策支持的,管理人员在进行决策分析时,经常需要3.数据立方体从不同角度对同一数据进行观察得到的数据交点,构成了数据立方体。当观察的角度(参数)超过三个所构成的数据结果集称为超立方体,也称为超维数据集。商品城市日期牛奶浴巾毛巾可乐果汁4321北京上海长沙广州武汉商品、城市、日期维工业国家年商品市日类别省月11/17/202213数据仓库与数据挖掘3.数据立方体从不同角度对同一数据进行观察得到的数据交点,构4.度量值是多维数据集的核心值。是最终用户在数据仓库应用中所需要查看的数据。如:销售量、成本、费用等。11/17/202214数据仓库与数据挖掘4.度量值是多维数据集的核心值。11/10/202214数据5.多维分析OLAP的多维分析是指对多维数据集中的数据用切片、切块、旋转等方式分析数据。使用户能从多个角度、多个侧面去观察数据仓库中的数据。CT?11/17/202215数据仓库与数据挖掘5.多维分析OLAP的多维分析是指对多维数据集中的数据用切片(1)多维的切片在多维分析过程中,如果对多维数据集的某个维选定一维成员,这种选择操作,就可以称之为切片。有多维数据集(维1,维2,……,维i,……,维n,观察变量),如果确定了某个维成员维i的值,则称:在维i上的一个切片为(维1,维2,……,维i成员,……,维n,观察变量)。一个多维数组的切片最终是由该数组中除切片所在平面之外的其他成员值确定的。维是观察数据的角度,切片的作用或结果是舍弃一些观察角度,以便集中观察该维的数据。11/17/202216数据仓库与数据挖掘(1)多维的切片11/10/202216数据仓库与数据挖掘

产品北京上海 化妆品江苏 玩具 服装 电器1234时间(月)销售数量:10000服装切片11/17/202217数据仓库与数据挖掘

(2)多维的切块与切片类似,如果在一个多维数据集上对两个及其以上的维选定维成员的操作称为切块。如有多维数据集(维1,维2,……,维i,……,维k,……,维n,观察变量),对维i,……,维k,选定了维成员,那么(维1,维2,……,维i成员,……,维k成员,……,维n,观察变量)就是多维数据集(维1,维2,……,维i,……,维k,……,维n,观察变量)在维i,……,维k上的一个切块。

11/17/202218数据仓库与数据挖掘(2)多维的切块11/10/202218数据仓库与数据挖掘(3)旋转改变多维数据集显示的维方向。旋转前的维方向2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市677359967369629411/17/202219数据仓库与数据挖掘(3)旋转2002年2003年1季度2季度3季度4季度1季度旋转后的维方向(不同维度间的旋转操作)

北京市上海市天津市

2002年1季度12313467

2季度5610373

3季度459859

4季度6687962003年1季度13410273

2季度5613969

3季度239762

4季度5582942002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市677359967369629411/17/202220数据仓库与数据挖掘旋转后的维方向(不同维度间的旋转操作)

北京市上海市天津市

旋转后的维方向(维度层次上的旋转操作)2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市67735996736962941季度2季度3季度4季度20022003200220032002200320022003北京市123134565645236655上海市13410210313998978782天津市677373695962969411/17/202221数据仓库与数据挖掘旋转后的维方向(维度层次上的旋转操作)2002年2003年1(4)其它OLAP操作维度是有层次性的,如时间维可能由:年、季、月、日构成,维度的层次反映了数据的综合程度。维度层次越高、代表的数据综合度越高,数据量越少。维度层次越低、代表的数据综合度越低,细节越充分,数据量越多。有关操作:“上卷”(roll_up)、“下钻”(drill_down)、“钻过”(drill_across)和“钻透”(drill_through)等。11/17/202222数据仓库与数据挖掘(4)其它OLAP操作11/10/202222数据仓库与数据“上卷”是指沿某一个维的概念分层向上归约;下钻”是上卷的逆向操作,它是沿某一个维的概念分层向下或引入新的维来实现;“钻过”是指对多个事实表进行查询;“钻透”是指对立方体操作时,利用数据库关系,钻透立方体的底层,进入后端的关系表。11/17/202223数据仓库与数据挖掘“上卷”是指沿某一个维的概念分层向上归约;11/10/20OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。表1(单位:万美元)部门销售部门190部门260部门3802004年部门1季度2季度3季度4季度部门120203515部门22551515部门320151827上卷下钻11/17/202224数据仓库与数据挖掘OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAPMOLAP是以多维数据库的方式组织存储数据ROLAP是利用现有的关系数据库技术来模拟多维数据。HOLAP是一混合模式,对于常用的维度和维层次,使用多维数据表来记录,对于用户不常用的维度和数据,采用类似ROLAP星型结构来存储。11/17/202225数据仓库与数据挖掘OLAP根据其存储数据的方式可分为三类:ROLAP、MOLA1. ROLAP体系结构OLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择地定义一批实视图作为表也存储在关系数据库中。不必要将每一个sql查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。Database服务器前端工具ROLAP服务器MetadataRequestProcessingSQL查询查询结果用户请求查询结果11/17/202226数据仓库与数据挖掘1. ROLAP体系结构Database服务器前端工具RO2. MOLAP体系结构将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(physicalolap)。

Database服务器前端工具MOLAP服务器MetadataRequestProcessingSQL查询查询结果用户请求查询结果Load11/17/202227数据仓库与数据挖掘2. MOLAP体系结构Database服务器前端工具MO3. HOLAP体系结构由于molap和rolap有着各自的优点和缺点,且它们的结构迥然不同,这给分析人员设计olap结构提出了难题。为此一个新的olap结构——混合型olap(holap)被提出,它能把molap和rolap两种结构的优点结合起来。迄今为止,对holap还没有一个正式的定义。但很明显,holap结构不应该是molap与rolap结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。Database服务器前端工具MOLAP服务器SQL查询查询结果用户请求查询结果LoadSQL查询查询结果OR11/17/202228数据仓库与数据挖掘3. HOLAP体系结构Database服务器前端工具MOOLAP工具11/17/202229数据仓库与数据挖掘OLAP工具11/10/202229数据仓库与数据挖掘1.3数据仓库的技术、方法与产品数据仓库实施中的三个关键环节数据抽取;数据存储与管理数据表现11/17/202230数据仓库与数据挖掘1.3数据仓库的技术、方法与产品数据仓库实施中的三个关键环从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。

数据源业务系统外部数据源数据准备区数据仓库数据库应用工具管理工具数据集市/知识挖掘库应用工具数据集市/知识挖掘库图1.1数据仓库的概念结构11/17/202231数据仓库与数据挖掘从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓数据准备区的工作:

ETL(extract/transformation/load)

数据抽取数据清洗数据转换数据装载数据抽取、转换、装载11/17/202232数据仓库与数据挖掘数据准备区的工作:ETL(extract/transfor1.3数据仓库的技术、方法与产品数据仓库实施方法论数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导致项目实施失败。11/17/202233数据仓库与数据挖掘1.3数据仓库的技术、方法与产品数据仓库实施方法论11/11.3数据仓库的技术、方法与产品常用数据仓库产品比较常用OLAP工具介绍;各数据仓库厂商提供的解决方案IBM、Oracle、NCR、Microsoft、SAS等11/17/202234数据仓库与数据挖掘1.3数据仓库的技术、方法与产品常用数据仓库产品比较11/1.4数据仓库系统的体系结构数据仓库系统的体系结构的分类(1)两层架构(GenericTwo-LevelArchitecture)。(2)独立型数据集市(IndependentDataMart)。(3)依赖型数据集市和操作型数据存储(DependentDataMartandOperationalDataStore)。(4)逻辑型数据集市和实时数据仓库(LogicalDataMartandReal-TimeDataWarehouse)。11/17/202235数据仓库与数据挖掘1.4数据仓库系统的体系结构数据仓库系统的体系结构的分类11.4数据仓库系统的体系结构两层数据仓库体系结构

11/17/202236数据仓库与数据挖掘1.4数据仓库系统的体系结构两层数据仓库体系结构11/11.4数据仓库系统的体系结构基于独立数据集市的数据仓库体系结构

11/17/202237数据仓库与数据挖掘1.4数据仓库系统的体系结构基于独立数据集市的数据仓库体系1.4数据仓库系统的体系结构基于依赖型数据集市和操作型数据存储(ODS)的数据仓库体系结构11/17/202238数据仓库与数据挖掘1.4数据仓库系统的体系结构基于依赖型数据集市和操作型数据1.4数据仓库系统的体系结构逻辑型数据集市和实时数据仓库的体系结构11/17/202239数据仓库与数据挖掘1.4数据仓库系统的体系结构逻辑型数据集市和实时数据仓库的1.5数据仓库的产生、发展与未来数据仓库的产生联机事务处理系统(业务系统)刚上线时,查询不到数据是因为数据太少了,而几十年后查询不到有关数据是因为数据太多了。针对这一问题,人们设想专门为业务数据的统计分析建立一个数据中心,它的数据从联机事务处理系统中来、从异构的外部数据源来、或从脱机的历史业务数据中来,这个数据中心也是一个联机系统,它专门为分析统计和决策支持应用服务,通过它可获取决策支持和联机分析应用所需要的一切数据。这个数据中心就叫做数据仓库。简单地说,数据仓库就是一个作为决策支持和联机分析应用系统数据源的结构化数据环境,数据仓库要研究和解决的问题就是从数据库中获取信息的问题。11/17/202240数据仓库与数据挖掘1.5数据仓库的产生、发展与未来数据仓库的产生11/10/1.5数据仓库的产生、发展与未来数据仓库的发展以报表为主(第一阶段)以分析为主(第二阶段)以预测模型为主(第三阶段)以营运导向为主(第四阶段)以实时数据仓库、自动决策应用为主(第五阶段)11/17/202241数据仓库与数据挖掘1.5数据仓库的产生、发展与未来数据仓库的发展11/10/1.5数据仓库的产生、发展与未来数据仓库的未来在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备11/17/202242数据仓库与数据挖掘1.5数据仓库的产生、发展与未来数据仓库的未来11/10/第1章

数据仓库的概念与体系结构

11/17/202243数据仓库与数据挖掘第1章数据仓库的概念与体系结构11/10/20221数1.1数据仓库的概念、特点与组成数据仓库的概念数据仓库就是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,通常用于辅助决策支持(DDS)11/17/202244数据仓库与数据挖掘1.1数据仓库的概念、特点与组成数据仓库的概念11/10/1.1数据仓库的概念、特点与组成数据仓库的特点:面向主题;集成的;相对稳定的;反映历史变化。11/17/202245数据仓库与数据挖掘1.1数据仓库的概念、特点与组成数据仓库的特点:11/1011/17/202246数据仓库与数据挖掘11/10/20224数据仓库与数据挖掘数据库与数据仓库的比较11/17/202247数据仓库与数据挖掘数据库与数据仓库的比较11/10/20225数据仓库与数据挖1.1数据仓库的概念、特点与组成数据仓库的组成:数据仓库数据库;数据抽取工具;元数据:技术元数据与业务元数据;访问工具;数据集市(DataMarts);数据仓库管理;信息发布系统。11/17/202248数据仓库与数据挖掘1.1数据仓库的概念、特点与组成数据仓库的组成:11/101.2数据挖掘的概念与方法数据挖掘的概念数据挖掘(DataMining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)11/17/202249数据仓库与数据挖掘1.2数据挖掘的概念与方法数据挖掘的概念11/10/2021.2数据挖掘的概念与方法数据挖掘的方法:直接数据挖掘间接数据挖掘。11/17/202250数据仓库与数据挖掘1.2数据挖掘的概念与方法数据挖掘的方法:11/10/201.2数据挖掘的概念与方法数据仓库与数据挖掘的关系若将数据仓库(DataWarehouse)比作矿井,那么数据挖掘(DataMining)就是深入矿井采矿的工作数据挖掘是从数据仓库中找出有用信息的一种过程与技术11/17/202251数据仓库与数据挖掘1.2数据挖掘的概念与方法数据仓库与数据挖掘的关系11/11.3数据仓库的技术、方法与产品联机事务处理(OLTP)与联机分析处理(OLAP)的比较;OLTPOLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动11/17/202252数据仓库与数据挖掘1.3数据仓库的技术、方法与产品联机事务处理(OLTP)与OLAP技术的有关概念:多维数据集、维度、数据立方体、度量值和多维分析;1.多维数据集是数据的集合(多维数组)多维数据集是决策支持的依据,也是OLAP的核心。OLAP展现的结果是一幅幅多维视图。多维数据集可以用一个多维数组表示。例如经典的时间、地理位置和产品的多维数据集可以表示为:(时间,地理位置,产品,销售数据),类似地,其它多维数据集可表示为:(维1,维2,维3,……,维n,观察变量)形式。11/17/202253数据仓库与数据挖掘OLAP技术的有关概念:多维数据集、维度、数据立方体、度量数据仓库是用于决策支持的,管理人员在进行决策分析时,经常需要选择一个对决策支持活动有重要影响的因素去进行决策分析,这些决策因素就构成了分析问题的角度,这些分析角度就是数据仓库中的维度。从而构成了三维、多维空间。维度是数据仓库中识别数据的索引。维度具有层次性。可以根据数据的组织层次进行“上卷”或“下钻”,了解具体信息。2.维度维是人们观察数据的特定角度11/17/202254数据仓库与数据挖掘数据仓库是用于决策支持的,管理人员在进行决策分析时,经常需要3.数据立方体从不同角度对同一数据进行观察得到的数据交点,构成了数据立方体。当观察的角度(参数)超过三个所构成的数据结果集称为超立方体,也称为超维数据集。商品城市日期牛奶浴巾毛巾可乐果汁4321北京上海长沙广州武汉商品、城市、日期维工业国家年商品市日类别省月11/17/202255数据仓库与数据挖掘3.数据立方体从不同角度对同一数据进行观察得到的数据交点,构4.度量值是多维数据集的核心值。是最终用户在数据仓库应用中所需要查看的数据。如:销售量、成本、费用等。11/17/202256数据仓库与数据挖掘4.度量值是多维数据集的核心值。11/10/202214数据5.多维分析OLAP的多维分析是指对多维数据集中的数据用切片、切块、旋转等方式分析数据。使用户能从多个角度、多个侧面去观察数据仓库中的数据。CT?11/17/202257数据仓库与数据挖掘5.多维分析OLAP的多维分析是指对多维数据集中的数据用切片(1)多维的切片在多维分析过程中,如果对多维数据集的某个维选定一维成员,这种选择操作,就可以称之为切片。有多维数据集(维1,维2,……,维i,……,维n,观察变量),如果确定了某个维成员维i的值,则称:在维i上的一个切片为(维1,维2,……,维i成员,……,维n,观察变量)。一个多维数组的切片最终是由该数组中除切片所在平面之外的其他成员值确定的。维是观察数据的角度,切片的作用或结果是舍弃一些观察角度,以便集中观察该维的数据。11/17/202258数据仓库与数据挖掘(1)多维的切片11/10/202216数据仓库与数据挖掘

产品北京上海 化妆品江苏 玩具 服装 电器1234时间(月)销售数量:10000服装切片11/17/202259数据仓库与数据挖掘

(2)多维的切块与切片类似,如果在一个多维数据集上对两个及其以上的维选定维成员的操作称为切块。如有多维数据集(维1,维2,……,维i,……,维k,……,维n,观察变量),对维i,……,维k,选定了维成员,那么(维1,维2,……,维i成员,……,维k成员,……,维n,观察变量)就是多维数据集(维1,维2,……,维i,……,维k,……,维n,观察变量)在维i,……,维k上的一个切块。

11/17/202260数据仓库与数据挖掘(2)多维的切块11/10/202218数据仓库与数据挖掘(3)旋转改变多维数据集显示的维方向。旋转前的维方向2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市677359967369629411/17/202261数据仓库与数据挖掘(3)旋转2002年2003年1季度2季度3季度4季度1季度旋转后的维方向(不同维度间的旋转操作)

北京市上海市天津市

2002年1季度12313467

2季度5610373

3季度459859

4季度6687962003年1季度13410273

2季度5613969

3季度239762

4季度5582942002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市677359967369629411/17/202262数据仓库与数据挖掘旋转后的维方向(不同维度间的旋转操作)

北京市上海市天津市

旋转后的维方向(维度层次上的旋转操作)2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市67735996736962941季度2季度3季度4季度20022003200220032002200320022003北京市123134565645236655上海市13410210313998978782天津市677373695962969411/17/202263数据仓库与数据挖掘旋转后的维方向(维度层次上的旋转操作)2002年2003年1(4)其它OLAP操作维度是有层次性的,如时间维可能由:年、季、月、日构成,维度的层次反映了数据的综合程度。维度层次越高、代表的数据综合度越高,数据量越少。维度层次越低、代表的数据综合度越低,细节越充分,数据量越多。有关操作:“上卷”(roll_up)、“下钻”(drill_down)、“钻过”(drill_across)和“钻透”(drill_through)等。11/17/202264数据仓库与数据挖掘(4)其它OLAP操作11/10/202222数据仓库与数据“上卷”是指沿某一个维的概念分层向上归约;下钻”是上卷的逆向操作,它是沿某一个维的概念分层向下或引入新的维来实现;“钻过”是指对多个事实表进行查询;“钻透”是指对立方体操作时,利用数据库关系,钻透立方体的底层,进入后端的关系表。11/17/202265数据仓库与数据挖掘“上卷”是指沿某一个维的概念分层向上归约;11/10/20OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。表1(单位:万美元)部门销售部门190部门260部门3802004年部门1季度2季度3季度4季度部门120203515部门22551515部门320151827上卷下钻11/17/202266数据仓库与数据挖掘OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAPMOLAP是以多维数据库的方式组织存储数据ROLAP是利用现有的关系数据库技术来模拟多维数据。HOLAP是一混合模式,对于常用的维度和维层次,使用多维数据表来记录,对于用户不常用的维度和数据,采用类似ROLAP星型结构来存储。11/17/202267数据仓库与数据挖掘OLAP根据其存储数据的方式可分为三类:ROLAP、MOLA1. ROLAP体系结构OLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择地定义一批实视图作为表也存储在关系数据库中。不必要将每一个sql查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。Database服务器前端工具ROLAP服务器MetadataRequestProcessingSQL查询查询结果用户请求查询结果11/17/202268数据仓库与数据挖掘1. ROLAP体系结构Database服务器前端工具RO2. MOLAP体系结构将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(physicalolap)。

Database服务器前端工具MOLAP服务器MetadataRequestProcessingSQL查询查询结果用户请求查询结果Load11/17/202269数据仓库与数据挖掘2. MOLAP体系结构Database服务器前端工具MO3. HOLAP体系结构由于molap和rolap有着各自的优点和缺点,且它们的结构迥然不同,这给分析人员设计olap结构提出了难题。为此一个新的olap结构——混合型olap(holap)被提出,它能把molap和rolap两种结构的优点结合起来。迄今为止,对holap还没有一个正式的定义。但很明显,holap结构不应该是molap与rolap结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。Database服务器前端工具MOLAP服务器SQL查询查询结果用户请求查询结果LoadSQL查询查询结果OR11/17/202270数据仓库与数据挖掘3. HOLAP体系结构Database服务器前端工具MOOLAP工具11/17/202271数据仓库与数据挖掘OLAP工具11/10/202229数据仓库与数据挖掘1.3数据仓库的技术、方法与产品数据仓库实施中的三个关键环节数据抽取;数据存储与管理数据表现11/17/202272数据仓库与数据挖掘1.3数据仓库的技术、方法与产品数据仓库实施中的三个关键环从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。

数据源业务系统外部数据源数据准备区数据仓库数据库应用工具管理工具数据集市/知识挖掘库应用工具数据集市/知识挖掘库图1.1数据仓库的概念结构11/17/202273数据仓库与数据挖掘从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓数据准备区的工作:

ETL(extract/transformation/load)

数据抽取数据清洗数据转换数据装载数据抽取、转换、装载11/17/202274数据仓库与数据挖掘数据准备区的工作:ETL(extract/transfor1.3数据仓库的技术、方法与产品数据仓库实施方法论数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导致项目实施失败。11/17/202275数据仓库与数据挖掘1.3数据仓库的技术、方法与产品数据仓库实施方法论11/11.3数据仓库的技术、方法与产品常用数据仓库产品比较常用OLAP工具介绍;各数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论