数据挖掘 课件 第三章 数据仓库与数据立方体_第1页
数据挖掘 课件 第三章 数据仓库与数据立方体_第2页
数据挖掘 课件 第三章 数据仓库与数据立方体_第3页
数据挖掘 课件 第三章 数据仓库与数据立方体_第4页
数据挖掘 课件 第三章 数据仓库与数据立方体_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据立方体Contents数据仓库背景及定义01数据仓库系统架构02数据立方体03OLAP0405本章小结数据仓库产生的背景数据的一项重要作用是为管理决策人员提供帮助,通过对数据进行整合、清洗和分析,管理人员能够得到更准确、更全面的信息支持,从而做出更具前瞻性和决策性的选择。一种直接的想法是利用数据库进行统计分析,形成如图3-1所示的自然演化的体系架构。数据仓库产生的背景自然演化的体系架构主要存在以下缺陷:缺乏统一的数据来源缺乏统一的时间基准数据口径差异数据获取效率低数据集成时间长看懂数据困难以及数据加工速度慢数据仓库概念的提出为了应对这些问题,提出了数据仓库的概念。与“分散式管理”的自然演化体系架构不同,数据仓库是一种“中央集中式管理”的数据架构。这种管理架构会对数据统一进行清洗、整合和建模,使得数据变得更加一致、准确和可信,消除不同数据源之间的口径差异,提高数据一致性和质量。数据仓库的定义数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。

面向主题的(subject-oriented):数据仓库的构建通常围绕的是一些比较重要的主题而构建,例如产品、客户或销售等。集成的(integrated):数据仓库中的数据是在对原有分散的数据库进行数据抽取、清理的基础上经过系统加工、汇总和整理得到的时变的(time-variant):数据仓库可以保存过去的数据,并且可以显示数据随着时间的推移而发生的变化。非易失的(nonvolatile):数据仓库的非易失性意味着数据在数据仓库中是安全的、不容易丢失的。数据仓库与数据库之间的区别数据库与数据仓库的区别,在本质上就是在线事务处理(OLTP)和在线分析处理(OLAP)的区别Contents数据仓库背景及定义01数据仓库系统架构02数据立方体03OLAP0405本章小结基本架构介绍每个数据仓库系统的核心都有三个主要的组件,分别是:数据来源、提取-加载-转换(ELT)过程以及数据仓库本身。大部分数据仓库系统还有数据应用部分数据仓库系统分层意义数据仓库系统的分层模式是一种在数据仓库设计中常用的组织模式,通过将数据按照不同的层级进行划分和管理,以实现更高效、更灵活的数据处理和利用。数据仓库系统的分层模式主要具备以下几点作用:分层模式使得数据组织结构更清晰提供数据血缘追踪功能减少重复开发简化复杂的问题减少业务的影响数据仓库分层介绍从数据仓库的基本架构图中可以看到,数据仓库包含了多个层级,其中每个层级都有着其特定的功能和处理原则。下面依次介绍数据仓库各层级的用途和处理原则

原始数据层(OperationalDataStore)是数据仓库中的一个重要组成部分,它用于存储从各个业务系统中提取的、经过简单清洗和整合后的原始数据。原始数据层通常是数据仓库架构中的第一层,也是与业务系统交互的接口。数据仓库分层介绍数据明细层(DataWarehouseDetail)中的数据是原始数据层数据经过清洗、转换后得到的明细数据,保留了数据加载过程中的全部信息。同时包含了各种维度表和事实表,可以支持复杂的查询和分析需求。此外还保留了历史数据,能够支持时间上的溯源和趋势分析。该层中的数据质量较高,经过清洗、转换、整合等处理,确保数据准确性和一致性。数据仓库分层介绍数据汇总层(DataWarehouseSummary)通常用于存储经过清洗、转换和集成后的数据。这一层位于数据仓库的核心位置,主要负责将来自数据源的数据进行整合,并提供给决策支持系统和业务智能应用程序使用。数据仓库分层介绍数据应用层(ApplicationDataStore)是根据业务需要,由数据明细层、数据汇总层数据统计而出的结果,该层旨在为数据分析和报表生成等工作提供高性能的数据查询和访问能力,以支持业务决策和报告需求。该层与数据应用部分结合之后,可以为用户提供灵活的数据查询和分析功能,支持用户通过图表、报表等形式直观地分析数据,使用户能够根据自身需求快速获取所需数据,并进行多维分析、数据挖掘等操作。Contents数据仓库背景及定义01数据仓库系统架构02数据立方体03OLAP0405本章小结数据立方体的基本概念数据立方体是一种多维数据集合,通常用于存储和分析数据仓库中的大量数据。它由一个或多个维度和度量组成,维度表示数据的属性或者类别,度量则表示要分析的数据指标。通过将数据按照不同维度组织,可以形成一个多维数据集合,这种数据结构就是数据立方体。数据立方体的基本概念需要注意的是,尽管人们经常把数据立方体看作三维几何结构,但是在数据仓库中,数据立方体是N维的,而不限于三维。数据立方体主要具备以下特点:1)多维性:数据立方体是一个多维数据集合,可以包含多个维度和度量,从而更全面地描述数据。2)预计算:为了提高查询效率,数据立方体通常会事先计算并存储聚合数据,而不是每次查询时都重新计算。3)快速响应:由于预计算的结果,数据立方体可以快速响应用户的查询请求,提高数据分析的效率。4)易于理解:通过数据立方体,用户可以直观地理解数据之间的关系,进行交互式分析和探索。数据立方体的基本概念二维数据立方体四维数据立方体三维数据立方体数据立方体的组成元素数据立方体的组成元素主要包括维度、度量、层次、聚集、维度表和事实表等1)维度(Dimensions):维度是数据立方体中用于对数据进行分类和分组的属性或者特征。2)度量(Measures):度量是数据立方体中需要进行分析和计算的指标或数值,用来衡量业务绩效或者其他关键性能指标。3)层次(Hierarchies):层次定义了维度之间的父子关系,描述了维度值之间的层级结构。4)聚集(Aggregates):聚集是预先计算并存储在数据立方体中的汇总数据,例如总销售额、平均利润等。5)维度表(DimensionTables):维度表是包含维度属性信息的表格,用于描述维度的具体内容和特征。6)事实表(FactTable):事实表是包含度量信息的表格,用于存储需要分析的数值型数据。多维数据模型的模式多维数据模型的模式定义了数据在多个维度上的组织结构和关联关系。目前最流行的数据仓库数据模型是多维数据模型,包括星形模式、雪花模式和事实星座模式等星形模式(starschema):星型模式是数据仓库中最常用的多维数据模型之一,它采用星型结构来组织数据。在星型模式中,中心是一个事实表(FactTable),周围围绕着多个维度表(DimensionTables),构成了一个星型的结构。多维数据模型的模式多维数据模型的模式定义了数据在多个维度上的组织结构和关联关系。目前最流行的数据仓库数据模型是多维数据模型,包括星形模式、雪花模式和事实星座模式等雪花模式(snowflakeschema):雪花模式是一种数据仓库多维数据模型设计结构,是在星型模式的基础上发展而来的设计模式。在雪花模式中,维度表被进一步规范化,因此比星型模式具有更复杂的结构,其组成要素包括事实表、维度表和规范化维度表。多维数据模型的模式多维数据模型的模式定义了数据在多个维度上的组织结构和关联关系。目前最流行的数据仓库数据模型是多维数据模型,包括星形模式、雪花模式和事实星座模式等事实星座模式(factconstellation):复杂的应用可能需要多个事实表共享维表。这种模式可以看做星形模式的汇集,因此称做星系模式(galaxyschema)或事实星座。事实星座模式支持复杂的数据关系和多变的数据分析需求,适用于需要处理多种不同业务过程和度量的场景。事实星座的组成要素包括多个事实表、多个维度表和事实表之间的联系。Contents数据仓库背景及定义01数据仓库系统架构02数据立方体03OLAP0405本章小结OLAP概念在线分析处理OLAP,是一种用于快速分析、探索和汇总多维数据的计算技术。OLAP技术是基于数据仓库中数据立方体的操作,旨在帮助用户进行复杂的数据分析和提供决策支持,OLAP的核心特点如下:多维性:OLAP能够处理多维数据,允许用户以不同的角度(维度)对数据进行分析,支持多维数据切片和切块操作。实时分析:OLAP技术支持用户对数据进行即时的、动态的分析,用户可以随时根据需要进行数据探索和交互式查询。联机:OLAP能够直接连接到数据仓库或数据源,具有快速响应用户查询的特点,以便用户可以实时获取数据分析结果。分析功能:OLAP提供强大的分析功能,如数据的上卷、下钻、转轴、切片和切块等方法,帮助用户深入分析数据OLAP的基本操作OLAP依托于多维数据模型,定义了一系列专门针对数据分析的基本操作类型,主要包括:上卷(Roll-up)、下钻(Drill-down)、切片(Slice)、切块(Dice)以及转轴(Pivot)。通过这些基本操作的组合使用,用户可以很方便的在数据仓库中完成对数据的处理和分析OLAP的基本操作上卷(roll-up):上卷操作是将数据从较低层次的维度汇总到较高层次的维度,减少数据的细节,以获得总体性的视图。下图显示了在维location上对中心立方体执行上卷操作的结果。所展示的上卷操作沿location的分层,由city层向上到country层聚集数据。OLAP的基本操作下钻(drill-down):下钻操作是在汇总数据的基础上,查看较低层次的细节数据,以便深入了解具体细节。下图显示沿着“day<month<quarter<year”定义的time维的概念分层向下,在中心立方体执行下钻操作的结果。这里下钻由time维的分层结构向下,从quarter层到更详细的month层。OLAP的基本操作切片(slice):切片是选取多维数据集中的一个子集,即在某个固定维度上进行数据的筛选和分析。下图表示了一个切片操作,它对中心立方体使用条件time=“Q1”对维time选择销售数据。OLAP的基本操作切块(dice):切块是在多维数据集中选择两个或多个维度的交叉区块(subset),对其进行分析和比较。下图表示了一个切块操作,它涉及三个维,根据如下条件对中心立方体切块:(location=“南京”or“武汉”)and(time=“Q1”or“Q2”)and(item=“日常用品”or“饮料”)。OLAP的基本操作转轴(pivot):转轴操作是改变多维数据立方体中的视角,重新排列维度的位置以获得新的数据观察角度。下图显示了一个转轴操作,其中item和location轴在一个2-D切片上转动。OLAP系统的实现分类常见的OLAP系统可以分为以下三类::多维联机实时分析系统(MOLAP),关系型联机实时分析系统(ROLAP),混合型联机实时分析系统(HOLAP)MOLAP通过基于数组的多维存储引擎,支持数据的多维视图。它们将多维视图直接映射到数据立方体数组结构。典型的MOLAP框架如下图所示。MOLAP中的数据来自数据仓库或者来自存储在多维立方体中的操作型数据源。底层数据的复杂性对于MOLAP工具的使用者是隐藏的。OLAP系统的实现分类常见的OLAP系统可以分为以下三类::多维联机实时分析系统(MOLAP),关系型联机实时分析系统(ROLAP),混合型联机实时分析系统(HOLAP)ROLAP介于关系型数据库(后端)和客户前端工具之间。它们使用关系的或扩充关系的数据库管理系统存储并管理数据仓库数据,而OLAP中间件支持其余部分。典型的ROLAP框架的高层视图如图3-17所示。ROLAP工具也提供本章之前描述的常用OLAP功能。ROLAP服务将查询转换成SQL语句,SQL语句被发送到由关系型数据库支持的数据仓库中。关系型数据库执行查询,并将查询的结果集合发送到ROLAP服务器上,最终交给OLAP/BI工具终端用户。OLAP系统的实现分类常见的OLAP系统可以分为以下三类::多维联机实时分析系统(MOLAP),关系型联机实时分析系统(ROLAP),混合型联机实时分析系统(HOLAP)混合OLAP方法结合ROLAP和MOLAP技术,得益于ROLAP较大的可伸缩性和MOLAP的快速计算,使得其既能处理大规模数据,又能提供快速查询性能。HOLAP在数据存储和查询时能够根据需求自动选择合适的存储方式,既可以利用多维数据立方体进行快速查询,也可以利用关系型数据库支持复杂查询。Contents数据仓库背景及定义01数据仓库系统架构02数据立方体03OLAP0405本章小结本章小结数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,用于支持管理决策。数据仓库的产生背景主要是由于企业需要更好地管理和分析海量数据以支持决策,而传统的数据库系统无法满足复杂的分析需求。数据仓库核心组件包括数据来源、ELT、数据仓库和数据应用等。数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论