第12章数据仓库与数据挖掘ppt课件_第1页
第12章数据仓库与数据挖掘ppt课件_第2页
第12章数据仓库与数据挖掘ppt课件_第3页
第12章数据仓库与数据挖掘ppt课件_第4页
第12章数据仓库与数据挖掘ppt课件_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第12章数据仓库与数据发掘 .根本概念数据仓库定义 数据仓库是一个面向决策主题的、集成的、时变的、非易失、以读为主的数据集合。数据仓库系统的分类Web数据仓库;并行数据仓库;多维数据仓库;紧缩数据仓库等。OLAP定义 OLAP是针对某个特定的主题进展联机数据访问、处置和分析,经过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给用户。.面向决策主题的 数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图。集成的 构造数据仓库是将多个异种数据源集成在一同,确保命名商定,编码构造,属性度量等一致性。时变的 数据存储从历史的角度提供信息.在数据仓库,隐式或显式地包含时间元素

2、。非易失的 数据仓库总是物理地分别存放数据;由于这种分别,数据仓库不需求事务处置,恢复和并发控制。通常数据仓库只需求两种数据访问:数据的初始化装入和数据访问。以读为主的 数据仓库中的数据主要是提供决策进展查询,普通不一定都需求即时更新,可以定期刷新或按需刷新。数据仓库根本特性.数据仓库工程流程管理及系统性能管理和监控OLTP数据源数据仓库数据集市数据采集及整合数据的映射规那么、模型。 元数据管理数据展现及决策消费财务结算外部地域分析总量分析市场分析ETL数据分析、DM终端用户终端用户数据仓库体系构造.数据仓库的构造早期细节级当前细节级轻度综合级数据集市高度综合级元数据操作型转换. 数据仓库中的

3、几个重要概念 ETLETLExtract/Transformation/Load用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 元数据 关于数据的数据,指在数据仓库建立过程中所产生的有关数据源定义、目的定义、转换规那么等相关的关键数据。同时元数据还包含关于数据含义的商业信息。 Data Mart数据集市 - 小型的,面向部门或任务组级数据仓库。. Operation Data Store操作数据存储 ODS是能支持企业日常的全局运用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合方式。四个根本特点:面向主

4、题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。 粒度数据仓库的数据单元中保管数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 分割构造一样的数据可以被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。数据仓库中的几个重要概念 (续).操作数据库与数据仓库的区别操作数据库系统的主要义务是联机事务处置OLTP数据仓库在数据分析和决策方面为用户提供效力,这种系统称为联机分析处置OLAP.根本数据方式星型方式日期维表TimeIDDayMonthYear销售现实表TimeIDProductIDRegionIDSale

5、sQuantity产品维表ProductIDProductNameClassIDClassNameCategoryIDCategoryName地域维表RegionDCityProvinceCountry.根本数据方式续1雪花方式销售现实表TimeIDProductIDRegionIDSalesQuantity日期维表TimeIDdayMonth产品维表ProductIDProductNameClassIDClassName地域维表RegionIDCityProvince月表MonthYear类别表ClassIDCategory IDCategoryName省份表ProvinceCountry.

6、根本数据方式续2多维模型CubeD1,D2, Dn , M1 , M2 , , Mm .数据仓库的主要运用信息处置支持查询和根本的统计分析,并运用表或图进展报告。分析处置支持根本的OLAP操作,在汇总的和细节的历史数据上操作。数据发掘支持知识发现,包括找出隐藏的方式和关联,构造分析模型,进展分类和预测,并用可视化工具提供发掘结果.OLAP开展背景60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处置(OLTP)的开展(数据以表格的方式而非文件方式存储)。1993年,E.F.Codd提出了OLAP概念,以为OLTP已不能满足终端用户对数据库查询分析的需求,SQL对大型数据库进

7、展的简单查询也不能满足终端用户分析的要求。用户的决策分析需求对关系数据库进展大量计算才干得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。 OLTP数据 OLAP数据 原始数据 导出数据 细节性数据 综合性和提炼性数据 当前值数据 历史数据 可更新 不可更新,但周期性刷新 一次处置的数据量小 一次处置的数据量大面向运用,事务驱动 面向分析,分析驱动面向操作人员,支持日常操作 面向决策人员,支持管理需求.什么是OLAP?定义1 :OLAP(联机分析处置)是针对特定问题的联机数据访问和分析。经过对信息(维数据)的多种能够的察看方式

8、进展快速、稳定一致和交互性的存取,允许管理决策人员对数据进展深化察看。定义2 :OLAP(联机分析处置) 是使分析人员、管理人员或执行人员可以从多种角度对从原始数据中转化出来的、可以真正为用户所了解的、并真实反映企业维特性的信息进展快速、一致、交互地存取,从而获得对数据的更深化了解的一类软件技术。(OLAP委员会的定义)OLAP的目的是满足决策支持或多维环境特定的查询和报表需求,它的技术中心是“维这个概念,因此OLAP也可以说是多维数据分析工具的集合。.OLAP相关根本概念1维:是人们察看数据的特定角度,是思索问题时的一类属性,属性集合构成一个维(时间维、地理维等)。2维的层次:人们察看数据的

9、某个特定角度(即某个维)还可以存在细节程度不同的各个描画方面(时间维:日期、月份、季度、年)。3维的成员:维的一个取值。是数据项在某维中位置的描画。(“某年某月某日是在时间维上位置的描画)4多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,维n,变量)。(时间,地域,产品,销售额)5数据单元(单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,$100000).OLAP特性(1)快速性:用户对OLAP的快速反响才干有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反响。(2)可分析性:OLAP系统应能处置与运用有关的任何逻辑分析和统计分析。(3)多维性:多维性

10、是OLAP的关键属性。系统必需提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。(4)信息性:不论数据量有多大,也不论数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。.OLAP根本操作上卷操作:经过维层次,在数据立方体上进展聚集。下钻操作:是上卷操作的逆操作,由不太详细的数据到更详细的数据。切片和切块:切片在给定的数据立方体的一个维上进展选择,切块那么是在两个或两个以上的维进展选择。旋转操作:是改动维度的位置关系,使最终用户可以从其他视角来察看多维数据。.OLTP和OLAP的区别用户和系统的面向性:OLTP是面向顾客的,用于事务和查询处置;OLAP是面向市场的,

11、用于数据分析。数据内容:OLTP系统管理当前数据;OLAP系统管理大量历史数据,提供汇总和聚集机制。数据库设计:OLTP采用实体-联络ER模型和面向运用的数据库设计;OLAP采用星型或雪花模型和面向主题的数据库设计。.视图:OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的数据;OLAP那么相反,不仅关注本企业或组织内部的当前数据,而且更多地涉及到历史数据和其他组织的数据。访问方式:OLTP系统的访问主要由短的原子事务组成,这种系统需求并行和恢复机制。OLAP系统的访问大部分是只读操作。OLTP和OLAP的区别(续).OLAP的分析方法(一)切片、切块.OLAP的分析方法

12、(二)钻取按时间维向下钻取按时间维向上钻取60.OLAP的分析方法(三)旋转.OLAP效力器类型关系OLAP(ROLAP)模型运用关系或扩展关系DBMS存放并管理数据仓库。多维OLAP(MOLAP)效力器这些效力器经过基于数组的多维存储,支持数组的多维视图。混合OLAP(HOLAP)效力器结合ROLAP和MOLAP技术,得宜于ROLAP的可伸缩性和MOLAP的快速计算。.数据组织方式RDB数据组织 MDDB数据组织 关系表中综合数据的存放 多维数据库中综合数据的存放 产品称号地域销售量冰箱东北50冰箱西北60冰箱华北100彩电东北40彩电西北70彩电华北80空调东北90空调西北120空调华北1

13、40东北西北华北冰箱5060100彩电407080空调90120140产品称号地域销售量冰箱东北50冰箱西北60冰箱华北100冰箱总和210彩电东北40彩电西北70彩电华北80彩电总和190空调东北90空调西北120空调华北140空调总和350总和东北180总和西北250总和华北320总和总和750东北西北华北总和冰箱5060100210彩电407080190空调90120140350总和180250320750.ROLAP体系构造SQL Result SetInfo.RequestResult SetDatabase Server R DBMSFront-end ToolROALP Arch

14、itectureROLAP ServerMetadataRequestProcessing.MOLAP体系构造SQL Result SetInfo.RequestResult SetLoadDatabase Server RDBMSFront-end ToolMOALP ArchitectureMOLAP ServerMetadataRequestProcessing.HOLAP体系构造(续)Result SetSQL QuerySQL Result SetInfo.RequestResult SetLoadDatabase Server RDBMSFront-end ToolHybrid ArchitectureMOLAP Server.用户图形界面API数据库数据仓库数据库元数据OLAM引擎OLAP引擎MDDB数据方API数据库API基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论