数据挖掘2章数据仓库和数据挖掘OLAP技术_第1页
数据挖掘2章数据仓库和数据挖掘OLAP技术_第2页
数据挖掘2章数据仓库和数据挖掘OLAP技术_第3页
数据挖掘2章数据仓库和数据挖掘OLAP技术_第4页
数据挖掘2章数据仓库和数据挖掘OLAP技术_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘2章数据仓库和数据挖掘 OLAP技术 第第3章章 数据仓库和数据挖掘的OLAP技术 本章要点本章要点 n数据仓库的基本概念数据仓库的基本概念 n多维数据模型多维数据模型 n数据仓库的系统结构数据仓库的系统结构 n数据仓库实现数据仓库实现 n数据立方体技术的近一步发展数据立方体技术的近一步发展 n从数据仓库到数据挖掘从数据仓库到数据挖掘 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据仓库的发展数据仓库的发展 n自从自从NCR公司为公司为Wal Mart建立了第一个数据仓库。建立了第一个数据仓库。 n1996年,加拿大的年,加拿大的IDC公司调查了公司调查了62家实现了数据家实现了数据

2、 仓库的欧美企业,结果表明:数据仓库为企业提供了仓库的欧美企业,结果表明:数据仓库为企业提供了 巨大的收益。巨大的收益。 n早期的数据仓库大都采用当时流行的客户早期的数据仓库大都采用当时流行的客户/服务器结服务器结 构。近年来分布式对象技术飞速发展,整个数据仓库构。近年来分布式对象技术飞速发展,整个数据仓库 体系结构从功能上划分为若干个分布式对象,这些分体系结构从功能上划分为若干个分布式对象,这些分 布式对象不仅可以直接用于建立数据仓库,还可以在布式对象不仅可以直接用于建立数据仓库,还可以在 应用程序中向用户提供调用的接口。应用程序中向用户提供调用的接口。 nIBM的实验室在数据仓库方面已经进

3、行了的实验室在数据仓库方面已经进行了10多年的研多年的研 究,并将研究成果发展成为商用产品。究,并将研究成果发展成为商用产品。 n其他数据库厂商在数据仓库领域也纷纷提出了各自的其他数据库厂商在数据仓库领域也纷纷提出了各自的 解决方案。解决方案。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据仓库的发展数据仓库的发展 nIBM: 在其在其DB2UDB发布一年后的发布一年后的1998年年9月发布版,月发布版, 并于并于1998年年12月推向中国市场,除了用于月推向中国市场,除了用于OLAP(联(联 机分析处理)的后台服务器机分析处理)的后台服务器DB2 OLAP Server外,外, IBM还

4、提供了一系列相关的产品,包括前端工具,形成还提供了一系列相关的产品,包括前端工具,形成 一整套解决方案。一整套解决方案。 nInformix公司公司: 在其动态服务器在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决)中提供一系列相关选件,如高级决 策支持选件(策支持选件(Advanced Decision Support Option)、)、OLAP选件(选件(MetaCube ROLAP Option)、扩展并行选件()、扩展并行选件(Extended Parallel Option)等,这种体系结构严谨、管理方便、索引机)等,这种体系结构

5、严谨、管理方便、索引机 制完善,并行处理的效率更高,其中数据仓库和数据库制完善,并行处理的效率更高,其中数据仓库和数据库 查询的查询的SQL语句的一致性使得用户开发更加简便。语句的一致性使得用户开发更加简便。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据仓库的发展数据仓库的发展 n微软公司微软公司: 在其以及在其以及SQL Server2000中集成了代号为中集成了代号为 Plato的的OLAP服务器。服务器。 nSybase: 提供了专门的提供了专门的OLAP服务器服务器Sybase IQ,并将,并将 其与数据仓库相关工具打包成其与数据仓库相关工具打包成Warehouse Studio

6、 。 nPLATINUM: 提出了由提出了由InfoPump(数据仓库建模与数(数据仓库建模与数 据加载工具)和据加载工具)和Forest&Trees(前端报表工具)构成(前端报表工具)构成 的一套较有特色的整体方案。的一套较有特色的整体方案。 ; nOracle公司公司: 则推出从数据仓库构建、则推出从数据仓库构建、OLAP到数据集到数据集 市管理等一系列产品包(如市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。等)。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据仓库的我国的发展数据仓库的我国的发展

7、 n前景:随着计算机技术的发展,尤其是分布式技术前景:随着计算机技术的发展,尤其是分布式技术 的发展,的发展, 数据仓库在我国有着广阔的发展空间和良数据仓库在我国有着广阔的发展空间和良 好的发展前景。例如:好的发展前景。例如: n由于银行商业化的步伐正在加大,各大中型银行在入世的由于银行商业化的步伐正在加大,各大中型银行在入世的 机遇和挑战下,开始重新考虑自身的业务,特别是信贷风机遇和挑战下,开始重新考虑自身的业务,特别是信贷风 险管理方面特别注意,因而有关信贷风险管理和风险规章险管理方面特别注意,因而有关信贷风险管理和风险规章 的基于数据仓库的决策支持系统的需求逐渐增多;的基于数据仓库的决策

8、支持系统的需求逐渐增多; n由于电子商务的迅速发展,越来越多的电子商务网站,开由于电子商务的迅速发展,越来越多的电子商务网站,开 始考虑如何将数据仓库应用于商品销售分析、顾客的诚信始考虑如何将数据仓库应用于商品销售分析、顾客的诚信 度分析等,为客户提供更进一步的个性化服务;度分析等,为客户提供更进一步的个性化服务; n如移动通信等各大型企业也开始考虑着手进行决策支持以如移动通信等各大型企业也开始考虑着手进行决策支持以 及数据仓库规划。及数据仓库规划。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据挖掘的发展数据挖掘的发展 n数据挖掘是与数据仓库密切相关的一个信息技数据挖掘是与数据仓库密切相

9、关的一个信息技 术新领域,它是信息技术自然演化的结果。术新领域,它是信息技术自然演化的结果。 n随着数据库技术的迅速发展以及数据库管理系随着数据库技术的迅速发展以及数据库管理系 统的广泛应用,人们积累的数据越来越多,但统的广泛应用,人们积累的数据越来越多,但 缺乏挖掘数据中隐藏的知识的手段,导致了缺乏挖掘数据中隐藏的知识的手段,导致了 “数据爆炸但知识贫乏的数据爆炸但知识贫乏的”现象。现象。 n自自80年代后期以来,联机分析处理(年代后期以来,联机分析处理(OLAP) 和数据挖掘技术应运而生。和数据挖掘技术应运而生。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据仓库数据仓库(Data W

10、arehouse) n数据仓库用来保存从多个数据库或其它信息源选取数据仓库用来保存从多个数据库或其它信息源选取 的数据的数据, 并为上层应用提供统一并为上层应用提供统一 用户接口,完成数用户接口,完成数 据查询和分析。据查询和分析。 n数据仓库是作为数据仓库是作为DSS服务基础的分析型服务基础的分析型DB,用来用来 存放大容量的只读数据,为制定决策提供所需要的存放大容量的只读数据,为制定决策提供所需要的 信息。信息。 n数据仓库是与操作型系统相分离的、基于标准企业数据仓库是与操作型系统相分离的、基于标准企业 模型集成的、带有时间属性的、面向主题及不可更模型集成的、带有时间属性的、面向主题及不可

11、更 新的数据集合。新的数据集合。 n对数据仓库所下的定义:数据仓库是面向主题的、对数据仓库所下的定义:数据仓库是面向主题的、 集成的、稳定的、随时间变化的数据集合,用以支集成的、稳定的、随时间变化的数据集合,用以支 持管理决策的过程。持管理决策的过程。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据仓库的适用范围数据仓库的适用范围 n信息源中的数据变化稳定信息源中的数据变化稳定 n或可预测应用不需要最新的数据或可预测应用不需要最新的数据 n或允许有延迟应用要求或允许有延迟应用要求 有较高的查询性能有较高的查询性能 而降低精度要求而降低精度要求 数据挖掘2章数据仓库和数据挖掘 OLAP技术

12、数据仓库中数据的特点数据仓库中数据的特点 n 面向主题面向主题 n 集成性集成性 n 稳定性稳定性 n 时变性时变性 数据挖掘2章数据仓库和数据挖掘 OLAP技术 面向主题面向主题 n主题:是一个抽象的概念,是在较高层次上将主题:是一个抽象的概念,是在较高层次上将 企业信息系统中的数据综合、归类并进行分析企业信息系统中的数据综合、归类并进行分析 利用的抽象。在逻辑上,它对应于企业中某一利用的抽象。在逻辑上,它对应于企业中某一 宏观分析领域所涉及的分析对象。宏观分析领域所涉及的分析对象。 n面向主题的数据组织方式可在较高层次上对分面向主题的数据组织方式可在较高层次上对分 析对象的数据给出完整、一

13、致的描述,能完整、析对象的数据给出完整、一致的描述,能完整、 统一的刻画各个分析对象所涉及的企业的各项统一的刻画各个分析对象所涉及的企业的各项 数据以及数据之间的联系,从而适应企业各个数据以及数据之间的联系,从而适应企业各个 部门的业务活动特点和企业数据的动态特征,部门的业务活动特点和企业数据的动态特征, 从根本上实现数据与应用的分离。从根本上实现数据与应用的分离。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 集成性集成性 n数据仓库中的数据是从原有分散的源数据库中数据仓库中的数据是从原有分散的源数据库中 提取出来的,其每一个主题所对应的源数据在提取出来的,其每一个主题所对应的源数据在 原有

14、的数据库中有许多冗余和不一致,且与不原有的数据库中有许多冗余和不一致,且与不 同的应用逻辑相关。为了创建一个有效的主题同的应用逻辑相关。为了创建一个有效的主题 域,必须将这些来自不同数据源的数据集成起域,必须将这些来自不同数据源的数据集成起 来,使之遵循统一的编码规则。因此,数据仓来,使之遵循统一的编码规则。因此,数据仓 库在提取数据时必须经过数据集成,消除源数库在提取数据时必须经过数据集成,消除源数 据中的矛盾,并进行数据综合和计算。经过数据中的矛盾,并进行数据综合和计算。经过数 据集成后,数据仓库所提供的信息比数据库提据集成后,数据仓库所提供的信息比数据库提 供的信息更概括、更本质。供的信

15、息更概括、更本质。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 稳定性稳定性 n数据仓库中的数据反映的是一段时间内历史数据仓库中的数据反映的是一段时间内历史 数据的内容,是不同时点的数据库快照的集数据的内容,是不同时点的数据库快照的集 合,以及基于撰写快照进行统计、综合和重合,以及基于撰写快照进行统计、综合和重 组的导出数据,而不是联机处理的数据。主组的导出数据,而不是联机处理的数据。主 要供企业高层决策分析之用,所涉及的数据要供企业高层决策分析之用,所涉及的数据 操作主要是查询,一般情况下并不进行修改操作主要是查询,一般情况下并不进行修改 操作,即数据仓库中的数据是不可实时更新操作,即数据

16、仓库中的数据是不可实时更新 的,仅当超过规定的存储期限,才将其从数的,仅当超过规定的存储期限,才将其从数 据仓库中删除,提取新的数据经集成后输入据仓库中删除,提取新的数据经集成后输入 数据仓库。数据仓库。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 时变性时变性 n时变性:许多商业分析要求对发展趋势做出时变性:许多商业分析要求对发展趋势做出 预测,对发展趋势的分析需要访问历史数据。预测,对发展趋势的分析需要访问历史数据。 因此数据仓库必须不断捕捉因此数据仓库必须不断捕捉OLTP数据库中数据库中 变化的数据,生成数据库的快照,经集成后变化的数据,生成数据库的快照,经集成后 增加到数据仓库中去;

17、另外数据仓库还需要增加到数据仓库中去;另外数据仓库还需要 随时间的变化删去过期的、对分析没有帮助随时间的变化删去过期的、对分析没有帮助 的数据,并且还需要按规定的时间段增加综的数据,并且还需要按规定的时间段增加综 合数据。合数据。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 支持管理决策支持管理决策 n数据仓库支持数据仓库支持OLAP(联机分析处理)、数据挖(联机分析处理)、数据挖 掘和决策分析。掘和决策分析。OLAP从数据仓库中的综合数据从数据仓库中的综合数据 出发,提供面向分析的多维模型,并使用多维分出发,提供面向分析的多维模型,并使用多维分 析的方法从多个角度、多个层次对多维数据进行析

18、的方法从多个角度、多个层次对多维数据进行 分析,使决策者能够以更加自然的方式来分析数分析,使决策者能够以更加自然的方式来分析数 据。数据挖掘则以数据仓库和多维数据库中的数据。数据挖掘则以数据仓库和多维数据库中的数 据为基础,发现数据中的潜在模式和进行预测。据为基础,发现数据中的潜在模式和进行预测。 因此,数据仓库的功能是支持管理层进行科学决因此,数据仓库的功能是支持管理层进行科学决 策,而不是事务处理。策,而不是事务处理。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据仓库的技术要求数据仓库的技术要求 n大量数据的组织和管理:包含了大量的历史数据,大量数据的组织和管理:包含了大量的历史数据

19、, 它是从数据库中提取得来的,不必关心它的数据安它是从数据库中提取得来的,不必关心它的数据安 全性和数据完整性。全性和数据完整性。 n复杂分析的高性能体现:涉及大量数据的聚集、综复杂分析的高性能体现:涉及大量数据的聚集、综 合等,在进行复杂查询时经常会使用多表的联接、合等,在进行复杂查询时经常会使用多表的联接、 累计、分类、排序等操作。累计、分类、排序等操作。 n对提取出来的数据进行集成:数据仓库中的数据是对提取出来的数据进行集成:数据仓库中的数据是 从多个应用领域中提取出来的,在不同的应用领域从多个应用领域中提取出来的,在不同的应用领域 和不同的数据库系统中都有不同的结构和形式,所和不同的数

20、据库系统中都有不同的结构和形式,所 以如何对数据进行集成也是构建数据仓库的一个重以如何对数据进行集成也是构建数据仓库的一个重 要方面。要方面。 n对进行高层决策的最终用户的界面支持:提供各种对进行高层决策的最终用户的界面支持:提供各种 分析应用工具。分析应用工具。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 操作数据库与数据仓库的区别 n操作数据库系统的主要任务是联机事务 处理OLTP n数据仓库在数据分析和决策方面为用户 提供服务,这种系统称为联机分析处理 OLAP 数据挖掘2章数据仓库和数据挖掘 OLAP技术 事务型处理与分析型处理事务型处理与分析型处理 n事务型处理:即操作型处理,是指

21、对数据库的联事务型处理:即操作型处理,是指对数据库的联 机操作处理。事务型处理是用来协助企业对响应机操作处理。事务型处理是用来协助企业对响应 事件或事务的日常商务活动进行处理。它是事件事件或事务的日常商务活动进行处理。它是事件 驱动、面向应用的,通常是对一个或一组记录的驱动、面向应用的,通常是对一个或一组记录的 增、删、改以及简单查询等。事务型处理的应用增、删、改以及简单查询等。事务型处理的应用 程序和数据是紧紧围绕着所管理的事件来构造的。程序和数据是紧紧围绕着所管理的事件来构造的。 在事务型处理环境中,数据库要求能支持日常事在事务型处理环境中,数据库要求能支持日常事 务中的大量事务,用户对数

22、据的存取操作频率高务中的大量事务,用户对数据的存取操作频率高 而每次操作处理的时间短。而每次操作处理的时间短。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 分析型处理分析型处理 n分析型处理:用于管理人员的决策分析,例如分析型处理:用于管理人员的决策分析,例如 DSS、 EIS、和多维分析等。它帮助决策者分析、和多维分析等。它帮助决策者分析 数据以察看趋向、判断问题。分析型处理经常要数据以察看趋向、判断问题。分析型处理经常要 访问大量的历史数据,支持复杂的查询。在分析访问大量的历史数据,支持复杂的查询。在分析 型处理中,并不是对从事务型处理环境型处理中,并不是对从事务型处理环境 中得到中得到

23、 的细节数据进行分析。细节数据量太大,会严重的细节数据进行分析。细节数据量太大,会严重 影响分析的效率,而且太多的细节数据不利于分影响分析的效率,而且太多的细节数据不利于分 析人员将注意力集中于有用的信息。分析型处理析人员将注意力集中于有用的信息。分析型处理 过程中经常用到外部数据,这部分数据不是由事过程中经常用到外部数据,这部分数据不是由事 务型处理系统产生的,而是来自于其他外部数据务型处理系统产生的,而是来自于其他外部数据 源。源。 数据挖掘2章数据仓库和数据挖掘 OLAP技术 事务型处理数据和分析型处理数据的区别事务型处理数据和分析型处理数据的区别 事务型处理数据事务型处理数据 分析型处

24、理数据分析型处理数据 细节的细节的 综合的,或提炼的综合的,或提炼的 在存取瞬间是准确的在存取瞬间是准确的 代表过去的数据代表过去的数据 可更新可更新 不可更新,只读的不可更新,只读的 操作需求事先可知道操作需求事先可知道 操作需求事先不知操作需求事先不知 生命周期符合生命周期符合SDLC完全不同的生命周期完全不同的生命周期 对性能要求高对性能要求高 对性能要求宽松对性能要求宽松 一个时刻操作一个单元一个时刻操作一个单元一个时刻操作一个一个时刻操作一个 事务驱动事务驱动分析驱动分析驱动 面向应用面向应用面向分析面向分析 一次操作数据量小一次操作数据量小一次操作数据量大一次操作数据量大 支持日常

25、操作支持日常操作支持管理需求支持管理需求 数据挖掘2章数据仓库和数据挖掘 OLAP技术 OLTP和OLAP的区别 n用户和系统的面向性: OLTP是面向顾客的,用于事务和查询处理 OLAP是面向市场的,用于数据分析 n数据内容: OLTP系统管理当前数据. OLAP系统管理大量历史数据,提供汇总和 聚集机制. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 n数据库设计: OLTP采用实体-联系ER模型和面向应用的 数据库设计. OLAP采用星型或雪花模型和面向主题的数 据库设计. n视图: OLTP主要关注一个企业或部门内部的当前 数据,不涉及历史数据或不同组织的数据 OLAP则相反. 数据挖

26、掘2章数据仓库和数据挖掘 OLAP技术 n访问模式: OLTP系统的访问主要由短的原子事务组成. 这种系统需要并行和恢复机制. OLAP系统的访问大部分是只读操作. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 为什么需要分离的数据仓库 n分离操作数据库系统和数据仓库的主要 原因是提高两个系统的性能.操作数据库 系统是为已知的任务和负载设计的,而数 据仓库的查询通常是复杂的,涉及大量数 据在汇总级的计算,在操作数据库系统上 处理OLAP查询,可能会大大降低操作任务 的性能. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 3.2 多维数据模型 n数据仓库和OLAP工具基于多维数据模型, 该模型将

27、数据看作数据立方体形式 n数据立方体允许以多维对数据建模和观 察.具体图形详见71页图3-1 数据挖掘2章数据仓库和数据挖掘 OLAP技术 多维数据库模式 星型,雪花和事实星座模式是主要的存在形 式 n星型模式包含一个大的包含大批数据的 事实表和一系列维表.如73页图3-4 n雪花模式是星型模式的变种,不同的是将 某些维表规范化.如74页图3-5 n事实星座模式对应多个事实表共享维表. 如74页图3-6 数据挖掘2章数据仓库和数据挖掘 OLAP技术 定义模式的例子 定义图3-4的星型模式: n定义立方体: Define cube sales_startime,item,branch,locat

28、ion: dollars_sold=sum(sales_in_dollars), units_old=count(*) 数据挖掘2章数据仓库和数据挖掘 OLAP技术 n定义维 Define dimension time as (time_key,day,day_of_week,month,quar ter,year) 数据挖掘2章数据仓库和数据挖掘 OLAP技术 度量的分类和计算 n分布的: 设数据被划分为n个集合,函数在每一部 分上的计算得到一个聚集值.如果将函数 用于n个聚集值得到的结果,与将函数用 于所有数据得到的结果一样则该度量是 分布的,如count(),sum()等 数据挖掘2章数

29、据仓库和数据挖掘 OLAP技术 n代数的: 如果一个聚集函数能够由一个具有M个 参数的代数函数计算,且每个参数都可以 用一个分布聚集函数求得.如avg()可以由 sum()/count()计算,其中sum()和count() 是分布聚集函数. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 n整体的: 如果一个聚集函数无法用具有M个参数 的代数函数进行这一计算,则这个函数称 是整体的,如rand()等 n许多度量可以用关系的聚集操作计算 对应图2-4,我们也可写出SQL语句. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 计算dollars_sold和units_sold Select sum(

30、s.number_of_units_sold*s.price) Sum(s.number_of_units_sold) From time t,item i,branch b,location l,sales s, 数据挖掘2章数据仓库和数据挖掘 OLAP技术 概念分层 全序相关 偏序相关(具体见3,4 章) Country year City quarter month week Street day 数据挖掘2章数据仓库和数据挖掘 OLAP技术 多维数据模型的OLAP操作 n上卷操作,通过维规约,在数据立方体上进行聚 集. n下钻操作,是上卷操作的逆操作,由不太详细的 数据到更详细的数据.

31、 n切片和切块,切片在给定的数据立方体的一个维 上进行选择,切块则是在两个或两个以上的维进 行选择. n转轴操作,转动数据的视觉,是目视操作. 如图2-10所示 数据挖掘2章数据仓库和数据挖掘 OLAP技术 3.3 数据仓库的系统结构 n自顶向下视图,使我们可以选择数据仓库 所需的相关信息. n数据源视图,揭示被操作数据库系统捕获 存储和管理的信息. n数据仓库视图,包括事实表和维表. n商务查询视图,从最终用户的角度透视数 据仓库中的数据. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据仓库设计过程 n选取待建模的商务处理 n选取商务处理的粒度,例如单个事务,一天 的快照等 n选取用于每

32、个事实表记录的维. n选取将安放在事实表中的度量如图3-4中 的dollars_sold和units_sold 数据挖掘2章数据仓库和数据挖掘 OLAP技术 三层数据仓库结构 n底层数据仓库服务器,使用称作网间连接 程序的应用程序,由操作数据库和外部数 据源提取数据. n中间层是OLAP服务器,实现方法有 关系OLAP模型,在多维数据上的操作映 射为标准的关系操作 多维OLAP模型,直接实现多维数据的操 作 数据挖掘2章数据仓库和数据挖掘 OLAP技术 n顶层是客户,它包括查询和报告工具,分析 工具和数据挖掘工具(例如趋势分析,预测 等) 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据仓库

33、的类型 n企业仓库:企业仓库收集了关于主题的所有信息, 跨越整个组织,它提供企业范围内的数据集成. n数据集市:包含企业范围数据的一个子集,对于 特定的用户是有用的,其范围限于选定的主题. n虚拟仓库:是操作数据库上的视图集合.为了有 效地处理查询,只有一些可能的汇总视图被物化, 虚拟仓库易于建立,但需要操作数据库服务器具 有剩余能力. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 OLAP服务器类型 n关系OLAP(ROLAP)模型,使用关系或扩充 关系DBMS存放并管理数据仓库 n多维OLAP(MOLAP)服务器,这些服务器通 过基于数组的多维存储,支持数组的多维 视图 n混合OLAP(H

34、OLAP)服务器,结合ROLAP和 MOLAP技术,得宜于ROLAP的可伸缩性,和 MOLAP的快速计算. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 n特殊的SQL服务器,为了满足在关系数据 库中日益增长的OLAP需要,实现了特殊的 SQL服务器,提供高级查询语言和查询处 理,在星型和雪花模式上支持SQL查询. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据立方体的有效计算 n计算量:对一个n维数据立方体,第i维的层 次是Li,则可能产生的立方体总数是 T=(L1+1)*(Ln+1)如果10维每维4个层 次产生的方体数是5的10次方=9800000. n预先计算并物化所有可能产生的方体

35、是 不现实的,较合理的是部分物化 3.4 数据仓库实现 数据挖掘2章数据仓库和数据挖掘 OLAP技术 方体的选择计算 n不物化:导致运行时计算昂贵的多维聚集, 速度极慢. n全物化:需要海量存储空间,存放所有预先 计算的方体. n部分物化:在存储空间和响应时间二者之 间提供了很好的折衷. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 多路数组聚集 n将数组分成块,块的大小能够放入立方体 计算时可用的内存. n通过访问立方体单元进行聚集,使得每个 单元必须重新访问的次数最小化. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 索引OLAP数据 n位图索引:如图3-17所示,与散列和树索引相 比,位

36、图索引将比较,连接和聚集都变成了位 算术运算,大大减少了运行时间. n连接索引:源于关系数据库的查询处理. n位图连接索引:将连接索引和位图索引集成. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 OLAP查询的有效处理 n确定那些操作应当在可利用的方体上执 行,这涉及将查询中的选择投影上卷下钻 操作转换成对应的SQL或OLAP操作. n确定相关操作应当使用哪些物化的方体, 这涉及到找出可能用于查询的所有物化 方体. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 具体步骤 n考察的方体必须与查询具有相同的维集 合,或是它的超集. n选择代价最小的方体. 数据挖掘2章数据仓库和数据挖掘 OLAP

37、技术 元数据存储 元数据是定义数据仓库对象的数据.元数据 的存储包括 n数据仓库结构的描述 n对元数据的操作 n汇总用的算法 n由操作环境到数据仓库的映射 n关于系统性能的数据 n商务元数据 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据仓库后端工具 n数据提取:从多个异种的外部数据源收集 数据. n数据清理:检测错误,可能时修改错误. n数据变换:将数据转换成数据仓库格式. n装入:排序,综合,合并,计算视图,检查整体 性,并建立索引和划分. n刷新:传播由数据源到数据仓库的更新. 数据挖掘2章数据仓库和数据挖掘 OLAP技术 数据仓库的维护数据仓库的维护 n系统维护:是在系统已经交付使用之后为了改正错误和为了满系统维护:是在系统已经交付使用之后为了改正错误和为了满 足新的需要而修改系统的过程。足新的需要而修改系统的过程。 n数据仓库中数据的日常管理工作:数据仓库中数据的日

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论