数据仓库与数据挖掘2-2_第1页
数据仓库与数据挖掘2-2_第2页
数据仓库与数据挖掘2-2_第3页
数据仓库与数据挖掘2-2_第4页
数据仓库与数据挖掘2-2_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 数据仓库原理0第二章数数据仓仓库原理理2.1数据仓库库定义2.2数据仓库库特征2.3数据库体体系化环环境2.4数据仓构构造模式式2.5数据仓库库概念结结构2.6数据仓库库中的数数据组织织小节1数据仓库库中的数数据组织织粒度分区维度元数据数据仓库库的数据据组织形形式数据仓库库的数据据追加2.6数数据据仓库中中的数据据组织2数据仓库库中的数数据组织织粒度分割维度元数据数据仓库库的数据据组织形形式数据仓库库的数据据追加2.6数数据据仓库中中的数据据组织32.6数数据据仓库中中的数据据组织为了提高高分析和和决策的的效率和和有效性性,分析析型处理理及其数数据必须须与事务务型处理理及其数数据相分分

2、离,把把分析型型处理所所需要的的数据从从事务型型处理环环境中提提取出来来,按照照分析型型处理的的要求进进行重新新组织,建立单单独的分分析处理理环境。数据仓库库正是构构建这种种新的分分析处理理环境而而出现的的一种数数据存储储和组织织技术。42.6数数据据仓库中中的数据据组织数据仓库库的数据据组织结结构不同同于一般般的数据据库系统统,需要要将从原原有的业业务数据据库中获获得的基基本数据据和综合合数据分分成一些些不同的的级别。在数据仓仓库中,数据按按照粒度度从小到到大可分分为四个个级别:早期细细节级、当前细细节级、轻度细细节级和和高度细细节级。从事务型型处理环环境中提提取的源源数据经经过综合合后,首

3、首先进入入当前细细节级,并根据据需要进进行进一一步的综综合进入入轻度综综合级或或高度5 数据仓库库的数据据组织结结构元数据高度综合合级轻度综合合级当前细节节级早期细节节级2.6数数据据仓库中中的数据据组织6数据仓库库中的数数据存在在着不同同的综合合级别早期细节节级一般而言言,当前前细节级级的数据据对于决决策的支支持程度度随数据据发生时时间的久久远而降降低。为了有效效控制数数据仓库库中当前前细节级级数据的的规模,保证系系统的运运行效率率,在设设计数据据仓库时时,通常常应结合合业务的的特点和和系统硬硬件的水水平,设设定一个个合理的的时间阀阀值,将将老化的的数据转转为早期期细节级级的数据据,并以以合

4、适的的方式进进行存储储。2.6数数据据仓库中中的数据据组织7数据仓库库中的数数据存在在着不同同的综合合级别当前细节节级来自数据据源的数数据,所所反映的的都是当当前的业业务情况况,因此此在导入入数据仓仓库之后后,首先先做为当当前细节节级数据据进行存存储。这些数据据规模较较大,实实时性强强,是数数据仓库库用户感感兴趣的的部分。当前细节节级的数数据一方方面依据据数据仓仓库的既既定规则则,经过过处理,得到情情况度综综合级和和高度综综合级的的数据,另一方方面,随随时间的的推移,逐渐老老化,成成为历史史细节级级数据。2.6数数据据仓库中中的数据据组织8数据仓库库中的数数据存在在着不同同的综合合级别轻度综合

5、合级为了有效效控制数数据仓库库进行决决策支持持时的系系统开销销,对当当前细节节级的数数据,通通常以一一定的时间段为为单位进行综合合。这一设定定的时间间段参数数又称为为“粒度度”。以较小的的粒度生生成的综综合数据据,称为为“轻度度综合级级数据”,其规规模要远远远小于于当前细细节级数数据,因因此,可可以明显显提高决决策运算算的效率率。2.6数数据据仓库中中的数据据组织9数据仓库库中的数数据存在在着不同同的综合合级别高度综合合级以较长的的时间段段,即较较大的粒粒度,对对当前细细节级的的数据进进行综合合而形成成的结果果,称为为“高度度综合级级数据”。高度综合合级的数数据内容容十分精精练,可可以认为为是

6、一种种“准决决策数据据”。这里,“高度”和“轻轻度”只只是一种种相对的的概念没没有绝对对的界限限。2.6数数据据仓库中中的数据据组织10 数据仓库库的数据据组织结结构的一一个例子子高度综合合级轻度综合合级当前细节节级早期细节节级1990-2004年年每月销售售表1996-2004年年每周销售售表1996-2004年年销售情况况表1990-1995年年销售明细细表数据仓库库中的数数据组织织2.6数数据据仓库中中的数据据组织11数据仓库库中的数数据组织织粒度分割维度元数据数据仓库库的数据据组织形形式数据仓库库的数据据追加2.6数数据据仓库中中的数据据组织12粒度对数据仓仓库中的的数据综合合程度高高

7、低的一一个度量量。例如:一一个简单单的交易易处于低低粒度级级,而每每月所有有交易的的汇总和和处于一一个高粒粒度级。粒度会深深刻地影影响存放放在数据据仓库中中的数据量的的大小以以及数据据仓库所所能够回回答的查查询类型型。在数据据仓库中中的数据据量大小小与所能能回答查查询的细细节级别别之间要要做出权权衡。2.6数数据据仓库中中的数据据组织13粒度一个顾客客一个月月中每次次通话的的细节一个顾客客一个月月中通话话的综合合Cass Squire上星期给给他在波波士顿的的女友打打过电话话没有?能回答,尽管需需要一定定数量的的检索根本不能能回答,细节已已经丢失失“上个月,华盛顿顿人平均均打出多多少个电电话?

8、”由此可见见,粒度度级别对对于能回回答什么么问题和和问答问问题所需需资源多多少有深深刻的影影响。2.6数数据据仓库中中的数据据组织14粒度粒度的权权衡是固固有的,所以大大多数企企业的最最佳解决决方法是是采用多多重粒度度的形式式低粒度高粒度能回答任任何问题题效率低数据量大大不能回答答所有问问题效率高数据量小小2.6数数据据仓库中中的数据据组织15 粒度分为为两种形形式:对数据仓仓库中的的数据的的综合程程度高低低的一个个度量粒度越小小,细节节程度越越高,综综合程度度越低粒度大小小影响数数据仓库库效率、能回答答询问的的种类“张三在在某时某某地是否否给李四四打过电电话?”“张三去去年共打打了几次次长途

9、电电话”“某地区区今年长长途与普普通电话话费用之之比”“今年长长途普普通电话话费用增增长率”“预测未未来长途途普通通电话费费用变化化趋势”数据仓库库是多粒粒度的,不同的的粒度回回答不同同的查询询2.6数数据据仓库中中的数据据组织16粒度分为为两种形形式:样本数据据库在分析过过程中,有许多多探索的的过程有有时分析析的目的的并不要要求精确确的结果果,只需需要得到到相对准准确、能能反映趋趋势的数数据,所所以可以以提取出出样本数数据库。样本数据据库的粒粒度:是是根据采样率的的高低来划分的的,采样样粒度不不同的样样本数据据库可以以具有相相同的综综合级别别,它是是按一定的的采样率率从细节节数据库库或轻度度

10、综合数数据库中中提取的的一个子子集。样本数据据库的抽抽取按照照数据的的重要程程度不同同进行,利用样样本数据据库采集集重要数数据进行行分析既既可提高分析析效率,又有助于于抓住主主要因素素和主要要矛盾。2.6数数据据仓库中中的数据据组织17 样本数据据库用处:代代替源数数据进行行模拟分分析,适适用于趋趋势分析析和预测测分析抽样的方方法:随随机抽取取,必要要时可采采用“判判断样本本”优点:高效率,在启发发式分析析中,源数据量量很大的的情况下下,抽样样数据可可以大大大下降,分析结果果误差极极小有助于抓抓住主要要因素和和主要矛矛盾2.6数数据据仓库中中的数据据组织18数据仓库库中的数数据组织织粒度分区维

11、度数据仓库库的数据据组织形形式数据仓库库的数据据追加2.6数数据据仓库中中的数据据组织19分区数据分区区是指把把数据分分散到可可独立处处理的分分离物理理单元中中去。数数据分割割后的数数据单元元称为分分片。在数据仓仓库中围围绕分区区的问题题的焦点点不是该该不该分分区而是是如何去去分区的的问题。因为运运行维护护人员和和设计者者在管理理小的物物理单元元时比管管理大的的享有更更大的灵灵活性。恰当进行行分区的的好处:数据装载载、数据据访问、数据存存档、数据删除除、数据据监控、数据存存储、当结构相相似的数数据被分分到多个个数据的的物理单单元时,数据便便被分区区了。任任何给定定的数据据单元属属于且仅仅属于一

12、一个分区区。2.6数数据据仓库中中的数据据组织20分区数据分区区小的数据据单元易易于:重构索引顺序扫描描重组恢复监控19891990198719911988独立管理理的数据据单元可可以有不不同的定定义处理设备备A处理设备备B2.6数数据据仓库中中的数据据组织21分区有多种数数据分区区的标准准:时间业务范围围地理位置置组织单位位所有上述述标准数据分区区的标准准是完全全由开发发人员来来决定的的。然而而,在数数据仓库库环境中中,日期期几乎总总是分区区标准中中的一个个必然组组成部分分。2.6数数据据仓库中中的数据据组织22分区人寿保险险公司选选择时间间和保险险种类,将数据据分区为为以下物物理单元元:2

13、000年健康索索赔2001年健康索索赔2002年健康索索赔1999年人寿保保险索赔赔2000年人寿保保险索赔赔2001年人寿保保险索赔赔2002年人寿保保险索赔赔2000年意外伤伤亡索赔赔2001年意外伤伤亡索赔赔2002年意外伤伤亡索赔赔2.6数数据据仓库中中的数据据组织23分区数据分区区优点:提高系统统性能“1996年家家电类商商品销售售的季节节分布如如何?”“每年的的第一季季度商品品销售在在各类商商品上的的分布情情况是怎怎样的?”提高灵活活性修改数据据定义容容易不同年份份的险种种的定义义描述是是相互独独立2.6数数据据仓库中中的数据据组织24数据仓库库中的数数据组织织粒度分区维度数据仓库

14、库的数据据组织形形式数据仓库库的数据据追加2.6数数据据仓库中中的数据据组织25维度管理人员员可以从从客户的的角度、产品的的角度或或者从供供应商、地点、渠道、发生的的时间等等角度来来分析决决策问题题。用户的这这些决策策分析角角度或决决策分析析出发点点就是数数据仓库库中的维维。数据仓库库中的数数据就按按照这些些维来组组织,维维也就成成了数据据仓库中中识别数数据的索索引。同时,数数据仓库库中的维维还可以以作为数数据仓库库操作过过程的路路经,这这些路径径通常位位于维的的不同层层次结构构中。2.6数数据据仓库中中的数据据组织26维度是一个物物理特性性(如时时间、地地点、产产品等),它是是表达数数据仓库

15、库中信息息的一个个基本途途径,可可作为标标识数据据的索引引。通常常的报表表只包含含有行和和列两维维,但在在数据仓仓库中所所存储的的数据大大多是用用多维(三维或或三维以以上)视视图表示示的。例如:一个销售售系统中中的数据据可分为为时间维维、产品品维和地地理位置置维等;2.6数数据据仓库中中的数据据组织27一个数据据立方体体,比如如数据仓仓库sales,允许以多多维对数数据进行行建模和和观察。例销售分析析:数据仓库库sales围绕商品品销售量量这个主主题。同同时,销销售量涉涉及以下下几个方方面:time,item,location,branch。有了这这些方面面的信息息,能够够记录商商品的月月销售

16、,销售商商品的地地点。2.6数数据据仓库中中的数据据组织28LocationVancouverChicagoTorontoNewYorkTime(季度)ItemQ1Q2Q3Q4605680812927825952102310381431303840051250158085410878188829687468938436238725916829256987281002789784984870家庭娱乐计算机电话安全2.6数数据据仓库中中的数据据组织29维:人们们观察数数据的特特定角度度。本例中涉涉及time,item,location。每一个维维都有一一个表与之相关关联,称称为维表。事实:数数据仓

17、库库的主题题,数值值度量的。本例中中指销售售量。事实实对应事实表。2.6数数据据仓库中中的数据据组织30A SampleData CubeTotalannualsalesofTVinU.S.A.DateProductCountryAll, All, Allsumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum31基于维的的常见操操作上卷:用户在数数据仓库库的应用用中,从从较低层层次的数数据开始始逐步将将数据按按照不同同的层次次进行概概括处理理下钻:从数据仓仓库中的的高层数数据开始始逐步向向低层数数据探索索,了解解组成概概括数据据的具体体细节2.6数

18、数据据仓库中中的数据据组织32数据仓库库中的数数据组织织粒度分区维度元数据数据仓库库的数据据组织形形式数据仓库库的数据据追加2.6数数据据仓库中中的数据据组织33数据仓库库的元数数据与数数据库管管理系统统中的数数据字典典或数据据目录相相似。数据字典典中保存存了逻辑辑数据结结构,文文件和地地址、索索引等信信息。数据字典典包含的的是关于于数据库库中数据据本身信信息的数数据。2.6数数据据仓库中中的数据据组织342.6数数据据仓库中中的数据据组织352.6数数据据仓库中中的数据据组织362.6数数据据仓库中中的数据据组织将元数据据看作是是电话黄黄页。你需要当当地商店店的信息息吗?他他们在哪哪里,他他

19、们的名名字是什什么,他他们的专专营是什什么?去去查电话话黄页吧吧。电话黄页页是当地地部门信信息的一一本字典典。元数据部部分与电电话黄页页的作用用类似,它是数数据仓库库内容的的一本字字典。37什么是元元数据?假设,用用户希望望在运行行查询之之前,了了解数据据仓库中中名叫CUSTOMER的表或实实体。在元素据据存储库库中与CUSTOMER相关的信信息内容容是什么么?2.6数数据据仓库中中的数据据组织38定义:从公司司购买产产品或服服务的一一个人或或者一个个机构。备注:客户实实体包含含了常规规的、当当前以及及过去的的客户;源系统:已经完完成的产产品订单单,维护护合同,在线销销售建立日期期:1999年

20、1月15日最后更新新日期:2001年1月21日更新周期期:每每周最后的完完全刷新新日期:2000年12月29日完全刷新新周期:每每6个月数据质量量回顾:2001年1月25日最后的副副本:2001年1月10日计划归档档:每每6个月负责人:jane brown2.6数数据据仓库中中的数据据组织实体名称称:customer别名:Account,Client392.6数数据据仓库中中的数据据组织数据仓库库的关键键需求:对数据仓仓库使用用的必要要性在订单处处理程序序中,用用户通过过系统提提供的图图形界面面及预定定义的报报表进行行信息访访问;使用数据据仓库时时,自己己从数据据仓库中中获取信信息。需要使用用

21、元数据据。402.6数数据据仓库中中的数据据组织对构建数数据仓库库的必要要性数据抽取取和数据据转换源系统及及其数据据结构数据仓库库的结构构及数据据内容数据映射射及数据据转换我们需要要源系统统的元数数据,源源系统到到目标系系统的映映射,以以及数据据转换的的规则。数据仓库库的数据据管理员员物理设计计和初始始装载定期的增增量装载载需要知道道数据库库逻辑结结构的元元数据,数据刷刷新及装装载周期期元数据据。412.6数数据据仓库中中的数据据组织对管理数数据仓库库的必要要性数据抽取取/转换/装载如何处理理数据的的变化?如何纳入入新的源源系统?外部系统统的数据据如何增加加新的外外部数据据源?如何去掉掉某些外

22、外部数据据源?数据仓库库如何增加加新的汇汇总表?如何控制制查询?422.6数数据据仓库中中的数据据组织想象一下下,一个个没有标标签和文文件夹的的文件柜柜。如果没有有元数据据,那么么数据仓仓库就像像这个文文件柜;可能装满满了很多多对你的的用户、开发者者及管理理者很有有用的信信息,但但是,却却没有任任何简便便的方法法知道这这些信息息在哪里里,这样样一来,数据仓仓库的价价值就很很有限。432.6数数据据仓库中中的数据据组织元数据就就像一个个神经中中枢,是是关于数数据的数数据;在构建和和管理数数据仓库库的过程程中,不不同的过过程都会会产生一一部分元元数据。一个过程程创建的的元数据据可以被被其他过过程使

23、用用。在数据仓仓库中,元数据据处于一一个关键键的位置置,使不不同的过过程能够够相互通通信,是是数据仓仓库的中中枢。442.6数数据据仓库中中的数据据组织数据仓库库元素查询工具具报表工具具OLAP工具数据挖掘掘应用程序序外部数据据数据装载载功能转换工具具清晰工具具抽取工具具源系统452.6数数据据仓库中中的数据据组织元数据扮扮演了一一个活跃跃的角色色,辅助助数据仓仓库处理理过程的的自动化化。以下是按按顺序排排列的后后端处理理过程的的列表数据源结结构定义义;数据抽取取;初始重格格式化/合并初步数据据清洗数据转换换/合并有效性和和质量检检查数据仓库库结构定定义创建装载载映像462.6数数据据仓库中中

24、的数据据组织按照数据据仓库功功能区域域划分的的元数据据类型数据源数数据数据源存存储平台台数据源的的数据格格式数据源的的业务内内容说明明;数据源的的所有者者数据源的的访问方方法及使使用限制制;实施数据据抽取的的工具和和其他方方法,及及相应的的参数设设置;数据抽取取的进度度安排;实际数据据抽取的的时间、内容及及完成情情况记录录;472.6数数据据仓库中中的数据据组织按照数据据仓库功功能区域域划分的的元数据据类型数据的预预处理数据抽取取、转换换、装载载过程中中用到的的各种文文件定义义;从数据源源到主题题数据实实际视图图之间的的数据对对应关系系,有关关数据净净化的详详细规则则;为了满足足数据挖挖掘需要

25、要进行的的数据处处理的详详细说明明;维表各属属性的更更新策略略选择;代理码的的分配情情况;数据聚集集的定义义;预处理数数据的备备份方法法;482.6数数据据仓库中中的数据据组织按照数据据仓库功功能区域域划分的的元数据据类型数据仓库库主题各种数据据库表或或视图的的定义数据库分分区的设设置;索引的建建立方法法;数据库访访问权限限分配;数据库备备份方案案;492.6数数据据仓库中中的数据据组织按照数据据仓库功功能区域域划分的的元数据据类型查询服务务数据库表表及表中中数据项项的业务务含义说说明;可视化查查询结果果格式的的定义;用户及其其访问权权限的定定义;数据仓库库使用情情况的监监控与统统计;502.

26、6数数据据仓库中中的数据据组织也可以将将原数据据分为管管理元数数据和用用户元数数据;管理元数数据用于创建建和维护护数据仓仓库。它它包括数数据源元元数据、预处理理数据元元数据、数据仓仓库主题题数据源源数据等等;用户元数数据帮助用户户进行查查询、理理解查询询结果,了解数数据仓库库的数据据和组织织,其中中主要内内容是查查询服务务元数据据;51数据仓库库中的数数据组织织粒度分区维度元数据数据仓库库的数据据组织形形式数据仓库库的数据据追加2.6数数据据仓库中中的数据据组织52数据仓库库的数据据组织形形式简单堆积积文件它将由数数据库中中提取并并加工的的数据逐逐一积累累存储轮转综合合文件数据存储储单位被被分

27、为若若干个级级别轮转记录录-综综合优点:结结构简捷捷,数据据量较简简单堆积积结构减减少缺点:损损失数据据细节。越久远远的数据据,细节节损失越越多2.6数数据据仓库中中的数据据组织53简单堆积积结构它将每天天从数据据库中提提取加工工后的数数据逐日日积累的的存储起起来。按按这种方方式存储储的数据据细节化化程度很很高,可可以应付付多种细细节查询询,但分分析时查查询的效效率较低低。2.6数数据据仓库中中的数据据组织面向应用用数据库库每天数据据每天综合合1月1日1月2日1月3日2月1日2月2日2月3日3月1日3月2日3月3日需要许多多存储空空间无细节丢丢失许多处理理与数据据有关54轮转综合合结构它将数据

28、据按不同同的期限限轮转地地存储。2.6数数据据仓库中中的数据据组织非常紧凑凑一些细节节丢失提取越久久的数据据,越不不详细55简单直接接数据是从从操作型型环境直直接装入入数据仓仓库中,并没有有任何积积累,只只不过这这种文件件不是在在每天的的基础上上组织的的,而是是以较长长时间(如一个个星期、一个月月)为单单位的。因此,简单直直接文件件是按一一定时间间操作型型数据库库的一个个快照,即按一一定时间间间隔对对数据库库的采样样。J AdamsMain大街P Anderson High大街456号K ApplebyA大街10号LAzimoff被农场路路64号面向应用用数据库库1月份数据据2.6数数据据仓库

29、中中的数据据组织56连续结构构它是通过过比较两两个连续续的简单单直接文文件的不不同而生生成的另另一种连连续文件件,生成成的连续续文件又又可以和和新的简简单直接接文件一一起生成成新的连连续文件件。J AdamsMain大街P Anderson High大街456号K ApplebyA大街10号LAzimoff被农场路路64号J AdamsMain大街WAbraham9号公路12号P AndersonTincup郡14号K ApplebyA大街10号J AdamsMain大街1月今WAbraham9号公路12号2月今P AndersonHigh大街456号1月1月P AndersonTincup郡

30、14号2月今K ApplebyA大街10号1月今2.6数数据据仓库中中的数据据组织57 连续文件件1)两两个连连续的简简单直接接文件比比较较他们的的不同连续文件件2)连续文件件+新的简单单文件新新的的连续文文件数据仓库库的数据据组织形形式2.6数数据据仓库中中的数据据组织58 一月份顾顾客表数据库快快照操作型数数据图1-5生生成简简化直接接文件姓名顾客号地址张平C960100北京王英C960101天津王宾C960102上海李强C960103重庆2.6数数据据仓库中中的数据据组织59连续文件件 两两个连续续的简化化直接文文件比比较他他们的不不同连续文件件 姓 名 顾 客 号地 址 张平 C960

31、100 北京 王英 C960101 天津 王宾 C960102 上海 刘仲 C960104 重庆 姓 名 顾 客 号地 址 张平 C960100 北京 王英 C960101 沈阳 王宾 C960102 上海 刘仲 C960104 大连 姓名 顾客号 时 间 地 址 张平 C960100 1-2月 北京 王英 C960101 1-1月 天津 王英 C960101 2-2月 沈阳 王宾 C960102 1-2月 上海 刘仲 C960104 1-1月 重庆 刘仲 C960104 2-2月 大连1-2月月份顾客客表比较不同同2月份顾顾客表1月份顾顾客表60连续文件件+新的的简单文文件新新的的连续文文件 姓 名 顾 客 号 地 址 张平 C960100 北京 王宾 C960102 上海 刘仲 C960104 大连 姓名 顾

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论