数据仓库与数据挖掘2-2_第1页
数据仓库与数据挖掘2-2_第2页
数据仓库与数据挖掘2-2_第3页
数据仓库与数据挖掘2-2_第4页
数据仓库与数据挖掘2-2_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 数据仓库原理,0,第二章 数据仓库原理,2.1 数据仓库定义 2.2 数据仓库特征 2.3 数据库体系化环境 2.4 数据仓构造模式 2.5 数据仓库概念结构 2.6 数据仓库中的数据组织 小节,1,数据仓库中的数据组织 粒度 分区 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,2,数据仓库中的数据组织 粒度 分割 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,3,2.6 数据仓库中的数据组织,为了提高分析和决策的效率和有效性,分析型处理及其数据必须与事务型处理及其数据相分离,把分析型处理所需要的数据从

2、事务型处理环境中提取出来,按照分析型处理的要求进行重新组织,建立单独的分析处理环境。 数据仓库正是构建这种新的分析处理环境而出现的一种数据存储和组织技术,4,2.6 数据仓库中的数据组织,数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。 在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。 从事务型处理环境中提取的源数据经过综合后,首先进入当前细节级,并根据需要进行进一步的综合进入轻度综合级或高度,5,数据仓库的数据组织结构,元 数 据,高度综合级,轻度综合级,当前细节级,早期细节

3、级,2.6 数据仓库中的数据组织,6,数据仓库中的数据存在着不同的综合级别 早期细节级 一般而言,当前细节级的数据对于决策的支持程度随数据发生时间的久远而降低。 为了有效控制数据仓库中当前细节级数据的规模,保证系统的运行效率,在设计数据仓库时,通常应结合业务的特点和系统硬件的水平,设定一个合理的时间阀值,将老化的数据转为早期细节级的数据,并以合适的方式进行存储,2.6 数据仓库中的数据组织,7,数据仓库中的数据存在着不同的综合级别 当前细节级 来自数据源的数据,所反映的都是当前的业务情况,因此在导入数据仓库之后,首先做为当前细节级数据进行存储。 这些数据规模较大,实时性强,是数据仓库用户感兴趣

4、的部分。 当前细节级的数据一方面依据数据仓库的既定规则,经过处理,得到情况度综合级和高度综合级的数据,另一方面,随时间的推移,逐渐老化,成为历史细节级数据,2.6 数据仓库中的数据组织,8,数据仓库中的数据存在着不同的综合级别 轻度综合级 为了有效控制数据仓库进行决策支持时的系统开销,对当前细节级的数据,通常以一定的时间段为单位进行综合。 这一设定的时间段参数又称为“粒度”。 以较小的粒度生成的综合数据,称为“轻度综合级数据”,其规模要远远小于当前细节级数据,因此,可以明显提高决策运算的效率,2.6 数据仓库中的数据组织,9,数据仓库中的数据存在着不同的综合级别 高度综合级 以较长的时间段,即

5、较大的粒度,对当前细节级的数据进行综合而形成的结果,称为“高度综合级数据”。 高度综合级的数据内容十分精练,可以认为是一种“准决策数据”。 这里,“高度”和“轻度”只是一种相对的概念没有绝对的界限,2.6 数据仓库中的数据组织,10,数据仓库的数据组织结构的一个例子,高度综合级,轻度综合级,当前细节级,早期细节级,1990-2004年 每月销售表,1996-2004年 每周销售表,1996-2004年 销售情况表,1990-1995年 销售明细表,数据仓库中的数据组织,2.6 数据仓库中的数据组织,11,数据仓库中的数据组织 粒度 分割 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加

6、,2.6 数据仓库中的数据组织,12,粒度 对数据仓库中的数据综合程度高低的一个度量。 例如:一个简单的交易处于低粒度级,而每月所有交易的汇总和处于一个高粒度级。 粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据仓库所能够回答的查询类型。在数据仓库中的数据量大小与所能回答查询的细节级别之间要做出权衡,2.6 数据仓库中的数据组织,13,粒度,一个顾客一个月中每次通话的细节,一个顾客一个月中通话的综合,Cass Squire上星期给他在波士顿的女友打过电话没有,能回答,尽管需要一定数量的检索,根本不能回答,细节已经丢失,上个月,华盛顿人平均打出多少个电话,由此可见,粒度级别对于能回答什么问

7、题和问答问题所需资源多少有深刻的影响,2.6 数据仓库中的数据组织,14,粒度,粒度的权衡是固有的,所以大多数企业的最佳解决方法是采用多重粒度的形式,低粒度,高粒度,能回答任何问题 效率低 数据量大,不能回答所有问题 效率高 数据量小,2.6 数据仓库中的数据组织,15,粒度分为两种形式: 对数据仓库中的数据的综合程度高低的一个度量 粒度越小,细节程度越高,综合程度越低 粒度大小影响数据仓库效率、能回答询问的种类 “张三在某时某地是否给李四打过电话?” “张三去年共打了几次长途电话” “某地区今年长途与普通电话费用之比” “今年长途普通电话费用增长率” “预测未来长途普通电话费用变化趋势” 数

8、据仓库是多粒度的,不同的粒度回答不同的查询,2.6 数据仓库中的数据组织,16,粒度分为两种形式: 样本数据库 在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。 样本数据库的粒度:是根据采样率的高低来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。 样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾,2.6 数据仓库中的数据组织,17,样本数据库 用处:代替源数据进行模

9、拟分析,适用于趋势分析和预测分析 抽样的方法:随机抽取,必要时可采用“判断样本” 优点: 高效率,在启发式分析中, 源数据量很大的情况下,抽样数据可以大大下降, 分析结果误差极小 有助于抓住主要因素和主要矛盾,2.6 数据仓库中的数据组织,18,数据仓库中的数据组织 粒度 分区 维度 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,19,分区 数据分区是指把数据分散到可独立处理的分离物理单元中去。数据分割后的数据单元称为分片。 在数据仓库中围绕分区的问题的焦点不是该不该分区而是如何去分区的问题。因为运行维护人员和设计者在管理小的物理单元时比管理大的享有更大的灵活性。

10、恰当进行分区的好处: 数据装载、数据访问、数据存档、 数据删除、数据监控、数据存储、 当结构相似的数据被分到多个数据的物理单元时,数据便被分区了。任何给定的数据单元属于且仅属于一个分区,2.6 数据仓库中的数据组织,20,分区,数据分区,小的数据单元易于: 重构 索引 顺序扫描 重组 恢复 监控,1989,1990,1987,1991,1988,独立管理的数据单元可以有不同的定义,处理设备A,处理设备B,2.6 数据仓库中的数据组织,21,分区 有多种数据分区的标准: 时间 业务范围 地理位置 组织单位 所有上述标准 数据分区的标准是完全由开发人员来决定的。然而,在数据仓库环境中,日期几乎总是

11、分区标准中的一个必然组成部分,2.6 数据仓库中的数据组织,22,分区 人寿保险公司选择时间和保险种类,将数据分区为以下物理单元: 2000年健康索赔 2001年健康索赔 2002年健康索赔 1999年人寿保险索赔 2000年人寿保险索赔 2001年人寿保险索赔 2002年人寿保险索赔 2000年意外伤亡索赔 2001年意外伤亡索赔 2002年意外伤亡索赔,2.6 数据仓库中的数据组织,23,分区 数据分区优点: 提高系统性能 “1996年家电类商品销售的季节分布如何?” “每年的第一季度商品销售在各类商品上的分布情况是怎样的?” 提高灵活性 修改数据定义容易 不同年份的险种的定义描述是相互独

12、立,2.6 数据仓库中的数据组织,24,数据仓库中的数据组织 粒度 分区 维度 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,25,维度 管理人员可以从客户的角度、产品的角度或者从供应商、地点、渠道、发生的时间等角度来分析决策问题。 用户的这些决策分析角度或决策分析出发点就是数据仓库中的维。 数据仓库中的数据就按照这些维来组织,维也就成了数据仓库中识别数据的索引。 同时,数据仓库中的维还可以作为数据仓库操作过程的路经,这些路径通常位于维的不同层次结构中,2.6 数据仓库中的数据组织,26,维度 是一个物理特性(如时间、地点、产品等),它是表达数据仓库中信息的一个基本

13、途径,可作为标识数据的索引。通常的报表只包含有行和列两维,但在数据仓库中所存储的数据大多是用多维(三维或三维以上)视图表示的。 例如: 一个销售系统中的数据可分为时间维、产品维和地理位置维等,2.6 数据仓库中的数据组织,27,一个数据立方体,比如数据仓库sales,允许以多维对数据进行建模和观察。 例销售分析: 数据仓库sales围绕商品销售量这个主题。同时,销售量涉及以下几个方面:time,item,location,branch。有了这些方面的信息,能够记录商品的月销售,销售商品的地点,2.6 数据仓库中的数据组织,28,Location,Vancouver,Chicago,Toront

14、o,New York,Time(季度,Item,Q1,Q2,Q3,Q4,605,680,812,927,825,952,1023,1038,14,31,30,38,400,512,501,580,854,1087,818,882,968,746,89,38,43,623,872,591,682,925,698,728,1002,789,784,984,870,家庭 娱乐,计算机,电话,安全,2.6 数据仓库中的数据组织,29,维:人们观察数据的特定角度。 本例中涉及time,item, location。 每一个维都有一个表 与之相关联,称为维表。 事实:数据仓库的主题,数值 度量的。本例中指

15、销售 量。事实对应事实表,2.6 数据仓库中的数据组织,30,A Sample Data Cube,Total annual sales of TV in U.S.A,Date,Product,Country,All, All, All,sum,sum,TV,VCR,PC,1Qtr,2Qtr,3Qtr,4Qtr,U.S.A,Canada,Mexico,sum,31,基于维的常见操作 上卷:用户在数据仓库的应用中,从较低层次的数据开始逐步将数据按照不同的层次进行概括处理 下钻:从数据仓库中的高层数据开始逐步向低层数据探索,了解组成概括数据的具体细节,2.6 数据仓库中的数据组织,32,数据仓库中

16、的数据组织 粒度 分区 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,33,数据仓库的元数据与数据库管理系统中的数据字典或数据目录相似。 数据字典中保存了逻辑数据结构,文件和地址、索引等信息。 数据字典包含的是关于数据库中数据本身信息的数据,2.6 数据仓库中的数据组织,34,2.6 数据仓库中的数据组织,35,2.6 数据仓库中的数据组织,36,2.6 数据仓库中的数据组织,将元数据看作是电话黄页。 你需要当地商店的信息吗?他们在哪里,他们的名字是什么,他们的专营是什么?去查电话黄页吧。 电话黄页是当地部门信息的一本字典。 元数据部分与电话黄页的作用

17、类似,它是数据仓库内容的一本字典,37,什么是元数据? 假设,用户希望在运行查询之前,了解数据仓库中名叫CUSTOMER的表或实体。 在元素据存储库中与CUSTOMER相关的信息内容是什么,2.6 数据仓库中的数据组织,38,定义:从公司购买产品或服务的一个人或者一个机构。 备注:客户实体包含了常规的、当前以及过去的客户; 源系统:已经完成的产品订单,维护合同,在线销售 建立日期: 1999年1月15日 最后更新日期: 2001年1月21日 更新周期: 每周 最后的完全刷新日期: 2000年12月29日 完全刷新周期: 每6个月 数据质量回顾: 2001年1月25日 最后的副本: 2001年1

18、月10日 计划归档: 每6个月 负责人: jane brown,2.6 数据仓库中的数据组织,实体名称:customer 别名:Account,Client,39,2.6 数据仓库中的数据组织,数据仓库的关键需求: 对数据仓库使用的必要性 在订单处理程序中,用户通过系统提供的图形界面及预定义的报表进行信息访问; 使用数据仓库时,自己从数据仓库中获取信息。需要使用元数据,40,2.6 数据仓库中的数据组织,对构建数据仓库的必要性 数据抽取和数据转换 源系统及其数据结构 数据仓库的结构及数据内容 数据映射及数据转换 我们需要源系统的元数据,源系统到目标系统的映射,以及数据转换的规则。 数据仓库的数

19、据管理员 物理设计和初始装载 定期的增量装载 需要知道数据库逻辑结构的元数据,数据刷新及装载周期元数据,41,2.6 数据仓库中的数据组织,对管理数据仓库的必要性 数据抽取/转换/装载 如何处理数据的变化? 如何纳入新的源系统? 外部系统的数据 如何增加新的外部数据源? 如何去掉某些外部数据源? 数据仓库 如何增加新的汇总表? 如何控制查询,42,2.6 数据仓库中的数据组织,想象一下,一个没有标签和文件夹的文件柜。 如果没有元数据,那么数据仓库就像这个文件柜; 可能装满了很多对你的用户、开发者及管理者很有用的信息,但是,却没有任何简便的方法知道这些信息在哪里,这样一来,数据仓库的价值就很有限

20、,43,2.6 数据仓库中的数据组织,元数据就像一个神经中枢,是关于数据的数据; 在构建和管理数据仓库的过程中,不同的过程都会产生一部分元数据。 一个过程创建的元数据可以被其他过程使用。 在数据仓库中,元数据处于一个关键的位置,使不同的过程能够相互通信,是数据仓库的中枢,44,2.6 数据仓库中的数据组织,数据仓库元素,查询工具,报表工具,OLAP 工具,数据挖掘,应用程序,外部数据,数据装载 功能,转换工具,清晰工具,抽取工具,源系统,45,2.6 数据仓库中的数据组织,元数据扮演了一个活跃的角色,辅助数据仓库处理过程的自动化。 以下是按顺序排列的后端处理过程的列表 数据源结构定义; 数据抽

21、取; 初始重格式化/合并 初步数据清洗 数据转换/合并 有效性和质量检查 数据仓库结构定义 创建装载映像,46,2.6 数据仓库中的数据组织,按照数据仓库功能区域划分的元数据类型 数据源数据 数据源存储平台 数据源的数据格式 数据源的业务内容说明; 数据源的所有者 数据源的访问方法及使用限制; 实施数据抽取的工具和其他方法,及相应的参数设置; 数据抽取的进度安排; 实际数据抽取的时间、内容及完成情况记录,47,2.6 数据仓库中的数据组织,按照数据仓库功能区域划分的元数据类型 数据的预处理 数据抽取、转换、装载过程中用到的各种文件定义; 从数据源到主题数据实际视图之间的数据对应关系,有关数据净

22、化的详细规则; 为了满足数据挖掘需要进行的数据处理的详细说明; 维表各属性的更新策略选择; 代理码的分配情况; 数据聚集的定义; 预处理数据的备份方法,48,2.6 数据仓库中的数据组织,按照数据仓库功能区域划分的元数据类型 数据仓库主题 各种数据库表或视图的定义 数据库分区的设置; 索引的建立方法; 数据库访问权限分配; 数据库备份方案,49,2.6 数据仓库中的数据组织,按照数据仓库功能区域划分的元数据类型 查询服务 数据库表及表中数据项的业务含义说明; 可视化查询结果格式的定义; 用户及其访问权限的定义; 数据仓库使用情况的监控与统计,50,2.6 数据仓库中的数据组织,也可以将原数据分

23、为管理元数据和用户元数据; 管理元数据 用于创建和维护数据仓库。它包括数据源元数据、预处理数据元数据、数据仓库主题数据源数据等; 用户元数据 帮助用户进行查询、理解查询结果,了解数据仓库的数据和组织,其中主要内容是查询服务元数据,51,数据仓库中的数据组织 粒度 分区 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,52,数据仓库的数据组织形式 简单堆积文件 它将由数据库中提取并加工的数据逐一积累存储 轮转综合文件 数据存储单位被分为若干个级别 轮转记录-综合 优点:结构简捷,数据量较简单堆积结构减少 缺点:损失数据细节。越久远的数据,细节损失越多,2.

24、6 数据仓库中的数据组织,53,简单堆积结构 它将每天从数据库中提取加工后的数据逐日积累的存储起来。按这种方式存储的数据细节化程度很高,可以应付多种细节查询,但分析时查询的效率较低,2.6 数据仓库中的数据组织,面向应用数据库,每天数据,每天综合,1,月,1,日,1,月,2,日,1,月,3,日,2,月,1,日,2,月,2,日,2,月,3,日,3,月,1,日,3,月,2,日,3,月,3,日,需要许多存储空间 无细节丢失 许多处理与数据有关,54,轮转综合结构 它将数据按不同的期限轮转地存储,2.6 数据仓库中的数据组织,非常紧凑 一些细节丢失 提取越久的数据,越不详细,55,简单直接 数据是从操

25、作型环境直接装入数据仓库中,并没有任何积累,只不过这种文件不是在每天的基础上组织的,而是以较长时间(如一个星期、一个月)为单位的。因此,简单直接文件是按一定时间操作型数据库的一个快照,即按一定时间间隔对数据库的采样,J Adams Main大街 P Anderson High 大街456号 K Appleby A大街10号 L Azimoff 被农场路64号,面向应用数据库,1月份数据,2.6 数据仓库中的数据组织,56,连续结构 它是通过比较两个连续的简单直接文件的不同而生成的另一种连续文件,生成的连续文件又可以和新的简单直接文件一起生成新的连续文件,J Adams Main大街 P And

26、erson High 大街456号 K Appleby A大街10号 L Azimoff 被农场路64号,J Adams Main大街 W Abraham 9号公路12号 P Anderson Tincup郡14号 K Appleby A大街10号,J Adams Main大街 1 月今 W Abraham 9号公路12号 2月今 P Anderson High大街456号 1月1月 P Anderson Tincup郡14号 2月今 K Appleby A大街10号 1月今,2.6 数据仓库中的数据组织,57,连续文件 1) 两个连续的简单直接文件 比较他们的不同 连续文件 2) 连续文件+新的简单文件 新的连续文件,数据仓库的数据组织形式,2.6 数据仓库中的数据组织,58,一月份顾客表,数据库快照,操作型数据,图1-5 生成简化直接文件,2.6 数据仓库中的数据组织,59,连续文件 两个连续的简化直接文件 比较他们的不同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论