第2章-数据仓库环境_第1页
第2章-数据仓库环境_第2页
第2章-数据仓库环境_第3页
第2章-数据仓库环境_第4页
第2章-数据仓库环境_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第2章 数据仓库环境,数据仓库的定义,以1992年W.H.Inmon出版Building the Data Warehouse为标志,数据仓库速度发展起来,Inmon也被誉为 “数据仓库之父”。 W.H.Inmon对数据仓库的定义是:“数据仓库是支持决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。 数据仓库是体系结构化环境的核心,是决策支持系统DSS处理的基础,数据仓库的特征,数据仓库是面向主题 (Subject-Orientation) 的; 数据仓库是集成 ( Integration ) 的; 数据仓库是稳定/非易失性 ( Nonvolatile ) 的; 数据仓库是随时间变

2、化 ( Time Vagrancy ) 的; 数据仓库是信息的概括和聚集,面向主题,汽车 人寿 健康 意外伤亡,操作型环境,应 用,顾客 保险单 保险费 索赔,数据仓库,主 题,集成,操作型环境 应用A m,f 应用B 1,0 应用C x,y 应用D 男,女,数据仓库 m,f,编码,应用A 管道cm 应用B 管道inches 应用C 管道mcf 应用D 管道yds,管道cm,属性度量,应用A 描述 应用B 描述 应用C 描述 应用D 描述 应用A char(10) 应用B dec fixed(9,2) 应用C pic 9999999 应用D char(12,多重信息源,描述,char(12,冲

3、突的键码,集成,操作型环境,数据仓库,J Jones 女 1945年7月20日,J Jones 去年有两张罚单 一次大事故,J Jones Main大街123号 已婚,J Jones 两个孩子 高血压,人寿保险,汽车保险,房产保险,健康保险,J Jones 女 1945年7月20日出生 去年两张罚单 一次大事故 已婚 两个孩子 高血压,顾客,非易失性,插入,删除,插入,修改,删除,访问,修改,访问,数据的逐个记录方式处理,数据的批量载入/访问,操作型环境,数据仓库,随时间变化,操作型环境,数据仓库,时间期限:当前到6090天 记录更新 键码结构可能包括也可能不 包括时间元素,时间期限:510年

4、 数据的复杂快照 关键字结构包括时间元素,数据仓库的结构,面向主题,数据仓库面向在高层企业数据模型中已定义好的企业主题域 每个主要主题域都是以一组相关的表来具体实现的,一般通过一个公共关键字联系起来 数据仓库中可能有多个DBMS对数据进行管理,或根本没有DBMS管理 GIS中表现为:河流、宗地、土地利用图斑、地形等,面向主题-“顾客”主题,主题可能包含不同介质上的数据,每个表都有时间元素,粒度,粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。 粒度是设计数据仓库最重要的方面。 细化程度越高,粒度级就越小;细化程度越低,粒度级就越大。 粒度细节的级别 粒度的划分决定了数据仓库中数据量

5、的大小和查询的详细程度。 多重粒度:图幅比例尺大小、投影方式、数据采集的精度、数据的时间和空间分辨力、系统功能等来合理划分不同的粒度,粒度细节的级别,高细化低粒度 例如:一个顾客一个月内 的每个电话的细节,低细化高粒度 例如:一个顾客一个月内 的电话的综合,数据仓库中粒度化的数据是重用性的关键 可利用数据仓库对数据一致性进行协调 粒度数据包含了整个企业的活动和事件历史 可以预测将来未知的需求 低粒度化数据的优点: 可由多个用户以不同的方式使用 低级别粒度具有更高的灵活性 不足: 粒度级别低会占用更多的存储空间 粒度级别低会降低数据的访问能力 粒度级别低需要更多的索引项,高粒度化数据的优点: 如

6、果数据仓库空间有限,高粒度表示数据将比用低粒度级表示效率高很多 高粒度级只需要较少的字节表示,而且只需较少的索引 数据压缩在数据仓库中很有用 不足: 高粒度的数据回答细节查询的能力较低 DSS中对单个事件查询很少 数据仓库设计必须满足实体需要的最低粒度级,鉴于费用,效率,访问的便利和能够回答任何可以回答的查询的能力,数据双重粒度级是大多数机构建造数据仓库细节级的最好的体系结构选择. 只有当一个机构的数据仓库环境中数据相对较少时,才能尝试采用数据粒度的单一级别,多重粒度级,在该时间仓库中包括两种类型数据:轻度综合数据和细节数据 大部分处理针对轻度综合数据 针对更大细节数据可以深入真实档案层(5,

7、活样本数据库,活样本数据库是从数据仓库中取得的真实档案数据或轻度综合数据的一个子集. “活”是指这个数据库需要进行周期性的刷新. 在某些情况下,使用活样本数据库可以节约大量资源 活样本数据库不是通用的数据库,主要适于作统计分析和观察发展趋势 数据装载用一个抽取/选择程序搜索一个大规模的数据库,选择其中部分记录送到活样本数据库,对活样本中记录的选取一般是随机的,必要时可采用一个判断样本 最大的好处存取效率非常高,误差在可接受范围 在活样本数据库中要想取得高精度的统计结果,需要将要求形式化, 并在活样本数据库上进行反复处理,分区设计方法,数据分区是指把数据分散到可独立处理的分离物理单元中. 数据分

8、区的优点: 数据装载 数据访问 数据存档 数据删除 数据监控 数据存储 分区的目的把数据划分成小的可管理的物理单元 任何给定的数据单元属于且仅属于一个分区,分区设计方法,数据分区的标准: 时间 业务范围 地理位置 组织单位 所有上述标准 其中,日期几乎总是分区标准中的一个必然组成部分 分区方式: 系统层上分区一定程度上指某些DBMS和操作系统的功能 应用层上分区由设计的应用程序完成,并由开发者和程序员严格控制 应用层上分区相对更有意义,因为每年的数据可以有不同的定义, 而且数据从一个物理设备转到另一个物理设备不会有问题,数据仓库的数据组织,简单堆积数据 轮转综合数据 简化直接数据 连续数据,简

9、单堆积文件,1月1日 1月2日 1月3日,2月1日 2月2日 2月3日,3月1日 3月2日 3月3日,轮转综合文件,星期一 星期二 星期天,第一周 第二周 第五周,一月 二月 十二月,轮转综合文件与简单堆积结构的比较,简单直接文件,数据库快照,姓名 顾客号 地址 张平 C960100 北京 王珂 C960101 上海 刘辉 C960102 天津 李强 C960103 成都 . .,一月份顾客表,操作型数据,生成简化直接文件,连续文件,姓名 顾客号 地址 张平 C020100 北京 王珂 C020101 上海 张顺 C020102 天津 李强 C020103 成都,姓名 顾客号 地址 张平 C0

10、20100 北京 王珂 C020101 上海 张顺 C020101 广州 李强 C020103 成都 刘诚 C020105 杭州,姓名 顾客号 日期 地址 张平 C020100 1-2月 北京 王珂 C020101 1-2月 上海 张顺 C020103 1月 天津 张顺 C020103 2月 广州 李强 C020103 1-2月 成都 刘诚 C020105 2月 杭州,1月份顾客表,2月份顾客表,1-2月份顾客表,审计与数据仓库,能对数据仓库进行审计,但不该审计,原因在于: 原先在数据仓库中没有的数据会突然出现 当需要审计能力时,数据进入数据仓库的时间标定过程会发生急剧变化 当需要审计能力时,

11、数据仓库的备份和恢复限制会发生急剧变化 会使数据粒度处于最低的级别上,数据的同构/异构,数据仓库中的数据是异构的 第一次划分是按企业主要主题进行的,但每一个主题域还有更细的划分,主题域中的数据又划分到多个表中,数据的同构/异构,数据仓库中的数据按下列标准划分: 主题域 表 数据在表中的位置,基于数据仓库数据建立的体系结构,数据的各个部分非常容易理解和访问,数据仓库中的错误数据,数据仓库中的数据出错时,具有多种解决方案.但每种方法都是优势与劣执共存,没有一种是绝对正确或错误的.只是在某种条件下一种占优. 例:假设7月1日在操作型系统中,账户ABC加入了一条5000美元的账目。7月2日在数据仓库中为账户ABC产生了这5000美元账目的一个快照。接着,在8月15日发现错误。这个账目不是5000美元,而是750美元。那么,该如何纠正这个错误呢,数据仓库中的错误数据,修正方法一:直接将7月2日的数据5000修改为750,问题: 数据集成破坏 更新必须在数据仓库环境中进行 许多时候不是要修正一个条目,而是很多 修正方法二:加

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论