第3章-设计数据仓库-3_第1页
第3章-设计数据仓库-3_第2页
第3章-设计数据仓库-3_第3页
第3章-设计数据仓库-3_第4页
第3章-设计数据仓库-3_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第3 3章章 设计数据仓库设计数据仓库(3)(3)物理设计物理设计n物理设计中需要考虑的各种因素的核心是物理I/O效率。n数据仓库设计者的主要工作是组织好物理数据,以保证执行一次物理I/O能返回最大数量的记录物理数据模型物理数据模型n物理数据模型由中间层数据模型创建而来n物理模型通过扩展中间层数据模型,使模型中包含关键字和物理特性n设计出物理数据模型的关系表后,主要的就是要进行性能优化n第一步:确定数据的粒度和分区n数据分组n合并表n选择冗余n进一步分离数据n导出数据n预格式化、预分配n人工关系n预连接表粒度设计n预测不同体系结构的粒度需求n数据仓库中的数据需要处于最低的公共细节水平n数据仓

2、库中的数据粒度必须是任何数据集市所需要数据中的最小粒度。n粒度设计与数据量估计n将来的数据行数n所需的DASD(直接存取存储设备)数估计数据量估计数据量n计算数据仓库占用空间的方法:n第一步:确定数据仓库中将要创建的所有表n第二步:估计一年内可能的最少行数与最多行数n第三步:估计五年内可能的最少行数与最多行数n第四步:估计索引数据占用的空间n第五步:计算空间n一年总的最大空间=最大行大小*一年内最大行数n一年总的最小空间=最小行大小*一年内最小行数n另外,考虑备份和恢复所需要的空间n估算结果的准确程度只需要达到数量级数据量与粒度设计数据量与粒度设计n应该考虑五年后如下因素:n有更多的技术管理大

3、量数据n硬件费用下降n功能更强大的软件工具n最终用户更加专业化粒度与存储器粒度与存储器n历史数据与细节数据造成了数据的显著增长n根据数据使用频率,可将数据分为二类:n经常使用的数据n不经常使用的数据(睡眠数据)n解决方案:n睡眠数据转移至海量备用存储器或近线存储器n常用的溢出存储器可分为:n低性能的磁盘存储器n近线存储器n串行磁带n粒度设计反馈技巧粒度设计反馈技巧n提高数据粒度的方法:n数据进入数据仓库时,进行汇总n数据进入数据仓库时,求平均值n数据集的最大/最小值放入数据仓库n只放入显然需要的数据n用条件逻辑选择需要的数据n系统需求了解到50%左右时即可以开始建造数据仓库n当正常的业务事务记

4、录准备放入数据仓库时,高粒度级别的数据可能需要分解到低粒度级别。n而对于一些低粒度级的数据,如生产过程控制、网络环境中产生的点击流数据等,必须对数据进行编辑、重新排序和汇总等处理。规范化与反向规范化规范化与反向规范化n数据模型处理的输出是一系列表,每个表都包含关键字和属性n设计生成的许多小表进行连接运算时,会造成I/O性能的急剧下降n方法1:将这些表物理合并,使得I/O代价最小化规范化与反向规范化规范化与反向规范化n创建数据数组n要求数列中值的数量稳定、数据是按顺序访问的、数据的创建与修改在统计上是以非常有规律的方式进行等n由于数据具有基于时间特性,因而可通过时间建立数组规范化与反向规范化规范

5、化与反向规范化n2.有意引入冗余数据规范化与反向规范化规范化与反向规范化n3.数据分离n当数据访问频率相差悬殊时,将数据作进一步分离规范化与反向规范化规范化与反向规范化n4.通过引入导出数据减少I/O代价规范化与反向规范化规范化与反向规范化n5.建立创造性索引或创造性概要文件n如果对管理有价值的需求能够预见,就更有意义规范化与反向规范化规范化与反向规范化n6.参照完整性管理n数据仓库环境中应采用不同方法表示参照完整性分区设计方法分区设计方法n数据分区是指把数据分散到可独立处理的分离物理单元中.n数据分区的优点:n数据装载n数据访问n数据存档n数据删除n数据监控n数据存储n分区的目的把数据划分成

6、小的可管理的物理单元n任何给定的数据单元属于且仅属于一个分区分区设计方法分区设计方法n数据分区的标准:n时间n业务范围n地理位置n组织单位n所有上述标准其中,日期几乎总是分区标准中的一个必然组成部分n分区方式:n系统层上分区一定程度上指某些DBMS和操作系统的功能n应用层上分区由设计的应用程序完成,并由开发者和程序员严格控制应用层上分区相对更有意义,因为每年的数据可以有不同的定义, 而且数据从一个物理设备转到另一个物理设备不会有问题数据仓库的索引n大多数索引建立在维度表上n通常,数据仓库索引比业务系统多n索引越多,需要存储空间越大n大量的索引会影响装置过程位图索引n位图是一个按序排列的点阵,每

7、个点对应索引列的不同取值n位图索引支持低可选择性的查询。相比B树,占用存储空间更少n如果有新值加入,位图索引必须重新构建n在访问位图索引之后总是要访问数据表位图索引的优势n如果将位图组织为向量组,可以不必加载整个位图,而只获取与查询有关的向量的磁盘页n可以非常高效的使用布尔运算符事实表的索引n为全部的主键建立一个B树索引n经常用到的键作为组合键中级别高的键n经常查询的字段也可以建立索引n指定范围的现金销售额n位图索引不适应事实表维度表的索引n主键上建立B树索引n为经常查询的列建立位图索引n常用于连接的列建立单独的索引元数据元数据元数据描述数据以及管理数据的环境,担任数据仓库的数据组织工作。元数

8、据描述数据以及管理数据的环境,担任数据仓库的数据组织工作。元数据常常被定义为元数据常常被定义为“关于数据的数据关于数据的数据”。文件文件/ /表表 逻辑名逻辑名 顾客顾客 定义定义 购买商品或服务的团体或个人购买商品或服务的团体或个人 物理名物理名 TDW_CSTTDW_CST 记录编辑过程名记录编辑过程名 PRC_CSTPRC_CST属性属性 逻辑名逻辑名 顾客标识顾客标识 定义定义 赋予每个顾客的唯一标识赋予每个顾客的唯一标识 物理名物理名 CST _IDCST _ID 类型类型 CHARACTERCHARACTER 长度长度 6 6 能否为空能否为空 NOTNOTNULLNULL 域编辑

9、过程名域编辑过程名 PFC_CST_IDPFC_CST_ID元数据的一个例子元数据的一个例子元数据的内容n元数据在数据仓库环境主要包括以下方面:n表结构、表属性、源数据、记录到数据仓库的映射、数据模型说明、抽取日志、访问数据的公用例行程序、数据的定义/描述、数据单元之间的关系。n可分为业务元数据与技术元数据二类30元数据模型元数据模型输入输入/ /输出对象输出对象IOIO对象对象IDID定义定义IOIO类型类型状态状态向导向导存档周期存档周期关系成员关系成员关系关系IDID(FKFK)IOIO对象对象IDID(FKFK)关系角色编码关系角色编码关系级别关系级别关系约束关系约束关系关系IDID关

10、系类型关系类型业务规则业务规则关系关系IOIO对象对象IDID数据集名数据集名文件文件IOIO对象对象IDID主题区主题区IDIDDBDB位置位置表表IOIO类型类型关系键关系键关系关系IDID(FKFK)IOIO对象对象IDID(FKFK)域域IDID(FKFK)顺序号顺序号域域IOIO对象对象IDID(FKFK)域域IDID(FKFK)数据元素名(数据元素名(FKFK)列号列号起始位置起始位置类型类型长度长度域域IDID赋值约束赋值约束缺省值缺省值源系统源系统IDID图格式图格式角色编码角色编码最后被访问数据最后被访问数据数据元素名数据元素名定义定义类型类型长度长度向导向导域域IDID数据

11、元素数据元素31元数据工作的一个例子元数据工作的一个例子13社会保险号社会保险号雇员雇员社会保险号(社会保险号(FKFK)技能编码(技能编码(FKFK)雇员技能雇员技能技能编码技能编码 技能技能12IOIO对象对象IDID雇员雇员雇员技能雇员技能技能技能输入输出对象输入输出对象关系关系ID IOID IO对象对象IDID 12 12 雇员雇员 12 12 雇员技能雇员技能 13 13 雇员技能雇员技能 13 13 技能技能关系成员关系成员 关系关系IDID 12 12 13 13关系键关系键关系关系关系关系ID IOID IO对象对象ID ID 域域IDID12 12 雇员雇员 社会保险号社会

12、保险号12 12 雇员技能雇员技能 社会保险号社会保险号13 13 技能技能 技能编码技能编码13 13 雇员技能雇员技能 技能编码技能编码元数据的作用元数据的作用n描述什么在数据仓库中。描述什么在数据仓库中。n制作系统设计文档。制作系统设计文档。n测量数据品质。测量数据品质。n监视数据同步操作。监视数据同步操作。n规定什么样的数据进入和离开数据仓库。规定什么样的数据进入和离开数据仓库。n根据事件时间表安排数据抽取和监视导入根据事件时间表安排数据抽取和监视导入(import)工作。)工作。n绘制由源系统数据转换为数据仓库数据的映射绘制由源系统数据转换为数据仓库数据的映射图。图。n选择不同级别的

13、数据综合算法。选择不同级别的数据综合算法。元数据的作用元数据的作用n元数据在操作型环境与数据仓库中扮演着不同的角色:n在操作型环境中,元数据几乎是事后补记,并归入到与文档相同的重要性级别。而数据仓库环境中元数据重要性提高。n二种环境中元数据服务于不同的群体。操作型服务于IT人员,数据仓库服务于DSS分析人员n元数据涉及到对二种环境中数据的映射管理n数据仓库环境中的元数据需要随时间变化追踪数据结构的变化元数据的收集与维护n1元数据的收集n(1)来源于源系统元数据操作型系统数据模型系统文档的数据元素定义COBOL写字板及控制块规范物理文件布局及字段定义程序规范外部数据来源的文件布局和字段定义其他来

14、源(如:电子表格)源系统中元数据收集n(2) 来源于抽取的数据元数据源 平 台 的数 据 和 连接所选择的数据源的布局和定义每个平台上初始抽取文件的合并准则用 于 抽 取的 字 段 定义标准化字段类型与长度的规则数 据 抽 取计划增 量 修 改的 抽 取 方法数 据 抽 取任务流从抽取的数据种收集元数据 n(3)来源于转换和清理的数据元数据抽取文件到数据准备文件的映射规范单独文件的转换规则字段默认有效性检查的商业规则分类及重排序安排从数据抽取到数据准备的审查跟踪从转换和清洗的数据中收集元数据n(4)来源于装载的数据元数据从数据准备文件到装载映像的映射规则数据准备到装载映像的审查跟踪为每个文件分配键时的分配规则完全刷新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论