已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,第二章 数据仓库的数据模型与数据组织,本章要点 数据仓库的数据模型 概念模型 逻辑模型 物理模型 数据仓库数据组织的基本概念 粒度 维度 元数据 数据分割 数据仓库的数据组织 数据仓库的数据组织方式 数据仓库的数据存储组织,2,数据仓库中的数据组织,高度综合级,轻度综合级,当前综合级,早期细节级,多级数据,3,数据仓库的数据模型 与数据库系统数据模型的区别,数据仓库的数据模型中不包含纯操作型数据。 数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分。 数据仓库的数据模型中增加了一些面向主题的导出数据。,4,星型图模型 物理数据模型,概念模型,逻辑模型,物理模型,面向用户的需求,细 化层次,更详细的 技术细节,数据仓库的数据模型,信息包图,5,信息包图(概念模型),信息包图:是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。 工作: 确定系统边界:决策类型、需要的信息、原始信息 确定主题域及其内容:主题域的公共键码、联系、属性组 确定维度:如时间维、销售位置维、产品维、组别维等 确定类别:相应维的详细类别 确定指标和事实:用于进行分析的数值化信息,6,信息包图,信息包: 维度 类别 空白信息包图样式,7,信息包图,例试画出销售分析的信息包图。 解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实: (1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。 (2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。 (3)指标和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。,8,销售分析的信息包图,信息包: 销售分析 维度,类别,9,星型图模型(逻辑模型),星型图:数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。 星形图包括了三种逻辑实体: 指标 维度 详细类别,10,星型图模型(逻辑模型) 例销售分析的星型图模型。,时间维,产品维,地区维,组别维,其他维,销售分析: 实际销售 预测销售 预测偏差,11,物理数据模型,物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。 在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。,12,粒度第一种形式,粒度:对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。 粒度越小,综合程度越低,回答查询的种类越多; 粒度越高,综合程度越高,查询的效率也越高。 在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的数据存储在高速存储器上。,13,粒度第二种形式:样本数据库,样本数据库:在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。 样本数据库的粒度:是根据采样率的高低来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。 样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。,14,维度,维度:是一个物理特性(如时间、地点、产品等),它是表达数据仓库中信息的一个基本途径,可作为标识数据的索引。通常的报表只包含有行和列两维,但在数据仓库中所存储的数据大多是用多维(三维或三维以上)视图表示的。 例如: 一个销售系统中的数据可分为时间维、产品维和地理位置维等; 一个财务系统中的数据可分为时间维、支出维和收入维等; 一个企业决策支持系统中的数据可分为成本开支维、销售收入维、利润维、股票价值维等。,15,聚合,在数据仓库技术中,每一维可包括多个层次,这些层次反过来可以向用户提供某一层次的数据。例如,在地理位置维中,由所有的街区组成了地区,由所有的地区组成了城市等。聚合就是指在维的不同层次内移动数据,从而构成维内不同层次的数据集,使用户不仅能够在一个维度内观察数据,而且能够在维度内的不同层次上观察数据。,16,分解与合成,分解与合成是在一个维度内进一步细分数据或将数据按照另一标准组合的过程。例如,当以地理位置维观察数据时,用户可以首先以国家(如中国)为单位观察数据,然后可以选择观察某一个地区(如华东地区)的数据,接下来可以选择观察某一个省或城市(如上海)的数据,这就是数据分解的过程。而合成则是分解的逆过程,例如用户开始以省市为观察对象,接着再以地区、国家等为观察对象,就是一个数据合成的过程。,17,分割及其标准,分割:将数据分散到各自的物理单元中去以便能分别处理,提高数据处理效率,数据分割后的数据单元称为分片。 数据分割的标准:可按日期、地域、业务领域或按多个分割标准的组合。 数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、扫描,18,数据分割的方法,垂直分割:垂直分割就是把一个表垂直分成两部分。这种类型的分割有助于把一大堆列分成两个独立的表,这两个表之间通过一个关键字段相关联。 水平分割:水平分割就是把表按行分成两部分。这种类型的分割被用来存储与用户联系紧密的本地重要数据,从而减少网络查询。 图解分割:经由多个分布系统把一个图分解成两部分。可以从指定的服务器或在多个服务器之间建立连接而得到一个表所需要的全部数据。这种类型的分割被用来把小的、静止的表从不稳定的、越变越大的表中分割出来。,19,元数据,元数据:是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。 要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。,20,元数据的种类,转换元数据:为了从事务处理型环境向数据仓库中转换而建立的元数据,它包含了所有源数据的信息、事务描述、数据结构的定义、提取数据和传送数据的算法、综合数据和净化数据的规则、数据访问和传送的记录等。 dss元数据:在数据仓库中用来与终端用户的多维商业模型/前端工具之间建立映射,这种元数据常称为dss元数据,常用来开发更先进的决策支持工具。,21,数据仓库中的元数据的内容,关于源数据的元数据:数据源中所有物理数据结构;所有数据项的业务定义;每个数据项更新的频率,以及由谁或哪个过程更新的说明;每个数据项的有效值;其它系统中具有相同业务含义的数据项的清单。 关于数据仓库映射的元数据。 关于系统安全的元数据。,22,与传统数据库系统的数据字典中相似的内容。 数据仓库的主题描述。 外部数据和非结构化数据的描述。 记录系统定义。 逻辑模型的定义。 数据进入数据仓库的转换规则。 数据的提取历史。 粒度的定义。 数据分割的定义。 广义索引。 有关存储路径和结构的描述。,23,数据仓库的数据组织,数据仓库是构建这种新的分析处理环境而出现的一种数据存储和组织技术。 数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。,24,数据仓库的数据组织方式,基于关系表的存储方式:这种方式的主要问题是在多维数据模型定义好后,从数据库中提取数据往往需要编制独立、复杂的程序,因此,通用性较差,且很难维护。 多维数据库存储方式:多维数据库的组织方式是直接面向olap分析操作的数据组织形式。这种数据库产品也比较多,实现方法也不尽相同。其数据组织采用多维数据结构文件进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度全款购入进口跑车合同范本3篇
- 二零二五年度企业与个人投资回报对赌协议3篇
- 二零二五年度员工试用期工作内容调整及考核标准协议3篇
- 二零二五年度电商平台商家会员返利合同3篇
- 2025年度新能源汽车产业链投资基金合作协议3篇
- 2025年度公司股东内部关于企业并购整合的专项协议3篇
- 2025年度绿色能源项目分摊协议3篇
- 二零二五年度新能源汽车充电桩建设投资入股合同3篇
- 2025通信销售合同
- 2025年农村土地永久转让与农村电商合作框架合同3篇
- 承压设备事故及处理课件
- 煤层气现场监督工作要点
- 工会经费收支预算表
- 舒尔特方格55格200张提高专注力A4纸直接打印版
- 质量管理体系各条款的审核重点
- 聚丙烯化学品安全技术说明书(MSDS)
- BBC美丽中国英文字幕
- 卫生院工程施工组织设计方案
- CDR-临床痴呆评定量表
- 《八年级下学期语文教学个人工作总结》
- 铝合金门窗制作工艺卡片 - 修改
评论
0/150
提交评论