




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Copyright 2007 创智新程,数据仓库和数据集市,Copyright2007-2009 创智新程,Copyright 2007 创智新程,数据仓库和数据集市,目标 什么是数据仓库 数据仓库系统体系结构 操作数据库与数据仓库的区别 维度建模的相关概念 维度建模的基本步骤 数据集市,Copyright 2007 创智新程,数据仓库的定义,数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volation)、反映历史变化(Time Variant)的集合数据,用于支持管理决策和信息的全局共享。
2、-W.H.Inmon,Copyright 2007 创智新程,面向主题的,数据仓库是面向不同的主题域进行组织。一个主题通常与多个操作型信息系统相关。,Copyright 2007 创智新程,集成的,数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。,Copyright 2007 创智新程,相对稳定的,数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。,Copyright 2007 创智新程,反映历史变化的,数据仓库中的数据通常包含历史信息,
3、系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。,Copyright 2007 创智新程,数据仓库系统体系结构,Copyright 2007 创智新程,数据仓库系统体系结构,数据源 数据存储及管理 OLAP引擎 前端工具,Copyright 2007 创智新程,操作数据库与数据仓库的区别,操作数据库系统的主要任务是联机事务处理OLTP。 数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP。,Copyright 2007 创智新程,维度建模的相关概念,数据仓库 数据集市 事实
4、 维度 数据挖掘,Copyright 2007 创智新程,维度建模的相关概念,分析空间 数据仓库中一定量的数据,用于进行数据挖掘以发现新信息同时支持管理决策。 切片 一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。 星型模型 一种使用关系数据库实现多维分析空间的模型。 雪花模型 不管什么原因,当星型模型的维度需要进行规范化时,星型模型就演化为雪花模型。,Copyright 2007 创智新程,多维数据模型,一种非规范化的关系模型。 由一组属性构成的表所组成。 表跟表之间的关系通过关键字和外键来定义。 以良好的可理解性和方便的产生报表来进行数据组织,很少考虑修改的性能。 通过SQ
5、L或者相关的工具实现数据的查询和维护。,Copyright 2007 创智新程,多维数据模型,数据仓库和OLAP工具基于多维数据模型,该模型将数据看作数据立方体形式。 数据立方体允许以多维对数据建模和观察。,一个具有 x、y、z 维度的方块,Copyright 2007 创智新程,多维数据模型的组成,维 事实 数据立方体,Copyright 2007 创智新程,多维数据模型举例,关系表与多维Cube,Copyright 2007 创智新程,多维建模技术,星型和雪花模式是主要的存在形式。 星型模式包含一个大的包含大批数据的事实表和一系列维表。 雪花模式是星型模式的变种,不同的是将某些维表规范化。
6、,Copyright 2007 创智新程,星型模式,Copyright 2007 创智新程,维表进一步层次化,改善查询性能,增加表数量,增加查询复杂性。,雪花模式,Copyright 2007 创智新程,事实表,每一个事实表通常包含了处理所关心的一系列的度量值。 每一个事实表的行包括: 具有可加性的数值型的度量值。 文本事实通常具有不可预见的内容,很难进行分析。 与维表相连接的外键。 通常具有两个和两个以外的外键。 外键之间表示维表之间多对多的关系。,Copyright 2007 创智新程,事实表,事实表的特征 非常大 包含几百几千条甚至几万、几十万的记录。 内容相对的窄 列数较少 经常发生变
7、化 现实世界中新事件的发生-事实表中增加一条记录。 典型情况下,仅仅是数据的追加。 事实表的使用 各类度量值的聚类计算,Copyright 2007 创智新程,维表,每一张维表对应现实世界中的一个对象或者概念。 例如:客户、产品、日期、地区、商场 维表的特征 包含了众多描述性的列 维表的范围很宽(具有多个属性) 通常情况下,跟事实表相比,行数相对较少 通常10万条 内容相对固定 几乎就是一类查找表,Copyright 2007 创智新程,任务一:设计Northwind数据库的星型模型,解题步骤 定义OLAP的数据集市:包括使用星型模型或雪花模型。 事实的选择:通过事实表的共有特性及四种常见样式
8、来选择适当的事实种类。四种常见的事实样式为:事务事实、快照事实、线性项目事实、事件/状态事实。 维的创建。 聚合体的设计。,Copyright 2007 创智新程,任务一:设计Northwind数据库的星型模型,设计分析 OLAP数据来源:Northwind数据库共有8个表,分别是Orders、OrderDetails、Customers、Products、Categories、Employe es、Shippers及Suppliers。 Time_Dim时间维 Northwind销售系统的日期以Orders的出货日为事实的时间,因此产生一个Time_Dim。,Copyright 2007 创
9、智新程,任务一:设计Northwind数据库的星型模型,设计分析 事实表的主轴: Orders和OrderDetails两个表的连接。 OrderDetails中包括了数值字段:UnitPrice、Quantity及Discount。可以推算出事实所需要的度量值:运费、销售金额、销售数量和折扣。 四个维表Customer_Dim、Product_Dim、Employee_Dim及Shipper_Dim的确定。 Orders及OrderDetails两个表中的外部键有CustomerID、ProductID、EmployeeID及ShipperID。,Copyright 2007 创智新程,任务
10、一:设计Northwind数据库的星型模型,设计分析 Product_Dim具有一个分层结构:产品类别,并且采用的是合并维分层结构。 Northwind数据库Categories的CategoriesID与Products的Cate goriesID是一对多的关系,因此可以通过连接将Categories的CategoriesName合并到Product_Dim中。 Northwind数据库Suppliers的SupplierID与Products的Supplier ID是一对多的关系,因此可以通过连接将Suppliers的Comp anyName合并到Product_Dim的供应商中。,Cop
11、yright 2007 创智新程,任务一:设计Northwind数据库的星型模型,设计实施 建立Sales_Fact事实表 主键是由时间序号、客户序号、发货人序号、产品序号及员工序号共同组成一个多值键,并且这几个字段的值都是来自维表的外部键。,Copyright 2007 创智新程,任务一:设计Northwind数据库的星型模型,设计实施 建立Time_Dim维表。 时间序号,是一个由标识(Identity)生成的代理键。 出货日,即Orders的ShippedDate。 几乎所有的数据仓库中均包含时间维。 数据仓库是反映历史变化的 允许针对历史的数据进行分析 典型的粒度:each row =
12、 1 day,Copyright 2007 创智新程,任务一:设计Northwind数据库的星型模型,设计实施 建立Customer_Dim维表 客户序号,是一个由标识生成的代理键。 其他字段都是由Customers这个表来产生。,Copyright 2007 创智新程,任务一:设计Northwind数据库的星型模型,设计实施 建立Product_Dim维表。 产品序号,是一个由标识生成的代理键。 Product_Dim有一个分层结构:产品类别,并且采用的是合并维分层结构。所以产品类别这个字段从Categories的ProductID与Products的ProductID连接而来。 其他字段都
13、是由Products这个表来产生。,Copyright 2007 创智新程,任务一:设计Northwind数据库的星型模型,设计实施 建立Employee_Dim维表。 员工序号,是一个由标识生成的代理键。 员工姓名:由DTS的ActiveX Script将Northwind数据库中的Employees这个表的lastname与firstname合并而成。 年龄及年薪由Employees这个表的BirthDate、HireDate产生。 年龄层及年薪层是基于分析便利而产生的统计组,当数据由OLTP转换到OLAP时,由DTS的ActiveX Script来负责做建立分组的动作。 其他字段都是由Employees这个表来产生。,Copyright 2007 创智新程,任务一:设计Northwind数据库的星型模型,设计实施 建立ShipperDim这个维表 发货人序号,是一个由标识生成的代理键。 其他字段都是由Shippers这个表来产生。,Copyright 2007 创智新程,任务一:设计Northwind数据库的星型模型,将五个维表Time_Dim、Customer_Dim、Product_Dim、Employee_Dim及Shipper_Dim与事实表Sales_Fact作关联。,Co
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 固定资产转让合同
- 劳务分包安全合同
- 儿童玩具购销合同书
- 工程装饰装修合同文书
- 木门签订合同协议怎么写
- 合同代保管协议
- 学术推广合同协议
- 石头加工合同协议
- 公寓楼转卖合同协议
- 员工解除合同协议书丢失
- 《炎症性肠病课件》课件
- 人教版七年级下册生物期中考试试卷及答案
- (2025)专业技术人员继续教育公需课题库(附含答案)
- 小学一年级班主任工作实习计划(16篇)
- 肿瘤科护理沟通技巧
- 生物识别技术保障个人隐私
- 第四单元 民族团结与祖国统一 -【背诵清单】2022-2023学年八年级历史下册期末复习必背核心知识梳理(部编版)
- 一级建造师《港口与航道工程管理与实务》课件-专业工程技术
- DB31-T 1468-2024 工贸企业危险化学品安全管理规范
- 2025年高考政治一轮复习知识清单选择性必修三 《逻辑与思维》知识点复习
- 初三班级学生中考加油家长会课件
评论
0/150
提交评论