版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第第1 1讲讲 数据仓库概述数据仓库概述2数据仓库概述数据仓库概述1.1 1.1 数据仓库产生的原因数据仓库产生的原因1.2 1.2 数据仓库的基本概念数据仓库的基本概念1.3 1.3 数据仓库的体系结构数据仓库的体系结构3数据仓库概述数据仓库概述1.1 1.1 数据仓库产生的原因数据仓库产生的原因v 1.1.1 1.1.1 操作型数据处理操作型数据处理v 1.1.2 1.1.2 分析型数据处理分析型数据处理v 1.1.3 1.1.3 两种数据处理模式的差异两种数据处理模式的差异v 1.1.4 1.1.4 数据库系统的局限性数据库系统的局限性41.11.1数据仓库产生的原因数据仓库产生的原因
2、两者有何不同?v 数据库:存放数据的地方。v 数据仓库:存放数据的地方。51.11.1数据仓库产生的原因数据仓库产生的原因两者有何不同?v 数据库:存放数据的地方。v 数据仓库:存放数据的地方。61.11.1数据仓库产生的原因数据仓库产生的原因两者有何不同?v 数据库:存放数据的地方。v 数据仓库:存放数据的地方。71.11.1数据仓库产生的原因数据仓库产生的原因81.11.1数据仓库产生的原因数据仓库产生的原因91.11.1数据仓库产生的原因数据仓库产生的原因两者有何不同?v 数据库:存放数据的地方。v 数据仓库:存放数据的地方。101.11.1数据仓库产生的原因数据仓库产生的原因数据处理的
3、类型 操作型处理(OLTP):数据的收集、整理、存储、查询和增、删、改操作。 分析型处理(OLAP):数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析。111.1.11.1.1操作型操作型数据处理数据处理v 是数据库系统的主要应用v 特点:数据存取频率高、响应时间要快、 存取数据量小、数据存储正确可靠。v 系统基本架构: 数据库数据库用户用户用户用户用户用户数据库管理系统数据库管理系统应用系统应用系统121.1.11.1.1操作型数据处理操作型数据处理为了有效地对事务进行处理,数据库管理系统在技术和管理上采取了很多措施:v提出了事务的概念v采用日志、备份等恢复技术和并发控制技术v采用
4、索引技术快速定位数据131.1.11.1.1操作型数据处理操作型数据处理在数据库设计中v广泛采用了规范化理论,消除表中属性间的部分函数依赖和传递函数依赖。v消除了数据的冗余,缩短了数据处理时间。141.1.21.1.2分析型分析型数据处理数据处理典型的分析型应用就是决策支持系统。需要具备的基本功能是:建立各种数学模型,对数据统计分析,得出有用的信息作为决策的依据。151.1.21.1.2分析型分析型数据处理数据处理常规应用实例:某产品的销售经理希望通过调整该产品在各零售店的分配数量来扩大其销售量。v需要查询历史数据库中各类零售店最近若干年(例如5年)内每天的销售记录。v统计运算计算出近5年来各
5、店的年度销售量。v比较确定销售量增长较快的零售店。161.1.21.1.2分析型数据处理分析型数据处理决策支持系统:需要花数小时甚至更长时间的处理、需要遍历数据库中的大部分数据,进行复杂的计算,需要消耗大量的系统资源。171.1.3两者数据处理模式的差别操作型数据操作型数据分析型数据分析型数据细节的 综合的,或提炼的当前数据历史数据更新的不可更新,只读的生命周期符合SDLC(软件开发生命周期)完全不同的生命周期对性能要求高 对性能要求宽松一个时刻操作一个单元一个时刻操作一个集合事务驱动分析驱动面向应用面向分析一次操作数据量小,计算简单一次操作数据量大,计算复杂支持日常操作支持管理需求181.1
6、.4数据库系统的局限v传统的数据库系统在操作型数据处理应用中取得了巨大的成功。v将其应用到分析型数据处理方面却无能为力。 191.1.4数据库系统的局限v信息系统建设的阶段性和分布性的特点,信息系统建设的阶段性和分布性的特点, 导致导致“信息孤岛信息孤岛”的存在。的存在。201.1.4数据库系统的局限211.1.4数据库系统的局限(续)1)数据的分散联机事务处理系统一般只需要与本部门业务相关的当前数据。企业内部各应用之间实际上几乎都是独立的。222)“蜘蛛网”问题v 解决数据分散的一种方法就是对数据进行集成v 抽取程序带来了“蜘蛛网”问题,即需要在抽取的数据中再次抽取,将导致企业数据之间形成错
7、综复杂的网状结构。1.1.4数据库系统的局限233)数据不一致问题由于数据分散,导致多个应用间的数据不一致:u 同一字段在不同应用中具有不同的数据类型u 同一字段在不同应用中具有不同的名字u 字段名字相同,但含义不同1.1.4数据库系统的局限244)数据动态集成问题u 数据集成开销很大。一些应用仅在开始时对进行集成,以后一直以这部分集成数据作为分析基础,称为静态集成。导致决策者使用过时数据。u 如果希望能够用上最新数据,每次分析之前都进行数据集成,称为动态集成。联机事务处理系统不具备动态集成能力。1.1.4数据库系统的局限255)历史数据问题v联机事务处理一般只需要当前数据,数据库适于存储高度
8、结构化的日常事务细节数据。v决策型数据多为历史性、汇总性或计算性数据。1.1.4数据库系统的局限266)数据的综合问题u 联机事务处理系统中积累了大量的细节数据,决策支持系统并不对细节数据进行分析。u 决策分析环境中,细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。u 因此分析前,需要对细节数据进行不同程度的综合。1.1.4数据库系统的局限27v结论u 要提高分析和决策的效率和有效性,必须把分析数据从事务处理环境中提取出来,按照决策支持系统处理的需要进行重新组织,建立单独的分析型处理环境。u 数据仓库正是为了构建这种新的分析型处理环境而出现的一种数据存储和组织
9、技术。1.1.4数据库系统的局限28数据仓库概述数据仓库概述1.1 1.1 数据仓库产生的原因数据仓库产生的原因1.2 1.2 数据仓库的基本概念数据仓库的基本概念1.3 1.3 数据仓库的体系结构数据仓库的体系结构29 “数据仓库”一词最早是在1990年,由Bill Inmon提出的。数据仓库的四个基本特征:u数据仓库的数据是面向主题的(Subject Oriented);u数据仓库的数据时集成的(Integrate);u数据仓库的数据不可更新(Non-Volatile);u数据仓库的数据时随时间不断变化(Time Variant)的。 1.2 数据仓库的基本概念30v数据仓库就是一个面向主
10、题的、集成的、不可更新的、随时间不断变化的数据集合,通常用于企业的决策支持。 1.2 数据仓库的基本概念31v 主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。v 面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述。1.2.1 面向主题32v 传统的面向应用的数据组织方式u围绕相关的组织、部门进行详细调查,收集数据库的基础数据及其处理过程。u掌握企业内数据的动态特征(数据流图)。v 面向主题的数据组织方式u抽取主题u确定每个主题所应包含的数据内容1.2.1 面向主题33采
11、购子系统:订单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)销售子系统:顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期)1.2.1 面向主题34人事管理子系统:员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)库存管理子系统:领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)1.2.1 面向主题35传统的面
12、向应用进行数据组织方式的特征为:v 重点在“数据”和“处理”;v 所生成的各项数据库模式与企业实际的业务处理流程中所涉及的单据及文档,有很好的对应关系;v 并没有真正体现数据与数据处理的分离。1.2.1 面向主题36v面向应用到面向主题的转变: 面向主题的数据组织方式应分为两个步骤: 抽取主题 确定每个主题所包含的数据内容v仍以商场为例,它所应有的主题包括:商品、供应商、顾客。每个主题有各自独立的逻辑内涵,对应一个分析对象。1.2.1 面向主题37v 商品:商品固有信息:商品号,商品名,类别,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量等商品销售信息:商品号,顾客号,售价,销
13、售日期,销售量等商品库存信息:商品号,库房号,库存量,日期等1.2.1 面向主题38v 供应商:供应商固有信息:供应商号,供应商名,地址,电话等。供应商品信息:供应商号,供应价,供应日期,供应量等。v 顾客:顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址顾客购物信息:顾客号,商品号,售价,购买日期,购买量等。1.2.1 面向主题39v 从面向应用 面向主题丢弃了原来不必要,不适合分析的信息。将分散在各子系统中的有关主题的信息集成,形成关于商品的一致信息。不同主题之间也有重叠的内容,但只是逻辑上的重叠,细节级上的重叠, 另外主题间并不是两两重叠。供应商供应商顾顾 客客商商 品品1.2.
14、1 面向主题40v 主题的实现: 一个主题可划分成多个表,基于一个主题的所有表都有一个公共码,作为主码的一部分,将各表统一起来,体现它们是属于一个主题。v 例如实现商品主题:1.2.1 面向主题41v主题:商品v公共码键:商品号商品表(商品号,商品名,类型,颜色,)采购表1(商品号,供应商号,供应日期,供应价,) 采购表2(商品号,时间段,采购总量,) : 采购表n(商品号,时间段,采购总量,)描述的是商品描述的是商品的固有信息的固有信息描述的是商品描述的是商品的采购细节信的采购细节信息息时间段不等的时间段不等的采购综合表采购综合表1.2.1 面向主题42销售表1(商品号,顾客号,销售日期,售
15、价, 销售量,) 销售表2(商品号,时间段,销售总量,) : 销售表n(商品号,时间段,销售总量,)库存表1(商品号,库房号,库存量,日期,) 库存表2(商品号,库房号,库存量,月份,) : 库存表n( ,)1.2.1 面向主题43v 面向主题的数据组织方式: 根据分析要求将数据组织成主题域,即要具有: 独立性:可交叉,但必须具有独立内涵 完备性:能在主题内找到该分析处理所要求的一切内容1.2.1 面向主题442.数据仓库的数据是集成的v 通常,构造数据仓库是将多个异种数据源(如关系DB、一般文件和联机事务处理记录)集成在一起,使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一
16、致性。v 主要做两个工作统一源数据中所有矛盾之处进行数据综合和计算1.2.2 数据仓库的其它三个特征453.数据仓库的数据是稳定的v 数据仓库主要供企业决策分析使用,包括大量历史数据,数据经集成进入DW后极少或根本不更新。所以通常它只需要两种数据访问: 数据的初始装入 数据访问v 因此数据仓库不需要事务处理、恢复和并发控制机制。1.2.2 数据仓库的其它三个特征464.数据仓库的数据是不同时间的数据集合v 数据仓库的数据不可更新是针对应用而言,它随时间而发生变化的特征体现在:v 数据仓库随时间变化不断增加新内容;v 数据仓库随时间变化不断删除旧内容;v 数据仓库随时间变化不断重新综合数据。数据
17、仓库的关键结构都隐式或显式地包含时间元素。1.2.2 数据仓库的其它三个特征47根据数据仓库的四个特征表明,数据仓库实际上是一种数据存储,它将各种异构数据源中的数据集成在一起,并保持其语义一致,从而为企业决策提供支持。1.2.3 数据仓库的功能48数据仓库概述数据仓库概述1.1 1.1 数据仓库产生的原因数据仓库产生的原因1.2 1.2 数据仓库的基本概念数据仓库的基本概念1.3 1.3 数据仓库的体系结构数据仓库的体系结构491.3.1 体系结构 从数据仓库的概念结构看,数据仓库系统由:数据源、集成工具、数据仓库与数据仓库服务器、OLAP服务器、元数据与元数据管理工具、数据集市和前台分析工具
18、等组成。1.3 数据仓库的体系结构50数据仓库数据仓库可视化用户接口可视化用户接口OLAP工具工具查询查询/报表工具报表工具数据挖掘工具数据挖掘工具前端开发工具前端开发工具集成器集成器集成器集成器转换器转换器转换器转换器源数据源数据源数据源数据元数据元数据及其管理工具及其管理工具 数据仓库体系结构数据仓库体系结构1.3.1 体系结构51v 源数据:是数据仓库系统的基础,是整个系统的数据源泉。v 集成工具:用于数据抽取(Extracting)、清洗(Cleaning)、转换(Transformation)、加载(Load)的工具,简称ETL工具。v 数据仓库服务器:负责管理数据仓库中的数据。一般由关系数据库管理系统扩展而成。v OLAP服务器:对分析所需要的数据按照多维数据模型进行再次组织,以支持用户多角度、多层次的数据分析。1.3.1 体系结构52v 数据集市:是一种小型的数据仓库。是面向部门级的应用,因此也称之为部门级数据仓库。v 前台分析工具:主要包括各种数据分析工具,如报表工具、OLAP工具、数据挖掘工具等。v 元数据:是整个数据仓库的所有描述性信息。1.3.1 体系结构53v 数据集市(Data Marts):为了特定目的,从数据仓库中独立出来的一部分数据。也称为部门级数据仓库。v 数据集市的产生:参见W.H.Inmon在其所著的Building the Dat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度高标准温室大棚施工合作协议范本2篇
- 建设合同范本(2篇)
- 二零二五版白酒品牌代理商白酒回购合作协议3篇
- 二零二五年度城市棚户区改造民房征收补偿合同4篇
- 二零二五年度新型节能门窗研发生产合同4篇
- 部编版八年级语文上册《白杨礼赞》教学设计(共2课时)
- 银行课程设计报告范文
- pvc管道施工方案
- 2024年学校防溺水教案
- 2025年度个人公共安全设施承包合同模板4篇
- 春节联欢晚会节目单课件模板
- 中国高血压防治指南(2024年修订版)
- 教育促进会会长总结发言稿
- 心理调适教案调整心态积极应对挑战
- 喷漆外包服务合同范本
- 2024年电信综合部办公室主任年度述职报告(四篇合集)
- 微机原理与接口技术考试试题及答案(综合-必看)
- 湿疮的中医护理常规课件
- 初中音乐听课笔记20篇
- NUDD新独难异 失效模式预防检查表
- 内蒙古汇能煤电集团有限公司长滩露天煤矿矿山地质环境保护与土地复垦方案
评论
0/150
提交评论