数据仓库 第一章_第1页
数据仓库 第一章_第2页
数据仓库 第一章_第3页
数据仓库 第一章_第4页
数据仓库 第一章_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库与数据挖掘,中国科学技术大学商学院,课程内容简介:第一部分:数据仓库技术,数据仓库概念 数据仓库设计 操作数据存储 多维数据模型 联机分析处理,2,课程内容简介:第二部分:数据挖掘概念与技术,数据挖掘概念 概念描述 关联规则 分类和预测 聚类分析 数据挖掘应用实例,3,第一章 数据仓库技术概述,1.1 数据库到数据仓库 1.2 数据仓库的概念和特征 1.3 数据仓库中的数据组织 1.4 数据库体系化环境,4,传统的数据环境:以数据库为中心,数据资源组织方式单一。 数据处理不断有新需求,从事务处理,批处理到决策分析等,且不同类型的数据处理有不同的处理特点。 人们认识到:当数据处理方式发生

2、变化,而数据组织方式并没有改变时,就会出现数据处理方式和数据环境不相适应,从而使得数据处理不能获得理想的结果。 结论:以单一的数据组织方式进行组织的数据库,不能满足数据处理多样化的要求,数据仓库技术应运而生,1.1 从数据库到数据仓库,5,1.1 从数据库到数据仓库,数据处理具有多层次的特点,可分为两大类: 操作型处理 对数据库联机的日常操作,通常是对一个或一组记录的查询或修改,主要为企业的特定应用服务。它采用实时或在线的方式处理数据库,人们关心的是响应时间,数据的安全性和完整性,6,1.1 从数据库到数据仓库,分析型处理 用于管理人员的决策分析,经常要访问大量的历史数据,而很少对数据库进行写

3、操作,除非对数据库进行更新或装入时。人们希望从中获得跟公司经营效益紧密相关的信息。 两种不同类型的数据处理存在巨大差异,从应用的对象到数据的结构、内容和用法都不相同。 具体表现在,7,1.1 从数据库到数据仓库,1)事务处理和分析处理的性能特征不同 事务处理环境:用户的行为特点是数据的存取操作频率高,而每次操作处理的时间短。因此系统可以允许多个用户按分时方式使用系统资源,同时保持较短的响应时间。 分析处理环境:用户的行为模式与上面完全不同,一个分析处理程序可能要连续运行几个小时,从而消耗大量系统资源,8,1.1 从数据库到数据仓库,例】 在OLTP 系统中,事务的吞吐量比率通常使用每秒钟完成的

4、数据处理数TPS或TPM 来表示。 在DSS 中,吞吐量通常用每小时处理的查询数QPH 来表示。这些查询数量庞大,在它完成前,占用绝大部分机器资源。 一个OLTP 系统即使很大,也不过300GB左右,而一个大型DSS 的规模可以轻易达到1TB 。(1TB=1000GB,9,1.1 从数据库到数据仓库,2)数据集成问题 事务处理:目的在于使业务处理自动化,一般只需要与本部门业务相关的当前数据,而对整个企业范围内的集成应用考虑很少。 分析处理:需要集成的数据,不仅需要整个企业内部各部门的相关数据,还需要企业外部、竞争对手等处的相关数据,10,1.1 从数据库到数据仓库,当前绝大多数企业内部数据的真

5、正状况是分散而非集成的,主要原因: 事务处理应用的分散 “蜘蛛网”问题 数据不一致问题 外部数据和非结构化数据,11,1.1 从数据库到数据仓库,3)数据动态集成 静态集成:对所需数据一次性集成,之后就一直以此集成数据做为分析基础,不再与数据源发生联系。它最大缺点在于:当数据源发生变化(集成后),而这些变化不能反映给决策者,导致决策者使用的是过时的数据。 动态集成:集成数据以一定的周期进行刷新。 OLTP 不具备动态集成,而分析处理需要数据的动态集成,12,1.1 从数据库到数据仓库,4)历史数据问题 事务处理:一般只需当前数据。数据库中也只存储短期数据,并且不同数据保存期也不相同。即使有历史

6、数据保存,也不利用。 分析处理:对决策者而言,历史数据相当重要,许多分析方法必须以大量历史数据为依托,没有对历史数据的详细分析,很难把握企业的发展趋势,13,1.1 从数据库到数据仓库,5)数据的综合问题 事务处理积累了大量的细节数据,一般DSS不对细节数据分析。一是细节数据量大,严重影响分析效率;二是太多的细节数据不利于分析人员将注意力集中在有用信息上。因此,分析处理前经常要综合,而事务处理系统不具备这种综合能力,14,第一章 数据仓库技术概述,1.1 数据库到数据仓库 1.2 数据仓库的概念和特征 1.3 数据仓库中的数据组织 1.4 数据库体系化环境,15,1.2 数据仓库的概念和特征,

7、数据仓库系统构造方面的领头设计师W.H.Inmen 对数据仓库的定义为: 数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用于支持经营管理中的决策制定过程。 SAS软件研究所的观点: 数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理达到有效的决策支持,16,1.2 数据仓库的概念和特征,从定义可看出:DW是明确为决策支持服务,而DB是为事务处理服务。 前面简短而又全面的定义指出了数据仓库的主要特征,四个关键词:面向主题的、集成的、时变的、稳定的,将数据仓库与其他数据存储系统相区别。 下面讨论数据仓库的关键特征,17,1.2 数据仓库的概念和特征,1.数据仓库的数据是面向

8、主题的 主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的领域,基于主题组织的数据被划分为各自独立的领域,每一个领域都有自己的逻辑内容而互不相交,18,1.2 数据仓库的概念和特征DW的数据是面向主题的,面向应用的数据经常会随着各种经营环境的改变而发生变化,面向主题的数据则因为比应用具有更高的抽象层次而比较稳定。 但数据的产生都是基于应用而产生,因此数据在进入数据仓库之前,必然要经过加工和集成,将原始数据结构做一个从面向应用到面向主题的大转变,19,1.2 数据仓库的概念和特征DW的数据是面向主题的,例】一家采用“会员制”经营方式的商场,按业务建立起若干子系统,并按业务处理要求

9、建立各自数据库模式: 采购子系统: 订单(订单号,供应商号,总金额,日期) 订单细则(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话) 销售子系统: 顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话) 销售(员工号,顾客号,商品号,数量,单价,日期,20,1.2 数据仓库的概念和特征DW的数据是面向主题的,人事管理子系统: 员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门名称,部门主管,电话) 库存管理子系统: 领料单(领料单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存量,日

10、期) 库房(库房号,仓库管理员,地点,库存商品描述,21,1.2 数据仓库的概念和特征DW的数据是面向主题的,传统的面向应用进行数据组织方式的特征为: 重点在“数据”和“处理”; 通常要反映一个企业内数据的动态特征; 所生成的各项数据库模式与企业实际的业务处理流程中所涉及的单据及文档,有很好的对应关系; 并没有真正体现数据与数据处理的分离,22,1.2 数据仓库的概念和特征DW的数据是面向主题的,面向应用到面向主题的转变: 面向主题的数据组织方式应分为两个步骤: 抽取主题 确定每个主题所包含的数据内容 仍以商场为例,它所应有的主题包括:商品、供应商、顾客。每个主题有各自独立的逻辑内涵,对应一个

11、分析对象,23,1.2 数据仓库的概念和特征DW的数据是面向主题的,商品: 商品固有信息:商品号,商品名,类别,颜色等 商品采购信息:商品号,供应商号,供应价,供 应日期,供应量等 商品销售信息:商品号,顾客号,售价,销售日 期,销售量等 商品库存信息:商品号,库房号,库存量,日期 等,24,1.2 数据仓库的概念和特征DW的数据是面向主题的,供应商: 供应商固有信息:供应商号,供应商名,地址, 电话等。 供应商品信息:供应商号,供应价,供应日期, 供应量等。 顾客: 顾客固有信息:顾客号,顾客名,性别,年龄, 文化程度,住址,电话等。 顾客购物信息:顾客号,商品号,售价,购买日 期,购买量等

12、,25,1.2 数据仓库的概念和特征DW的数据是面向主题的,从面向应用 面向主题 丢弃了原来不必要,不适合分析的信息。 将分散在各子系统中的有关主题的信息集成,形成关于商品的一致信息。 不同主题之间也有重叠的内容,但只是逻辑上的重叠,细节级上的重叠, 另外主题间并不是两两重叠,26,1.2 数据仓库的概念和特征DW的数据是面向主题的,主题的实现: 一个主题可划分成多个表,基于一个主题的所有表都有一个公共码,作为主码的一部分,将各表统一起来,体现它们是属于一个主题。 例如实现商品主题,27,1.2 数据仓库的概念和特征DW的数据是面向主题的,主题:商品 公共码键:商品号 商品表(商品号,商品名,

13、类型,颜色,) 采购表1(商品号,供应商号,供应日期,供应价,) 采购表2(商品号,时间段,采购总量,) : 采购表n(商品号,时间段,采购总量,,描述的是商品的固有信息,描述的是商品的采购细节信息,时间段不等的采购综合表,28,1.2 数据仓库的概念和特征DW的数据是面向主题的,销售表1(商品号,顾客号,销售日期,售价, 销售量,) 销售表2(商品号,时间段,销售总量,) : 销售表n(商品号,时间段,销售总量,) 库存表1(商品号,库房号,库存量,日期,) 库存表2(商品号,库房号,库存量,月份,) : 库存表n( ,,29,1.2 数据仓库的概念和特征DW的数据是面向主题的,面向主题的数

14、据组织方式: 根据分析要求将数据组织成主题域,即要具有: 独立性:可交叉,但必须具有独立内涵 完备性:能在主题内找到该分析处理所 要求的一切内容,30,1.2 数据仓库的概念和特征,2.数据仓库的数据是集成的 通常,构造数据仓库是将多个异种数据源(如关系DB、一般文件和联机事务处理记录)集成在一起,使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。 主要做两个工作,31,1.2 数据仓库的概念和特征,3.数据仓库的数据是稳定的 数据仓库主要供企业决策分析使用,包括大量历史数据,数据经集成进入DW后极少或根本不更新。所以通常它只需要两种数据访问: 数据的初始装入 数据访问

15、因此数据仓库不需要事务处理、恢复和并发控制机制,32,1.2 数据仓库的概念和特征,4.数据仓库的数据是不同时间的数据集合 数据仓库的数据不可更新是针对应用而言,它随时间而发生变化的特征体现在: 数据仓库随时间变化不断增加新内容; 数据仓库随时间变化不断删除旧内容; 数据仓库随时间变化不断重新综合数据。 数据仓库的关键结构都隐式或显式地包含时间元素,33,第一章 数据仓库技术概述,1.1 数据库到数据仓库 1.2 数据仓库的概念和特征 1.3 数据仓库中的数据组织 1.4 数据库体系化环境,34,1.3 数据仓库中的数据组织,1.数据仓库的数据组织结构,35,1.3 数据仓库中的数据组织,可看

16、出:数据仓库中存在不同的综合级别,称为“粒度” 数据仓库中数据级别的划分是根据粒度进行的 元数据是“关于数据的数据”,在数据仓库环境中,主要有两种元数据: 为了从操作环境向DW环境转换而建立的 元数据 DSS的元数据,36,1.3 数据仓库中的数据组织,2.粒度与分割 数据粒度 粒度是对数据仓库中数据的综合程度高低的一个度量,它即影响数据仓库中数据量的多少,也影响数据仓库所能回答的查询种类。 粒度代表数据的细节化程度,粒度越大,数据的汇总程度越高。 事务级数据的粒度最小,它是汇总型数据的数据源。 数据仓库中数据的粒度取决于数据仓库的类型,37,1.3 数据仓库中的数据组织粒度与分割,一种特殊形

17、式的粒度样本数据库的采样粒度 样本DB是根据需求从源数据中获得的一个抽样,可代替源数据进行分析。在源数据量很大的情况下,抽样数据量可大大下降,量越大,下降比例也越大,但分析结果的误差极小。样本DB的高效率是显而易见的,但不能回答细节性问题。 样本DB的粒度级别是根据采样率的高低来划分的,采样粒度不同的样本DB可以有相同的综合级别,一般它是以一定的采样率从细节数据或轻度综合数据中抽取的一个子集,并需要定期刷新。 适用于作统计分析和观察发展趋势,当数据必须以整体观察时,样本数据库能提供非常理想的结果,38,1.3 数据仓库中的数据组织粒度与分割,数据分割 分割是指将数据分片后,分散存储到相应的物理

18、单元中,以便能分别独立处理,提高数据处理效率。分割的标准可按: 时间 业务领域 地理位置 组织单位 多个分割标准的组合 一般的分割标准都包括日期项,39,1.3 数据仓库中的数据组织粒度与分割,分割的例子:(使用了时间和保险类型作为标准) 数据分割使数据更易于重构、索引、重组、恢复、监控和顺序扫描,40,1.3 数据仓库中的数据组织,3.数据仓库的数据组织形式 简单堆积文件:将每日由DB中提取并加工的数据逐天积累地存储起来。 轮转综合文件:数据存储单位分为日、周、月、年等几个级别,轮转综合存储,例:对一个顾客的一个帐号的每天的所有活动进行综合,41,1.3 数据仓库中的数据组织数据组织形式,D

19、B快照,一月份顾客表,简化直接文件:按某个时间周期的数据库快照存储,42,1.3 数据仓库中的数据组织数据组织形式,连续文件:通过比较两个连续的简化直接文件的不同,生成另一个连续文件,43,1.3 数据仓库中的数据组织数据组织形式,1月-2月顾客表,44,1.3 数据仓库中的数据组织,4.数据仓库的数据追加 定期向数据仓库追加数据是十分重要的技术,而追加技术的实现关键是变化数据的捕捉。常用的途径有: 时标方法:若数据含有时标,则对新插入或更新的数据记录加更新时的时标,只需根据时标即可判断,45,1.3 数据仓库中的数据组织数据追加,DELTA文件:它由应用生成,记录了应用所改变的所有内容。利用DELTA文件效率较高,但使用不普遍。 前后映象文件:在上次抽取DB数据到DW之后及本次将抽取DB数据之前,对DB分别作一次快照,比较两幅快照的不同,从而确定实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论