数据仓库与数据挖掘课件ppt(精)__第1页
数据仓库与数据挖掘课件ppt(精)__第2页
数据仓库与数据挖掘课件ppt(精)__第3页
数据仓库与数据挖掘课件ppt(精)__第4页
数据仓库与数据挖掘课件ppt(精)__第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程安排 数据仓库: 18学时 数据挖掘: 18学时 考 试: 撰写论文 第一章 数据仓库的基本概念 案例讨论:下图展示了某电信公司的市场部和计划 部对业务A是否具有市场前景的分析过程和结果。 试讨论为什么两部门分析结果不同。 企业级数据库 市场部分析程序1 分析结果1: 前景很好 计划部分析程序2 分析结果2: 前景不好 第一章:数据仓库的基本概念 1-1 数据仓库的产生与发展 传统的数据库技术作为数据管理手段,主要用 于联机事务处理(OLTP,On-Line Transaction Process) , 数据库中保存的是大量的日常业务数据。 在数据共享、数据与应用程序的独立性、维护 数据的一致性与完整性、数据的安全保密性等方面 提供了有效的手段。 第一章 数据仓库的基本概念 与分析型应用结合时存在的问题: v 决策支持系统为掌握充分的信息,需要访问大 量的企业内部数据和外部数据。 v 传统数据库中的大量数据是事务型数据,即该 数据是对每一项工作、管理对象的具体的、细节 性的描述。 v 事务处理型应用与分析决策型应用对数据库系 统的性能要求不同。 v 传统数据库中保存和管理的一般是当前数据, 而决策支持系统不仅需要当前的数据,而且还要 求有大量的历史数据。 第一章 数据仓库的基本概念 结论: 在事务处理型应用环境中直接构建分析 决策型应用是不可行的。 于是: 面向分析决策型应用而组织和存储数据 的数据仓库技术应运而生。 第一章 数据仓库的基本概念 时间:20世纪80年代初 人物:W.H.Inmon 定义: 数据仓库是面向主题的、集成的、 具有时间特征的、稳定的数据集合,用以支持经 营管理中的决策制定过程。 A data warehouse is a subject-oriented,integrated, time-variant,and nonvolatile collection of data in support of managements decision making process. 第一章 数据仓库的基本概念 数据仓库的四大特征: 数据是面向主题的 数据是集成的 数据是具有时间特征的 数据是相对稳定的 数据仓库的其它特点: 数据量非常大(10GB-1000GB) 是数据库技术的一种新的应用 使用人员较少 第一章 数据仓库的基本概念 1-2 数据仓库与数据库 操作型数据库 分析型数据仓库 系统目的 支持日常操作 支持管理需求,获取信息 使用人员 办事员、DBA、数据库专家 经理、管理人员、分析专家 数据内容 当前数据 历史数据、派生数据 数据特点 细节的 综合的或提炼的 数据组织 面向应用 面向主题 存取类型 添加、修改、查询、删除 查询、聚集 数据稳定性 动态的 相对稳定 第一章 数据仓库的基本概念 续上表: 操作型数据库 分析型数据仓库 需求特点 需求事先可知道 需求事先不知道 操作特点 一个时刻操作一单元 一个时刻操作一集合 数据库设计 基于E-R图 基于星型模式、雪花模式 一次操作数据量 一次操作数据量小 一次操作数据量大 存取频率 较高 较低 响应时间 小于3秒 几秒几十分钟 第一章 数据仓库的基本概念 1-3 数据仓库技术的术语 主题: (Subject) 主题是一个在较高层次上将数据归类的标准, 每一个主题基本对应一个宏观的分析领域。 例:面向主题:产品订货分析,货物发运分析, 新产品 开发分析; 面向应用:财务,销售,供应,人力资源,生产调度 . 主题域的特征:独立性,完备性 第一章 数据仓库的基本概念 粒度:(Granularity) 粒度是指数据仓库中数据单元的详细程度和 级别。 数据越详细,粒度越小,级别越低,回答查 询的种类就越多。(数据堆积,回答综合问题效 率低) 数据越综合,粒度越大,级别越高,回答查 询的种类就越少。 第一章 数据仓库的基本概念 维度:(Dimension) 维度是指人们观察事物的角度。 例如:当人们关注产品销售情况时,有如下维度: 时间维:随时间变化的销售数据; 地区维:不同地区的销售数据; 客户维:不同客户的销售; 根据观察事物角度的细节程度不同,维又具有 维层次。数据; 渠道维:不同销售渠道的销售数据; 产品维:不同产品的销售数据 例:时间维:日期、周、月份、季度、年等; 地区维:城市、地区、国家等。 第一章 数据仓库的基本概念 数据立方体: 数据立方体是指由两个或更多个属性即两个 或更多个维来描述或者分类的数据。 在三维的情况下可以用图形来表示,一般称 为数据立方体。 实际的数据仓库的应用中,数据是多维的。 第一章 数据仓库的基本概念 联机分析处理: (OLAP) 联机分析处理是快速、灵活的多维数据分析工 具。 OLAP的目的是支持分析决策,满足多维环境 的查询和报表需求。 数据仓库的多维数据存储结构为OLAP的实施 提供了理想的多维数据环境。 第一章 数据仓库的基本概念 数据集市: (Data Mart) 数据集市是完整的数据仓库的一个逻辑子集, 而数据仓库正是由其所有的数据集市有机组合而 成的。 一般在某个业务部门建立数据集市,或称为 部门级数据仓库。 建立数据集市与数据仓库,一般是采用“自 顶向下”和“自下而上”相结合的设计思想。 第一章 数据仓库的基本概念 第一章 数据仓库的基本概念 讨论题: 1、结合武汉理工大学学生学籍管理系统进行 数据仓库的主题划分,列举有哪些主题。 1-4 多维数据模型 多维数据模型是进行决策支持数据建模的最好 方式,数据仓库采用多维数据模型不仅能使其使用 方便,而且能提高系统的性能。 1-4-1 实体关系模型与多维模型 实体关系模型应用于操作型数据库系统,多维 模型应用于分析型数据仓库系统。 实体关系模型不适用于以查询为主的分析型应 用,具体表现在:使用者、界面、检索手段。 第一章 数据仓库的基本概念 多维数据模型以直观的方式组织数据,每一个 多维数据模型由多个多维数据模式(Dimensional Data Schema)表示。 每一个多维数据模式都是由一个事实表(Fact Table)和一组维表(Dimension Table)组成。 事实表的主码是组合码,维表的主码是简单码 ,每一张维表中的简单码与事实表组合码中的一个 组成部分相对应。 第一章 数据仓库的基本概念 企业销售数据的多维数据模式图 第一章 数据仓库的基本概念 时间码 日期 月份 季度 年度 时间码 产品码 地区码 销 售 量 销 售 额 销售成本 产品码 产品大类 产品细类 产品名称 地区码 国 家 地 区 城 市 时间维表事 实 表 产品维表 地区维表 多维数据模型的优势: 多维数据模型是已知标准化的结构,即包含多 个多维数据模式,每一个多维数据模式都对应一张 事实表和多张维表。 这种多维结构能支持最终用户不可预知的操作 ,原因在于多维数据模型的各个维是逻辑等价的。 多维数据模型对决策分析有好的扩展性。 汇总数据的巨大价值。 第一章 数据仓库的基本概念 1-4-2 星型模式 星型模式是事实表与维表通过星型方式连接而 成,如下图: 第一章 数据仓库的基本概念 产品码(PK) 产品大类 产品细类 产品名称 地区码(PK) 国 家 地 区 城 市 产品维表 地区维表 时间码(FK) 产品码(FK)(PK) 地区码(FK) 销 售 量 销 售 额 销售成本 事 实 表 时间码(PK) 日期 月份 季度 年度 时间维表 第一章 数据仓库的基本概念 星型模式的优点: 星型模式结构简单,表的数目少,建模方便。 星型模式支持多维数据建模,支持使用人员从 不同的维度对数据进行分析。 星型模式能较好地为数据仓库提供查询支持。 星型模式可以提高查询速度。 第一章 数据仓库的基本概念 主码、外码和代理码: 主码(Primary Key):主码是表中的一个属性或 属性的组合,它能唯一地标识表中的每条记录。 外码(Foreign Key):外码是出现在一个表中, 同时在另一个表中被定义成主码的属性。 代理码(Surrogate Key):所有的主码和外码 一般都是采用没有具体含义的代理码,例如,从1开始的自然 数编码。 第一章 数据仓库的基本概念 事实表: 事实表是星型模式的核心,它是按维进行分析 形查询的对象,其中存储的是业务事实,例如:销 售量、销售额、销售成本等。 事实表中的数据一般是数值型,具有可加性。 事实表的主码为外码的组合,唯一的标识各条 事实记录,事实表的外码对应各维表的主码。 第一章 数据仓库的基本概念 维表: 维表用于指导从不同的角度在事实表中选择数 据行。 维表中有一个主码,其余非主码的列为属性 ,维表中的属性数据通常是字符型数据。 维表具有层次性,维表的层次性可用来分割 其他的明细维表,维表层次的级别数量取决于查询 的粒度。 第一章 数据仓库的基本概念 1-4-3 数据仓库的总线型结构 著名的数据仓库专家Ralph Kinball认为,数 据仓库的建设应该是一步步完成的,以部门级数据 集市的建设为出发点,但必须统观全局,使数据集 市成为完整的企业级数据仓库的一个逻辑子集。 这种建设思想的实现是以一种特定的结构为指 导的,称为数据仓库的总线型结构(Data Warehouse Bus Architecture)。 第一章 数据仓库的基本概念 统一的维: 统一的维是指:一个维,无论其维表与哪一个 事实表相连接,维的含义是完全相同的。 建立、公布、维护和完善统一的维是全局数据 仓库项目小组一项非常重要的工作。 公布了统一维之后,各数据集市必须严格执行 。 第一章 数据仓库的基本概念 统一的事实: 统一的事实的定义工作与统一的维的定义工作 同时进行,由数据仓库项目:小组负责,工作量相 对较少,但要注意以下几点; v 统一的计算口径 v 统一的计量单位 v 统一的含义 v 事实表中要包含最详细的事实数据,即粒度最小 的 数据 第一章 数据仓库的基本概念 讨论题: 1、根据学籍管理系统数据仓库的建设,确定 事实表与维表,列举各个维,并划分维层次。 1-5 数据仓库的体系结构 1-5-1 体系结构的内容 总体框架 Zachman框架: 回答问题 数据体系结构-数据仓库的内容是什么? 系统体系结构-存放在什么平台上? 技术体系结构-如何实现? 第一章 数据仓库的基本概念 前端工具 数 据 预 处理工具 技术体系结构图如下: 第一章 数据仓库的基本概念 预 处 理 数 据 数 据 源 数据集市 数据集市 数据集市 总 线 查询 服务 数据 元数据 OLAP 数据挖掘 其他工具 报表生成器 抽取、转换 、装载 可视化 分 析 结 果 后台前台 第一章 数据仓库的基本概念 1-5-2 相关的数据存储 数据源: 数据源是数据仓库的原始来源,是数据仓库系 统开发与应用的数据基础,分为两部分; v 企业内部数据源 v 企业外部数据源 第一章 数据仓库的基本概念 主题数据: 主题数据是数据仓库的核心数据,一般以多维 数据模型的形式存储在数据仓库中,直接面向分析 型用户的访问。 主题数据的存储称为实视图,它与数据库的视 图概念不同之处在于:它不是虚拟的,而是已经过 计算,含有大量数据,并存储在数据仓库中的实实 在在的表。 第一章 数据仓库的基本概念 实视图的好处: v通过建立实视图可以提高系统的响应速度; v由于数据源到主题数据映射关系的复杂性,采用普 通视图的方式不可行。 实视图的特点: v时间是数据仓库中几乎所有数据的属性之一; v数据在装于数据仓库后,基本不发生变化; v实视图不是数据源中数据的简单拷贝,而是经历了 数据预处理过程; v主题数据分为最小粒度数据和聚集数据。 第一章 数据仓库的基本概念 预处理数据: 从数据源向主题数据的变换,就如同穿越冰山 的过程,工作量大而繁杂,预处理数据正是这一过 程的中间结果。对于数据仓库的建设而言,预处理 数据是一非常重要数据存储环节。 预处理数据的作用: v 保存大量的细节型业务处理数据 v 保存净化后的数据 v 存储代理码的分配 v 创建并存储统一的事实和统一的维 v 作为数据仓库的数据备份之一 第一章 数据仓库的基本概念 查询服务数据: 在数据仓库的主题数据中直接得到所需的信息 仍然存在一定的难度,因此,在很多情况下,需要 查询服务数据作为主题数据和最终查询结果之间的 过渡数据。 查询服务分为: v查询服务数据同前台分析工具紧密联系,临时地 存储在分析工具中,以便进一步分析查询; v将查询服务数据转存起来,留待以后在进行分析 或同其他系统结合起来使用; v将查询服务数据存储到数据仓库的主题数据中, 典型例子是数据挖掘工具同数据仓库结合应用。 第一章 数据仓库的基本概念 1-5-3 相关的数据服务 后台数据预处理: v 数据抽取(Data Extraction) v 数据转换 (Data Transformation) v 数据装载 (Data Loading ) 前台数据查询服务: v 多种展现形式的数据查询 v 灵活的分析报表生成 v 访问安全保障 第一章 数据仓库的基本概念 1-5-4 相关的数据管理元数据 元数据的含义: v后台元数据与过程相关,它指导着抽取、 净化和装载的过程; v前台元数据更具有描述性质,它帮助查询 工具和报表生成器更顺利地工作。 它是所有数据元素表述的一种业务内容字典 。 第一章 数据仓库的基本概念 元数据的内容: v数据源元数据 v预处理数据元数据 v主题数据元数据 v前台查询服务元数据 元数据的工作流程: 元数据的工作流程分为13个步骤。 1-6 数据仓库的数据组织 1-6-1 事实表和维表的设计 事实数据和维数据的区分: v 数据是否是数值型数据 v 该数据是作为查询的条件还是查询的结果 事实表的设计: v 明确数据集市及相应的数据源 v 确定事实表的粒度 v 确定响应的维度 v 完成事实表的设计 第一章 数据仓库的基本概念 第一章 数据仓库的基本概念 维表的设计: 维表中的属性值一般是文本型的、离散的及不 具有可加性的。它们将最终成为分析型查询的约束 条件,是分析型查询的起点,在形成的分析型报表 中,维属性将成为列标题。 维表设计应注意以下两点: v维表中的维属性应该具体明确,体现出维层次的 划分,能够成为分析型查询的约束条件。 v由于维属性将成为列标题,所以进行维表设计时 一定要注意维属性值的可读性。 1-6-2 数据聚集的设计 数据聚集的含义: 所有的数据仓库都包含数据的聚集( Aggregates),在数据仓库中进行数据的聚集是 减少OLAP 分析需要扫描的数据量及提高查询效率 的最重要的方法。 为提高查询的效率,减少分析时需要访问的数 据量,需要对数据按分析型查询的要求预先进行计 算及汇总,并保存计算及汇总的结果,这就是聚集 。 第一章 数据仓库的基本概念 数据聚集的创建方法: 确定聚集的内容可分两个步骤完成: v各个维的哪些属性上需要进行数据的聚集; v确定不同维的属性如何进行组合。 聚集数据也采用星型模式进行多维数据建模, 形成聚集事实表及相应的维表。设计应注意: v聚集数据应该存储在自身的聚集事实表中,不能 同基本事实表存储在一起; v粒度不同的聚集数据不能存储在同一个聚集事实 表中; v对于聚集事实表对应的相关各维,一般也要进行 调整。 第一章 数据仓库的基本概念 数据聚集的创建方法: 确定聚集的内容可分两个步骤完成: v各个维的哪些属性上需要进行数据的聚集; v确定不同维的属性如何进行组合。 聚集数据也采用星型模式进行多维数据建模, 形成聚集事实表及相应的维表。设计应注意: v聚集数据应该存储在自身的聚集事实表中,不能 同基本事实表存储在一起; v粒度不同的聚集数据不能存储在同一个聚集事实 表中; v对于聚集事实表对应的相关各维,一般也要进行 调整。 第一章 数据仓库的基本概念 1-6-3 数据仓库中的索引 在数据仓库中建立索引提高数据访问速度具有 重要意义。 传统的数据库索引技术 传统的数据库索引技术目前仍然是主流。 vB-树索引(B-Tree Index):指针指向记录的实 际地址,适合于高基数列值索引。 v位图索引 (Bit-Map Index):用“位”确定索引 列的值,适合于低基数列值索引。 v哈希索引 (Hash Index):行标识与存储位置之 间用哈系函数f进行转换。 第一章 数据仓库的基本概念 事实表的索引 事实表中的主码(组合码)索引一般采用B-树 索引的方式。非主码索引可根据具体情况而定。 维表的索引 维表中的主码(简单码)索引一般采用B-树索 引的方式。非主码索引一般采用位图索引。 数据仓库索引新技术 v投影索引 (Projection Index) v位切片索引 (Bit-Sliced Index) v连接索引 (Join Index) vR-树索引 (R-Tree Index) 第一章 数据仓库的基本概念 1-6-4 数据库的物理设计 物理设计的任务就是将逻辑模型(前述的多维 数据模型)转变为实际的数据库存储。 物理设计的内容 物理设计的内容包括如下方面: v制定数据库对象的命名规范 v建立数据库物理模型 v确定数据库索引策略 v进行数据仓库数据量的估计 v物理设计的具体实施 第一章 数据仓库的基本概念 案例分析:数据仓库的数据量估计 第一章 数据仓库的基本概念 时间维表 Time_id Year Quarter Month Week 地区维表 Geo_id Country Province City 产品维表 Product_id Pro_class Pro_subclass 事实表 Time_id Geo_id Product_id Sales 案例分析:数据仓库的数据量估计 上图假定每个维表具有50个条目,则它们的组 合将在事实表中产生50*50*50个数据条目,并假定 所有表中的所有属性为8个字节长度。 则所需存储空间计算如下: 维表空间为:50*5*8+50*4*8+50*3*8=4800 事实表空间为:50*50*50*4*8=4000000 总空间为:4000000+4800=4004800=3.8(MB) 可以看出,事实表空间比维表空间多得多。 第一章 数据仓库的基本概念 1-7 数据仓库的数据预处理 1-7-1 数据的净化 数据质量与数据净化: v 高质量的数据应该是正确的 v 高质量的数据应该是清晰的 v 高质量的数据应该是及时的 v 高质量的数据应该是完整的 v 高质量的数据应该是一致的 v 高质量的数据应该是唯一的 第一章 数据仓库的基本概念 数据净化的方法: v 不正确数据的净化 例:SQL判别,校验 v 不清晰数据的净化 例:客户维的拆分,“备注”类数据 v 不完整数据的净化 例:缩小范围,补充数据 v 不一致数据的净化 例:统一转换 v 不唯一数据的净化 例:SQL:DISTINCT 第一章 数据仓库的基本概念 1-7-2 数据预处理计划 初步计划 应包括数据抽取,数据转换,数据装载三部 分内容。见下页图 详细计划 制定详细计划与实施数据预处理先从主题 数据中的维表开始,然后再处理事实表。 就维表而言,先从简单的静态的维表开始 ,然后处理复杂的需要动态更新的维表。 第一章 数据仓库的基本概念 第一章 数据仓库的基本概念 财务数据库 (RDBMS) 行业产品代码规 范(MS Excel) 销售管理系统 (RDBMS) 历史销售数据 存档(文本文件) 收款 数据 价格 数据 产品 分类 客户 数据 时间 数据 订货 数据 数据源: 主题数据: 每张发票 对应一条 收款记录 据发票金 额、数量 计算价格 客户编 码表集 成净化 客户数 据要缓 慢更新 集 成 2000 年以后 数 据 1999 年以前 数 据 1-7-3 维表的数据预处理 维表的基本数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论