数据仓库与数据挖掘-课件_第1页
数据仓库与数据挖掘-课件_第2页
数据仓库与数据挖掘-课件_第3页
数据仓库与数据挖掘-课件_第4页
数据仓库与数据挖掘-课件_第5页
已阅读5页,还剩121页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据仓库与数据挖掘教学目的了解数据仓库(DW)的产生、应用,熟悉数据集市的概念;掌握DW的概念、DW结构;理解多维数据结构、元数据的概念;理解联机分析处理(OLAP)的概念、OLAP与OLTP的区别,掌握OLAP的决策支持——多维数据分析;教学目的理解数据挖掘(DM)概念、应用及DM的方法论;理解数据挖掘的几种决策支持技术,掌握ID3法构建决策树;了解综合决策支持系统。4.1数据仓库基本原理

1.数据仓库的产生早期的数据库主要支持联机事务处理传统数据库系统不适宜DSS数据集成问题历史数据问题数据的综合问题1.数据仓库的产生数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。DW首先应用于金融、电信、保险等主要传统的数据处理密集的行业。这些行业有两个基本条件:该行业有较为成熟的联机事务处理系统,它为DW提供客观条件;该行是市场竞争压大力,它为DW的建立提供外在动力。2.DW的应用现状DW的应用行业

2.DW的应用现状计算机应用水平低,无法提出决策支持需求缺乏DW方面的人才缺乏以国内环境为背景的范例和成功应用DW概念过大,让用户觉得可望而不可及DW在中国应用的特点2.DW的应用现状DW在中国应用的特点中国商业智能网站2007年第一次评选的中国十大数据仓库3、数据仓库的概念

SAS研究所:DW是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。Bill·Inmon(1991):DW是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策的制定过程——“BuildingtheDataWarehouse”(《建立数据仓库》)数据仓库定义3、数据仓库的概念

传统的数据库是面向应用而进行数据组织的,这种方式能较好地将企业业务活动与数据库模式相对应,利于从手工处理向计算机处理过渡,因而具有较好的可操作性;数据仓库是面向主题而进行数据组织的。主题是一个在较高层次上对数据的抽象,在逻辑意义上,它是对企业中某一宏观领域所涉及的分析对象,即将数据组织成主题域。面向主题可以独立于数据处理逻辑,适用于分析型数据环境。数据仓库四个特点——面向主题

操作型环境数据仓库顾客保险费索赔汽车人寿健康意外伤害3、数据仓库的概念

数据仓库四个特点——面向主题3、数据仓库的概念

某连锁超市(采用会员制)根据工作需要在数年之前分别构建了若干个软件系统并分别存放于不同服务器内。这些系统是采购系统、销售系统、库存管理系统以及人事管理系统,它们构成了该超市数据仓库的数据源。其结构图如图3.4所示。

数据仓库四个特点——面向主题3、数据仓库的概念

上面4个系统的关系表结构如下:1)采购系统:F订单(订单号,供应商号,总金额,日期)F订单明细(订单号,商品名,商品号,类别,单价,数量)F供应商(供应商号,供应商名,地址,电话)2)销售系统:F顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)F销售(员工号,顾客号,商品号,数量,单价,日期)数据仓库四个特点——面向主题3、数据仓库的概念

3)库存管理系统:F领料单(领料单号,领料人,商品号,数量,日期)F进料单(进料单号,订单号,进料人,收料人,日期)F库存(商品号,库房号,库存量,日期)F库房(库房号,仓库管理员,地点,库存商品描述)4)人事管理系统:F员工(员工号,姓名,性别,年龄,文化程度,部门号)F部门(部门号,部门名称,部门主管,电话)数据仓库四个特点——面向主题3、数据仓库的概念

主题选择根据市场发展需要,该超市领导须对其销售商品、提供商品的供应商以及购买商品的顾客作详细的分析,并最终形成决策意见。这样,就确定了超市数据仓库的主题有3个,它们是商品、供应商和顾客。数据仓库四个特点——面向主题3、数据仓库的概念

主题域①商品主题域P商品主题域中的数据分别来自采购、销售、库存管理等数据源。其数据关系表为:P1——商品固有信息:商品号,商品名,类名。P2——商品采购信息:商品号,供应商号,供应价,供应日期,供应量。P3——商品销售信息:商品号,顾客号,售价,销售日期,销售量P4——商品库存信息:商品号,库房号,库存量,日期。在此主题域中主题码为商品号。数据仓库四个特点——面向主题3、数据仓库的概念

主题域②供应商主题域S供应商主题域中数据来自采购系统,其数据关系表为:S1——供应商固有信息:供应商号,供应商名,地址,电话。S2——供应商品信息:供应商号,商品号,供应价,供应日期,供应量。在此主题域中主题码为供应商号。数据仓库四个特点——面向主题3、数据仓库的概念

主题域③顾客主题域C顾客主题域中数据来自销售系统,其数据关系表为:C1——顾客固有信息:顾客号,顾客姓名,性别,年龄,文化程度,地址,电话C2——顾客购物信息:顾客号,商品号,售价,购买日期,购买量。在此主题域中主题码为顾客号。数据仓库四个特点——面向主题3、数据仓库的概念

不同来源的数据的数据结构是不同的,有诸多的矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等。数据仓库中的数据是集成的,即数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。主要工作有:一是,统一源数据中所有不一致和矛盾的地方;二是,进行数据的综合和计算。数据仓库四个特点——集成的3、数据仓库的概念

操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,修改和删除操作很少,通常只需要定期的加载、刷新。数据仓库四个特点——稳定的(非易失性)3、数据仓库的概念

数据仓库四个特点——稳定的(非易失性)3、数据仓库的概念

操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测,需定期加载。数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是60~90天,而数据仓库中数据的时间期限通常是5~10年。数据仓库四个特点——随时间变化3、数据仓库的概念

操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。数据仓库的数据码键都包含时间项,用作标明数据的历史时期。数据仓库中的数据包含有大量综合数据,很多与时间有关,如按时间段进行综合或隔时间片进行抽样。随着时间变化,数据仓库需要不断增加新数据。数据仓库四个特点——随时间变化4、数据仓库结构

数据仓库从原有的业务数据库中获得的基本数据和综合数据被分成不同的层次,其一般结构如图:高度综合数据层轻度综合数据层当前基本数据层历史基本数据层元数据5、数据集市(DataMart)

数据集市是具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的解决方案,是一种更小的更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。5、数据集市(DataMart)

数据集市的两种结构DW从属数据集市数据源数据分析独立数据集市数据源数据分析5、数据集市(DataMart)

规模小、灵活、可按多种方式组织,如按特定的部门、特定的应用、主题;开发工作一般由业务部门主持定义、设计、实施、管理和维护;能快速实现,代价较低,投资回收期短,风险小;可升级到完整的DW。数据集市的特点5、数据集市(DataMart)

数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题;而数据集市是按照某一特定部门的数据模型建立的,由于每个部门有自己特定的需求,因此,他们对数据集市的期望也不一样,因此也将数据集市称为部门级数据仓库。部门的主题与企业的主题之间可能存在关联,也可能不存在关联。数据仓库中存储整个企业内非常详细的数据;而数据集市中的数据的详细程度要低一些,包含概要和累加数据要多一些。数据集市的数据组织一般采用星形模型;而大型数据仓库的数据组织,如NCR公司采用第三范式。数据集市与数据仓库的区别4.2数据仓库系统

1.数据仓库系统结构(P180)

综合数据当前数据历史数据用户查询工具C/S工具OLAP工具DM工具关系数据库数据文件其他数据数据仓库管理工具抽取、转换、装载元数据管理数据建模工具源数据仓库管理数据仓库分析工具1.数据仓库系统结构①定义部件,这一部件用于定义和建立DW系统,包括:设计和定义DW的数据库;定义数据源;确定数据源向DW复制数据的清洗、映射、转换规则

数据仓库管理1.数据仓库系统结构②数据获取部件依据数据定义部件定义的规则从源数据中将数据抽取到DW中,完成清洗、转化和集成工作,将DATA装载到DW,一般情况下需要编制特定的工具完成。数据仓库管理1.数据仓库系统结构③管理工具:对DW中数据的维护、安全、备份、恢复等工作,这些需借助DBMS的功能实现。④元数据管理,也叫信息目录管理,完成对元数据的管理。数据仓库管理2、元数据(P178)

元数据通常定义为:关于数据的数据。相当于数据库系统中的数据字典,但是元数据作用远非数据字典能比。元数据在DW中起着举足轻重的作用。它不仅定义了DW有什么,指明DW中信息的内容和位置,刻画了数据的抽取和转换规则,存储了DW的主题有关的各种商业信息,而且整个DW运行都是基于元数据的,如数据的修改、跟踪、抽取、装入等。2、元数据(P178)

元数据为访问数据仓库提供了一个信息目录(informationdirectory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。2、元数据

关于数据源的元数据关于数据模型的元数据关于DW映射的元数据关于DW使用的元数据关于数据源的元数据

是现有的业务系统的数据源的描述信息,是对不同平台上的数据源的物理结构和含义的描述。具体为:数据源中所有的物理数据结构,包括所有的数据项及数据类型。所有数据项的业务定义。每个数据项更新的频率,以及由谁或哪个过程更新的说明。每个数据项的有效值。其他系统中具有相同业务含义的数据项的清单。关于数据模型的元数据

这类元数据描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓库的基础,支持用户从数据仓库中获取数据。要定义以下内容:I/O对象:支持数据仓库I/O操作的各种对象。关系:两个I/O对象之间的关联,三种类型:一对一、一对多和多对多。关系成员:描述每个关系中两个I/O对象的具体角色、关系度及约束条件(必须满足还是可选关系)。关系关键字:描述两个I/O对象如何建立关联。关于DW映射的元数据

当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、变换和加载过程。关于DW映射的元数据

从源系统的数据到数据仓库中的目标数据的转移是一项复杂的工作,其工作量占整个数据仓库开发的80%。一个抽取要经过以下步骤:获取:从外部或内部源数据系统获取对DSS用户有用的数据。过滤:过滤掉不需要的内容。验证:从用户的角度验证数据的质量。融合:把本次抽取的数据与数据仓库中的数据进行融合。综合:对数据进行综合,生成综合级数据。装载:把新数据装入到数据仓库中。存档:把新装入的数据单独存为一个文件,以便减少更新操作的数据量。关于DW使用的元数据对数据仓库中信息的使用情况描述,能帮助用户到数据仓库查询所需要的信息,用于解决企业决策问题。用户最关心的是两类元数据:元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主题查看数据仓库的内容。元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足用户的需求,或者与用户的愿望相似,用户就可以再次使用那些查询而不必从头开始编程。3、数据仓库的存储(P182)

数据仓库存储的数据模型是数据的多维视图,它直接影响前端工具和OLAP的查询引擎。在多维数据模型中,一部分数据是数量值,如销售额、投资额、收入等。而这些数量值是依赖于一组“维”的,这些维提供了数量值的上下文关系。例如销售量与城市、商品名称、销售时间有关,这些相关的维唯一决定了这个销售数量值。3、数据仓库的存储

维——维是人们观察问题的特定角度,例如:时间维、地理维、产品维。假定某百货零售商,有一些因素会影响他的销售业务,如商品、时间、商店或流通渠道,更具体一点,如品牌、月份、地区等。如对某一给定的商品,也许他想知道该商品在哪个商店和哪段时间的销售情况。这里,商店、时间都是维。各个商店的集合是一维,时间的集合是一维。维就是相同类数据的集合。事实:一个数值的度量3、数据仓库的存储

维表:存放维详细信息的表,人们在观察数据的某个特定角度。事实表:存放了事实的名称和度量,以及相关的维表的关键字。3、数据仓库的存储

对于逻辑上的多维数据模型,可以使用不同的存储机制和表示模式来实现多维数据模型。多维模型有两种最基本的结构,即星型结构和雪花结构。

3、数据仓库的存储

星型模型:包含一个大的包含大批数据的事实表和一系列维表。事实表时间维业务维供应商维地区维资费维顾客维销售事实定单号销售员号客户号产品号日期标识地区名称数量金额产品号产品名称产品目录单价定单号订货日期客户号客户名称客户地址销售员号销售员姓名城市时间日月年地区名称省别股票交易客户_ID营业部_ID股票_ID时间_ID交易方式_ID资金帐号股数增加买入股票数量买入股票价格买入股票金额卖出股票数量卖出股票价格卖出股票金额客户客户_ID年龄学历职业收入性别地址地区省份身份证号码开户日期销户日期经纪人交易方式交易方式_ID交易方式名称营业部营业部_ID负责人电话号码地址地区省份股票股票_ID股票名称所属地区省份行业板块帐户资金帐号货币代码银行帐号银行代码客户代码客户类别时间时间_ID天周月份季度年度3、数据仓库的存储

事实表是星型结构的核心,它是多维查询的焦点,那里存储了真正的数据(事实),事实是数量属性,是被事实表管理的主体的可度量的数量值,能被统计、求和,能根据各种统计操作来聚类。维表提供了在事实表中的每行的描述信息,每个维表都有一个维作为主键,所有这些维组合成事实表的主键,事实表的非主属性称为事实,它们都是数值或其他可进行计算的数据,而维表中大都是文字、时间等类型的。

3、数据仓库的存储

星形模型存取数据速度快,主要在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。星形模型以存储空间为代价,使用了大量的维表来适应任意维组合查询。当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主键由所有的维表的主键组成,这种维的变化带来的数据变化将是非常复杂、非常耗时的。星形模型的数据冗余量很大,不适合于大数据量的情况。3、数据仓库的存储

雪花模型:是对星形模型的扩展,对星形模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是最大限度地减少数据存储量,以及把较小的维表联合在一起来改善查询性能。3、数据仓库的存储

雪花模型增加了用户必须处理的表的数量,增加了某些查询的复杂性,但这种方式可以使系统更进一步专业化和实用化,同时降低了系统的通用程度。在雪花模型中能够定义多重“父类”维来描述某些特殊的维表。如在时间维上增加月维和年维,通过查看与时间有关的父类维,能够定义特殊的时间统计信息,如销售月统计、销售年统计等。3、数据仓库的存储

雪花模式是星型模式的变种,把星型模型的维表进一步层次化。4、数据仓库开发应用实例

基于ERP的数据仓库捷克爱格富集团(Agrofert)是捷克第一大化工公司,一直致力于化工、农业和食品领域产品的研发、生产和贸易。Agrofert发现,随着企业的快速发展,旗下子公司已经有160多个不同的系统在运行。很难提供统一的报告,而且支持和许可成本也不断上升。如果每新购一个系统就扩大一次基础架构,显然不是一种可以扩展的战略。Agrofert采用SAPERP应用程序作为其部分子公司的共享服务,目的是将其逐渐推广到整个企业,这些应用程序在两个地点的IBMPowerSystems服务器上集中管理。公司从混合数据库环境(包括Oracle和MicrosoftSQLServer)迁移到IBMDB2,将IBMDB2作为其标准数据库,同时还为关键的业务数据部署集中的存储系统。迁移后,不再需要本地系统,能够极大地降低管理、支持和许可成本;借助IBMDB2可降低许可费用,简化管理并减少员工教育及培训;整合的存储有助于降低成本,而IBMDB2深度压缩将会降低总体存储需求;总成本估计减少20%。4.3联机分析处理(OLAP)(onlineanalyticalprocessing)1.数据分析技术统计分析技术联机分析处理(OLAP)数据挖掘(DM)联机挖掘(OLAM)2.OLAP的概念

联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。Codd认为随着企业数据量的急剧增加,联机事务处理(OLTP)已经不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询及报告不能满足用户分析的需求,决策分析需要对关系数据库进行大量的计算才能得到结果,而且查询的结果并不能满足决策者所提出的问题。因此Codd提出了多维数据库和多维分析的概念,即OLAP的概念。2.OLAP的概念

大多数情况下,人们直接采取传统的关系的报表和查询工具,但是它不能提供各维的视图。在实际决策中,决策者需要的数据往往不是某一指标的单一性,而是需要从多个角度观察某一指标或多个指标。OLAP是专门设计用于支持复杂的分析操作,侧重对分析人员和决策人员的决策支持的要求,快速灵活的进行大数据量的复杂查询处理,并将结果以一种直观易懂的形式提供给决策者。2.OLAP的概念OLAP的基本思想是企业的决策者应能灵活地操纵企业的数据,从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。比如,决策者可能想知道“东北地区和西南地区今年一季度和去年一季度在销售总额上的对比情况,并且销售额按10万~50万、50万~100万以及100万以上分组”。OLTP数据库数据数据库或数据仓库数据细节性数据综合性数据当前数据

历史性数据

经常更新不更新,但周期性刷新

一次处理的数据量小一次处理的数据量大响应时间要求高响应时间合理用户量大用户数量相对少面向操作人员,支持日常操作面向决策人员,支持管理需求OLAPOLTPvsOLAP2、OLAP的基本概念OLAP理事会给出的定义:OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面(维,即坐标)观察信息,以达到深入了解数据的目的。

OLAP逐步成为数据的多维视图的同义语。多维结构是决策支持的支柱,也是OLAP的核心,OLAP展现在用户面前的是一幅幅多维视图。2、OLAP的基本概念维层次——人们在观察数据的某个特定角度(即某个维)时可以存在细节程度不同的多个描述方面,我们称这多个描述方面为维的层次。例时间维:日期,月份,季度,年不同层次。维成员——维的一个取值成为该维的一个维成员。如果维已经分成了多层次的,则维成员就是不同维层次取值的组合。例如:某公司销售数据在省、市、县,地理维有三个层次,则“甘肃省兰州市七里河区”就构成地理维的一个维成员。维成员并不一定要在维的每一个层次上都取值,例如:甘肃省,甘肃省兰州市,兰州市七里河区都是地理维的维成员。2、OLAP的基本概念多维数据集——数据立方体或超立方。多维数据集是决策支持的支柱,也是OLAP的核心。数据仓库的数据都以多维数据的形式存储。多维数据集可以用一个多维数组表示。多维数据集的形式化表示:(维1,维2,……,维n,观察变量)。如(产品,地区,时间,销售渠道,销售额)2、OLAP的基本概念2、OLAP的基本概念多维数据集的度量值(测量值):多维数据集的度量值是基于多维数据集中事实表的一列或多列数值型数字。多维数据集的度量值是OLAP分析的核心值,是用户在DW中需要查看的数据,一般是销售量、成本、费用等。3、OLAP的决策支持

——多维数据分析OLAP的决策支持是通过多维数据分析来实现的。基本的多维数据分析方法包括切片、切块、旋转、钻取等各种分析,以求剖析数据,使最终用户能从多个角度、多个侧面观察数据,从而深入地了解数据中的信息、内涵。

3、OLAP的决策支持

——多维数据分析选定多维数组的一个二维子集的操作叫切片,即选定多维数组(维1、维2……维N,观察变量)中的两个维,如i,j,在这两个维上取任一区间或任意成员,而将其他维都取定一个维成员,得到的就是多维数组在维i,j上的一个二维字集,称这个二维子集为多维数组在维i,j上的一个切片,表示为:(维i,维j,变量)。

切片3、OLAP的决策支持

——多维数据分析切片3、OLAP的决策支持

——多维数据分析切片的意义:维是观察数据的角度,切片的作用是舍弃一些观察角度,使人们能在两个维上集中观察数据。因为人的空间想象力毕竟有限,一般很难想象四维以上的空间结构。所以对于维数较多的多维数据,数据切片是很有意义的。切片3、OLAP的决策支持

——多维数据分析定义:选定多维数组的三维子集的动作称为切块。从另一角度讲,切块可看成在切片的基础上,进一步确定各个维成员的区间得到的片段体,即多个切片叠合起来。如对于时间维的切片,将时间维上的取值设定为一个区间(如2000—2009年)而非单一维成员时,就得到一个数据切块。切块3、OLAP的决策支持

——多维数据分析旋转操作相当于平面数据将坐标旋转。如旋转可能包含了交换行和列,或是把页面显示中的一个维和页面外的维进行交换。通过旋转可以得到不同视角的数据。

旋转3、OLAP的决策支持

——多维数据分析

旋转3、OLAP的决策支持

——多维数据分析钻取包含向下钻取和向上钻取操作,向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据,向上钻取获取概括性的数据。

钻取3、OLAP的决策支持

——多维数据分析

钻取60按时间维向上钻取按时间维向下钻取3、OLAP的决策支持

——多维数据分析多维度观察数据的思想和技术,早已出现在常见的

Office软件中,其中以Excel中的“数据透视表”为最明显的代表,即完成从不同角度来统计、观察我们所关心的数据。但若在Excel中进行数据透视:①必须将DB下载到EXCEL本地;

②最多容纳六万条数据;③即便可以顺利下载,Excel不适合处理大量数据。3、OLAP的决策支持

——多维数据分析例:假设有一个五维数据模型,5个维分别为商店、方案、部门、时间和销售。1.三维表查询在指定两维“商店=All,方案=现有”为定值的情况下的三维表(部门、时间和销售量)OLAP应用实例OLAP应用实例类别1994年1995年增长率(%)销售量利润增长(%)销售量利润增长(%)销售量利润增长服装23467027.238110221.562.4(20.0)家具6254833.86600531.15.6(8.0)汽车37509822.432540227.2(13.2)21.4所有其他20238821.330667721.750.71.9三维表商店ALL

方案现有对于汽车部门出现的奇怪现象,即销售量下降了13.2%,而利润却增加了21.4%,此时进行向下钻取。上表中,无括号数为增长率,有括号数表示下降率类别1994年1995年增长率(%)销售量利润增长(%)销售量利润增长(%)销售量利润增长汽车37509822.432540227.2(13.2)21.4维修19505114.218078615.0(7.3)5.6附件11628043.912254547.55.38.2音乐637678.22207114.2(63.4)7.3下钻数据2.向下钻取对汽车部门向下钻取出具体项目(维修、附件、音乐)的销售情况和利润增长情况切片表3.切片切片操作是除去一些列或行不显示商店ALL

方案现有类别1995年销售量利润增长(%)服装38110221.5家具6600531.1汽车32540227.2所有其他30667721.7旋转表4.旋转将方案维加入到销售维中。加入方案维的两种情况:现有和计划,这次旋转操作得到1995年的方案为:现有、计划、差量、差量%。类别1995年销售量现有计划差量差量(%)服装381102350000311028.9家具6600569000(2995)(4.3)汽车325402300000254028.5所有其他306677350000(44322)12.7商店ALL

方案现有4、OLAP的数据组织建立OLAP的基础是多维数据模型,多维数据模型的存储可以有多种不同的形式。MOLAP(multi-dimensionOLAP)和ROLAP(relationOLAP)是OLAP的两种具体形式,其中MOLAP是基于多维数据库存储方式建立的OLAP;ROLAP是基于关系数据库存储方式建立的OLAP。4、OLAP的数据组织MOLAP:将按照主题分析要求的数据,生成并存储成多维数据库,形成超立方体的结构。ROLAP:以关系型结构进行多维数据的表示和存储,而不生成多维立方体,只存储数据模型与DW的数据之间的映射关系,真正的物理关系存储在DW中。5、OLAP与DW

OLAP与DW日关系十分紧密。DW的建立,解决了依据主题进行数据存储问题,提高数据存取速度,而OLAP分析构建了DW的表现层,将DW中的数据通过不同的维和指标,灵活地展现出来,提高了数据的展现力,进而提高了数据的分析能力。OLAP对DW是有很强的依赖性,没有DW,OLAP很难实现;同样,DW选择主题时,也要参考OLAP分析的维度、指标,这样DW才能更好的为信息服务。4.4数据挖掘(DataMining)

1.数据挖掘的产生和概念

随着DB技术的迅速发展和DBMS的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要信息,人们希望对其进行高层次的分析,以便更好地利用这些数据。缺乏挖掘数据背后隐藏的知识手段,导致知识贫乏的现象。支持DM技术的基础超大规模数据库的出现先进的计算机技术数据挖掘算法1.数据挖掘的产生和概念DM的概念

DM是从大量的、有噪声的、模糊的、随机数据中,提取隐含在其中的人们事先不知道的,但又潜在有用的知识的过程。1.数据挖掘的产生和概念注意:DM面临的最大的挑战也是大多数专家们无法解决的难题:一切结论都有可能是一种怀疑。并不要求发现是放之四海皆准的知识,仅支持特定的问题。

DW技术与DM有着密切的联系。DM需要的人员1.数据挖掘的产生和概念

目前比较流行的数据挖掘方法论主要有以NCR、SPSS公司提出的跨行业标准数据挖掘过程CRISP-DM(CrossIndustryStandardProcessforDataMining),IBM公司提出的通用数据挖掘方法(Thegenericdataminingmethod)以及SAS公司提出的SEMMA(Sample,Explore,Modify,Model,Access)方法论。实质上它们的内容大同小异,基本上都包括了数据准备、数据抽取、模型建立、模型评估和模型修正等过程。

2.DM的方法与基本流程SAS公司将DM定义为对数据进行选择、探索、修改和建模的过程,即SEMMA方法,勾划了DM的大致过程。SEMMA方法论2.DM的方法论(基本流程)数据取样Sample数据探索Explore数据调整Modify模式化Model评价Assess选数据样本可视化数据探索聚类、因子分析等数据重组和细分添加和拆分记录人工神经网络决策树模型数理统计分析时间序列分析结论综合和评价数据修改?商业理解数据理解数据准备建立模型模型评估结果发布SPSS的CRISP-DM方法论2.DM的方法论(基本流程)2.DM的方法论(基本流程)花费时间重要性商业理解10%79%数据理解20-30%3%数据准备50-70%15%建模、评估10%2%模型发布5-10%1%SPSS的CRISP-DM方法论

数据仓库产品及解决方案大致由以下几部分组成:ETL工具、数据仓库引擎产品、OLAP产品、数据挖掘工具、统计产品和展现工具,以及集成以上几种产品的针对某个应用的整体解决方案。3.数据仓库产品及解决方案举例IBM在20世纪90年代中后期开始提倡数据仓库的概念,是最早提出商业智能的厂商之一。目前具有完备的商业智能解决方案。数据仓库产品:IBMDB2UDB8.1OLAP分析产品:DB2OLAPSERVERIBM公司的相关系列产品3.数据仓库产品及解决方案举例数据挖掘产品:IntelligentminerIntelligentminer不单单用统计方法,还提供机器学习、神经网络技术,它支持多种算法:决策树、神经网络、Regression、radialbasisfunction、clustering和associationrulers。IBM公司的相关系列产品3.数据仓库产品及解决方案举例数据仓库产品:Oracle8iRelease3OLAP分析产品:OracleExpress数据挖掘产品:OracleDarwinOracleDarwin是基于数据仓库的数据挖掘工具,支持多种算法,包括神经网络、线性回归、逻辑回归、决策树、匹配模型、聚类和探测数据分析。Oracle相关系列产品3.数据仓库产品及解决方案举例SPSS拥有比较完整的数据分析产品。主要产品包括基础统计软件SPSSBASE,基于决策树的数据挖掘软件AnswerTree,基于神经网络的数据挖掘软件NeuralConnection,以及通用数据挖掘软件Clementine等。SPSS产品3.数据仓库产品及解决方案举例Clementine预示和分类:神经网络、决策树、线性回归、逻辑回归、因子分析和主成分分析。聚类和分段:Kononen网络、Kmeans、TwoStep。联合检查:GRI、演绎、Web可视化、SequenceSPSS产品3.数据仓库产品及解决方案举例关联分析是从数据库中发现知识的一类重要方法,若两个或多个数据项的取值重复出现的概率很高,可以建立起这些数据项的关联知识,为决策服务。常用的两种技术是关联规则和时序模式。关联分析4.DM的决策支持关联规则:即为A→B就是一个条件和一个结果的和ifconditionthenresult关联分析4.DM的决策支持关联分析4.DM的决策支持“尿布与啤酒”的故事

——美国沃尔玛连锁超市买尿布的顾客有30%~40%的人还会买啤酒,这是一条关联规则。买面包的顾客有90%的人还会买牛奶,这也是一条关联规则。如某零售商某类交易总数1000笔,其中:关联分析4.DM的决策支持交易交易数A包含“锤子”500B包含“钉子”800C包含“钳子”200AB包含“锤子、钉子”150BC包含“钉子、钳子”100AC包含“锤子、钳子”100设规则“购买了商品X的顾客同时也买商品Y”,进行关联分析时需要输入两个参数:支持度(S):某一特定关联在DB中出现的频率,即置信度(C):以过滤掉可能性过小的规则。即这里设最小支持度和置信度分别为15%和30%。关联分析如某零售商某类交易总数1000笔,其中:关联分析4.DM的决策支持交易交易数支持度置信度A包含“锤子”500B包含“钉子”800C包含“钳子”200AB包含“锤子、钉子”15015%30%BC包含“钉子、钳子”10010%12.5%AC包含“锤子、钳子”10010%20%时序模式是通过时间序列搜索出重复发生概率较高的模式。这强调是时间序列的影响。如在所有买了激光打印机的人中,半年后有80%的人再购买新的硒鼓,20%的人用旧硒鼓装碳粉;在所有买了电视的人中,一个月内有60%的人再买DVD。

关联分析4.DM的决策支持数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念,有效地帮助人们认识客观事物,鉴别事物。聚类的方法有划分法、层次法和遗传算法等。聚类4.DM的决策支持

分类法也可称分类分析法,是寻找分类数据中的每类数据的规律,我们知道世界上的事物可按其不同表象而分为不同的类,而这些类间具有其内在的本质差异,如何由不同表象而进一步挖掘出其内在性质的不同,这就是分类方法的主要工作。分类法中的算法很多,有决策树方法、粗集算法、贝叶斯算法、人工神经网络及遗传算法等多种算法。决策树算法、人工神经网络、贝叶斯算法、遗传算法及粗集算法是目前分类法中最常用的算法。

分类4.DM的决策支持预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等,是一种很重要的决策支持手段。典型的方法是回归分析,近年来发展起来的神经网络方法,如BP模型,实现了非线性样本的学习,能进行非线性函数的判别。分类也能进行预测,但分类一般用于离散数值。回归预测用于连续数值。神经网络方法预测既可用于连续数值,也可用于离散数值。

预测4.DM的决策支持决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。

决策树概念5.决策树及其应用决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树概念5.决策树及其应用决策树概念最早出现在CLS中,影响最大的是J.R.Quinlan于1986年提出的ID3方法,他提出用信息增益(即信息论中的互信息)来选择属性作为决策树的结点。工作过程是,首先找出最有判别力(信息增益)的属性,把数据分成多个子集,每个子集又选择最有判别力的属性进行划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一颗决策树,可以用它来对新的实例进行分类。ID3方法5.决策树及其应用建树算法的操作步骤如下①对当前例子集合,计算各属性的互信息。②选择互信息最大的属性A为根节点。③把在A处取值相同的例子归于同一子集,A取几个值就得几个子集。④对既含正例又含反例的子集,递归调用建树算法。⑤若子集仅含正例或反例,对应分支标上P或N,返回调用处。ID3方法5.决策树及其应用天气温度热热热适中冷冷冷湿度风况运动类别晴高无不适合晴高有不适合多云高无适合有雨高无适合有雨正常无适合有雨正常有不适合多云正常有适合晴适中高无不适合晴冷正常无适合有雨适中正常无适合晴适中正常有适合多云适中高有适合多云热正常无适合有雨适中高有不适合ID3算法①概率空间(确定事件和事件发生的概率)

P(u1)=9/14P(u2)=5/14②自信息计算(反映信号ui输出前的不确定性)

I(ui)=log(1/P(ui))=-logP(ui)ID3方法5.决策树及其应用③信息熵计算(信号输出前的平均不确定性)

H(u)=∑P(ui)log(1/P(ui))=-∑P(ui)logP(ui)=ID3方法5.决策树及其应用④后验熵计算(当信道接收端接收到输出符号vj后关于u的信息度量。)H(u/vj)=ID3方法5.决策树及其应用⑤条件熵计算(后验熵的数学期望)H(u/v)=属性A1取值Vj时,类别ui的条件概率:ID3方法5.决策树及其应用A1=天气的取值:v1=晴,v2=多云,v3=雨P(v1)=5/14P(v2)=4/14P(v3)=5/14P(u1/v1)=2/5,P(u2/v1)=3/5同理有:P

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论