数据库系统原理及应用(何玉洁)-第16章_第1页
数据库系统原理及应用(何玉洁)-第16章_第2页
数据库系统原理及应用(何玉洁)-第16章_第3页
数据库系统原理及应用(何玉洁)-第16章_第4页
数据库系统原理及应用(何玉洁)-第16章_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据库原理与应用教程(第3版)国家“十一五”规划教材第16章数据仓库与数据挖掘

16.1数据仓库技术16.2联机分析处理

16.3数据挖掘16.1数据仓库技术16.1.1数据仓库的概念及特点

16.1.2数据仓库体系结构

16.1.3数据仓库的分类

16.1.4数据仓库的开发

数据仓库技术数据仓库是进行联机分析处理和数据挖掘的基础,它从数据分析的角度将联机事务中的数据经过清理、转换并加载到数据仓库中,这些数据在数据仓库中被合理的组织和维护,以满足联机分析处理和数据挖掘的要求。

16.1.1数据仓库的概念及特点面向主题

集成的数据

数据不可更新

数据随时间不断变化

使用数据仓库是为了更好的支持制定决策

面向主题主题是一种抽象,它是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用,是对企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的。面向主题的数据组织方式就是完整、统一地刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系。在关系数据库中,每个主题由一组相关的关系表或逻辑视图来具体实现。主题中的所有表都通过一个公共键联系起来,数据可以存储在不同的介质上,而且相同的数据可以既有综合级又有细节级。

集成的数据数据仓库中存储的数据是从原来分散的各个子系统中提取出来的,但并不是原有数据的简单拷贝,而是经过统一、综合这样的过程。原因:源数据不适合分析处理,在进入数据仓库之前必须经过综合、清理等过程,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。数据仓库每个主题所对应的源数据在原分散数据库中有许多重复或不一致的地方,因而必须对数据进行统一,消除不一致和错误的地方,以保证数据的质量。数据不可更新从数据的使用方式上看,数据仓库的数据不可更新是指当数据被存放到数据仓库之后,最终用户只能进行查询、分析操作,而不能修改其中存储的数据。

数据随时间不断变化数据仓库的数据不可更新,但并不是说,数据从进入数据仓库以后就永远不变。从数据的内容上看,数据仓库存储的是企业当前的和历史的数据。因而每隔一段固定的时间间隔后,操作型数据库系统产生的数据需要经过抽取、转换过程以后集成到数据仓库中。数据仓库中的数据随时间变化而定期地更新。数据仓库体系结构

操作型数据与分析型数据的区别

原始数据/操作型数据导出数据/DSS数据面向应用,支持日常操作面向主题,支持管理需求数据详细,处理细节问题综合性强,或经过提炼存取的瞬间是准确值代表过去的数据可更新不可更新重复运行启发式运行事务处理驱动分析处理驱动非冗余性时常有冗余处理需求事先可知,系统可按预计的工作量进行优化处理需求事先不知道对性能要求高对性能要求宽松用户不必理解数据库,只是输入数据即可用户需要理解数据库,以从数据中得出有意义的结论数据仓库的分类按照数据仓库的规模与应用层面来区分,数据仓库大致可分为下列几种:标准数据仓库。数据集市。多层数据仓库。联合式数据仓库。

标准数据仓库是企业最常使用的数据仓库,它依据管理决策的需求而将数据加以整理分析,再将其转换到数据仓库之中。这类数据仓库是以整个企业为着眼点而建构出来的,其数据都与整个企业的数据有关,用户可以从中得到整个组织运作的统计分析信息。数据集市针对某一主题或是某个部门而构建的数据仓库,规模会比标准数据仓库小,且只存储与部门或主题相关的数据,是数据体系结构中的部门级数据仓库。通常用于为单位的职能部门提供信息。例如,为是销售部门、库存和发货部门、财务部门、高级管理部门等提供有用信息。还可用于将数据仓库数据分段以反映按地理划分的业务,其中每个地区都是相对自治的。

多层数据仓库是标准数据仓库与数据集市的组合应用方式在整个架构之中,有一个最上层的数据仓库提供者,它将数据提供给下层的数据集市。

数据仓库销售数据集市市场数据集市商店数据集市用户用户用户数据仓库的开发

自顶向下,即从全面设计整个企业的数据仓库模型开始。这是一种系统的解决方法,并能最大限度的减少集成问题,但费用高,开发时间长,且缺乏灵活性,因为使整个企业的数据仓库模型要达到一致是很困难的。自底向上,从设计和实现各个独立的数据集市开始。这种方法费用低,灵活性高,并能快速的回报投资。

推荐的数据仓库开发方法数据仓库的数据模式

典型的数据仓库具有为数据分析而设计的模式,供OLAP工具进行联机分析处理。数据通常是多维的,包括维属性和度量属性,维属性是分析数据的角度,度量属性是要分析的数据,一般是数值型的。包含统计分析数据的表称为事实数据表,通常比较大。

数据仓库的架构星型架构雪花型架构星型架构

维度表只与事实表关联,维度表彼此之间没有任何联系。每个维度表都有一个且只有一个列作为主码,该主码连接到事实数据表中的一个列上。雪花型架构将一个维度表分解为多个表,每个表都连接到主维度表。16.2联机分析处理联机分析处理(OLAP)是专门为支持复杂的分析操作而设计的,侧重于决策人员和高层管理人员的决策支持可以快速、灵活地进行大数据量的复杂查询以一种直观易懂的形式将查询结果提供给决策人员。以数据库或数据仓库为基础,其最终的数据来源来自底层的数据库系统。OLAP与OLTP的区别OLTP面向的是操作人员和底层管理人员,OLAP面向的是决策人员和高层管理人员;OLTP是对基本数据的查询和增、删、改操作处理,它以数据库为基础,OLAP更适合以数据仓库为基础的数据分析处理。OLAP所依赖的历史的、导出的及经综合提炼的数据均来自OLTP所依赖的底层数据库。OLAP数据较之OLTP数据要多一步数据多维化或综合处理的操作。OLAP的基本概念度量属性:是决策者所关心的具有实际意义的数量。例如,销售量、库存量等。维度(或简称为维):是人们观察数据的角度。

维的层次:人们观察数据的角度(即某个维)还可以存在细节程度不同的多个描述方面,称这多个描述方面为维的层次。维度成员:维度的一个取值称为该维的一个维度成员

多维数组:一个多维数组可以表示为:(维1,维2,…,维n,变量)。

数据单元(单元格):多维数组的取值称为数据单元

多维度数据分析示例联机分析处理的基本分析功能

上卷:在数据立方体中执行聚集操作,通过在维层次中上升或消除某个或某些维来观察更概况的数据

下钻:通过在维层次中下降或引入某个或某些维来更细致的观察数据。

切片:在给定的数据立方体的一个维上进行的选择操作,结果是得到了一个二维的平面数据。

切块:在给定的数据立方体的两个或多个维上进行的选择操作,结果得到了一个子立方体。转轴:改变维的方向,将一个三维立方体转变为一系列二维平面。

上卷操作示意图城市上升到地区

下钻操作示意图季度下降到月

切片操作示意图时间=1季度切块操作示意图(地区=“江苏”

or“浙江”)And(时间=“第一季度”

or“第二季度”)And(商品类型=“家电”

or“食品”)

转轴操作示意图转轴16.3数据挖掘如何从大量的数据中及时有效地提取有用的信息,是所有经营管理者所面临的一个共同的难题。为了解决这一难题,有关人员逐步研究开发了一系列的技术和方法,即数据库知识发现和数据库挖掘技术,其目标就是要智能化和自动化地把数据转换为有用的信息和知识。数据库中的知识发现是识别数据库中以前未知的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程,而数据挖掘是数据库知识发现过程的一个步骤。

数据挖掘过程1.数据准备数据选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

数据预处理:研究数据的质量,为进一步的数据分析作准备,并确定将要进行的挖掘操作的类型。

数据转换:将数据转换成一个分析模型,这个分析模型是针对数据挖掘算法建立的。其他过程2.数据挖掘

对所得到的经过转换的数据进行挖掘,除了选择合适的挖掘算法外,其余一切工作都能自动地完成。3.结果分析

解释并评估结果。其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术。4.知识的同化

将分析所得到的知识集成到业务信息系统的组织结构中去。16.3.2数据挖掘知识发现数据挖掘和知识发现的研究的三根技术支柱:数据库人工智能数理统计目前DMKD(数据挖掘与知识发现)的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。数据挖掘知识的分类广义知识关联知识分类知识预测型知识偏差型知识广义知识广义知识(Generalization)是指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。关联知识关联知识(Association)是反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。关联规则的发现可分为两步。第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。分类知识分类知识(Classification&Clustering)是反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指导的学习方法。预测型知识预测型知识(Prediction)是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。

目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。偏差型知识偏差型知识(Deviation)是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。16.3.3数据挖掘的常用技术和目标1.常用技术

人工神经网络:仿照生理神经网络结构的非线形预测模型,通过学习进行模式识别。

决策树:代表决策集的树形结构。

遗传算法:基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法的优化技术。

近邻算法:将数据集合中每一个记录进行分类的方法。

规则推导:从统计意义上对数据中的“IF-Then”规则进行寻找和推导。目标数据挖掘用于实现特定的目标,这些目标可以分为以下几个主要类别:预测:数据挖掘预测数据特定属性的未来行为。如基于对顾客购买行为的分析,什么市场和销售策略能产生更多利润等。识别:数据挖掘可以基于数据模型识别一个事件、项目或活动的存在。如识别一个人或一组人访问数据库某一部分的权限,基于DNA序列中的某个特征序列识别基因的存在,等等。目标(续)分类:数据挖掘可以划分数据,从而根据参数组合识别不同的分类和类别。如超级市场的顾客可以被分类为:寻找折扣的顾客,忠诚并且常来的顾客,只买特定品牌商品的顾客,不经常来的顾客,等等。优化:数据挖掘可以优化对有限资源的使用,如时间、空间、资金或材料,在给定的约束条件内最大化产出值,如销售量或利润。16.3.4数据挖掘工具有各种不同类型的数据挖掘工具和方法来实现知识提取。多数数据挖掘工具使用ODBC。多数工具可在Microsoft的Windows环境中运行,一些工具还可在UNIX操作系统下运行。工具(续)挖掘工具可以基于一些标准划分为不同类型,下列是其中的一些标准:产品类型。产品特征。目的或目标。基于产品类型的挖掘的工具查询管理者和报表作者。电子表格。多维数据库。统计分析工具。人工智能工具。高级分析工具。图像显示工具。基于产品特征的挖掘工具数据识别能力。多种形式的输出,如打印输出、屏幕输出、标准图形输出、增强的图形输出等等。格式化能力,如行数据格式、列表、电子表格形式、多维数据库、可视化等等。计算工具,如柱状操作、交叉表能力、电子表格、多维电子表格等等。规范管理,允许最终用户编写并管理他们自己的规范。施行管理。基于目标的挖掘工具所有应用开发程序和数据挖掘工具都可以归入以下三个操作类别:数据收集和检索。操作监测。探测和发现。16.3.5数据挖掘应用数据挖掘技术可以应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论