数据分析与数据挖掘-1资料_第1页
数据分析与数据挖掘-1资料_第2页
数据分析与数据挖掘-1资料_第3页
数据分析与数据挖掘-1资料_第4页
数据分析与数据挖掘-1资料_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中医药信息(xnx)基础 数据仓库与数据挖掘共八十三页主要(zhyo)内容数据仓库与数据挖掘简介(jin ji)数据仓库基本原理与应用数据挖掘基本原理与应用共八十三页一、数据仓库与数据挖掘概述(i sh)(一)数据仓库的兴起(xngq)(二)数据挖掘的兴起(三)数据仓库和数据挖掘的结合共八十三页(一) 数据仓库的兴起(xngq)1 从数据库到数据仓库2 从OLTP到OLAP共八十三页1 从数据库到数据仓库如何处理一下问题?(1)“数据(shj)太多,信息不足”(2)异构环境的数据的转换和共享 (3)从进行数据处理发展为利用数据支持决策共八十三页(1)数据库:用于事务处理数据库作为数据资源用于管

2、理业务中的事务处理。它已经成为了成熟的信息基础设施。数据库中存放(cnfng)的数据基本上是保存当前数据,随着业务的变化随时在更新数据库中的数据。不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。共八十三页(2)数据仓库:用于决策分析数据仓库用于决策分析数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作(cozu)比较明确,操作(cozu)数据量少。对数据仓库操作(cozu)不明确,操作(cozu)数据量大共八十三页()数据库与数据仓库对比(dub)共八十三页2 从OLTP到OLAP(1) 联机事物处理(

3、chl)(OLTP)(2) 联机分析处理(OLAP)(3) OLTP与OLAP的对比共八十三页(1) 联机(lin j)事物处理(OLTP)联机事物(shw)处理(On Line Transaction Processing,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。OLTP应用要求多个查询并行,以便将每个查询分布到一个处理器上。共八十三页OLTP的特点在于事务处理量大,但事务处理内容比较简单且重复率高。OLTP处理的数据是高度结构化的,涉及的事务比较简单,数据访问路径是已知的,至少是固定的。OLTP面对(min du

4、)的是事务处理操作人员和低层管理人员。共八十三页(2) 联机分析(fnx)处理(OLAP)决策分析需要对多个关系数据库共同进行大量的综合计算才能得到结果。E.F.Codd在1993年提出了多维数据库和多维分析的概念,即联机分析处理(On Line Analytical Processing,OLAP)概念。关系数据库是二维数据(平面),多维数据库是空间立体数据。OLAP的基本思想是决策者从多方面和多角度以多维的形式(xngsh)来观察企业的状态和了解企业的变化。共八十三页(3) OLTP与OLAP的对比(dub) OLTPOLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新

5、一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动共八十三页(二)数据挖掘的兴起(xngq)1 从机器学习到数据挖掘2 数据挖掘含义(hny)3 数据挖掘与OLAP的比较4 数据挖掘与统计学共八十三页1 从机器(j q)学习到数据挖掘学习是人类具有的智能行为,主要在于获取知识。机器学习是研究使计算机模拟或实现人类的学习行为,即让计算机通过算法自动获取知识。机器学习是人工智能领域(ln y)中的重要研究方向。20世纪60年代开始了机器学习的研究。 共八十三页(1) 1980年在美国召开了第一届国际机器学习研讨会; 明确了机器学习是人工智能的重要

6、研究方向(fngxing)(2) 1989年8月于美国底特律市召开的第一届知识发现(KDD)国 际学术会议; 首次提出知识发现概念(3) 1995年在加拿大召开了第一届知识发现和数据挖掘(DM)国际学术会议; 首次提出数据挖掘概念(4) 我国于1987年召开了第一届全国机器学习研讨会。共八十三页2 数据挖掘含义(hny)知识发现(KDD):从数据中发现有用知识的整个(zhngg)过程。数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算 法从数据中抽取知识。 如在人类数据库中挖掘知识为: (头发=黑色)(眼睛=黑色)亚洲人 该知识覆盖了所有亚洲人的记录。 共八十三页3 数据挖掘与OLAP

7、的比较(bjio)OLAP:多维、多层次分析OLAP的典型应用,通过商业活动变化的查询发现的问题(wnt),经过追踪查询找出问题(wnt)出现的原因,达到辅助决策的作用。数据挖掘:发现规律、预测未来数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。共八十三页4 数据挖掘与统计学统计学与自然、经济、社会都有紧密的关系。其法则(fz)和方法是概率论。通过对全部对象(总体)进行调查,为制定计划和决策提供依据。共八十三页统计学中应用(yngyng)于数据挖掘的内容常用统计(均值、方差等)相关分析(fnx) 回归分析 假设检验聚类分析判别分析 主成份分析共八十三页统计学与数据挖掘的比

8、较(bjio) 统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识(zh shi)。统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。共八十三页(三)数据仓库和数据挖掘的结合(jih)1 数据仓库和数据挖掘的区别与联系(linx)2 基于数据仓库的决策支持系统共八十三页1 数据仓库和数据挖掘的区别(qbi)与联系(1)数据仓库与数据挖掘的区别(2)数据仓库与数据挖掘的关系(gun x)(3)数据仓库中数据挖掘特点共八十三页(1) 数据仓库与数据

9、挖掘的区别(qbi)数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供(tgng)所需的数据和信息。数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。数据挖掘的数据源可以是数据仓库,也可以是其它形式(数据文件等)共八十三页(2)数据仓库与数据挖掘的关系(gun x)数据仓库与数据挖掘都是数据分析和决策支持的新技术。但它们有着完全不同的辅助决策方式(fngsh)。在数据仓库系统的前端的分析工具中,数据挖掘是重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。由于数据仓库中有大量稳定的数据,基于数据仓库的数据挖掘,是数据挖掘的重要方向之一共八十三页(3)数据

10、仓库中数据挖掘特点(tdin)数据挖掘从数据仓库中挖掘更深层次的信息(xnx)数据仓库为数据挖掘提出了新要求 数据挖掘需要可扩展性 数据挖掘方法需要能挖掘多维知识共八十三页2 基于(jy)数据仓库的决策支持系统数据仓库的决策支持功能有:(1) 对当前和历史数据完成查询和报表处理(2) 可以用不同方法进行“如果,将怎样 (what-if)”分析(3) 从综合数据到细节数据,深入追踪钻取查 询,寻找问题出现原因(yunyn)(4) 认清过去的发展趋势,并将其应用于对未 来结果的分析共八十三页数据仓库中有大量的综合数据,为决策者提供了综合信息。数据仓库保存有大量历史数据,通过预测模型计算可以得到预测

11、信息。联机分析处理(OLAP)对数据仓库中的数据进行多维数据分析,即多维数据的切片、切块、旋转、钻取等,得到更深层中的信息和知识(zh shi)。数据挖掘(DM)技术能获取关联知识、时序知识、聚类知识、分类知识等。数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等结合,形成决策支持系统。共八十三页二 数据仓库基本原理与应用(yngyng)(一)数据仓库定义和特点(二)数据字典与元数据(三)数据仓库的结构体系(四)数据仓库的数据模型(五)数据仓库的数据分析工具(gngj)(六)数据仓库的开发流程共八十三页(一) 数据仓库的定义(dngy)与特点 1. 数据仓库定义(dngy) W.H

12、.Inmon在建立数据仓库一书中,对数据仓库的定义为:(Building the Data Warehouse,William H. Inmon,1993)数据仓库是面向主题的、集成的、随时间变化的非易失性数据的集合,用于支持管理层的决策过程。共八十三页 SAS软件研究所观点: 数据仓库是一种(y zhn)管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。共八十三页2. 数据仓库特点(tdin) 面向主题 集成性 非易失性(稳定性、非活性) 随时间(shjin)变化共八十三页(1)面向(min xin)主题 数据仓库的面向主题与数据库的面向应用相对应。 主题是在较高层次上进行数

13、据归类的标准,每一个主题基本对应一个宏观的分析领域。 例如,银行的数据仓库的主题:客户 DW的客户数据来源: 从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。 在DW中分析客户数据,可决定是否(sh fu)继续给予贷款。共八十三页 数据进入数据仓库之前,必须经过加工与集成。 对不同的数据来源进行统一数据结构(jigu)和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等,将原始数据结构(jigu)做一个从面向应用到面向主题的转换。(2)集成性共八十三页数据仓库反映的是历史数据的内容,而不是日常事务处理所产生的操作性数据,进入数据

14、仓库的数据是极少甚至(shnzh)根本不修改的。数据仓库是随时间变化的 数据仓库内的数据时限在510年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。 而数据库只包含当前数据,即存取某一时间的正确的有效的数据。(3)非易失性共八十三页数据仓库是不同时间的数据集合,要求数据仓库中的数据保存时限能够满足进行决策分析的需要,并且(bngqi)均要标明该数据的历史时期。(4)随时间(shjin)变化共八十三页(二)数据(shj)字典与元数据(shj)1 数据(shj)库的数据(shj)字典2 数据仓库的元数据共八十三页1 数据(shj)库的数据(shj)字典数据字典是数据库

15、中各类数据描述(mio sh)的集合 。数据项数据结构数据流数据存储处理过程共八十三页2 数据(shj)仓库的元数据(shj)在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。元数据(metadata)定义(dngy)为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。共八十三页数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据 :关于(guny)数据源的元数据关于抽取和转换的元数据关于最终用户的元数据共八十三页数据仓库概念(ginin)的理解数据仓库最根本的特点是相对独立的物理的存放数

16、据,并且这些数据并不是最新的、专有的,而是来源于其他数据库,数据仓库建立在一个较全面和完善(wnshn)的信息应用的基础上,用于支持高层决策分析。而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。到目前为止,数据仓库还是用数据库管理系统来管理其中的数据。因此,数据仓库并不是一个现成的硬件产品或软件产品,而是一种解决方案。共八十三页(三) 数据仓库的结构(jigu)体系1 数据仓库中的数据(数据仓库的结构)2 数据仓库系统(xtng)的结构3 数据仓库运行结构共八十三页1 数据(shj)仓库中的数据(shj)(仓库结构)共八十三页近期基本数据(当前详细数据, Current Detai

17、l Data ):是当前和最近时期(shq)的业务数据,是数据仓库用户最感兴趣的部分,数据量大。历史基本数据(历史详细数据, Older Detail Data ):近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。轻度综合数据( Lightly Summary Data ):是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。高度综合数据( Highly Summary Data ):这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。共八十三页2 数据仓库系统(xtng)的结构数据仓库

18、系统由数据仓库(DW)、仓库管理和分析工具(gngj)三部分组成。共八十三页3 数据仓库的运行(ynxng)结构 数据仓库应用是一个典型的客户/服务器(C/S)结构形式: 客户端所做的工作:客户交互、格式化查询、结果显示、报表生成等。 服务器端完成各种辅助决策(juc)的SQL查询、复杂的计算和各类综合功能等。 共八十三页 OLAP服务器将加强和规范化决策支持的服务工作,集中(jzhng)和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。 这种结构形式工作效率更高。OLAP的三层C/S结构(jigu)共八十三页(四)数据仓库的数据模型1 数据概念模型2 数据组织(存储(cn c

19、h))方式3 数据仓库建模共八十三页1.数据(shj)概念模型 数据仓库一般采用数据的多维模型 在多维数据模型中,一部分数据是数字测量值,比如(br)销售量,它们是依赖于一组“维”的,这些维提供了测量值的上下文关系,比如销售量与城市、产品名称和销售时间有关,城市、产品名称和销售时间这些相关的维唯一确定了销售量这个测量值。共八十三页商品果汁牛奶啤酒可乐咖啡12345日期城市北京天津上海商品|城市|日期共八十三页维就是相同类数据的集合,商店、时间(shjin)和产品都是维。各个商店的集合是一维,时间(shjin)的集合是一维,商品的集合是一维。每一个商店、每一段时间(shjin)、每一种商品就是某

20、一维的一个成员。每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。共八十三页2 数据组织方式(fngsh) 基于关系(gun x)表的存储方式 多维数据库存储方式 混合模式共八十三页3 数据仓库建模(1)星型模型由事实表和非标准化的维表组成(2)雪花模型所有(suyu)维表都进行标准化(3)混合模型只有最大的维表才进行标准化共八十三页 大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。 “事实表”中存放大量关于企业的事实数据(数量数据

21、)。 例如(lr):多个时期的数据可能会出现在同一个“事实表”中。“维表”中存放描述性数据,维表是围绕事实表建立的较小的表。 星型模型数据如下图: (1)星型模型(mxng)共八十三页共八十三页订货表客户表销售员表事实表产品表日期表地区表星型模型数据(shj)存储情况示意图 共八十三页 雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实(shsh)表,形成一些局部的“层次”区域。 在上面星型模型的数据中 ,对“产品表”“日期表”“地区表”进行扩展形成雪花模型数据见下图。(2) 雪花(xuhu)模型共八十三页共八十三页(五)数据仓库的分析(fnx)工具1 可视化查询工具2 数

22、据挖掘(DM)工具3 多维联机(lin j)分析(OLAP)工具共八十三页数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。 可视化工具 以图形化方式(fngsh)展示数据,可以帮助了解数据的结构,关系以及动态性。1 可视化查询(chxn)工具共八十三页从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具,后面章节详细(xingx)说明。2 数据挖掘工具(gngj)共八十三页联机分析处理(On Line Analytical Processing,OLAP):在数据仓库系统中,是重要和最常用的数据分析工具。OLAP的基本思想:从多方面和多角度以多维的形式

23、来观察企业信息的状态,了解企业变化。一般的查询(chxn)只能回答What,OLAP则回答Why。多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。OLAP的定义:是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。OLAP的两个关键特点:在线(online)和多维。3 多维分析工具(gngj)-OLAP共八十三页 变量 :变量是数据的实际意义,即描述数据“是什么”,例如“商品销售额”,往往(wngwng)也是待分析的内容。 维:维是人们观察数据的特定角度

24、。如产品维、顾客维、时间维等。 维的层次:数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。 维成员:维的一个取值称为该维的一个维成员。如“某年某月某日”是时间维的一个成员。 多维数组:一个多维数组可以表示为:(维1,维2,维n,变量), 一个4维数组结构举例,(产品,地区,时间,销售渠道,销售额)。 数据单元(单元格):多维数组的取值称为数据单元,如,4维数据单元(牙膏,上海,1998年12月,批发,销售额为100000元)。 (1)OLAP的基本概念术语(shy) 共八十三页切片和切块(Slice and Dice):根据维的限定作投影、选择等数据库操作,从而获取(huq)相应

25、数据旋转(Pivoting):将表格(维)的横纵坐标交换钻取:上钻(Roll up)和下钻(Roll down),根据维的层次提升所关心的数据或降低观察层次(2)OLAP基本(jbn)分析功能共八十三页例如(lr),以“产品、城市、时间”三维数据,如图共八十三页对三维数据,通过“切片” ,分别从城市和产品等不同的角度观察销售(xioshu)情况: 切片(qi pin)共八十三页切块(1)在多维数组的某一个维上选定某一区间的维成员的操作切块可以看成是在切片的基础上,确定某一个维成员的区间得到的片段,也即由多个切片叠合起来。(2)选定多维数组的一个三维子集的操作在多维数组(维1,维2,维n,变量)

26、中选定3个维,维i、维j、维k,在这3个维上分别(fnbi)取一个区间,或任意维成员,而其它维都取定一个维成员。共八十三页三维数据(shj)切块共八十三页钻取钻取有向下钻取(drill down )和向上钻取(drill up )操作。向下钻取是使用户在多层数据中能通过导航信息而获得(hud)更多的细节性数据。向上钻取获取概括性的数据。 共八十三页例如,2005年各部门(bmn)销售收入表如下:共八十三页对时间(shjin)维进行下钻操作,获得新表如下:2005年部门1季度2季度3季度4季度部门1200200350150部门225050150150部门3200150180270共八十三页旋转(xunzhun)通过旋转可以得到不同视角的数据。旋转操作相当于平面(pngmin)数据将坐标轴旋转。例如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去。或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个) 共八十三页旋 转时间维产品维产品维时间维(a)行列交换旋转以改变显示布局时间维地区维产品维时间维产品维地区维共八十三页旋转(xunzhun)前的数据实例(shl)共八十三页旋转(xunzhun)后的数据共八十三页旋转(xu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论