数据仓库与挖掘第五章数据挖掘概述_第1页
数据仓库与挖掘第五章数据挖掘概述_第2页
数据仓库与挖掘第五章数据挖掘概述_第3页
数据仓库与挖掘第五章数据挖掘概述_第4页
数据仓库与挖掘第五章数据挖掘概述_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与挖掘第五章数据挖掘概述2024/3/26数据仓库与挖掘第五章数据挖掘概述数据挖掘的起源网络之后的下一个技术热点数据爆炸但知识贫乏支持数据挖掘技术的基础从商业数据到商业信息的进化数据仓库与挖掘第五章数据挖掘概述网络之后的下一个技术热点网络时代面临的信息问题:信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理。“要学会抛弃信息”

数据仓库与挖掘第五章数据挖掘概述数据爆炸但知识贫乏数据库的容量已达上万亿水平(T)--1,000,000,000,000个字节全球信息量以惊人的速度急剧增长--据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。如何从一棵棵树木了解整个森林?从数据矿山中找到蕴藏的知识金块?这是我们该考虑的问题!数据仓库与挖掘第五章数据挖掘概述啤酒尿不湿案例著名的“啤酒尿布”案例:美国加州某个超级卖场通过数据挖掘发现,下班后前来购买婴儿尿布的男顾客大都购买啤酒。于是经理当机立断,重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放置佐酒食品,同时还把男士日常用品就近布置。这样,上述几种商品的销量大增。数据仓库与挖掘第五章数据挖掘概述支持数据挖掘技术的基础激发了数据挖掘的开发、应用和研究的兴趣的四个主要技术理由:超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;强大的多处理器计算机。例如更快和更大的计算能力和并行体系结构;海量数据搜索,对巨大量数据的快速访问;数据挖掘算法。

数据仓库与挖掘第五章数据挖掘概述从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集

(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM提供历史性的、静态的数据信息数据访问

(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL)、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性、动态数据信息数据仓库;

决策支持

(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Oracle、IBM、Microsoft在各种层次上提供回溯的、动态的数据信息数据挖掘

(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库IBM、其他公司提供预测性的信息数据仓库与挖掘第五章数据挖掘概述数据挖掘(DataMining)的定义数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。〔技术角度的定义〕数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。〔商业角度的定义〕数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。

数据仓库与挖掘第五章数据挖掘概述数据挖掘(DataMining)的定义数据仓库与挖掘第五章数据挖掘概述数据挖掘与其他科学的关系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization数据仓库与挖掘第五章数据挖掘概述数据挖掘与其他科学的关系数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。近几年,人们逐渐发现数据挖掘中有许多工作都是由统计方法来完成的。甚至有些人(尤其是统计学家)认为数据挖掘是统计学的一个分支,当然大多数人(包括绝大多数数据挖掘研究人员)并不这么认为。统计学和数据挖掘的目标非常相似,而且数据挖掘中的许多算法也源于数理统计,统计学对数据挖掘发展的贡献功不可没。数据仓库与挖掘第五章数据挖掘概述实施数据挖掘的目的不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。数据仓库与挖掘第五章数据挖掘概述数据挖掘的数据源与以前相比有了显著的改变;数据是海量的。数据挖掘出现的背景是“数据爆炸但知识贫乏”,它要处理的数据量已经达到了“太”(万亿)级以上,比传统数据分析方法所处理的数据量超出几个乃至十几个数量级。对于如此大规模的数据量,传统的数据分析方法可能根本不能处理,即使能够处理,效率也是必须考虑的严重问题。因此需要对原有的数据分析方法重新检验,加以改进。

数据有噪声的。传统数据分析方法的数据源一般都是清洁好的、结构化的数据,数据挖掘则需要从不完全的、有噪声的、模糊的数据中发现知识。数据挖掘与传统数据分析方法区别数据仓库与挖掘第五章数据挖掘概述数据可能是非结构化的。数据挖掘不仅可以处理结构化的数据,而且可以处理半结构化或者非结构化的数据。事实上,基于文本的数据挖掘甚至互联网上的数据挖掘正是数据挖掘的研究方向之一。传统的数据分析方法基于假设驱动的:一般都是先给出一个假设然后通过数据验证。数据挖掘在一定意义上是基于发现驱动的:模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。数据挖掘与传统数据分析方法区别数据仓库与挖掘第五章数据挖掘概述数据挖掘和数据仓库

数据仓库与挖掘第五章数据挖掘概述数据挖掘和数据仓库大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。优点:数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经被解决了。为了数据挖掘你也不必非得建立一个数据仓库,建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在它上面进行数据挖掘。

数据仓库与挖掘第五章数据挖掘概述数据挖掘和OLAP完全不同的工具,基于的技术也大相径庭;OLAP基于用户假设:whathappened〔查询和报表工具是告诉你数据库中都有什么〕whatnext〔OLAP更进一步告诉你下一步会怎么样〕whatif〔如果我采取这样的措施又会怎么样〕用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。数据仓库与挖掘第五章数据挖掘概述数据挖掘和OLAP数据挖掘本质上是一个归纳的过程,不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。比如:一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。数据仓库与挖掘第五章数据挖掘概述数据挖掘和OLAP数据挖掘和OLAP有一定的互补性。在利用数据挖掘出来的结论采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么OLAP工具能回答你的这些问题。在知识发现的早期阶段,OLAP工具还有其他一些用途。可以帮你探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都能帮你更好的理解你的数据,加快知识发现的过程。数据仓库与挖掘第五章数据挖掘概述数据挖掘主要的任务关联分析(AssociationAnalysis)从一个项目集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性-值条件元组。例如:关联规则X=>Y所表达的含义是满足X的数据库元组很可能满足Y。关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。

数据仓库与挖掘第五章数据挖掘概述聚类分析聚类分析(ClusteringAnalysis)聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。

数据仓库与挖掘第五章数据挖掘概述分类与估值分类与估值(ClassificationandEstimation)分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式:分类规则(IF-THEN),决策树或者数学公式,乃至神经网络。估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。

数据仓库与挖掘第五章数据挖掘概述时间序列分析时间序列分析(Time-Series

Analysis)时间序列分析即预测(Prediction),是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。

数据仓库与挖掘第五章数据挖掘概述其它任务其它任务

包括:偏差分析(DeviationAnalysis)、孤立点分析(OutlierAnalysis)等。随着数据挖掘技术的发展,可能还会继续出现新的数据挖掘功能。

数据仓库与挖掘第五章数据挖掘概述医学与数据挖掘医学数据挖掘的主要研究对象是临床医疗信息,反映了医学信息的独特之处,医学数据挖掘的特殊性:模式的多态性:医学信息包括纯数据、信号、图像、文字以及语音和视频信息。模式:就是对客观事物的一种抽象描述,是整个数据集的全局性描述。相当于某一规则,强调形式上的规律,可用于全局的规则,模型即可理解为造型实物有实体的造型。信息不完整性:病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面的反映,疾病信息所体现出的客观不完整性和描述,疾病的主观不确切性形成了医学信息的不完整性。数据的时序性:病人的就诊、病人的发病过程在时间上有一个进度,医学检测的波型、图像都是时间函数,这些都具有一定的时序性。数据冗余性:医学数据库是以庞大的数据资源,有大量相同的或部分相同的信息存储在其中。数据仓库与挖掘第五章数据挖掘概述医学与数据挖掘数据挖掘在医药领域的应用越来越广而不仅仅在商业领域中。在生物医学工程:在DNA分析中的应用:实现基因识别和基因表达的研究。在分子结构分析中的应用:海量的分析结构信息,通过分类、聚类、频繁模式发现等技术完成数据分析工作。在生物信息可视化方面的应用:对原始的结构数据进行深入分析,以图、树、方体和链的形式重新展现。在患者生理参数分析中的应用:从先验信息的海量数据中发现隐含的有意义的知识来预测未来趋势,做出前瞻性的决策。数据仓库与挖掘第五章数据挖掘概述中药领域在中药新药研发中的应用。在中药要谱分析方面。在中药数据预处理方面。在中药文献研究中的应用。数据仓库与挖掘第五章数据挖掘概述重点讲解一:关联分析关联规则描述和分析了数据库中一组对象之间某种共生现象,反映了事物之间存在的关联性,若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。如两者“同时发生”或“两者存在因果关系”等。在医学领域同样存在关联现象,若某种疾病同时表现出若干种症状,则这几种症状与该疾病之间存在着关联性,且症状之间也呈现某种关联。关联规则分析可为疾病的鉴别诊断提供参考依据。数据仓库与挖掘第五章数据挖掘概述重点讲解一:关联分析例子:有研究者利用关联规则分析法对糖尿病数据库进行多维数据分析,以期望发现长期血糖浓度过高与并发症之间的关联;还有研究者对37000例肾病患者的症状(包括临床检验和检测)进行了追踪观察,监测尿蛋白水平、肾小球过滤率以及患者贫血状况,结果发现以上三种生理指标中的任何一项异常都伴随着心脏病发病率的上升。数据仓库与挖掘第五章数据挖掘概述重点讲解一:关联分析例1:有研究者利用关联规则分析法对糖尿病数据库进行多维数据分析,以期望发现长期血糖浓度过高与并发症之间的关联;还有研究者对37000例肾病患者的症状(包括临床检验和检测)进行了追踪观察,监测尿蛋白水平、肾小球过滤率以及患者贫血状况,结果发现以上三种生理指标中的任何一项异常都伴随着心脏病发病率的上升。数据仓库与挖掘第五章数据挖掘概述重点讲解一:关联分析例2:医疗处方分析。分析患有某类疾病的病人的处方数据,找出处方数据中各项之间的关联关系。医生利用医疗领域的知识,来分析这些规则的可信程度。对于那些有价值的规则,可以放到规则库中供自己或其他医生治疗患有同类疾病的病人。中医在研究新方剂的时候做大量的临床试验。方剂是由单味药组成,在这些试验中结果中,可能就蕴含着单味药之间的某种关联。数据仓库与挖掘第五章数据挖掘概述重点讲解一:关联分析白术^橘皮炙^甘草^获荃==>人参(Supp=42,Con=89.5%),主治荣卫气虚、脏腑怯弱,心腹胀满,肠鸣泄泻,呕哆吐逆,大宜服之。据病人患病史进行关联序列分析;如:脑梗塞==>高血压病III期,即病人患疾病脑梗塞的前提下,接下来患疾病高血压病III期的情况。病人病案中记载了患病的详细信息,通过分析得出的模式,在治疗患有前提条件中疾病的病人时,就要注意或直接检查病人是否同时也患有后件中的疾病。医生在治疗过程中可以同时考虑疾病间的关联,采取合理的治疗方案。数据仓库与挖掘第五章数据挖掘概述重点讲解二:聚类分析聚类分析数据对象,而不考虑已知的类标记。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组,使得每个组内的对象具有很高的相似性。而与其它组中的对象差别很大。聚类分析方法适用于对孤立点的检测及用于探讨样本间的内部关系,从而对样本结构做出合理的评价。数据仓库与挖掘第五章数据挖掘概述重点讲解二:聚类分析例子:有研究者利用聚类方法分析流行病学因素对肺癌患者临床医学状况的影响。首先从SEER的数据库中选取21758例肺癌病例,每一例数据包含23个流行病学特征属性和22个临床医学状态特征属性,继而根据流行病学特征属性的相似程度将病例数据划分成20类,比较各类别之间的临床医学状态特征属性的差异,在此基础上还可更进一步分析各类流行病学因素对肺癌患者临床医学状况的不同影响。数据仓库与挖掘第五章数据挖掘概述重点讲解二:聚类分析聚类分析是根据所选样本间关联的标准将其划分为几个组,同组内的样本具有较高的相似度,不同组的则相异。聚类分析方法适用于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论