数据仓库与挖掘第五章-数据挖掘概述_第1页
数据仓库与挖掘第五章-数据挖掘概述_第2页
数据仓库与挖掘第五章-数据挖掘概述_第3页
数据仓库与挖掘第五章-数据挖掘概述_第4页
数据仓库与挖掘第五章-数据挖掘概述_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 数据挖掘的概述本章内容5.1 数据挖掘的起源5.2 数据挖掘的任务5.3 医学与数据挖掘数据挖掘掘的起源源网络之后后的下一一个技术术热点数据爆炸炸但知识识贫乏支持数据据挖掘技技术的基基础从商业数数据到商商业信息息的进化化网络之后后的下一一个技术术热点网络时代代面临的的信息问问题:信息过量量,难以以消化;信息真假假难以辨辨识;信息安全全难以保保证;信息形式式不一致致,难以以统一处处理。“要学会抛抛弃信息息”数据爆炸炸但知识识贫乏数据库的的容量已已达上万万亿水平平(T)1,000,000,000,000个字节全球信息息量以惊惊人的速速度急剧剧增长据估估计,每每二十个个月将增增加一倍倍。许多

2、组织织机构的的IT系统中都都收集了了大量的的数据目前的数据库系系统虽然可以以高效地地实现数数据的录入、查询、统计等功能,但无法法发现数数据中存存在的关系和规规则,无法根根据现有有的数据据预测未来来的发展趋趋势。为为了充分分利用现现有信息息资源,从海量量数据中中找出隐藏的知知识,数据挖挖掘技术术应运而生生并显示出出强大的的生命力力。如何从一一棵棵树树木了解解整个森森林?从从数据矿矿山中找找到蕴藏藏的知识识金块?这是我我们该考考虑的问问题!啤酒尿不不湿案例例著名的“啤酒尿尿布”案案例:美美国加州州某个超超级卖场场通过数数据挖掘掘发现,下班后后前来购购买婴儿儿尿布的的男顾客客大都购购买啤酒酒。于是是

3、经理当当机立断断,重新新布置货货架,把把啤酒类类商品布布置在婴婴儿尿布布货架附附近,并并在二者者之间放放置佐酒酒食品,同时还还把男士士日常用用品就近近布置。这样,上述几几种商品品的销量量大增。支持数据据挖掘技技术的基基础激发了数数据挖掘掘的开发发、应用用和研究究的兴趣趣的四个个主要技技术理由由:超大规模模数据库库的出现现,例如如商业数数据仓库库和计算算机自动动收集的的数据记记录;强大的多多处理器器计算机机。例如如更快和和更大的的计算能能力和并并行体系系结构;海量数据据搜索,对巨大大量数据据的快速速访问;数据挖掘掘算法。从商业数数据到商商业信息息的进化化进化阶段商业问题支持技术产品厂家产品特点数

4、据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL)、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Oracle 、IBM、Microsoft在各种层次上提供回溯的、动态的数据信息数据挖掘(正在

5、流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库IBM、其他公司提供预测性的信息数据挖掘掘(Data Mining)的定义数据挖掘掘是从大大量的、不完全全的、有有噪声的的、模糊糊的、随随机的实实际应用用数据中中,提取取隐含在在其中的的、人们们事先不不知道的的、但又又是潜在在有用的的信息和和知识的的过程。技术角度度的定义义数据挖掘掘可以描描述为:按企业既既定业务务目标,对大量量的企业业数据进进行探索索和分析析,揭示示隐藏的的、未知知的或验验证己知知的规律律性,并并进一步步将其模模型化的的有效方方法。商业角度度的定义义数据挖掘掘相近的的同义词词包括:数据融融合、数

6、数据分析析和决策策支持等等。数据挖掘掘(Data Mining)的定义数据挖掘掘与其他他科学的的关系Data MiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization数据挖掘掘与其他他科学的的关系数据挖掘掘作为一一门新兴兴的交叉叉学科,涉及数数据库系系统、数数据仓库库、统计计学、机机器学习习、可视视化、信信息检索索和高性性能计算算等诸多多领域。此外,还与神神经网络络、模式式识别、空间数数据分析析、图像像处理、信号处处理、概概率论、图论和和归纳逻逻辑等等等领域关

7、关系密切切。近几年,人们逐逐渐发现现数据挖挖掘中有有许多工工作都是是由统计计方法来来完成的的。甚至至有些人人(尤其其是统计计学家)认为数数据挖掘掘是统计计学的一一个分支支,当然然大多数数人(包包括绝大大多数数数据挖掘掘研究人人员)并并不这么么认为。统计学和和数据挖挖掘的目目标非常常相似,而且数数据挖掘掘中的许许多算法法也源于于数理统统计,统统计学对对数据挖挖掘发展展的贡献献功不可可没。实施数据据挖掘的的目的不再是单单纯为了了研究,更主要要的是为为商业决策策提供真正正有价值值的信息息,进而而获得利利润。所有企业业面临的的一个共共同问题题是:企企业数据据量非常常大,而而其中真真正有价价值的信信息却

8、很很少,因因此需要要从大量量的数据据中经过过深层分分析,获获得有利利于商业业运作、提高竞竞争力的的信息,就像从从矿石中中淘金一一样,数数据挖掘掘也由此此而得名名。数据挖掘掘的数据据源与以以前相比比有了显显著的改改变;数据是海海量的。数据据挖掘出出现的背背景是“数据爆爆炸但知知识贫乏乏”,它它要处理理的数据据量已经经达到了了“太”(万亿亿)级以以上,比比传统数数据分析析方法所所处理的的数据量量超出几几个乃至至十几个个数量级级。对于于如此大大规模的的数据量量,传统统的数据据分析方方法可能能根本不不能处理理,即使使能够处处理,效效率也是是必须考考虑的严严重问题题。因此此需要对对原有的的数据分分析方法

9、法重新检检验,加加以改进进。数据有噪噪声的。传统数据据分析方方法的数数据源一一般都是是清洁好好的、结结构化的的数据,数据挖挖掘则需需要从不完全的的、有噪噪声的、模糊的的数据中中发现知知识。数据挖掘掘与传统统数据分分析方法法区别数据可能能是非结结构化的的。数据挖掘掘不仅可可以处理理结构化化的数据据,而且且可以处处理半结结构化或或者非结结构化的的数据。事实上上,基于于文本的的数据挖挖掘甚至至互联网网上的数数据挖掘掘正是数数据挖掘掘的研究究方向之之一。传统的数据分分析方法法基于假设驱动动的:一般都是是先给出出一个假假设然后后通过数数据验证。数据挖掘掘在一定定意义上上是基于于发现驱动动的:模式都是是通

10、过大大量的搜搜索工作作从数据据中自动动提取出出来。即数据据挖掘是是要发现现那些不不能靠直直觉发现现的信息息或知识识,甚至至是违背背直觉的的信息或或知识,挖掘出出的信息息越是出出乎意料料,就可可能越有有价值。数据挖掘掘与传统统数据分分析方法法区别数据挖掘掘和数据据仓库数据挖掘掘和数据据仓库大部分情情况下,数据挖挖掘都要要先把数数据从数数据仓库库中拿到到数据挖挖掘库或或数据集集市中。 优点点:数据据仓库的的数据清理理和数据挖挖掘的数数据清理理差不多多,如果果数据在在导入数数据仓库库时已经经清理过过,那很很可能在在做数据据挖掘时时就没必要再再清理一次了,而且所所有的数数据不一一致的问问题都已已经被解

11、解决了。为了数据据挖掘你你也不必非得得建立一个个数据仓仓库,建建立一个个巨大的的数据仓仓库,把把各个不不同源的的数据统统一在一一起,解解决所有有的数据据冲突问问题,然然后把所所有的数数据导到到一个数数据仓库库内,是是一项巨大的工程,可能要要用几年的时时间花上百万的钱才能能完成。只是为了了数据挖挖掘,可可以把一一个或几几个事务务数据库库导到一一个只读读的数据据库中,就把它它当作数据集市市,然后在在它上面面进行数数据挖掘掘。数据挖掘掘和OLAP完全不同同的工具具,基于于的技术术也大相相径庭;OLAP基于用户户假设:what happened查询和报报表工具具是告诉诉你数据据库中都都有什么么what

12、 next OLAP更进一步步告诉你你下一步步会怎么么样what if如果我采采取这样样的措施施又会怎怎么样用户首先先建立一一个假设设,然后后用OLAP检索数据据库来验验证这个个假设是是否正确确。比如如,一个个分析师师想找到到什么原原因导致致了贷款款拖欠,他可能能先做一一个初始始的假定定,认为为低收入入的人信信用度也也低,然然后用OLAP来验证他他这个假假设。如如果这个个假设没没有被证证实,他他可能去去察看那那些高负负债的账账户,如如果还不不行,他他也许要要把收入入和负债债一起考考虑,一一直进行行下去,直到找找到他想想要的结结果或放放弃。数据挖掘掘和OLAP数据挖掘掘本质上上是一个个归纳的的过

13、程,不是用用于验证证某个假假定的模模式(模模型)的的正确性性,而是是在数据据库中自自己寻找找模型。比如:一个用数数据挖掘掘工具的的分析师师想找到到引起贷贷款拖欠欠的风险险因素。数据挖挖掘工具具可能帮帮他找到到高负债债和低收收入是引引起这个个问题的的因素,甚至还还可能发发现一些些分析师师从来没没有想过过或试过过的其他他因素,比如年年龄。数据挖掘掘和OLAP数据挖掘掘和OLAP有一定的的互补性。在利用用数据挖挖掘出来来的结论论采取行行动之前前,你也也许要验验证一下下如果采采取这样样的行动动会给公公司带来来什么样样的影响响,那么么OLAP工具能回回答你的的这些问问题。在知识发发现的早早期阶段段,OL

14、AP工具还有有其他一一些用途途。可以以帮你探探索数据据,找到到哪些是是对一个个问题比比较重要要的变量量,发现现异常数数据和互互相影响响的变量量。这都都能帮你你更好的的理解你你的数据据,加快快知识发发现的过过程。数据挖掘掘主要的的任务关联分析析(AssociationAnalysis)从一个项项目集中中发现关关联规则则,该规规则显示示了给定定数据集集中经常常一起出出现的属属性值值条件元元组。例如:关关联规则则X=Y所表达的的含义是是满足X的数据库库元组很很可能满满足Y。关联分分析在交交易数据据分析、支持定定向市场场、商品品目录设设计和其其他业务务决策等等方面有有着广泛泛的应用用。聚类分析析聚类分

15、析析(Clustering Analysis)聚类分析析又称为为“同质分组组”或者“无监督的的分类”,指把一一组数据据分成不不同的“簇”,每簇中中的数据据相似而而不同簇簇间的数数据则距距离较远远。相似似性可以以由用户户或者专专家定义义的距离离函数加加以度量量。好的聚类类方法应应保证不不同类间间数据的的相似性性尽可能能地小,而类内内数据的的相似性性尽可能能地大。分类与估估值分类与估估值(ClassificationandEstimation)分类指通通过分析析一个类类别已知知的数据据集的特特征来建建立一组组模型,该模型型可用以以预测类类别未知知的数据据项的类类别。该该分类模模型可以以表现为为多种

16、形形式:分分类规则则(IF-THEN),决策策树或者者数学公公式,乃乃至神经经网络。估值与分分类类似似,只不不过它要要预测的的不是类类别,而而是一个个连续的的数值。时间序列列分析时间序列列分析(Time-SeriesAnalysis)时间序列列分析即即预测(Prediction),是指指通过对对大量时时间序列列数据的的分析找找到特定定的规则则和感兴兴趣的特特性,包包括搜索索相似序序列或者者子序列列,挖掘掘序列模模式、周周期性、趋势和和偏差。预测的的目的是是对未来来的情况况作出估估计。其它任务务其它任务务包括:偏偏差分析析(DeviationAnalysis)、孤立立点分析析(Outlier A

17、nalysis)等。随着数据据挖掘技技术的发发展,可可能还会会继续出出现新的的数据挖挖掘功能能。医学与数数据挖掘掘医学数据据挖掘的的主要研研究对象象是临床床医疗信信息,反反映了医医学信息息的独特特之处,医学数数据挖掘掘的特殊殊性:模式的多多态性: 医学学信息包包括纯数数据、信信号、图图像、文文字以及及语音和和视频信信息。模式:就是对对客观事事物的一一种抽象象描述,是整个个数据集集的全局局性描述述。相当当于某一一规则,强调形形式上的的规律,可用于于全局的的规则,模型即可理解解为造型型实物有有实体体的造型型。信息不完完整性:病例和和病案的的有限性性使医学学数据库库不可能能对任何何一种疾疾病信息息都

18、能全全面的反反映,疾疾病信息息所体现现出的客客观不完完整性和和描述,疾病的的主观不不确切性性形成了了医学信信息的不不完整性性。数据的时时序性:病人的的就诊、病人的的发病过过程在时时间上有有一个进进度,医医学检测测的波型型、图像像都是时时间函数数,这些些都具有有一定的的时序性性。数据冗余余性:医医学数数据库是是以庞大大的数据据资源,有大量量相同的的或部分分相同的的信息存存储在其其中。医学与数数据挖掘掘数据挖掘掘在医药药领域的的应用越越来越广广而不仅仅仅在商商业领域域中。在在生物医医学工程程:在DNA分析中的的应用:实现基基因识别别和基因因表达的的研究。在分子结结构分析析中的应应用:海海量的分分析

19、结构构信息,通过分分类、聚聚类、频频繁模式式发现等等技术完完成数据据分析工工作。在生物信信息可视视化方面面的应用用:对原原始的结结构数据据进行深深入分析析,以图图、树、方体和和链的形形式重新新展现。在患者生生理参数数分析中中的应用用:从先先验信息息的海量量数据中中发现隐隐含的有有意义的的知识来来预测未未来趋势势,做出出前瞻性性的决策策。中药领域域在中药新新药研发发中的应应用。在中药要要谱分析析方面。在中药数数据预处处理方面面。在中药文文献研究究中的应应用。重点讲解解一:关关联分析析关联规则则描述和和分析了了数据库库中一组组对象之之间某种种共生现现象,反反映了事事物之间间存在的的关联性性,若两两

20、个或多多个变量量的取值值之间存存在某种种规律性性,就称称为关联联。关联联分析的的目的是是找出数数据库中中隐藏的的关联网网。有时时并不知知道数据据库中数数据的关关联函数数,即使使知道也也是不确确定的,因此关关联分析析生成的的规则带带有可信信度。如如两者“同时发发生”或或“两者者存在因因果关系系”等。在医学领领域同样样存在关关联现象象,若某某种疾病病同时表表现出若若干种症症状,则则这几种种症状与与该疾病病之间存存在着关关联性,且症状状之间也也呈现某某种关联联。关关联规则则分析可可为疾病病的鉴别别诊断提提供参考考依据。重点讲解解一:关关联分析析例子:有研究者者利用关关联规则则分析法法对糖尿尿病数据据

21、库进行行多维数数据分析析,以期期望发现现长期血血糖浓度度过高与与并发症症之间的的关联;还有研研究者对对37000例肾病患患者的症症状(包包括临床床检验和和检测)进行了了追踪观观察,监监测尿蛋蛋白水平平、肾小小球过滤滤率以及及患者贫贫血状况况,结果果发现以以上三种种生理指指标中的的任何一一项异常常都伴随随着心脏脏病发病病率的上上升。重点讲解解一:关关联分析析例1:有研究者者利用关关联规则则分析法法对糖尿尿病数据据库进行行多维数数据分析析,以期期望发现现长期血血糖浓度度过高与与并发症症之间的的关联;还有研研究者对对37000例肾病患患者的症症状(包包括临床床检验和和检测)进行了了追踪观观察,监监测

22、尿蛋蛋白水平平、肾小小球过滤滤率以及及患者贫贫血状况况,结果果发现以以上三种种生理指指标中的的任何一一项异常常都伴随随着心脏脏病发病病率的上上升。重点讲解解一:关关联分析析例2:医疗处方方分析。分析患有有某类疾疾病的病病人的处处方数据据,找出出处方数数据中各各项之间间的关联联关系。医生利利用医疗疗领域的的知识,来分析析这些规规则的可可信程度度。对于于那些有有价值的的规则,可以放放到规则则库中供供自己或或其他医医生治疗疗患有同同类疾病病的病人人。中医在研研究新方方剂的时时候做大大量的临临床试验验。方剂剂是由单单味药组组成,在在这些试试验中结结果中,可能就就蕴含着着单味药药之间的的某种关关联。重点

23、讲解解一:关关联分析析白术橘皮炙甘草获荃=人参(Supp=42,Con=89.5%),主治荣荣卫气虚虚、脏腑腑怯弱,心腹胀胀满,肠肠鸣泄泻泻,呕哆哆吐逆,大宜服服之。据病人患患病史进进行关联联序列分分析;如如:脑梗梗塞=高血压病病III期,即病病人患疾疾病脑梗梗塞的前前提下,接下来来患疾病病高血压压病III期的情况况。病人病案案中记载载了患病病的详细细信息,通过分分析得出出的模式式,在治治疗患有有前提条条件中疾疾病的病病人时,就要注注意或直直接检查查病人是是否同时时也患有有后件中中的疾病病。医生生在治疗疗过程中中可以同同时考虑虑疾病间间的关联联,采取取合理的的治疗方方案。重点讲解解二:聚聚类分

24、析析聚类分析析数据对对象,而而不考虑虑已知的的类标记记。对象象根据最最大化类类内的相相似性、最小化化类间的的相似性性的原则则进行聚聚类或分分组,使使得每个个组内的的对象具具有很高高的相似似性。而而与其它它组中的的对象差差别很大大。聚类类分析方方法适用用于对孤孤立点的的检测及及用于探探讨样本本间的内内部关系系,从而而对样本本结构做做出合理理的评价价。重点讲解解二:聚聚类分析析例子:有研究者者利用聚聚类方法法分析流流行病学学因素对对肺癌患患者临床床医学状状况的影影响。首首先从从SEER的数据库库中选取取21758例肺癌病病例,每每一例数数据包含含23个流行病病学特征征属性和和22个临床医医学状态态

25、特征属属性,继继而根据据流行病病学特征征属性的的相似程程度将病病例数据据划分成成20类,比较较各类别别之间的的临床医医学状态态特征属属性的差差异,在在此基础础上还可可更进一一步分析析各类流流行病学学因素对对肺癌患患者临床床医学状状况的不不同影响响。重点讲解解二:聚聚类分析析聚类分析析是根据据所选样样本间关关联的标标准将其其划分为为几个组组,同组组内的样样本具有有较高的的相似度度,不同同组的则则相异。聚类分分析方法法适用于于对孤立立点的检检测及用用于探讨讨样本间间的内部部关系,从而对对样本结结构做出出合理的的评价。有研究者者利用聚聚类方法法分析流流行病学学因素对对肺癌患患者临床床医学状状况的影影响。首首先从从SEER的数据库库中选取取21758例肺癌病病例,每每一例数数据包含含23个流行病病学特征征属性和和22个临床临临床医学学状态特特征属性性,继而而根据流流行病学学特征属属性的相相似程度度将病例例数据划划分成20类,比较较各类别别之间的的临床医医学状态态特征属属性的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论