版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析法预测第1页,共88页,2023年,2月20日,星期二聚类分析原理介绍什么是自然分组结构Naturalgrouping?我们看看以下的例子:有16张牌如何将他们分为一组一组的牌呢?AKQJ第2页,共88页,2023年,2月20日,星期二聚类分析原理介绍分成四组每组里花色相同组与组之间花色相异AKQJ花色相同的牌为一副Individualsuits第3页,共88页,2023年,2月20日,星期二聚类分析原理介绍分成四组符号相同的牌为一组AKQJ符号相同的的牌Likefacecards第4页,共88页,2023年,2月20日,星期二聚类分析原理介绍分成两组颜色相同的牌为一组AKQJ颜色相同的配对Blackandredsuits第5页,共88页,2023年,2月20日,星期二聚类分析原理介绍分成两组大小程度相近的牌分到一组AKQJ大配对和小配对Majorandminorsuits第6页,共88页,2023年,2月20日,星期二聚类分析原理介绍这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配对和小配对Majorandminorsuits第7页,共88页,2023年,2月20日,星期二YOURSITEHERE第一节引言第二节聚类统计量第三节系统聚类法第四节动态聚类法主要内容第8页,共88页,2023年,2月20日,星期二YOURSITEHERE第一节引言第9页,共88页,2023年,2月20日,星期二YOURSITEHERE人类认识事物、认识世界,往往从分类开始。聚类分析和判别分析是研究事物分类的基本方法。在数学分类和模式识别中,有两类问题:第一类问题:研究对象存在一个事前分类,将未知个体归属于其中的一类——判别分析(有监督或称有导师的Supervised,样品的类别属性是“被标记了”的labeled)另一类问题:不存在一个事前分类,对数据结构进行分类(分组)——聚类分析(无监督或称无导师的Unsupervised)第10页,共88页,2023年,2月20日,星期二YOURSITEHERE判别分析数据格式第11页,共88页,2023年,2月20日,星期二YOURSITEHERE聚类分析数据格式第12页,共88页,2023年,2月20日,星期二YOURSITEHERE在地学领域中,经常面临着大量的分类问题,即对一定量的事物(如地质体、样品或变量)按其属性进行归类。由于地质对象的复杂性,单靠定性标志或少数定量标志进行分类,常常不能揭示客观事物内在本质的差别和联系,难以确定地质体本质属性的归属。同时也造成很多分类计算具有很大的主观性和任意性,而且所得的结果因人而异,常不能反映客观实际情况。地学研究中的分类问题较多,如岩石分类、矿物分类、构造期次研究、古气候古环境划分等,这些都有可能需要利用聚类分析来研究。第13页,共88页,2023年,2月20日,星期二YOURSITEHERE聚类分析是一种研究分类问题的多元统计方法。聚类分析的职能是建立一种分类方法,它将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类。聚类分析的出发点是研究对象之间可能存在的相似性和亲疏关系。所以,根据研究对象之间各种特征标志的相似程度或相关程度的大小,可将它们进行分类归组。物以类聚,人以群分第14页,共88页,2023年,2月20日,星期二YOURSITEHERE聚类分析的分类原则是①同一类中的分类对象在某种意义上趋于彼此相似(有较大的相似性);②不同类中的分类对象趋于不相似(有很大的差异)。聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征而确定。第15页,共88页,2023年,2月20日,星期二YOURSITEHERE根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离、相关系数等),根据某种准则(最短距离法、最长距离法、中间距离法、重心法等),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。聚类分析基本思想第16页,共88页,2023年,2月20日,星期二YOURSITEHERE两个“距离”概念按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。点间距离有很多定义方式。最简单的是欧氏距离,还有其他的距离。当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,第17页,共88页,2023年,2月20日,星期二YOURSITEHERE类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。在计算时,各种点间距离和类间距离的不同选择,其结果会有所不同,但一般不会差太多。第18页,共88页,2023年,2月20日,星期二YOURSITEHERE聚类分析的分类按聚类方法分系统聚类法,也叫分层聚类法,
hierarchicalcluster动态聚类法,也叫快速聚类法quickcluster
逐步聚类、迭代聚类 k-均值聚类k-meanscluster最优分割法(有序样品聚类法)模糊聚类法图论聚类法聚类预报法等第19页,共88页,2023年,2月20日,星期二YOURSITEHERE按聚合方式分聚合法:分类开始时每个样品自成一类。最常用,分类结果常用分类谱系图表达。分裂法:分类开始将全部样品看成一类。通常只能是求局部最优解的方法。调优法:首先对样品进行粗糙的分个类。动态聚类法就是其中最典型的方法。加入法:业已存在一个分类结果,确定每个新加入样品在分类结构中最合适的位置。等聚类分析的分类第20页,共88页,2023年,2月20日,星期二YOURSITEHERE聚类分析的分类按聚类对象Q型聚类:对样品的聚类(cases)R型聚类:对变量的聚类(variables)R型聚类和Q型聚类这两种聚类在数学处理上是对称的,没有什么不同。
第21页,共88页,2023年,2月20日,星期二YOURSITEHERER型聚类分析和Q型聚类分析研究变量之间的相似程度,对变量进行分组。从几何意义上说,是以N个样品为坐标轴,每个变量视为坐标空间的一点或一个向量,研究样本空间变量点之间的关系。1.R型聚类分析(对变量的聚类)如研究控矿地质因素及矿化标志间的相关关系,多用于矿物,化学元素等方面的分组,以助于矿床成因问题的研究。样品2样品3样品1变量1变量2变量3是一种降维的方法第22页,共88页,2023年,2月20日,星期二YOURSITEHERER型聚类分析和Q型聚类分析研究样品之间的相似程度,对样品进行分类。从几何意义上说,是以P个变量为坐标轴,每个样品视为p维空间中一点或一个向量,研究样本空间样品点之间的关系。2.Q型聚类分析(对样品的聚类)变量2变量3变量1样品1样品2样品3第23页,共88页,2023年,2月20日,星期二YOURSITEHERE对矿床统计预测来说,主要是进行Q型聚类。(1)对研究区所划分的单元,可视为样品,各单元所测定的各种地质特征作为变量构成原始数据组。(2)各单元成矿远景的好坏,决定于单元内有利成矿地质因素及矿化标志的发育程度,根据这些地质因素和标志的相似程度对单元进行归类分组。这实际上是一种对地质环境的分类。(3)然后,据分类中已知有矿和已知无矿单元的分类归组,结合地质条件分析,相对地评价各未知单元的成矿远景。第24页,共88页,2023年,2月20日,星期二YOURSITEHERE第二节聚类统计量样品Case变量Variable第25页,共88页,2023年,2月20日,星期二YOURSITEHERE绝对值距离欧氏距离闵可夫斯基距离切比雪夫距离方差加权距离兰氏距离马哈拉诺比斯距离夹角余弦相似系数距离系数聚类统计量(也称相似性统计量)dij|Cij|,|rij|越接近于1,相似程度越高Cij|dij|越小,相似程度越高Q型聚类统计量R型聚类统计量相关系数rij第26页,共88页,2023年,2月20日,星期二YOURSITEHERE样品xi=(xi1,xi2,…,xip)样品xj=(xi1,xi2,…,xip)间的距离绝对值距离欧氏距离闵可夫斯基距离切比雪夫距离第27页,共88页,2023年,2月20日,星期二YOURSITEHERE样品xi=(xi1,xi2,…,xip)样品xj=(xi1,xi2,…,xip)间的距离方差加权距离兰氏距离马氏距离(要求xij>0)第28页,共88页,2023年,2月20日,星期二YOURSITEHERE变量xi=(x1i,x2i,…,xni)T变量xj=(x1i,x2i,…,xnj)T间的相似系数夹角余弦相关系数第29页,共88页,2023年,2月20日,星期二YOURSITEHERE样品2样品3样品1变量1变量2变量3变量2变量3变量1样品1样品2样品3距离系数夹角余弦第30页,共88页,2023年,2月20日,星期二
距离系数是一个衡量空间两点之间相似程度的统计量,距离系数越小,两点越相似。条件:直角坐标系,要求变量是独立的。距离系数在二维情况下第31页,共88页,2023年,2月20日,星期二第32页,共88页,2023年,2月20日,星期二N个样品,P个指标R型:变量P个指标Q型:样品N个指标第33页,共88页,2023年,2月20日,星期二将N个样品的两两间的距离系数求出来,可排一个距离系数矩阵第34页,共88页,2023年,2月20日,星期二
相似系数是衡量空间两个向量相似性的一个指标,相似系数越大,两个向量越相似。相似系数第35页,共88页,2023年,2月20日,星期二第36页,共88页,2023年,2月20日,星期二将N个样品相似系数求出来,排成一个相似系数矩阵第37页,共88页,2023年,2月20日,星期二相关系数
相关系数是衡量变量之间相关程度的一个指标,变量xi与xj的相关系数定义为:
第38页,共88页,2023年,2月20日,星期二第39页,共88页,2023年,2月20日,星期二YOURSITEHERE距离和相似系数之间的转换一般说来,距离越小,两样品之间关系越密切,而相似系数越大,两变量之间关系越密切。为了聚类方便起见,可以用下面的公式从相关系数得到变量间的距离。dij2=1-rij2
第40页,共88页,2023年,2月20日,星期二YOURSITEHERE第三节系统聚类法hierarchicalclusteringmethod系统聚类方式:聚合法:先视每个为一类,再合并为几大类分裂法:先视为一大类,再分成几类可用于Q型聚类和R型聚类第41页,共88页,2023年,2月20日,星期二YOURSITEHERE开始时将每个样品(或变量)都视为一类,然后将各样品(或变量)相互之间两两加以比较,根据聚类统计量逐步归类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个较大的分类单位,直到把所有样品(或变量)都聚合并为一大类完毕为止,形成一个由小到大的分类系统,并绘制聚类谱系图,把样品之间的亲疏关系简明直观地展示出来。一、系统聚类的特点第42页,共88页,2023年,2月20日,星期二YOURSITEHERE二、系统聚类的基本思路和做法(1)先将待聚类的n个样品(或者变量)各作为一类;(2)选定聚类统计量,计算每两个类之间的聚类统计量,将关系最密切的两类并为一类,其余不变,即得n-1类。再按前面的计算方法,计算新类与其它类之间的距离(或者相似系数),再将关系最密切的两类并为一类,其余不变,即得n-2类;(3)如此继续下去,每次重复都减少一类,直到最后所有所有样品(或变量)归为一类为止。第43页,共88页,2023年,2月20日,星期二YOURSITEHEREX=1.02.02.54.52.02.04.01.54.02.5x1x2相似性标尺k=1k=2k=3k=4012345012345第44页,共88页,2023年,2月20日,星期二YOURSITEHERE任给两类,Gk,Gl
,规定其类间距离为两类样品间的最短距离,若类Gk与Gl合并成一个新类Gm,则Gm与任一类Gr的距离为多少?GkGlGrGm记类Gk与类Gl之间的距离为Dkl
d(xi,xj)表示点xi∈Gk和xj∈Gl之间的距离最短距离三、类间距离问题:当最亲近的两个样品合并为一个类时,则形成一个样品集团,即p维空间中的一个点群。如何度量类与类之间的距离?第45页,共88页,2023年,2月20日,星期二YOURSITEHERE1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianlinkage)4.重心法(centroidmethod)5.类平均法(averagelinkage)6.可变类平均法(flexible-betamethod)7.可变法8.离差平方和法(亦称Ward法,Ward'sminimum-variancemethod)等以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。四、系统聚类方法第46页,共88页,2023年,2月20日,星期二YOURSITEHERE四、谱系图的形成和应用聚类的原则(谱系图的形成过程)一步形成法多步形成法第47页,共88页,2023年,2月20日,星期二YOURSITEHERE①若选出的一对样品在已经分好的组中都未出现过,则把它们形成一个新组。(形成新类)②若选出的一对样品中,有一个出现在已经分好的组里,则把另一个也加入到该组。(加入类中)③若选出的两个样品,它们分别出现在已经分好的两组中,则把这两个组连在一起。(合并两类)④若选出的两个样品都出现在同一组中,则不须再分组。(不再分类)聚合归类时一般应遵从以下四条原则:按上述四条原则反复进行,直到将所有的样品(或变量)都聚合完毕为止。最终可形成谱系图,也称树状图。1.聚类的原则(谱系图的形成过程)第48页,共88页,2023年,2月20日,星期二YOURSITEHERE2.一步形成法(一次计算分类法)一步形成法是一种最简单的聚类方法,计算量不大。它由距离矩阵或相似性系数矩阵出发得到最终的分类结果。方法原理:根据距离或相似系数的大小,依次将诸样品(或变量)归类连接起来,形成一个从小类到大类的分类系统。在连接过程中,要遵循前述四条原则。第49页,共88页,2023年,2月20日,星期二YOURSITEHERE例:对鄂东7个矽卡岩体的化探资料的Q型聚类分析。距离矩阵连接表123456第50页,共88页,2023年,2月20日,星期二YOURSITEHERE根据相似性水平的地质意义对谱系图进行分组,并对每组作出地质解释。相似性水平的不同反映了要求精度的差别,其结果表现为分组的粗细不同。58795680839810200.20.40.60.81.0Cu/W/Mo型Cu型Cu矿化Cu第51页,共88页,2023年,2月20日,星期二一次形成法(相似系数)1)对原始数据进行变换2)计算相似系数
第52页,共88页,2023年,2月20日,星期二3)用一次形成法形成分群图
1X1
X4
0.9907划去4行4列X1X2X3X4X5X6X1X2X3X4X5X6第53页,共88页,2023年,2月20日,星期二1X1X40.99072X5
X6
0.9886划去6行6列X1X2X3X4X5X6X1X2X3X4X5X6第54页,共88页,2023年,2月20日,星期二划去3行3列X1X2X3X4X5X6X1X2X3X4X5X61X1X40.9907X5
X6
0.9886X2X30.9843第55页,共88页,2023年,2月20日,星期二划去5行5列X1X2X3X4X5X6X1X2X3X4X5X61X1X40.9907X5
X6
0.9886X2X30.9843X2X3X5X60.9664第56页,共88页,2023年,2月20日,星期二划去2行2列X1X2X3X4X5X6X1X2X3X4X5X61X1X40.9907X5
X6
0.9886X2X30.9843X2X3X5X60.9664X1X4X2X3X5X60.9624第57页,共88页,2023年,2月20日,星期二聚类谱系图1X1X40.9907X5
X6
0.9886X2X30.9843X2X3X5X60.9664X1X4X2X3X5X60.9624第58页,共88页,2023年,2月20日,星期二优点:方法简单,易于操作,工作量小。缺点:一次形成法有缺点,很可能把不相似的样品归入一类,如上例中第四次挑了X2和X5,按分类原则就把X2、X3和X5、X6划为了一类,但X6是否与X2相似,X3是否与X5相似就没有定量标准1X1X40.9907X5
X6
0.9886X2X30.9843X2X3X5X60.9664X1X4X2X3X5X60.9624第59页,共88页,2023年,2月20日,星期二第60页,共88页,2023年,2月20日,星期二第61页,共88页,2023年,2月20日,星期二第62页,共88页,2023年,2月20日,星期二第63页,共88页,2023年,2月20日,星期二YOURSITEHERE2.多步形成法(逐步计算成群法)与一步形成法基本步骤相似,唯一的区别是每一步分类后,要把分过类变量合并成为一个新的变量,即在相关系数矩阵中划出最大的元素,将相应的变量合并,赋予新的记号,把合并的变量的数据加权平均作为新的变量的数据,再计算合并后新变量与其余各变量的相关系数,建立新的相关矩阵,再进行下一步分类,重复这一过程直到把所有变量都合并为一类。最后按归类作谱系图。以距离作为聚类统计量(Q型聚类)情形: 见前关于类间距离的系统聚类方法以相关系数作为聚类统计量(R型聚类)情形:
(1)转换成距离来处理
(2)连续计算相关系数矩阵第64页,共88页,2023年,2月20日,星期二(1)计算样品(或变量)间的相似性系数矩阵,挑出关系最密切的样品对(或变量对)(2)把挑出的成对样品或样品组(变量或变量组)的值做加权平均,形成一个新的样品(或变量)数据(3)把原有两个样品或代表样品组(变量或代表变量组)的数据删除掉,一般习惯把新数据放在序号小的样品数据上(4)对新形成的样品(变量)数据与剩余样品(变量)数据重新计算相似性系数,再从中挑出关系最密切的样品。重复(2)(3)(4)步骤,直到把所有样品(变量)归类完为止。第65页,共88页,2023年,2月20日,星期二第66页,共88页,2023年,2月20日,星期二第67页,共88页,2023年,2月20日,星期二第68页,共88页,2023年,2月20日,星期二第69页,共88页,2023年,2月20日,星期二第70页,共88页,2023年,2月20日,星期二第71页,共88页,2023年,2月20日,星期二选择渗透率、孔隙度、平均孔隙半径、分选系数、特征结构参数、排驱压力、饱和度中值压力7个参数,储层分成3类第72页,共88页,2023年,2月20日,星期二依据样品间欧式距离系数相似性第73页,共88页,2023年,2月20日,星期二第74页,共88页,2023年,2月20日,星期二第75页,共88页,2023年,2月20日,星期二第76页,共88页,2023年,2月20日,星期二第77页,共88页,2023年,2月20日,星期二第78页,共88页,2023年,2月20日,星期二第79页,共88页,2023年,2月20日,星期二YOURSITEHERE第四节动态聚类法也叫快速聚类法、逐步聚类、迭代聚类quickclustermethod,k-meansmodel样本量很大,用系统聚类法计算的工作量极大,作出的树状图也十分复杂,不便于分析第80页,共88页,2023年,2月20日,星期二YOURSITEHERE(1)选取若干样品作为初始凝聚点(给出允许分类的最大个数k);(2)计算各样品与各凝聚点的距离,并作初始分类;(3)根据初始分类,计算各类重心,用重心代替初始凝聚点,进行第二次分类;(4)重复(2)步,直至所有样品都不再调整,分类达到稳定为止(称为聚类过程收敛)动态聚类的基本思想首先将样品粗略地分为若干类,然后在按照某种原则逐步修改直到合理的分类为止。计算步骤:选凝聚点,作初始分类调整不适合点——修改分类第81页,共88页,2023年,2月20日,星期二YOURSITEHERE小结第82页,共88页,2023年,2月20日,星期二YOURSITEHERE与多元分析的其他方法相比,尽管聚类分析较为粗糙,没有明显的理论性,但应用方面取得了很大成功,确实是模式识别研究中非常有用的一类技术。(1)综合性:Q
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度化工产品运输合同(环保标准)4篇
- 二零二五版高端酒店餐饮厨房全面托管合同范本3篇
- 二零二五年度大庆市房屋买卖合同备案登记流程优化4篇
- 2025年度成鱼养殖与渔业科技研发合作合同4篇
- 2024维修桥施工合同范本:绿色桥梁维护工程3篇
- 二零二五年度高空作业安全免责协议及高空作业现场安全管理措施合同3篇
- 二零二五年度中医食疗养生传承合同规范4篇
- 2025年度个人投资理财合同范本4篇
- 2025年度采矿权出让合同范本:矿业权登记与审批流程3篇
- 个性化2024借款合同书模板
- 2024年东南亚人用疫苗市场深度研究及预测报告
- 【采购管理优化探究文献综述3000字】
- 《大学生职业发展与就业指导》课程标准
- 第23课《出师表》课件(共56张)
- GB/T 3953-2024电工圆铜线
- 发电机停电故障应急预案
- 接电的施工方案
- 幼儿阿拉伯数字描红(0-100)打印版
- 社会组织等级评估报告模板
- GB/T 12173-2008矿用一般型电气设备
- 新媒体研究方法教学ppt课件(完整版)
评论
0/150
提交评论