版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、矿床统计12聚类分析法(Cluster Analysis)陈 志 军学院主要内容第一节引言第二节第三节第四节聚类统计量系统聚类法动态聚类法YOUR SITE HERE第一节引言YOUR SITE HERE人类认识事物、认识世界,往往从分类开始。聚类分析和判别分析是研究事物分类的基本方法。在数学分类和模式识别中,有两类问题:第一类问题:研究对象存在一个事前分类,将未知归属于其中的一类判别分析(有监督或称有导师的Supervised,样品的类别属性是“被标记了”的labeled)另一类问题:不存在一个事前分类,对数据结构进 行分类(分组) 聚类分析(无监督或称无导师的Unsupervised)YO
2、UR SITE HERE判别分析数据格式YOUR SITE HERE聚类分析数据格式YOUR SITE HERE在地学领域中,经常一定量的事物(如地着大量的分类问题,即对、样品或变量)按其属性进行归类。由于地质对象的复杂性,单靠定性标志或少数定量标志进行分类,常常不能揭示客观事物内在本质的差别和,难以确定地本质属性的归属。同时也造成很多分类计算具有很大的性和任意性,而且所得的结果因人而异,常不能反映客观实际情况。地学研究中的分类问题较多,如岩石分类、矿物分类、构造期次研究、古气候古环境划分等,这些都有可能需要利用聚类分析来研究。YOUR SITE HERE物以类聚,人以群分聚类分析是一种研究分
3、类问题的多元统计方法。聚类分析的职能是建立一种分类方法,它将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类。聚类分析的出发点是研究对象之间可能存在的相似性和亲疏关系。所以,根据研究对象之间各种特征标志的相似程度或相关程度的大小,可将它们进行分类。YOUR SITE HERE聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征而确定。聚类分析的分类原则是同一类中的分类对象在某种意义上趋于彼此相似(有较大的相似性);不同类中的分类对象趋于不相似(有很大的差异)。YOUR SITE HERE聚类分析基本思想根据已知数据,计算各观察或变量之间亲疏关系的统计
4、量(距离、相关系数等),根据某种准则(最短距离法、最长距离法、中间距离法、重心法等),使同一类内的差别较小,而类与类之间的差别较大,最终将观察分为若干类。或变量YOUR SITE HERE两个概念:个是类和类之间的距离。点间距离有很多定义方式。最简单的是其他的距离。距离,还有当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。由一个点组成的类是最基本的类;如果每一类一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,YOUR SITE HERE两个“距离”概念按照远近程度来聚类需要明确一个是点和点之间的距离,一类间
5、距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。在计算时,各种点间距离和类间距离的不同选择,其结果会有所不同,但一般差太多。YOUR SITE HERE聚类分析的分类系统聚类法,也叫分层聚类法,hierarchical cluster动态聚类法,也叫快速聚类法quick cluster逐步聚类、迭代聚类k-均值聚类 k-means cluster最优分割法(有序样品聚类法) 模糊聚类法图论聚类法聚类预报法等按聚类方法分YOUR SITE HERE聚类分析的分类聚合
6、法: 分类开始时每个样品自成一类。最常用,分类结果常用分类谱系图表达。法: 分类开始将全部样品看成一类。通常只能是求局部最优解的方法。按聚合调优法: 首先对样品进行粗糙的分个类。动态聚类法就是其中最典型的方法。加入法: 业已存在一个分类结果,确定每个新加入样品在分类结构中最合适的位置。等YOUR SITE HERE聚类分析的分类Q型聚类:对样品的聚类(cases)按聚类对象R型聚类:对变量的聚类(variables)R型聚类和Q型聚类这两种聚类在数学处理上是对称的,没有什么不同。YOUR SITE HERER型聚类分析和Q型聚类分析1. R型聚类分析(对变量的聚类)是一种降维的方法研究变量之间
7、的相似程度,对变量进行分组。样品3从几何意义上说,是以N个样品为坐标轴,每个变量视为坐标空变量3变量1间的一点或一个,研究样本变量2空间变量点之间的关系。如研究控矿地质因素及矿化标志间的相关关系,多用于矿物,化学元素等方面的分组,以助于矿床成因问题的研究。样品2样品1YOUR SITE HERER型聚类分析和Q型聚类分析2. Q型聚类分析(对样品的聚类)研究样品之间的相似程度,对样品进行分类。变量3从几何意义上说,是以P个变量为坐标轴,每个样品视样品3样品1为p中一点或一个向样品2量,研究样本空间样品点之间的关系。变量2变量1YOUR SITE HERE来说,主要是进行Q型聚类。对矿床统计(1
8、)对研究划分的单元,可视为样品,各单元所测定的各种地质特征作为变量原始数据组。(2) 各单元成矿远景的好坏,决定于单元内有利成矿地质因素及矿化标志的发育程度,根据这些地质因素和标志的相似程度对单元进行归类分组。这实际上是一种对地质环境的分类。(3) 然后,据分类中已知有矿和已知无矿单元的分 类,结合地质条件分析,相对地评价单元的成矿远景。YOUR SITE HERE第二节聚类统计量变量Variable样品Caseéêê .1 p ùú2 p ú. úúnp ûX = ê.êê
9、ëYOUR SITE HERE绝距离闵可夫距离距离系数dij切比雪夫距离型聚类统计量方差兰氏距离距离聚类统计量(也称相似性统计量距离C相似夹角余弦ij)系数相关系数统型计聚量类rijYOUR SITE HERE|dij|越小,相似程度越高QR对值距离1 p ù样品xi = (xi1, xi2,xip)样品xj = (xi1, xi2,xip)ú间的距离úpújpX = êú.p= å| xik - xjkê .údij|ú绝对值距离ûnpk =1på(x- xd=)
10、2距离ijikjkk =1ù1/ qépd=åw | x- x|q闵可夫距离êúijkikjkë k =1û= max | xik- xjk |dij切比雪夫距离1£k £ pYOUR SITE HERE样品xi = (xi1, xi2,xip)样品xj = (xi1, xi2,xip)间的距离1/ 21/ 2 xik - xjk sk= é2 ù= é2 ùppåêå(方差距离(x-*dijxjk )úêú
11、;ë k =1ûikë k =1û| xik - xjk|pd (L) = 1 å兰氏距离(要求xij>0)ijx+ xpk =1ikjk1/ 2- x )ù马氏距离=(dëûi jijå= 1n(a )- x )¢(n -1 a =1YOUR SITE HERE变量xi = (x1i, x2i,xni)T.x1 pù)T 间的相似系数1 j变量x = (x , x ,xx2 p új1i2inj.êú2 jX = ê .ú.n&
12、#234;úúå xki ykj.xëûnjnp= cosq= k =1夹角余弦Cijijæöæönnåk =1åk =122xxç÷ç÷kikjèøèø< xi , x j >=22xxijnå(- xj )kj= r = k =1C相关系数ijijnn- x)2(kjjk =1k =1YOUR SITE HERE距离系数变量3样品3变量3样品1变量1样品2变量2变量2样品2变量1样
13、品1YOUR SITE HERE夹角余弦样品3距离和相似系数之间的转换一般说来,距离越小,两样品之间关系越密切,而相似系数越大,两变量之间关系越密切。为了聚类方便起见,可以用下面的公式从相关系数得到变量间的距离。dij2 = 1-rij2YOUR SITE HERE第三节系统聚类法hierarchical clustering method系统聚类方式:聚合法:先视每个为一类,再合并为几大类法:先视为一大类,再分成几类可用于Q型聚类和R型聚类YOUR SITE HERE一、系统聚类的特点开始每个样品(或变量)都视为一类,然后将各样品(或变量)相互之间两两加以比较,根据聚类统计量逐步归类,关系密
14、切的聚合到一个小的分类合到一个较大的分类,关系疏远的聚,直到把所有样品(或变量)合并为一大类完毕为止,形成一个由小到大的分类系统,并绘制聚类谱系图,把样品之间的亲疏关系简明直观地展示出来。YOUR SITE HERE二、系统聚类的基本思路和做法(1)先将待聚类的n个样品(或者变量)各作为一类;(2)选定聚类统计量,计算每两个类之间的聚类统计量,将关系最密切的两类并为一类,其余不变,即得n-1类。再按前面的计算方法,计算新类与其它类之间的距离(或者相似系数),再将关系最密切的两类并为一类,其余不变,即得n-2类;(3)如此继续下去,每次重复都减少一类,直到最后所有所有样品(或变量)一类为止。YO
15、UR SITE HEREx2k=32.5相似性标尺21.5k=210.5k=10012345 x451321YOUR SITE HERE0123453k=4X =1.02.02.54.52.02.04.01.54.02.5三、类间距离Gm问题:当最亲近的两个样品合并Gk为一个类时,则形成一个样品集Gl团,即p中的一个点群。如何度量类与类之间的距离?Gr= min d(xi , xj )= minDkr , Dlr DklDmr记类Gk与类Gl之间的距离为Dkld(xi,xj)表示点xi Gk和xj Gl之间的距离YOUR SITE HERE任给两类,Gk,Gl ,规定其类间距离为两类样品间的最
16、短距离, 若类Gk与Gl合并成一个新类Gm,则Gm与任一类Gr的距离为多少?最短距离四、系统聚类方法1.最短距离法(single linkage)2.最长距离法(complete linkage)3.中间距离法(median linkage)4. 重心法(centroid method)5. 类平均法(average linkage)6. 可变类平均法(flexible-beta method)7. 可变法8. 离差平方和法(亦称Ward法,Ward's minimum- variance method)等以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。YOUR SITE HE
17、RE四、谱系图的形成和应用1.聚类的原则(谱系图的形成过程)2. 一步形成法3. 多步形成法YOUR SITE HERE1.聚类的原则(谱系图的形成过程)聚合归类时一般应遵从以下四条原则:若选出的一对样品在已经分好的组中都未出现过,则把它们形成一个新组。若选出的一对样品中,有一个出现在已经分好的组里,则把另一个也加入到该组。若选出的两个样品,它们分别出现在已经分好的两组中,则把这两个组连在一起。若选出的两个样品都出现在同一组中,则不须再分组。按上述四条原则反复进行,直到将所有的样品(或变量)都聚合完毕为止。最终可形成谱系图,也称树状图。YOUR SITE HERE2. 一步形成法(一次计算分类
18、法)一步形成法是一种最简单的聚类方法,计算量不大。它由距离矩阵或相似性系数矩阵出发得到最终的分类结果。方法原理:根据距离或相似系数的大小, 依次将诸样品(或变量)归类连接起来, 形成一个从小类到大类的分类系统。在连接过程中,要遵循前述四条原则。YOUR SITE HERE例:对鄂东7个矽卡岩体的化探资料的Q型聚类分析。距离矩阵325164连接表YOUR SITE HERE根据相似性水平的地质意义对谱系图进行分组,并对每组作出地质解释。相似性水平的不同反映了要求精度的差别,其结果表现为分组的粗细不同。00.20.40.60.81.0Cu矿化587956808398102Cu型CuCu/W/Mo型
19、YOUR SITE HERE2. 多步形成法(逐步计算成群法)以距离作为聚类统计量(Q型聚类)情形:见前关于类间距离的系统聚类方法以相关系数作为聚类统计量(R型聚类)情形:(1) 转换成距离来处理(2) 连续计算相关系数矩阵形成法基本步骤相似,唯一的区别是每一步分类后,要把分过类变量合并成为一个新的变量,即在相关系数矩阵中划出最大的元素,将相应的变量合并,赋予新的记号,把合并的变量的数据平均作为新的变量的数据,再计算合并后新变量与其余各变量的相关系数,建立新的相关矩阵,再进行分类,重复这一过程直到把所有变量都合并为一类。最后按归类作谱系图。YOUR SITE HERE例:五个销售员的销售量x1
20、与教育水平x2聚类统计量:聚类聚类方法:最短距离法YOUR SITE HEREX1x2123451168912320éêê= ê距离矩阵:Dê对ê00êêëéêê= ê称0YOUR SITE HEREéùêú02649ú G6ê= êú G3D30称50对3êêúú G7êúëûù126526123
21、45éêêú Gú68= êú GDêú487êúêúëûYOUR SITE HERE026260X1x2123451168912320第四节动态聚类法也叫快速聚类法、逐步聚类、迭代聚类quick cluster method, k-means m样本量很大,用系统聚类法计算的工作量极大,作出的树状图也十分复杂, 不便于分析YOUR SITE HERE动态聚类的基本思想首先将样品粗略地分为若干类,然后在按照某种原则逐步修改直到合理的分类为止。计算
22、步骤:(1)选取若干样品作为初始凝聚点(给出分类的最大个数k);选凝聚点, 作初始分类(2) 计算各样品与各凝聚点的距离,并作初始分类;(3) 根据初始分类,计算各类重心,用重心代替初始凝聚点,进行第二次分类;(4) 重复(2)步,直至所有样品都不再调整,分类达到稳定为止(称为聚类过程收敛)调整不适合点修改分类YOUR SITE HERE小结YOUR SITE HERE与多元分析的其他方法相比,尽管聚类分析较为粗糙,没有明显的理论性,但应用方面取得了很大成功,确实是模式识别研究中非常有用的一类技术。聚类分析方法与传统的统计分组方法相比,具有如下优点:(1) 综合性:Q型聚类分析可以利用多个变量的信息对样本进行分类,克服单一指标分类的弊端。(2) 形象性:聚类分析可以利用聚类图直观地表现其分类形态,及类与类之间的内在关系。(3)客观性:聚类分析结果克服因素,比传统分类方法更客观、细致、全面。YOUR SITE HERE应用中须注意的问题Ø 同一批数据采用不同的聚类统计量,有时会得到不同的分类结果。Ø 同一批数据采用相同的聚类统计量,但采用不同的聚类方法,有时会产生不同的分类结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 私人借款抵押协议格式
- 2024工程装修清包工合同范本
- 商业店铺转让合同范本
- 验收标准协议
- 考点17 小说文体知识点巩固复习及限时训练-【挑战中考】备战2024年中考语文一轮总复习重难点全攻略(浙江专用)(解析版)
- 摄影棚设备租赁合同模板
- 2024成都购房贷款合同范本
- 垃圾处理设备租赁协议
- 茶叶店店长聘任合同范本
- 墙面艺术壁画合同旅游景点导览图
- 《涉爆粉尘除尘系统验收规范》01
- 定桩法记忆方法记忆大师图像记忆课件
- 福禄贝尔生平简介课件
- 《花之歌》课件(共36张)
- 检验科生化项目临床意义培训课件
- 电力设备带电检测技术课件
- APQP产品先期策划计划流程图
- (中职) 商品拍摄与图片处理 项目1ppt教学课件
- 广告及宣传印刷品制作服务方案
- 【桌面推演】应急演练、桌面推演
- Q∕SY 02625.1-2018 油气水井带压作业技术规范 第1部分:设计
评论
0/150
提交评论