第六聚类分析_第1页
第六聚类分析_第2页
第六聚类分析_第3页
第六聚类分析_第4页
第六聚类分析_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六聚类分析1第1页,共58页,2023年,2月20日,星期一引言地质学中有很多分类研究的问题,如沉积岩、古生物、矿物、油气藏、油气地球化学勘探指标的分类等是一些直接分类的例子;油气资源评价、油源对比等研究中也有分类;地层划分属于另一种分类。为叙述方便,在此把分类的具体目标统称为个体(样品或变量)。

聚类分析:根据个体之间的亲疏程度,将它们进行逐级定量分类的一种多元统计分析方法。根据分类的不同方式,又把聚类分析分为聚合法和分解法聚类分析。2第2页,共58页,2023年,2月20日,星期一§1聚类分析和聚类统计量一、聚类分析1254673891011131214

0.25

1.000.750.500.950.900.830.820.880.350.070.931.001.001.001.000.91

图6-1油气化探指标聚类谱系图(1,2,…,14为化探指标编号)

引例:化探指标的分类如某地区油气地表化探样品具有14项指标,按照指标相关程度分类,结果如图。类内指标具有密切的成因联系,据此可以化简研究系统。参照上例,给出聚合法聚类分析的一般概念。1.聚合法聚类分析3第3页,共58页,2023年,2月20日,星期一

聚合法聚类分析是按个体在性质或成因上的亲疏关系,把个体逐级聚集成类的一种多元统计分析方法。又称为点群分析,对样品进行分类—称Q型聚类分析

对变量进行分类—称R型聚类分析这种聚类分析开始时,每个个体各自为一类,然后以某种表示个体亲疏关系的统计量为分类依据,把彼此关系相对密切的个体合并为小类,再把关系相对密切的小类进一步合并,…,最后直到合并成一个大类为止。最终得到一个反映各对象间亲疏关系的分类结果—聚类分析谱系图,如图6-1。4第4页,共58页,2023年,2月20日,星期一例如{112233}是6个个体,据个体的相似性,把个体分为3类,结果是:{11}、{22}、{33}。这是一种把大类分解成小类的问题,地层的岩性段划分属于这类问题。2.分解法聚类分析这种聚类方法与聚合法“方向”恰好相反,开始时全部个体为1大类,依据某种分类指标,把全部个体分为2类、3类、…,直到满足分类的要求为止。二、聚类分析统计量衡量个体间性质或成因亲疏(相似、相关)程度的统计指标。5第5页,共58页,2023年,2月20日,星期一1.聚合法聚类统计量设有n个样品,每个样品有m个变量,它们的观测值xij(i=1,2,…,n;j=1,2,…,m)构成一个数据矩阵,记为:第i行是第i个样品m个变量的观测值,可视为m维空间的一个点或一个矢量;由

Xn×m可以看出:分类对象几个常用的聚类分析统计量:6第6页,共58页,2023年,2月20日,星期一

样品间的相似性就是矩阵行间的相似性,对样品聚类就是将矩阵中相似程度高的行合并为类;变量间的相关性就是矩阵列间的相关性,对变量聚类就是将矩阵中相关程度高的列合并为类。(1)Q型聚类分析统计量相似系数设样品观测值:第j列是第j个变量的n次观测值,可视为n维空间的一个点或一个矢量;7第7页,共58页,2023年,2月20日,星期一(6-1)如此,可形成一个相似系数矩阵R=[rij]n×n。将Xi与Xj看成两个矢量,则Xi与Xj的相似系数定义为两矢量夹角的余弦:8第8页,共58页,2023年,2月20日,星期一在上述相似系数矩阵中,rij=rji,rii=1。rij越接近1,Xi与Xj的性质越相近。R描述了各样品间的相似程度。9第9页,共58页,2023年,2月20日,星期一(6-2)矢量Xi与Xj的相关系数为:相关系数如此可形成一个相关系数矩阵R=[rij]n×n。在相关系数矩阵中:rij=rji,rii=1。rij越接近1,Xi与Xj的相关程度越大。10第10页,共58页,2023年,2月20日,星期一为避免dij过大造成计算溢出,将上式改为:(6-3)距离系数在m维直角坐标系中,2个点间的距离为:即形成距离系数矩阵[dij]n×n。dij=dji,dii=0。dij越接近0,Xi与Xj的性质越相近。11第11页,共58页,2023年,2月20日,星期一(2)R型聚类分析统计量仿照Q型聚类分析统计量,容易写出R型聚类分析统计量。变量间的相关性是数据矩阵列间的相关关系。分类对象注意求和限的变化及角标的变化。12第12页,共58页,2023年,2月20日,星期一(6-4)相似系数矢量Xi与Xj的相似系数为:形成相似系数矩阵[rij]m×m。其中:rij=rji,rii=1。rij越接近1,Xi与Xj的相似程度越大。13第13页,共58页,2023年,2月20日,星期一(6-5)相关系数矢量Xi与Xj的相关系数为:形成相关系数矩阵[rij]m×m。其中:rij=rji,rii=1。rij越接近1,Xi与Xj的相关程度越大。14第14页,共58页,2023年,2月20日,星期一在n维直角坐标系中,2个点间的距离为:(6-6)距离系数形成距离系数矩阵[dij]m×m。dij=dji,dii=0。dij越接近0,Xi与Xj的性质越相近。15第15页,共58页,2023年,2月20日,星期一仅介绍分解法中的最优分割法。n个样品m个变量的观测值构成一个数据矩阵:分类对象这里的Xn×m是数据序列(数据的排列顺序不能改变)。此处分类是指按行把数据序列分割开多个段。2.分解法聚类统计量16第16页,共58页,2023年,2月20日,星期一第1段第2段第k段……对Xn×m的最优分割是指把Xn×m分段后,各段内数据的离差平方和最小(各段内样品的差异最小),而各段间数据的离差平方和最大(各段之间样品的差异最大)。如果把Xn×m分成k段(组),每段内有nl(l=1,2,…,k)个样品,分段结果记为:17第17页,共58页,2023年,2月20日,星期一总离差平方和:(常数)把Xn×m分为k段有很多种可能的分法。对于其中的任何一种分法,都有:段内离差平方和:(6-7)段间离差平方和:18第18页,共58页,2023年,2月20日,星期一为样品的总数;

xlj(i)为第l段内第j个样品第

i个变量的观测值;为第i个变量n个观测值的平均值。其中:为第l段内第i个变量nl

个观测值的平均值;19第19页,共58页,2023年,2月20日,星期一对于给定的数据来说,S是个常数,S1最小,S2必然最大。因此可将段内离差平方和可以证明:一个地质数据序列分段后满足段内离差平方和最小,则称相应的分法为最优分割。做为分解法聚类分析的聚类统计量。20第20页,共58页,2023年,2月20日,星期一聚合法分解法相似系数段内离差平方和相关系数段间离差平方和距离系数总离差平方和表6-1常用聚类分析统计量21第21页,共58页,2023年,2月20日,星期一§2聚合法聚类分析

聚合法聚类是将类由多变少、直到把全部个体合并成一类的聚类方法。它是目前对个体进行聚类的常用方法。聚类过程大致如下:

(1)原始类,即聚类以前的个体各自成类;

(2)第1级聚类,以某种统计量计算各个体间的亲疏程度,把关系密切的对象合并成1类,并构造成一个代表性个体,做为新的个体参加下一级聚类;多个个体组成的小类22第22页,共58页,2023年,2月20日,星期一(4)按上述方法进行第3级聚类、第4级聚类、…,直到全部个体合并为1类为止。

(3)第2级聚类,再计算个体间的亲疏程度,把关系密切的个体合并为1类(可能是个体与个体或个体与上一级已聚成的小类合并),并又构造一个代表该类的代表性个体参加下一级聚类;

在上述聚类过程中,需要不断地计算个体与个体、个体与类、类与类间的亲疏程度,下面介绍计算它们之间亲疏程度的递推公式和聚类过程。23第23页,共58页,2023年,2月20日,星期一对于n维(样品点)或m维(变量点)空间的2个点来说,其距离在概念上是明确的(点间线段的长度)。但2类间的距离就有不同的定义,既可定义为2类中相距最近2点之间的距离,又可定义为2类中相距最远2点之间的距离,还可以取2类的重心距离等。一、距离类统计量聚合法由于距离的定义不同,因此也就产生了不同的聚合法。下面介绍四种距离度量下的聚合法。24第24页,共58页,2023年,2月20日,星期一

1.最短距离法(1)最短距离如图,定义p类和q类间的最短距离为:(6-8)

dij是p、q类中任意2个样品Xi与Xj之间的距离。用最短距离进行的聚合聚类叫做最短距离法。最短距离最长距离图6-2类间距离ABCDp类q类聚类过程中不可避免要涉及到合并成的类与另一个类之间最短距离的计算。25第25页,共58页,2023年,2月20日,星期一图6-3类r与类f的最短距离如果p类和q类合并为类r,计算类r与另外的类f之间最短距离时,直接方法是逐一计算类r与类f中所有个体间的距离,选最小者即为最短距离。(6-9)p类q类f类r类为计算便捷,可由之前的计算结果进行递推,递推公式为:26第26页,共58页,2023年,2月20日,星期一油源对比包括原油与原油、原油与生油岩的对比,主要是解决油源的问题。设编号为①、②、③的样品是取自生油层k1、k2、k3的岩样,编号为④的样品是取自储层k0的油样。需解决的问题是:k0的油来自哪个生油层?表6-2给出了油源对比常用的甾烷族化合物相对含量。表6-2甾烷族化合物相对含量分子离子样品372386398400412414生油层岩样(k1)3.7211.205.7815.805.209.11生油层岩样(k2)5.306.125.308.107.127.80生油层岩样(k3)9.6510.209.6113.209.4010.70储集层油样(k0)10.7813.107.8115.907.8112.80以油源对比为例,说明聚类过程27第27页,共58页,2023年,2月20日,星期一计算个体(样品)点间的距离矩阵,记为:

①②③④第一级聚类D(0)中,d34=d43=5.2110

在所有距离中最短。准备工作28第28页,共58页,2023年,2月20日,星期一表明岩样k3与油样k0的甾烷族化合物相对含量最接近,应合成1类,记为r,r={③,④}。同时按式(6-9)计算类r与其它各类间的最短距离矩阵,记为D(1):第二级聚类①

r={③,④}

在D(1)中,d13=d31=8.8183在所有距离中最短,表明①与r类最亲近,应合为1类,记为k,k={③,④,①}。再按式(6-9)计算类k与其它各类(仅剩下编号为②的样品了)间的最短距离矩阵,记为D(2)

:29第29页,共58页,2023年,2月20日,星期一由D(2)可知,四个样品以距离D=9.6553聚为一大类。按聚类顺序绘制聚类谱系如下:0.00005.21108.81839.6553①③②④根据聚类谱系图,可认为k0储层中的油主要来自k3生油层,但也不能排除混有其他生油层的油。第三级聚类30第30页,共58页,2023年,2月20日,星期一(2)最短距离法聚类的基本过程

①准备工作计算个体(样品或变量)点间的距离矩阵:

②第一级聚类在D(0)中找出距离最短的类合成1类,记为r。按式(6-9)计算类r与其它各类间的最短距离矩阵D(1);

③第二级聚类在D(1)中找出距离最短的类合为1类,记为k。按式(6-9)计算类k与其它各类间的最短距离矩阵D(2);

④重复上述过程,直到全部样品聚为一类为止。31第31页,共58页,2023年,2月20日,星期一2.最长距离法(1)最长距离定义p与q间的最长距离:(6-10)式中dij为p、q类中2个样品Xi与Xj之间的距离。用最长距离进行的聚合聚类称最长距离法。若p类与q类聚为类r,新类r与另外的类f之间的最长距离可由下列递推公式算出。32第32页,共58页,2023年,2月20日,星期一

定义p类、q类间的平均距离为两类中所有个体间距离的平均值:(2)聚类过程

聚类过程与最短距离法聚类相同,不同处是按式(6-10)计算下一级聚类的矩阵(计算最长距离)。3.类平均法(1)类平均距离式中np、nq是类p、q中个体数。dij为类p、q中2个个体Xi与Xj之间的距离。33第33页,共58页,2023年,2月20日,星期一假设类p、q的重心分别是、,那么类p、q间的重心距离为:用类平均距离进行的聚合聚类叫做类平均法。若类p、类q合并为类r,计算新类r与另外的类f之间类平均距离的递推公式为:(2)类平均法聚类过程与上述方法相同,不同处是计算类平均距离。4.重心法类p、q合成类r后,类r的重心为:34第34页,共58页,2023年,2月20日,星期一

类r与另外的类f间重心距离的递推公式为:

用重心距离进行的聚合聚类方法叫做重心法。35第35页,共58页,2023年,2月20日,星期一相关类统计量包括相关系数、相似系数。相应的聚合聚类法有近邻联接法、远邻联接法和类平均法,相应的递推公式为:近邻联接

二、相关类统计量聚合聚类远邻联接类平均36第36页,共58页,2023年,2月20日,星期一统计量方法说明相关系数相似系数近邻联接最大相关表示两类的相关远邻联接最小相关表示两类的相关类平均平均相关表示两类的相关距离系数最短距离最短距离表示两类的距离最长距离最长距离表示两类的距离类平均平均距离表示两类的距离重心重心距离表示两类的距离表6-3类与类(或个体)之间相近程度计算37第37页,共58页,2023年,2月20日,星期一三、聚类结果的选择采用不同的聚类方法,其聚类过程都是相同的,但结果却不一定完全相同。究竟哪种方法分类结果更好?目前尚无合适的衡量标准。在实际应用中,要结合其它地质理论及资料,分析不同方法给出的分类结果,从中确定一种合理的分类方案。38第38页,共58页,2023年,2月20日,星期一图6-4云南省某地超基性岩岩样聚类谱系图相关系数近邻联接法相关系数类平均法欧氏距离最短距离法欧氏距离类平均法39第39页,共58页,2023年,2月20日,星期一最优k分割的基本思想:按照段内离差平方和最小的原则,依次找出数据序列X的k-1个分割点,把X分为k段。§3分解法聚类分析(最优分割法)一、最优分割的基本思想

如前所述,分割是把数据序列分段,最优k分割是指数据序列分为k段后,段内离差平方和达到最小。将记数据序列记为:40第40页,共58页,2023年,2月20日,星期一2.分割过程

1.符号约定

记符号Sn(k;j)为把Xn×m分为k段的段内离差平方和,其中n是X中样品数,k是分段数,j表示第j个样品和第j+1个样品之间为分割点(1≤j≤n-1)

。(1)分2段取k=2,令j=1,2,…,n-1,按式(6-7)计算Sn(2;j),若那么,α1是最优2分割的分割点,X分割为2段;

二、最优k段分割的基本过程41第41页,共58页,2023年,2月20日,星期一则α2是最优3分割的第2分割点,X分割为3段;(2)分3段取k=3,令j=1,2,..,n-1,j≠α1,按式(6-7)计算Sn(3;j),若(3)分k段取k=k,令j=1,2,..,n-1,j≠α1,

α2,…αk-2,按式(6-7)计算Sn(k;j),若……42第42页,共58页,2023年,2月20日,星期一则αk-1是最优k分割的第k-1个分割点。至此,已将X分割为k段,分割点依次为α1、α2、…αk-1。2.69.328.52.79.629.72.59.127.83.88.630.63.28.532.53.68.234.63.78.435.13.58.731.90.612.120.60.512.020.00.712.220.20.212.120.7分割点1(j=8)分割点2(j=3)

示例将下列3个指标的数据序列分为3段:2.69.328.52.79.629.72.59.127.83.88.630.63.28.532.53.68.234.63.78.435.13.58.731.90.612.120.60.512.020.50.712.220.20.212.120.743第43页,共58页,2023年,2月20日,星期一§4应用简介例1油气地表化探指标分类内蒙古都日木地区地表化探采样点1610个,对每个点的土壤样品分析化验了29项指标,对这29项指标进行了聚类分析,将29项指标划分为4个大类(见图6-5)。通过聚类分析,了解了该地区化探指标之间的相关性,为化探异常圈定中指标的合理选取提供了依据。44第44页,共58页,2023年,2月20日,星期一图6-5都日木地区油气化探指标聚类谱系图45第45页,共58页,2023年,2月20日,星期一例2储层评价参数优选大庆朝阳沟油田具有低孔隙度、低渗透率、高含水饱和度等特点。能够反映该油田低渗透储层的参数有:渗透率、孔隙度、有效厚度、储量丰度、启动压力梯度、可动流体饱和度、平均孔隙半径、流度等。对众多参数都进行评价,将造成极大的工作量。因此考虑用聚类分析方法剔除相似参数,优选出具有代表性、可比性和实用性的参数。参数选取原则:(1)必须体现储层最本质的特征;(2)同一储层内的某参数必须有明显差异;46第46页,共58页,2023年,2月20日,星期一(3)以研究各单项参数对储层特征的影响程度及各参数间的相互关系为基础;(4)参考研究区的具体特点,选择出具有代表性、可比性和实用性的参数。图6-6储层参数聚类谱系图(据刘吉余等,2009)1渗透率2孔隙度3有效厚度4储量丰度5启动压力梯度6可动流体饱和度7平均孔隙半径8流度168352471.000.870.740.600.470.3447第47页,共58页,2023年,2月20日,星期一由图6-6可以看出,启动压力梯度和有效厚度的相关程度最高,优先被聚为一类,考虑启动压力梯度较有效厚度更为重要,故可只选启动压力梯度,剔除有效厚度。同样,在渗透率和可动流体饱和度两项参数中选取渗透率,剔除可动流体饱和度。如此,指标个数从8个被简化到了6个。48第48页,共58页,2023年,2月20日,星期一例3含油气盆地的聚类分析基本思想:将已知含油气远景的一些盆地与待评价的沉积盆地一起进行聚类分析,若待评价的盆地B与已知含油气性的盆地A聚为一类,则可认为B的含油气性与A最接近,依此对盆地进行评价。评价的地质参数(共30项):

①盆地的面积(单位:105平方公里)

②地质时代:第三纪、白垩纪、侏罗纪、三叠纪、二叠纪、石炭纪、泥盆纪、志留纪、奥陶纪、寒武纪。按有为1,无为0定量化;(共10项)

③储层时代:第三纪、白垩纪、侏罗纪、三叠纪、二叠纪、石炭纪、泥盆纪、志留纪、奥陶纪、寒武纪。按有为1,无为0定量化;(共10项)49第49页,共58页,2023年,2月20日,星期一

④储层岩性:砂岩、碳酸盐岩、火成岩、基岩。按有为1,无为0定量化;(共4项)

⑤盆地类型:内陆、沿海、海湾、海洋。按是为1,非为0定量化;(共4项)

⑥沉积厚度(单位:104米)表6-448个盆地的30项参数统计数据序号面积厚度地质时代(10项)储层时代(10项)储层岩性盆地类型1234┇481.001.104.504.00┇0.250.800.400.700.50┇0.751,1,0,0,0,0,0,0,0,00,0,0,0,0,1,1,1,1,10,1,1,1,1,1,1,1,1,11,1,0,0,0,0,0,0,0,0┇1,1,0,0,0,0,0,0,0,01,0,0,0,0,0,0,0,0,00,0,0,0,0,1,1,0,0,00,0,0,1,0,0,0,0,1,11,1,0,0,0,0,0,0,0,0┇1,0,0,0,0,0,0,0,0,01,0,0,01,0,0,01,0,0,01,1,0,1┇1,0,0,00,1,0,01,0,0,00,1,0,00,1,0,0┇0,1,0,050第50页,共58页,2023年,2月20日,星期一图6-7含油气盆地聚类谱系图相关系数近邻联接法欧氏距离最短距离法51第51页,共58页,2023年,2月20日,星期一

油源对比是根据地质和地球化学特征,确定石油和源岩之间成因联系的工作。它包括石油与烃源

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论