计算机地质学7.聚类分析-数学定量分类思想_第1页
计算机地质学7.聚类分析-数学定量分类思想_第2页
计算机地质学7.聚类分析-数学定量分类思想_第3页
计算机地质学7.聚类分析-数学定量分类思想_第4页
计算机地质学7.聚类分析-数学定量分类思想_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、聚类分析 Cluster Analysis,本章学习目标,掌握地球科学中大量观测数据的样品或变量的数学定量分类思想; 学会样品或变量数据变换和分类标准的数学表示; 数据的聚类:谱系图制作及其地质意义;,学习重点、难点,重点 不同应用目的聚类分析技术的正确选取和聚类分析矩阵的求法以及谱系图的地质意义 难点 实际观测数据的聚类分析矩阵的构建和程序开发,深入理解谱系图的地质意义,问题的提出,地球科学涉及众多的分类问题,如地质学研究中岩石的分类、矿物矿床的分类、古生物的分类。油气勘探、开发过程中,石油成因研究、油藏类型研究、地化资料等的分类与分级。针对上述问题,怎样进行科学分类,分类结果有何启示?,表

2、1-1,表1-2,第一节 聚类分析的思想,假设所研究的对象中的元素,存在着不同 程度的相似性(亲疏关系)根据其各观测指。 标,找出一些能够度量样品之间相似程度的统 计量,据此,把一些相似程度大的样品聚为一 类,即关系密切的聚合到一个小的分类单位, 疏远的聚合到一个大的分类单位,直到把所有 样品都聚合完毕,形成一个由小到大的分类系 统,最后把分类系统直观地用图形表示出来。,聚类分析的依据及分类,聚类分析是根据样本或变量之间的相似性(亲疏关系),根据一批样本的多个观测指标(变量)具体找出一些能够度量样本或观测指标(变量)之间相似程度的统计量相似系数、距离系数、相关系数,以这些统计量作为划分类型的依

3、据 聚类分析根据研究对象和研究方法的不同可分为两类:,1.对象分类 根据分类对象的不同,聚类分析分为二种,一种是对指标(即变量)进行分类,叫做 R 型聚类分析,另一种是对样品进行分类,叫做 Q 型聚类分析。 2.方法分类 从聚类所采用的方法上看,又有聚合法、分裂法、图论法等。,第二节 原始数据的处理,处理的目的: 消除变量之间单位、数量级的影响 使各个变量具有相等的权(一视同仁),处理的方法,一标准化变换 二规格化(或正规化、极差变换)变换 三其他规格化方法 (一)极大值规格化 (二)均值规格化 (三)标准差规格化,第三节 聚类分析中的统计量,假设有N个样品,每个样品测得m项指标(变量),于是

4、我们把每个样品看成m维空间中的一个向量(点);Xi=(Xi1,Xi2,Xim)/ (i=1,2,m) 这样,N个样品可以排成一个矩阵,即 X1 X11 X12 X1m X2 X21 X22 X2m . . X = . = . . . XN XN1 XN2 XNm,其中,XIJ(i=1,2,N;j=1,2,m)为第i个样品第j个指标的观测数据。X即为原始资料矩阵,第i个样品Xi为矩阵X的第i行所描述,第j个变量Xj为矩阵的第j列所描述。 任意两个样品Xi与Xk之间的相似性可以通过矩阵X中的第i行与第k行的相似程度来刻划;任意两个变量Xj与Xk之间的相似性可以通过矩阵X中的第j列与第k列的相似程度

5、来刻划。 分类统计量的定义: 能够表示样品(或变量)间相似(或相关)程度的数量指标,这些数量指标叫分类统计量。 分类统计量的分类: 一.距离系数 二.相似系数夹角的余弦 三.相关系数,一.距离系数,如果把N个样品看作是m X2 维空间中的N个点,则任意 Xj(X1J,X2J) 两个样品之间的相似程度可 用m维空间中的两点间的距离 XK(X1K,X2K) 来度量。 先看平面上两点Xj,Xk 间的距离。 0 X1,当变量标准化后,0djk1。 djk越小表示第j个样品与 第k个样品就越相似或关系密切;反之,相似性就越小。 d11 d12 d1N d21 d22 d2N D= . dN1 dN2 d

6、NN 其中,d11=d22=dNN=0,注意:,1.距离系数是建立在欧氏空间基础上的。因此,若各变量之间都不相关,距离系数才能反映样品间的关系。 2.若变量间有某种相关性,此时距离系数就不能准确地反映样本之间的关系。解决办法: (1)先通过因子(主成分)分析,把变量先变换为互不相关的新变量; (2)利用斜交距离计算距离系数,其公式为:,二.相似系数夹角的余弦,相似系数是描述样品之间相似程度的一种度量。 方法:把任意两个样品xj与xk看成是m维空间的两个向量,这两个向量的夹角的余弦(相似系数)用cos jk 来表示,即 Xj=(x1j,x2j,,xmj)/ xk=(x1k,x2k,xmk)/,三

7、.相关系数,对于任意两个变量xi与xj之间的亲疏程度可用相关系数rij来表示:,第四节 聚类方法和步骤,一.聚类的原则 在已计算出相似性矩阵后,可以它为依据,对样品(或指标)进行聚合归类,最后形成谱系图。其集合归类一般应遵从下面四条原则: (1)若选出一对样品在已经分好的组中都未出现过,则把它们形成一个独立的新组; (2)若选出两个样品中,有一个是在已经分好的组中出现过,则把另一个样品也加入到该组中; (3)若选出一对样品,都分别出现在已经分好的两组中,则把这两个组联结在一起; (4)若选出的一对样品都出现在同一组中,则这对样品就不用再分组了。 按上述四条原则反复进行,直到把所有样品都分类聚合

8、完毕为止。,二.聚类的方法,(一)一次计算联结法 例:对某地超基性岩的一批样品,经光谱分析得与矿化有关的某些元素(指标),其资料数据如下表,试用R-型聚类分析研究各指标间的相关关系。,1 2 3 4 5 6 Ni Co Cu Cr S As 1Ni 1 2Co 0.8462 1 (2) 3Cu 0.7579 0.9802 1 (1) R= 4Cr 0.6431 0.2419 0.1811 1 (4) 5S 0.5039 0.7370 0.7210 -0.3075 1 6As 0.5603 0.4241 0.3930 0.1998 0.6802 1 (3),(3)在R的非对角线元素中,相关系数最

9、大的是r32=0.9802,于是将第2、第3两元素即Co、Cu连结,划去R中的第三行、第三列;在剩下的相关系数中最大的是r21=0.8462,z这时将第1元素Ni与已连结成组的(Co、Cu)连结,划去第二行、第二列;接着最大的是r65=0.6802,就把第5、6元素即S与As连结,划去第六行、第六列;紧接着最大的是r41=0.6431,而第1元素已经同第2、3元素连结成组,于是把这组与第4元素连结,划去第四行、第四列;最后剩下r51=0.5039,这时就把(S、As)组与(Ni,Co,Cu,Cr)组连结。,一次计算连结法比较简便,只要计算出相关矩阵后,一次就可形成谱系图,显示出变量的聚合情况。

10、但是,一次形成可能把不相关的变量都放到同一群里,以后也就不能剔除。 Cr因为与Ni的关系而被聚集在Co、Cu这一群里,但事实并非如此,比较准确的划分常采用下面的逐步聚类法。,二.逐步聚类法,(一)步骤 现以计算相似系数的Q型分析为例,说明实施步骤: 1.计算N个样品的相似系数矩阵,共计算N(N1)/2个数值,挑出相似系数最大的一对样品; 2.把挑出的成对样品(或样品组)的相应变量加权平均,形成一个新样品的数据。由单个样品组成的成对样品,求各样品的算术平均值,由样品组构成的成对样品,求各变量的加权平均值,样品组中的样品数为权数; 3.把挑出的样品对 或样品组的代表性样品的数据全部删除,把新样品的

11、数据放在序号最小的样品数据位置上,重新计算新样品与剩余样品的相似系数,再从中挑出相似系数最大的样品对或样品组,重复2、3两个步骤,共作N1次,直到把所有的样品都归类完毕为止。,(二)实例,例:以探讨冀北坳陷东部震旦亚界原生油苗、煤和生油岩之间的关系为例,选取了9块样品,以红外吸收光谱图芳烃组分谱图上的6个变量,介绍Q型聚类分析的具体内容。原始数据如下表:,原始数据正规化后得:,解:1.根据上表计算距离系数矩阵,0.000 0.119 0.000 0.807 0.813 0.000 0.768 0.764 0.411 0.000 D= 0.775 0.783 0.065 0.425 0.000

12、0.810 0.806 0.543 0.146 0.562 0.000 0.649 0.670 0.203 0.351 0.174 0.476 0.000 0.699 0.699 0.267 0.260 0.295 0.357 0.257 0.000 0.827 0.824 0.351 0.146 0.386 0.225 0.350 0.191 0.000,2.在D阵中非对角线元素中选出最小值d5、3=0.065,联结样品号为3、5,保留小序号3,去掉大序号5,将D阵中的第5行、第5 列划去。把3 号与5 号样品正规化后的数据合并,合并的方法是取各变量的平均值作为3、5号样品的变量值(0.01

13、95,0.0197,0.0357,0.6373,0.9885,0.0843)重新计算组合样品与其它样品间的距离系数,用以替换D阵中的第3行、第3列元素,得新的距离系数矩阵D1,即:,0.000 0.119 0.000 0.791 0.797 0.000 0.768 0.764 0.417 0.000 D1= 0.810 0.806 0.552 0.146 0.000 0.649 0.670 0.186 0.351 0.476 0.000 0.699 0.699 0.279 0.260 0.357 0.257 0.000 0.827 0.824 0.367 0.146 0.225 0.350 0

14、.191 0.000,3.在D1阵非对角线元素中选出最小值d2、1=0.119,联结样品号为1、2,保留小序号1,去掉大序号2,在D1阵中划去第2行、第2 列,合并1、2号样品正规化后的数据,(0.8766,0.9678,0.9708,0.049,0.0385,0.0169),重新计算与其它样品的距离系数,用以替换D1阵中的第1、第1 列的元素,得D2阵,即:,0.000 0.792 0.000 0.764 0.417 0.000 D2= 0.806 0.552 0.146 0.000 0.657 0.186 0.351 0.476 0.000 0.697 0.279 0.260 0.357

15、0.257 0.000 0.823 0.367 0.146 0.325 0.350 0.191 0.000,4.在D2阵中选出最小值d9、4=0.146,按上述过程在D2阵中划去第9行、第9列(合并后数据为0.0195,0.0502,0.1169,0.8922,0.4154,0.7865),并以重新计算的距离系数取代原矩阵中的第4行、第4 列元素,得D3阵,即:,0.000 0.792 0.000 0.791 0.386 0.000 D3 = 0.806 0.552 0.175 0.000 0.657 0.186 0.343 0.476 0.000 0.697 0.279 0.216 0.35

16、7 0.257 0.000,5.重复上述过程。但应指出的是djk的最小值是0.175,即联结的样品号为6与4、9号,由于4 号与9号样品已经合并,所以在求6 号与4、9号合并的各变量时,应按,0.000 (2) 0.792 0.000 0.791 0.441 0.000 D4= (1) (4) 0.657 0.186 0.384 0.000 0.697 0.279 0.258 0.257 0.000 (3),6.D4阵中的联结样品号为3、5号与7号,d7;3,5=0.186。重复上述过程得:,0.000 (2) 0.744 0.000 D5= 0.791 0.413 0.000 (1)(4)

17、(5) 0.697 0.257 0.258 0.000 (3),7.D5阵中最小的为d8;3,5,7=0.257,经变换后的矩阵为:,0.000 (2) 0.724 0.000 D6= 0.791 0.364 0.000 (1) (4) (5) (6) (3),8.D6中最小的d4,9,6;3,5,7,8=0.364,最后一个矩阵为D7中除只保留1、2号与3、5、7、8、4、9、6号两组样品的距离系数0.732外,其它均被划掉,故不列出。,到此为止,已按距离系数由小到大的顺序进行了逐步聚类,样品间关系的亲疏程度见下表:,9.最后以距离系数为横坐标,按上表作出了9 个样品的Q型聚类分析谱系图如下

18、:,0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 距离系数 1 (1) 2 3 5 7 8 (2) 4 9 6,若以d=0.6为标准,则所有样品分为两群:,第一群:由1、2号样品组成,即是上石炭统太原组的煤和碳质页岩分为一类。 第二群:为与油气有关的油苗和油源岩。第二群又可以分为两个较小的类别,一类是4、9、6号样品,另一类是3、5、7、8号样品。前者表明震旦亚界铁岭组和下马岭组的油苗都可能来自下马岭组的黑色灰岩;后者说明下寒武统府君山组和震旦亚界雾迷山组的油苗,都可能来自下马岭组的黑色页岩,甚至铁岭组的油苗(8号样)也来自下马岭组。 总之,从聚类分析谱系图看,成煤成油环

19、境有很大差异,而各时代的油苗可能有相近的生油层。,为了便于比较,还用相似系数对同样数据做了逐步Q型聚类分析,其谱系图如下图所示。与用距离系数的聚类结果基本一致。,1.0 0.8 0.6 0.4 0.2 相似系数 1 2 (1) 3 5 7 (2) 4 6 9 8,第五节 聚类分析在储层分类和估算油气储量上的应用,一.利用聚类分析研究储层分类 例:探讨华北某地震旦系雾迷山组中的储层分类,并剖析孔隙结构等18个参数之间的相关关系,对同样的样品作了R型和Q型聚类分析。分析结果及谱系图如下:,华北某地雾迷山组储层孔隙结构等18个参数的 R型聚类分析谱系图 (孔隙单位为m),1.0 0.3 0 -1.0

20、相关系数 常大 煤油法孔隙度 规喉 观测孔隙度 物道 0.75孔隙% 性有 渗透率 k 与关 分选 sp 储主 1.250.75 孔隙% 渗要 0.750.5孔隙% 1 流孔 7.51.25孔隙% 体隙 0.50.3孔隙% 1 小喉 0.30.15 孔隙% 道 0.150.03孔隙% 微细 swi 喉道 sHgi 0.03孔隙% 1 6 DM 与 DM Pc50受 Pc50 细喉 0.050.03孔隙% 道制 0.0750.05孔隙% 约,根据均值DM、饱和度中值毛管压力Pc50、渗透率K、孔隙度m和分选SP等5 个变量得到的46 个样品的Q型聚类分析谱系图。当取距离系数0.25为标准时,样品

21、明显分为三群: 第一群: 2、3、4、6、7 、10、11、12、13、15、16号共11个样品。这些样品全部属于以溶蚀孔洞与构造缝为主的好储层,与地质上定性分析(116号)分类的结果一致。 第二群:20、22、23、27、28、29、30、31、32、36、37、40、41、42、45、46号共16个样品,地质分类1737(共21块样品)号样品属于以晶间隙为主的差储层。 第三群:5、9、17、18、19、21、24、25、26、33、34、35、38、39、43、44等16 块样品,属于基质微孔为主的非储层。 此外,第1、8、14三个样品是属于特殊类型的储层,它与第一、二、三类储层关系均不密切,这可能是由于储层高度非均质和取样等原因而形成相对独立的一类。 第二、三群有93%的样品分类结果与地质上的定性分析一致,但从多变量的分类上修正了7%样品的分类,使之更符合客观实际,这体现了聚类分析的重要作用。,二.估算油气远景储量,立足于整个含油气盆地来估算油气的远景储量,往往由于含油气盆地之间的差异较大难于对比,其效果并不理想,原因在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论