第五章 判别分析_第1页
第五章 判别分析_第2页
第五章 判别分析_第3页
第五章 判别分析_第4页
第五章 判别分析_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第五章 判 别 分 析,1 两总体判别分析,2 多总体判别分析,3 逐步判别分析,4 应用算例简介,2,引言 地学领域内有很多属于归类判别的问题,如:储层是否含油、岩样属于什么沉积相 、生油岩处于什么演化阶段等,从定量角度看,它们都是对个体进行归类判别的问题。 为叙述方便,将个体称为样品,个体所属的类称为总体。在此基础上给出判别分析的一般概念: 判别分析:根据已知的G个总体中取出的G组样品的观测值,建立总体与样品变量之间定量关系(判别函数),并据此判别未知类属样品类别的一种多元统计分析方法。,3,设ag(g=1,2,G)表示 G 个总体,每个总体中分别有ng个样品,每个样品有m个变量。 当

2、G = 2时,叫做两总体判别,又称为线性判别;当G 2时,叫做多总体判别;筛选变量建立判别函数的方法叫做逐步判别分析。,判别分析的基本步骤: (1)搜集来自G个总体的G组已知观测值(m个变量); (2)根据已知数据建立判别函数; (3)利用判别函数判别未知总体的样品类属。,4,简单说,两总体判别就是确定样品X是属于总体A还是属于B 的统计分析方法。,1 两总体判别分析,判定样品X是属于A 还是属于B 的判别函数一般是线性判别函数。,判别指数,yc,右图是一个简单的判别过程。判别样品归属依赖于变量x1,变量x2对判别不起作用。y=x1即线性判别函数。,图5-1 示例,5,图5-2 两总体判别分析

3、示意图,一、线性判别函数的一般形式,若样品X 有x1、x2两个变量,总体A、B的样品分别落在两个椭圆内,如图所示。,若直接用 x1、x2的观测值确定X所属的总体,则当观测值x1、x2分别落在区间(c,d)和(a,b)内时,不能确定样品属于A或属于B。但若把坐标系旋转角,变为新坐标系 y、z,变量y 则可把A、B分开,变量y称为判别函数,其形式为:,6,1原始数据 若总体A、B各有na、nb个样品观测值,分别为: x ij (a) ( i = 1, 2, , na; j = 1 , 2 , m) xkj (b) (k = 1, 2, , nb; j = 1 , 2 , m),(5-1),称上式为

4、线性判别函数,它是空间中的平面。称c1,c2,cm为判别系数。,一般,设样品有m个变量,那么判别函数的一般形式为:,二、判别系数的确定,这是建立判别函数所需要的数据。,7,把xij(a)、xkj(b)分别代入(5-1)得判别函数值:,2. 费歇尔(Fisher)准则下的判别函数,记:,两组判别函数点的中心距,组内判别函数点的离散度,8,费歇尔准则: 使Q 达到最大、H 达到最小。,Q达到最大,表明两组判别函数点的中心距最大;H达到最小,判别函数点的分布最集中。满足以上条件的判别函数可最大限度地把A和B区分开(如图所示)。,它的含义是:,图5-3 两总体样品点在平面y上的投影,9,V是cj (j

5、 = 1 , 2 , m)的二次函数,且V0,令:,要求Q达到最大,H 达到最小,则等价于要求,达到最大。,整理后可得:,V = Q / H,10,(5-2),由上述线性方程组解出cj,从而确定判别函数:,11,若A、B差异不明显,那么由观测值建立的判别函数就无实际意义。为此,需要对A、B的差异性进行检验。 检验方法:利用建立的判别函数对N(na+nb)个样品的总体重新判定,若判对了n (n N )个,定义 R=n/N为判对率。R值越大,A、B差异就越明显。,三、显著性检验及样品判别,在检验显著的条件下,定义:,1.显著性检验,2.判别指数,12,为判别未知样品所属总体的判别指数。,当y yc

6、 时,XA 当y yc 时,XB,3.样品总体的判别方法,设 ,把样品观测值xj (j=1,2,m) 代入判别函数,得:,图5-4 判别指数,13,若从G个总体中分别取出ng( g = 1 , 2 , , G )个样品,每个样品有m个变量,样品观测值记为:,2 多总体判别分析,一、原始数据,xgk(i)为总体ag( g=1,2,G )中第k ( k=1,2, ng) 个样品的第i个变量的观测值。Xgk是求判别函数的原始数据。,14,二、多总体判别分析的基本原理,把G 个总体记作ag (g=1,2,G), 那么对于未知类别的一个样品X来说,它可能属于任何一个总体,但它归属每个总体ag的概率不同。

7、 由Bayes 公式可以求得Xag( g=1,2,G )的条件概率:,(5-3),总体ag 的先验概率,总体ag 的概率密度,15,(5-4),上式是Bayes准则下多总体判别的一般判别函数,根据Eg(X)的相对大小,可对样品的总体做出判别。,如果P(ak/X)是条件概率中的最大者,即:,那么就判定样品Xak,且判错的概率最小。按照条件概率的大小判定样品归属的原则称为Bayes准则。在计算条件概率时,式(5-3)的分母是一个常数,故只取分子,其相对大小不变。记为:,16,三、正态总体的判别函数,若用式 判定样品X所属的总体,还需要给出总体的先验概率Pg 和概率密度 fg(X)。,(5-4),假

8、设X服从正态分布,其概率密度为:,(5-5),式中g是 ag的期望向量;是各总体共同的协方差矩阵, -1是的逆矩阵;,17,由此,式(5-5)可以近似写为:,式中:,i, j = 1 ,2 ,m ; N = n1 + n2 +nG,由原始数据可求得g、的估计值 和S :,18,(5-6),把上式和Pg (Pgqg = n g /N)代入式(5-4)得:,(5-7),即得正态总体的判别函数。,再对两边取自然对数,舍去其中与g无关的项并化简,得函数:,对于服从其他分布的总体来说,仿照上述做法得到相应的判别函数。,19,把样品的观测值X=(x(1) x(2)x(m) )T 代入式(5-7) 得Fg(

9、X) ,若:,四、对样品总体的判别,则认为Xak 。,Xak 的条件概率,20,五、判别函数的显著性检验,1. 正判率检验,利用判别函数对N(N=n1+n2+ng)个样品的总体重新判定,若判对了n (n N )个,定义R=n/N为判对率。R值越大,总体间的差异就越明显,判别函数的判别效果就会越好。,2. 马哈拉诺比斯距离D2检验,假设H0:总体差异不明显,统计量,21,统计量D2服从自由度为m(G-1)的2分布,故确定检验方法如下: 给定检验水平,查2分布表得D2的临界值D*,当D2D*时,否定假设,即拟定的m个变量能够区分已知的G个总体 。否则接受假设,即拟定的m个变量不能对样品的归属做出正

10、确的判别,此时应剔除其中区分能力小的或者引入一些更有效的变量,重新建立判别函数 。,其中,22,3 逐步判别分析,一、逐步判别的提出及其基本思想,1. 逐步判别的提出,在拟定的判别变量之间,既有相对的独立性,又存在着一定的成因联系。对于区分已知总体来说,具有成因联系的那些变量似乎各自的区分能力都较强,但当把它们都选入判别函数后,又使得先选入的变量区分能力变弱。另外,建立判别函数时需要求出S-1,若存在区分能力不显著的变量,可能导致S-1不存在,故求不出判别函数。鉴于上述原因,提出类似逐步回归中“筛选”变量的方法,即挑选那些判别能力真正强的变量建立判别函数。,23,如3个总体各有5个样品,每个样

11、品有2个变量,它们的观测值如下:,对上述三个总体来说,x1的区分能力远不如x2大,若存在这样的变量,就求不出判别函数。,24,S-1不存在,故求不出判别函数。,逐个检验拟定变量的区分能力,把区分能力强的变量“引入”判别函数,在引入变量的过程中,随时“剔出”已引入判别函数中的区分能力变弱的变量,直到既没有区分能力强的变量引入,又没有区分能力变弱的变量剔除为止。,2.逐步判别的基本思想,25,假设总体a gN (g , ) , g = 1 , 2 , G 。为了检验变量的区分能力,定义总体内离差矩阵W、总体间离差矩阵B、总离差矩阵T。记,二、逐步判别分析方法原理,1. 原始数据 与一般多总体判别分

12、析相同。,2. Wilks统计量(检验变量区分能力的指标),26,可以证明: T = W + B,27,Wilks 统计量: U=|W|/|T|,例2 有3个总体,样品有2个变量,其观测值如下表:,特点: 第二个变量差异明显 ,故总体差异大,U是检验m个变量综合区分能力的指标。U 越小总体内部差异越小,而总体之间差异越大。,28,例3 有3个总体,样品有2个变量,样品观测值下表:,在本例中:,特点: 变量差异不明显,故总体差异不大,29,上述结果说明:U越大变量的区分能力越弱,即总体之间的差异越小。,(5-8),这里的 Wilks统计量U是检验m个变量综合判别能力的统计量。如果按列号r1,r2

13、,rm的顺序对W和T的行列式进行消去计算,并表示出消去次序,那么U可以改写为:,从式(5-8)可导出检验某个变量x(r)判别能力的Wilks 统计量。,30,类似式(5-8)可得,(5-9),(1)“引入”变量x(r)的Wilks 统计量,若在判别函数中再引入变量x(r),则有:,设逐步判别进行了p步,共引入了p个变量(前p个都是判别能力强的变量,没有被剔除),记为:,(p个变量),3. “引入”与“剔除”变量的统计量,31,因此,wrr(p)/trr(p)是引入变量x(r) 后U 的改变因子,记为,(5-11),Ur越小,变量x(r) 使总体之间的差异越明显,它的判别能力就越强。,(5-10

14、),(p+1个变量),32,例2中:,U1= 0.22/0.2373=0.93 U2=0.204/18.256=0.011,可见,第2个变量的区分能力比第1个变量大,因为从统计量来说,U2小于U1。,33,(5-12),因此用Ur做为检验变量x(r)判别能力的Wilks 统计量。是否能够引入,还需进行假设检验。,式中N=n1+n2+ng,即样品的总数。,F1服从自由度为(G-1)和(N-G-p)的F分布。对于给定的检验水平 ,查F(G-1,N-G-p)分布表, 得临界值F,若F1F, 变量x(r)的判别能力强。,统计量:,假设H0:1=2 =G (总体间无差异),34,(2)“剔除”变量x(r

15、) 的Wilks 统计量,设逐步判别进行了p步,共引入了p个变量(前p个都是判别能力强的变量,没有被剔除),记为:,它的第p+1步拟剔除变量x(r) (r(r1,r2,rp) ,此时,将x(r) 的判别能力视为第p步要引入x(r) 的判别能力,即:,35,统计量F2服从自由度为(G 1)和(N G p + 1)的F分布。对于给定的检验水平 ,查F(G-1,N-G-P+1)分布表得临界值F* ,若F2 F* , 变量x(r) 的判别能力小,应剔除变量x(r)。,统计量,(5-13),36,逐步判别建立判别函数的过程与逐步回归相似,不同之处是逐步判别分析要对W、T 两个矩阵进行变换。它的第p+1步

16、不论是引入还是剔除变量x(r),都是对W和T 矩阵进行一次变换。,(5-14),第p+1步消去W、T 矩阵第r列的变换公式为:,3. 逐步判别的变换公式,37,(5-15),1. 判别函数的系数 若逐步判别分析进行了p步结束,共引入了v个变量 (v m),那么按下式计算判别函数的系数:,三、判别函数的系数和对样品的判别,38,2. 对样品的判别 样品 属于a g的函数值为Fg(X) ,若 , 则样品Xak 。,判别函数为:,Xak 的条件概率为:,39,图5-5 判 别 分 析 流 程 图,40,4 应用算例简介,例1 判定生油岩热演化阶段 基本思想:视不同热演化阶段的生油岩为不同的总体。建立

17、判别函数,可用来判定生油岩样品的热演化阶段。(详见教材)。 根据目前研究,可把生油岩的热演化过程分为四个阶段,即未成熟、成熟、高成熟和过成熟阶段,因此可视为四个总体。,(1)在上述总体中取66块生油岩样品,统计它们地层年龄(t)、现今地层温度(T)和埋藏深度(H)。,(2)拟定判别变量,41,(3)建立四个总体的判别函数 取引入和剔除临界值F1=F2=1.0,共引入x1, x2, x3和x5四个变量,得判别函数:,在此拟定6个变量,它们是:,x1=T+273,x2=t ,x3=H, x4=1/H, x5=ln(T+273),x6=1/(t+273),42,变量引入顺序,问:变量的引入顺序说明了

18、什么?,某种程度上说明了变量区分总体能力的强弱顺序。,43,(4)应用 珠江口盆地第三系生油岩为中新世至晚渐新世沉积,地层绝对年龄为1630百万年,埋藏深度为2200米,现今地层温度为104。取地层绝对年龄为25百万年,按上述判别函数计算,得:,其中F3(X)=514582.5最大,因此判珠江口盆地第三系生油岩处在热演化高成熟阶段,与实际情况相符。,44,东濮凹陷西部沙三段有三角洲、浊流和风暴流三种沉积相。在上述三种沉积相中取了45块岩样,镜下统计其成份成熟度指标x1(石英/(长石+岩屑)、杂基含量x2和胶结物含量x3三项参数。建立判定三角洲、浊流和风暴流沉积相的判别函数为:,例2 识别沉积相

19、 把某沉积环境下形成的岩石看成总体,对不同的总体取样,可建立判别岩样沉积相的判别函数,用以识别碎屑岩的沉积相。,45,应用实例: 资料:某地区有30余口井,仅有1口井完整的岩心,其余各井均有测井资料。 利用上述已知井的资料建立了岩性识别函数,反演了30余口无岩心井的岩性剖面。 具体做法如下:,例3 识别岩性 基本思想:视不同岩性的岩石为不同的总体,对总体取样,以不同岩性的岩石所对应的测井参数为判别变量,建立岩性识别判别函数,用于识别无岩心井的岩性剖面。,46,(1)观察描述现有岩心,结果有砾岩、砂岩和泥岩,即有3个岩性总体。,(2)在测井图上按不同岩性对应的深度读取测井参数值,获得建立判别函数

20、的原始数据。,图5-6 某井实际岩性剖面,47,(3)建立岩性识别的判别函数,x1-微电极2; x2-2.5m梯度; x3- 4m梯度; x4- 感应电导; x5-声波; x6- 浅测向; x7- 补偿中子; x8-井径; x9-微电极差。,在判别函数中没有引入x2 和x5。,48,(4) 判别结果,图5-7 岩性剖面及部分电测曲线示意图,49,例4 气、水层判别,大庆长垣南部黑帝庙油气层分为气层、气水层、含气水层、差气层和水层5类,作为建立判别函数时的5个总体。 选取常规测井的7个参数作为判别指标,分别是:深测向x1 、浅测向x2 、声波时差x3 、微电极x4 、微电位x5 、2.5m电阻率

21、x6、自然电位x7 。,选取该地区气藏典型井的气层、气水层、含气水层、差气层和水层样品分别为46、83、14、20、33个,总共196个已知样品。在此基础上,应用逐步判别分析建立了该区的气、水层判别函数:,50,气层F1(x)=332.509x1149.538x2+85.343x3+223.248x4+121.791x6+78.242x7 51.838 气水同层F2(x) =266.472x178.156x2+84.501x3+210.524x4 1.879x6+34.774x7 27.497 含气水层F3(x) =317.019x1101.174x2+65.514x3+91.535x4+ 2

22、5.578x6+83.621x7 39.848 差气层F4(x) =321.165x1109.990 x2+72.239x3+152.130 x42.474x6+85.940 x7 43.447 水层F5(x) =228.842x195.139x2+91.373x3+276.140 x4+ 6.387x6+80.724x7 49.940,其中微电位x5判别效果不显著,未引入判别函数。,51,所建立的判别模型对气层、含气层、气水层、干层和水层的判别效果相当显著, 除气层外所有层的正判率均达到90%以上,气层也达到89%。总的正判率达92.86%,说明该判别模型可用。 利用所建判别模型对该地区其它井进行气、水层判别,优选出2口试气井,结果均获得工业产能,表明了判别模型的可用性。,52,例5 预报油气勘探成功率,四川盆地侏罗系自流井群大安寨组评价区划分为675个单元。有钻探资料的单元有139个,其中57个单元获得了工业油气井,把这些单元记为A组,其勘探成功率为1。未获得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论