第11讲判别分析法预测v_第1页
第11讲判别分析法预测v_第2页
第11讲判别分析法预测v_第3页
第11讲判别分析法预测v_第4页
第11讲判别分析法预测v_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、11 判别分析法(Discriminant Analysis)陈 志 军中国地质大学()学院1 引言2 费歇两组判别3 贝叶斯多组判别和逐步判别的基本概念本章内容 1 引言这是一个学习和的过程。橙子桔子训练(学习)特征提取预处理回归分析定量预报判别分析定性预报模式识别在许多自然科学和科学问题的研究中,我们所关心的不是样品的某一指标数值的多少,而是其类别、归属。生物学:各类性状物种类别医学:各类症状SAS、猪流感地质学:岩石分类、地层、断层性质、有矿无矿气象学:天气预报是晴、阴、雨?在地学领域中,经常着大量的分类问题,即对一定量的事物(如地、样品或变量)按其属性进行归类。由于地质对象的复杂性,单

2、靠定性标志或少数定量标志进行分类,常常不能揭示客观事物内在本质的差别和,难以确定地本质属性的归属。同时也造成很多分类计算具有很大的性和任意性,而且所得的结果因人而异,常不能反映客观实际情况。在对地质对象的类型研究中,有两大类方法。一类是聚类分析(或称点群分析,群分析)另一类就是判别分析。判别分析的主要思想是用统计方法将待判的未知样品与已知类型的样品进行(定量)类比,以确定待判样品应归属于其中哪一类。全碱硅图解(TAS)最简单的情形下,单就一个变量的值就可区分不同的类别。但是,通常情况下,一个变 量往往难于区分不同的分类, 只有利用多个变量,才能比 较全面从各个不同的角度刻 画个母体间的差异。在

3、传统的地质学研究中,四元以上的系统用几何图形表示变得十分 。用适当的数学方法从多个变量中提出有关判别分类的有效信息,综 一个像单变量那样好用的判别标准。判别分析法所要解决的问题是对样品的分类,其特点为:在已知研究对象的条件下,确定未知对象属于已知分类中的哪一类。在包括矿床在内的各类地质研究中,经常遇到这类问题。判别分析中的“类比法”思想与传统地质学中所用类别法的不同:定量;综合考虑多种因素或标志;以某种最优化准则作分类基础-4-3-2-10123-4-20246x2闪长玢岩出露面积比训练样本有矿否?A总体,有矿B总体,无矿x1磁异常指数对数值闪长玢岩出露面积比x2磁异常指数对数值x1判别分析特

4、点:定量类比、定性预报判别分析也是一种类比法,它是从定量角度,综合考虑多种地质变量或标志,按照某种最优化判别准则作为分类基础, 来进行分析的。其判别准则分为两类:费歇准则(R.A.Fish,1936)和贝叶斯准则。 2 费歇两组判别费歇判别的基本思想费歇判别思想是投影,使理。问题简化为一维问题来处选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。R = c1x1 + c2x2R0所谓Fisher判别法, 是一种先投影,后用距离判别的方法。寻找一个方向,也就是图上

5、的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果好。比这个一、费歇准则准则与准则下的两类判别线性模型考虑指标与p个自变量有关的两类判别:设指标y按其取值范围只分为A、B两类,对A、B两类分别有nA,nB个样品数据。Fisher提出,建立p个因子的一个线性判别函数p= åcj x jy = c1x1 + c2 x2 +L+ cp xpj =1其中判别系数cj( j=1,2,.,p)的选择应使得y值满足:(1) A类与B类这两类点群尽可能地远离, 即两类点群重心间距离尽可能达到最大;(2) 同一类的样品点尽可能集中。

6、(1)(2)两点统称为Fisher准则组间离差平方和(已解释离差平方和,尽可能大)G = y( A) - y(B)2组内离差平方和(未解释离差平方和,尽可能小)nAnBH = å y( A) - y( A)2 + å y(B) - y(B)2kkk =1k =1nA1nB1x j ( A) = n å xkj ( A)x j (B) = n å xkj (B)其中k =1k =121ppyk (B) = åcj xkj (B)j =1y(B) = åc j x j (B)j =1yk ( A) = åcj xkj ( A)j

7、 =1y( A) = åc j x j ( A)j =1ppSSW: Sum of Squares WithinSSB: Sum of Squares Between要同时满足费歇判别准则的两个条件,要求 SSB/SSW y ( A) - y (B)2GI =H=nAnBå yk =1( A) - y ( A)2 + å yk =1(B) - y (B)2kk达到最大。二、两类判别函数的参数估计I 是y的函数,也是cj 的函数。根据极值原理,I 取极大值的条件是I 对系数cj 的偏导数为0,即: ¶I¶c j= 0(j=1,2,3,p)等价于:

8、¶H¶cj= 1 ¶G(因为 lnI= lnG lnH)I ¶cj其中,é d1 ùé Lùé cùL.L1ú11121pêúêêúD = êd 2 úC = êc2 úL = ê l21L22.L2 p ú. ú=L-1Dê M úê M úê .êc úêdúêL&

9、#250;LLêëpp úûëp ûëp ûp1p 2nAnB= åxki ( A) - xi ( A)xkj ( A) - x j ( A) + åxki (B) - xi (B)xkj (B) - x j (B)Lijk =1k =1(i,j=1,2,p)d j= x j ( A) - x j (B)( j=1,2,3,p)于是,可得线性判别函数为:y = c1 x1 + c2 x2p= åcj x j j =1+L+c p xp三、确定临界值及对新样品作出判别当判别函数求出后,可

10、进一步求得:类平均值ppy( A) = åc j x j ( A)j =1于是,判别临界值y(B) = åc j x j (B)j =1= nA y ( A) + nB y (B) =nAn+ nnBn+ ny ( A) +yy (B)0n+ nA可进一步可导出BABABpy0 = å c j x jj =1将新样品的各变量观测值代入判别函数,求得相应的函数值y(判别得分)四、判别效果的分析和检验所建立的判别函数是否有实际意义,判别效果有无实用价值,准确度如何,同样需用作检验分析。(1)总体差异的显著性检验判别分析中,首先要求假定两类样品来自有显著差异、 可区别的

11、总体,两总体的均值应有显著差异。(2)各因子(判别变量)的重要性检验可以通过其两类样本均值之差来衡量d j= x j ( A) - x j (B)为消除因子量纲的影响,通常在求得判别系数后,可将其标准 化后再检验cj*= cj/sj马氏距离(Mahalanobis马哈拉诺比斯距离)设xi,xj是服从均值为,协方差为 > 0的总体Xpx1抽取的样品,则称1/ 2)ù-MD(ûij为p马氏距离上点xi,xj之间的广义(统计)距离,亦称å = diag(s2 ,s2 ,.,s2 )特别地,当12pù1/ 2ép- x)2 úMD(方差

12、)ijë k =1ûk当=Ip,有ù1/ 2ép- x )2MD(ú(欧式距离)ijë k =1û总体差异的显著性检验实际中常用回判法来评价判别函数的有效性。用所建立的差别函数对两总体的已知样本进行回判,并将判别结果,与已知结果对比,计算判错率,当判错率<20%,认为判别函数有效。nerr ( A) ´100%误判率(A) =nAnerr (B) ´100%误判率(B) =nB实例应用实例研究区:宁芜盆地北段对象:玢岩型铁矿。比例尺:1:50,000单元划分:全区划分为3×Km2单元100

13、个。(1)根据研究区的地质勘探情况,该区有8个单元为已知有矿单元,14个单元为已知无矿单元,另外78个单元为未知待判单元。因此,令已知有矿单元为A总体,NA=8令已知无矿单元为B总体,NB=8,剩余6个作为回判检验.(2)建立数学模型,即判别分析函数。经过控矿地质因素分析,选出p=7个与成矿关系密切的变量参加建模,x1接触带长度,x2单元中心与断裂喷发带的距离。x4闪长玢岩出露面积,x5围岩蚀变组合的相对熵值,x9磁异常特征值,x10重力异常特征值,x12岩层组合的相对熵。最终建立判别函数:R=0.0247X1-1.2246X2-0.036X4+0.041X5+0.1540X9- 0.008X

14、10-0.0267X12(3) 确定判别临界值。= -1.0622= -2.0489A总体的判别得分RA B总体的判别得分RBR0=-1.5885(4) 显著性检验。i) 对已知单元进行回判,判对率93.3%,说明R0是显著的, 所建立的判别函数有效。ii)马氏检验。= RA - RB= 0.9867D2F=2.833,而Fa= F 0.05= 3.29= 2.62F 0.1v1,v 27,87,8F 0.1 < F < F 0.057,87,8判别函数在=0.1的显著性水平上有效。(5)对未知单元进行判别,。结果,有22个单元的R>R0,判为A类,为有矿远景单元。(6)对2

15、2个有利远景单元的控矿条件和找矿潜力进行评价, 分析。通过分析发现,这些单元多数位于NE向断裂和NW向断裂火山喷发带内。而这两个带已被证明是本区重要的成矿条件, 另外,这22个单元之中,有的已经发现了矿点,有些在空间上与已知矿床相邻,因而,认为这些单元具有良好的成矿条件和较大的成矿潜力。 3 贝叶斯多组判别和逐步判别的基本概念贝叶斯统计的基本思想假定为所研究的对象(总体)在抽样前已有一定的认识,常用先验概率分布来描述这种认识,然后基于抽取的样本再对先验认识作修正,得到后验概率分布,再基于后验概率分布作各种统计推断。将贝叶斯统计的思想应用于判别分析,就得到贝 叶斯判别方法。费歇准则是对p维空间两

16、点群寻找最优分割面(选择一个适当的投影轴 ,使问Pattern Classification题简化为一维问题来By R. O. Duda,.处理 );而贝叶斯准则是为p两(多个)点群寻找最优的空间划分方法。寻找最优的空间划分方法,实际上也是要建立一个判别函数, 但这函数应能满足误判平均损失最小的原则。YOUR SITE HEREk个p维总体:G1,G2,Gk分别具有不同的p维概率密度函数:f1(x),f2(x),.,fk(x)。在进行判别之前,确定一个合理的判别准则应该考虑到每个总体出现的可能性大小(即先验概率分布),还应考虑误判造成的损失问题。先验概率分布:q1,q2,qk, 有k= 0ii

17、=1误判损失:c(j|i)表示将实际属于Gi的样品判归为Gj所造成的损失度量。误判的损失通常在判别分析前就可以估计。一个判别准则(对Rp空间的一个划分):D=(D1,D2,Dk)。误判概率:P(j|i,D)表示在判别准则D下将事实来自Gi的样品误判为来自Gj的概率。由此误判而造成的损失为c(j|i) ( j=1,2,k, ji)(误判损失),因此,在一个给定的判别准则D之下,对Gi而言所造成的损失,应该误判为G1, ,Gi-1,Gi+1,.,Gk的所有损失。平均误判损失函数ECM(Expected Cost of Misclassification)按照各误判概率求和,即在此判别准则D下,将来

18、自Gi的样品错判为其他总体的期望损失为(注意c(i|i)=0)Li = å p( j | i, D) × c( j | i)j =1 j ¹i又由于各总体Gi出现的先验概率为qi(i=1,2,k),故在判别准则kD之下总的期望损失为kkkL = å qi Lii=1=åå qi × p( j | i, D) × c( j | i)i=1j =1 j ¹i平均误判损失函数L与判别准则D有关, 贝叶斯判别即选择D=(D1,D2,Dk),使L达到最小。将样品空间Rp划分为k个两两互斥的子空间,存在各种划分方法,

19、任何一种划分都可能存在着错分现象,错分就会造成损失。显然,人们希望在某种空间划分下,使总的错分损失最小。贝叶斯准则在给定母体先验概率时,划分空间使错分平均损失最小的原则。贝叶斯准则又称为以指定具有较高后验概率的母体作为判别X归属的准则。两种准则下的判别分析的选择贝叶斯准则费歇准则判别类型多用于多组判别多用于两组判别数学模型所要求条件较严格各组变量必须服从正态分布;各组方差协方差矩阵相等;各组变量的均值有显著的差异;较宽松对判别变量的分布类型并无特定要求,只要求各类总体的二阶矩存在,各组变量的均值有显著的差异逐步判别法(仅仅是在前面的方法中加入变量选择的功能) 有时,一些变量对于判别并没有什么作

20、用,为了得到对判别最合 适的变量,可以使用逐步判别。也就是,一边判别,一边引进判 别能力最强的变量。 这个过程可以有进有出。一个变量的判别能力的如:方法有很多种,主要利用各种检验,例Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等检验。 这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。一些有关问题(1)建立判别函数时应有足够多的已知样品,有一定的代表性。其样品数越多代表性越强时,所得的判别函数也就越可靠。每组的样品数应大大多于变量数,最好是变量数的两倍以上。(2)选择变量时既要求变量自身能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论