第7章_判别分析ppt课件_第1页
第7章_判别分析ppt课件_第2页
第7章_判别分析ppt课件_第3页
第7章_判别分析ppt课件_第4页
第7章_判别分析ppt课件_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 a. 掌握地球科学中大量地质对象识别与掌握地球科学中大量地质对象识别与 归类的思想;归类的思想; b. 学会构造学会构造Fisher线性判别函数的根本方线性判别函数的根本方法与步骤;法与步骤;c. 了解逐渐判别的思绪和根本步骤;了解逐渐判别的思绪和根本步骤; 重点重点 不同判别分析技术的正确选取和判不同判别分析技术的正确选取和判别函数的求法别函数的求法难点难点 根据实践观测数据构建判别函数和根据实践观测数据构建判别函数和详细实现;详细实现; 课时安排课时安排 6 6学时,课外完成习题学时,课外完成习题 学习方法学习方法 讲授与课堂讨论讲授与课堂讨论 背景知识背景知识 相关的专业知识相关的专业

2、知识 概概率论与数理统计率论与数理统计 知某地质对象的分类,今有不知详细知某地质对象的分类,今有不知详细来源的对象需求根据其目的特征进展归类,来源的对象需求根据其目的特征进展归类,即判别它属于哪一类型?以便进一步对其即判别它属于哪一类型?以便进一步对其进展相应的预测和控制分析。进展相应的预测和控制分析。 第一节第一节 判别分析的思想判别分析的思想 判别分析的主要思想就是用统计方法将待判的未判别分析的主要思想就是用统计方法将待判的未知样品与知类型样品进展类比,以确定待判样品应归属于知样品与知类型样品进展类比,以确定待判样品应归属于哪一类。哪一类。 矿产预测、地球化学分析、石油及天然气地矿产预测、

3、地球化学分析、石油及天然气地质中都有大量的判别类型的问题,如判别岩质中都有大量的判别类型的问题,如判别岩石类型、地层时代、古生物种属、判别钻井石类型、地层时代、古生物种属、判别钻井穿过的层位的含油性、判别堆积相、判别地穿过的层位的含油性、判别堆积相、判别地层的生油条件等层的生油条件等直线直线L L上的计量上的计量y y是是x1x1与与x2x2两个变量的一个线两个变量的一个线性组合性组合: y: yc1x1+c2x2c1x1+c2x21. 线性判别函数线性判别函数双变量:双变量: yc1x1+c2x2多变量:多变量:R=c1x1+c2x2+ckxk2. 非线性判别函数非线性判别函数双变量:双变量

4、: yc1x1+c2x22 或或 yc1x12+c2x2多变量:多变量:R=c1x1i+c2x2i+ckxki i=1,为线性判别函数为线性判别函数 i=2,为非线性函数为非线性函数对于有对于有k k个要素线判别函数个要素线判别函数 R=c1x1+c2x2+ckxk R=c1x1+c2x2+ckxk它必需满足以下条件:它必需满足以下条件: 1 1样品的目的服从多元正态分布;样品的目的服从多元正态分布; 2 2多元正态分布的协方差矩阵相等;多元正态分布的协方差矩阵相等; 3 3两类错误的概率相等两类错误的概率相等=。判别方法:判别方法:1.1.根据根据FisherFisher准那么得出的准那么得

5、出的FisherFisher判别;判别;2.2.根据根据BayesBayes准那么得出的准那么得出的BayesBayes判别判别. .第二节第二节 二级判别分析二级判别分析Fisher准那么准那么一、线性判别函数确实定原那么判别模型一、线性判别函数确实定原那么判别模型 设有设有A A、B B两类总体,两类总体,A A类总体有类总体有n1n1个样品,个样品,B B类总体有类总体有n2n2个样品。每个样品都测定了个样品。每个样品都测定了k k个个指指标,分别记为标,分别记为 x1t(A),x2t(A), ,xkt(A) x1t(A),x2t(A), ,xkt(A) (t=1,2, ,n1)(t=1

6、,2, ,n1) x1t(B),x2t(B), ,xkt(B) x1t(B),x2t(B), ,xkt(B) (t=1,2, ,n2)(t=1,2, ,n2)引入要素引入要素x1,x2, ,xkx1,x2, ,xk的线性函数的线性函数: : R=c1x1+c2x2+ckxk R=c1x1+c2x2+ckxk 将它作为综合目的,使得将它作为综合目的,使得R能将能将A、B有效地有效地分开,其中分开,其中ci(i=1,2, ,k)待定。待定。1122211 ( )( ) ( )( ) ( )( )/(1,2,., )nniiiiiQR AR BFR AR AR BR BIQ Fc ik及使得达到极大

7、,由此来确定判别系数。式中式中A A类判别函数的均值为类判别函数的均值为B B类判别函数的均值为类判别函数的均值为A A类的离散程度表示为:类的离散程度表示为:B B类的离散程度表示为:类的离散程度表示为:1( )( )kjjjR Ac xA1( )( )kjjjR Bc xB121()()niiRAR A121( )( )niiR BR B二、二、 线性判别函数的求法线性判别函数的求法21,2,., )0(1,2,., )iiiiiikQFFQccIikcFQFFQcc(于是有1221221111( )( )(1,2,., )( )( )( )( )则则 jjjkiiinnkkiiiitii

8、ttitidx Ax BjkQcdFc x Ax Ac x Bx B 由于由于121111112(1,2,., )(74)2( )( )( )( )2( )( )( )( )2(1,2,., )(75)kiijiinkijiitjttijnkijiitjttikijiiQc d djkcFc xAx AxAxAcc xBx BxBxBc sjk Q,FQ,F分别对分别对cici的微商为的微商为: :将将7-47-4式及式及7-57-5式代入式代入7-37-3式得式得1111112 2(1,2,., )1(1,2,.,1(1,2,., )(76)kkiijijiiikkijiiijiikiiik

9、ijijiFc d dQc sjkc sc d djkIc dIc sdjk即令则有 7-6式是式是k元一次线性方程组,元一次线性方程组,是是常数因子,对方程的解只起到扩展共同常数因子,对方程的解只起到扩展共同倍数作用,不影响倍数作用,不影响ci之间的比例关系,之间的比例关系,因此线性判别函数因此线性判别函数7-1也扩展一个倍也扩展一个倍数,这对判别分析来说有什么影响,故数,这对判别分析来说有什么影响,故无妨可以取无妨可以取=1.11 11221121 1222221 122.(77).kkkkkkkkkks cs cs cds cs cs cds cs cs cd 于是得到下面的线性方程组:

10、于是得到下面的线性方程组:解出解出c1,c2,ck,即得出线性判别,即得出线性判别函数函数7-1由线性判别函数算出:由线性判别函数算出:A类样品的综合目的的平均值类样品的综合目的的平均值1( )( )kiiiR Ac x A B类样品的综合目的的平均值类样品的综合目的的平均值1( )( )kiiiR Bc x B 取取R RA A与与R RB B的加权平均值的加权平均值: :12012( )( )(78)n R An R BRnn 作为判别目的作为判别目的R0R0。然后对未知类别的样品,算出综合目的然后对未知类别的样品,算出综合目的值值R R,最后作出判别。,最后作出判别。1在在R(A)R0情

11、况下,假设情况下,假设RR0,那么判别,那么判别该样品属于该样品属于A类,假设类,假设RR0,那么该样品属于,那么该样品属于B类;类; 2在在RAR0情况下,假设情况下,假设RR0,那么,那么未知样品属于未知样品属于B类,假设类,假设RR0,那么未知样品,那么未知样品属于属于A类。类。判别过程三、三、 显著性检验、误判率及要素挑选显著性检验、误判率及要素挑选 1 1、显著性检验及判别过程、显著性检验及判别过程先算出每组综合目的的平均值先算出每组综合目的的平均值R RA A和和R(BR(B及总平均值:及总平均值:12120( )( )/()Rn R An R BnnR作出组内平方和作出组内平方和

12、Se及组间平方和及组间平方和Sr,并留意并留意到自在度到自在度fe和和fr,最后算出统计量。,最后算出统计量。1222121222112( ( )( ( ) ( )( )( )( )nnttttnnn R ARn R BRFR AR AR BR B 查查F F分布表求得临界值分布表求得临界值FF1 1,n1+n2-2n1+n2-2,假设假设 F FFF1 1,n1+n2-2n1+n2-2那么两组样品的综合目的差别显著,此时判那么两组样品的综合目的差别显著,此时判别结果有效。假设别结果有效。假设 F F F F1 1,n1+n2-2n1+n2-2那么两组样品的综合目的无显著差别,此时那么两组样品

13、的综合目的无显著差别,此时判别结果无意义。判别结果无意义。 2、误判率 将原样本代入判别函数进展判别后,用错判的样品数比上全体样品数作为误判率的估计,假设误判率低那么阐明判别效果好,反之那么效果不好。 一种改良的求法是将n1n2=n个样品中,依次去掉一个样品,用其他的n-1个样品建立判别函数,对去掉的样品进展判别,如此进展n次,用误判样品的比例作为误判率的估计,效果极佳。2) 2) 另一种方法,选取使另一种方法,选取使1222211( )( )( )( )( )( )1,2,.,iiinnitiitittx Ax BVxAx AxBx Bim 中最大的一个要素作为第一个要素。中最大的一个要素作

14、为第一个要素。第三节第三节 贝叶斯准那么下的多组贝叶斯准那么下的多组 线性判别线性判别 在多个两个以上类别中决议某个样在多个两个以上类别中决议某个样品的归属问题,相应的数学方法称为多组品的归属问题,相应的数学方法称为多组判别或多级分辨,多组判别可按费歇判别或多级分辨,多组判别可按费歇准那么进展,亦可用贝叶斯准那么,有线性和准那么进展,亦可用贝叶斯准那么,有线性和非线性之分,如二次型就是最简单的非线非线性之分,如二次型就是最简单的非线性判别。性判别。一一 判别模型判别模型 11111111211121122121112111112121222.?第第一一组组第第一一个个样样品品数数据据第第二二个

15、个样样品品数数据据第第个个样样品品数数据据组组第第一一个个样样品品数数据据第第二二个个样样品品数数据据ppnnn pmmmpmmmpxxxxxxxxxnmxxxxxx12.第第个个样样品品数数据据mmmmnmnmnpmxxxn问题:问题: 现有一新样品现有一新样品Y来自上述多来自上述多个总体中的个总体中的某一个,用某一个,用Y=(y1,y2,,yp)表示,要解表示,要解决的问题是将决的问题是将Y归于何组?归于何组? 用什么方法来判别?显然,用什么方法来判别?显然,由贝叶斯条件概率公式,可以由贝叶斯条件概率公式,可以分别算出待判样品分属分别算出待判样品分属m组的组的条件概率,然后将其归于概率条件

16、概率,然后将其归于概率最大的那一组。最大的那一组。样品样品Y Y归于第归于第g g组的条件概率组的条件概率pg/Ypg/Y为为: :12121(,.,)/(,.,)ggpmjjpjq fy yyp g Yq fy yy其中,其中,qgqg为第为第g g组的先验概率,实践运用时组的先验概率,实践运用时常用样本频率作为它的估计值,即常用样本频率作为它的估计值,即 qg=ng/N (N qg=ng/N (N是全部样品总数是全部样品总数) )fg(y1,y2,yp)fg(y1,y2,yp)是样品是样品Y Y在第在第g g组的概率密度。组的概率密度。二、总体为正态分布时的判别二、总体为正态分布时的判别

17、设设m m个个 总体均服从正态分布,第总体均服从正态分布,第g g个总个总体的均值为体的均值为g(g(向量向量) ),协方差矩阵为,协方差矩阵为Vg,Vg,于是可得概率密度为于是可得概率密度为1211221212( )( )( )11121( )( )( )21222( )( )( )121( , ,)exp()()(2 )2( ,.,)(,.,).ggpgggppggggpgggpgggpggggppppVfx xxXVXXx xxpVV?其中,是 维向量是均值向量是协方差阵1ggV是是协方差阵的逆矩阵假设各协方差阵一样,即假设各协方差阵一样,即V1= V2=Vm=V,V1= V2=Vm=V

18、,此时此时(7-8)(7-8)式变为式变为1211221( ,.,)exp()()(2 )2(1,2,., )ggpggpVf x xxXVXgm 实践任务中用样本均值xg来估计g,用样本协方差阵S来估计V。1211221( , ,.,)exp()()(2 )2gpggpSf x xxX XSX X于是于是 1212111exp()()(2 )2/1exp()()2gggpmjjjjSqYXSYXp g YqYXSYX 贝叶斯条件概率公式变为:贝叶斯条件概率公式变为: 我们关怀的是其中概率最大者我们关怀的是其中概率最大者,由上式可由上式可知知,要使要使pg/Y达最大达最大,只需分子最大即可。于

19、只需分子最大即可。于是,我们对上式分子取自然对数:是,我们对上式分子取自然对数:1212121212111121211121lnexp()()(2)21lnln()()(2)21lnln(2)211lnln(2)22gggpgggpgggggpggggpSqYXSYXSqYXSYXSqY SYY SXX SYX SXSqY SYY SXX SX 将上式与将上式与g g有关的项记为有关的项记为Fg(Y),Fg(Y),即即11( )ln1(1,2,.,)2gggggF YqY SXX SXgm 显然,显然,Fg(Y)是是y1,y2,,yp的的m个线性函个线性函数,当数,当Fg(Y)在某组获得最大值

20、时,在某组获得最大值时,Pg/Y在该组亦到达最大,样品有在该组亦到达最大,样品有Y就归于获得最就归于获得最大值的一组。因此,称大值的一组。因此,称Fg(Y)为判别函数。为判别函数。利用矩阵的计算方式,将上式写为利用矩阵的计算方式,将上式写为01()ln(1,2,)pggkgkgkFYqcycgm 1.10.111/12ggpkgktg ttpgkgg kkktqnNcSxccxSSSkt 是是的的 逆逆 阵阵中中 的的第第行行 第第 列列 元元 素素 。其中其中 贝叶斯多组判别的计算步骤如下:1.计算每组各个变量的平均值.11(1,2,.,;1,2,.,)gng kgjkjgxxgm kpn2

21、.2.计算各组的离差阵计算各组的离差阵( )( ).1(1,2,.,)()()gggktp pngktgjkg kgjtg tjSSgmSxxxx其中3.3.计算综合协方差矩阵计算综合协方差矩阵1/()mggSSNmN 为为 全全 部部 样样 品品 数数4.4.求求S S的逆阵的逆阵S-1=S-1ktpS-1=S-1ktpp p5.5.计算判别函数并对样品计算判别函数并对样品Y=(y1,y2,yp)Y=(y1,y2,yp)作判别归类作判别归类, ,计算出各判别函数计算出各判别函数Fg(Y)Fg(Y)(g=1,2,m)(g=1,2,m)的值,找出其中最大者的值,找出其中最大者: :1()m ax

22、()gggmFYFY 将样品将样品Y归于第归于第g组。组。6.6.计算样品计算样品Y Y属于属于g g组组g=1,2,m)g=1,2,m)的后验的后验概率概率1111exp( ) max( )exp( )( / )exp( )exp( ) max( )gggk mmmgjkk mjjF YF YF Yp g YF YF YF Y 7.将原有的分组样品代入判别函数进展回判,将原有的分组样品代入判别函数进展回判,算出判对率,以检验判别的有效性。算出判对率,以检验判别的有效性。例:江汉油田例:江汉油田13个油层、个油层、11 个水层、个水层、7个油个油水层的测井资料得到岩性系数水层的测井资料得到岩性

23、系数x1,孔隙度,孔隙度x2,浸入系数浸入系数x3,含油饱和度含油饱和度x4统计如下表:统计如下表:油层x1X2X3X410.2760.180.4460.68320.3780.20.7460.67330.3250.20.80.63340.1380.210.750.72850.290.2410.870.64960.270.191.730.61370.450.232.660.54480.3020.231.780.5990.3440.243.40.618100.3580.211.370.619110.0760.260.850.733120.3460.271.320.621130.1860.30.56

24、0.796水层x1X2X3X410.620.246.220.54420.610.251.420.49430.620.271.460.5140.560.131.30.37250.4320.2150.90.21460.470.22.90.2270.560.23.00.22180.290.254.660.39590.3020.223.180.25100.3470.1917.90.23110.2690.258.70.145油水层x1X2X3X410.360.193.80.5620.420.140.840.5430.3570.294.20.540.350.173.180.6150.3240.35.20.

25、61560.520.273.00.5870.6080.181.20.591 1计算每组各变量的均值计算每组各变量的均值 x11=0.2876 x12=0.2278 x13=1.3294 x14=0.6538x11=0.2876 x12=0.2278 x13=1.3294 x14=0.6538 x21=0.4618 x22=0.2195 x23=4.6954 x24=0.3268 x21=0.4618 x22=0.2195 x23=4.6954 x24=0.3268 x31=0.4199 x32=0.2200 x33=3.0600 x34=0.5757 x31=0.4199 x32=0.2200

26、 x33=3.0600 x34=0.5757(2)(2)计算协方差矩阵计算协方差矩阵S S并求出其逆矩阵并求出其逆矩阵S-1,S-1,结结果为果为10.013940.00084290.119480.0024250.00084290.0019600.013530.00099660.119480.013539.72410.089060.0024250.00099660.089060.00943284.28839.8900.813418.21039.890575.8551.053681.053SS 0.81341.05360.12411.074318.21081.0531.0743129.416 3

27、计算各组判别函数。以计算第一组判别计算各组判别函数。以计算第一组判别函数为例,计算过程用矩阵方式给出函数为例,计算过程用矩阵方式给出:111112341234lnln(13 / 31)0.86900.28760.2278(,)1.32940.653822.588.240.861462.35qY SXyyyySyyyy 11110.28760.2278110.2876 0.2278 1.3294 0.6538221.32940.653833.372X SXS 于是得第一组的判别函数为于是得第一组的判别函数为F1(Y)=-0.8690+22.5y1+88.24y2+0.8614y3+F1(Y)=-

28、0.8690+22.5y1+88.24y2+0.8614y3+ 62.35y4-33.372 62.35y4-33.372 =22.5y1+88.24y2+0.8614y3+62.35y4-34.241 =22.5y1+88.24y2+0.8614y3+62.35y4-34.241仿此可求出第二组与第三组的判别函数仿此可求出第二组与第三组的判别函数F2(Y)=45.55y1+113.41y2+1.078y3+21.13y4-F2(Y)=45.55y1+113.41y2+1.078y3+21.13y4-28.95228.952F3(Y)=36.261y1+93.954y2+1.103y3+51.

29、67y4-F3(Y)=36.261y1+93.954y2+1.103y3+51.67y4-34.37934.379(4)(4)将将3131个原样品目的代入各判别函数,把每个样品个原样品目的代入各判别函数,把每个样品归于判别函数最大的那一组,计算判对率有多大。以归于判别函数最大的那一组,计算判对率有多大。以第一组为例:第一组为例:F1(Y)=22.5F1(Y)=22.50.276+88.240.276+88.240.18+0.86140.18+0.86140.4460.446 +62.35 +62.350.683-34.2410.683-34.241 =29.95 =29.95同样可得同样可得F

30、2(Y)=17.92 F3(Y)=26.83F2(Y)=17.92 F3(Y)=26.83显然该样品归于第一组油层。显然该样品归于第一组油层。计算判对率计算判对率还可进一步算出样品还可进一步算出样品1归于各组的后验概率归于各组的后验概率pg/Y(g=1,2,3) exp29.95 29.951exp29.95 29.95 exp(17.91 29.9510.96exp26.83 29.952030.04pYpYpY 由此可见,归于第一组的概率最大,为由此可见,归于第一组的概率最大,为0.96。判别结果:判别结果: 将将31个样品按上述做法进展回判归类,其个样品按上述做法进展回判归类,其结果是油

31、层中有一层第七层判为油水层,结果是油层中有一层第七层判为油水层,其他其他12层均判为油层。水层中有层均判为油层。水层中有 10层判对,层判对,有一层第一层判为油水层。油水层中判有一层第一层判为油水层。油水层中判对对6层,有一层第四层错判为油层。总层,有一层第四层错判为油层。总体上体上31层判对层判对28层,判对率为层,判对率为90%,判别效,判别效果良好。果良好。第四节第四节 二维空间自相关判别分析二维空间自相关判别分析 自相关判别分析模型是在二维空间序列待定线性组合自回归过程建模的根底上,将具有最强自相关方向的线性组合的空间自相关信息引入判别分析的判别准那么中,建立新的判别准那么,导出一种新

32、的判别分析数学模型。 空间四个方向EW、NE-SW、SN、NW-SE的演化趋势因子图某盆地铁矿化有利要素沿北东南西向空间某盆地铁矿化有利要素沿北东南西向空间相关因子量等值线图相关因子量等值线图费歇判别分析与自相关判别分析结果比较费歇判别分析与自相关判别分析结果比较 上表结果阐明,费歇判别分析误判率大上表结果阐明,费歇判别分析误判率大于自相关判别分析。于自相关判别分析。第五节第五节 聚类分析与判别分析的异同比较聚类分析与判别分析的异同比较 及本卷须知及本卷须知1 1、聚类分析、聚类分析1 1聚类分析的目的是对给定的样品聚类分析的目的是对给定的样品或变量找出一个合理的分类体系,并不或变量找出一个合

33、理的分类体系,并不要求它同样适用于原始样本以外的样品。要求它同样适用于原始样本以外的样品。2 2聚类分析得出的谱系图,反映的是样聚类分析得出的谱系图,反映的是样品或变量间的亲疏关系,并未明确指品或变量间的亲疏关系,并未明确指明应分成多少类,还应根据专业知识来确明应分成多少类,还应根据专业知识来确定分类的个数和分类界限。定分类的个数和分类界限。(3)(3)许多实践问题阐明,数据变换对聚类结果许多实践问题阐明,数据变换对聚类结果有重要影响。普通地,假设各变量的数量级有重要影响。普通地,假设各变量的数量级相近,那么可以不做变换。假设各变量的数相近,那么可以不做变换。假设各变量的数量级相差太大,那么可先进展对数变换。量级相差太大,那么可先进展对数变换。(4) (4) 类似性统计量的选择,普

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论