数学地质第六章判别分析：线性-逐步

上传人：5*** IP属地：湖北上传时间：2021-08-20 格式：PPT 页数：105 大小：4.03MB 积分：30 举报 版权申诉

已阅读5页，还剩100页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第六章判别分析第六章判别分析杨永国中国矿业大学资源与地球科学学院内容提要第一节判别分析概述第二节费歇准则下的两类线性判别模型第四节逐步判别分析第五节判别分析在地质上的应用第一节判别分析概述主要内容：一、判别分析的概念二、判别函数三、判别分析的类型四、建立判别函数的准则一、判别分析的概念在自然界中，经常遇到对研究对象进行分类的问题。分类包括两个方面的内容：其一，是研究对象存在着几种类型，即能分为多少类；其二，在研究对象类型数目已知的情况下，某一研究个体应该属于哪一类。后者，属于判别分析研究的范畴。地质学中遇到的分类问题很多。例如，根据岩矿鉴

2、定，分辨某一砂岩属于海相砂岩或陆相砂岩；在油田开发中，根据钻井的点测或化验数据，判别是否遇到油层、水层或干层；在地球化学中，根据岩体的化验数据，分辨岩体是否是含矿岩体；在煤田勘探中，根据煤层煤质的数据，判别某一勘探区的某一煤层，属于相近勘探区同一煤系诸煤层的哪一层等。一、判别分析的概念判别分析主要解决两个问题： 1）根据什么指标来判别（分辨）已知的类型，即建立判别函数； 2）对于可能来自已知类型的某些未知样品，如何判定它们归属已知类型中的哪一类。判别分析就是借助于已知类型的若干变量，建立起一个或多个判别函数，从而决定未知对象归属问题的一种多元统计方法。二、判别函数若

3、有两类物体，在统计学上称为总体（或母体）。它们的分布状态均可以利用p个变量，在p维空间中用两个椭球状点集表示出来。设有A、B两个总体，从中抽取两组样品，每个样品有两个变量，现以变量为轴，将A、B两组样品在二维空间中表示出来（图6-1）。二、判别函数图6-1两个二元总体间的差别函数二、判别函数由图可以看出，两类总体以任何一个变量为基础都不能将其明显地区分开。两类同一变量之间，总有些重叠部分。如果能设法利用两个或多个变量的线性组合构成一个合适的综合判别指标，并使其能最大限度地缩小不易判别的重叠部分，从而提高正确判别的概率，则称变量的线性组合这个综合指标为判别函数（

4、图6-1中直线） p j jjpp xcxcxcxcy 1 2211 二、判别函数二维空间中，在两点集之间垂直于y轴且把两个点集分开的直线（图6-1中直线）称为判别直线。其直线方程为在多维情况下，判别直线将是一个平面（p=3）或（p- 1）维超平面（p3），其方程如下：由此看出，判别分析的特点是能够大大缩减向量的维数，而不致损失很多信息。 0 02211 yxcxc 0 02211 yxcxcxc pp 三、判别分析的类型 1）根据母体（总体）个数可分为两类（两组）判别分析和多类（多组）判别分析。 2）根据判别函数类型可分为线性判别和非线性判别分析。 3）按判别方法可分为

5、判别分析、逐步判别和序贯判别分析等四、建立判别函数的准则判别函数是在一定的规则下建立起来的。因此，判别函数的建立，就须依照一定的准则。最常用的有以下准则： 1）费歇准则（主要适用于二类判别）； 2）贝叶斯准则（适用于多类判别）； 3)最小二乘法准则； 4)库巴克准则； 5)不稳定性准则等。第二节费歇准则下的两类线性判别模型主要内容：一、费歇准则的基本含义二、两类线性判别函数的建立三、分界值计算和判别法则四判别函数的显著性检验及判别率五变量的选择六、两类判别应用举例与小结一、费歇准则的基本含义一、费歇准则的基本含义假定判别函数已经建立，显然每个样品的p个变量值代

6、入式（6-4）中就可求得一个y值，则此值称为样品的判别计量（或判别值）。 n个样品有n个判别值，记为 , 1 p j AijjAi xcy p j BijjBi xcy 1 一、费歇准则的基本含义每类样品判别值的平均值，称为类平均值，记为 p j Aj j n i p j Aijj A n i Ai A A xcxc n y n y AA 1111 11 BB n i p j Bj j p j Bijj B n i Bi B B xcxc n y n y 1111 11 一、费歇准则的基本含义如果A、B两母体客观上存在着差别，则它们的类平均值与也会有一定的差别。使两个母体分开的综

7、合指标值（y0），称为两母体的分界线，或称临界值（图6- 2）。图6-2判别计量分布图一、费歇准则的基本含义显然，判别分析要求找到的判别函数y=f（x1，x2， xp）使两类（组）间差别愈大愈好，即并使两类组内离差平方和（或组内变差）愈小愈好，即 max| 2 BA yyG min)()( 1 2 1 2 BA n i BBi n i AAi yyyyH 一、费歇准则的基本含义将上述两个条件结合起来，要求建立判别函数时，遵循使I值最大的原则是由费歇（1936）最早提出的，故称其为费歇准则。有时称费歇准则为“最大分离”准则。 max )()( )( 1 2 1 2 2 B

8、A n i BBi n i AAi BA yyyy yy H G I p j jjx cy 1 （6-10）二、两类线性判别函数的建立根据多元函数求极值的方法，诸应满足下列方程组 BA n i BBi n i AAi BA p yyyy yy H G cccI 1 2 1 2 2 21 )()( )( ),(， j c 0 1 c I 0 2 c I 0 3 c I - （6-11）二、两类线性判别函数的建立从式（6-11）中解出的数值，判别函数即建立。 p ccc，, 21 二、两类线性判别函数的建立二、两类线性判别函数的建立二、两类线性判别函数的建立 AB AB B A

9、bA n i n i BjBijBpBipAjAijApAipp n i n i BjBijBBiAjAijAAi n i BjBijBpBippBBiBBi n i AjAijApAippAAiAAi n i p j bjbijbjbijj n i p j AjAijAjAijj j xxxxxxxxc xxxxxxxxc xxxxcxxcxxc xxxxcxxcxxc xxxxcxxxxc c H 11 11 11111 1 222111 1 222111 11 2 11 2 )()(2 )()(2 )()()(2 )()()(2 )()( 2)()( 2 二、两类线性判别函数的建立令

10、为第j个变量的组内方差；令：为第j、k个变量的组内协方差（j，k=1，2，p），则 2 )()( 1 2 1 2 BA n i BjBij n i AjAij jj nn xxxx s BA 2 )()( 11 BA n i BkBikBjBij n i AkAikAjAij jk nn xxxxxxxx s BA )(2 2211jppjj j scscsc c H 二、两类线性判别函数的建立二、两类线性判别函数的建立以上是一个P阶线性方程组。式中，b为常数，它是不依赖于j而变化的因子，对线性方程组只起到共同扩大b 倍的作用，不影响方程组解的相对比例关系，因而对判别效果没有影响。

11、故可令b=1，于是得到为所求的线性方程组。解上式，可得到线性判别函数： pjdscscsc jjppjj , 2 , 1 2211 pp xcxcxcy 2211 三、分界值计算和判别法则当判别函数求出后，可进一步求得类平均值、和分界值式中，、分别为A类和B类中第j个变量的平均值（j=1，2，p）。分界值的求法可分以下几种情况： A y B y 0 y p j Ajj n i Ai A A xcy n y A 11 1 p j Bjj n i Bi B B xcy n y B 11 1 Aj x Bj x 0 y 三、分界值计算和判别法则 1）当母体为正态母体，且（标准

12、差）已知时，则（6-19） 2）当样品个数，且时，则（6-20） 3）当样品个数差别较大，且时，则（6-21）由式（6-21）进一步导出 BA 、 BA A ABA yyyy )( 0 BA nn BA )( 2 1 0BA yyy BA nn 与BA BA BBAA nn ynyn y 0 p j jj xcy 1 0 三、分界值计算和判别法则式中，为两个母体中第j个变量的总平均值。由式（6-19）、式（6-20）、式（6-21）等可以看出，当样本确定之后，y0为一固定值。因此，判别未知样品可按以下法则进行：若未知样品代入判别函数得判别值y，且，当 yy0时

13、，则该样品属于B类；当y=y0时，未知样品可任意归属A或B类。上述法则，可用样本空间的概念理解。 j x ),( 21p xxxX， A y B y 四判别函数的显著性检验及判别率根据p个变量所构成的判别函数，其判别是否有效？如果判别是有效的，其判别结果好坏程度如何？第一个问题是要解决判别函数对区分两个母体是否显著；第二个问题则是以正确判别率来衡量判别好坏的程度。四判别函数的显著性检验及判别率 1.判别函数的显著性检验判别函数的显著性检验，可采用F-检验法和马氏距离检验法（即马哈拉诺比斯距离检验法）。 1）F-检验判别分析的前提是假设两组样品取自不同的母体。两个母体差异

14、性是否显著，可从类平均值差异情况进行考查。在类平均值相等条件下，即检验假设成立时，统计量（6-26）服从F-分布。式中： BA yyH: 0 剩剩回回 fS fS F 四判别函数的显著性检验及判别率 22 1 2 1 2 )()()()(yynyynyyyyS BBAA n i B n i A BA 回 112 回 f BA n i BBi n i AAi yyyyS 1 2 1 2 )()( 剩 2 BA nnf剩四判别函数的显著性检验及判别率 2）马氏距离检验检验两个母体间差异性是否显著，还可通过检验母体中诸变量的类平均之差是否足够大，即两类多元平均值在统计上是否存在显

15、著差异。这种显著性检验，一般采用马氏距离（）为基础构成的统计量（6-27）来进行。式中，马氏距离为（6-28） ), 2 , 1(pjxxd BjAjj 2 D 2 )2)( )1( D pnnnn pnnnn F BABA BABA p j jjpp dcdcdcdcD 1 2211 2 四判别函数的显著性检验及判别率四判别函数的显著性检验及判别率正确判别率判别函数经过检验为有效之后，再用已知样品的变量数据代入判别函数，求出每个已知样品的判别值，重新判别它的归类。根据正确判别率（或错判率），来衡量判别效果的好坏程度。正确判别率是指属于A类的样品，根据判别值仍判别为

16、A类母体的样品所占的百分比。五变量的选择在判别分析中，如果选取变量太少，会由于信息量不足而导致判别效果较差；但选取变量太多，还会由于变量之间的相互干扰而降低判别效果。为了获得最佳判别函数，应设法在不影响判别效果前提下，挑选那些分辨母体能力较强的变量参加建立判别函数。五变量的选择五变量的选择五变量的选择应当指出，上述两种选择变量的方法，只考虑变量的独立影响。当变量不独立时，将用逐步判别分析方法来挑选变量。六、两类判别应用举例与小结福建省某煤田晚二叠世含煤建造一段和三段含可采煤层，为了进行煤层对比，选用两类判别模型进行判别分析（据张守业，1981）。现通过典型实例，

17、对两类判别分析工作方法与步骤小结如下： 1资料收集根据研究目的，把三段和一段中煤层作为已知类型，并从三段煤层（A类）中取了13个煤样；从一段煤层（B类）中取了16个煤样；每个煤样测定灰分及灰成分共9个指标（变量）。即nA=13，nB=16，p=9。每一个样本数据xAij和xBij见表6-1。六、两类判别应用举例与小结六、两类判别应用举例与小结 2挑选变量 1)计算各变量类内平均值和类内离差平方和由公式计算得表6-2结果。 A n i Aij A Aj n n x 1 1 B n i Bij B Bj n n x 1 1 ）， 9, 2 , 1(j ）， 9, 2 , 1()

18、()( 1 22 1 jxnxnw BA n i BjBij n i AjAijjj 六、两类判别应用举例与小结六、两类判别应用举例与小结 2）计算各变量的I值由公式计算，得 )9, 2 , 1( )()( )( 1 22 1 2 ，j xnxn xx I BA n i BjBij n i AjAij BjAj J 六、两类判别应用举例与小结 3）选取变量选取Ij=0.01的变量，即I1I5所代表的五个变量，参加建立判别函数，其余四个变量I值之和为 0.0068，仅占总I值的0.68%，故可忽略不记。以后按选出的五个变量建立判别函数。 3建立判别函数 1)计算选取的变量组内方差与协

19、方差由公式 )2( )()( 11 BA n i BkBikBjBijAkAik n i AjAijjk nnxxxxxxxxs BA ）， 5, 2 , 1,(kj 六、两类判别应用举例与小结计算得方差与协方差矩阵S，为六、两类判别应用举例与小结六、两类判别应用举例与小结 4. 判别函数显著性检验 1) 计算马氏距离由公式计算，得计算统计量将D2值代入下式求出F值。给定=0.05，查F-分布表得临界值F0.05（5，23） =2.64。由于 F=22.34892.64=F0.05（5，23）故认为判别函数用以分辨母体是显著的。 p j jjd CD 1 2 2893.18

20、7141. 05390. 16818. 15319. 0 2206. 08293. 52288. 04145. 41279.133986. 1 2 D 3489.22 )2)( )1( 2 D nnnn dpnnnn F BABA BABA 六、两类判别应用举例与小结 5判别归类 1）计算类平均值和分界值, 类平均值和分界值分别由下式计算，得由于 y0，故判别值yy0的样品应归于A类，即为第三个含煤段煤，否则，应为第一含煤段煤层。 p j Aj jA xcy 1 p j Bj jB xcy 1 BA BBAA nn ynyn y 0 3540.19,1554.11,4446.29 0

21、yyy BA A y 六、两类判别应用举例与小结 2）对已知样品进行判别验证，将已知29个样品的相应变量值代入判别函数，得判别值及判别归类，见表6-3。六、两类判别应用举例与小结 3）对未知样品判别分类有四个待判样品，它们的原始变量数据、判别值、及判别归类列于表6-4中。第四节逐步判别分析主要内容：一、逐步判别分析的基本思想二、变量的判别能力及变量取舍的标准三、紧凑法求行列式值、逆矩阵和筛选变量四、逐步判别分析的计算步骤一、逐步判别分析的基本思想在判别分析中，若表征母体的变量很多，且每个变量对母体的分辨能力不同，如果这些变量都拿来参加建立判别函数，不但计算工作量

22、大，而且还可能由于变量的不独立性而会影响判别效果。因此，在建立判别函数之前，挑选那些对分辨母体能力较强的变量参加建立判别函数就显得十分必要。逐步判别是完成这一工作的最好方法。一、逐步判别分析的基本思想逐步判别分析和逐步回归的基本思想相似。它们都是根据每一个变量在各类（组）判别式中所起的判别作用的重要性不同来挑选判别效果最好的变量（即分辨母体能力最强的变量）进入判别式，同时从判别式中剔除那些由于新变量的引入而失去判别作用的变量，使最后的判别式中，只保留对母体判别能力较强的变量。一、逐步判别分析的基本思想逐步判别分析的作法是：（1）首先从一个变量开始，比较各个变量的判

23、别能力，把其中分辨母体能力最强的一个变量挑选出来，并检验其对母体分辨能力是否显著。如果显著，就将其引入判别函数。（2）再把未选入的每一个变量同已选入的变量结合在一起，比较每两个变量结合之后分辨母体的能力，从中选择分辨能力最大的变量，并检验其对母体分辨能力是否显著。如果显著，再把这个变量选入判别式。一、逐步判别分析的基本思想（3）当第二个变量选入之后，考察第一次引入的哪个变量是否由于新变量的引入而判别能力下降。因此，需要检验第一个变量在第二个变量存在时的判别能力是否显著。如果不显著，则将其从判别式中剔除；否则，再考虑引进另一个变量。再把尚未选中的每一个变量与已选中的两

24、个变量组合，计算每一个组合分辨母体的能力，并从其中选择一个分辨能力最大者，检验其对母体的判别能力是否显著，如果显著，再把这个变量引入判别式，如此反复进行，直至既没有变量再引入，又没有变量剔除为止。最后，利用选入的变量建立判别函数。一、逐步判别分析的基本思想这种通过逐步计算变量的判别能力，并逐步进行显著性检验，自动选择变量，最后获得最优判别函数的方法，称为逐步判别分析。其判别模型，仍是在贝叶斯准则下的多类线性判别模型。唯不同者，是引进了选择变量的技巧。二、变量的判别能力及变量取舍的标准 1、变量的综合判别能力在讨论判别效果检验时，曾用威尔克斯（Wilks）统计量检验

25、多个变量结合在一起对G个母体的分辨能力是否显著的问题。其中，U反映了多个变量的综合判别能力。假设收集了G类样品，第g类有ng个样品，当只有一个变量（x）时，其组内离差平方和矩阵和总离差平方和矩阵为一阶矩阵，只有一个元素，即 | | T W U G g n i g gi g xxW 11 2 111 )( 二、变量的判别能力及变量取舍的标准 G g n i gi g xxtT 11 2 111 )( | | 1 1 1 T W U 表示变量x的判别能力。二、变量的判别能力及变量取舍的标准当有两个变量（如x1,x2）时，其组内变差矩阵和总变差矩阵为二阶矩阵，即 2221 1211 2

26、 W 22 2221 1211 2 tt tt T G g n i gj gij gk gikkj g xxxx 11 )( G g n i g gi g xxW 11 2 111 )( (k，j=1，2) 二、变量的判别能力及变量取舍的标准反映了两个变量x1，x2组合在一起分辨母体的能力。即U1，2值越小，则x1，x2的判别能力越强。当有L个变量（如）时，其组内变差矩阵与总变矩阵为L阶矩阵，即 | | 2 2 2, 1 T W U LL LLLL L L L W 21 22221 11211 二、变量的判别能力及变量取舍的标准 LL LLLL L L L ttt ttt ttt T

27、21 22221 11211 ),2 , 1,( )( )( 11 11 Ljk xxxxt xxxx G g n i j gij k gikkj G g n i gj gij gk gikkj g g 其中二、变量的判别能力及变量取舍的标准则反映出L个变量组合在一起分辨母体的能力。同样， U1，2，L值越小，其判别能力越强 | | , , 2, 1 L L T W LU 二、变量的判别能力及变量取舍的标准 2、未选变量的判别能力及引进变量的标准 1）未选变量的判别能力假设变量已经给定，然后再添加一个新变量，现讨论变量的判别能力。把（L+1）个变量分为两组；第一组是前L个已给

28、定的变量；第二组仅有，那么L+1个变量的组内变差矩阵为 L xxx, 21 )(Lrxr r x r x )1)(1( )1(1 )1(1 )1(1 )1(1 )1(2)1(1)1( 21 22221 11211 LL L L L L LLLL LLLL L L L W 二、变量的判别能力及变量取舍的标准则：其中，W11是前L个变量的组内离差矩阵，为 rr L WW WW W 21 1211 1 LL LLLL L L W 21 22221 11211 11 二、变量的判别能力及变量取舍的标准二、变量的判别能力及变量取舍的标准二、变量的判别能力及变量取舍的标准 2）引进变量的标准

29、假设已经计算了l步，并引入了某 L个变量（包括：l=0；L=0），尚有个变量尚未引入，现要确立第L+1步及再引入一个新变量的标准。在给定的条件下，每一个未选入的变量的判别能力均可由给出。 mLLL xxx , 21 ), 2, 1(mLLLrxr L xxx, 21 r x | | )( )( )( | l rr l rr Lr t U ), 2, 1(mLLLr (6-82) 二、变量的判别能力及变量取舍的标准其中，必有一个最小者，为说明变量的判别能力最强。用与等价的F近似式进行显著性检验。当计算值时，则认为的判别能力显著，应该将它引入判别函数。式（6-83）中

30、统计量F，有时称为“引入F”，用它作为引入变量的标准。 mLrL LrLr UU 1 )( | * )( | min * )( | Lr U 1 1 * )( | * )( | ), 1( G LGn U U F Lr Lr LGnG (6-83) ), 1(LGnG FF * r x 二、变量的判别能力及变量取舍的标准 3、已选变量的判别能力及剔除变量的标准 1）已选变量的判别能力在逐步引入变量时，已经引入变量的判别能力可能会由于后来引入一个新的变量而下降。因此，每引入一个新变量之后，须对已经引入的其它变量的判别能力重新估价，对某个由于新变量引入而判别能力下降且判别效果不显著的

31、变量则应剔除到判别函数之外。二、变量的判别能力及变量取舍的标准假设已经计算了l步，并引入了包括在内的L个变量，现要确定第l+1步剔除变量的标准。为了方便，假设xr 是第l步引入的，即前l-1步引入了不包括在内的L-1个变量。因此，该问题就转化为在给定前L-1个变量的条件下，检验第l步引入的变量xr的判别能力。由式（6-82）可知 (6-84) 对于任意的r（r=1，2，L），就表示已选入的变量xr的判别能力，显然，值愈大,xr的判别能力愈弱。 )1( )1( )1( | l rr l rr Lr t U )1( |Lr U )1( |Lr U 二、变量的判别能力及变量

32、取舍的标准 2）剔除变量的标准若对第l步引入的L个变量，计算其判别能力（1rL）。其中，必有一个说明变量判别能力最弱，运用与其等价的F统计量 (6-85) )1( |Lr U max )1( | 1 * )1( | Lr Lr Lr UU * r x 1 ) 1( 1 * )1( | * )1( | )1(, 1( G LGn U U F Lr Lr LGnG 二、变量的判别能力及变量取舍的标准由上述看出，在挑选变量过程中，每一步都要计算许多行列式的值；当无变量剔除又无新变量再引入时，根据最终选入判别式的变量建立判别函数时，还须计算协方差矩阵（S）的逆矩阵（S-1）。如果用一

33、般方法，计算工作量很大。为了逐步求得行列式值及逆矩阵，可用紧凑方法。三、紧凑法求行列式值、逆矩阵和筛选变量在线性代数中学过，行列式的值可用行初等变换求得；当一个矩阵有逆时，可将此矩阵右乘一个同阶单位矩阵，然后通过一系列行变换，使矩阵变为单位矩阵，原来单位矩阵位置上的变换矩阵就是该矩阵的逆矩阵。求行列式值与求逆矩阵的变换过程相同，将二者结合起来，称为“消去求行列式值和求逆”并行的紧凑法。由于方差与协方差矩阵S为（W为组内离差矩阵）（6-86）则（6-87）因此在计算过程中，只须求出组内离差矩阵W 的逆矩阵。 Gn W S 11 )( WGnS 三、紧凑法求行列式值、

34、逆矩阵和筛选变量为方便，设变量个数p=3，即对三阶矩阵W、T消去求逆和其行列式值。如 100 010 001 333231 232221 131211 www www www WE 三、紧凑法求行列式值、逆矩阵和筛选变量假设第一步消去第一列把w11提到行列式外，然后行 - w21 ；行- w31 得简记为 100 010 00 1 1 11 31 11 1331 33 11 1231 32 11 21 11 1321 23 11 1221 22 1111 13 11 12 11 w w w ww w w ww w w w w ww w w ww w ww w w w w 100

35、010 001 )1( 31 )1( 33 )1( 32 )1( 21 )1( 23 )1( 22 )1( 11 )1( 13 )1( 12 11 www www www w 三、紧凑法求行列式值、逆矩阵和筛选变量三、紧凑法求行列式值、逆矩阵和筛选变量三、紧凑法求行列式值、逆矩阵和筛选变量三、紧凑法求行列式值、逆矩阵和筛选变量为变量彻底组内离差矩阵的逆矩阵 )1()1( 2 )1( 1 )1( 2 )1( 22 )1( 21 )1( 1 )1( 12 )1( 11 1 1 l rr l r l r l r ll l r ll L www www www W rl xxxx,

36、 21 rr W 三、紧凑法求行列式值、逆矩阵和筛选变量 2、筛选变量三、紧凑法求行列式值、逆矩阵和筛选变量三、紧凑法求行列式值、逆矩阵和筛选变量 2）剔除变量由于已经引入判别式的变量，可能随着其后另一些变量的引入而失去原来的重要性，因而每当引入一个变量后，应考虑是否会从判别式中剔除某个变量。可以证明对W、T矩阵中第r列施加两次消去运算后， W、T矩阵中的元素和不消去第r列时的元素一样。为证明这一点，假设在进行了第l步消去运算之后，矩阵 W中的元素为；在第l+1步消去第r列之后，矩阵W 中的元素为；若在第l+2步，再对第r列进行一次消去运算，则第l+2步之后矩阵W中

37、的元素。 )(l kj w )1( l kj w )()2(l kj l kj ww 三、紧凑法求行列式值、逆矩阵和筛选变量由此可知，第l+1步消去第r列，相当于把变量xr引入判别式；第l+2步再对第r列进行一次消去运算，使矩阵元素回到第l+1步以前的情况，这等价于把已引入的变量 xr被从判别式中剔除出去。因此，剔除变量的工作便可在消去过程中进行。假设计算了第l步，并引进了包括在内的L个变量 (rL)。判别式中任一变量xr的判别能力，可视为在给定L-1个变量条件下已选变量xr的判别能力，并由下式计算，即 (r=1，2，L) （6-92） )1()1( )1( | l rr

38、l rrLr twU 三、紧凑法求行列式值、逆矩阵和筛选变量由式（6-88）及式（6-89）可知（k=r，r=j）则式（6-92）可变为 (r=1，2，L) （6-93）根据第l步消去运算后矩阵中的元素和，计算出每一个已选变量的判别能力，并从中挑选一个最大者为 )()1( 1 l rr l kj ww )()1( 1 l rr l kj tt )( )( )1( | l rr l rr Lr w t U )(l rr w )(l rr t max )1( | 1 * )1( | Lr Lr Lr UU 三、紧凑法求行列式值、逆矩阵和筛选变量将其代入式（6-85）中求得相应的

39、，检验变量分辨母体的能力是否显著。如果不显著，将其从判别式中剔除，即对W、T矩阵中第列再作一次消去运算。综上所述，紧凑法可将引入变量、剔除变量及求逆矩阵三者统一在一个计算过程中，大大简化了逐步判别分析的计算。 )1(, 1(LGnG F * r x * r 四、逐步判别分析的计算步骤设原始数据为，其中，其中g=1，2，G （母体个数） i=1，2，ng （ng为第g个母体的样品个数） j=1，2，p （变量个数）（G类中样品的总个数）逐步判别分析的计算，可分以下三个阶段： gij x G g g nn 1 四、逐步判别分析的计算步骤第一阶段：准备工作 1）计算变量

40、的类平均值和总平均值按下式计算诸变量的类平均值和总平均值。 ),12, 2 , 1( 1 1 Ggpjx n x g n i jgi g jg ), 2 , 1( 1 11 pjx n x G g n i jgij g 四、逐步判别分析的计算步骤 2）计算组内离差矩阵（W）和总离差矩阵（T）按下述公式计算W、T中的元素值。 G g j n i jgikkgikj ppkj G g jg n i jgikgkgikj ppkj xxxxt pjktT xxxxw pjkwW g g 11 11 )( ), 2 , 1,()( )( ), 2 , 1,()( 四、逐步判别分析的计算步骤第二

41、阶段：逐步筛选变量设已计算了l步（包括l=0），判别函数中引入了某L个变量，则第l+1步的计算内容如下： 1）计算全部变量的叛别能力若xj是未选变量，则每个未选变量的判别能力为若xj是已选变量，则每个已选变量的判别能力为 )( )( )( | l jj l jj Lj t w U )( )( )1( | l jj l jj Lj w t U 四、逐步判别分析的计算步骤 2）挑选变量及其显著性检验根据判别能力分别在已选变量和未选变量中挑选。（1）从已选变量中剔除变量，在已选变量中寻找最大的。假设 (jL，表示是已选变量) 进行F检验若，则把xr从判别函数中剔除出去，然后

42、计算Wilks统计量，并对矩阵进行变换。 )1( |Lj U max )1( |)1( | Lj Lj Lr UU 1 ) 1( 1 )1|( )1|( * 2 G LGn U U F Lr Lr )1(, 1 * 2 LGnG FF 四、逐步判别分析的计算步骤四、逐步判别分析的计算步骤四、逐步判别分析的计算步骤四、逐步判别分析的计算步骤第三阶段：判别分类假设共计算了l+1步，最终选入L个变量，然后进行以下工作： 1）计算判别系数根据最终获得的逆矩阵计算判别系数， 1 1 L W Ggxcc GgLkjwxGnwGnxc L k jgjgog L k L k l kjkg l

43、 kjkgjg , 2 , 1 2 1 , 2 , 1;, 2 , 1,)()( 1 11 )1()1( 四、逐步判别分析的计算步骤 2）检验L个变量的判别效果根据UL对应的F近似式进行显著性检验。统计量其中 ) 1( 1 1 1 GL w U U F a L a L 时当时当 05) 1(1 05) 1( 5) 1( 4) 1( 22 22 22 22 GL GL GL GL a 2 1 1 2 ) 1( GL nk GL kaw 四、逐步判别分析的计算步骤 3）判别分类如果对L个变量的综合判别效果检验是显著的，即可对任意个体（包括已知类型和未知归属的个体），逐个进行判别归类，并计算其属于该母体的后验概率。（1）将每一个体的相应变量值代入各母体的判别函数中，求得其判别值若则将个体x划归第g*个母体。 ),( 21L xxxx ), 2 , 1(ln)( 1 Ggxccqxy L j jjgoggg Gg gg xyxy 1 * )(max)( 四、逐步判别分析的计算步骤（2）根据判别值计算每一个个体属于各母体的后验概率，

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数学地质第六章判别分析：线性-逐步

文档简介

温馨提示

最新文档

评论

数学地质第六章 判别分析：线性-逐步

文档简介

温馨提示

最新文档

评论

相关文档

数学地质第六章判别分析：线性-逐步