数学地质第六章 判别分析:线性-逐步_第1页
数学地质第六章 判别分析:线性-逐步_第2页
数学地质第六章 判别分析:线性-逐步_第3页
数学地质第六章 判别分析:线性-逐步_第4页
数学地质第六章 判别分析:线性-逐步_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第六章判别分析第六章判别分析 杨永国 中国矿业大学 资源与地球科学学院 内容提要 第一节 判别分析概述 第二节 费歇准则下的两类线性判别模型 第四节 逐步判别分析 第五节 判别分析在地质上的应用 第一节 判别分析概述 主要内容: 一、判别分析的概念 二、判别函数 三、判别分析的类型 四、建立判别函数的准则 一、判别分析的概念 在自然界中,经常遇到对研究对象进行分类的问题。 分类包括两个方面的内容:其一,是研究对象存在着 几种类型,即能分为多少类;其二,在研究对象类型 数目已知的情况下,某一研究个体应该属于哪一类。 后者,属于判别分析研究的范畴。 地质学中遇到的分类问题很多。例如,根据岩矿鉴

2、定,分辨某一砂岩属于海相砂岩或陆相砂岩;在油田 开发中,根据钻井的点测或化验数据,判别是否遇到 油层、水层或干层;在地球化学中,根据岩体的化验 数据,分辨岩体是否是含矿岩体;在煤田勘探中,根 据煤层煤质的数据,判别某一勘探区的某一煤层,属 于相近勘探区同一煤系诸煤层的哪一层等。 一、判别分析的概念 判别分析主要解决两个问题: 1)根据什么指标来判别(分辨)已知的类型,即建立 判别函数; 2)对于可能来自已知类型的某些未知样品,如何判定 它们归属已知类型中的哪一类。 判别分析就是借助于已知类型的若干变量,建立 起一个或多个判别函数,从而决定未知对象归属问题 的一种多元统计方法。 二、判别函数 若

3、有两类物体,在统计学上称为总体(或母体)。 它们的分布状态均可以利用p个变量,在p维空间中用 两个椭球状点集表示出来。 设有A、B两个总体,从中抽取两组样品,每个样 品有两个变量,现以变量为轴,将A、B两组样品在二 维空间中表示出来(图6-1)。 二、判别函数 图6-1两个二元总体间的 差别函数 二、判别函数 由图可以看出,两类总体以任何一个变量为基础都 不能将其明显地区分开。两类同一变量之间,总有些 重叠部分。 如果能设法利用两个或多个变量的线性组合构成一 个合适的综合判别指标,并使其能最大限度地缩小不 易判别的重叠部分,从而提高正确判别的概率,则称 变量的线性组合这个综合指标 为判别函数(

4、图6-1中直线) p j jjpp xcxcxcxcy 1 2211 二、判别函数 二维空间中,在两点集之间垂直于y轴且把两个点集分 开的直线(图6-1中直线)称为判别直线。其直线方 程为 在多维情况下,判别直线将是一个平面(p=3)或(p- 1)维超平面(p3),其方程如下: 由此看出,判别分析的特点是能够大大缩减向量的维 数,而不致损失很多信息。 0 02211 yxcxc 0 02211 yxcxcxc pp 三、判别分析的类型 1)根据母体(总体)个数 可分为两类(两组)判别 分析和多类(多组)判别分析。 2)根据判别函数类型 可分为线性判别和非线性判别 分析。 3)按判别方法 可分为

5、判别分析、逐步判别和序贯判 别分析等 四、建立判别函数的准则 判别函数是在一定的规则下建立起来的。因此,判别 函数的建立,就须依照一定的准则。最常用的有以下 准则: 1)费歇准则(主要适用于二类判别); 2)贝叶斯准则(适用于多类判别); 3)最小二乘法准则; 4)库巴克准则; 5)不稳定性准则等。 第二节 费歇准则下的两类线性判别模型 主要内容: 一、费歇准则的基本含义 二、两类线性判别函数的建立 三、分界值计算和判别法则 四判别函数的显著性检验及判别率 五变量的选择 六、两类判别应用举例与小结 一、费歇准则的基本含义 一、费歇准则的基本含义 假定判别函数已经建立,显然每个样品的p个变量值代

6、 入式(6-4)中就可求得一个y值,则此值称为样品的 判别计量(或判别值)。 n个样品有n个判别值,记为 , 1 p j AijjAi xcy p j BijjBi xcy 1 一、费歇准则的基本含义 每类样品判别值的平均值,称为类平均值,记为 p j Aj j n i p j Aijj A n i Ai A A xcxc n y n y AA 1111 11 BB n i p j Bj j p j Bijj B n i Bi B B xcxc n y n y 1111 11 一、费歇准则的基本含义 如果A、B两母体客观上存在着差别,则它们的类平均 值 与 也会有一定的差别。使两个母体分开的综

7、合指标 值(y0),称为两母体的分界线,或称临界值(图6- 2)。 图6-2判别计量分 布图 一、费歇准则的基本含义 显然,判别分析要求找到的判别函数y=f(x1,x2, xp)使两类(组)间差别愈大愈好,即 并使两类组内离差平方和(或组内变差)愈小愈好, 即 max| 2 BA yyG min)()( 1 2 1 2 BA n i BBi n i AAi yyyyH 一、费歇准则的基本含义 将上述两个条件结合起来,要求 建立判别函数 时,遵循使I值最大的原则是 由费歇(1936)最早提出的,故称其为费歇准则。有 时称费歇准则为“最大分离”准则。 max )()( )( 1 2 1 2 2 B

8、A n i BBi n i AAi BA yyyy yy H G I p j jjx cy 1 (6-10) 二、两类线性判别函数的建立 根据多元函数求极值的方法,诸 应满足下列方程组 BA n i BBi n i AAi BA p yyyy yy H G cccI 1 2 1 2 2 21 )()( )( ),(, j c 0 1 c I 0 2 c I 0 3 c I - (6-11) 二、两类线性判别函数的建立 从式(6-11)中解出 的数值,判别函数即建 立。 p ccc,, 21 二、两类线性判别函数的建立 二、两类线性判别函数的建立 二、两类线性判别函数的建立 AB AB B A

9、bA n i n i BjBijBpBipAjAijApAipp n i n i BjBijBBiAjAijAAi n i BjBijBpBippBBiBBi n i AjAijApAippAAiAAi n i p j bjbijbjbijj n i p j AjAijAjAijj j xxxxxxxxc xxxxxxxxc xxxxcxxcxxc xxxxcxxcxxc xxxxcxxxxc c H 11 11 11111 1 222111 1 222111 11 2 11 2 )()(2 )()(2 )()()(2 )()()(2 )()( 2)()( 2 二、两类线性判别函数的建立 令

10、为第j个变量的组内方差;令: 为第j、k个变量的组内协方差(j,k=1,2,p), 则 2 )()( 1 2 1 2 BA n i BjBij n i AjAij jj nn xxxx s BA 2 )()( 11 BA n i BkBikBjBij n i AkAikAjAij jk nn xxxxxxxx s BA )(2 2211jppjj j scscsc c H 二、两类线性判别函数的建立 二、两类线性判别函数的建立 以上是一个P阶线性方程组。式中,b为常数,它是不 依赖于j而变化的因子,对线性方程组只起到共同扩大b 倍的作用,不影响方程组解的相对比例关系,因而对 判别效果没有影响。

11、故可令b=1,于是得到 为所求的线性方程组。解上式,可得到线性判别函数: pjdscscsc jjppjj , 2 , 1 2211 pp xcxcxcy 2211 三、分界值计算和判别法则 当判别函数求出后,可进一步求得类平均值 、 和分 界值 式中, 、 分别为A类和B类中第j个变量的平均值 (j=1,2,p)。分界值 的求法可分以下几种情 况: A y B y 0 y p j Ajj n i Ai A A xcy n y A 11 1 p j Bjj n i Bi B B xcy n y B 11 1 Aj x Bj x 0 y 三、分界值计算和判别法则 1)当母体为正态母体,且 (标准

12、差)已知时, 则 (6-19) 2)当样品个数 ,且 时,则 (6-20) 3)当样品个数 差别较大,且 时,则 (6-21) 由式(6-21)进一步导出 BA 、 BA A ABA yyyy )( 0 BA nn BA )( 2 1 0BA yyy BA nn 与BA BA BBAA nn ynyn y 0 p j jj xcy 1 0 三、分界值计算和判别法则 式中, 为两个母体中第j个变量的总平均值。 由式(6-19)、式(6-20)、式(6-21)等可以看出, 当样本确定之后,y0为一固定值。因此,判别未知样 品 可按以下法则进行: 若未知样品代入判别函数得判别值y,且 ,当 yy0时

13、,则该样 品属于B类;当y=y0时,未知样品可任意归属A或B类。 上述法则,可用样本空间的概念理解。 j x ),( 21p xxxX, A y B y 四判别函数的显著性检验及判别率 根据p个变量所构成的判别函数,其判别是否有 效?如果判别是有效的,其判别结果好坏程度如何? 第一个问题是要解决判别函数对区分两个母体是否 显著;第二个问题则是以正确判别率来衡量判别好 坏的程度。 四判别函数的显著性检验及判别率 1.判别函数的显著性检验 判别函数的显著性检验,可采用F-检验法和马氏距 离检验法(即马哈拉诺比斯距离检验法)。 1)F-检验 判别分析的前提是假设两组样品取自不 同的母体。两个母体差异

14、性是否显著,可从类平均 值差异情况进行考查。在类平均值相等条件下,即 检验假设 成立时,统计量 (6-26) 服从F-分布。式中: BA yyH: 0 剩剩 回回 fS fS F 四判别函数的显著性检验及判别率 22 1 2 1 2 )()()()(yynyynyyyyS BBAA n i B n i A BA 回 112 回 f BA n i BBi n i AAi yyyyS 1 2 1 2 )()( 剩 2 BA nnf剩 四判别函数的显著性检验及判别率 2)马氏距离检验 检验两个母体间差异性是否显著, 还可通过检验母体中诸变量的类平均之差 是否足够大,即两类多元平均值在统计上是否存在显

15、 著差异。这种显著性检验,一般采用马氏距离( ) 为基础构成的统计量 (6-27) 来进行。式中,马氏距离为 (6-28) ), 2 , 1(pjxxd BjAjj 2 D 2 )2)( )1( D pnnnn pnnnn F BABA BABA p j jjpp dcdcdcdcD 1 2211 2 四判别函数的显著性检验及判别率 四判别函数的显著性检验及判别率 正确判别率 判别函数经过检验为有效之后,再用已知样品的变量 数据代入判别函数,求出每个已知样品的判别值,重 新判别它的归类。根据正确判别率(或错判率),来 衡量判别效果的好坏程度。 正确判别率是指属于A类的样品,根据判别值仍判 别为

16、A类母体的样品所占的百分比。 五变量的选择 在判别分析中,如果选取变量太少,会由于信息量 不足而导致判别效果较差;但选取变量太多,还会由 于变量之间的相互干扰而降低判别效果。为了获得最 佳判别函数,应设法在不影响判别效果前提下,挑选 那些分辨母体能力较强的变量参加建立判别函数。 五变量的选择 五变量的选择 五变量的选择 应当指出,上述两种选择变量的方法,只考虑变量的 独立影响。当变量不独立时,将用逐步判别分析方法 来挑选变量。 六、两类判别应用举例与小结 福建省某煤田晚二叠世含煤建造一段和三段含可采煤 层,为了进行煤层对比,选用两类判别模型进行判别 分析(据张守业,1981)。现通过典型实例,

17、对两类 判别分析工作方法与步骤小结如下: 1资料收集 根据研究目的,把三段和一段中煤层作为已知类型, 并从三段煤层(A类)中取了13个煤样;从一段煤层 (B类)中取了16个煤样;每个煤样测定灰分及灰成分 共9个指标(变量)。即nA=13,nB=16,p=9。每一个 样本数据xAij和xBij见表6-1。 六、两类判别应用举例与小结 六、两类判别应用举例与小结 2挑选变量 1)计算各变量类内平均值和类内离差平方和 由公式 计算得表6-2结果。 A n i Aij A Aj n n x 1 1 B n i Bij B Bj n n x 1 1 ), 9, 2 , 1(j ), 9, 2 , 1()

18、()( 1 22 1 jxnxnw BA n i BjBij n i AjAijjj 六、两类判别应用举例与小结 六、两类判别应用举例与小结 2)计算各变量的I值 由公式 计算,得 )9, 2 , 1( )()( )( 1 22 1 2 ,j xnxn xx I BA n i BjBij n i AjAij BjAj J 六、两类判别应用举例与小结 3)选取变量 选取Ij=0.01的变量,即I1I5所代表的五个 变量,参加建立判别函数,其余四个变量I值之和为 0.0068,仅占总I值的0.68%,故可忽略不记。以后按 选出的五个变量建立判别函数。 3建立判别函数 1)计算选取的变量组内方差与协

19、方差 由公式 )2( )()( 11 BA n i BkBikBjBijAkAik n i AjAijjk nnxxxxxxxxs BA ), 5, 2 , 1,(kj 六、两类判别应用举例与小结 计算得方差与协方差矩阵S,为 六、两类判别应用举例与小结 六、两类判别应用举例与小结 4. 判别函数显著性检验 1) 计算马氏距离 由公式 计算,得 计算统计量 将D2值代入下式求出F值。 给定=0.05,查F-分布表得临界值F0.05(5,23) =2.64。由于 F=22.34892.64=F0.05(5,23) 故认为判别函数用以分辨母体是显著的。 p j jjd CD 1 2 2893.18

20、7141. 05390. 16818. 15319. 0 2206. 08293. 52288. 04145. 41279.133986. 1 2 D 3489.22 )2)( )1( 2 D nnnn dpnnnn F BABA BABA 六、两类判别应用举例与小结 5判别归类 1)计算类平均值和分界值, 类平均值和分界值分别由 下式 计算,得 由于 y0,故判别值yy0的样品应归于A类,即 为第三个含煤段煤,否则,应为第一含煤段煤层。 p j Aj jA xcy 1 p j Bj jB xcy 1 BA BBAA nn ynyn y 0 3540.19,1554.11,4446.29 0

21、yyy BA A y 六、两类判别应用举例与小结 2)对已知样品进行判别验证,将已知29个样品的相应 变量值代入判别函数,得判别值及判别归类,见表6-3。 六、两类判别应用举例与小结 3)对未知样品判别分类 有四个待判样品,它们的原 始变量数据、判别值、及判别归类列于表6-4中。 第四节 逐步判别分析 主要内容: 一、逐步判别分析的基本思想 二、变量的判别能力及变量取舍的标准 三、紧凑法求行列式值、逆矩阵和筛选变量 四、逐步判别分析的计算步骤 一、逐步判别分析的基本思想 在判别分析中,若表征母体的变量很多, 且每个变量对母体的分辨能力不同,如果这些 变量都拿来参加建立判别函数,不但计算工作 量

22、大,而且还可能由于变量的不独立性而会影 响判别效果。因此,在建立判别函数之前,挑 选那些对分辨母体能力较强的变量参加建立判 别函数就显得十分必要。逐步判别是完成这一 工作的最好方法。 一、逐步判别分析的基本思想 逐步判别分析和逐步回归的基本思想相似。 它们都是根据每一个变量在各类(组)判别式 中所起的判别作用的重要性不同来挑选判别效 果最好的变量(即分辨母体能力最强的变量) 进入判别式,同时从判别式中剔除那些由于新 变量的引入而失去判别作用的变量,使最后的 判别式中,只保留对母体判别能力较强的变量。 一、逐步判别分析的基本思想 逐步判别分析的作法是: (1)首先从一个变量开始,比较各个变量的判

23、别能力, 把其中分辨母体能力最强的一个变量挑选出来,并检 验其对母体分辨能力是否显著。如果显著,就将其引 入判别函数。 (2)再把未选入的每一个变量同已选入的变量结合在 一起,比较每两个变量结合之后分辨母体的能力,从 中选择分辨能力最大的变量,并检验其对母体分辨能 力是否显著。如果显著,再把这个变量选入判别式。 一、逐步判别分析的基本思想 (3)当第二个变量选入之后,考察第一次引入的哪个 变量是否由于新变量的引入而判别能力下降。因此, 需要检验第一个变量在第二个变量存在时的判别能力 是否显著。如果不显著,则将其从判别式中剔除;否 则,再考虑引进另一个变量。再把尚未选中的每一个 变量与已选中的两

24、个变量组合,计算每一个组合分辨 母体的能力,并从其中选择一个分辨能力最大者,检 验其对母体的判别能力是否显著,如果显著,再把这 个变量引入判别式,如此反复进行,直至既没有变量 再引入,又没有变量剔除为止。最后,利用选入的变 量建立判别函数。 一、逐步判别分析的基本思想 这种通过逐步计算变量的判别能力,并逐步进行 显著性检验,自动选择变量,最后获得最优判别函数 的方法,称为逐步判别分析。其判别模型,仍是在贝 叶斯准则下的多类线性判别模型。唯不同者,是引进 了选择变量的技巧。 二、变量的判别能力及变量取舍的标准 1、变量的综合判别能力 在讨论判别效果检验时,曾用威尔克斯(Wilks)统计 量 检验

25、多个变量结合在一起对G个母体的分辨能力是否显 著的问题。其中,U反映了多个变量的综合判别能力。 假设收集了G类样品,第g类有ng个样品,当只有一个 变量(x)时,其组内离差平方和矩阵和总离差平方和 矩阵为一阶矩阵,只有一个元素,即 | | T W U G g n i g gi g xxW 11 2 111 )( 二、变量的判别能力及变量取舍的标准 G g n i gi g xxtT 11 2 111 )( | | 1 1 1 T W U 表示变量x的判别能力。 二、变量的判别能力及变量取舍的标准 当有两个变量(如x1,x2)时,其组内变差矩阵和总变 差矩阵为二阶矩阵,即 2221 1211 2

26、 W 22 2221 1211 2 tt tt T G g n i gj gij gk gikkj g xxxx 11 )( G g n i g gi g xxW 11 2 111 )( (k,j=1,2) 二、变量的判别能力及变量取舍的标准 反映了两个变量x1,x2组合在一起分辨母体的能力。 即U1,2值越小,则x1,x2的判别能力越强。 当有L个变量(如)时,其组内变差矩阵与总变矩 阵为L阶矩阵,即 | | 2 2 2, 1 T W U LL LLLL L L L W 21 22221 11211 二、变量的判别能力及变量取舍的标准 LL LLLL L L L ttt ttt ttt T

27、21 22221 11211 ),2 , 1,( )( )( 11 11 Ljk xxxxt xxxx G g n i j gij k gikkj G g n i gj gij gk gikkj g g 其中 二、变量的判别能力及变量取舍的标准 则 反映出L个变量组合在一起分辨母体的能力。同样, U1,2,L值越小,其判别能力越强 | | , , 2, 1 L L T W LU 二、变量的判别能力及变量取舍的标准 2、未选变量的判别能力及引进变量的标准 1)未选变量的判别能力 假设变量 已经给定,然后再添加一个新 变量 ,现讨论变量 的判别能力。 把(L+1)个变量分为两组;第一组是前L个已给

28、定 的变量;第二组仅有 ,那么L+1个变量的组内变差矩 阵为 L xxx, 21 )(Lrxr r x r x )1)(1( )1(1 )1(1 )1(1 )1(1 )1(2)1(1)1( 21 22221 11211 LL L L L L LLLL LLLL L L L W 二、变量的判别能力及变量取舍的标准 则: 其中,W11是前L个变量的组内离差矩阵,为 rr L WW WW W 21 1211 1 LL LLLL L L W 21 22221 11211 11 二、变量的判别能力及变量取舍的标准 二、变量的判别能力及变量取舍的标准 二、变量的判别能力及变量取舍的标准 2)引进变量的标准

29、 假设已经计算了l步,并引入了某 L个变量(包括:l=0;L=0),尚有 个 变量尚未引入,现要确立第L+1步及再引入一个新变量 的标准。 在给定 的条件下,每一个未选入的变量 的判别能力均可由 给出。 mLLL xxx , 21 ), 2, 1(mLLLrxr L xxx, 21 r x | | )( )( )( | l rr l rr Lr t U ), 2, 1(mLLLr (6-82) 二、变量的判别能力及变量取舍的标准 其中,必有一个最小者,为 说明变量的判别能力最强。用与 等价的F近似式 进行显著性检验。当计算值 时,则认为 的判别能力显著,应该将它引入判别函数。式 (6-83)中

30、统计量F,有时称为“引入F”,用它 作 为引入变量的标准。 mLrL LrLr UU 1 )( | * )( | min * )( | Lr U 1 1 * )( | * )( | ), 1( G LGn U U F Lr Lr LGnG (6-83) ), 1(LGnG FF * r x 二、变量的判别能力及变量取舍的标准 3、已选变量的判别能力及剔除变量的标准 1)已选变量的判别能力 在逐步引入变量时,已经引 入变量的判别能力可能会由于后来引入一个新的变量 而下降。因此,每引入一个新变量之后,须对已经引 入的其它变量的判别能力重新估价,对某个由于新变 量引入而判别能力下降且判别效果不显著的

31、变量 则应 剔除到判别函数之外。 二、变量的判别能力及变量取舍的标准 假设已经计算了l步,并引入了包括在内的L个变量,现 要确定第l+1步剔除变量 的标准。为了方便,假设xr 是第l步引入的,即前l-1步引入了不包括在内的L-1个变 量。因此,该问题就转化为在给定前L-1个变量的条件 下,检验第l步引入的变量xr的判别能力。由式(6-82) 可知 (6-84) 对于任意的r(r=1,2,L), 就表示已选入 的变量xr的判别能力,显然, 值愈大,xr的判别能力 愈弱。 )1( )1( )1( | l rr l rr Lr t U )1( |Lr U )1( |Lr U 二、变量的判别能力及变量

32、取舍的标准 2)剔除变量的标准 若对第l步引入的L个变量,计算 其判别能力 (1rL)。其中,必有一个 说明变量 判别能力最弱,运用与其等价的F统计量 (6-85) )1( |Lr U max )1( | 1 * )1( | Lr Lr Lr UU * r x 1 ) 1( 1 * )1( | * )1( | )1(, 1( G LGn U U F Lr Lr LGnG 二、变量的判别能力及变量取舍的标准 由上述看出,在挑选变量过程中,每一步都要计算 许多行列式的值;当无变量剔除又无新变量再引入时, 根据最终选入判别式的变量建立判别函数时,还须计 算协方差矩阵(S)的逆矩阵(S-1)。如果用一

33、般方 法,计算工作量很大。为了逐步求得行列式值及逆矩 阵,可用紧凑方法。 三、紧凑法求行列式值、逆矩阵和筛选变 量 在线性代数中学过,行列式的值可用行初等变换求 得;当一个矩阵有逆时,可将此矩阵右乘一个同阶单 位矩阵,然后通过一系列行变换,使矩阵变为单位矩 阵,原来单位矩阵位置上的变换矩阵就是该矩阵的逆 矩阵。求行列式值与求逆矩阵的变换过程相同,将二 者结合起来,称为“消去求行列式值和求逆”并行的 紧凑法。由于方差与协方差矩阵S为 (W为组内离差矩阵)(6-86) 则 (6-87) 因此在计算过程中,只须求出组内离差矩阵W 的逆矩阵。 Gn W S 11 )( WGnS 三、紧凑法求行列式值、

34、逆矩阵和筛选变 量 为方便,设变量个数p=3,即对三阶矩阵W、T消去求 逆和其行列式值。如 100 010 001 333231 232221 131211 www www www WE 三、紧凑法求行列式值、逆矩阵和筛选变 量 假设第一步消去第一列 把w11提到行列式外,然后行 - w21 ;行- w31 得 简记为 100 010 00 1 1 11 31 11 1331 33 11 1231 32 11 21 11 1321 23 11 1221 22 1111 13 11 12 11 w w w ww w w ww w w w w ww w w ww w ww w w w w 100

35、010 001 )1( 31 )1( 33 )1( 32 )1( 21 )1( 23 )1( 22 )1( 11 )1( 13 )1( 12 11 www www www w 三、紧凑法求行列式值、逆矩阵和筛选变 量 三、紧凑法求行列式值、逆矩阵和筛选变 量 三、紧凑法求行列式值、逆矩阵和筛选变 量 三、紧凑法求行列式值、逆矩阵和筛选变 量 为变量 彻底组内离差矩阵 的逆矩阵 )1()1( 2 )1( 1 )1( 2 )1( 22 )1( 21 )1( 1 )1( 12 )1( 11 1 1 l rr l r l r l r ll l r ll L www www www W rl xxxx,

36、 21 rr W 三、紧凑法求行列式值、逆矩阵和筛选变 量 2、筛选变量 三、紧凑法求行列式值、逆矩阵和筛选变 量 三、紧凑法求行列式值、逆矩阵和筛选变 量 2)剔除变量 由于已经引入判别式的变量,可能随着 其后另一些变量的引入而失去原来的重要性,因而每 当引入一个变量后,应考虑是否会从判别式中剔除某 个变量。 可以证明对W、T矩阵中第r列施加两次消去运算后, W、T矩阵中的元素和不消去第r列时的元素一样。为 证明这一点,假设在进行了第l步消去运算之后,矩阵 W中的元素为 ;在第l+1步消去第r列之后,矩阵W 中的元素为 ;若在第l+2步,再对第r列进行一次消 去运算,则第l+2步之后矩阵W中

37、的元素 。 )(l kj w )1( l kj w )()2(l kj l kj ww 三、紧凑法求行列式值、逆矩阵和筛选变 量 由此可知,第l+1步消去第r列,相当于把变量xr引入判 别式;第l+2步再对第r列进行一次消去运算,使矩阵元 素回到第l+1步以前的情况,这等价于把已引入的变量 xr被从判别式中剔除出去。因此,剔除变量的工作便 可在消去过程中进行。 假设计算了第l步,并引进了包括 在内的L个变量 (rL)。判别式中任一变量xr的判别能力,可视为在给 定L-1个变量条件下已选变量xr的判别能力,并由下式 计算,即 (r=1,2,L) (6-92) )1()1( )1( | l rr

38、l rrLr twU 三、紧凑法求行列式值、逆矩阵和筛选变 量 由式(6-88)及式(6-89)可知 (k=r,r=j) 则式(6-92)可变为 (r=1,2,L) (6-93) 根据第l步消去运算后矩阵中的元素 和 ,计算出每 一个已选变量的判别能力,并从中挑选一个最大者为 )()1( 1 l rr l kj ww )()1( 1 l rr l kj tt )( )( )1( | l rr l rr Lr w t U )(l rr w )(l rr t max )1( | 1 * )1( | Lr Lr Lr UU 三、紧凑法求行列式值、逆矩阵和筛选变 量 将其代入式(6-85)中求得相应的

39、 ,检验 变量 分辨母体的能力是否显著。如果不显著,将其 从判别式中剔除,即对W、T矩阵中第 列再作一次 消去运算。 综上所述,紧凑法可将引入变量、剔除变量及求逆矩 阵三者统一在一个计算过程中,大大简化了逐步判别 分析的计算。 )1(, 1(LGnG F * r x * r 四、逐步判别分析的计算步骤 设原始数据为 ,其中, 其中g=1,2,G (母体个数) i=1,2,ng (ng为第g个母体的样品个数) j=1,2,p (变量个数) (G类中样品的总个数) 逐步判别分析的计算,可分以下三个阶段: gij x G g g nn 1 四、逐步判别分析的计算步骤 第一阶段:准备工作 1)计算变量

40、的类平均值和总平均值 按下式计算诸变 量的类平均值和总平均值。 ),12, 2 , 1( 1 1 Ggpjx n x g n i jgi g jg ), 2 , 1( 1 11 pjx n x G g n i jgij g 四、逐步判别分析的计算步骤 2)计算组内离差矩阵(W)和总离差矩阵(T)按下 述公式计算W、T中的元素值。 G g j n i jgikkgikj ppkj G g jg n i jgikgkgikj ppkj xxxxt pjktT xxxxw pjkwW g g 11 11 )( ), 2 , 1,()( )( ), 2 , 1,()( 四、逐步判别分析的计算步骤 第二

41、阶段:逐步筛选变量 设已计算了l步(包括l=0),判别函数中引入了某L个 变量,则第l+1步的计算内容如下: 1)计算全部变量的叛别能力 若xj是未选变量,则每 个未选变量的判别能力为 若xj是已选变量,则每个已选变量的判别能力为 )( )( )( | l jj l jj Lj t w U )( )( )1( | l jj l jj Lj w t U 四、逐步判别分析的计算步骤 2)挑选变量及其显著性检验 根据判别能力分别在已 选变量和未选变量中挑选。 (1)从已选变量中剔除变量,在已选变量中寻找最大 的 。假设 (jL,表示是已选变量) 进行F检验 若 ,则把xr从判别函数中剔除出去, 然后

42、计算Wilks统计量,并对矩阵进行变换。 )1( |Lj U max )1( |)1( | Lj Lj Lr UU 1 ) 1( 1 )1|( )1|( * 2 G LGn U U F Lr Lr )1(, 1 * 2 LGnG FF 四、逐步判别分析的计算步骤 四、逐步判别分析的计算步骤 四、逐步判别分析的计算步骤 四、逐步判别分析的计算步骤 第三阶段:判别分类 假设共计算了l+1步,最终选入L个变量,然后进行以 下工作: 1)计算判别系数 根据最终获得的逆矩阵 计算 判别系数, 1 1 L W Ggxcc GgLkjwxGnwGnxc L k jgjgog L k L k l kjkg l

43、 kjkgjg , 2 , 1 2 1 , 2 , 1;, 2 , 1,)()( 1 11 )1()1( 四、逐步判别分析的计算步骤 2)检验L个变量的判别效果 根据UL对应的F近似式 进行显著性检验。统计量 其中 ) 1( 1 1 1 GL w U U F a L a L 时当 时当 05) 1(1 05) 1( 5) 1( 4) 1( 22 22 22 22 GL GL GL GL a 2 1 1 2 ) 1( GL nk GL kaw 四、逐步判别分析的计算步骤 3)判别分类 如果对L个变量的综合判别效果检验是显 著的,即可对任意个体(包括已知类型和未知归属的 个体) ,逐个进行判别归类,并计算其 属于该母体的后验概率。 (1)将每一个体的相应变量值代入各母体的判别函数 中,求得其判别值 若 则将个体x划归第g*个母体。 ),( 21L xxxx ), 2 , 1(ln)( 1 Ggxccqxy L j jjgoggg Gg gg xyxy 1 * )(max)( 四、逐步判别分析的计算步骤 (2)根据判别值计算每一个个体属于各母体的后验 概率,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论