逐步判别分析_第1页
逐步判别分析_第2页
逐步判别分析_第3页
逐步判别分析_第4页
逐步判别分析_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、逐步判别分析一、逐步判别分析的基本思想在判别问题中,当判别变量个数较多时,如果不加选择地一概采用来建立判别函数,不仅计算量大,还由于变量之间的相关性,可能使求解逆矩阵的计算精度下降,建立的判别函数不稳定。因此适当地筛选变量的问题就成为一个很重要的事情。凡具有筛选变量能力的判别分析方法就统称为逐步判别法。逐步判别法和通常的判别分析一样,也有许多不同的原则,从而产生各种方法。这里讨论的逐步判别分析方法是在多组判别分析基础上发展起来的一种方法,判别准则为贝叶斯判别函数,其基本思路类似于逐步回归分析,采用“有进有出”的算法,即按照变量是否重要,从而逐步引入变量,每引入一个“最重要”的变量进入判别式,同

2、时要考虑较早引入的变量是否由于其后的新变量的引入使之丧失了重要性变得不再显著了(例如其作用被后引入地某几个变量的组合所代替),应及时从判别式中把它剔除,直到判别式中没有不重要的变量需要剔除,剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。也就是说每步引入或剔除变量,都作相应的统计检验,使最后的贝叶斯判别函数仅保留“重要”的变量。二、逐步判别的基础理论一一对判别变量附加信息的检验根据逐步判别分析的基本思想,进行判别分析需要解决两个关键的问题,一个是引入或剔除判别变量的依据和检验问题;另外则是判别函数的及时导出的问题。其中的理论基础又在于如何对判别变量在区别各个总体中是否提供附加信息的检

3、验。为此这里先给出如何对判别变量在区别各个总体中是否提供附加信息进行检验的基础理论。设有m个总体,Gi,G2Gm,相应抽出样品个数为山小2nm(nin?nJn每个样品观测p个指标得观测数据如下,x111x121x1p1第1个总体的样本数据为:X211X221X2p1Xg11Xm21Xgp第2个总体的样本数据为:X11X21X122X222X1pX2pxn21Xn222x“2PX11x12mX21第m个总体的样本数据为:21x22mX1pX2pXnp1Xnp2mXnpP和多组判别分析一样,假定各组的样品都是相互独立的正态随机向量,各组的协方差矩阵都一样,即7()()()(Xk1,Xk2,Xkp1

4、,2,m;k1,2,n其中,x;j)为组第k个样品的第j个变量,组的均值向量,为协方差矩阵。再令全部样品的总均值向量为:(X1,X2,Xp)各个总体的样品的均值向量为:(x1(),X2(),Xp()1,2,于是,样品的组内离差阵为:(Xi()X()(Xi()X()样品的总离差阵为:n)X)(x()X)(x()X)(Xi(i1为了对这m个总体建立判别函数,需要检验:Ho:(1)(2)(m)当H。被接受时,说明区分这m个总体是没有什么意义的,在此基础上建立的判别函数效果不好。当H。被否定时,说明m个总体可以区分,建立的判别函数有意义。但是为了达到区分这m个总体的目的,原来选择的p个指标是否可以减少

5、而达到同样的判别效果,为此,也就要去掉一些对区分m个总体不带附加信息的变量。对于上述问题的检验,可以采用维尔克斯统计量(Wilks)来进行:WT而n1(pm)1In的极限分布是服从于大样本的2p(m1)。2为了进一步考虑这一问题,把p个变量分解为两个部分,如果通过某种步骤已经选中了p1个变量,我们要检验增加第p个变量后对区分总体是否提供了附加信息,即对第p个变量的“判别能力”进行检验。为此,将矩阵W、T进行分块:P111Wxw2w21W22P11T11T12T21T22于是前p1个变量的维尔克斯统计量(Wilks)p1为当增加第p个变量后,p个变量的维尔克斯统计量(Wilks)p为,TOCo1

6、-5hzW11W12W21W22t11T1221T22所以有,T22T21T11T121W21W1IW22W21W111W12W21W1V2统计量n(p(m1)n(p(m1)1)m的极限分布是F(m1),n(p1)m)。用此F统计量来检验给定前p1个变量的条件下,增加第p个变量的条件均值是否相等,即是否对区分总体提供附加信息。三、引入和剔除变量的依据和检验统计量在上述理论基础上,下面给出,判别分析中引入变量和剔除变量的依据和检验方法。(1)假定我们已经计算了I步,并且已经引入了X1,x2,xI,现对第I1步添加一个新变量Xr的“判别能力”进行检验,为此将变量分为两组,第一组是前I个已经引入的变

7、量,第二组仅有一个变量Xr,将这I1个变量的组内离差阵和总离差阵仍分别记为其中,wrrIW22W21W111W12Wrr其中,wrrIW22W21W111W12WrrW11W12W21W22W1W“(I)W,枫WrIT111T12T21T22T11trr(I)i1r”1其中,trrIT22T21T11T12Trrr”1其中,trrIT22T21T11T12TrrTr1T11所以维尔克斯统计量W1wjTnltJwrrltrr1wrrltrr1,有11VrVr由附加信息检验准则,则引入变量的依据是Vr,引入变量的检验统计量为l1Vrn丨mtrr丨wrr丨n丨mVrm1Wrr丨m1它服从于分布Fm1

8、,n丨m。在未选入变量中,选择使Vr达到最小值的变量xr,当F1rFm1,n丨m时,则认为变量Xr提供了附加信息,即Xr的判别能力显著,由此将Xr作为入选变量X,1。对已入选的丨个变量中,要考虑较早选入的变量中其重要性有没有较大变化,应及时把不能提供附加信息的变量剔除,易V除的原则同于引进变量。(2)如果第丨1步是剔除变量xr1r丨,第|1步剔除变量xr的能力等价于第I步引入Xr的判别能力,令,引入Xr的判别能力,令,VrWrr丨1trrI1trr丨Wrr丨则相应的剔除变量的依据是Vr,剔除变量的检验统计量为1Vrn(丨1)mwrrItrrIn(I1)mVrm1trrIm1它服从于分布Fm1,

9、n(I1)m。如果对于某个变量Xr1rI,使得在已经入选的变量中的Vr具有最大值,并且满足F2rFm1,n(I1)m,则认为变量Xr不能提供附加信息了,即Xr的判别能力不显著,由此应该将Xr从入选变量中剔除。四、求解判别函数中的矩阵变换为求判别函数,逐步判别在计算上采用的是“求解求逆紧凑变换法”将变量逐步引入或剔除,每引入或剔除一个变量称为逐步判别的一步。设初始的组内离差矩阵为(Wj0),初始的总的离差矩阵为(tj0),从它们开始,每步施行一次变换,假如已经进行了I步,引入了I个变量,则第I1步无论是引入还是剔除变量xr,都要进行如下的变化:(I1)Wj1)i),WjJ1)i),tj1tr(;

10、tiwjWrJI),itt?tjirI),i前三步都只引入,而不逐步判别过程,就是不断的引入和剔除变量的过程,可以证明,必考虑剔除,在以后的各步中则首先考虑剔除,如果不能剔除则再考虑引入,当既不能剔除又不能引入时,逐步计算的过程即告终止,将已选中的变量建立判别函数。五、建立判别式,对样品判别分类IJIJ假设最终引入了I个变量,并得到最终变换矩阵WjjI,则第k组的判别函数为:kInqkCkoCkJXJJk1,2,m;J已入选变量。其中,式中的qk为第k组的先验概率,一般采用样品频率代替,k1,2,k1,2,m;i已入选变量CkjnmwjIXkiik1,2,m;i已入选变量。1CkO2CkiXkiiXki为第k组第i个变量的均值。将每个样品x(x1,Xp)(可以是新样品也可以是原来的样品)分别代入k个判别式中,若y毁maxy(g),则x属于第h个总体。并且,此时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论