多元统计分析之判别分析_第1页
多元统计分析之判别分析_第2页
多元统计分析之判别分析_第3页
多元统计分析之判别分析_第4页
多元统计分析之判别分析_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

#了y(g/x)了y(g/x)之后,就可以根据下式算出P(g/x):P(g/x)=exp{y(g/x)}为exp{y(i/x)}i=1因为y(g/x)=ln(qf(x))—A(x)gg其中A(x)是ln(qf(x))中与g无关的部分。ggqf(x)P(g/x)=所以丈qf(x)iiexpfy(g/x)+△(x)}工exp{y(i/x)+A(x)}exp{y(g/x)}expA(x)}为exp{y(i/x)}exp{A(x)}exp{y(g/x)}迓exp{y(i/x)}i=1由上式知使y为最大的h其P(h/x)必为最大,因此我们只须把样品x代入判别式中:分别计算y(g/x),g=1,,k。y(g/x)=maxy(g/x)=maxfy(g/x)}1<g<k例1继续用前面距离判别法例1的人文发展指数的数据作Bayes判别分析。这里组数k=2,指标数p=3,n1=n2=5q=q==0.51210lnq=lnq=-0.693147_12x(1)=(75.8&94.0&5343.4)'x(2)=(70.44,91.74,3430.4))0.120896-0.038450.120896-0.038450.0000442-0.038450.0292780.00007990.00004420.00007990.00000434代入判别函数:g=1,2y(g/x)=Inq——卩(g压-1卩(g)+xY-1卩(g)g=1,2得两组的判别函数分别为:f=-323.17194+5.79239x+0.26383x+0.03406x123f=-236.02067+5.14013x+0.25162x+0.02533x123将原各组样品进行回判结果如下:原类号判别函数f值判别函数f2值回判类别

样品序号原类号判别函数f值判别函数值回判类别后验概率11326.2073315.663011.000021345.9698333.273511.000031337.7240325.892611.000041298.3032291.492910.998951307.7082298.893910.999962258.5374261.009720.922272254.2452261.335820.999282221.8201232.604921.000092202.9712221.350221.0000102191.8280203.802721.0000回判结果表明,总的回代判对率为100%,这与统计资料的结果相符,并与前面的距离判别法、Fisher判别法的结果也相同。待判样品判别结果如下:样品序号国家判别函数力值判别函数f值后验概率判属类号11中国160.9455185.42521.0000212罗马尼亚202.2739219.59391.0000213希腊329.3008319.00730.99997114哥伦比亚277.7460273.56380.98501待判样品的结果表明,判属类别与前面的判属类别完全相同,即中国、罗马尼亚属于第二类,希腊、哥伦经亚属于第一类。例2继续用前面距离判别法例2的制度变量的数据作Bayes判别分析。由前知:x⑴=(15.7363665.0281825.1490973.80455)'x⑵=(11.562540.106259.22812558.105)'9.85451823.9849414.278375.46076723.98494212.05611.66556769.7318514.278371.665567202.03449.51356_5.46076769.731859.5135664.11822_0.168616-0.02312-0.012320.012615-0.023120.0105320.002008-0.00978-0.012320.0020080.005898-0.00201_0.012615-0.00978-0.002010.02546ln=In-耳=-0・89794lnq2=H一°52325两组的判别函数分别为:f=-0.89794-53.9646+1.770953x-0.35051x-0.06328x+1.39083x1234f=-0.52325-36.7998+1.641542x-0.39486x-0.12426x+1.214283x1234判别原则:若样品的f〉f2,则属于第一组;若f<f2,则属于第二组。回判结果如下:

样品序号f1样品序号f146.1538249.1303347.14044447.45132546.91096656.41836774.60206857.40508958.392281037.375031142.999431232.599361348.824751437.966521532.665731635.762911728.488171838.478831936.402532036.556192119.538622228.472312350.321912426.29651259.5511082619.229992727.43029原组号45.92303148.37659146.00474146.92781145.60499154.52272169.05436154.00861150.6805138.79102142.69357136.07388250.32792241.07936234.24727236.99605231.54708239.73073238.04855240.49901225.39307230.56796252.45129231.23333217.72358225.62974232.131982回判组号后验概率10.64690510.75554510.81911910.7105810.84299210.9063910.99732810.97749310.99969210.73909810.66386120.95688620.75555620.93924120.76974220.70233620.93608920.70616720.7809720.97256520.99584720.84825320.85254220.98966820.9995920.99758820.986965Bayes法的回判结果与距离判别法的结果是一样的,其判对率为96.3%。待判样品判别结果如下:样品序号f判属组号后验概率2847.3285145.7500710.8289832936.8516437.1258520.5681273023.4642927.5319720.983171在Bayes法下,关于待判的三个样品的判别结果:江苏判属于第一组,安徽和陕西判属于第二组。其中,安徽的判属组别与前两种方法不一样,这与方法本身有差异有关,但也与安徽的数据有关,其数据介于一组和二组之间,差别不显著。§6.5逐步判别法前面介绍的判别方法都是用已给的全部变量x,x,,x来建立判别式的,但这些变量2p在判别式中所起的作用,一般来说是不同的,也就是说各变量在判别式中判别能力不同,有些可能起重要作用,有些可能作用低微,如果将判别能力低微的变量保留在判别式中,不仅会增加计算量,而且会产生干扰影响判别效果,如果将其中重要变量忽略了,这时作出的判别效果也一定不好。如何筛选出具有显著判别能力的变量来建立判别式呢?由于筛选变量的

重要性,近三十年来有大量的文章提出很多种方法,这里仅介绍一种常用的逐步判别法。1基本思想逐步判别法与逐步回归法的基本思想类似,都是采用“有进有出”的算法,即逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,如果其判别能力随新引入变量而变为不显著了(例如其作用被后引入的某几个变量的组合所代替),应及时从判别式中把它剔除去,直到判别式中没有不重要的变量需要剔除,而剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。这个筛选过程实质就是作假设检验,通过检验找出显著性变量,剔除不显著变量。引入剔除变量所用的检验统计量设有k个正态总体N(卩⑴,Z),i=1,…,k,它们有相同的协方差阵。因此如果它们有产p左别也只能表现在均值向量卩(i)上,今从k个总体分别抽取n,…,n个样品,X⑴,…,X⑴;1k1n1…;X(k),…,X(k),令nHbn=n。今作统计假设1nk1k0H:p(1)=P(2)=…=p(k)如果接受这个假设,说明这k个总体的统计差异不显著,在此基础上建立的判别函数效果肯定不好,除非增加新的变量。如果H0被否定,说明这k个总体可以区分,建立判别函数是有意义的,根据第三章§3.1检验H的似然比统计量为E|e|Ap"|a+E〜A(n—k,k-1)Ap"|a+E其中、k,nE=Ma(X(a)—X(a)),(X(a)—X(a))iia=1i=1b——A=£n(X(a)—X)'(X(a)—X)aa=1由A°的定义可知:0<A占1,而|E、T的大小分别反映了同一总体样本间的差异和k个总体所有样本间的差异。因此,A。值越小,表明相同总体间的差异越小,相对地,样本间总的差异越大,即各总体间有较大差异,因此对给定的检验水平a,应由A。分布确定临界值九,使P{A〉九}=a,当A<九时拒绝H0,否则H0相容。这里A标下角标A是apapa00(p)强调有p个变量。由于Wilks分布的数值表,一般书上没有,所以常用下面的近似公式:Bartlett近似式:Rao近似式In极限分布在Rao近似式In极限分布在H°成立下x2(p(k—1))kn-(p-1)-k)]-(aa—1—1)极限分布k—1F(k—1,n—(p—1)—k)这里根据Rao近似式给出引入变量和剔除变量的统计量。为此先复习线性代数的一个定理。设A=(a)且将A剖分为:ijpxp_AA_A=1112AA2122这里A11、A22是方阵且非奇异阵,则'A=A1JA22

—A21A1—11A12=IA22IA11—A12A2—21A21另外在筛选变量过程中,要计算许多行列式,在建立判别函数时往往还要算逆矩阵,因此需要有一套方便的计算方法,这就是消去变换法(见后面附录)。(1)引入变量的检验统计量假定计算l步,并且变量x,x…,x已选入(L不一定等于l),今考察第l+1步添加一12L个新变量x的判别能力,此时将变量分成两组,第一组为前L个已选入的变量,第二组仅r有一个变量x,此时L+1个变量的组内离差阵和总离差阵仍分别为E和TorEL11E21其中Ee—E—(e,e12211r2r,…J)'Lr其中由于其中e(1)rr(注意:同理其中于是所以LT]111T21T'—T—(t,t,…,t)12211r2rLr|E|-|E|e⑴11rr—|E-EE-1E22211112ee・•・ee11121L1ree・•・ee21222L2ree・eeL1L2LLLree・eer1r2rLrr一tt・tt一11121L1rtt・tt21222L2rtt・ttL1L2LLLrtt・ttr1r2rrrr12T22E12E22E—1E111r上式行列式里是一个数,所以可去掉行列式符号,又r相当于2。)t(l)rrIE=_TTj—T—TT—1T22211112|E|e(l)—11rr—t⑴rre(l)A—A•—r^L+1Lt(l)rrAt(l)—e(l)L——1——rrrr-Ae(l)L+1rr=E—E22E-1E=e211112—Errr1口|t|-|tt(i)11rr—T—TT—1Trrr1111rA1—AAr

Ar其中Ae(l)―rr-t(l)rr将上式代入Rao近似式中得到引入变量的检验统计量:1—An—l—kF——〜F(k—1,n—l—k)1rAk—1r若F〉F(k—1,n—l—k),则〜判别能力显著,我们将判别能力显著的变量中最大的1ra1变量(即使A为最小的变量)作为入选变量记为x。rl+1值得强调的是:不管引入变量还是剔除变量,都需要对相应的矩阵E和T作一次消去变换,比如说,不妨设第一个引入的变量是X],这时就要对E和T同时进行消去第一列的变换得到E⑴和T⑴,接着考虑引入第二个变量,经过检验认为显著的变量,不妨设是x2,这时就要对E⑴和T⑴同时进行消去第二列的变换得到E⑵和T⑵,对剔除变量也如此。(2)剔除变量的检验统计量考察对已入选变量x的判别能力,可以设想已计算了l步,并引入了包括x在内的某Lrr个为量(L不一定等于l)。今考察拟在第l+1步剔除变量x的判别能力,为方便起见,可以r假设x是在第l步引入的,也即前1-1步引进了不包括x在内的1-1个变量。因此问题转化rr为考察第1步引入变量x(在其它1-1个变量已给定时)的判别能力,此时有re(1—1)A=—rt(1—1)rr对相应的E(1)、T(1),再作一次消去变换有:于是e(1+1)=<于是e(1+1)=<ije(1)■e(1)rj•rre(1)—e(1)e(1门e(1)jirrj*rr1e(1)rr—e(1)fe(1)ir'rrt(1+1)=<ijt(1t(1)rjrrt(1)—t(1)t(1)■■■>(1)jirrjrr11(1)rr—t(1r't(1)ir1rr1e(1)A=rr-r1t(1)rrt(1)—¥¥—e(1)rri=r,j主ri丰r,j丰ri=r,j=ri丰r,j=ri=r,j丰ri丰r,j丰ri=r,j=ri丰r,j=r从而得到剔除变量的检验统计量:1—An—(L—1)—mF二f•—--〜F(k—1,n—(L—1)—k)2rAm—1r在已入选的所有变量中,找出具有最大A(即最小F)的一个变量进行检验。若r2rF<F,则认为x判别能力不显著,可把它从判别式中剔除。2rar具体计算步骤(1)准备工作计算各总体中各变量的均值和总均值以及E=(e)和T=(t)jpxpjpxp规定引入变量和剔除变量的临界值F进和F出(取临界值F>F>0,以保证逐步进出进出筛选变量过程必在有限步后停止)在利用电子计算机计算时,通常临界值的确定不是查分布表,而是根据具体问题,事先给定。由于临界值是随着引入变量或剔除变量的个数而变化的,但是当样本容量n很大时,它们的变化甚微,所以一般取F卄=FAF,如果想少选入几个进出=a变量可取F=F=10,8,等等。如果想多选入变量可取F、卄=F=1,0.5,等等,显然如果进出进出取F=F=0则全部变量都被引入。进出(2)逐步计算假设已计算1步(包括1=0),在判别式中引入了某-个变量,不妨设x,x,…,x,则12L第1+1步计算内容如下:i)计算全部变量的“判别能力”对未选入变量x计算对未选入变量x计算Aiie(1)=~ii_t(1)iii=L+1,…,P对已选入变量x计算A=tj=1,…,Ljje(1)iiii)在已入选变量中考虑剔除可能存在的最不显著变量,取最大的A(即最小的F)。j2j假设A=max{A},这里jg-表示x属已入选变量。作F检验:剔除变量时统计量为:rjGLjj

厂1-An-k-(L-1)TOC\o"1-5"\h\zF=r-2rAk-1r若F<F,则剔除x,然后对E⑴和T(i)作消去变换。r出r若F〉F,则从未入选变量中选出最显著变量,即要找出最小的A(即最大的F)。2r出_i1i假设A=min{A},这里zeL表示x属于未入选变量。作F检验:引入变量时统计量为riiieLF1-An-k-L1rAk-1r若F〉F,则引入x,然后对E(i)和T(i)作消去变换。1r进r在第l+1步计算结束后,再重复上面的i)、ii)直至不能剔除又不能引入新变量时,逐步计算结束。(3)建立判别式,对样品判别分类经过第二步选出重要变量后,可用各种方法建立判别函数和判别准则,这里使用Bayes判别法建立判别式,假设共计算1+1步,最终选出L个变量,设判别式为:g=1,…,ky=1q+C(g)+壬C(g)x

g=1,…,ki=1将每一个样品x=(片,…,x丿'(x可以是一个新样品,也可以是原来n个样品之一。)分别代入k个判别式yg中去。若y(h/x)=max{y(g/x)},则xe第h总体。1<g<k顺便指出两点:(1)在逐步计算中,每步都是先考虑剔除,后考虑引入,但开头几步一般都是先引入,而后才开始有剔除,实际问题中引入后又剔除的情况不多,而剔除后再重新引入的情况更少见。(2)由算法中可知用逐步判别选出的L个变量,一般不是所有L个变量组合中最优的组合(因为每次引入都是在保留已引入变量基础上引入新变量)。但在L不大时,往往是最优的组合。例1再次利用人文发展指数的三项指标作逐步判别分析。(1)计算两类各变量的均值、总均值、组内离差阵、总离差阵如下:x1x2x1x2分类均值第一类75.8894.08第二类70.4491.74总均值73.1692.91X35343.43430.24386.8组内离差阵为:123.04173.704-4447W=S+S=12173.704532.9-11568.78-4447-11568.782100372总离差阵为:T=立"a(X(a)-Xy(X(a)kk-X)a=1k=1197.02206.0721572.52=206.07547.06-185.2421572.52-185.24112512077.62)逐步计算

设引入变量的临界值为行,剔除变量的临界值为F2,今取F]=F2=2。第一步:(L=0)A1=AA1=A2h==0.6245t197.0211532.9——一=0.9741A3210037211251207.6=A3210037211251207.6=0.1867最小)本步无剔除,考虑引进x3=34.8542厂1—An—m—l1—0.186710—2—=34.8542Am—10.18672—13F>F=2,故引进变量x3。123对矩阵W、T同时对x3作消去变换得W⑴及T⑴如下:X1X2X3X1113.6246149.21010.002117244W(1)X2149.2101469.17950.005507967-0.002117244-0.0055079674.76106E-073X1155.6579206.4252-0.0019174T⑴X2206.4252547.0569516464E-05x30.0019174-1.6464E-058.88793E-08第二步:(L=1)113.6246A1A2=A1A2155.6579469.1795=0.8576547.05695本步无剔除(因只引进一个变量x3),考虑引进变量x1,—A10—2—1F=1•-—=2.5896A2—11F>F=2故引进变量x10对矩阵W⑴、T⑴同时对X]作消去变换得W⑴、T⑴如下:X1X2X3X10.008011.313181.86337E-05W(2)X2-1.31318273.23920.0027276X3X11.86337E-05-0.00272765.15558E-070.0064243451.326146-1.23177E-07T⑵X2-1.326146273.30690.002559x3-1.23177E-05-0.0025591.12497E-07第三步,(L=2)0.006424345对已入选的变量计算:A=0.006424345=0.72996(最大)10.008801

人1.12497E-07=0.2182A==0.21823一5.15558E-07对未入选的变量计算:Ac=一:——=0.999752273.30691-A10-2-1考虑X的剔除:F=1-=2.5896A2-11F>F=2故〜不能剔除。211-A10-2-2考虑工2的引进:F=2-=0.0015A2-22F>F=2故x2不能剔除。12至此既无变量剔除,又无变量引入,故逐步计算结束,这时引入的重要变量为X](出生时预期寿命)与x3(调整后人均GDP)。(3)计算结果(a)判别函数为f1(f1(x)=lnq1+C01Cxa1aa=1=-323.17194+5.79239x+0-x+0.03406x123f(x)=-236.02067+5.14013x+0-x+0.02533x2123(b)检验判别效果对参予选判别函数的已知分类的10个样品进行回判结果如下:序号原分类号判别函数f,的值判别函数f的值计算分类号后验概率11300.0881290.752610.999921319.8506308.363111.000031311.6048300.982211.000041273.0019267.362510.996551287.2086279.343010.99966223.0012237.183120.960172229.2077237.457120.999782197.7588209.693221.000092176.8520196.439821.0000102170.5633183.522121.0000回判结果表明,第一类、第二为的判对率均为100%。对未知分类的4个待判样品的判别结果如下:样品序号国家f值人值后验概率判属类号11中国140.0238165.47171.0000212罗马尼亚176.7088195.21191.0000213希腊304.5535295.40530.99989114哥伦比亚253.9222250.84250.95601从待判样品结果表明:判属类别与前面的结果完全一致,即中国、罗马尼亚属于第二类;

希腊、哥伦比亚属于第一类。总之,从逐步判别法所得的结果可看出,尽管这里没有利用变量x(成人识字率),但所

2

得的判别结果与利用全部变量所得的判别结果完全一致,这充分说明了三个变量在判别式中

所起的作用不同。例2再次对全国30个省市自治区1994年的影响各地区经济增长差异的4项制度变量作逐步判别分析。x⑵=(11.562540.10625599.62355301.402-246.363599.6235W=356.959241.63917136.51921743.296—359.9231277.685T—1277.6859350.071T790.12742628.065563.66314293.751x⑴=(15.7363665.02818(x⑴=(15.7363665.02818(2)逐步计算取F1=2.5,F2=2第一步:(L=0)计算A=0.68448825.1490973.80455)9.22812558.105)'356.9592146.5192「41.639171743.2965050.86237.839237.8391602.955790.1274563.663「2628.0654293.7516703.1561867.1551867.1553209.612A=0.5669912A=0.7535053A=0.499423(最小)4本步无剔除,考虑引进x4F=25.05772>2.5,故引进x4。第二步:(L=1)计算A=0.449281A=0.4716542A=0.4452(最小)3本步无剔除(因只引进一个x4),考虑引进x3F=2.877704>2.5,故引进x3。第三步:(L=2)对已入选的变量计算A=0.753505(最大)3A=0.499423考虑x3的剔除F=2.877704>2,故x不能剔除对未入选变量计算A=0.4244151A=0.420346(最小)2考虑x2的引进F=1.401059>2.5,故x2不能引进。至此既无变量剔除又无变量可引入,故逐步计算结束(3)计算结果(a)判别函数为f=-0.89794-43.8774+0.070771x+1.140569x34f=-0・52325-26.852+0.003024x+0.905768x34

样品序号原组号回判组号后验概率1110.7547082110.6616633110.7812064110.753595110.6566336110.9347127110.9937738110.9260389110.99947910120.86670211110.78627912220.86231813220.63474114220.84839215220.69601816220.83535517220.97728718220.65476719220.94150220220.92850821220.99102922220.90271523220.58259824220.97271425220.99911426220.9965227220.986391待判样品的判别结果如下:样品序号判属组号后验概率(b)检验判别效果回判结果如下:2810.58579529300.9451780.9724222930昱主要是:市场化程度&丿和开放度计算结果表明影响各地区经济增长差异的制度变量主昱主要是:市场化程度&丿和开放度(x3),其回判的结果与实际是相符的。§6.6附注这里不加证明的指出以下几个结论:1判别函数中分界点的选取分界点的选取对判别效果的影响还是很大的,如果选取不当,很可能使一个好的判别函数变得毫无分类的价值。对分界点的取法可以有各种不同的出发点。前边曾给出的分界点为:ny⑴+ny⑵

y=—120n+n12但也可以人为地从经验或问题的实际背景出发指定y0值,也可以把n+n2个y(x)值从小到大排队,适当地取其中一点作分界点y0;或者可以取一个区间(c,C),,此处c〉c,然01221后规定若y(x)>c,则判xeG21<若y(x)<c,则判xeG12

若c<y(x)<c,则待定

12如果想从数学上来讨论还有平均错判率最小法即使E=qiP(2/1)+q乂P(1/2)达到最小值的解或最小最大错判率法即使两个错判概率P(2/1)与P(1/2)中最大的一个尽可能地小,它们都是从不同的出发点确定分界点,有兴趣的读者,可查看本书后面列出的参考书。判别法则的评价无论用哪一种判别方法,去判断样品的归属问题,均不可能永远作出正确的判断,一般总会发生错判,用错判概率的大小来衡量判别效果是很自然的想法,那么如何来计算错判的概率呢?比如只有两个总体q,G2,要计算错判概率P(2/1)和P(1/2)就需要知道总体的分布以及判别函数的分布,从数学上是可以对它们进行讨论的,但实用起来总是不太方便。目前已研究出很多种估计错判概率的方法。除本章例子中所用的方法即用建立判别函数的训练样品进行回代,用错判的样品数比上全体样品数作为错判概率的估计。但是经验证明这种方法估计错判概率往往偏低,于是产生一种改进的方法即将已知类别的样品分成两部份,用其中一大部份样品(例如85%)的观测数据去建立判别函数和判别准则,用剩余的一小部份样品(15%)的观测数据进行判断,将错判的比例作为错判概率的估计。它的优点是容易计算,又不要求已知总体的分布及判别函数的分布,缺点是在建立判别函数时,未能充分利用全部样品的信息,且样品量较大。这里再介绍一种常用的方法——刀切法。具体做法是:从总体G,G中分别取出n,n个样品,令n+n=n,对n个样品加以编号,从第1121212号、2号直至Un号。在n个样品中,先去掉第1号样品,用余下的n-1个样品建立判别函数和判别准则,然后把第1号样品的观测数据代入,看它被判归为哪个总体,如果判错加以记录。把第1号样品放回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论