版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、. z.第六章 判别分析6.1 什么是判别分析判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进展分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济开展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,
2、根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别*游泳运发动的苗子是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据*人多种体验指标如体温、血压、白血球等来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。判别分析与聚类分析不同。判别分析是在研究对象分成假设干类型或组别并已取得各种类型的一批样品的观测数据,在此根底上根据*些准则建立判别式,然后对未知类型的样品进展判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求
3、先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进展分类,然后再用判别分析建立判别式以对新样品进展判别。判别分析容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher判别法
4、、Bayes判别法和逐步判别法。6.2 距离判别法根本思想:首先根据分类的数据,分别计算各类的重心即分组类的均值,判别准则是对任给的一次观测,假设它与第i类的重心距离最近,就认为它来自第i类。距离判别法,对各类或总体的分布,并无特定的要求。1 两个总体的距离判别法设有两个总体或称两类G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标如下页表。今任取一个样品,实测指标值为,问*应判归为哪一类?首先计算*到G1、G2总体的距离,分别记为和,按距离最近准则判别归类,则可写成:G1总体: G2总体: 变量样品 变量样品均值均值记如果距离定义采用欧氏距离,则可计
5、算出然后比较和大小,按距离最近准则判别归类。由于马氏距离在多元统计分析中经常用到,这里针对马氏距离对上述准则做较详细的讨论。设、,、分别为G1、G2的均值向量和协方差矩阵。如果距离定义采用马氏距离即这时判别准则可分以下两种情况给出:1当时考察及的差,就有:令则判别准则可写成:当时,令则显然,W(*)是的线性函数,称W(*)为线性判别函数,a为判别系数。当未知时,可通过样本来估计。设来自Gi的样本,i=1,2。其中 线性判别函数为:当p=1时,假设两个总体的分布分别为和,判别函数,不妨设,这时W(*)的符号取决于或。当时,判;当时,判。我们看到用距离判别所得到的准则是颇为合理的。但从以下列图又可
6、以看出,用这个判别法有时也会得出错判。如*来自G1,但却落入D2,被判为属G2,错判的概率为图中阴影的面积,记为,类似有,显然=。当两总体靠得很近即|小,则无论用何种方法,错判概率都很大,这时作判别分析是没有意义的。因此只有当两个总体的均值有显著差异时,作判别分析才有意义。2当时按距离最近准则,类似地有:仍然用作为判别函数,它是*的二次函数。2 多个总体的距离判别法类似两个总体的讨论推广到多个总体。设有k个总体G1, , Gk,它们的均值和协方差阵分别为,从每个总体Gi中抽取ni个样品,i=1,k,每个样品测p个指标。今任取一个样品,实测指标值为,问*应判归为哪一类?G1总体: Gk总体: 变
7、量样品 变量样品均值均值记向量1当时此时判别函数为:相应的判别准则为:当,未知时可用其估计量代替,设从Gi中抽取的样本为,则,的估计分别为其中 为Gi的样本离差阵。2当不相等时此时判别函数为:相应的判别准则为:当未知时,可用的估计量代替,即例1 人文开展指数是联合国开发方案署于1990年5月发表的第一份人类开展报告中公布的。该报告建议,目前对人文开展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别要用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文开展指数。资料来源:UNDP人类开展报告1995年。今从1995年世界各国人文开展
8、指数的排序中,选取高开展水平、中等开展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。数据选自世界经济统计研究1996年第1期类别序号国家名称出生时的予期寿命岁*1成人识字率%1992*2调正后人均GDP1992*3第一类高开展水平国家12345美国日本瑞士阿根廷阿联酋7679.57872.173.899999995.977.753745359537252425370第二类中等开展水平国家678910保加利亚古巴巴拉圭格鲁吉亚南非71.275.37072.862.99394.991.29980.642503412339023003799待判样品11121314中国罗马尼亚
9、希腊哥伦比亚68.569.977.669.379.396.993.890.31950284052335158本例中变量个数p=3,两类总体各有5个样品,即,有4个待判样品,假定两总体协差阵相等。两组线性判别的计算过程如下:2计算样本协差阵,从而求出类似地经计算3求线性判别函数W(*)解线性方程组得4对类别的样品判别分类对类别的样品通常称为训练样品用线性判别函数进展判别归类,结果如下,全部判对。样品号判别函数W(*)的值原类号判归类别1234510.545112.697211.83236.8118.81531111111111678910-2.4716-7.0898-10.7842-18.378
10、8-11.974222222222225对判别效果作检验判别分析是假设两组样品取自不同总体,如果两个总体的均值向量在统计上差异不显著,作判别分析意义就不大。所谓判别效果的检验就是检验两个正态总体的均值向量是否相等,根据第三章3.1可知检验的统计量为:其中 将上边计算结果代入统计量后可得:故在检验水平下,两总体间差异显著,即判别函数有效。6对待判样品判别归类结果如下表:样品号国 家判别函数W(*)的值判别类别11121314中 国罗马尼亚希 腊哥伦比亚-24.47899-15.5813510.294434.182892211简短分析:回代率为百分之百,这与统计资料的结果相符,而待判的四个样品的判
11、别结果说明:中国、罗马尼亚为中等开展水平国家即第二类,希腊、哥伦比亚为高开展水平国家即第一类,这是符合当时实际的,即与当时世界各国人文开展指数的水平相吻合。例2 对全国30个省市自治区1994年影响各地区经济增长差异的制度变量:*1经济增长率%、*2非国有化水平%、*3开放度%、*4市场化程度%作判别分析。资料来源:经济理论与经济管理1998年第1期类别序号地区*1*2*3*4第一组111.257.2513.4773.41214.967.197.8973.093*14.364.7419.4172.33413.555.6320.5977.33516.275.5111.0672.08614.357
12、.6322.5177.3572083.9415.9989.5821.868.0339.4271.991978.3183.0380.7510*1657.1112.5760.911111.949.9730.769.2第二组128.730.7215.4160.251314.337.6512.9566.421410.134.637.6862.96159.156.3310.366.011613.865.234.6964.241715.355.626.0654.74181155.558.0267.47191862.886.458.832010.430.014.6160.26218.229.286.1150
13、.712211.462.885.3161.492311.628.579.0868.47248.430.236.0355.55258.215.968.0440.2626*10.924.758.3446.012715.621.4428.6246.01待判样品2816.580.058.8173.042920.681.245.3760.43308.642.068.8856.37(1)两类地区各变量的均值2计算样本协差阵,从而求出和3求线性判别函数解线性方程组得经计算4对类别的样品回判由于为第一组,为第二组。样品序号W(*)原类号回归组别10.9801571121.5031031131.88508411
14、41.2728981152.0553511162.6450241176.2970841184.1458541198.4611641110-0.6665912111.0552431112-2.725142213-0.753782214-2.363462215-0.832162216-0.483752217-2.309532218-0.502152219-0.896632220-3.193432221-5.105072222-1.346272223-1.379982224-4.187442225-7.423092226-5.650372227-3.952322上述回判结果说明,第一组中只有第10个
15、样品判组号为2,与原组号不同,其余样品与原分组号一样;第二组中的各样品回判组号都是2,即与原组号完全一样。我们仔细研究第10号样品*的指标数据,可以看到它有可能是属于原分组时的错分样品。总的回代判对率达96.3%。5对待判样品判别归类,结果如下:样品序号W(*)判归类别282.3278251290.475173130-3.318292待判样品中和被判属第一组,被判属第二组,这与实际情况较吻合。6.3 费歇Fisher判别法Fisher判别法是1936年提出来的,该法对总体的分布并未提出什么特定的要求。1 不等协差阵的两总体Fisher判别法1根本思想:从两个总体中抽取具有p个指标的样品观测数据
16、,借助方差分析的思想造一个判别函数或称判别式:,其中系数、确定的原则是使两组间的区别最大,而使每个组部的离差最小。有了判别式后,对于一个新的样品,将它的p个指标值代入判别式中求出y值,然后与判别临界值或称分界点后面给出进展比较,就可以判别它应属于哪一个总体。2判别函数的导出假设有两个总体G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品观测p个指标,列表如下:G1总体: G2总体: 变量样品 变量样品均值均值假设新建立的判别式为,今将属于不同两总体的样品观测值代入判别式中去,则得:对上边两式分别左右相加,再乘以相应的样品个数,则有:第一组样品的重心第二组样品的重心
17、为了使判别函数能够很好地区别来自不同总体的样品,自然希望:i来自不同总体的两个平均值相差愈大愈好。ii对于来自第一个总体的要求它们的离差平方和愈小愈好,同样也要求愈小愈好。综合以上两点,就是要求: 愈大愈好。记为两组间离差。为两组的离差。则利用微积分求极值的必要条件可求出使I到达最大值的。为此将上式两边取对数:令 则 即 而 其中 而 其中从而即令是常数因子,不依赖于k,它对方程组的解只起到共同扩大倍的作用,不影响它的解之间的相比照例关系。对判别结果来说没有影响,所以取=1,于是方程组:即写成矩阵形式为:所以 值得说明的是:本书有几处利用极值原理求极值时,只给出必要条件的数学推导,而有关充分条
18、件的论证省略了,因为在通常遇到的实际问题中,根据问题本身的性质就能肯定有最大值或最小值,如果所求的驻点只有一个,这时就不需要根据极值存在的充分条件判定它是极大还是极小而就能肯定这唯一的驻点就是所求的最大值或最小值,为了防止用到较多的数学知识或数学上的推导,这里不追求数学上的完整性。有了判别函数之后,欲建立判别准则还要确定判别临界值分界点y0,在两总体先验概率相等的假设下,一般常取y0为与的加权平均值即如果由原始数据求得与满足,则建立判别准则为:对一个新样品代入判别函数中去所得值记为y,假设yy0,则判定见图一;假设yy0,则判定。如果,则建立判别准则为:假设yy0,则判定见图二;假设yy0,则
19、判定注:为直观起见,给出两个正态总体等方差情况下的图形。3计算步骤i建立判别函数图一 图二求的最大值点,根据极值原理,需解方程组可得到,写出判别函数。ii计算判别临界值,然后根据判别准则对新样品判别分类。iii检验判别效果当两个总体协差阵一样且总体服从正态分布。检验统计量:其中给定检验水平a, 查F分布表,确定临界值,假设,则被否认,认为判别有效。否则认为判别无效。值得指出的是:参与构造判别式的样品个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,指标过多不仅使用不方便,而且影响预报的稳定性。所以建立判别式之前应仔细挑选出几个对分类特别有关系的指标,要使两类平均值之间的差异
20、尽量大些。例1 利用距离判别法中例1的人文开展指数的数据作Fisher判别分析。1建立判别函数利用前例计算的结果,可得Fisher判别函数的系数、为所以判别函数为2计算判别临界值y0由于 所以 3判别准则判别准则为4对类别的样品判别归类序号国 家判别函数y的值原类号判归类别1美 国12.2122112日 本12.4812113瑞 士12.3731114阿根廷11.7450115阿联酋11.9960116保加利亚10.5851227古 巴10.0078228巴拉圭9.5460229格鲁吉亚8.59682210南 非9.397322上述回判结果说明:总的回代判对率为100%,这与统计资料的结果相符
21、,而且与前面用距离判别法的结果也一致。5对判别效果作检验由于所以在检验水平下判别有效。6待判样品判别结果如下:序号国 家判别函数y的值判属类别11中 国7.8342212罗马尼亚8.9464213希 腊12.1809114哥伦比亚11.41691判别结果与实际情况吻合。例2 用距离判别法中例2的制度变量对30个省市自治区作Fisher判别分析。1建立判别式经计算得:判别式为2求判别临界值y0,对所给样品判别分类由于,当样品代入判别工后,假设,则判为第一组;假设,则判为第二组。回判结果如下:样品序号y值原类号回判组别10.7108141120.7317311130.7470111140.7225
22、231150.7538211160.7774081170.9234911180.8374411191.01005411100.64494412110.71381711120.56260222130.64145622140.57706922150.63832122160.65225721170.57922622180.65152122190.636574222200.5438722210.46740522220.61775722230.61640822240.5041122250.37468422260.44559322270.51351522等判样品判别结果样品序号y值判属组号280.7647
23、21290.6906141300.5388753上述回判结果说明,第一组的第10号仍被回判为第2组,说明第10号样品确为误分。而第二组的第16号被回判为第一组,仔细研究其指标,发现其数据介于第1组和第2组之间,差异不显著造成的。总的回代判对率为25/27=92.59%。关于待判的三个样品的判别结果与用距离判别法的一样,说明其判别结果是比较好的。2 多总体Fisher判别法类似两总体Fisher判别法可给出多总体Fisher判别法。设有k个总体G1, , Gk,抽取样品数分别为,令。为第i个总体的第a个样品的观测向量。假定所建立的判别函数为其中 记和分别是总体*的样本均值向量和样本协差阵,根据求
24、随机变量线性组合的均值和方差的性质可知,在上的样本均值和样本方差为记为总的均值向量,则。在多总体情况下,Fisher准则就是要选取系数向量c,使到达最大,其中是人为的正的加权系数,它可以取为先验概率。如果取,并将代入上式可化为:其中E为组离差阵,A为总体之间样本协差阵,即为求的最大值,根据极值存在的必要条件,令,利用对向量求导的公式:因此这说明及c恰好是A、E矩阵的广义特征根及其对应的特征向量。由于一般都要求加权协差阵E是正定的,因此由代数知识可知,上式非零特征根个数m不超过mink-1,p,又因为A为非负定的,所以非零特征根必为正根,记为,于是可构造m个判别函数:对于每一个判别函数必须给出一
25、个用以衡量判别能力的指标定义为:m0个判别函数的判别能力定义为:如果m0到达*个人定的值比方85%则就认为m0个判别函数就够了。有了判别函数之后,如何对待判的样品进展分类?Fisher判别法本身并未给出最适宜的分类法,在实际工作中可以选用以下分类法之一去作分类。1当取m0=1时即只取一个判别函数,此时有两种可供选用的方法i不加权法假设则判ii加权法将按大小次序排列,记为,相应判别函数的标准差重排为。令则可作为与之间分界点。如果*使得,则判。2当取时,也有类似两种供选用的方法i不加权法记对待判样品,计算假设则判。ii加权法考虑到每个判别函数的判别能力不同,记其中是由求出的特征根。假设则判。6.4
26、 贝叶斯Bayes判别法从上节看到Fisher判别法随着总体个数的增加,建立的判别式也增加,因而计算起来还是比较麻烦的。如果对多个总体的判别考虑的不是建立判别式,而是计算新给样品属于各总体的条件概率。比较这k个概率的大小,然后将新样品判归为来自概率最大的总体,这种判别法称为Bayes判别法。1 根本思想Bayes判别法的根本思想总是假定对所研究的对象已有一定的认识,常用先验概率来描述这种认识。设有k个总体G1, G2, , Gk,它们的先验概率分别为(它们可以由经历给出也可以估出)。各总体的密度函数分别为:在离散情形是概率函数,在观测到一个样品*的情况下,可用著名的Bayes公式计算它来自第g
27、总体的后验概率相对于先验概率来说,将它又称为后验概率:并且当 时,则判*来自第h总体。有时还可以使用错判损失最小的概念作判决函数。这时把*错判归第h总体的平均损失定义为其中称为损失函数。它表示本来是第g总体的样品错判为第h总体的损失。显然上式是对损失函数依概率加权平均或称为错判的平均损失。当h=g时,有;当时,有。建立判别准则为如果则判定*来自第h总体。原则上说,考虑损失函数更为合理,但是在实际应用中不容易确定,因此常常在数学模型中就假设各种错判的损失皆相等,即这样一来,寻找h使后验概率最大和使错判的平均损失最小是等价的,即2 多元正态总体的Bayes判别法在实际问题中遇到的许多总体往往服从正
28、态分布,下面给出p元正态总体的Bayes判别法。1判别函数的导出由前面表达,使用Bayes判别法作判别分析,首先需要知道待判总体的先验概率和密度函数如果是离散情形则是概率函数。对于先验概率,如果没有更好的方法确定,可用样品频率代替,即令,其中为用于建立判别函数的分类数据中来自第g总体样品的数目,且,或者干脆令先检概率相等,即,这时可以认为先验概率不起作用。p元正态分布密度函数为:式中和分别是第g总体的均值向量p维和协差阵p阶。把代入的表达式中,因为我们只关心寻找使最大的g,而分式中的分母不管g为何值都是常数,故可改令取对数并去掉与g无关的项,记为则问题化为2假设协方差阵相等中含有k个总体的协方
29、差阵逆阵及行列式值,而且对于*还是二次函数,实际计算时工作量很大。如果进一步假定k个总体协方差阵一样,即,这时中和两项与g无关,求最大时可以去掉,最终得到如下形式的判别函数与判别准则如果协方差阵不等,则有非线性判别函数;上式判别函数也可以写成多项式形式:此处, 3计算后验概率作计算分类时,主要根据判别式的大小,而它不是后验概率,但是有了之后,就可以根据下式算出:因为其中是中与g无关的局部。所以 由上式知使y为最大的h,其必为最大,因此我们只须把样品*代入判别式中:分别计算,。假设则把样品*归入第h总体。例1 继续用前面距离判别法例1的人文开展指数的数据作Bayes判别分析。这里组数k =2,指
30、标数p=3,n1=n2=5代入判别函数:得两组的判别函数分别为:将原各组样品进展回判结果如下:样品序号原类号判别函数值判别函数值回判类别后验概率11326.2073315.663011.000021345.9698333.273511.000031337.7240325.892611.000041298.3032291.492910.998951307.7082298.893910.999962258.5374261.009720.922272254.2452261.335820.999282221.8201232.604921.000092202.9712221.350221.0000102
31、191.8280203.802721.0000回判结果说明,总的回代判对率为100%,这与统计资料的结果相符,并与前面的距离判别法、Fisher判别法的结果也一样。待判样品判别结果如下:样品序号国 家判别函数值判别函数值后验概率判属类号11中 国160.9455185.42521.0000212罗马尼亚202.2739219.59391.0000213希 腊329.3008319.00730.99997114哥伦比亚277.7460273.56380.98501待判样品的结果说明,判属类别与前面的判属类别完全一样,即中国、罗马尼亚属于第二类,希腊、哥伦经亚属于第一类。继续用前面距离判别法例2的
32、制度变量的数据作Bayes判别分析。由前知:两组的判别函数分别为:判别原则:假设样品的,则属于第一组;假设,则属于第二组。回判结果如下:样品序号原组号回判组号后验概率146.153845.92303110.646905249.130348.37659110.755545347.1404446.00474110.819119447.4513246.92781110.71058546.9109645.60499110.842992656.4183654.52272110.90639774.6020669.05436110.997328857.4050854.00861110.977493958.3
33、922850.6805110.9996921037.3750338.79102110.7390981142.9994342.69357110.6638611232.5993636.07388220.9568861348.8247550.32792220.7555561437.9665241.07936220.9392411532.6657334.24727220.7697421635.7629136.99605220.7023361728.4881731.54708220.9360891838.4788339.73073220.7061671936.4025338.04855220.78097
34、2036.5561940.49901220.9725652119.5386225.39307220.9958472228.4723130.56796220.8482532350.3219152.45129220.8525422426.2965131.23333220.989668259.55110817.72358220.999592619.2299925.62974220.9975882727.4302932.13198220.986965Bayes法的回判结果与距离判别法的结果是一样的,其判对率为96.3%。待判样品判别结果如下:样品序号判属组号后验概率2847.3285145.75007
35、10.8289832936.8516437.1258520.5681273023.4642927.5319720.983171在Bayes法下,关于待判的三个样品的判别结果:判属于第一组,和判属于第二组。其中,的判属组别与前两种方法不一样,这与方法本身有差异有关,但也与的数据有关,其数据介于一组和二组之间,差异不显著。6.5 逐步判别法前面介绍的判别方法都是用已给的全部变量来建立判别式的,但这些变量在判别式中所起的作用,一般来说是不同的,也就是说各变量在判别式中判别能力不同,有些可能起重要作用,有些可能作用卑微,如果将判别能力卑微的变量保存在判别式中,不仅会增加计算量,而且会产生干扰影响判别效
36、果,如果将其中重要变量忽略了,这时作出的判别效果也一定不好。如何筛选出具有显著判别能力的变量来建立判别式呢?由于筛选变量的重要性,近三十年来有大量的文章提出很多种方法,这里仅介绍一种常用的逐步判别法。1 根本思想逐步判别法与逐步回归法的根本思想类似,都是采用有进有出的算法,即逐步引入变量,每引入一个最重要的变量进入判别式,同时也考虑较早引入判别式的*些变量,如果其判别能力随新引入变量而变为不显著了例如其作用被后引入的*几个变量的组合所代替,应及时从判别式中把它剔除去,直到判别式中没有不重要的变量需要剔除,而剩下来的变量也没有重要的变量可引入判别式时,逐步筛选完毕。这个筛选过程实质就是作假设检验
37、,通过检验找出显著性变量,剔除不显著变量。2 引入剔除变量所用的检验统计量设有k个正态总体,它们有一样的协方差阵。因此如果它们有产左别也只能表现在均值向量上,今从k个总体分别抽取个样品,;,令。今作统计假设如果承受这个假设,说明这k个总体的统计差异不显著,在此根底上建立的判别函数效果肯定不好,除非增加新的变量。如果H0被否认,说明这k个总体可以区分,建立判别函数是有意义的,根据第三章3.1检验H0的似然比统计量为其中 由的定义可知:,而、的大小分别反映了同一总体样本间的差异和k个总体所有样本间的差异。因此,值越小,说明一样总体间的差异越小,相对地,样本间总的差异越大,即各总体间有较大差异,因此
38、对给定的检验水平a,应由分布确定临界值,使当时拒绝H0,否则H0相容。这里标下角标是强调有p个变量。由于Wilks分布的数值表,一般书上没有,所以常用下面的近似公式:Bartlett近似式:Rao近似式这里根据Rao近似式给出引入变量和剔除变量的统计量。为此先复习线性代数的一个定理。设且将A剖分为:这里A11、A22是方阵且非奇异阵,则另外在筛选变量过程中,要计算许多行列式,在建立判别函数时往往还要算逆矩阵,因此需要有一套方便的计算方法,这就是消去变换法见后面附录。1引入变量的检验统计量假定计算l步,并且变量已选入L不一定等于l,今考察第l+1步添加一个新变量*r的判别能力,此时将变量分成两组
39、,第一组为前L个已选入的变量,第二组仅有一个变量*r,此时L+1个变量的组离差阵和总离差阵仍分别为E和T。其中 其中 由于 其中注意:上式行列式里是一个数,所以可去掉行列式符号,又r相当于2。同理其中于是即所以将上式代入Rao近似式中得到引入变量的检验统计量:假设,则*1判别能力显著,我们将判别能力显著的变量中最大的变量即使Ar为最小的变量作为入选变量记为。值得强调的是:不管引入变量还是剔除变量,都需要对相应的矩阵E和T作一次消去变换,比方说,不妨设第一个引入的变量是*1,这时就要对E和T同时进展消去第一列的变换得到和,接着考虑引入第二个变量,经过检验认为显著的变量,不妨设是*2,这时就要对和
40、同时进展消去第二列的变换得到和,对剔除变量也如此。2剔除变量的检验统计量考察对已入选变量*r的判别能力,可以设想已计算了l步,并引入了包括*r在的*L个为量L不一定等于l。今考察拟在第l+1步剔除变量*r的判别能力,为方便起见,可以假设*r是在第l步引入的,也即前l-1步引进了不包括*r在的l-1个变量。因此问题转化为考察第l步引入变量*r在其它l-1个变量已给定时的判别能力,此时有对相应的、,再作一次消去变换有:于是 从而得到剔除变量的检验统计量:在已入选的所有变量中,找出具有最大即最小的一个变量进展检验。假设,则认为判别能力不显著,可把它从判别式中剔除。3 具体计算步骤1准备工作i计算各总
41、体中各变量的均值和总均值以及和ii规定引入变量和剔除变量的临界值F进和F出取临界值,以保证逐步筛选变量过程必在有限步后停顿在利用电子计算机计算时,通常临界值确实定不是查分布表,而是根据具体问题,事先给定。由于临界值是随着引入变量或剔除变量的个数而变化的,但是当样本容量n很大时,它们的变化甚微,所以一般取,如果想少选入几个变量可取,等等。如果想多项选择入变量可取,等等,显然如果取则全部变量都被引入。2逐步计算假设已计算l步包括l=0,在判别式中引入了*L个变量,不妨设,则第l+1步计算容如下:i计算全部变量的判别能力对未选入变量计算对已选入变量计算ii在已入选变量中考虑剔除可能存在的最不显著变量
42、,取最大的即最小的。假设,这里表示属已入选变量。作F检验:剔除变量时统计量为:假设,则剔除,然后对和作消去变换。假设,则从未入选变量中选出最显著变量,即要找出最小的即最大的。假设,这里表示属于未入选变量。作F检验:引入变量时统计量为假设,则引入,然后对和作消去变换。在第l+1步计算完毕后,再重复上面的i)、ii直至不能剔除又不能引入新变量时,逐步计算完毕。3建立判别式,对样品判别分类经过第二步选出重要变量后,可用各种方法建立判别函数和判别准则,这里使用Bayes判别法建立判别式,假设共计算l+1步,最终选出L个变量,设判别式为:将每一个样品*可以是一个新样品,也可以是原来n个样品之一。分别代入
43、k个判别式yg中去。假设,则第总体。顺便指出两点:1在逐步计算中,每步都是先考虑剔除,后考虑引入,但开头几步一般都是先引入,而后才开场有剔除,实际问题中引入后又剔除的情况不多,而剔除后再重新引入的情况更少见。2由算法中可知用逐步判别选出的L个变量,一般不是所有L个变量组合中最优的组合因为每次引入都是在保存已引入变量根底上引入新变量。但在L不大时,往往是最优的组合。例1 再次利用人文开展指数的三项指标作逐步判别分析。1计算两类各变量的均值、总均值、组离差阵、总离差阵如下:*1*2*3分类均值第一类75.8894.085343.4第二类70.4491.743430.2总 均 值73.1692.91
44、4386.8组离差阵为:总离差阵为:2逐步计算设引入变量的临界值为F1,剔除变量的临界值为F2,今取F1=F2=2。第一步:L=0最小本步无剔除,考虑引进,故引进变量*3。对矩阵W、T同时对*3作消去变换得及如下:*1*2*3*1113.6246149.21010.002117244*2149.2101469.17950.005507967*3-0.002117244-0.0055079674.76106E-07*1155.6579206.4252-0.0019174*2206.4252547.0569516464E-05*30.0019174-1.6464E-058.88793E-08第二步
45、:L=1最小本步无剔除因只引进一个变量*3,考虑引进变量*1, 故引进变量*1。对矩阵、同时对*1作消去变换得、如下:*1*2*3*10.008011.313181.86337E-05*2-1.31318273.23920.0027276*31.86337E-05-0.00272765.15558E-07*10.0064243451.326146-1.23177E-07*2-1.326146273.30690.002559*3-1.23177E-05-0.0025591.12497E-07第三步,L=2对已入选的变量计算:最大对未入选的变量计算:考虑*1的剔除:故*1不能剔除。考虑*2的引进:
46、故*2不能剔除。至此既无变量剔除,又无变量引入,故逐步计算完毕,这时引入的重要变量为*1出生时预期寿命与*3调整后人均GDP。3计算结果a判别函数为b检验判别效果对参予选判别函数的分类的10个样品进展回判结果如下:序号原判别函数的值判别函数的值计算后验概率11300.0881290.752610.999921319.8506308.363111.000031311.6048300.982211.000041273.0019267.362510.996551287.2086279.343010.99966223.0012237.183120.960172229.2077237.457120.99
47、9782197.7588209.693221.000092176.8520196.439821.0000102170.5633183.522121.0000回判结果说明,第一类、第二为的判对率均为100%。对未知分类的4个待判样品的判别结果如下:样品序号国 家值值后验概率判属类号11中 国140.0238165.47171.0000212罗马尼亚176.7088195.21191.0000213希 腊304.5535295.40530.99989114哥伦比亚253.9222250.84250.95601从待判样品结果说明:判属类别与前面的结果完全一致,即中国、罗马尼亚属于第二类;希腊、哥伦比
48、亚属于第一类。总之,从逐步判别法所得的结果可看出,尽管这里没有利用变量成人识字率,但所得的判别结果与利用全部变量所得的判别结果完全一致,这充分说明了三个变量在判别式中所起的作用不同。例2 再次对全国30个省市自治区1994年的影响各地区经济增长差异的4项制度变量作逐步判别分析。1计算两类地区各变量的均值、组离差阵、总离差阵如下:2逐步计算取F1=2.5, F2=2第一步:L=0计算 最小本步无剔除,考虑引进*4,故引进*4。第二步:L=1计算 最小本步无剔除因只引进一个*4,考虑引进*3,故引进*3。第三步:L=2对已入选的变量计算最大考虑*3的剔除故不能剔除对未入选变量计算最小考虑*2的引进
49、,故*2不能引进。至此既无变量剔除又无变量可引入,故逐步计算完毕。3计算结果a判别函数为b检验判别效果回判结果如下:样品序号原 组 号回判组号后验概率1110.7547082110.6616633110.7812064110.753595110.6566336110.9347127110.9937738110.9260389110.99947910120.86670211110.78627912220.86231813220.63474114220.84839215220.69601816220.83535517220.97728718220.65476719220.94150220220.9
50、2850821220.99102922220.90271523220.58259824220.97271425220.99911426220.9965227220.986391待判样品的判别结果如下:样品序号判属组号后验概率2810.5857952920.9451783030.972422计算结果说明影响各地区经济增长差异的制度变量主要是:市场化程度*4和开放度*3,其回判的结果与实际是相符的。6.6 附 注这里不加证明的指出以下几个结论:1 判别函数中分界点的选取分界点的选取对判别效果的影响还是很大的,如果选取不当,很可能使一个好的判别函数变得毫无分类的价值。对分界点的取法可以有各种不同的出发点。前边曾给出的分界点为:但也可以人为地从经历或问题的实际背景出发指定y0值,也可以把个值从小到大排队,适当地取其中一点作分界点y0;或者可以取一个区间,此处,然后规定如果想从数学上来讨论还有平均错判率最小法即使到达最小值的解或最小最大错判率法即使两个错判概率与中最大的一个尽可能地小,它们都是从不同的出发点确定分界点,有兴趣的读者,可查看本书后面列出的参考书。2 判别法则的评价无论用哪一种判别方法,去判断样品的归属问题,均不可能永远作出正确的判断,一般总会发生错判,用错判概率的大小来衡量判别效果是很自然的想法,则如何来计算错判的概率呢?比方只有两个总体,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024试剂生产与销售代理合作合同范本3篇
- 2024版工地吊车租赁合同2篇
- 二零二四年店铺租赁合同范本(个体户专用)
- 二零二四年南京二手房买卖合同附环保检测服务协议3篇
- 2024离婚协议公证格式范本模板
- 2025年度私人房产投资咨询与风险评估合同3篇
- 二零二五版农业机械承包与种植服务合同3篇
- 二零二四年定制化软件功能测试服务合同3篇
- 2025年度煤矿企业安全生产管理人员劳动合同示范4篇
- 二零二五年度股权代持合同违约责任与赔偿规定3篇
- 搭竹架合同范本
- Neo4j介绍及实现原理
- 锐途管理人员测评试题目的
- 焊接材料-DIN-8555-标准
- 工程索赔真实案例范本
- 重症医学科运用PDCA循环降低ICU失禁性皮炎发生率品管圈QCC持续质量改进成果汇报
- 个人股权证明书
- 医院运送工作介绍
- 重症患者的容量管理
- 学习游戏对中小学生学业成绩的影响
- 小学四年级上册递等式计算100题及答案
评论
0/150
提交评论