基于判别分析的四个方法及应用_第1页
基于判别分析的四个方法及应用_第2页
基于判别分析的四个方法及应用_第3页
基于判别分析的四个方法及应用_第4页
基于判别分析的四个方法及应用_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 基于判别分析的四个方法及应用摘 要:本文简明扼要的概述了判别分析的基本思想、假设条件、常用方法。针对每一种判别分析方法,文章给出了实证分析,良好地将这四种方法应用于具体实际案例。关键词:判别分析;Fisher判别;Bayes 判别;逐步判别;距离判别Four Examples of Application Based on Discriminant AnalysisAbstract: This paper briefly summarizes the basic ideas, assumptions and common methods of discriminant analysis. F

2、or each discriminant analysis method, the paper gives an empirical analysis and applies the four methods to specific cases.Key words: Discriminant analysis; Fisher discriminant; Bayes discriminant; Stepwise discriminant; Distance discriminant目 录1.绪论11.1基本思想11.2假设条件11.3常用方法12.费希尔判别法12.1实例应用22.2分析结果与解

3、释43.贝叶斯判别法73.1实例应用73.2分析结果与解释84.逐步判别法114.1实例应用124.2分析结果与解释135.距离判别法155.1实例应用165.2分析结果与解释176.判别分析的其他应用197.结论20参考文献20致 谢21211.绪论判别分析是20世纪30年代产生的,这些年来,它在许多学科中有着广泛的应用,是一种用来判别新的样本属于哪种类型的统计分析方法。与聚类分析有所不同,在进行判别分析之前,事先就把总体的几种类型全部罗列出来,并且每个样品是哪一种类型也是已知的,只是我们要做的就是将新的样品用判别分析进行归类。1.1基本思想对于判别分析,首先要做的就是清楚样本的分类情况;其

4、次是在知道诸多用来表明每个样品特征的变量值的情况下,建立判别规则;最终利用判别规则对新样品对象的所属类型进行判断,并且能够保证判断错误的几率达到最小。1.2假设条件第一个假设条件是,对于每个解释变量来说,它不可以与其他解释变量构成线性组合。因为如果那样就会导致它不能够反映新的信息,更严重的是发生了这种情况就会导致没有办法去估计判别函数。第二个假设条件是,对于各个组的变量来说,它们要有相等的协方差矩阵。因为在判别分析中,线性判别函数是我们最常用的,也是最方便的。并且在这个假设的条件下,我们可以利用一些简单的公式就可以计算出判别函数,也可以对显著性的检验进行操作。第三个假设条件是,对于各个判别变量

5、来说,需要服从多变量正态分布,也就是各个变量对于所有其他变量的固定值有正态分布2。因为在这个假设的条件下,我们能够精确地得出显著性检验的P值,以及分组归属的概率值。如果违背了这个假设,那么所得概率的准确性就会大大降低。1.3常用方法在判别分析时,提出问题的方向有很多,因此它的判别准则也多种多样。比如Mahalanobis Distance Minimum准则、费希尔准则、ECM准则、Least Squares准则、Maximum Likelihood准则、Maximum Probability准则等等,在这些准则的基础上又可以有针对性的提出各种方法。现在简明扼要的概述以下四种常用方法:费希尔判

6、别法、贝叶斯判别法、逐步判别法和距离判别法2。2. 费希尔判别法记总体的样本为,组与组之间的离差矩阵为:,组内的离差矩阵为:,假设有m个解释变量,来构造如下的判别函数:,。当上述判别函数对各个总体的数据均作用后,其数据将变成一元的。这k个一元,其中,当判别函数对数据进行分类时,使类与类之间的差别尽可能大,类的内部差异尽量很小,即应使得的值达到最大。对此,还要使得。最终,费希尔判别分析就是将以下方程组的最优解给解出来:,能够证明,以上方程组的最大值恰好是的特征多项式最大根。假设有m个的非零特征值,它们,那么就能构造出m个判别函数:,为与对应的特征向量。而第个判别函数的判别能力为。当我们实际应用时

7、,不是每个判别函数都能用得到,往往只需选择累计贡献率达到一定水平(例如85%)的前几个判别函数就可以了。2.1实例应用为了通过研究人体舒张压(DBP)大小及血浆胆固醇(CHOL)的含量来进行冠心病的诊断,我们收集了15名冠心病患者和15名正常者的舒张压(DBP)及血浆胆固醇(CHOL)。如表2.1所示:其中编号1-15为冠心病患者(用1来表示患病),16-30为正常者(用2来表示正常)。现在根据这30组有无冠心病的调查数据采用Fisher判别法来判断预测第31号样品是否患有冠心病。表2.1 15名冠心病患者和15名正常者的DBP及CHOL编号组别DBPCHOL119.865.182113.33

8、3.733114.663.89419.337.105112.805.496110.664.097110.664.458113.333.639113.335.9610113.335.7011112.006.1912114.664.0113113.334.0114112.803.6315113.335.9616210.662.0717212.534.4518213.333.061929.333.9420210.664.4521210.664.922229.333.6823210.662.7724210.663.2125210.665.0226210.403.942729.334.9228210.6

9、62.6929210.662.4330211.203.4231待判9.333.63数据来源:SPSS统计分析从入门到精通数据Chapter12 2.2分析结果与解释我们通过SPSS软件对已知样本数据进行Fisher判别分析的结果如下:表2.2 单因素方差分析组平均值的同等检验威尔克LambdaF自由度 1自由度 2Sig.舒张压0.69412.3191280.002血浆胆固醇0.7399.9101280.004表2.2中显著性的值小于0.05,表示舒张压和血浆胆固醇这两个变量的均值在各组间都是有差异的,因此这两个变量对类间的判别都是有作用的。下面我们再观察典型判别函数的特征函数的特征值。如表2

10、.3所示:表2.3 典型判别函数的特征函数的特征值特征值方差的百分比累计的百分比典型相关系数函数11.169100.0100.00.734在表2.3中特征值只有1个,特征值为1.169,且典型相关系数为0.734。由此,说明函数1具有区别判断力。在分析完特征值的性质之后,我们接下来分析一下Wilks的检验结果。如表2.4所示:表2.4 Wilks检验结果函数检验Wilks Lambdachi-square自由度P值10.46120.90820.000在表2.4的Wilks检验结果中,Wilks Lambda值为0.461,且显著性水平小于0.05,表示组间有差异,即组均值不等,所以本例中判别分

11、析有意义。既然有意义,那么我们可以得到标准化的典则判别函数系数4,如表2.5所示:表2.5 标准化典则判别函数系数函数1舒张压0.882血浆胆固醇0.834根据表2.5的标准化典则判别函数系数,可以得到标准化典则判别函数:再考虑舒张压和血浆胆固醇的结构矩阵,如表2.6所示:表2.6 结构矩阵函数1舒张压0.613血浆胆固醇0.550由于表2.6可以看出,舒张压这个变量对判别函数的贡献为0.613,血浆胆固醇对判别函数的贡献为0.550。说明冠心病与这两个因素均有关。最后,我们得到非标准化典则判别函数系数,如表2.7所示:表2.7 非标准化典则判别函数系数函数1舒张压0.636血浆胆固醇0.79

12、7(常量)-10.775根据表2.7的非标准化典则判别函数系数,可以得到非标准化典则判别函数:表2.8 分类结果1,2组别预测组成员信息总计冠心病人正常人原始计数冠心病人12315正常人31215%冠心病人8020100正常人2080100交叉验证个数冠心病人12315正常人41115%冠心病人8020100正常人26731001:正确地对 80.0% 个原始已分组个案进行了分类。2:正确地对 76.7% 个进行了交叉验证的已分组个案进行了分类。从表2.8的分类结果中可以看出,我们正确地对 80.0%个原始已分组个案进行了分类,交叉验证得到的判别信息正确率为76.7%,表明能够较好的进行判断。

13、由于我们在SPSS软件的操作步骤中保存了预测组成员结果,即最终的分类结果,如表2.9所示:表2.9 保存预测组成员结果编号组别DBPCHOLDis_1Dis1_1119.865.182-0.380732113.333.7310.669123114.663.8911.64186419.337.1010.812375112.805.4911.734736110.664.092-0.740877110.664.452-0.454018113.333.6310.589449113.335.9612.4460810113.335.7012.2389011112.006.1911.7841012114.6

14、64.0111.7374813113.334.0110.8922414112.803.6310.2526115113.335.9612.4460816210.662.072-2.3504917212.534.4510.7344318213.333.0610.135241929.333.942-1.7056420210.664.452-0.4540121210.664.922-0.079492229.333.682-1.9128223210.662.772-1.7927024210.663.212-1.4420925210.665.0210.0001926210.403.942-1.025632

15、729.334.922-0.9247428210.662.692-1.8564529210.662.432-2.0636330211.203.422-0.9315731待判9.333.632-1.95266从表2.9的预测结果中可以看出,我们需要待判的第31号样品属于第二组。上述例子是将30组有无冠心病的调查数据,采用Fisher判别法来判断预测第31号样品是否患有冠心病,我们根据Fisher判别法建立了判别函数,最终很好的预测了第31号样品属于第二组,即第31号样品为正常人。3. 贝叶斯判别法首先介绍一下贝叶斯思想,它是假定对将要研究的对象已经有了一定的认识,经常将之以先验概率分布来表示,其

16、次选取一个样本来修正这个先验概率分布,以此找到后验概率分布,最终采用后验概率分布去做统计推断。当判别分析用到了贝叶斯思想时,就出现了贝叶斯判别。假设有k个,它们分别具有,现在知道上述k个总体的,以此来建立起一定的贝叶斯判别函数和判别规则3。用的一个分割,也就是说之间互相没有交集,并且。是取得合适的,即是说它刚好与k个总体相对应,此时我们的判别规则就可以写为:用来,这种判断错误的概率是:那么根据上述判别规则,则平均损失为:3.1实例应用一所商学院的招生人员将本科生的大学平均毕业成绩(GPA)和本科毕业生的管理能力测试(GMAT)成绩用作“指标”,帮助学院决定应将哪些申报者录取为学院研究生。为了通

17、过研究本科生的GPA和GMAT成绩来判定一名新申报者的申报结果,我们收集了85名申报者的GPA和GMAT成绩及申报结果。数据如表3.1所示:其中GPA(用x1来表示),GMAT(用x2表示),三种录取结果(用y来表示,且1表示录取,2表示不录取,3表示待定)。表3.1 85名申报者的GPA和GMAT成绩x1x2yx1x2yx1x2y2.9659613.7664612.2938423.1447313.2446712.8649433.2248212.5446622.8549633.2952712.4342523.1441933.6950512.2047423.2837134.4669312.365

18、3122.8944733.0362612.4754223.1531333.1966312.3540623.5040233.6344712.5141222.8948533.5955812.5135922.8044433.3056312.3633923.1341633.4055312.3648223.0147133.5057212.6642022.7949033.7859112.6841422.8943133.4469212.4853322.9144633.4852812.4650922.5754633.4755212.6350422.7344633.3552012.4433623.1246333

19、.2852312.4146923.0341933.3954312.1340823.0844033.2153012.5553823.0050933.5856412.3150523.0343833.3356512.4148923.0533933.4043112.1941122.8548333.3860512.3532123.0145333.2666412.6039423.0341433.0660912.5552823.0444633.3755912.7239923.21497待判3.8052112.853812数据来源:SPSS统计分析方法及应用(第4版)薛薇配套资料1现在假定一名新申请者的GPA

20、=3.21,GMAT=497,下面采用Bayes判别法来对这名新申请者进行分类判别。3.2分析结果与解释首先,对SPSS软件中对大学平均毕业成绩(GPA)和本科毕业生的管理能力测试(GMAT)成绩进行单因素方差分析,即对大学平均毕业成绩(GPA)和本科毕业生的管理能力测试(GMAT)成绩两组的组平均值是否同等进行检验,运行后得到结果如表3.2所示:表3.2 单因素方差分析组平均值的同等检验威尔克 LambdaF自由度 1自由度 2显著性大学平均成绩0.231136.1742820.000管理才能评分0.54334.4742820.000表3.2中显著性水平的值均小于0.05,即表示大学平均成绩

21、和管理才能评分这两个变量的均值在各组间都是有差异的,因此这两个变量对类间的判别都是有作用的。那么我们再来分析典型判别函数的特征函数的特征值,得到结果如表3.3所示:表3.3 典型判别函数的特征函数的特征值函数特征值方差百分比累计百分比典型相关性14.11095.795.70.89720.1844.3100.00.394表3.3中的特征值有两个,函数1特征值为4.110,函数2特征值为0.184,且函数1的典型相关系数为0.897,函数2的典型相关系数为0.394。由此,说明函数1比函数2更具有区别判断力。在得到函数1比函数2更具有区别判断力之后,还需要看一下Wilks的检验结果,得到结果如表3

22、.4所示:表3.4 Wilks检验函数的检验Wilks Lambda自由度chi-squareP值20.845113.7730.0001 直至 20.1654146.7100.000在表3.4的Wilks检验结果中,1直至2的Wilks Lambda值为0.165,而2的Wilks Lambda值为0.845,卡方值分别为146.710和13.773,且两者的显著性水平均小于0.05,表示组间有差异,即组均值不等,所以本例中判别分析有意义。表3.5 结构矩阵函数1函数2大学平均成绩0.894-0.448管理才能评分0.4090.913由于表3.5表示的是大学平均成绩和管理才能评分与标准化的典则

23、判别函数之间的相关矩阵,由此可以看出,大学平均成绩对判别函数的贡献为0.894,管理才能评分对判别函数的贡献为0.409。说明申报结果与者两个因素均有关,而且与大学平均成绩高度相关。最后,我们得到分类判别系数,如表3.6所示:表3.6 Bayes判别函数的系数录取结果录取不录取待定大学平均成绩70.25550.61661.215管理才能评分0.1520.1200.121(常量)-163.811-89.729-119.483根据表3.6的系数,我们得到以下3个Bayes判别函数:表3.7 判别的分类结果1,2申报结果录取没有录取待定原始个数录取2704不录取0271待定0125%录取87.10.

24、012.9不录取0.096.43.6待定0.03.896.2交叉验证个数录取2704不录取0271待定1223%录取87.10.012.9不录取0.096.43.6待定3.87.788.51:正确地对 92.9% 个原始已分组个案进行了分类。2:正确地对 90.6% 个进行了交叉验证的已分组个案进行了分类。从表3.8的分类结果中可以看出,判别分析分类与原始样品分类一致率高达92.9%,交叉验证的一致率达到了90.6%。即我们正确地对92.9%个原始已分组个案进行了分类,交叉验证得到的判别信息正确率为90.6%,表明能够较好的进行判断。由于保存了预测组成员结果,即最终的分类结果,如表2.9所示:

25、表3.9 保存结果x1x2yDis_1Dis1_1Dis2_12.96596 1 1 0.749171.589623.14473 1 3 0.60726-0.490103.22482 1 3 0.99829-0.508543.29527 1 1 1.605240.003553.69505 1 1 3.08253-1.041954.46693 1 1 7.569280.222993.03626 1 1 1.249131.888293.19663 1 1 2.166712.121753.63447 1 1 2.42371-1.757333.59558 1 1 3.05200-0.104723.30

26、563 1 1 1.902870.497473.40553 1 1 2.240090.172063.50572 1 1 2.784160.259293.78591 1 1 4.063620.016893.44692 1 1 3.394932.076583.48528 1 1 2.38862-0.330143.47552 1 1 2.518940.029653.04446 3 3 0.00613-0.691153.21497 待判1 1.06443-0.27680从表2.9的预测结果中可以看出,我们需要待判的第31号样品,即新申报者最终申报结果为录取。上述例子是将85名申报者的GPA和GMAT成

27、绩及申报结果,采用Bayes判别法来判断预测第86号样品是什么结果。我们根据Bayes判别法建立了判别函数,最终很好的预测了第86号样品属于第一组,即第86号样品的最终申报结果为录取。4.逐步判别法多元回归中,对回归结果产生影响的直接因素就是变量的选择。这样类似的问题也出现在了判别分析当中,假如在对某个问题进行判别时,其中最重要的指标被遗漏了,那么以此建立起来的判别函数就会出现不好的效果。但是,在要解决的很多问题当中,事先不是非常清楚有哪些主要指标。这个时候,是不是把与之相关的那些指标尽可能多的放入计算?实践证明,指标如果太多,不仅计算量大,而且一些对判别几乎没有作用的因素反而会扰乱结果。因此

28、,合理的筛选变量是非常重要且必要的。凡是具有筛选变量能力的判别方法统称为逐步判别法3。(1)从中先选一个解释变量,其使得Wilks统计量取得最小。假设挑选变量的顺序是自然顺序,也就是说第一步选中了第一个自变量,第r步则正好选中第r个自变量,则有,检查是否在接受域中,如果不在,那么表示没有选中的变量,即不可以用判别分析;如果在,则进入(2)。(2)从没有被选中的变量里,计算这些变量和已经选中的变量。再选择使有最小值的当第二个变量。仿照上述做法,如果已选进了r个变量, ,就从没有被选中的变量中逐个选择与那r个变量配合,计算出,再选择使达到极小的变量当作第r+1个变量,并再检验其是否能提供其余信息,

29、假如不能,就进入(4), 能就进入(3)。(3)从已经选进的那r个变量中,需要再考虑较早进入的变量,这些变量的重要性是否有较大的改变,即是否可以提供附加信息,若不能则剔除。剔除与引进是一样的原则。再考察剩下的变量,如果不需要剔除,就回转到(2)。(4)此时既不需要新变量的进入,又不需要将已经选入的变量剔除,可以采用选择好的那些变量来建立起判别函数。4.1实例应用为了通过研究、的含量来判断一个新样品属于哪一类,我们收集了15个样品的含量数据。如表4.1所示:其中(用x1来表示)、(用x2来表示)、(用x3来表示)、(用x4来表示)、(用x5来表示)、(用x6来表示)。现采用逐步判别分析法来判断预

30、测第16号样品属于哪一组。表4.1 样品、含量数据groupnox1x2x3x4x5x61120.924.503.1336.701.200.751231.097.022.1630.682.550.951337.503.101.3029.782.050.20146.012.261.7348.280.600.401520.213.372.5937.300.950.251618.861.831.1445.560.450.40178.981.411.4147.830.200.401820.304.351.7037.580.600.50294.120.042.7048.880.150.602102.19

31、0.011.4152.940.050.5021110.991.971.8444.070.151.352120.750.001.5153.990.050.5021356.536.461.9315.500.950.802141.530.280.9753.690.100.502152.810.421.0252.640.050.50待判1616.011.832.5941.360.800.40数据来源:SPSS统计分析从入门到精通升级数据Chapter11 4.2分析结果与解释表4.2 输入/除去变量的方差分析步骤输入Wilks Lambda统计量自由度1自由度2自由度3精确的F统计量自由度1自由度2P

32、值1x50.6621113.0006.648113.0000.0232x60.5182113.0005.588212.0000.019从表4.2中可以看到显著性水平均小于0.05,表示两组之间有差异,即组均值不等,所以本例中判别分析有意义。表4.3 特征值特征值方差的百分比累计的百分比典型相关系数函数10.9311001000.694从表4.2中特征值有一个,函数1的特征值为0.931,且函数1的典型相关系数为0.694,由此,说明函数1具有区别判断力,还需要看一下Wilks的检验结果,得到结果如表4.4所示:表4.4 威尔克 Lambda检验结果函数检验威尔克 Lambda卡方自由度显著性1

33、0.5187.89920.019在表4.4的Wilks检验结果中,Wilks Lambda值为0.518,卡方值为7.899,且显著性水平小于0.05,表示组间有差异,即组均值不等,所以本例中判别分析有意义。既然有意义,那么我们还需要考虑结构矩阵,如表4.4所示:表4.5 结构矩阵函数1x50.741x1a0.480x4a-0.437x6-0.387x2a0.286x3a-0.048a. 在分析中未使用此变量。由于表4.5表示的是六种化学物质含量与标准化的典则判别函数之间的相关矩阵,由此可以看出,对判别函数的贡献为0.741、对判别函数的贡献为0.480、对判别函数的贡献为-0.437、对判别

34、函数的贡献为-0.387、对判别函数的贡献为0.286。对判别函数的贡献为-0.048。我们只保留了x5和x6这两个变量。表4.6 分类函数系数第1组第2组x51.920-0.810x64.5389.064(常量)-2.817-3.682根据表4.6的系数,得到两组的判别函数:表4.7 分类结果1,2类别总计12原始个数17182077%187.5%12.5%100%20%100%100%交叉验证个数17182167%187.5%12.5%100%214.3%85.7%100%1:正确地对 93.3% 个原始已分组个案进行了分类。2:正确地对 86.7% 个进行了交叉验证的已分组个案进行了分类

35、。从表4.7的分类结果中可以看出,判别分析分类与原始样品分类一致率高达93.3%,交叉验证的一致率达到了86.7%。即我们正确地对93.3%个原始已分组个案进行了分类,交叉验证得到的判别信息正确率为86.7%,表明能够较好的进行判断。由于我们在SPSS软件的操作步骤中保存了预测组成员结果,即最终的分类结果,如表4.8所示:表4.8 保存结果groupnox1x2x3x4x5x6Dis_1Dis1_11120.924.503.1336.701.200.7510.354581231.097.022.1630.682.550.9511.898881337.503.101.3029.782.050.2

36、013.02555146.012.261.7348.280.600.4010.324401520.213.372.5937.300.950.2511.232041618.861.831.1445.560.450.4010.09697178.981.411.4147.830.200.402-0.282091820.304.351.7037.580.600.5010.07310294.120.042.7048.880.150.602-0.860512102.190.011.4152.940.050.502-0.7608321110.991.971.8444.070.151.352-2.745292

37、120.750.001.5153.990.050.502-0.7608321356.536.461.9315.500.950.802-0.150132141.530.280.9753.690.100.502-0.685022152.810.421.0252.640.050.502-0.7608311616.011.832.5941.360.800.4010.62765从表4.8的预测结果中可以看出,我们需要待判的第16号样品属于第1组上述例子是将15个样品中、的含量,采用逐步判别法来判断预测第16号样品是什么结果。我们根据逐步判别法最终很好的预测了第16号样品属于第一组。5.距离判别法样品的类

38、别属于与总体距离最近的那一类,根据样本数据,它们的所属类别是已知的,计算出每一类总体的重心。对将要判别的样品进行分类,只用把这个样品与每类重心的距离分别计算出来,与之距离最近的那一类就是待判样品的类别。我们基本上用的是马氏距离。设两个总体,样品到的距离为,样品到的距离为,利用以下规则来进行判别:如果与的距离比与的距离小,就认为属于,若不是,则属于;若距离相等,则待判。数学模型可写为:当和是正态总体,并且它们的协方差是相等的时候,就采用马氏距离,即其中,分别是和的平均值和协方差矩阵。当=时那么判别规则即为:上述的是判别函数,因为为线性函数,所以也是线性判别函数。5.1实例应用HDI的创建是为了强

39、调人和他们的能力应该是评估一个国家发展的最终标准,而不仅仅是经济增长。人类发展指数也可以用来质疑国家的政策选择,询问人均国民总收入水平相同的两个国家如何才能获得不同的人类发展成果。从2019年的人文发展指数表中,选取10个国家的数据,作为两组样品,另外再选取4个国家,作为待判样品,下面进行距离判别分析。数据如下表5.1,其中:第一类为“极高发展水平国家”,第二类为“高发展水平国家”,出生时预期寿命用x1来表示、平均受教育年限用x2来表示、人均国民总收入用x3来表示。表5.1 2019年14个国家的人文发展指数groupnocountryx1x2x311挪威82.312.66805912瑞士83

40、.613.45937513爱尔兰82.112.55566014德国81.214.14694615澳大利亚83.312.74409726塞尔维亚75.811.21521827墨西哥75.08.61762828泰国76.97.71612929阿尔及利亚76.78.013639210秘鲁76.59.212323待判样品11新加坡83.511.583793待判样品12加拿大82.313.343602待判样品13哥伦比亚77.18.312896待判样品14中国76.77.916127数据来源:2019年人类发展报告5.2分析结果与解释本案例中,变量个数p=3,两类总体各有五个样品,有四个待判样品,假定两

41、总体协方差矩阵相等。在SPSS进行统计量分析,可以得出两组的平均值.如下表5.2所示:表5.2 两组样品的统计量 组别平均值标准差有效个案数(成列)未加权加权极高发展水平国家x182.500.967055.000x213.060.680455.000x354827.49665.752455.000高发展水平国家x176.180.779155.000x28.941.388555.000x314987.42076.439655.000总计x179.3403.43231010.000x211.0002.40371010.000x334907.40022007.61861010.000在表5.2中,我

42、们可以写出两组的平均值:得到已知两个类组的平均值之后,我们继续来计算样本协方差矩阵,计算结果如下表5.3所示:5.3 汇聚组内矩阵x1x2x3协方差x10.771-0.338-31.357x2-0.3381.196-1319.725x3-31.357-1319.72548869185相关性x11.000-0.352-0.005x2-0.3521.000-0.173x3-0.005-0.1731.000我们由表5.3可以写出样本协方差矩阵为:进一步计算协方差矩阵的逆矩阵为:,接下来求线性判断函数:解线性方程组得所以在得到线性判断函数之后,我们对已知类别的样品用线性判断函数进行判别分类,结果如下表5.4所示: 表5.4 对已知的样本用判别函数的值进行分类样品号国家判别函数的值原类号判别类别号1挪威506.61951112瑞士686.20653113爱尔兰452.03964114德国397.3773411

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论