《判别分析》-教学课件_第1页
《判别分析》-教学课件_第2页
《判别分析》-教学课件_第3页
《判别分析》-教学课件_第4页
《判别分析》-教学课件_第5页
已阅读5页,还剩197页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《判别分析》(2)幻灯片本课件PPT仅供大家学习使用学习完请自行删除,谢谢!本课件PPT仅供大家学习使用学习完请自行删除,谢谢!本课件PPT仅供大家学习使用学习完请自行删除,谢谢!本课件PPT仅供大家学习使用学习完请自行删除,谢谢!《判别分析》(2)幻灯片本课件PPT仅供大家学习使2第四节费歇〔Fisher〕判别法一

Fisher判别的基本思想

Fisher判别函数的构造

三线性判别函数的求法2第四节费歇〔Fisher〕判别法一Fisher判3Fisher判别法是1936年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上,投影的原那么是将总体与总体之间尽可能的分开,然后再选择适宜的判别规那么,将新的样品进展分类判别。右图中有A、B两个总体。在原始变量〔指标〕X1、X2的方向上,A、B都有很大的重叠,难以区分清楚。但是,如果以X1、X2为横、纵坐标轴构建一个平面,假设能设法找到一个y轴,使得当X1X2平面上的散点投射到y轴上时,两组观察值的重叠程度最小,那么综合指标y的区分能力显然大于原先的X1、X2。yx2x1一、Fisher判别的根本思想3Fisher判别法是1936年提出来的,该方法的主要思想是4一、Fisher判别的根本思想

4一、Fisher判别的根本思想5一、Fisher判别的根本思想

5一、Fisher判别的根本思想6二、Fisher判别函数的构造 1、针对两个总体的情形

6二、Fisher判别函数的构造 1、针对两个总体的情形71、针对两个总体的情形

71、针对两个总体的情形

8 2、针对多个总体的情形

8 2、针对多个总体的情形9

2、针对多个总体的情形9 2、针对多个总体的情形10

1011三、线性判别函数的求法

11三、线性判别函数的求法12

1213

1314

1415

151616171718一般需要多少个判别式就够用了?18一般需要多少个判别式就够用了?19另外一种求4.23式的思路*

19另外一种求4.23式的思路*20

另外一种求4.23式的思路*20另外一种求4.23式的思路*21需要指出是,此处利用极值原理求极值时,只给出了必要条件的数学推导,而省略了有关充分条件的论证,因为在实际问题中,往往根据问题本身的性质就能肯定有最大值〔或最小值〕,如果所求的驻点只有一个,这时就不需要根据极值存在的充分条件判定它是极大还是极小,而是直接能肯定这唯一的驻点就是所求的最大值〔或最小值〕。为了防止较多的数学推导,这里不追求数学上的完整性。另外一种求4.23式的思路*21需要指出是,此处利用极值原理求极值时,只给出了必要条件的22

总体参数未知情况下的解决方法

22总体参数未知情况下的解决方法2323242425判别规那么25判别规那么26判别规那么26判别规那么27判别函数U〔X〕的另一种形式27判别函数U〔X〕的另一种形式28例题4.5经典案例:费希尔于1936年发表的鸢尾花〔Iris〕数据,被广泛用为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花〔第一组〕、变色鸢尾花〔第二组〕和弗吉尼亚鸢尾花〔第三组〕,各自抽取一个容量为50的样本,测量其花萼长度x1、花萼宽度x2、花瓣长度x3、花瓣宽度x4,单位为mm。28例题4.5经典案例:费希尔于1936年发表的鸢尾花〔Ir292930303131323233求解特征值与特征向量33求解特征值与特征向量34求判别函数34求判别函数35最后,确定判别规那么35最后,确定判别规那么36最后,确定判别规那么36最后,确定判别规那么37本例题SPSS的几个关键输出结果特征值37本例题SPSS的几个关键输出结果特征值38中心化的Fisher判别函数U1〔X〕和U2〔X〕的取值:38中心化的Fisher判别函数U1〔X〕和U2〔X〕的取值39各判别函数的组均值为:39各判别函数的组均值为:404041几种判别方法的关系*Fisher判别与距离判别对判别变量的分布并无要求,而贝叶斯判别要求了解判别变量的先验分布,因此,Fisher判别核距离判别相对于贝叶斯判别,较为简单实用;当然,后者更加准确。当k=2且两个总体协差阵相等时,Fisher判别与距离判别是等价的。当判别变量服从正态分布,且不考虑误判代价时,它们与贝叶斯判别也是一样的。41几种判别方法的关系*Fisher判别与距离判别对判别变量42第五节实例分析与计算机实现这一节我们利用SPSS对Fisher判别法和Bayes判别法进展计算机实现。例题4.6:为研究某地区人口死亡状况,已按某种方法将15个地区样品分为3类,指标含义及原始数据如下。试建立判别函数,并判定另外4个待判地区属于哪类?〔本例SPSS数据文件:4-6.sav〕

X1

:0岁组死亡概率X

4:55岁组死亡概率

X

2

:1岁组死亡概率X5

:80岁组死亡概率

X

3

:10岁组死亡概率X6

:平均预期寿命42第五节实例分析与计算机实现这一节我们利用SPSS对F43表4.1各地区死亡概率表43表4.1各地区死亡概率表44分类变量Group取值的设置44分类变量Group取值的设置45开场判别分析45开场判别分析46 (一)操作步骤 1.在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边的变量列表中的“group〞变量选入分组变量中,将X1至X6变量选入自变量中,并选择Enterindependentstogether单项选择按钮,即使用所有自变量进展判别分析。46 (一)操作步骤47 2.点击DefineRange按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。

47 2.点击DefineRange按钮,定义分组变量的48 3.单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中FunctionCoefficients栏中的Fisher’s和Unstandardized。然后,单击Continue按钮,返回主界面。48 3.单击Statistics…按钮,指定输出的描述统49 这两个选项的含义如下:Fisher’s:给出Bayes判别函数的系数。〔注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fisher’s,是因为按判别函数值最大的一组进展归类这种思想是由Fisher提出来的。这里极易混淆,请同学注意。〕Unstandardized:给出未标准化的Fisher判别函数〔即典型判别函数,也即我们前面讲过的“中心化的Fisher判别函数〞〕的系数〔SPSS默认给出标准化的Fisher判别函数系数〕。49 这两个选项的含义如下:50设置均值、协差阵检验Box’xM是对各总体协差阵是否相等进展齐性检验Means可给出各总体均值是否相等的Wilks统计量。Within-groupscorrelation给出各自变量之间的相关系数矩阵最后点击“Continue〞回到上一级菜单。50设置均值、协差阵检验Box’xM是对各总体协差阵是否相51 4.再单击Classify…按钮,定义判别分组参数和选择输出结果。选择Display栏中的Casewiseresults,输出一个判别结果表,包括每个样品的判别分数、后验概率、实际组和预测组编号等。Plots栏中选中“Combined-Groups〞,在同一幅图中输出各组的Fisher判别函数〔投影〕值。再选择summarytable,将输出分类结果表“ClassificationResults〞;其余的均保存系统默认选项。单击Continue按钮。51 4.再单击Classify…按钮,定义判别分组参数和52 5.单击Save按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成的新变量的含义分别为:Predictedgroupmembership:存放判别样品所属组别的值;

Discriminantscores:存放Fisher判别得分的值,有几个典型判别函数就有几个判别得分变量;Probabilitiesofgroupmembership:存放样品属于各组的Bayes后验概率值。将对话框中的三个复选框均选中,单击Continue按钮返回。52 5.单击Save按钮,指定在数据文件中生成代表判别分53 6.返回判别分析主界面,单击OK按钮,运行判别分析过程。Save子对话框53Save子对话框54〔二〕主要运行结果解释各原始变量相关系数矩阵可见,第1与第3、第1与第2、第3与第4等指标间的存在一定相关54〔二〕主要运行结果解释各原始变量相关系数矩阵55〔二〕主要运行结果解释各总体均值是否相等的检验结果可见,第1、2、6个指标在各总体间的差异并不大55〔二〕主要运行结果解释各总体均值是否相等的检验结果56各组均值和离差的描述性统计:确实发现三个总体在第1、2、6指标的均值比较接近,以第一个指标“0岁组死亡率〞为例:56各组均值和离差的描述性统计:57协差阵齐性检验结果:由于样本资料矩阵的秩小于5〔p-1〕〔原因?〕,不是非奇异矩阵,无法给出Box’s检验结果。可见,第1、2、6个指标的同均值,确实对检验产生了影响〔二〕主要运行结果解释57协差阵齐性检验结果:〔二〕主要运行结果解释58因此,应该剔除第1、2、6个指标,重新进展分析:〔二〕主要运行结果解释58因此,应该剔除第1、2、6个指标,重新进展分析:〔二〕59各组均值和离差的描述性统计:〔二〕主要运行结果解释59各组均值和离差的描述性统计:〔二〕主要运行结果解释60剔除第1、2、6个指标后重新进展分析,得到的均值检验结果为:〔二〕主要运行结果解释60剔除第1、2、6个指标后重新进展分析,得到的均值检验结果61剔除第1、2、6个指标后重新进展分析,得到的协差阵齐性检验结果为:〔二〕主要运行结果解释61剔除第1、2、6个指标后重新进展分析,得到的协差阵齐性检62可见,判别分析开场前,有必要对各个总体的均值是否相等进展假设检验。接下来,出于课堂演示的需要,我们继续使用原有全部六个指标,进展后续的判别分析〔二〕主要运行结果解释62可见,判别分析开场前,有必要对各个总体的均值是否相等进展63特征值:Wilks’sLambda,是对Fisher判别函数的显著性进展检验。

〔二〕主要运行结果解释63特征值:〔二〕主要运行结果解释典型相关系数〔CanonicalCorrelation〕的平方,说明了判别函数因变量的变动,可以在多少程度上由自变量的变化所解释;也即,该平方项反映这个判别函数携带了多少原始数据的信息,该值反映了该判别函数的信息价值,当然越大越好。典型相关系数〔CanonicalCorrelation〕的65〔二〕主要运行结果解释 1.StandardizedCanonicalDiscriminantFunctionCoefficients〔给出标准化的典型判别函数系数〕标准化的典型判别函数是由标准化的自变量通过Fisher判别法得到的,所以要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。

65〔二〕主要运行结果解释 1.Standardized何谓“Canonical〞〔典型〕?Thismeansthatallvariableshavethesamescalesothatthecoefficientsofthediscriminantarenotaffectedbydifferentscales.E.g.MARITAL=0or1andAGE=18-80.何谓“Canonical〞〔典型〕?ThismeanstInterpretationoftheparameters:Lookingattheabsolutevaluesoftheweightsorcoefficientsgivesanindicationofwhichindependentvariablesaremore(orless)importantinpredictingwhichgroupanindividualwillbelongto.Thelargerthemoreimportant.InterpretationoftheparameteCanonicalThecoefficientssuggesttherelativeimportanceofthepredictorvariables.Consideronlytheabsolutesizeofthecoefficients.Biggermeansmoreimportant.系数的绝对值越大,说明该自变量〔predictorvariables〕在这个判别函数中就越重要。CanonicalThecoefficientssugg69〔二〕主要运行结果解释 2.CanonicalDiscriminantFunctionCoefficients〔给出未标准化的典型判别函数系数〕未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。69〔二〕主要运行结果解释 2.CanonicalDi70由此表可知,两个Fisher判别函数分别为:实际上两个函数式计算的是各观测值在各个维度上的坐标,这样就可以通过这两个函数式计算出各样品观测值的具体空间位置。〔二〕主要运行结果解释70由此表可知,两个Fisher判别函数分别为:〔二〕主要3.构造矩阵

StructureMatrixFunctionThestructurematrixshowstheabsolutecorrelationsbetweeneachpredictorvariableandthecanonicalvariable.构造矩阵中的元素,是原始变量与典型变量〔标准化的典型判别函数〕的相关系数3.构造矩阵

StructureMatrixFunctiMeaning?Ifavariableisastrongpredictor,itwillcorrelatestronglywiththecalculatedvalueofthediscriminatefunctionforeachcaseinthesample.该相关系数〔的绝对值〕越大,说明原始变量〔predictor〕与这个判别函数的相关性越强。Meaning?Ifavariableisastr《判别分析》-教学课件74 4.FunctionsatGroupCentroids〔给出组重心处的Fisher判别函数值〕如以下图所示,实际上为各类别重心在空间中的坐标位置。这样,只要在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以得知它们的分类了。组重心处的Fisher判别函数值〔二〕主要运行结果解释74 4.FunctionsatGroupCentr75 5.ClassificationFunctionCoefficients〔给出Bayes判别函数系数〕〔二〕主要运行结果解释75 5.ClassificationFunction76注意,在输出结果“ClassificationFunctionCoefficients〞表的下方注明是“Fisher'slineardiscriminantfunctions〞,但是经历证实为一般教课书中的贝叶斯线性判别函数!命名出现不一致的原因是按判别函数值最大的一组进展归类这种思想,是Fisher提出来的,因此SPSS用“Fisher〞对“贝叶斯〞方法进展了命名。并且因为贝叶斯判别函数只有在各个总体的样本的协方差阵一样时才是线性的〔为什么?〕因此在得到该判别函数的系数时,对样本的协方差的估计必须是在总体协方差相等情况下的估计!SPSS提供了Box'M组间协方差矩阵的齐性检验。〔二〕主要运行结果解释76注意,在输出结果“ClassificationFunc77 5.ClassificationFunctionCoefficients〔给出Bayes判别函数系数〕如上图所示,GROUP栏中的每一列表示样品判入相应列的Bayes判别函数系数。在本例中,各类的Bayes判别函数如下: 第一组: 第二组: 第三组:

〔二〕主要运行结果解释77 5.ClassificationFunction78将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。例如,将第一个待判样品的自变量值分别代入函数,得到:F1=3793.77,F2=3528.32,F3=3882.48比较三个值,可以看出最大,据此得出第一个待判样品应该属于第三组。〔二〕主要运行结果解释78将各样品的自变量值代入上述三个Bayes判别函数,得到三79 6.CasewiseStatistics〔给出个案观察结果〕在CasewiseStatistics输出表针对每个样品给出了了大局部的判别结果,其中包括:实际类〔ActualGroup〕、预测类〔PredictedGroup〕、Bayes判别法的后验概率、与组重心的马氏距离〔SquaredMahalanobisDistancetoCentroid〕以及Fisher判别法的每个典型判别函数的判别得分〔DiscriminantScores〕。下表经过加工隐藏了其中的一些工程。从表中可以看出四个待判样本依次被判别为第三组、第一组、第二组和第三组。〔二〕主要运行结果解释79 6.CasewiseStatistics〔给出个案80表4.4个案观察结果表〔二〕主要运行结果解释80表4.4个案观察结果表〔二〕主要运行结果解释81原始输出结果〔二〕主要运行结果解释81原始输出结果〔二〕主要运行结果解释7.有效性的验证7.有效性的验证83 8.由于我们在Save子对话框中选择了生成表示判别结果的新变量,所以在数据编辑窗口中,可以观察到产生的新变量。其中,变量dis-1存放判别样品所属组别的值,变量dis1-1和dis2-1分别代表将样品各变量值代入第一个和第二个非标准化Fisher判别函数所得的判别分数,变量dis1-2、dis2-2和dis3-2分别代表样品分别属于第1组、第2组和第3组的Bayes后验概率值。〔二〕主要运行结果解释83 8.由于我们在Save子对话框中选择了生成表示判别结84〔二〕主要运行结果解释84〔二〕主要运行结果解释858586再多说一句:SPSS操作中的辅助检验无论是哪种判别分析方法,都需要对各个总体均值是否相等进展检验。如果无法拒绝“均值相等〞的原假设,就应该将相关样本合并,再进展后续的判别Fisher判别,无需对总体协差阵进展齐性检验;贝叶斯判别,正常情况下我们需要得到线性判别函数,此时,需要对总体协差阵进展齐性检验Fisher判别无需对总体的分布特征进展检验;贝叶斯判别理论上需要对总体的正态性进展检验,不过,在实际操作中要求并不严格。86再多说一句:SPSS操作中的辅助检验无论是哪种判别分析方87有时,一些变量对于判别并没有用处,为了得到对判别最适宜的变量,可以使用逐步判别。即:先用少数变量进展判别,然后一边判别,一边引进判别能力最强的变量,又要逐步淘汰判别能力不强的变量,这个过程可以有进有出。判别一个变量判别能力的方法有很多种,主要利用各种检验,例如Wilks’Lambda、Rao’sV、马氏距离、SmallestFratio或thesumofUnexplainedVariation等检验筛选好变量后,接下来的判别方法与前面一样〔三〕逐步判别分析功能*87有时,一些变量对于判别并没有用处,为了得到对判别最适宜的88〔三〕逐步判别分析功能*调入判别分析主菜单〔方法同前〕,然后选择“Usestepwisemethod〞88〔三〕逐步判别分析功能*调入判别分析主菜单〔方法同前〕,89再点击“Method..〞,选择筛选变量的检验方法:选择默认方法Wilks’Lambda检验〔三〕逐步判别分析功能*89再点击“Method..〞,选择筛选变量的检验方法:〔三90最终只保存了一个变量:〔三〕逐步判别分析功能*90最终只保存了一个变量:〔三〕逐步判别分析功能*91非中心化的Fisher判别函数及组重心:〔三〕逐步判别分析功能*91非中心化的Fisher判别函数及组重心:〔三〕逐步判别分92贝叶斯判别函数〔三〕逐步判别分析功能*92贝叶斯判别函数〔三〕逐步判别分析功能*〔四〕训练样本的选取*现在我们希望只选取前13个样本作为“训练样本〞生成判别函数,而保存最后两个样本仅作为测试样本:在Variableview窗口中生成虚拟变量“dummy〞在Dataview窗口中给该虚拟变量赋值,前13个样本赋值为1,最后2个样本赋值为0运行判别分析程序:Analyse/Classify/Discriminant,将虚拟变量dummy放入右侧“Selection〞框中点击“Value〞,设定值为1,意思是SPSS将只选取dummy变量取值为1的那些样本进展后续的判别分析其他各种选项同本章前述,保持不变〔四〕训练样本的选取*现在我们希望只选取前13个样本作为“训《判别分析》-教学课件《判别分析》-教学课件〔四〕训练样本的选取*输出结果:〔四〕训练样本的选取*输出结果:输出结果:输出结果:98SPSS上机作业1、对例题4.5〔鸢尾花〕进展判别,写出贝叶斯判别函数和Fisher判别函数。〔SPSS数据文件:4-5.sav〕2、美国某城市的居民家庭,按其有无割草机可分成两组:有割草机的家庭为第一组,记为G1;没有割草机的家庭为第二组G2。割草机工厂欲判断一些家庭是否将购置割草机。从G1和G2组中分别抽取了12个家庭,调查两项指标:X1=家庭收入,X2=房前屋后土地面积〔数据见下页〕。〔1〕对上述情况进展判别,写出贝叶斯判别函数和Fisher判别函数。〔2〕某个家庭X1=37,X2=9.9,请判断这个家庭是否会购置割草机?98SPSS上机作业99991003.某专家设计出一套评分体系来判别企业的经营状况。该体系对每个企业的如下八个指标进展评分:企业规模〔is〕、效劳〔se〕、雇员工资比例〔sa〕、利润增长〔prr〕、市场份额〔ms〕、市场份额增长〔msr〕、流动资金比例〔cp〕、资金周转速度〔cs〕等。已经有90个企业被据此划分为“上升企业〞、“稳定企业〞和“下降企业〞。〔数据文件:4-7.sav〕请完成:〔1〕计算Fisher判别函数〔2〕再使用逐步判别方法,重新计算Fisher判别函数,比较与〔1〕结果的区别。〔3〕该套数据适合进展〔使用线性判别函数的〕贝叶斯判别吗?1003.某专家设计出一套评分体系来判别企业的经营状况。该体101本章完毕101本章完毕《判别分析》(2)幻灯片本课件PPT仅供大家学习使用学习完请自行删除,谢谢!本课件PPT仅供大家学习使用学习完请自行删除,谢谢!本课件PPT仅供大家学习使用学习完请自行删除,谢谢!本课件PPT仅供大家学习使用学习完请自行删除,谢谢!《判别分析》(2)幻灯片本课件PPT仅供大家学习使103第四节费歇〔Fisher〕判别法一

Fisher判别的基本思想

Fisher判别函数的构造

三线性判别函数的求法2第四节费歇〔Fisher〕判别法一Fisher判104Fisher判别法是1936年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上,投影的原那么是将总体与总体之间尽可能的分开,然后再选择适宜的判别规那么,将新的样品进展分类判别。右图中有A、B两个总体。在原始变量〔指标〕X1、X2的方向上,A、B都有很大的重叠,难以区分清楚。但是,如果以X1、X2为横、纵坐标轴构建一个平面,假设能设法找到一个y轴,使得当X1X2平面上的散点投射到y轴上时,两组观察值的重叠程度最小,那么综合指标y的区分能力显然大于原先的X1、X2。yx2x1一、Fisher判别的根本思想3Fisher判别法是1936年提出来的,该方法的主要思想是105一、Fisher判别的根本思想

4一、Fisher判别的根本思想106一、Fisher判别的根本思想

5一、Fisher判别的根本思想107二、Fisher判别函数的构造 1、针对两个总体的情形

6二、Fisher判别函数的构造 1、针对两个总体的情形1081、针对两个总体的情形

71、针对两个总体的情形

109 2、针对多个总体的情形

8 2、针对多个总体的情形110

2、针对多个总体的情形9 2、针对多个总体的情形111

10112三、线性判别函数的求法

11三、线性判别函数的求法113

12114

13115

14116

151171611817119一般需要多少个判别式就够用了?18一般需要多少个判别式就够用了?120另外一种求4.23式的思路*

19另外一种求4.23式的思路*121

另外一种求4.23式的思路*20另外一种求4.23式的思路*122需要指出是,此处利用极值原理求极值时,只给出了必要条件的数学推导,而省略了有关充分条件的论证,因为在实际问题中,往往根据问题本身的性质就能肯定有最大值〔或最小值〕,如果所求的驻点只有一个,这时就不需要根据极值存在的充分条件判定它是极大还是极小,而是直接能肯定这唯一的驻点就是所求的最大值〔或最小值〕。为了防止较多的数学推导,这里不追求数学上的完整性。另外一种求4.23式的思路*21需要指出是,此处利用极值原理求极值时,只给出了必要条件的123

总体参数未知情况下的解决方法

22总体参数未知情况下的解决方法1242312524126判别规那么25判别规那么127判别规那么26判别规那么128判别函数U〔X〕的另一种形式27判别函数U〔X〕的另一种形式129例题4.5经典案例:费希尔于1936年发表的鸢尾花〔Iris〕数据,被广泛用为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花〔第一组〕、变色鸢尾花〔第二组〕和弗吉尼亚鸢尾花〔第三组〕,各自抽取一个容量为50的样本,测量其花萼长度x1、花萼宽度x2、花瓣长度x3、花瓣宽度x4,单位为mm。28例题4.5经典案例:费希尔于1936年发表的鸢尾花〔Ir13029131301323113332134求解特征值与特征向量33求解特征值与特征向量135求判别函数34求判别函数136最后,确定判别规那么35最后,确定判别规那么137最后,确定判别规那么36最后,确定判别规那么138本例题SPSS的几个关键输出结果特征值37本例题SPSS的几个关键输出结果特征值139中心化的Fisher判别函数U1〔X〕和U2〔X〕的取值:38中心化的Fisher判别函数U1〔X〕和U2〔X〕的取值140各判别函数的组均值为:39各判别函数的组均值为:14140142几种判别方法的关系*Fisher判别与距离判别对判别变量的分布并无要求,而贝叶斯判别要求了解判别变量的先验分布,因此,Fisher判别核距离判别相对于贝叶斯判别,较为简单实用;当然,后者更加准确。当k=2且两个总体协差阵相等时,Fisher判别与距离判别是等价的。当判别变量服从正态分布,且不考虑误判代价时,它们与贝叶斯判别也是一样的。41几种判别方法的关系*Fisher判别与距离判别对判别变量143第五节实例分析与计算机实现这一节我们利用SPSS对Fisher判别法和Bayes判别法进展计算机实现。例题4.6:为研究某地区人口死亡状况,已按某种方法将15个地区样品分为3类,指标含义及原始数据如下。试建立判别函数,并判定另外4个待判地区属于哪类?〔本例SPSS数据文件:4-6.sav〕

X1

:0岁组死亡概率X

4:55岁组死亡概率

X

2

:1岁组死亡概率X5

:80岁组死亡概率

X

3

:10岁组死亡概率X6

:平均预期寿命42第五节实例分析与计算机实现这一节我们利用SPSS对F144表4.1各地区死亡概率表43表4.1各地区死亡概率表145分类变量Group取值的设置44分类变量Group取值的设置146开场判别分析45开场判别分析147 (一)操作步骤 1.在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边的变量列表中的“group〞变量选入分组变量中,将X1至X6变量选入自变量中,并选择Enterindependentstogether单项选择按钮,即使用所有自变量进展判别分析。46 (一)操作步骤148 2.点击DefineRange按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。

47 2.点击DefineRange按钮,定义分组变量的149 3.单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中FunctionCoefficients栏中的Fisher’s和Unstandardized。然后,单击Continue按钮,返回主界面。48 3.单击Statistics…按钮,指定输出的描述统150 这两个选项的含义如下:Fisher’s:给出Bayes判别函数的系数。〔注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fisher’s,是因为按判别函数值最大的一组进展归类这种思想是由Fisher提出来的。这里极易混淆,请同学注意。〕Unstandardized:给出未标准化的Fisher判别函数〔即典型判别函数,也即我们前面讲过的“中心化的Fisher判别函数〞〕的系数〔SPSS默认给出标准化的Fisher判别函数系数〕。49 这两个选项的含义如下:151设置均值、协差阵检验Box’xM是对各总体协差阵是否相等进展齐性检验Means可给出各总体均值是否相等的Wilks统计量。Within-groupscorrelation给出各自变量之间的相关系数矩阵最后点击“Continue〞回到上一级菜单。50设置均值、协差阵检验Box’xM是对各总体协差阵是否相152 4.再单击Classify…按钮,定义判别分组参数和选择输出结果。选择Display栏中的Casewiseresults,输出一个判别结果表,包括每个样品的判别分数、后验概率、实际组和预测组编号等。Plots栏中选中“Combined-Groups〞,在同一幅图中输出各组的Fisher判别函数〔投影〕值。再选择summarytable,将输出分类结果表“ClassificationResults〞;其余的均保存系统默认选项。单击Continue按钮。51 4.再单击Classify…按钮,定义判别分组参数和153 5.单击Save按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成的新变量的含义分别为:Predictedgroupmembership:存放判别样品所属组别的值;

Discriminantscores:存放Fisher判别得分的值,有几个典型判别函数就有几个判别得分变量;Probabilitiesofgroupmembership:存放样品属于各组的Bayes后验概率值。将对话框中的三个复选框均选中,单击Continue按钮返回。52 5.单击Save按钮,指定在数据文件中生成代表判别分154 6.返回判别分析主界面,单击OK按钮,运行判别分析过程。Save子对话框53Save子对话框155〔二〕主要运行结果解释各原始变量相关系数矩阵可见,第1与第3、第1与第2、第3与第4等指标间的存在一定相关54〔二〕主要运行结果解释各原始变量相关系数矩阵156〔二〕主要运行结果解释各总体均值是否相等的检验结果可见,第1、2、6个指标在各总体间的差异并不大55〔二〕主要运行结果解释各总体均值是否相等的检验结果157各组均值和离差的描述性统计:确实发现三个总体在第1、2、6指标的均值比较接近,以第一个指标“0岁组死亡率〞为例:56各组均值和离差的描述性统计:158协差阵齐性检验结果:由于样本资料矩阵的秩小于5〔p-1〕〔原因?〕,不是非奇异矩阵,无法给出Box’s检验结果。可见,第1、2、6个指标的同均值,确实对检验产生了影响〔二〕主要运行结果解释57协差阵齐性检验结果:〔二〕主要运行结果解释159因此,应该剔除第1、2、6个指标,重新进展分析:〔二〕主要运行结果解释58因此,应该剔除第1、2、6个指标,重新进展分析:〔二〕160各组均值和离差的描述性统计:〔二〕主要运行结果解释59各组均值和离差的描述性统计:〔二〕主要运行结果解释161剔除第1、2、6个指标后重新进展分析,得到的均值检验结果为:〔二〕主要运行结果解释60剔除第1、2、6个指标后重新进展分析,得到的均值检验结果162剔除第1、2、6个指标后重新进展分析,得到的协差阵齐性检验结果为:〔二〕主要运行结果解释61剔除第1、2、6个指标后重新进展分析,得到的协差阵齐性检163可见,判别分析开场前,有必要对各个总体的均值是否相等进展假设检验。接下来,出于课堂演示的需要,我们继续使用原有全部六个指标,进展后续的判别分析〔二〕主要运行结果解释62可见,判别分析开场前,有必要对各个总体的均值是否相等进展164特征值:Wilks’sLambda,是对Fisher判别函数的显著性进展检验。

〔二〕主要运行结果解释63特征值:〔二〕主要运行结果解释典型相关系数〔CanonicalCorrelation〕的平方,说明了判别函数因变量的变动,可以在多少程度上由自变量的变化所解释;也即,该平方项反映这个判别函数携带了多少原始数据的信息,该值反映了该判别函数的信息价值,当然越大越好。典型相关系数〔CanonicalCorrelation〕的166〔二〕主要运行结果解释 1.StandardizedCanonicalDiscriminantFunctionCoefficients〔给出标准化的典型判别函数系数〕标准化的典型判别函数是由标准化的自变量通过Fisher判别法得到的,所以要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。

65〔二〕主要运行结果解释 1.Standardized何谓“Canonical〞〔典型〕?Thismeansthatallvariableshavethesamescalesothatthecoefficientsofthediscriminantarenotaffectedbydifferentscales.E.g.MARITAL=0or1andAGE=18-80.何谓“Canonical〞〔典型〕?ThismeanstInterpretationoftheparameters:Lookingattheabsolutevaluesoftheweightsorcoefficientsgivesanindicationofwhichindependentvariablesaremore(orless)importantinpredictingwhichgroupanindividualwillbelongto.Thelargerthemoreimportant.InterpretationoftheparameteCanonicalThecoefficientssuggesttherelativeimportanceofthepredictorvariables.Consideronlytheabsolutesizeofthecoefficients.Biggermeansmoreimportant.系数的绝对值越大,说明该自变量〔predictorvariables〕在这个判别函数中就越重要。CanonicalThecoefficientssugg170〔二〕主要运行结果解释 2.CanonicalDiscriminantFunctionCoefficients〔给出未标准化的典型判别函数系数〕未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。69〔二〕主要运行结果解释 2.CanonicalDi171由此表可知,两个Fisher判别函数分别为:实际上两个函数式计算的是各观测值在各个维度上的坐标,这样就可以通过这两个函数式计算出各样品观测值的具体空间位置。〔二〕主要运行结果解释70由此表可知,两个Fisher判别函数分别为:〔二〕主要3.构造矩阵

StructureMatrixFunctionThestructurematrixshowstheabsolutecorrelationsbetweeneachpredictorvariableandthecanonicalvariable.构造矩阵中的元素,是原始变量与典型变量〔标准化的典型判别函数〕的相关系数3.构造矩阵

StructureMatrixFunctiMeaning?Ifavariableisastrongpredictor,itwillcorrelatestronglywiththecalculatedvalueofthediscriminatefunctionforeachcaseinthesample.该相关系数〔的绝对值〕越大,说明原始变量〔predictor〕与这个判别函数的相关性越强。Meaning?Ifavariableisastr《判别分析》-教学课件175 4.FunctionsatGroupCentroids〔给出组重心处的Fisher判别函数值〕如以下图所示,实际上为各类别重心在空间中的坐标位置。这样,只要在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以得知它们的分类了。组重心处的Fisher判别函数值〔二〕主要运行结果解释74 4.FunctionsatGroupCentr176 5.ClassificationFunctionCoefficients〔给出Bayes判别函数系数〕〔二〕主要运行结果解释75 5.ClassificationFunction177注意,在输出结果“ClassificationFunctionCoefficients〞表的下方注明是“Fisher'slineardiscriminantfunctions〞,但是经历证实为一般教课书中的贝叶斯线性判别函数!命名出现不一致的原因是按判别函数值最大的一组进展归类这种思想,是Fisher提出来的,因此SPSS用“Fisher〞对“贝叶斯〞方法进展了命名。并且因为贝叶斯判别函数只有在各个总体的样本的协方差阵一样时才是线性的〔为什么?〕因此在得到该判别函数的系数时,对样本的协方差的估计必须是在总体协方差相等情况下的估计!SPSS提供了Box'M组间协方差矩阵的齐性检验。〔二〕主要运行结果解释76注意,在输出结果“ClassificationFunc178 5.ClassificationFunctionCoefficients〔给出Bayes判别函数系数〕如上图所示,GROUP栏中的每一列表示样品判入相应列的Bayes判别函数系数。在本例中,各类的Bayes判别函数如下: 第一组: 第二组: 第三组:

〔二〕主要运行结果解释77 5.ClassificationFunction179将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。例如,将第一个待判样品的自变量值分别代入函数,得到:F1=3793.77,F2=3528.32,F3=3882.48比较三个值,可以看出最大,据此得出第一个待判样品应该属于第三组。〔二〕主要运行结果解释78将各样品的自变量值代入上述三个Bayes判别函数,得到三180 6.CasewiseStatistics〔给出个案观察结果〕在CasewiseStatistics输出表针对每个样品给出了了大局部的判别结果,其中包括:实际类〔ActualGroup〕、预测类〔PredictedGroup〕、Bayes判别法的后验概率、与组重心的马氏距离〔SquaredMahalanobisDistancetoCentroid〕以及Fisher判别法的每个典型判别函数的判别得分〔DiscriminantScores〕。下表经过加工隐藏了其中的一些工程。从表中可以看出四个待判样本依次被判别为第三组、第一组、第二组和第三组。〔二〕主要运行结果解释79 6.CasewiseStatistics〔给出个案181表4.4个案观察结果表〔二〕主要运行结果解释80表4.4个案观察结果表〔二〕主要运行结果解释182原始输出结果〔二〕主要运行结果解释81原始输出结果〔二〕主要运行结果解释7.有效性的验证7.有效性的验证184 8.由于我们在Save子对话框中选择了生成表示判别结果的新变量,所以在数据编辑窗口中,可以观察到产生的新变量。其中,变量dis-1存放判别样品所属组别的值,变量dis

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论