第4章判分析2_第1页
第4章判分析2_第2页
第4章判分析2_第3页
第4章判分析2_第4页
第4章判分析2_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第四章第四章 判别分析判别分析第一节第一节 引言引言 第二节第二节 距离判别法距离判别法 第三节第三节 贝叶斯(贝叶斯(bayes)判别法)判别法 第四节第四节 费歇(费歇(fisher)判别法)判别法 第五节第五节 实例分析与计算机实现实例分析与计算机实现 2第四节第四节 费歇(费歇(fisher)判别法)判别法一一 fisher判别的基本思想判别的基本思想 二二 fisher判别函数的构造判别函数的构造 三三 线性判别函数的求法线性判别函数的求法 3nfisher判别法是判别法是1936年提出来的,该方法的主要思想是通过年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上,投影的

2、原则是将总体与总体将多维数据投影到某个方向上,投影的原则是将总体与总体之间尽可能的分开,然后再选择合适的判别规则,将新的样之间尽可能的分开,然后再选择合适的判别规则,将新的样品进行分类判别。品进行分类判别。n右图中有右图中有a、b两个总体。在两个总体。在原始变量(指标)原始变量(指标)x1、x2的方的方向上,向上,a、b都有很大的重叠,都有很大的重叠,难以区分清楚。但是,如果以难以区分清楚。但是,如果以x1、x2为横、纵坐标轴构建一为横、纵坐标轴构建一个平面,若能设法找到一个个平面,若能设法找到一个y轴,使得当轴,使得当x1x2平面上的散点平面上的散点投射到投射到y轴上时,两组观察值轴上时,两

3、组观察值的重叠程度最小,则综合指标的重叠程度最小,则综合指标y的区分能力显然大于原先的的区分能力显然大于原先的x1、x2 。yx2x1一、一、fisher判别的基本思想判别的基本思想4一、一、fisher判别的基本思想判别的基本思想n n n n 5一、一、fisher判别的基本思想判别的基本思想n n 6二、二、fisher判别函数的构造判别函数的构造1、针对两个总体的情形、针对两个总体的情形n n 71、针对两个总体的情形、针对两个总体的情形82、针对多个总体的情形、针对多个总体的情形 9n 2、针对多个总体的情形、针对多个总体的情形10n 11三、线性判别函数的求法三、线性判别函数的求法

4、n 12n 13n 14n 15n 161718一般需要多少个判别式就够用了?一般需要多少个判别式就够用了?19另外一种求另外一种求4.23式的思路式的思路*n 20n 另外一种求另外一种求4.23式的思路式的思路*21n需要指出是,此处利用极值原理求极值时,只给出了必需要指出是,此处利用极值原理求极值时,只给出了必要条件的数学推导,而省略了有关充分条件的论证,因要条件的数学推导,而省略了有关充分条件的论证,因为在实际问题中,往往根据问题本身的性质就能肯定有为在实际问题中,往往根据问题本身的性质就能肯定有最大值(或最小值),如果所求的驻点只有一个,这时最大值(或最小值),如果所求的驻点只有一个

5、,这时就不需要根据极值存在的充分条件判定它是极大还是极就不需要根据极值存在的充分条件判定它是极大还是极小,而是直接能肯定这唯一的驻点就是所求的最大值小,而是直接能肯定这唯一的驻点就是所求的最大值(或最小值)。为了避免较多的数学推导,这里不追求(或最小值)。为了避免较多的数学推导,这里不追求数学上的完整性。数学上的完整性。 另外一种求另外一种求4.23式的思路式的思路*22 总体参数未知情况下的解决方法总体参数未知情况下的解决方法n 232425判别规则判别规则26判别规则判别规则27判别函数判别函数u(x)的另一种形式)的另一种形式28例题例题4.5n经典案例:费希尔于经典案例:费希尔于193

6、6年年发表的鸢尾花(发表的鸢尾花(iris)数据,)数据,被广泛用为判别分析的例子。被广泛用为判别分析的例子。数据是对数据是对3种鸢尾花:刚毛种鸢尾花:刚毛鸢尾花(第一组)、变色鸢鸢尾花(第一组)、变色鸢尾花(第二组)和弗吉尼亚尾花(第二组)和弗吉尼亚鸢尾花(第三组),各自抽鸢尾花(第三组),各自抽取一个容量为取一个容量为50的样本,测的样本,测量其花萼长度量其花萼长度x1、花萼宽度、花萼宽度x2、花瓣长度、花瓣长度x3、花瓣宽度、花瓣宽度x4,单位为,单位为mm。2930313233求解特征值与特征向量求解特征值与特征向量34求判别函数求判别函数35最后,确定判别规则最后,确定判别规则36最

7、后,确定判别规则最后,确定判别规则37本例题本例题spss的几个关键输出结果的几个关键输出结果n特征值特征值38n中心化的中心化的fisher判别函数判别函数u1(x)和)和u2(x)的取值:)的取值:39n各判别函数的组均值为:各判别函数的组均值为:4041几种判别方法的关系几种判别方法的关系*nfisher判别与距离判别对判别变量的分布并无要求,而贝叶判别与距离判别对判别变量的分布并无要求,而贝叶斯判别要求了解判别变量的先验分布,因此,斯判别要求了解判别变量的先验分布,因此,fisher判别核判别核距离判别相对于贝叶斯判别,较为简单实用;当然,后者更距离判别相对于贝叶斯判别,较为简单实用;

8、当然,后者更加精确。加精确。n当当k2且两个总体协差阵相等时,且两个总体协差阵相等时,fisher判别与距离判别是判别与距离判别是等价的。当判别变量服从正态分布,且不考虑误判代价时,等价的。当判别变量服从正态分布,且不考虑误判代价时,它们与贝叶斯判别也是相同的。它们与贝叶斯判别也是相同的。42第五节第五节 实例分析与计算机实现实例分析与计算机实现n这一节我们利用这一节我们利用spss对对fisher判别法和判别法和bayes判别法进行计判别法进行计算机实现。算机实现。n例题例题4.6:为研究某地区人口死亡状况,已按某种方法将:为研究某地区人口死亡状况,已按某种方法将15个已知地区样品分为个已知

9、地区样品分为3类,指标含义及原始数据如下。试建类,指标含义及原始数据如下。试建立判别函数,并判定另外立判别函数,并判定另外4个待判地区属于哪类?(本例个待判地区属于哪类?(本例spss数据文件:数据文件:4-6.sav) x1 : 0岁组死亡概率 x 4 : 55岁组死亡概率 x 2 :1岁组死亡概率 x5 : 80岁组死亡概率 x 3 : 10岁组死亡概率 x6 : 平均预期寿命 43表表4.1 各地区死亡概率表各地区死亡概率表44分类变量分类变量group取值的设置取值的设置45开始判别分析开始判别分析46 (一一) 操作步骤操作步骤1. 在在spss窗口中选择窗口中选择analyzecl

10、assifydiscriminate,调,调出判别分析主界面,将左边的变量列表中的出判别分析主界面,将左边的变量列表中的“group”变量选变量选入分组变量中,将入分组变量中,将x1至至x6变量选入自变量中,并选择变量选入自变量中,并选择enter independents together单选按钮,即使用所有自变量进行判单选按钮,即使用所有自变量进行判别分析。别分析。472. 点击点击define range按钮,定义分组变量的取值范围。本例按钮,定义分组变量的取值范围。本例中分类变量的范围为中分类变量的范围为1到到3,所以在最小值和最大值中分别输,所以在最小值和最大值中分别输入入1和和3。

11、单击。单击continue按钮,返回主界面。按钮,返回主界面。483. 单击单击statistics按钮,指定输出的描述统计量和判别函数按钮,指定输出的描述统计量和判别函数系数。选中系数。选中function coefficients栏中的栏中的fishers和和unstandardized。然后,单击。然后,单击continue按钮,返回主界面。按钮,返回主界面。49这两个选项的含义如下:这两个选项的含义如下:fishers:给出:给出bayes判别函数的系数。(注意:判别函数的系数。(注意:这个选项不是要给出这个选项不是要给出fisher判别函数的系数。这判别函数的系数。这个复选框的名字之

12、所以为个复选框的名字之所以为fishers,是因为按判,是因为按判别函数值最大的一组进行归类这种思想是由别函数值最大的一组进行归类这种思想是由fisher提出来的。这里极易混淆,请同学注意。)提出来的。这里极易混淆,请同学注意。)unstandardized:给出:给出未标准化未标准化的的fisher判别函判别函数(即数(即典型典型判别函数,也即我们前面讲过的判别函数,也即我们前面讲过的“中中心化心化的的fisher判别函数判别函数”)的系数()的系数(spss默认给默认给出标准化的出标准化的fisher判别函数系数)。判别函数系数)。50设置均值、协差阵检验设置均值、协差阵检验nboxx m

13、是对各总体协差阵是否相等进行齐性检验是对各总体协差阵是否相等进行齐性检验nmeans可给出各总体均值是否相等的可给出各总体均值是否相等的wilks统计量。统计量。nwithin-groups correlation给出各自变量之间的相关系数矩阵给出各自变量之间的相关系数矩阵最后点击最后点击“continue”回到上一级菜单。回到上一级菜单。514. 再单击再单击classify按钮,定义判别分组参数和选择输出结按钮,定义判别分组参数和选择输出结果。选择果。选择display栏中的栏中的casewise results,输出一个判别结果,输出一个判别结果表,包括每个样品的判别分数、后验概率、实际

14、组和预测组表,包括每个样品的判别分数、后验概率、实际组和预测组编号等。编号等。plots栏中选中栏中选中“combined-groups”,在同一幅图,在同一幅图中输出各组的中输出各组的fisher判别函数(投影)值。再选择判别函数(投影)值。再选择summary table,将输出分类结果表,将输出分类结果表“classification results”;其余的;其余的均保留系统默认选项。单击均保留系统默认选项。单击continue按钮。按钮。525. 单击单击save按钮,指定在数据文件中生成代表判别分组结果按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成的新变量的含义

15、分别为:和判别得分的新变量,生成的新变量的含义分别为:predicted group membership:存放判别样品所属组别的值;:存放判别样品所属组别的值; discriminant scores:存放:存放fisher判别得分的值,有几个典型判别得分的值,有几个典型判别函数就有几个判别得分变量;判别函数就有几个判别得分变量;probabilities of group membership:存放样品属于各组的:存放样品属于各组的bayes后验概率值。后验概率值。n将对话框中的三个复选框均选中,单击将对话框中的三个复选框均选中,单击continue按钮返回。按钮返回。536. 返回判别分

16、析主界面,单击返回判别分析主界面,单击ok按钮,运行判别分析过程。按钮,运行判别分析过程。save子对话框子对话框54(二)(二) 主要运行结果解释主要运行结果解释各原始变量相关系数矩阵各原始变量相关系数矩阵n可见,第可见,第1与第与第3、第、第1与第与第2、第、第3与第与第4等指标间的存在一定等指标间的存在一定相关相关pooled within-groups matricespooled within-groups matrices1.000.530.756.365.5301.000.378.471.756.3781.000.484.365.471.4841.000 x1x2x3x4corr

17、elationx1x2x3x455(二)(二) 主要运行结果解释主要运行结果解释各总体均值是否相等的检验结果各总体均值是否相等的检验结果n可见,第可见,第1、2、6个指标在各总体间的差异并不大个指标在各总体间的差异并不大tests of equality of group meanstests of equality of group means.997.019212.981.990.063212.939.6453.301212.072.4387.690212.007.17428.557212.000.926.478212.6310岁组死亡概率1岁组死亡概率10岁组死亡概率55岁组死亡概率80

18、岁组死亡概率平均预期寿命wilks lambdafdf1df2sig.56n各组均值和离差的描述性统计:各组均值和离差的描述性统计:n确实发现三个总体在第确实发现三个总体在第1、2、6指标的均值比较接近,以第指标的均值比较接近,以第一个指标一个指标“0岁组死亡率岁组死亡率”为例:为例:group statisticsgroup statistics38.74206.8843455.00011.90006.7852855.0001.5000.7593155.00012.24606.9758555.000100.05807.4774055.00067.46002.6968555.00039.536

19、08.3724955.00011.49608.4491155.0002.93802.1253055.00027.83006.1197155.000151.024017.6022355.00066.05001.9072255.00038.500010.5680155.00010.09809.8066555.000.6840.9079055.00010.33209.6736055.00093.946012.2527655.00067.42003.0507455.00038.92608.104851515.00011.16477.852811515.0001.70731.618971515.0001

20、6.802710.823061515.000115.009329.136171515.00066.97672.497351515.0000岁组死亡概率1岁组死亡概率10岁组死亡概率55岁组死亡概率80岁组死亡概率平均预期寿命0岁组死亡概率1岁组死亡概率10岁组死亡概率55岁组死亡概率80岁组死亡概率平均预期寿命0岁组死亡概率1岁组死亡概率10岁组死亡概率55岁组死亡概率80岁组死亡概率平均预期寿命0岁组死亡概率1岁组死亡概率10岁组死亡概率55岁组死亡概率80岁组死亡概率平均预期寿命group第一类第二类第三类totalmeanstd.deviationunweightedweightedva

21、lid n (listwise)57协差阵齐性检验结果:协差阵齐性检验结果:n由于样本资料矩阵的由于样本资料矩阵的秩小于秩小于5(p-1)(原)(原因?),不是非奇异因?),不是非奇异矩阵,无法给出矩阵,无法给出boxs检验结果。检验结果。n可见,第可见,第1、2、6个个指标的同均值,确实指标的同均值,确实对检验产生了影响对检验产生了影响(二)(二) 主要运行结果解释主要运行结果解释58n因此,应该剔除第因此,应该剔除第1、2、6个指标,重新进行分析:个指标,重新进行分析:(二)(二) 主要运行结果解释主要运行结果解释59n各组均值和离差的描述性统计:各组均值和离差的描述性统计:group s

22、tatisticsgroup statistics1.5000.7593155.00012.24606.9758555.000100.05807.4774055.0002.93802.1253055.00027.83006.1197155.000151.024017.6022355.000.6840.9079055.00010.33209.6736055.00093.946012.2527655.0001.70731.618971515.00016.802710.823061515.000115.009329.136171515.00010岁组死亡概率55岁组死亡概率80岁组死亡概率10岁组死

23、亡概率55岁组死亡概率80岁组死亡概率10岁组死亡概率55岁组死亡概率80岁组死亡概率10岁组死亡概率55岁组死亡概率80岁组死亡概率group第一类第二类第三类totalmeanstd.deviationunweightedweightedvalid n (listwise)(二)(二) 主要运行结果解释主要运行结果解释60n剔除第剔除第1、2、6个指标后重新进行分析,得到的均值检验结个指标后重新进行分析,得到的均值检验结果为:果为:(二)(二) 主要运行结果解释主要运行结果解释tests of equality of group meanstests of equality of grou

24、p means.6453.301212.072.4387.690212.007.17428.557212.00010岁组死亡概率55岁组死亡概率80岁组死亡概率wilks lambdafdf1df2sig.61n剔除第剔除第1、2、6个指标后重新进行分析,得到的协差阵齐性个指标后重新进行分析,得到的协差阵齐性检验结果为:检验结果为:(二)(二) 主要运行结果解释主要运行结果解释62n可见,判别分析开始前,有必要对各个总体的均值是否相等可见,判别分析开始前,有必要对各个总体的均值是否相等进行假设检验。进行假设检验。n接下来,接下来,出于课堂演示的需要出于课堂演示的需要,我们继续使用原有全部六个,

25、我们继续使用原有全部六个指标,进行后续的判别分析指标,进行后续的判别分析(二)(二) 主要运行结果解释主要运行结果解释63特征值:特征值:wilkss lambda,是对,是对fisher判别函数的显著性进行检验。判别函数的显著性进行检验。(二)(二) 主要运行结果解释主要运行结果解释n典型相关系数(典型相关系数(canonical correlation)的平方,说明了判)的平方,说明了判别函数因变量的变动,可以在多少程度上由自变量的变化所别函数因变量的变动,可以在多少程度上由自变量的变化所解释;解释;n也即,该平方项反映这个判别函数携带了多少原始数据的信也即,该平方项反映这个判别函数携带了

26、多少原始数据的信息,该值反映了该判别函数的信息价值,当然越大越好。息,该值反映了该判别函数的信息价值,当然越大越好。65(二)(二) 主要运行结果解释主要运行结果解释1. standardized canonical discriminant function coefficients(给出标准化的典型判别函数系数)(给出标准化的典型判别函数系数)标准化的典型判别函数是由标准化的自变量通过标准化的典型判别函数是由标准化的自变量通过fisher判别法判别法得到的,所以要得到标准化的典型判别得分,代入该函数的自得到的,所以要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。变量必须是

27、经过标准化的。69(二)(二) 主要运行结果解释主要运行结果解释2. canonical discriminant function coefficients(给出未标(给出未标准化的典型判别函数系数)准化的典型判别函数系数)未标准化的典型判别函数系数由于可以将实测的样品观测值直未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。方便一些。70由此表可知,两个由此表可知,两个fisher判别函数分别为:判别函数分别为:实际上两个函数式计算的是各观测值在各个维度上的坐标,这实际

28、上两个函数式计算的是各观测值在各个维度上的坐标,这样就可以通过这两个函数式计算出各样品观测值的具体空间位样就可以通过这两个函数式计算出各样品观测值的具体空间位置。置。 1123456212345674.991.8611.6560.8770.7980.0981.57929.4820.8671.1550.3560.0890.0540.69yxxxxxxyxxxxxx (二)(二) 主要运行结果解释主要运行结果解释structure matrixstructure matrix.008*-.001.288-.388*.149-.199*.098.106*.007.104*-.036.091*0岁组死

29、亡概率80岁组死亡概率55岁组死亡概率10岁组死亡概率1岁组死亡概率平均预期寿命12functionpooled within-groups correlations betweendiscriminating variables and standardizedcanonical discriminant functions variables ordered by absolute size of correlationwithin function.largest absolute correlation between eachvariable and any discriminant

30、 function*. 744. functions at group centroids(给出组重心处的(给出组重心处的fisher判判别函数值)别函数值)如下图如下图 所示,实际上为各类别重心在空间中的坐标位置。这所示,实际上为各类别重心在空间中的坐标位置。这样,只要在前面计算出各观测值的具体坐标位置后,再计算出样,只要在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以得知它们的分类了。它们分别离各重心的距离,就可以得知它们的分类了。组重心处的组重心处的fisher判别函数值判别函数值(二)(二) 主要运行结果解释主要运行结果解释75 5. classificat

31、ion function coefficients(给出(给出bayes判别函数判别函数系数)系数)(二)(二) 主要运行结果解释主要运行结果解释76n注意,在输出结果注意,在输出结果“classification function coefficients”表表的下方注明是的下方注明是“fishers linear discriminant functions”,但,但是经验证实为一般教课书中的贝叶斯线性判别函数是经验证实为一般教课书中的贝叶斯线性判别函数! 命名出命名出现不一致的原因是按判别函数值最大的一组进行归类这种思现不一致的原因是按判别函数值最大的一组进行归类这种思想,是想,是fis

32、her提出来的,因此提出来的,因此spss用用“fisher”对对“贝叶斯贝叶斯”方法进行了命名。方法进行了命名。n并且因为贝叶斯判别函数只有在各个总体的样本的协方差阵并且因为贝叶斯判别函数只有在各个总体的样本的协方差阵相同时才是线性的(为什么?)因此在得到该判别函数的系相同时才是线性的(为什么?)因此在得到该判别函数的系数时,对样本的协方差的估计必须是在总体协方差相等情况数时,对样本的协方差的估计必须是在总体协方差相等情况下的估计!下的估计!spss提供了提供了boxm组间协方差矩阵的齐性检验。组间协方差矩阵的齐性检验。(二)(二) 主要运行结果解释主要运行结果解释77 5. classif

33、ication function coefficients(给出(给出bayes判别函数判别函数系数)系数)如上图所示,如上图所示,group栏中的每一列表示样品判入相应列的栏中的每一列表示样品判入相应列的bayes判别函数系数。在本例中,各类的判别函数系数。在本例中,各类的bayes判别函数如下:判别函数如下:第一组:第一组:第二组:第二组:第三组:第三组: 11234565317.2143.9153.190.153.011.0189.3fxxxxxx 21234566202.2164.7171.2100.062.512.1207.0fxxxxxx 31234564982.9134.9144

34、.585.950.010.5181.7fxxxxxx (二)(二) 主要运行结果解释主要运行结果解释78将各样品的自变量值代入上述三个将各样品的自变量值代入上述三个bayes判别函数,得到三个判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。例如,将第一个待判样品的自变量值分别代样品判入哪一类。例如,将第一个待判样品的自变量值分别代入函数,得到:入函数,得到: f1=3793.77, f2=3528.32, f3=3882.48比较三个值,可以看出最大,据此得出第一个待判样品应该属比较三个值,可以看出最

35、大,据此得出第一个待判样品应该属于第三组。于第三组。(二)(二) 主要运行结果解释主要运行结果解释796. casewise statistics(给出个案观察结果)(给出个案观察结果)在在casewise statistics输出表针对每个样品给出了了大部分的判输出表针对每个样品给出了了大部分的判别结果,其中包括:实际类(别结果,其中包括:实际类(actual group)、预测类)、预测类(predicted group)、)、bayes判别法的后验概率、与组重心的判别法的后验概率、与组重心的马氏距离(马氏距离(squared mahalanobis distance to centroi

36、d)以及)以及fisher判别法的每个典型判别函数的判别得分(判别法的每个典型判别函数的判别得分(discriminant scores)。下表经过加工隐藏了其中的一些项目。从表中可以)。下表经过加工隐藏了其中的一些项目。从表中可以看出四个待判样本依次被判别为第三组、第一组、第二组和第看出四个待判样本依次被判别为第三组、第一组、第二组和第三组。三组。(二)(二) 主要运行结果解释主要运行结果解释80casewise statistics111.000.297-2.1771.364111.000.236-2.2701.375111.000.117-2.7411.32311.998.507-3.1

37、99.638111.000.418-2.582.366221.000.4699.674.231221.000.8688.332-.613221.0005.98510.128-2.518221.0004.7938.3421.760221.000.1019.491-.145331.000.139-6.687-.394331.000.322-7.163-.685331.0005.365-8.655-1.82333.8793.384-4.766-.60833.995.998-5.727-.270ungrouped31.000361.567-20.714-13.498ungrouped1.998.558

38、-3.319.831ungrouped21.00028.66814.0082.086ungrouped31.0001.982-7.595-1.752casenumber12345678910111213141516171819actualgrouppredictedgroupp(g=g| d=d)squaredmahalanobisdistance tocentroidhighest groupfunction1function2discriminant scores表表4.4 个案观察结果表个案观察结果表(二)(二) 主要运行结果解释主要运行结果解释81n原始输出结果原始输出结果(二)(二)

39、 主要运行结果解释主要运行结果解释7.有效性的验证有效性的验证classification resultsclassification resultsa a500505050055100.0.0.0100.0.0100.0.0100.0.0.0100.0100.0group第一类第二类第三类第一类第二类第三类count%original第一类第二类第三类predicted group membershiptotal100.0% of original grouped cases correctly classified.a. 838. 由于我们在由于我们在save子对话框中选择了生成表示判别结

40、果的新子对话框中选择了生成表示判别结果的新变量,所以在数据编辑窗口中,可以观察到产生的新变量。变量,所以在数据编辑窗口中,可以观察到产生的新变量。其中,变量其中,变量dis-1存放判别样品所属组别的值,变量存放判别样品所属组别的值,变量dis1-1和和dis2-1分别代表将样品各变量值代入第一个和第二个非标准分别代表将样品各变量值代入第一个和第二个非标准化化fisher判别函数所得的判别分数,变量判别函数所得的判别分数,变量dis1-2、dis2-2和和dis3-2分别代表样品分别属于第分别代表样品分别属于第1组、第组、第2组和第组和第3组的组的bayes后验概率值。后验概率值。(二)(二)

41、主要运行结果解释主要运行结果解释84(二)(二) 主要运行结果解释主要运行结果解释8586再多说一句:再多说一句:spss操作中的辅助检验操作中的辅助检验n无论是哪种判别分析方法,都需要对各个总体均值是否相等无论是哪种判别分析方法,都需要对各个总体均值是否相等进行检验。如果无法拒绝进行检验。如果无法拒绝“均值相等均值相等”的原假设,就应该将的原假设,就应该将相关样本合并,再进行后续的判别相关样本合并,再进行后续的判别nfisher判别,无需对总体协差阵进行齐性检验;判别,无需对总体协差阵进行齐性检验;n贝叶斯判别,正常情况下我们需要得到线性判别函数,此时,贝叶斯判别,正常情况下我们需要得到线性

42、判别函数,此时,需要对总体协差阵进行齐性检验需要对总体协差阵进行齐性检验nfisher判别无需对总体的分布特征进行检验;贝叶斯判别理判别无需对总体的分布特征进行检验;贝叶斯判别理论上需要对总体的正态性进行检验,不过,在实际操作中要论上需要对总体的正态性进行检验,不过,在实际操作中要求并不严格。求并不严格。87n有时,一些变量对于判别并没有用处,为了得到对判别最合有时,一些变量对于判别并没有用处,为了得到对判别最合适的变量,可以使用逐步判别。适的变量,可以使用逐步判别。n即:先用少数变量进行判别,然后一边判别,一边引进判别即:先用少数变量进行判别,然后一边判别,一边引进判别能力最强的变量,又要逐

43、步淘汰判别能力不强的变量,这个能力最强的变量,又要逐步淘汰判别能力不强的变量,这个过程可以有进有出。过程可以有进有出。n判别一个变量判别能力的方法有很多种,主要利用各种检验,判别一个变量判别能力的方法有很多种,主要利用各种检验,例如例如wilks lambda、raos v、马氏距离、马氏距离、smallest f ratio或或the sum of unexplained variation等检验等检验n筛选好变量后,接下来的判别方法与前面相同筛选好变量后,接下来的判别方法与前面相同(三)逐步判别分析功能(三)逐步判别分析功能*88(三)逐步判别分析功能(三)逐步判别分析功能*n调入判别分析

44、主菜单(方法同前),然后选择调入判别分析主菜单(方法同前),然后选择“use stepwise method”89n再点击再点击“method.”,选择筛选变量的检验方法:,选择筛选变量的检验方法:n选择默认方法选择默认方法wilks lambda检验检验(三)逐步判别分析功能(三)逐步判别分析功能*90n最终只保留了一个变量:最终只保留了一个变量:(三)逐步判别分析功能(三)逐步判别分析功能*91n非中心化的非中心化的fisher判别函数及组重心:判别函数及组重心:(三)逐步判别分析功能(三)逐步判别分析功能*92n贝叶斯判别函数贝叶斯判别函数(三)逐步判别分析功能(三)逐步判别分析功能*(

45、四)训练样本的选取(四)训练样本的选取*现在我们希望只选取前现在我们希望只选取前13个样本作为个样本作为“训练样本训练样本”生生成判别函数,而保留最后两个样本仅作为测试样本成判别函数,而保留最后两个样本仅作为测试样本:n在在variable view窗口中生成虚拟变量窗口中生成虚拟变量“dummy”n在在data view窗口中给该虚拟变量赋值,前窗口中给该虚拟变量赋值,前13个样本赋值为个样本赋值为1,最后,最后2个样本赋值为个样本赋值为0n运行判别分析程序:运行判别分析程序: n将虚拟变量将虚拟变量dummy放入右侧放入右侧“selection”框中框中n点击点击“value”,设定值为,

46、设定值为1,意思是,意思是spss将只选取将只选取dummy变变量取值为量取值为1的那些样本进行后续的判别分析的那些样本进行后续的判别分析n其他各种选项同本章前述,保持不变其他各种选项同本章前述,保持不变(四)训练样本的选取(四)训练样本的选取*输出结果:输出结果:analysis case processing summaryanalysis case processing summary1386.70.00.00.0213.3213.315100.0unweighted casesvalidmissing or out-of-rangegroup codesat least one missingdiscriminat

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论