生物数据统计方法——第六章3_第1页
生物数据统计方法——第六章3_第2页
生物数据统计方法——第六章3_第3页
生物数据统计方法——第六章3_第4页
生物数据统计方法——第六章3_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、判 别 分 析距离判别贝叶斯判别逐步判别典型判别 例 中小企业的破产模型为了研究中小企业的破产模型,选定4个经济指标: X1总负债率(现金收益/总负债) X2收益性指标(纯收入/总财产) X3短期支付能力(流动资产/流动负债) X4生产效率性指标(流动资产/纯销售额) 对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:1 什么是判别分析什么是判别分析总负债率总负债率收益性指标收益性指标短期支付能力短期支付能力生产效率指标生产效率指标类别类别-.45-.411.09.451-.56-.36.021.01.401-.07-.091.45.261-.1

2、0-.091.56.671-.14-.07.71.281-.23-.7.01.002.15.701-.28-.231.19.661.15.051.88.29.381-.08-.081.51.421.05.031.68.951.01.001.26.604.171-.28-.271.27.59.542.08.022.01.51.113.252 5.03.332 7.03.6

3、32 5.054.492 5.052.592 2-.02-.02.02.022.052.05.35.352 8.082.302 7.071.8022 5.05.552 2-.10-.10-1.01-1.012.5082 2.14.14-.03-.06.262 7.072.622 2-.33-.33-.09-.093.013.01.47

4、.472 9.08.182 1.114.252 8.081.902 4.142.952 4.042.442 4.045.065.06.13.132 2.04.04.01.011.501待判待判-.06-.06-.06-.061.30待判待判.07.07-.01-.011.34待判待判-.13-.13-.14-.141.421.42

5、.44.44待判待判.15.15.06.06.56待判待判.16.16.05.052.30待判待判.29.29.06.061.88待判待判.12.38待判待判企业序号判别类型判别函数得分判别为1的概率判别的为2概率11-.56509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65

6、558821.24010.09012.90988 判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。 它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。 判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。 2 距离判别 (一)马氏距离马氏距离 距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通

7、过样本与某类别之间距离的大小,判别其所属类别。 设 是从期望= 和方差阵= 的总体G抽得的两个观测值,则称 为X与Y之间的Mahalanobis距离 和),(21mxxxx),(21myyyy),(21m0mmij)()(),(2yxyxyx1dkiGdiii, 2 , 1)()(),(2xxx1 样本X和Gi类之间的马氏距离定义为X与Gi类重心间的距离: (二)两个总体距离判别法 先考虑两个总体的情况,设有两个协差阵相同的p维正态总体和,对给定的样本Y Y,判别一个样本Y Y到底是来自哪一个总体,一个最直观的想法是计算Y Y到两个总体的距离。故我们用马氏距离来指定判别规则,有:),(),(2

8、2121222222121GydGydGdGdGGdGdG如待判,如,如,yyyyyy1、方差相等)()()()(),(),(1112121222 yyyyyyGdGd22211yyy12 )(2211y)()(21211)(2)( 221121y221令),()(21paaa211)2(1111 11yyy则前面的判别法则表示为0)(0021YWWGWG如待判,。)(如,)(如,yyyy 当 和已知时, 是一个已知的p维向量,W(y)是y的线性函数,称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。21,)(211)yyy()()(W

9、)()(111pppyayay 例 在企业的考核种,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有: 资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为 (7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?变量均值向量协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41 劳动生产率 40.729.840.2454.5811.67 产品净值率 111.677.90854988.

10、 0025659. 028276. 0025659. 0033129. 002753. 028276. 002753. 0119337. 015 . 49 .101 . 82145. 825.3545. 92/ )(2183679.125362.060581.0)(211判别函数的系数73596.1883679. 125362. 060581. 045. 825.3545. 9)(221121)判别函数的常数项(73596.1883679. 125362. 060581. 0321xxxy)第一个新企业属于一类(00892. 473596.186 . 983679. 11 .3925362.

11、08 . 760581. 01y)第二个新企业属于二类(02956. 273596.189 . 683679. 12 .3425362. 01 . 860581. 02y线性判别函数: 2、当总体的协方差已知,且不相等、当总体的协方差已知,且不相等),(),(22121222222121GydGydGdGdGGdGdG如待判,如,如,yyyyyy)()()()(),(),(111121221222yyyyyyGdGd 当总体的方差未知时,应该用样本的协方差矩阵代替。步骤如下(假如两个总体): (1)分别计算各组的离差矩阵S1和S2; (2)计算 (3)计算类的均值 (4)计算 (5)计算 (6

12、)生成判别函数,将检验样本代入,得分,判类。22121nnSS2,2121121,)(211判别函数的系数)(221121)判别函数的常数项( 随着计算机计算能力的增强和计算机的普及,距离判别法的判别函数也在逐步改进,一种等价的距离判别为: 设有个K总体,分别有均值向量i(i=1,2,k)和协方差阵i= ,各总体出现的先验概率相等。又设Y是一个待判样品。则与的距离为(即判别函数)(三三) 多总体的距离判别法多总体的距离判别法)()(),(12iiiGdyyyiii 1211yyy 上式中的第一项Y -1Y与i无关,则舍去,得一个等价的函数iiiiYg 12)(1y 将上式中提-2,得)5 .

13、0(2)(1iiiiYg 1y)5 . 0()(1iiiiYf 1y令则距离判别法的判别函数为:判别规则为likilGyxfyf,则)(max)(1最大)5 . 0()(1iiiiYf 1y注注:这与前面所提出的距离判别是等价的.最小)()(),(122iiiGdyyy)5 . 0()(1iiiiYf 1y令(四)对判别效果做出检验(四)对判别效果做出检验 1、错判概率 由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。 )2()2()(2122221222XPXPXP错判概率:)2(2122XP)2(1212、 交叉核实交叉核实法的思想是:为了判断第i个观测的判别正

14、确与否,用删除第i个观测的样本数据集计算出判别函数,然后用此判别函数来判别第i个观测。对每一个观测都这样进行。 交叉核实检查比较严格,能说明所选择判别方法的有效性。 交叉核实可以检验所用方法是否稳定。 交叉核实可以解决样本容量不大的情形,改变样本,来检验方法是否稳定的问题。 i i1G2GkG1G11m12mkm11n2G21m22mkm22nkG1km2kmkkmkn 判类判类原类原类合计 kiikijjijmnp11简单错判率: 加权错判率: 设qi是第i类的先验概率, pi是第i类的错判概率,则加权错判率为 ikiipqP1 距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数

15、未知和协方差时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。贝叶斯判别法贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。 办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。3 贝叶斯判别法贝叶斯判别法)/()()/(/(坏人做好事坏人好人做好事好人好人做好事好人做好事)

16、好人PPPPPPP82. 02 . 05 . 09 . 05 . 09 . 05 . 0一一 、标准的、标准的Bayes判别判别 )/()()/(/(坏人做好事坏人好人做好事好人坏人做好事坏人做好事)坏人PPPPPPP18. 02 . 05 . 09 . 05 . 02 . 05 . 0 距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。贝叶斯公式是一个我们熟知

17、的公式 )()|()()|()|(iiiiiBPBAPBPBAPABP 设有总体 , 具有概率密度函 数 。并且根据以往的统计分析,知道 出现的概率为 。即当样本 发生时,求他属于某类的概率。由贝叶斯公式计算后验概率,有:iG)(xfiiGiq0 x), 2 , 1(kiGi)()()|(000 xfqxfqxGPjjiii判别规则)()()|(000 xfqxfqxGPjjlll)()(001maxxfqxfqjjiiki则 判给 。在正态的假定下, 为正态分布的密度函数。0 xlG)(xfi ),(max)(100kiiillxfqxfq则 判给 。0 xlG)()(21exp)2(1)(

18、)(1)(21iiiiixxxf若)()(21exp)2(1)(,)(1)(21iiiiiiixxqxfq则 上式两边取对数并去掉与i无关的项,则等价的判别函数为: 下面讨论总体服从正态分布的情形)(ln()(xiiifqxz|ln21lniiq)()(21)(1)(iiixx问题转化为若 ,则判 。)(max)(1xZxZikillGx当协方差阵相等 k1则判别函数退化为iiqxzln)()(21(i)1(i)(x)xiqln221)(i)1(i)(x)x令 )(i)1(i)(x)(xiiqxFln2)(问题转化为若 ,则判 。)(min)(1xPxPikillGx(i)1)(i1)(ix2

19、ln2)(iiqxP xx1)(i(i)1)(i21ln)(iiqm完全成为距离判别法 。kqqk11)(xmi(i)1(i)21x1(i)令有)21(ln2)(xx1(i)(i)1(i)iiqP问题转化为若 ,则判 。)(max)(1xmxmikillGx当先验概率相等,二、二、 考虑错判损失的考虑错判损失的Bayes判别分析判别分析 设有总体 , 具有概率密度函 数 。并且根据以往的统计分析,知道 出现的概率为 。iG)(xfiiGiq), 2 , 1(kiGi11kqq又D1,D2,Dk是R(p)的一个分划,判别法则为:当样品X落入Di时,则判 iDX ki, 3 , 2 , 1 关键的

20、问题是寻找D1,D2,Dk分划,这个分划应该使平均错判率最小。 【定义】【定义】(平均错判损失)(平均错判损失) 用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。 jDiijdxxfGDXPijp)()/()/(ji C(j/i)表示相应错判所造成的损失。 则平均错判损失为: kiijiijPijCqECM1)/()/(使ECM最小的分划,是Bayes判别分析的解。 【定理】若总体G1,G2,Gk的先验概率为且相应的密度函数为 ,损失为 时,则划分的Bayes解为其中kiqi, 3 , 2 , 1,)(xfi)/(ijCkihhDjkjii, 3 , 2 , 1,)(min)(

21、|1xxxkiiijfijCqh1)()/()(xx 含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失然后比较其大小,选取其中最小的,则判定样品属于该总体。kiiijfijCqh1)()/()(xx为了直观说明,作为例子,我们讨论k=2的情形。 12)()2/1 ()() 1/2(),(221121DDdxxfCqdxxfCqDDECMdxxfCqdxxfCqDRD11)()2/1 ()() 1/2(22111)() 1/2() 1/2(121DdxxfCqCq1)()2/1 (22DdxxfCq) 1/2(1CqiDdxxfCqxfC

22、q)() 1/2()()2/1 (1122 由此可见,要使ECM最小,被积函数必须在D1是负数,则有分划0)() 1/2()()2/1 (|11221xfCqxfCqDx 21221)()/1 ()()2/1 ()(iiixfiCqfCqhxx211112)() 1/2()() 1/2()(iifCqfCqhxxx0)() 1/2()()2/1 (1122xfCqxfCqBayes判别准则为: dxvdxvGxdxvGx)()()(21若待判若若)2/1 (/ ) 1/2()(/ )(1221CqCqxfxf)(/ )(21xfxfv )2/ 1 (/ ) 1/2(12CqCqd 特别kiii

23、jfijCqh1)()/()(xxjijiijC01)/(kjiiijfqh)()(xxkijjiijfqfqh1)()()(xxx越小kijjiijfqfqh1)()()(xxx越大)(xjjfq),(max)(1kiiillfqfqxx则 判给 。与标准Bayes判别等价xlG 下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为: x1: 月收入 x2:月生活费支出 x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0” x4: 目前工作的年限 x5: 前一个工作的年限

24、x6:目前住所的年限 x7:前一个住所的年限X8:信用程度,“5”的信用度最高,“1”的信用度最低。1617原始类判类后验概率1 后验概率2 后验概率3 后验概率4 后验概率555000.0000100.99999110.870790.005290.123790.000140440.039520.016050.146350.787140.01095220.048270.910020.036110.00560130.3810.198530.410760.00970.00001130.22920.108830.634830.026810.00032110.64920.211280.138960.0

25、00560550.000140.000060.002060.233910.76384330.188840.006160.80490.00010330.096240.001720.901690.000330.00003440.008910.302990.012160.67590.00004110.796190.003280.200270.00020.00006330.263540.010660.684580.039750.00147220.082620.832040.019820.065520440.000020.001160.000060.998130.00062330.115070.0165

26、10.367210.293970.20724310.671840.239020.08880.0003404 变量选择和逐步判别变量选择和逐步判别 变量的选择是判别分析中的一个重要的问题,变量选择是否恰当,是判别分析效果有列的关键。如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。而另一方面,如果判别变量个数太多,计算量必然大,回影响估计的精度。特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果。 中小企业的破产模型中小企业的破产模型 为了研究中小企业的破产模型,首先选定了X1总负债率(现金收益/总负债),X2收益性指标(纯收入/总财产),X3短期支付能力(

27、流动资产/流动负债)和X4生产效率性指标(流动资产/纯销售额)4个经济指标,对17个破产企业为“1”和21个正常运行企业“2”进行了调查,得资料如下。如果这些指标是用来做判别分析和聚类分析的变量,他们之间没有显著性差异是不恰当的,所以检验所选择的指标在不同类型企业之间是否有显著的差异。 Classification Resultsb,c152175162144888.211.8100.023.876.2100.050.050.0100.0152176152188.211.8100.028.671.4100.0破 产 企 业 为 1, 正常 运 行 企 业 为 212Ungrouped case

28、s12Ungrouped cases1212Count%Count%OriginalCross-validateda12Predicted GroupMembershipTotalCross validation is done only for those cases in the analysis. In cross validation,each case is classified by the functions derived from all cases other than thatcase.a. 81.6% of original grouped cases correctl

29、y classified.b. 78.9% of cross-validated grouped cases correctly classified.c. x1,x2,x3,x4均为判别变量Classification Resultsb,c152174172144888.211.8100.019.081.0100.050.050.0100.0152175162188.211.8100.023.876.2100.0破产企业为1,正常运行企业为212Ungrouped cases12Ungrouped cases1212Count%Count%OriginalCross-validateda12

30、Predicted GroupMembershipTotalCross validation is done only for those cases in the analysis. In cross validation,each case is classified by the functions derived from all cases other than thatcase.a. 84.2% of original grouped cases correctly classified.b. 81.6% of cross-validated grouped cases corre

31、ctly classified.c. x1, x3为判别变量 Dependent Variable: x1 (对(对X1进行的检验)进行的检验) Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.87466791 0.87466791 16.90 0.0002 Error 36 1.86300840 0.05175023 Corrected Total 37 2.73767632 X1在类间有显著性差异。 Dependent Variable: x2 (对(对X2进行的检验)进行的检验) Sum of Source DF S

32、quares Mean Square F Value Pr F Model 1 0.08312077 0.08312077 1.95 0.1710 Error 36 1.53370028 0.04260279 Corrected Total 37 1.61682105X2在类间没有显著性差异。Dependent Variable: x3(对(对X3进行的检验)进行的检验) Sum of Source DF Squares Mean Square F Value Pr F Model 1 16.46958443 16.46958443 21.45 F Model 1 0.00112694 0.0

33、0112694 0.03 0.8643 Error 36 1.36978095 0.03804947 Corrected Total 37 1.37090789X4在类间没有显著性差异。 多元假设检验多元假设检验 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.54561620 6.87 4 33 0.0004 Pillais Trace 0.45438380 6.87 4 33 0.0004 Hotelling-Lawley Trace 0.83279015 6.87 4 33 0.0004 Roys Greatest Ro

34、ot 0.83279015 6.87 4 33 0.0004pipiiipiiBEIBEEWilks1111)1 (111piipiiipiisBWtrV1111)()1 (1)(Pillais Trace 设有n样品,分别来自 k个类G1,G2,Gk其中ni个来自Gi, (一)变量组间差异的显著检验).,(ipiNG 样品分别为:;,)1()1(11nXX;,)()(1knkkXXn1:0H即,p个指标对G1,G2,Gk无区别能力;不尽相同kH,1:1 p个指标对G1,G2,Gk有区别能力。|WEBEE总离差平方和组内离差平方和当比值 很小,类内的离差平方和在总离差平方和中所占比率小,则类间

35、的离差平方和所占比重大。在原假设为真的条件下, 服从维尔克斯分布 。|WEBEE) 1,(kknpp 当 接受原假设;当p个指标对G1,G2,Gk有强的区别能力,拒绝原假设。|WEBEE) 1,(kknp|WEBEE) 1,(kknp(二)附加信息的检验 在回归分析中,变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。如果在某个判别分析问题中,将其中最主要的指标忽略了。判别效果一定不会好。但是在许多问题中,事先并不知道那些是主要的指标。因此筛选变量的问题就成了非常重要的了。从而产生了逐步判别法,而逐步判别法的基础是附加信息的检验。 逐步判别法采用有进有出的算法,即每一步都进行检验。首先

36、,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判别能力不强了,则删除。向前选入向前选入 开始时模型中没有变量。每一步,Wilks的统计量最小者,进入模型。当不再有未被选入的变量小于选入的临界值时,向前选入过程停止。向后剔除向后剔除 开始时,所有变量依赖于VAR语句中的变量都在模型中。每一步,在Wilks的统计量的准则下对模型中判别能力贡献最小的变量剔除。当所有余下的变量都达到留在模型中的标准时,向后剔除过程停止。逐步选择逐步选择 开始时如同向前选择一样,模型中没有变量,每一步都被检查。如果在Wilks的准则下统计量对模型的判别能

37、力贡献最小的变量达不到留在模型中的标准,它就被剔除。否则,不在模型中对模型的判别能力贡献最大的变量被选入模型。当模型中的所有变量都达到留在模型中的标准而没有其他变量能达到进入模型的标准,逐步选择过程停止。 设有n样品,分别来自 k个类G1,G2,Gk其中ni个来自Gi, ).,(ipiNG 样品分别为:;,)1()1(11nXX;,)()(1knkkXXn1:0H即,p个指标对G1,G2,Gk无区别能力; 设判别函数中已经有q个变量,要检验某个变量xj对判别效果的贡献,或者说变量对判别是否有附加的信息。H0: xj判别分析没有附加的信息H1: xj对判别分析有附加的信息E设组内的叉积矩阵为B设

38、组间的叉积矩阵为W设总的叉积矩阵为BEW将q+1个变量构成的叉积将矩阵分块1q22211211EEEEE1q22211211BBBBB1qW22211211WWWW利用分块矩阵的行列式的性质有:12111212211EEEEEE12111212211WWWWWW121112122121112122WWWWWEEEEEWE1111)1( ,2, 1q121112122121112122WWWWEEEEqq, 1/ )1(记 它是在给定了q个指标的条件下,的q+1个指标的附加信息量的度量,该统计量服从维尔克斯分布) 1, 1 (, 1/ )1(kpknqq记qqqq,2, 1/ )1(,2, 1)

39、1( ,2, 1)1( ,2, 1)1( ,2, 1,2, 1,2, 1/)1()1()(qqqpqkkpnFqqqqpqkkpnF,2, 1/ )1(,2, 1/ )1(,2, 1/ )1()1 () 1()( 该统计量服从F(k-1,n-p-k)分布,当F很大时,则拒绝原假设,第q+1个指标有附加信息;否则,接受原假设。2、剔除变量、剔除变量对于判别函数中已有的q1个变量 ,是否有对判别能力贡献不显著的变量存在,则应该将其从判别函数中删除。H0: xk对判别分析贡献不显著,即应该剔除;H1: xk对判别分析贡献显著,即应该保留; 检验的统计量检验的统计量)1( ,),1(),1( , 2,

40、 1/qkkk)1( ,),1(),1( ,2, 1/qkkkF步骤 第一步:通过计算单变量的统计量,逐步选择判别变量iiWEi统计量最小者首先进入模型。 第二步:分别计算未被选中的其它变量与选中变量x1的统计量,iiWE111i统计量1i得值最小者与x1搭配进入模型。 第三步:类推假设已经有q1个变量进入了模型,要考虑较早选入模型得变量得重要性是否有较大得变化,应及时将其从模型中剔除。其原则与引入相同。统计量得值最小者或F最大者保留。 第四步:进行判别分析。 The STEPDISC Procedure(逐步判别过程) The Method for Selecting Variables i

41、s STEPWISE Observations 38 Variable(s) in the Analysis 4 Class Levels 2 Variable(s) will be Included 0 Significance Level to Enter 0.15 Significance Level to Stay 0.15 Class Level Information Variable class Name Frequency Weight Proportion 1 _1 17 17.0000 0.447368 2 _2 21 21.0000 0.552632 Stepwise S

42、election: Step 1(第一步) Statistics for Entry, DF = 1, 36 Variable R-Square F Value Pr F Tolerance x1 0.3195 16.90 0.0002 1.0000 x2 0.0514 1.95 0.1710 1.0000 x3 0.3734 21.45 F Wilks Lambda 0.626628 21.45 1 36 .0001 Pillais Trace 0.373372 21.45 1 36 F x3 0.3734 21.45 F Tolerance x1 0.1070 4.19 0.0482 0.

43、6638 x2 0.0094 0.33 0.5672 0.9379 x4 0.0172 0.61 0.4386 0.9546 Variable x1 will be entered.(X1进入)Stepwise Selection: Step 3(第三步) Statistics for Removal, DF = 1, 35 Partial Variable R-Square F Value Pr F x1 0.1070 4.19 0.0482 x3 0.1777 7.56 0.0094 No variables can be removed. Statistics for Entry, DF

44、 = 1, 34 Partial Variable R-Square F Value Pr F Tolerance x2 0.0196 0.68 0.4154 0.4120 x4 0.0057 0.20 0.6614 0.6119 No variables can be entered.(无变量能进入) No further steps are possible. (进一步是不可能的) Linear Discriminant Function for class 线性判别函数 Variable 1 2 Constant -2.45595 -5.25152 x3 2.18098 3.52968

45、x1 -4.55096 -0.5201831118098. 255096. 445595. 2xxf31252968. 352018. 025152. 5xxf Number of Observations and Percent Classified into class From class 1 2 Total 1 14 3 17 82.35 17.65 100.00 2 3 18 21 14.29 85.71 100.00 Total 17 21 38 44.74 55.26 100.00 Priors 0.44737 0.55263 Error Count Estimates for

46、class 1 2 Total Rate 0.1765 0.1429 0.1579 Priors 0.4474 0.5526 Number of Observations and Percent Classified into class From class 1 2 Total 1 14 3 17 82.35 17.65 100.00 2 4 17 21 19.05 80.95 100.00 Total 18 20 38 47.37 52.63 100.00 Priors 0.44737 0.55263 Error Count Estimates for class 1 2 Total Ra

47、te 0.1765 0.1905 0.1842 Priors 0.4474 0.5526 Posterior Probability of Membership in class Classified Obs into class 1 2 1 1 0.6482 0.3518 2 1 0.7667 0.2333 3 1 0.6605 0.3395 4 1 0.8029 0.1971 5 2 0.3065 0.6935 6 2 0.2759 0.7241 7 2 0.2984 0.7016 8 2 0.0742 0.9258 将样本分成两部分,一部分用于确定判别函数,另一部分用于检查判别的效果。如

48、果样本量很大,可将样本平均地或随机地分成两部分。 选择变量选择变量 (1)和判别分析的目的密切相关 (2)反映要判类变量的特征 (3)在不同研究对象上的值有明显的差异 确定分析样本和验证样本确定分析样本和验证样本 一、主要步骤 估计鉴别函数估计鉴别函数 选择某种方法建立判别规则,有距离判别、贝叶斯判别和典型判别 计算错判比率和正确判定的比率。将判别函数用于验证样本,通过验证样本的错判比率和正确判定的比率来确定判别的效果。所谓错判,就是把原来是第一类的样本判给了第二类。对于正确判定的比率应该达到多少才能接受,并没有严格的规则。检查判别的效果检查判别的效果 用逐步判别法筛选变量用逐步判别法筛选变量

49、 在第一步所选的变量可能在类间无差异,应该将对判别分析无贡献的变量剔除5 典型判别法 一、两个总体的费歇(一、两个总体的费歇(FisherFisher)判别法)判别法 X不能使总体单位尽可能分开的方向u能使总体单位尽可能分开的方向 旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个 (一)费歇判别的基本思想 从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数。FisherFisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,FisherFisher在1936年提出。该判别方法对总体的分布不做任何要求。 从两个总体中抽取具有P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数: ppXCXCXCY2211其中系数 确定的原则是使两组间的组间离差最大,而每个组的组内离差最小。当建立了判别式以后,对一个新的样品值,我们可以将他的P个指标值代入判别式中求出Y值,然后与某个临界值比较,就可以将该样品归某类。pCCC,21假设我们可以得到一个线性判别函数:ppxcxcxcy2211我们可以把两个总体的样品代入上面的判别式)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论