多元统计分析第二部分课件_第1页
多元统计分析第二部分课件_第2页
多元统计分析第二部分课件_第3页
多元统计分析第二部分课件_第4页
多元统计分析第二部分课件_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、6.3 贝叶斯判别,一、最大后验概率准则 二、最小平均误判代价准则,距离判别不合适的一个例子,1(校研究生组):N1=2000, 1=500 2(校本科生组):N2=8000, 2=400 研究生组中x500的有1000人,本科生组中x500的有2000人。某学生的x=500,试判别该生归属哪一组。 该例如采用距离判别法则显然不妥,应考虑利用如下的先验概率:,一、最大后验概率准则,设有k个组1, 2, k,且组i的概率密度为fi (x) ,样品x来自组i的先验概率为pi ,i=1,2,k,满足p1+p2 +pk =1 。则x属于i的后验概率为 最大后验概率准则是采用如下的判别规则:,例4 设有

2、1、2和3三个组,欲判别某样品x0属于何组,已知p1=0.05,p2=0.65,p3=0.30,f1(x0)=0.10, f2(x0)=0.63,f3(x0)=2.4。现计算x0属于各组的后验概率如下: 所以应将x0判为组3。,皆为正态组的情形,设iNp(i,i),i0, i=1,2,k。这时,组i的概率密度为 fi(x)=(2)p/2|i|1/2exp0.5d2(x,i) 其中 d2(x,i)=(xi)i 1 (xi) 是x到i的平方马氏距离。 以下各情形下后验概率的具体计算公式。 当p1=p2=pk=1/k,1=2=k=时,,当p1=p2=pk=1/k,而1,2,k不全相等时, 当1=2=

3、k=,而p1,p2,pk不全相等时, 当p1,p2,pk不全相等,1,2,k也不全相等时,,上述各情形的后验概率可统一表达为 称D2(x, i)为x到i的广义平方距离。,在正态性假定下,上述判别规则也可等价地表达为 当1=2=k=时,上述后验概率公式可简化为 其中Ii=1i,ci=0.5i1i, i=1,2,k。此时判别规则等价于 如果我们对x来自哪一组的先验信息一无所知,则一般可取p1=p2=pk=1/k。这时,判别规则简化为上节的线性判别。 实际应用中,以上各式中的i和i(i=1,2,k)一般都是未知的,需用相应的样本估计值代替。,例5 在例3中,已知破产企业所占的比例约为10%,即可取p

4、1=0.1,p2=0.9,假定两组均为正态,且1=2=,则未判企业x=(0.16, 0.10, 1.45, 0.51)的后验概率为 由于P(1|x)P(2|x),所以该企业被判为非破产企业,这与例3的结果正好相反,这正是先验概率的作用结果。,二、最小平均误判代价准则,例:1:合格的药,2 :不合格的药 对于新样品x 该问题中,两种误判造成的损失一般是明显不同的,只是根据后验概率的大小进行判别是不太合适的。 1.两组的情形 2.多组的情形,1.两组的情形,设组1和2的概率密度函数分别为f1(x)和f2(x),组1和2的先验概率分别为p1和p2,p1+p2=1。又设将来自i的x判为l的代价为c(l

5、|i), l,i=1,2,代价矩阵表示为 对于给定的判别规则,令 R1=x:判别样品x1,R2=x:判别样品x2 显然 R1R2=,R1R2= xR1判x1 ,xR2判x2,将1中的样品x误判到2的条件概率为 类似地,将2中的样品x误判到1的条件概率为 平均误判代价(expected cost of misclassification),记为ECM,可计算为,最小平均误判代价准则是采用使ECM达到最小的判别规则,即为 最小ECM准则需要三个比值:密度函数比、误判代价比和先验概率比。在这些比值中,误判代价比最富有实际意义,因为在许多应用中,直接确定误判代价会有一定困难,而确定误判代价比却相对容易

6、得多。 例6 1 :应该做手术 ,2 :不应该做手术 例7 1 :中学毕业应继续攻读大学 2 :中学毕业后应直接找工作,最小ECM准则的一些特殊情形,(1)当p1=p2=0.5时,(*)式简化为 实际应用中,如果先验概率未知,则它们通常被取成相等。,(2) 当c(1|2)= c(2|1)时,(*)式简化为 实践中,若误判代价比无法确定,则通常取比值为1。 (3) 当 时,(*)式可进一步简化为 这时,判别新样品x0的归属,只需比较在x0处的两个概率密度值 f1(x0) 和 f2(x0)的大小。,如将判别规则(3)用于例2中,则图2中的阈值点将移至两密度曲线相交点的正下方m处。,图2 方差不同时

7、两组判别的阈值点,例8 设组1和2的概率密度函数分别为f1(x)和f2(x),又知c(1|2)=12个单位,c(2|1)=4个单位,根据以往经验给出p1=0.6,p2=0.4,则最小ECM判别规则为 假定在一个新样品x0处算得f1(x0)=0.36,f2(x0)=0.24,于是 因此,判x0来自组2。,在统计实践中,基于正态总体的判别方法居主导地位,此时的判别方法简单而高效。现假定iNp(i,i), i0, i=1,2。 当1=2=时,(*)式可具体写成 其中a=1(12), 。 在p1=p2,c(1|2)=c(2|1)的条件下上式将退化为距离判别的线性判别。,当12时,(*)式可写为 其中d

8、2(x,i)=(xi)i1(xi), i=1,2。 在|1|=|2|,p1=p2,c(1|2)=c(2|1)的条件下上式将化为距离判别中12 时的情形。,2.多组的情形,设 fi(x)为组i的概率密度函数,i=1,2,k。令 pi组i的先验概率,i=1,2,k。 c(l|i)将来自i的x判为l的代价, l,i=1,2,k, 对l=i,c(i|i)=0。 Rl所有判为l的x的集合,l=1,2,k。 因而对l,i=1,2,k,将来自i的样品x判为l的条件概率为,平均误判代价,使ECM达到最小的判别规则是 假定所有的误判代价都是相同的,不失一般性,可令c(l|i)=1, li, l,i=1,2,k,

9、则此时 为所有误判概率之和,称之为总的误判概率。故此时的最小平均误判代价准则也可称为最小总误判概率准则,并且上式可简化为 故最小总误判概率准则与最大后验概率准则是彼此等价的,或者说,最大后验概率准则等价于所有误判代价相同时的最小平均误判代价准则。,注 令B=误判,Ai=样品来自i,i=1,2,k 则利用全概率公式得总的误判概率为 此外,总的正确判别概率为,例9 在例8中,假定误判代价矩阵为 现采用最小ECM准则进行判别。 l=1:p2f2(x0)c(1|2)+p3f3(x0)c(1|3) =0.650.6320+0.302.460=51.39 l=2:p1f1(x0)c(2|1)+p3f3(x

10、0)c(2|3) =0.050.1010+0.302.450=36.05 l=3:p1f1(x0)c(3|1)+p2f2(x0)c(3|2) =0.050.10200+0.650.63100=41.95 由于l=2时为最小值,故将x0判为2。,6.4 费希尔判别,费希尔判别(或称典型判别)的基本思想是投影(或降维):用p 维向量 的少数几个线性组合(称为判别式或典型变量) (一般r明显小于p)来代替原始的p 个变量x1,x2, ,xp ,以达到降维的目的,并根据这r 个判别式y1,y2, ,yr对样品的归属作出判别。成功的降维将使判别更为方便和有效,且可对前两个或前三个判别式作图,从直观的几何

11、图形上区别各组。,一个说明性的二维例子,费希尔判别需假定1=2=k=。设来自组i的p维观测值为xij,j=1,2,ni,i=1,2,k,记 式中 则B是组间平方和及交叉乘积和,E是组内平方和及交叉乘积和,Sp是的联合无偏估计。,设E1B的全部非零特征值依次为12s0,其中的非零特征值个数 smin(k1,p) 相应的特征向量依次记为t1,t2,ts(标准化为tiSpti=1, i=1,2,s),称y1=t1x为第一判别式,y2=t2x为第二判别式。一般地,称yi=tix为第i判别式,i=1,2,s。 由smin(k1,p)知,组数k=2时只有一个判别式,k=3时最多只有两个判别式,判别式的个数

12、不可能超过原始变量的个数p。 特征值i表明了第i判别式yi对区分各组的贡献大小,yi的贡献率为,而前r(s)个判别式y1,y2,yr的累计贡献率为 它表明了y1,y2,yr的判别能力。 在实际应用中,如果前r个判别式的累计贡献率已达到了一个较高的比例(如75%95%),则可采用这r个判别式做判别。 判别规则为 其中 ,i=1,2,k 。该判别规则也可表达为,如果只使用一个判别式进行判别(即r=1),则以上判别规则可简化为 式中y和 (i=1,2,k)分别是前面判别规则中的y1和 (i=1,2,k)。 有时我们也使用中心化的费希尔判别式,即 式中 为k个组的总均值。仍使用同上的判别规则进行判别。

13、 对于两组的判别,费希尔判别等价于协方差矩阵相等的距离判别,也等价于协方差矩阵相等且先验概率和误判代价也均相同的贝叶斯判别。,例10,费希尔于1936年发表的鸢尾花(Iris)数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花(第组)、变色鸢尾花(第组)和弗吉尼亚鸢尾花(第组)各抽取一个容量为50的样本,测量其花萼长(x1)、花萼宽(x2)、花瓣长(x3)、花瓣宽(x4),单位为mm,数据列于下表,鸢尾花数据,本题中,n1=n2=n3=50,n=n1+n2+n3=150。 经计算,E1B的正特征值个数smin(k1,p)=min(2,4)=2,可求得两个正特征值 1=32.192,

14、 2=0.285 相应的标准化特征向量,所以,中心化的费希尔判别式为 判别式的组均值为 对于任一样品x,可按下式进行判别:,由于n1,n2,n3都很大,因此用第一种估计误判概率的效果还是不错的,判别情况列于下表2。 所以 这些误判概率是比较低的。,判别情况,我们可以将样本中150个样品的判别式得分(y1,y2)作一散点图,下图是SAS9.1的输出结果。图中,Can1,Can2分别是指y1,y2。组、组和组的点分别用“1”、“2”和“3”标出,有7个点隐藏在图中,因与图中某些点的位置几乎重叠而未能标出。 从图中可见,分离的效果相当好。对于一个新样品x0,可以用目测法从直觉上辨别其所归属的组。需要

15、指出的是,对图形的目测法是费希尔判别的主要价值所在,图中常常能反映出计算中无法得到的丰富信息,从而可能会更有效地进行判别。,鸢尾花数据两个判别式得分的散点图,第五节 实例分析与计算机实现,这一节我们利用SPSS对Fisher判别法和Bayes判别法进行计算机实现。 为研究某地区人口死亡状况,已按某种方法将15个已知地区样品分为3类,指标含义及原始数据如下。试建立判别函数,并判定另外4个待判地区属于哪类?,表1 各地区死亡概率表,(一) 操作步骤 1. 在SPSS窗口中选择AnalyzeClassifyDiscriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变

16、量中,将变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。,图2 判别分析主界面,2. 点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。 3. 单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients栏中的Fishers和Unstandardized。这两个选项的含义如下: Fishers:给出Bayes判别函数的系数。(注意:这个选项不是要给出Fisher

17、判别函数的系数。这个复选框的名字之所以为Fishers,是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。) Unstandardized:给出未标准化的Fisher判别函数(即典型判别函数)的系数(SPSS默认给出标准化的Fisher判别函数系数)。,单击Continue按钮,返回主界面。,图3 Statistics子对话框,4. 单击Classify按钮,定义判别分组参数和选择输出结果。选择Display栏中的Casewise results,输出一个判别结果表,包括每个样品的判别分数、后验概率、实际组和预测组编号等。其余的均保留系统默认选

18、项。单击Continue按钮。,图4 Classify子对话框,5. 单击Save按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成的新变量的含义分别为: Predicted group membership:存放判别样品所属组别的值; Discriminant scores:存放Fisher判别得分的值,有几个典型判别函数就有几个判别得分变量; Probabilities of group membership:存放样品属于各组的Bayes后验概率值。 将对话框中的三个复选框均选中,单击Continue按钮返回。,6. 返回判别分析主界面,单击OK按钮,运行判别分析过程。,图

19、5 Save子对话框,(二) 主要运行结果解释 1. Standardized Canonical Discriminant Function Coefficients(给出标准化的典型判别函数系数) 标准化的典型判别函数是由标准化的自变量通过Fisher判别法得到的,所以要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。 2. Canonical Discriminant Function Coefficients(给出未标准化的典型判别函数系数) 未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。见表2(a

20、)。,由此表可知,两个Fisher判别函数分别为: 实际上两个函数式计算的是各观测值在各个维度上的坐标,这样就可以通过这两个函数式计算出各样品观测值的具体空间位置。,表2(a) 未标准化的典型判别函数系数,3. Functions at Group Centroids(给出组重心处的Fisher判别函数值) 如表2 (b) 所示,实际上为各类别重心在空间中的坐标位置。这样,只要在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以得知它们的分类了。,表2(b) 组重心处的Fisher判别函数值,4. Classification Function Coefficients(给出Bayes判别函数系数) 如表3所示,GROUP栏中的每一列表示样品判入相应列的Bayes判别函数系数。在本例中,各类的Bayes判别函数如下: 第一组: 第二组: 第三组:,将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论