《判别分析》PPT课件.ppt_第1页
《判别分析》PPT课件.ppt_第2页
《判别分析》PPT课件.ppt_第3页
《判别分析》PPT课件.ppt_第4页
《判别分析》PPT课件.ppt_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章判 别 分 析Discriminate Analysis,距离判别贝叶斯判别 Fisher判别,判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。 它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。 判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。,1 什么是判别分析,2 距离判别,(一)马氏距离 距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个距离最小就将它判归哪

2、个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。,设 是从期望= 和方差阵= 的总体G抽得的两个观测值,则称,样本X和Gi类之间的马氏距离定义为X与Gi类重心间的距离:,X与Y之间的Mahalanobis距离,马氏距离和欧式距离之间的差别,马氏距离,欧氏距离,马氏距离有如下的特点:,2、马氏距离是标准化后的变量的欧式距离,1、马氏距离不受计量单位的影响;,3、若变量之间是相互无关的,则协方差矩阵为对角矩阵,(二)两个总体距离判别法,先考虑两个总体的情况,设有两个协差阵相同的p维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个

3、总体,一个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来给定判别规则,有:,1、方差相等,则前面的判别法则表示为,当 和已知时, 是一个已知的p维向量,W(y)是y的线性函数,称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。,2、当总体的协方差已知,且不相等,随着计算机计算能力的增强和计算机的普及,距离判别法的判别函数也在逐步改进,一种等价的距离判别为: 设有个K总体,分别有均值向量i(i=1,2,k)和协方差阵i= ,各总体出现的先验概率相等。又设Y是一个待判样品。则与的距离为(即判别函数),(三) 多总体的距离判别法,上

4、式中的第一项Y -1Y与i无关,则舍去,得一个等价的函数,将上式中提-2,得,则距离判别法的判别函数为:,注:这与前面所提出的距离判别是等价的.,判别规则为,(四)对判别效果做出检验 1、错判概率,由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。 两总体分别服从 其判别函数为,2、 交叉核实 交叉核实法的思想是:为了判断第i个观测的判别正确与否,用删除第i个观测的样本数据集计算出判别函数,然后用此判别函数来判别第i个观测。对每一个观测都这样进行。 交叉核实检查比较严格,能说明所选择判别方法的有效性。 交叉核实可以检验所用方法是否稳定。 交叉核实可以解决样本容量不大的

5、情形,改变样本,来检验方法是否稳定的问题。,加权错判率:,设qi是第i类的先验概率, pi是第i类的错判概率,则加权错判率为,简单错判率:,距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数未知和协方差时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。,3 贝叶斯判别法,办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概

6、率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。,一 、最大后验准则,距离判别简单直观,很实用,但是距离判别的方法把 总体等同看待,没有考虑到总体会以不同的概率(先验 概率)出现,也没有考虑误判之后所造成的损失的差异。 一个好的判别方法,既要考虑到各个总体出现的先验概 率,又要考虑到错判造成的损失,Bayes判别就具有这 些优点,其判别效果更加理想,应用也更广泛。,贝叶斯公式是一个我们熟知的公式,设有总体 , 具有概率密度函 数 。并且根据以往的统计分析,知道 出现的概率为 。即当样本 发生时,求他属于某类的概率。由贝叶斯公式计算后

7、验概率,有:,判别规则,则 判给 。在正态的假定下, 为正态分布的 密度函数。,则 判给 。,上式两边取对数并去掉与i无关的项,则等价的判别函数为:,特别,总体服从正态分布的情形,问题转化为若 ,则判 。,当协方差阵相等,则判别函数退化为,令,问题转化为若 ,则判 。,完全成为距离判别法 。,令,有,问题转化为若 ,则判 。,当先验概率相等,,二、 最小平均误判代价准则,设有总体 , 具有概率密度函 数 。并且根据以往的统计分析,知道 出现的概率为 。,又D1,D2,Dk是R(p)的一个分划,判别法则为: 当样品X落入Di时,则判,关键的问题是寻找D1,D2,Dk分划,这个分划应该使平均错判率

8、最小。,【定义】(平均错判损失),用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。,C(j/i)表示相应错判所造成的损失。,则平均错判损失为:,使ECM最小的分划,是Bayes判别分析的解。,【定理】,若总体G1,G2,Gk的先验概率为,且相应的密度函数为 ,损失为 则划分的Bayes解为,其中,含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失,为了直观说明,作为例子,我们讨论k=2的情形。,然后比较其大小,选取其中最小的,则判定样品属于该总体。,由此可见,要使ECM最小,被积函数必须在D1是负数,则有分划,Bayes判

9、别准则为:,特别,与标准Bayes判别等价,5 Fisher判别法,一、两个总体的费歇(Fisher)判别法,X不能使总体单位 尽可能分开的方向,u能使总体单位 尽可能分开的方向,旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个,(一)费歇判别的基本思想,从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数。Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,Fisher在1936年提出。该判别方法对总体的分布不做任何要求。,从两个总体中抽取具有P个指标的样品观测数据,借助

10、于方差分析的思想构造一个线性判别函数:,其中系数 确定的原则是使两组间的组间离差最大,而每个组的组内离差最小。当建立了判别式以后,对一个新的样品值,我们可以将他的P个指标值代入判别式中求出Y值,然后与某个临界值比较,就可以将该样品归某类。,假设我们可以得到一个线性判别函数:,我们可以把两个总体的样品代入上面的判别式,分别对上面两式左右相加,再除以样品个数,可得 两个总体的重心:,最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好。,取对数,求导数,称 为典型函数.,(三)判别准则,如果由原始数据y求得判别函数得分为Y*, 对与一个样品代入判别函数中,若Y*Y0,则判

11、给G1,否则判给G2。,二、多个总体的Fisher判别法,(一) 判别函数,Fisher判别法实际上是致力于寻找一个最能反映组和组之间差异的投影方向,即寻找线性判别函数 ,设有 个总体 ,分别有均值向量 , , 和协方差阵 , 分别各总体中得到样品:,第i个总体的样本均值向量,综合的样本均值向量,第i个总体样本组内离差平方和,综合的组内离差平方和,组间离差平方和,如果判别分析是有效的,则所有的样品的线性组合 满足组内离差平方和小,而组间离差平方和大。则,而 所对应的特征向量即 。,Fisher样品判别函数是,然而,如果组数k太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至

12、第三个线性判别函数 其特征向量构成第二个判别函数的系数。 类推得到m(mk)个线性函数。,关于需要几个判别函数得问题,需要累计判别效率达到85以上,即有 设 为B相对于E得特征根,则,例子,Fisher Iris数据.Iris数据有四个属性,萼片的长度,萼片的宽度,花瓣长度和花瓣的宽度.数据共150个样本,分为三类,前50个数据是第一类-Setosa,中间的50个数据是第二类-Versicolor,最后50个数据是第三类-Virginica. 试用距离判别对Iris进行判别分析. 这是利用R自带的数据iris,假设(x1, x2, x3, x4)是联合正态的, 且3种花的分布的均值分别为m1,

13、 m2, m3,而且协方差矩阵相同,检验H: m1=m2=m3 即检验三组直接是否存在显著差异 y-iris,1:4 y-as.matrix(y) x-iris,5 a - manova(yx),Call: manova(y x) Terms: x Residuals Sepal.Length 63.2121 38.9562 Sepal.Width 11.3449 16.9620 Petal.Length 437.1028 27.2226 Petal.Width 80.4133 6.1566 Deg. of Freedom 2 147 Residual standard error: 0.51

14、47894 0.3396877 0.4303345 0.2046500 Estimated effects may be unbalanced summary(a) Df Pillai approx F num Df den Df Pr(F) x 2 1.192 53.466 8 290 2.2e-16 * Residuals 147 -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 说明三组之间存在显著差异,用mahalanobis计算距离,并判别,#计算距离 sd apply(d,1,which.min)-discrim a-c(rep(1,5

15、0),rep(2,50),rep(3,50) table(a,discrim ),看看判别的效果, 算出来的距离矩阵为 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 51 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 3 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 101 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3

16、 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3,判别的结果为 第二组有三个样本被误判,总的来说回代判别正确率为98%,discrim a 1 2 3 1 50 0 0 2 0 47 3 3 0 0 50,利用Fisher判别来进行判别分析 library(MASS) lda(y,prior=rep(1/3,3),grouping=x)-y.f summary(y.f) predict(y.f)$class -pred pred table(pred,x) x pred setosa versicolor

17、virginica setosa 50 0 0 versicolor 0 48 1 virginica 0 2 49 可看出只有三个错判,回代判别的正确率很高,1 setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa 11 setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa 21 setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa 31

18、 setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa 41 setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa 51 versicolor versicolor versicolor versicolor versicolor versicolor versicolor versicolor versicolor versicolor 61 versicolor versicolor versicolor versico

19、lor versicolor versicolor versicolor versicolor versicolor versicolor 71 versicolor versicolor versicolor versicolor versicolor versicolor versicolor versicolor versicolor versicolor 81 versicolor versicolor versicolor versicolor versicolor versicolor versicolor versicolor versicolor versicolor 91 v

20、ersicolor versicolor versicolor versicolor versicolor versicolor versicolor versicolor versicolor versicolor 101 virginica virginica virginica virginica virginica virginica virginica virginica virginica virginica 111 virginica virginica virginica virginica virginica virginica virginica virginica vir

21、ginica virginica 121 virginica virginica virginica virginica virginica virginica virginica virginica virginica virginica 131 virginica virginica virginica virginica virginica virginica virginica virginica virginica virginica 141 virginica virginica virginica virginica virginica virginica virginica v

22、irginica virginica virginica error-pred!=x 找出预报错的地方,回代,取两个判别函数,画图看效果, lda(y,prior=rep(1/3,3),grouping=x)-y.f y.f Call: lda(y, grouping = x, prior = rep(1/3, 3) Prior probabilities of groups: setosa versicolor virginica 0.3333333 0.3333333 0.3333333 Group means: Sepal.Length Sepal.Width Petal.Length

23、Petal.Width setosa 5.006 3.428 1.462 0.246 versicolor 5.936 2.770 4.260 1.326 virginica 6.588 2.974 5.552 2.026 Coefficients of linear discriminants: LD1 LD2 Sepal.Length 0.8293776 0.02410215 Sepal.Width 1.5344731 2.16452123 Petal.Length -2.2012117 -0.93192121 Petal.Width -2.8104603 2.83918785 Propo

24、rtion of trace: LD1 LD2 0.9912 0.0088,LD1的判别能力有99.12%, 故取一个判别函数就可以了. 取一个判别函数,画出回代的图 plot( LD,1,rep(1,150), type=n, xlab=LD1, ylab=) text( LD,1,rep(1,150), as.character(a), col=c(rep(rgb(0,1,0.3), 50), rep(red, 50), rep(gray, 50) ) ),作一下交叉验证, a.lda iris,5-a sum(a.lda$class=a)/length(a) 1 0.98 交叉验证表明该

25、判别规则比较稳定,例子( MBA研究生入学的例子) 例子:(对一个潜在的商学院研究生分类) 一所商学院的招生人员将本科生的平均毕业成绩(GPA)和本科毕业生的管理能力测试(GMAT)成绩用作“指标”,帮助他决定应将哪些申报者接收为学院研究生,数据见data。X1=GPA, X2=GMAT, 三个组:接收,不接收,考虑中。 假定一名新申请者GPA=3.21,GMAT=497,利用Fisher判别对这名申请者进行判别。, library(MASS) read.table(mba.txt)- application dimnames(application)2 attach(application)

26、 y as.matrix(y)-y manova(yadmission)-app summary(app) Df Pillai approx F num Df den Df Pr(F) admission 1 0.3874 25.9275 2 82 1.881e-09 * Residuals 83 Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 可看出三组直接存在显著差异,画三组的散点图(两个指标),plot( application,1, application,2, xlab=GPA, ylab=GMAT, type=n) text(appli

27、cation,1, application,2, as.character(application,3), col=c(rep(rgb(0,1,0.3), 31), rep(red, 28), rep(gray, 26) ) ) 用不同的颜色区分不同组,d1d apply(d,1,which.min)-d.dis a-c(rep(1,31),rep(2,28),rep(3,26) table(a,d.dis),距离判别的效果, table(a,d.dis) d.dis a 1 2 3 1 30 0 1 2 0 27 1 3 1 1 24,标出判别错的地方 error-d.dis!=a plot

28、( application,1, application,2, xlab=GPA, ylab=GMAT, type=n) text(application,1, application,2, as.character(application,3), col=c(rep(rgb(0,1,0.3), 31), rep(red, 28), rep(gray, 26) ) ) text(applicationerror,1, applicationerror,2, O),要对新申请者作出判别,首先画出新申请者在散点图的位置 plot( application,1, application,2, xla

29、b=GPA, ylab=GMAT, type=n) text(application,1, application,2, as.character(application,3), col=c(rep(rgb(0,1,0.3), 31), rep(red, 28), rep(gray, 26) ) ) text(3.21,497,N),可看出预报效果还可以,对一个新申请者GPA=3.21,GMAT=497来判别 new d1 d2 d3 cbind(d1,d2,d3)-d d d1 d2 d3 1, 1.748921 17.21754 8.046842 可看出这名申请者利用距离判别是被录取了,F

30、isher判别分析,加入MASS包 library(MASS apred table(admission, pred) pred Admission 1 2 3 1 27 0 4 2 0 26 2 3 1 0 25,标出预报错的地方 plot( application,1, application,2, xlab=GPA, ylab=GMAT, type=n) text(application,1, application,2, as.character(application,3), col=c(rep(rgb(0,1,0.3), 31), rep(red, 28), rep(gray, 26) ) ) text(applicationerror,1, applicationerror,2, O),可看出预报的效果还可以,对一个新申请者GPA=3.21,GMAT=497来判别 new-data.frame(GPA=3.21,GMAT=497) predict(a, new) $clas

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论