判别分析方法_第1页
判别分析方法_第2页
判别分析方法_第3页
判别分析方法_第4页
判别分析方法_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、判别分析距离判别分析距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。设*=(?,?和丫=(?,?菊是从期望为呼(济,,南)和方差阵生(??>0的总体G抽得的两个观测值,则称X与Y之间的马氏距离?为:?=(?-?K1(?-?)样本X与?欢间的马氏距离定义为X与?裱重心间的距离,即:O.、一?=(?-?二1(?-?=1,2,?附注:1、 马氏距离与欧式距离的关联:生I,马氏距离转换为欧式距离;2、 马氏距离与欧式距离的差异:马氏距离不受计量单位的影

2、响,马氏距离是标准化的欧式距离两总体距离判别先考虑两个总体的情况,设有两个协差阵相同的p维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来给定判别规则,有:jy?G,如d2(y,G)<d2(y,G2)?y?G2,如d2(y,G2)<d2(y,GJ?待判,如d2(y,G)=d2(y,G2)22d2(y,G2)-d2(y,Gi)-1-1/、二(y-mJ®(y-mJ-(y-m)S(y-m)1)111,1yy2y222(yy2y2y1(12)(12)1(12)2y(2)1(12)1(i2)(ai,a2,ap

3、)(y)_ap(ypp)W(y)(y-)_ai(Vii)aya1则前面的判别法则表示为jy?G,如W(y)>0,?一jy?G2)如W(y)<0。?待判,如W(Y)=0-1,、当??、?和已知时,a=S(m-m2)是一个已知的p维向量,W(y)是y的线性函数,称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。当总体的协方差已知且不相等y?G,如d2(y,G)<d2(y,G2),?W?G2,如d2(y,G2)<d2(y,G)?待判,如d2(y,G)=d2(y,G2)22d(y,G2)-d(y,Gi)-i-i=(y-成

4、电(y-m2)-(y-m2(y-m)此判别函数是y的二次函数多总体距离判别分为协方差阵相同和协方差阵不同两种情况,它们的判别函数有差异,而判别准则无差异。一般来说,用距离最近准则判别是符合习惯的,但会发生误判,各总体发生误判的概率和阀值的选择有关。当总体靠得很近,无论用那种方法误判概率都很大,作判别分析无意义。因此,判别分析的前提是各总体均值必须有显著差异。设有个K总体,分别有均值向量Mi=1,2,拗协方差阵2=2各总体出现的先验概率相等。又设Y是一个待判样品。则与的距离为(即判别函数)2_1d2(y,Gi)(yi)(yi)y1y2ylii1i上式中的第一项?w1?芍沈关,则舍去,得一个等价的

5、函数gi(Y)=-2yS-1m+mS-1RC将上式中提-2,得gi(Y)=-2(y1m-0.5mS-1m)令fi(Y)=(yS-1m-0.5mS-1m)则距离判别法的判别函数为令f(Y)=(yS-1m-0.5mS-1m)判别规则为fl(y)=maxfi(x),贝1y?Gli丈i丈k距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。Bayes判别法基本思想贝叶斯判别法是源于贝叶斯统计思想的一

6、种判别分析法。这种方法先假定对研究对象已有一定的认识,这种认识以先验概率来描述,然后取得一个样本,用样本来修正已有的认识,得到后验概率分布,比较这些概率的大小,将待判样品判归为来自概率最大的总体。对多个总体的判别考虑的不是建立判别式,而是比较后验概率的大小。Bayes判别法1、引例办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一大,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。P(好人/做好事)_P(好

7、人)P(做好事/好人)一P0子人)P(做好事/好人)+P(坏人)P(做好事/坏人)050.90.5'0.9+0.5'0.2=0.82P(坏人/做好事)P(坏人)P(做好事/坏人)-P0子人)P(做好事/好人)+P(坏人)P(做好事/坏人)=0.18050.20.5'0.9+0.5'0.2贝叶斯公式:P(Bi|A)=P(A|Bj)P(Bj)SP(A|BJP(B)2、bayes判别法设总体?阳尖1,2,,k),?具有密度函数??(?)并且根据以往的统计分析,知道??出现的概率为???当样本??发生时,它属于某类的概率为:P(Gi|x°)二qiU)Sqjfj

8、(xe)则判别规则:则??属于???等价于P(G|%)q1f尸qjfj(x。)qfi(%)max一11kqjfj(x。)qifi(x0)_maxqifi(%),1£国?属于??特别情况下,如总体服从正态分布,则对应的bayes判别法推到如下:若"x)=(2PS严exp-;(x-m(i)S1(x-m(i)则,qf(x)=q1exp-1(x-m)6-1(x-m)(2pSI)2上式两边取对数并去掉与i无关的项,则等价的判别函数为:z(x)=ln(qifi(x)lnqi1ln|i|l(x)J(x)问题转化为若Zl(x)=m型乙(x),则判x?Gl当协方差阵相等,即二.二二则判别函数

9、退化为:Zi(x)lnqi2(xJ)21(xJ)12lnqi(xx(i)21(x/)令Fi(x)21nqi(x3二/J)P(x)=-2lnq-2/c2-1x+/寸J)问题转化为若P(x)=%inP(x),则判x?Gl再令:111(i)(i),(i)J-1mi(x)=lnqi-S+Sx2问题转化为若成工axm(x),则判x?Gli当先验概率相等,麦,有m/y'1'1(i)(i)、1VF(x)u'dl2jx完全成为距离判别法2二、最小平均误判代价准则在进行判别分析时难免会发生误判,各种误判的后果有所不同。我们可以根据误判的代价来规定判别规则,最小平均误判代价准则。设总体?炎

10、?笑1,2,,k),?具有密度函数??)并且根据以往的统计分析,知道??"现的概率为????+?+?+?=1又Di,D2,Dk是R(p)的一个分划,判别法则为:当样品X落入Di时,则判X?G=关键的问题是寻找Di,D2,Dk分划,这个分划应该使平均错判率最小。1、平均错判损失用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率p(j/i)P(XDj/Gi)fi(x)dxijDjc(j/i)表示相应错判所造成的损失。?c(j/i)P(j/i)(i=1,2,3,L,k)则来于第i个总体被错判到其它总体的错判损失为:U由于不同的总体有不同的先验概率,则总平均损失ECM为kkECM

11、=?qi?c(j/i)P(j/i)i=1j=1使ECM最小的分划,是Bayes判别分析解2、定理若总体G1,G2,Gk的先验概率为近=123,用且相应的密度函数为?),损失为C(j/i),则划分的Bayes解为Q=,|九(x)=mi叫(x)ji=1,2,3,,左其中khj(x)=?qQ(j/i)fi(x)i=1含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失然后比较其大小,选取其中最小的,则判定样品属于该总体。为了直观说明,作为例子,我们讨论k=2的情形ECMqC(2/1)i(x)dxq2c(1/2)f2(x)dxD2D1qC(2/1)

12、(x)dxq2c(1/2)f2(x)dxD1RD1=q1c(2/1)of1(x)dx+q2c(1/2)0f2(x)dxD1R-D1=qG(2/1)-q2c(2/1),1(x)dx+q2c(1/2),2(x)dxDiDi=qQ(2/1)+护2c(1/2)f2(x)-qQ(2/1)fKx)dxDi由此可见,要使ECM最小,被积函数必须在Di是负数,则有分划Di=x|q2c(1/2)f2(x)-qQ(2/1)f1(x)<0q2c(1/2)f2(x)-q1c(2/1)f1(x)<0f1(x)/f2(x)>q2c(2/1)/q1c(1/2)V=f1(x)/f2(x)d=q2c(2/1)

13、/q1c(1/2)Bayes判别准则为:u?y?tx?G1若v(x)>dx?G2若v(x)<d待判若v(x)=dFisher判别分析基本思想巾sher判别分析的基本思想是投影,即将k组m元数据按向量投影为一元数据,同时使得组间距离最大,同组内距离最小。其中组间距离可用利用组问平方和统计,组内距离利用组内平方和统计。两总体fisher判别法投影函数???=c?它将m元数据投影到一维直线上。两总体为:?总体:??D,?¥),?)?总体:?),?'),璃其中X?(?,?窝?,(j=1,2;i=1,2,?|?)分别从两个总体中的样品值,代入判别函数中:?%=?到+?2+?

14、+?1,2,,?袈=?纵+?国2+?+?1,2,?有:而?一x?)=1-12?)=E?£?总体的重心”?=i?=1?马?7(2)=?E?)=E??总体的重心”,?=i?=i考察:a-?2)?-?%?=?-?涔?使得越大越好。记?=(蜃1)-?华)2为组问离差,?=又?.?幺)-评?)2+、?"?)-组内离差,则有:?=?In?In?-In?n?n?n?_?=?-?一?x=?-X=?2?(?!)2=(E?-E?)=£?-?=i?=i?=i?(工?)2?=i其中:??=密-鸳?=2(工?&?=i?2?=£(?考)-两?)2+£(?2?=1?

15、=1?二三?阳?2?-?)2?=1?=1?-湾2=二三?讼(?据?-掰2?=1?=1?=1?EE2Q归徵)?£?怒?媒,?)?=1?=1?££?2(?2?-蜜)?二?/?需?-卷?)从而?=Z2?=1?=1?=1?=1££?我£(?-?)(?-雷?=1?=1?=1?2?£(?*?"蜜)(?-?)=EE?=1(?>?=i?=1?2?)(?;?-%+汇(?盟?-锻(?-鸳)?=1?=2E?=1?1.、-(E?&?=工?=1?=1?1?之以上?皆??,?=1?不依束于k,仅仅起到扩大?渊作用,对投影向量无影

16、响。令2?则有方程组:?浮汇?=1即:?=?.?=?对于两总体先验概率相等的前提下,一般常取?孙步),?伊)的加权均值即?二?1)+?2)?+?如有原始数据求得T?1)芳)则针对一新样品X=(?,?),将其带入判别函数中求值?如满足判?e?(判?e?待判当?>?当??<?当?=?,?),将其带入判别函数中如有原始数据求得?1)<?2)则针对一新样品X=(?,求值?如满足判?口?当?<?判?e?当??>?待判当?=?多总体fisher判别法设从总体3(?=1,2,k)分布抽取m元样本如下:?)=(?崭1,?(t=1,?=1,?令c=(c1,c2,,cm)为m维空间中

17、任一向量,???=c?必X按?勺法线方向上的投影,上述k个组中的m元数据投影后为:?:?,c?D,c?)记??1=E?幺)?=1''?:c?2),c?f),c?)记?)=工三?留?=1''?>?c?),c?),c?名?)记?)=.喘)"?=1那么组问平方和:?,一一,一,一',?=E?(c?-c?P?P?,F2,4,'?=/E(c?-c?)=cE/(?-?)(?*?-?)?=1?=1?=1?=1=c?其中”/cb/ce'A=二?=£?"?-?)(?婷-?)为组内差异阵(或为交叉乘积阵);因此,为保证k个

18、样本差异显著,则比值?c?c?'J?=c二?/?-野(?(?-?=c?=1?=1其中一C,一J(1) B=二?=1?(?-?(?(?-方称为组间离差阵;(2) ?=?逮?1?町为G?的样本均值;(3) 於13?=1二?:1?f为总样本均值;组内平方和:应充分大。实际是要求c或Cc(C为常数)使得?(?达到极大值。故增加约束条件,、一一,'一、一.一.'.'.一.、选取c,使得c?1。即上述问题转化为求c,使?(?=c?c?1条件下达到极大。利用拉格朗日乘子法求条件极值令?%?=c?(&?1)解方程组?=2(?-?=0?''?,'一=1-c?0?显然?是??111?勺特征值,c是相应的特征向量_<<<?(c)=c?c?c?1?勺特征值设为大>方?,立?对应的特征向量为。,Q,c?2取?=c1时,可使?(c)达到最大,最大值为、。?(c)的大小可衡量判别函数?(??=c?勺判别效果,故称为?(c)的判别效率Fisher判别分析结论在日sher准则下,线性判别函数?=c?勺解c即为特征方程|?|?0的特征根?斯对应的满足?1的特征向量?且相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论