第三章判别分析_第1页
第三章判别分析_第2页
第三章判别分析_第3页
第三章判别分析_第4页
第三章判别分析_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章判别分析判别分析(discriminantanalysis)是研究判断个体所属类型的一种统计方法。判别分析的应用十分广泛。如判别产品质量的等级;判断一个国家的经济发展程度;判断该地的矿物类型;判断病人患哪种疾病;判断明天是晴、多云或有雨等等。判断分析所处理的问题往往是包含大量的数据资料,且其数量指标往往是多元的。判别分析是一种有效的多元数据分析方法,它能科学地判断得到的样品属于什么类型,揭示内在的规律,做出正确的判断。判别分析的模型如下:设有k个总体G1,…,Gk,都是p元总体,其数量指标是设Gi的分布函数Fi(x),概率密度fi(x)=fi(x1,x2,…,xp)。对任一样品

x=(x1,x2,…,xp)T,判断它来自哪个总体。X=(X1,X2,…,Xp)T

由于判别准则不同,则有不同的判别分析方法,本章主要介绍距离判别、Bayes

判别和Fisher判别。一、两个总体的情况设有两个总体G1和G2,x=(x1,x2,…,xp)是一个样品,若能定义x到G1和G2的距离d(x,G1)和d(x,G2),则判别规则为§3.1

距离判断

定义3.1设x,y是从均值向量为、协方差矩阵为的总体G中抽取的两个样品,则x,y两点之间的马氏距离平方是

定义3.1设x,y是从均值向量为、协方差矩阵为的总体G中抽取的两个样品,则x,y两点之间的马氏距离平方是又定义x与总体G的马氏距离平方是当两总体G1和G2的均值向量分别为(1)和(2),协方差矩阵均为1和2,则当两总体G1和G2的均值向量分别为(1)和(2),协方差矩阵均为1和2,则若1=2=,则其中1.两个总体协方差矩阵相等的情况是x的线性函数,称为线性判别函数。判别准则为其中其中若记其中W(x)也是线性函数。实际上,这种情况还可以进一步简化为判别规则:当,(1),(2)未知时,用样本估计。设来自两个总体的样本,均值和协方差矩阵的估计为当∑1=∑2=∑时,的无偏估计为此时为非线性判别。2.两个总体协方差矩阵不等的情况:∑1≠∑2判别准则为当1,2

,1,2未知时的样本估计为二、

判别准则的评价

当一个判别法则提出以后,还要研究其优良性。考察一个判别法则的优良性,要考察误判率,即考察

x属于G1而误判为属于G2或x属于G2而误判为属于G1

的概率。1.误差率回代估计法设分别是来自两个总体的样本,将每个样品进行回代判别,其判别结果如下表:回判情况实际归类G1

G2G1G2n11

n12n21

n221.误差率回代估计法设分别是来自两个总体的样本,将每个样品进行回代判别,其判别结果如下表:回判情况实际归类G1

G2G1G2n11

n12n21

n22其中n11+n12=n1,n12为样品属于G1而误判为G2的个数;n21+n22=n2,n21为样品属于G2而误判为G1的个数.误判率的回代估计为2.误判率的交叉确认估计误判率的交叉确认估计是每次剔除样本中的一个样品,利用其余n1+n2-1样品建立判别准则,再用所建立的判别准则对删除的那个样品作判别.对样本中的每个样品作上述分析,以其误判比例作为误判概率的估计。

设G1的n1个样品中,有n*12个样品被误判;G2的n*21个样品被误判。则误判率的交叉确认估计为

SAS系统可以计算误判率的交叉确认估计。例3.1马尾松苗紫化病是一种生理性病害,现从病苗(紫化苗)中选取12株,健苗中选取8株分别测定其每平方厘米叶片所含5种元素的微克数,其数据见表3.1,试据此作距离判别分析。表3.1马尾松苗数据G1:健苗G2:紫花苗序号

x1

x2

x3

x4

x5序号

x1

x2

x3

x4

x51234567812.50.65.20.10.512.10.87.80.20.411.10.65.20.20.79.40.66.10.10.67.00.55.20.20.48.40.54.30.10.47.10.56.10.10.511.20.74.90.10.5

12345678910111212.10.42.80.20.612.80.52.80.10.511.40.54.90.40.88.50.45.00.30.610.00.44.20.20.79.40.43.90.20.68.60.42.20.20.77.10.43.40.30.49.50.34.20.70.87.80.44.00.20.7

7.00.42.70.20.77.50.32.20.30.6解

SAS程序:dataex3_1;inputgroup$x1-x5@@;cards;a12.50.65.20.10.5………….a11.20.74.90.10.5b12.10.42.80.20.6……………b7.50.32.20.30.6;数据步procdiscrimdata=ex3_1pool=testslpool=0.1method=normaldistancesimplelistcrosslisterrwcovpcov;classgroup;varx1-x5;run;说明:pool=test检验方差阵相等(或=yes或=no);slpool=0.1指定显著性水平,仅与pool=test匹配;method=normal(或npar非参数方法)前者为缺省;distance输出各组间距离并进行检验,理论从略;simple输出简单统计量;过程步crosslisterr输出交叉确认法误判率信息;list输出每个样品的判别结果;wcov输出各类的组内协差阵;pcov输出联合协方差矩阵。输出结果:(1)简单统计量(2)协方差矩阵(3)协方差矩阵是否相等的检验检验结果不显著(p=0.7341>0.1),即两总体的协方差矩阵相等。(4)类间距离的检验检验结果显著(p=0.0007),两总体间差异显著。(5)线性判别函数W1(x)=-41.05361–0.74441x1+100.24194x2+1.39795x3+4.56860x4+41.67557x5W2(x)=-30.81622+0.11215x1+67.67498x2-0.28010x3+12.18045x4+48.55509x5(6)样品回判结果(7)回判结果概要与误判率(8)交叉确认回判结果概要与误判率协方差矩阵分别为1,2,…,k。类似两总体距离判别,计算新样品到各总体的马氏距离,距离最短者属于响应的总体。三、多个总体的距离判断设有k个总体G1,G2,…Gk,均值向量分别为1,2,….,k任取两个总体Gi,Gj,考察x到Gi,Gj的马氏距离的平方差1.总体协方差矩阵相等其中:这样,得到多总体在总体协方差矩阵相等时的距离判别准则:若总体Gj0满足易见则判定x属于Gj0。当总体均值j和协方差矩阵未知时,用样本估计。设是来自总体Gj的样本,均值和协方差矩阵的估计为总体协方差矩阵∑j不全相等计算x至各总体Gj的马氏平方距离记二次判别函数判别准则:若总体Gj0满足则判定x属于Gj0。当总体均值j和协方差矩阵j未知时,用样本估计。其估计值为对多总体的距离判别,同两总体情况一样,做出误判率的回代估计及交叉确认估计。3.2贝叶斯(Bayes)判别

Bayes统计思想是假定对研究对象已有一定的认识,常用先验概率分布来描述这种认识。然后取得一个样本,用样本来修正已有的认识(先验概率分布)得后验概率分布,各种统计推断都通过后验概率分布来进行。将Bayes统计思想用于判别分析就得到Bayes判别。设有k个总体G1,G2,…,Gk分别具有p维密度函数f1(x),f2(x),…,fk(x),已知出现这k个总体的先验概率为q1,q2,…,qk(q1+q2+…+qk=1),我们希望建立判别函数和判别规则。用D1,D2,…,Dk表示p维欧氏空间RP的一个划分,即D1,D2,…,Dk互不相交,且D1∪D2∪…∪Dk=RP。如果这个划分取得适当,正好对应于这k个总体,这时判别规则可以采用如下办法:设有k个总体G1,G2,…,Gk分别具有p维密度函数f1(x),f2(x),…,fk(x),已知出现这k个总体的先验概率为q1,q2,…,qk(q1+q2+…+qk=1),我们希望建立判别函数和判别规则。问题是如何获得这个划分?x∈Gi

若x落入Di,i=1,2,…,k

用c(j|i)表示样品来自Gi而误判为Gj的损失,这一误判的概率为于是由判别规则所带来的平均损失ECM(expectedcostofmiscalculation)为我们总是定义c(i|i)=0。目的是求D1,D2,…,Dk使ECM达到最小。可以证明定理3.1

在本节假定下,Bayes判别解D1,D2,…,Dk为其中Dt={x|ht(x)<hj(x),j≠t,j=1,2,…,k},t=1,2,…,k

例3.2

当k=2时h1(x)=q2f2(x)c(1|2),h2(x)=q1f1(x)c(2|1)从而D1={x|q2f2(x)c(1|2)<q1f1(x)c(2|1)}D2={x|q2f2(x)c(1|2)>q1f1(x)c(2|1)}h1(x)=q2f2(x)c(1|2),h2(x)=q1f1(x)c(2|1)从而D1={x|q2f2(x)c(1|2)<q1f1(x)c(2|1)}D2={x|q2f2(x)c(1|2)>q1f1(x)c(2|1)}若令判别函数为V(x)=f1(x)/f2(x),d=q2c(1|2)/q1c(2|1)则判别规则可表示为例3.3

若f1(x)与f2(x)分别为p维正态分布Np(1,),Np(2,)的密度函数,此时V(x)=f1(x)/f2(x)其中W(x)与距离判别的相同。则判别规则可表示为当q1=q2,c(1|2)=c(2|1),则d=1,lnd=0。此时即为距离判别。定理5.1

在本节假定下,Bayes判别解D1,D2,…,Dk为其中实际中,损失c(j|i)不易给出,常取c(j|i)=1,i≠j。Dt={x|ht(x)<hj(x),j≠t,j=1,2,…,k},t=1,2,…,k

推论如果c(j|i)=1,i≠j,则Bayes解为Dt={x|qtft(x)>qjfj(x),j≠t,j=1,2,…,k},t=1,2,…,k

例如设G1,…,Gk的分布为Np(1,),…,Np(k,),则推论如果c(j|i)=1,i≠j,则Bayes解为Dt={x|qtft(x)>qjfj(x),j≠t,j=1,2,…,k},t=1,2,…,k

例如设G1,…,Gk的分布为Np(1,),…,Np(k,),则其中线性判别函数Wi(x)为:判别规则也可以写为:对协方差阵不同的情况有类似的结果。标准的贝叶斯方法要计算后验概率分布。即计算当样品x已知时,它属于Gt的概率,记作P(Gt|x),这个概率作为样品归类的尺度,其概率意义更为直接。易见判别规则为:标准的贝叶斯方法要计算后验概率分布。即计算当样品x已知时,它属于Gt的概率,记作P(Gt/x),这个概率作为样品归类的尺度,其概率意义更为直接。易见或写为:例3.5某城市环保监测站在全市均匀地布置了14个监测点,测得污染元素含量数据如下表。污染情况分为三类:第一类为严重污染(6,8,9,13号监测点);第二类为一般污染(1,2,3,7,10,14号监测点);第三类为基本没有污染(4,5,11,12号监测点)。该城市另有2个单位在同一期间测定了所在单位大气中三种污染元素的含量(表中最后2行),试判断这2个单位的污染情况属哪一类。x1—二氧化硫;x2—氮氧化物;x3—飘尘。大气污染数据样品号类别号污染元素

x1

x2

x31234567891011121314222331211233120.0450.0430.2650.0660.0390.2640.0940.0610.1940.0030.0030.1020.0480.0150.1060.2100.0660.2630.0860.0720.2740.1960.0720.2110.1870.0820.3010.0630.0600.2090.0200.0080.1120.0350.0150.1700.2050.0680.2840.0880.0580.21512..0.1010.0520.1810.0450.0050.122dataex3_5;inputgroup$x1-x3@@;cards;20.0450.0430.265……………….10.2050.0680.28420.0880.0580.215.0.1010.0520.181.0.0450.0050.122;procdiscrimpool=nodistancesimplelist;classgroup;varx1-x3;priorsprop;/*先验概率,prop为样本频率ni/n。*/run;输出主要结果:由此知,两单位被判为第二类,即属于一般污染地区。3.3Fisher判别*设从k个总体分别取得k组p维观察值如下:n=n1+n2+…+nk令a为RP中的向量,U(x)=ax为x向以a为法线方向的投影,上述数据的投影为:令a为RP中的向量,U(x)=ax为x向以a为法线方向的投影,上述数据的投影为:正好组成单因素方差分析数据,其组间平方和为正好组成单因素方差分析数据,其组间平方和为组内(误差)平方和为若k组均值有显著差异,则若k组均值有显著差异,则应充分大,或应充分大。故我们可以求a使(a)达到极大。由特征根的极值性质知,a为|B-E|=0(或E-1B)的最大特征根1对应的特征向量1。(1)=1称为判别效率。第一线性判别函数为u(x)=1Tx,同理有第二线性判别函数,…若存在唯一的i0使则否则再用第二、三等线性判别函数。例3.7(胃癌的鉴别)有三个总体:胃癌、萎缩性胃炎和非胃炎患者。从每个总体中抽5个病人,每个病人化验4项生化指标:血清铜蓝蛋白(x1)、蓝色反应(x2)、尿吲哚乙酸(x3)和中性硫化物(x4),数据如下表。试用Fisher方法建立判别准则并对这15个样品进行判别归类。胃癌检验的生化指标值类别序号

x1

x2

x3

x4胃癌患者胃癌患者12345228134201120016712271001672014245134104017015078非胃癌患者萎缩性胃炎患者678910225125714130100612150117761201331026160100510

非胃炎患者1112131415185115519165142531701256413510821210011772

dataex3_7;inputgroup$x1-x4@@;cards;12281342011……310011772;proccandiscdata=ex3_7out=c103ncan=2distancesimple;classgroup;varx1-x4;run;procdiscrimdata=c103distancelist;classgroup;varcan1can2;run;解

SAS程序如下:说明:out=c103生成含原数据和典变量得分数据集;ncan=2(≤p)选两个典变量can1,can2.类间距离的检验2与3两总体间差异不显著。样品回判结果3.4逐步判别与回归分析一样,变量选择是否恰当,是判别效果成败的关键。如果忽略了主要变量,判别效果一定不好。如果变量过多,由于变量间的相关性,判别效果也不一定好。一般开始选用较多的变量,然后进行筛选。筛选的方法有前进法、后退法和逐步法。逐步判别原理为其样本。n=n1+…+nk设有k个总体G1,G2,…,Gk,Gj~Np(j,),j=1,2,…,k逐步判别原理为其样本。n=n1+…+nk设有k个总体G1,G2,…,Gk,Gj~Np(j,),j=1,2,…,k分别为组内离差矩阵和组间离差矩阵。总离差矩阵为

W(0)=E(0)+B(0)记从矩阵W(0)与E(0)开始,作所谓的消去变换,每一次消去变换,都是在上一次变换的基础上进行的。例如,假设对矩阵W(0)、E(0)已作了r次消去变换而得到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论