SAS讲义 第三十八课判别分析_第1页
SAS讲义 第三十八课判别分析_第2页
SAS讲义 第三十八课判别分析_第3页
SAS讲义 第三十八课判别分析_第4页
SAS讲义 第三十八课判别分析_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

FILENAMEUnit31Sas商务数据分析电子商务系列上海财经大学经济信息管理系IS/SHUFEPagePAGE13ofNUMPAGES31判别分析判别分析方法的任务是根据已掌握的一批分类明确的样品,建立一个较好的判别函数,使得用此判别函数进行判别时错判事例最少,进而能用此判别函数对给定的一个新样品判别它来自哪个总体。判别分析(DiscriminateAnalysis)是用以判别个体所属类体的一种统计方法。它产生于本世纪三十年代,近年来,在许多现代自然科学的各个分支和技术部门中得到广泛的应用。判别分析方法通常要给出一个判别指标——判别函数,同时还要指定一种判别规则。下面我们介绍:距离判别分析方法Fisher线性函数判别方法。距离判别分析如果假设每组内分布为多元正态分布,基于多元正态分布理论的参数法将导出一个线性或二次的距离判别函数。否则,将采用不基于任何分布假设的非参数方法。贝叶斯理论距离判别分析利用贝叶斯理论计算样品属于每一组的先验概率已知,且在处的组密度可以估计时,属于某组的后验概率。设有个组,且组的概率密度为,样品来自组的先验概率为,满足,那么根据贝叶斯理论,样品属于组的后验概率为:(38.1)如果假设每组内维样品分布为元正态分布情况,则有(38.2)其中,和分别是第组的均值和协方差阵。此时,样品来自组的概率密度函数为:(38.3)其中,的几何意义为到组均值的平方距离。将式(38.3)代入式(38.1)可得:(38.4)其中,(38.5)为从样品至第组的广义平方距离。这里(38.6)(38.7)一个样品判归于第组,是因为样品在这个组得到的后验概率为最大值,或者这个样品至第组的广义平方距离为最小值。这种判别哪个样品归属于哪个组的判别准则称为最大后验概率准则。如果此最大后验概率小于指定的阈值(threshold),则将样品判归于除组以外的其他组。线性判别分析为简单起见,我们只考虑两个总体的情况。设有两个协方差相同的正态总体和,它们的分布分别是和。现在对于一个新的样品,我们要判断它来自哪个总体。最直观的方法就是计算到两个总体的距离和,并按下述规则判断:如果,则;如果,则。那么关键的问题是这里的距离函数怎么选。多元统计分析中最著名的一个距离是由马哈拉诺比斯(Mahalanobis)提出的,习惯上称为马氏距离。即到母体距离定义为(38.8)那么(38.9)若令(38.10)上述判别规则可写成:当时,;当时,。若、和已知时,则是的线性函数,称为线性判别函数。非线性判别分析如果协方差不同,即两个正态总体和分别服从和。现在对于一个新的样品,我们要判断它来自哪个总体。我们仍然按照样品至各母体的最近距离归类。即判别准则为:如果,则;如果,则。其中(38.11)那么(38.12)这是一个二次项判别函数。这样判别准则就变成为判断式(38.12)是取正还是取负的问题了。可见当时,我们得到了线性判别函数,因此使用线性判别函数判别;当时,我们得到了二次判别函数,因此使用二次判别函数判别。一般情况下,我们并不知道两个总体的特征,即、和、是未知的,只有从两个总体抽取的样品,假设从两个总体各抽取了和个样品;。使用线性判别函数还是二次判别函数进行判别分析取决于两个总体的方差。如果有,就利用线性判别函数进行判别分析,否则,就利用二次判别函数判别。这样检验与是否相等就极为重要了。假定:原假设备选假设则检验统计量为(38.13)其中,为估计合并协方差阵,为第组内的估计协方差阵。勃克斯指出近似服从自由度为的卡方分布,其中(38.14)(38.15)如果有,则在显著性水平的意义下,拒绝原假设H0,而接受备选假设H1;反之,如果有,则在显著性水平的意义下,接受原假设H0。在接受原假设H0的情况下,使用式(38.10)的线性判别函数进行判别分析;线性判别函数中的、和可分别由其无偏估计值代替:(38.16)其中,(38.17)(38.18)(38.19)在接受假设H1的情况下,使用二次判别函数进行判别分析;二次判别函数中的、和、可分别由其无偏估计值代替:(38.20)(38.21)(38.22)(38.23)其实,可以很容易把距离判别推广到多个总体的情形。多类判别对于两类线性判别及非线性判别,都是求得一个判别函数,对于任一组样品(或待判别样品)将其代入判别函数,求得判别得分,再依判别分界点,而决定将其判属于哪一类。但是,许多实际问题所提出的可能是多类判别的问题。设有类(),每类中有,,…,组样品,每组样品有p个指标,并记。假设各组样品都是相互独立的正态随机变量,即(38.24)其中是第k类的p个变量的数学期望(向量),矩阵是相应于第k类的p个变量的协方差矩阵,假定这个协方差矩阵是一样,即。我们要判别一组待判样品应属于g类中的哪一类。与两类判别同理,计算与各类的重心(平均向量)之间的Mahalanobis距离为(38.25)若有为最小,则判属于第j类。这里均值向量的估计式为(38.26)协方差矩阵的估计为(38.27)其中。则距离的估计就可以表为(38.28)对于判别准则:对于任一组待判样品,利用式(38.28)计算,记(38.29)若为最小,则判样品属于第类。有两点值得注意:=1\*GB3①我们这里的判别函数和判别规则并没有涉及分布的类型,只要二阶矩存在就可以了;=2\*GB3②这种判别规则符合习惯,但不可能完全判别准确,会发生误判。误判的概率下面我们仍以正态总体为例简单讨论一下误判的概率。协方差相同的两个正态总体和的分布分别是和。如果某样品来自,但是确在的右边,那么根据判别函数和判别规则将判断它来自,这时就发生了误判。见图381所示。图381二类判别误判概率图所谓误判概率的问题是:定义误判概率,表示原是第一类的样品,而误判为第二类的概率;表示原是第二类的样品,而误判为第一类的概率。误判概率为图中阴影部分的面积。它们为(38.30)这里是正态分布的累积分布函数。如果利用以上判别准则,对全部n1+n2组样品进行判别,记第一类中的样品,而被判入第二类的有m1个;第二类的而被判入第一类的有m2个,则误判概率可表示为:(38.31)Fisher线性函数判别在分类判别问题中,关键问题之一是寻找一个合适的判别函数。如果判别函数比较复杂,那么在实际使用中就非常不方便,因此为方便起见,有时寻找在某种意义下为最优的线性判别函数。在判别分析中,Fisher准则下的线性判别函数就是一个只要利用总体的一、二阶矩就可求得的判别函数。设我们观察到的资料为一个维向量。设代表第组()中的第个特征()的第个观察值()。因此,()便相当于第组里面的第个观察所测到的个特性。同样,我们以两个总体为例来介绍Fisher准则下的线性判别函数,即。图382Fisher线性判别分析示意图见图382所示为的情况,它是仅有两组且每组只有两个特性的简单情况,可以在平面上示意出来。符号“*”代表一组,而符号“+”则代表另一组。一个简单的想法是:我们不妨在这个平面上画一条直线,能将两组尽可能地分开,一组为这条直线的这一边,另一组为这条直线的另一边。若有一个新来的点,我们就将点画在图上,看它是靠近“*”号近一些还是靠近“+”号近一些。如果我们找到了一条最具有鉴别力的直线,我们只需要看这个新来的点在这条直线的这一边还是另一边即可判别归于哪一个组。这其实就是Fisher线性判别分析的主要思想。其中的技术部分,则是找出一个最具有鉴别力的线性判别函数。如果,则我们便可得到一个如下的线性方程式:(38.32)问题的关键是如何找出这个最具有鉴别力的线性判别函数。显然,我们需要通过已经观察到的资料来训练出这个有鉴别力的线性判别函数。设,则。将每个观察到的资料代入到线性函数中得到变量值:(38.33)从本质上说,这是将维数据投影到某个具体方向上。因此,一条第组第个的维观察数据变成了一个投影点数据。我们考虑所有数据点的总变异之和(方差):(38.34)其中,为所有组的总均值,即。对进行方差的平方和分解,分成组内方差和组间方差,如下:(38.35)其中,表示第组的均值,即,称为组内均值。组间方差代表了系统因素引起的变异,而组内方差代表了随机因素引起的变异。因此,我们应该选那个,要能够使得(38.36)到达最大。其中,为第组的均值,为所有组的均值,为第组的协方差矩阵。即表示组与组之间系统因素引起的变异比组内随机因素引起的变异达到了最大值,此时才能使不同组之间的鉴别力达到最大。下面我们看如何求出判别函数中的系数来。同样,我们仍以两个总体为例来求解系数。设两个总体的均值分别为和,协方差阵分别为和。由公式(38.36)可得:(38.37)事实上,我们只要考虑的一个二次型(38.38)因此(38.39)当且仅当时,等号成立。那么(38.39)当且仅当,(38.37)达到最大值为(38.40)由于为任意实数,可令。这样我们求得的判别函数为(38.41)给出判别函数以后,我们还要给出判别准则。取各总体均值的加权平均为比较值,即(38.42)相应的划分为(38.43)如果不知道两个总体的特征,即和未知,只知道从两个总体各抽取了和个样品,那么线性判别函数中的和可分别由其无偏估计值代替:(38.44)其中(38.45)(38.46)(38.47)(38.48)相应的判别准则为:取(38.49)相应的划分为:(38.50)同样,也可以把Fisher线性函数判别推广到多个总体的情形,就是典型判别分析(CanonicalDiscriminantAnalysis)。应注意的几个问题判别分析方法首先根据已知所属组的样本给出判别函数,并制定判别规则,然后再判断每一个新样品应属于哪一组。常用的判别方法有距离判别、贝叶斯判别、典型判别等。从马氏距离的角度来看统计量是很直观的。比如,欲检验假设,则检验的结果取决干样本均值到总体的平方马氏距离,这个距离越小,越倾向于接受假设;反之,这个距离越大,就越倾向于拒绝。判别分析中各种误判的后果允许看作是相同的,而在假设检验中,犯两类错误的后果一般是不同的,通常将犯第一类错误的后果看得更严重些。Discrim判别分析过程对于每个观测都含有一个或多个定量变量和一个定义观测组的分类变量的观测数据集,discrim过程确定一个判别准则把每个观测分入其中一组。从数据集中得出的判别准则在discrim过程的同一个执行过程中可应用于第二个数据集。用以得出判别准则的数据集称为训练数据集或标定数据集。discrim过程一般由下列语句控制:procdiscrim<选项列表>;class变量;by变量表;freq变量;id变量;priors概率表;testclass变量;testfreq变量;testid变量;var变量表;weight变量;run;procdiscrim语句<选项列表>。主要分成有关输入输出数据集的2类选项。输入数据集选项:data=数据集名——指定欲分析的数据集。数据集可以是一般SAS数据集或由SAS/STAT过程产生的几种特殊结构的数据集。testdata=数据集名——指定欲分类观测的一般SAS数据集。该数据集中定量变量的名字必须与data指定数据集中相匹配。当testdata选项指定时,也可以用testclass、testfreq和testid语句。当采用testdata时,输出数据集选项testout和testoutd可用来产生检验数据集中观测的分类结果和组密度估计。输出数据集选项:outstat=数据集名——生成一个输出SAS数据集,包含各种统计量,例如均值,标准偏差和相关。当输入数据集是一般SAS数据集或type=corr,type=cov,type=csscp,或type=sscp时,该选项可用来产生判别统计量。当canonical选项指定时,典型相关、典型结构、典型系数和每一类的典型变量的均值包含在该数据集中。out=数据集名——生成一个输出SAS数据集,包括来自data指定数据集的所有数据,后验概率和每个观测通过重替换被分入的类。当canonical选项指定时,该数据集还包含典型变量得分的新变量。outcross=数据集名——生成一个输出SAS数据集,包括来自data指定数据集的所有数据,后验概率和每个观测通过交叉确认被分入的类。当canonical选项指定时,该数据集还包含典型变量得分的新变量。outd=数据集名——生成一个包含来自data指定数据集的所有数据和每一观测的组密度估计的输出SAS数据集。testout=数据集名——生成一个输出SAS数据集。包含来自testdata指定数据集的所有数据,后验概率和每个观测被分人的类。当canonical选项指定时,该数据集还包括典型变量得分的新变量。testoutd=数据集名——生成一个包含testdata指定数据集的所有数据和对每一观测的组密度估计的输出SAS数据集。有关判别分析的类型和规则选项。method=normal|npar——确定导出分类准则的方法,默认值为method=normal。当指定method=normal时,基于类内服从多元正态分布,并导出线性或二次判别函数;当指定method=npar时,采用非参数方法。pool=no|test|yes——确定平方距离的度量,是以合并协方差阵还是组内协方差阵为基础,默认值为pool=yes。当pool=yes时,采用合并协方差阵得出线性判别函数;当pool=no时,采用单个组内协方差阵得出二次判别函数;当method=normal时,pool=test要求对组内协方差阵的齐性的似然比检验进行Bartlett修正,当不加选择项short时,线性判别函数会直接给出,而二次型判别函数需通过建立输出数据集方式获得。slpool=p——指定齐性检验的显著水平。只当pool=test指定时才选择slpool=选项。如果pool=test而slpool=未指定,显著水平为0.10。threshold=p——指定分类中可以接受的最小后验概率p值。缺省值p=0。如果某观察样品归属于某组的最大后验概率值小于这个p值,那么这个观察样品归入OTHER(已知组外的组)组。anova和manova选项——分别要求输出对各类的单个变量与多个变量的均数、均值向量之间进行一元或多元方差分析的结果,其作用就是检验判别函数的判别效果。listerr和crosslisterr选项——listerr表示要求仅仅输出由后验概率产生错误分类的那些样品点的有关信息,crosslisterr表示要求以交叉表的形式输出实际类别与分类结果之间一致和不一致的有关信息。有关非参数法的选项k=数值——为k最近邻规则指定一个k值。观察x分入一个组基于从x的k个最近邻得到的信息。r=数值——为核密度估计指定一个半径r值。kernel=biw/epa/nor/tri/uni——为估计组密度指定一个核密度,缺省值为uni。metric=diagonal/full/identity——为平方距离的计算指定量度。缺省值为full。其他主要语句var语句——指定用于进行判别分析的变量子集,建立起关于此变量子集的判别函数式。priors语句——指定先验概率,它有3种指定方法,=1\*GB3①priorsequal,表示各类先验概率相等,缺省值;=2\*GB3②priorsproportional;表示各类先验概率等于各类样本频率;=3\*GB3③priorsa=p1b=p2c=p3;其中a、b和c是分类标志,p1、p2和p3是先验概率,p1+p2+p3=1。Candisc典型判别分析过程candisc过程完成典型判别分析,计算平方Mahalanobis距离并做单变量与多变量的单向方差分析并且计算类均值间基于合并类内协方差阵的平方距离(Mahalanobis距离)。该过程产生包括典型系数和典型变量得分的输出数据集。典型判别分析是与主成份分析和典型相关有关的降维方法。给定两组或更多组带有几个定量变量的观察,典型判别分析得出与组有最大可能多重相关的变量的线性组合。最大的多重相关叫做第一典型相关。线性组合的系数称为典型系数或典型权重。线性组合定义的变量称为第一典型变量或典型成份。第二典型相关由与第一典型变量无关的线性组合得到,该组合应与组有最大可能多重相关。抽取典型变量的过程可以重复直到典型变量的个数等于原始变量的个数或类的个数减一。candisc得出的典型变量,如同主成分概括全变差一样来概括类间变差。典型判别分析相当于执行了以下步骤:变换变量使合并的类内协方差阵为单位阵;计算变换后的变量的类均值;对均值做主成份分析,以每一类中的观察个数为权重;特征值等于每一个主成份方向上的类间偏差与类内偏差之比;把主成份变量反变换到原始变量的空间,获得典型变量。典型变量间不相关,但典型系数并不正交。因此,典型变量并不代表原始变量空间中的正交方向。对每一个典型相关,candisc检验总体中该相关及更小的典型相关为零的假设。采用近似值比一般的近似值能给出更好的小样本结果。每一类内变量应该具有近似的多元正态分布,为了概率水平有效,方差阵应该是共同的。第一典型相关大于等于组与任何一个原始变量间的多重相关。该过程产生一个包含每一典型变量得分的输出数据集。可以利用print过程列出这些值,还可行以用plot过程作出典型变量对的散点图以助于直观地解释组的不同。另一个输出数据集包含由factor过程利用旋转算法得到的典型系数。candisc过程一般由下列语句控制:proccandisc<选项列表>;class变量;by变量表;freq变量;var变量表;weight变量;run;proccandisc语句<选项列表>中的选项按性质可以分成以下4类:数据集选项。data=数据集名——指定欲进行分析的数据集。默认时,采用最新生成的数据集。out=数据集名——生成一个包含原始数据和典型变量得分的SAS数据集。outstat=数据集名——生成一个包含各种统计量的输出SAS数据集。典型变量选项。ncan=——指定将被计算的典型变量的个数。的值必须小于或等于变量的个数。如果指定ncan=0,过程打印典型相关而不是典型系数、结构或均值。如果ncan为负值,典型分析将被抑制。prefix=前缀名——为命名典型变量指定前缀。奇异性选项。singular=p——指定判别全样本相关阵和合并类内协方差阵奇异的标准,这里0<p<1。默认值为singular=10-8。打印选项。按打印的内容可以分成以下5类:控制相关阵打印的选项:bcorr——类间相关。pcorr——合并类内相关(基于合并类内协方差的偏相关)。tcorr——全样本相关。wcorr——每一类水平的类内相关。控制协方差阵打印的选项:bcov——类间协方差。pcov——合并类内协方差。tcov——全样本协方差。wcov——每一类水平的类内协方差。控制sscp矩阵打印的选项:bsscp——类间sscp阵。psscp——合并类内修正sscp阵。tsscp——全样本修正sscp阵。wsscp——每一类水平的类内修正sscp阵。其他选项:anova——检验总体中每一变量类均值相等的假设的单变量统计量。distance——类均值间的平方Mahalanobis距离。simple——全样本和类内的简单描述性统计量。stdmean——全样本和合并的类内标准化类均值。all——产生以上所有打印选项。抑制打印的选项:noprint——不打印。short——只打印典型相关表和多元检验统计数字。一般语句class语句——class变量的值定义分析的组。类水平由classs变量的值确定。class变量可以是数值型或字符型。var语句——var语句指定分析中包括的定量变量。如果省略var语句,分析将包括未在其他语句中列出的全部定量变量。其他语句的说明我们在这里省略了。实例分析例38.1Fisher于1936年发表的鸢尾花(Iris)数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花(setosa第1组)、变色鸢尾花(versicolor第2组)和佛吉尼亚鸢尾花(virginica第3组)各抽取一个容量为50的样本,测量其花萼长(sepallen)x1、花萼宽(sepalwid)x2、花瓣长(petallen)x3、花瓣宽(petalwid)x4,单位为mm,分组标记为S,数据见表38.1所示。表38.1150个样品的鸢尾花数据X1X2X3X4SX1X2X3X4SX1X2X3X4SX1X2X3X4S503314021642856223652846152673156243632851153463414031693151233622245152593248182463610021613046142602751162653052203562539112653055183582751193683259233513317051572845132623454233773867223633347162673357253763066213492545173553513021673052233703247142643245152612840132483116021593051183552438112632550193643253233523414021493614011543045152793864203443213021673357213503516061582640122443013021772867203632749183473216021552644122502333102723260183483014031513816021613049183483419021503016021503212021612656143642856213433011011584012021513819041673144142622848183493014021513514021563045152582741102503416041463214021602945152572635102574415041503614021773061233633456243582751193572942132723058163543415041524115011713059213643155183603048183632956183492433102562742132573042122554214021493115021772669233602250153543917041662946132522739142603445162503415021442914021502035102552437102582739122473213021463115021693257233622943132742861193593042152513415021503513031562849203602240102732963183672558183493115011673147152632344132543715021563041132632549152612847122642943132512530112572841132653058223693154213543913041513514031723661253653251203612947142562936132693149152642753193683055213552540132483416021483014011452313031572550203573817031513815031552340132663044142682848142543417021513715041523515021582851243673050172633360253533715021建立数据,程序如下:procformat;valuespecname1='Setosa'2='Versicolor'3='Virginica';run;datairis;title'DiscriminantAnalysisofFisher(1936)IrisData';inputsepallensepalwidpetallenpetalwidspecies@@;formatspeciesspecname.;labelsepallen='SepalLengthinmm.'sepalwid='SepalWidthinmm.'petallen='PetalLengthinmm.'petalwid='PetalWidthinmm.';cards;503314021642856223652846152673156243632851153463414031693151233622245152………633360253533715021;run;procprintdata=iris;run;程序说明:format过程是自定义了一种输出格式。原始输入数据中分类变量species只可取1、2和3三种值,分别代表三个类别。现在format过程自定义了specname.格式可以将数值1、2和3转换成指定的字符串显示。生成的iris数据集有四个可以用以分析的定量变量(sepallen、sepalwid、petallen和petalwid)和一个分类变量(species)。调用判别分析discrim过程。菜单方法,选择菜单命令Globals/SAS/Assist/Dataanalysis/Multivariate/Discriminantanalysis(判别分析)。编程方法如下:procstepdiscdata=irisshortsle=0.3sls=0.05;classspecies;varsepallensepalwidpetallenpetalwid;run;procdiscrimdata=irismethod=normalpool=testanovashortcrosslisterr;classspecies;varpetallen;run;procdiscrimdata=irisoutstat=plotirismethod=normalpool=testmanovalisterrcrosslisterr;classspecies;varpetallenpetalwidsepalwidsepallen;run;procprintdata=plotiris;run;程序说明:由于在实际的指标数据之间可能彼此相关,选择其中相互独立的几个指标用于建立判别函数式,不仅函数形式会更简单,而且效果也会更好。我们可以在建立判别函数之前,用SAS系统中的stepdisc过程实现逐步判别分析,通过入选水平sle和剔除水平sls对变量进行事先的筛选。第一个判别分析过程discrim,是对变量petalwid进行判别分析,并建立关于petalwid的判别函数式,为什么选择变量petalwid进行判别分析,是由stepdisc过程得出的结论:变量petalwid比其他变量能更有效地区分类别;第二个判别分析过程discrim,是对所有四个变量进行判别分析,并建立关于它们的判别函数式,同时输出数据集plotiris,当对数据计算后的协方差矩阵不满足齐性时,此plotiris数据集能获得二次型判别函数的系数。提交运行后,部分结果见表38.2、38.3、38.4和38.5所示。表38.2对四变量进行逐步判别分析StepwiseDiscriminantAnalysis150Observations4Variable(s)intheAnalysis3ClassLevels0Variable(s)willbeincludedTheMethodforSelectingVariableswillbe:STEPWISESignificanceLeveltoEnter=0.3000SignificanceLeveltoStay=0.0500ClassLevelInformationSPECIESFrequencyWeightProportionSetosa5050.00000.333333Versicolor5050.00000.333333Virginica5050.00000.333333StepwiseSelection:SummaryVariableNumberPartialFProb>Wilks'Prob<StepEnteredRemovedInR**2StatisticFLambdaLambda1PETALLEN10.94141180.1610.00010.058628280.00012SEPALWID20.370943.0350.00010.036884110.00013PETALWID30.322934.5690.00010.024975540.00014SEPALLEN40.06154.7210.01030.023438630.0001AverageSquaredVariableNumberCanonicalProb>StepEnteredRemovedInCorrelationASCCLabel1PETALLEN10.470685860.0001PetalLengthinmm.2SEPALWID20.559953940.0001SepalWidthinmm.3PETALWID30.594956910.0001PetalWidthinmm.4SEPALLEN40.595949410.0001SepalLengthinmm.表38.3使用变量petallen进行判别分析DiscriminantAnalysisofFisher(1936)IrisDataDiscriminantAnalysis150Observations149DFTotal1Variables147DFWithinClasses3Classes2DFBetweenClassesClassLevelInformationPriorSPECIESFrequencyWeightProportionProbabilitySetosa5050.00000.3333330.333333Versicolor5050.00000.3333330.333333Virginica5050.00000.3333330.333333DiscriminantAnalysisTestofHomogeneityofWithinCovarianceMatricesNotation:K=NumberofGroupsP=NumberofVariablesN=TotalNumberofObservations-NumberofGroupsN(i)=NumberofObservationsinthei'thGroup-1__N(i)/2|||WithinSSMatrix(i)|V=N/2|PooledSSMatrix|__2|11|2P+3P-1RHO=1.0-|SUM-||_N(i)N_|6(P+1)(K-1)DF=.5(K-1)P(P+1)__|PN/2||NV|Undernullhypothesis:-2RHOln|||__PN(i)/2||_||N(i)_|isdistributedapproximatelyaschi-square(DF)TestChi-SquareValue=55.417943with2DFProb>Chi-Sq=0.0001Sincethechi-squarevalueissignificantatthe0.1level,thewithincovariancematriceswillbeusedinthediscriminantfunction.Reference:Morrison,D.F.(1976)MultivariateStatisticalMethodsp252.

DiscriminantAnalysisUnivariateTestStatisticsFStatistics,NumDF=2DenDF=147TotalPooledBetweenRSQ/VariableSTDSTDSTDR-Squared(1-RSQ)PETALLEN17.65304.303320.90700.94137216.0566UnivariateTestStatisticsVariableFPr>FLabelPETALLEN1180.16120.0001PetalLengthinmm.AverageR-Squared:Unweighted=0.9413717WeightedbyVariance=0.9413717DiscriminantAnalysisClassificationSummaryforCalibrationData:WORK.IRISResubstitutionSummaryusingQuadraticDiscriminantFunctionGeneralizedSquaredDistanceFunction:2_-1_D(X)=(X-X)'COV(X-X)+ln|COV|jjjjjPosteriorProbabilityofMembershipineachSPECIES:22Pr(j|X)=exp(-.5D(X))/SUMexp(-.5D(X))jkkNumberofObservationsandPercentClassifiedintoSPECIES:FromSPECIESSetosaVersicolorVirginicaTotalSetosa500050100.000.000.00100.00Versicolor0464500.0092.008.00100.00Virginica0347500.006.0094.00100.00Total504951150Percent33.3332.6734.00100.00Priors0.33330.33330.3333ErrorCountEstimatesforSPECIES:SetosaVersicolorVirginicaTotalRate0.00000.08000.06000.0467Priors0.33330.33330.3333DiscriminantAnalysisClassificationResultsforCalibrationData:WORK.IRISCross-validationResultsusingQuadraticDiscriminantFunctionGeneralizedSquaredDistanceFunction:2_-1_D(X)=(X-X)'COV(X-X)+ln|COV|j(X)j(X)j(X)j(X)jPosteriorProbabilityofMembershipineachSPECIES:22Pr(j|X)=exp(-.5D(X))/SUMexp(-.5D(X))jkkPosteriorProbabilityofMembershipinSPECIES:ObsFromClassifiedSPECIESintoSPECIESSetosaVersicolorVirginica12VersicolorVirginica*0.00000.22700.773025VirginicaVersicolor*0.00000.88140.118663VirginicaVersicolor*0.00000.61680.383283VirginicaVersicolor*0.00000.61680.3832118VersicolorVirginica*0.00000.47100.5290131VersicolorVirginica*0.00000.47100.5290148VersicolorVirginica*0.00000.34160.6584*MisclassifiedobservationDiscriminantAnalysisClassificationSummaryforCalibrationData:WORK.IRISCross-validationSummaryusingQuadraticDiscriminantFunctionGeneralizedSquaredDistanceFunction:2_-1_D(X)=(X-X)'COV(X-X)+ln|COV|j(X)j(X)j(X)j(X)jPosteriorProbabilityofMembershipineachSPECIES:22Pr(j|X)=exp(-.5D(X))/SUMexp(-.5D(X))jkkNumberofObservationsandPercentClassifiedintoSPECIES:FromSPECIESSetosaVersicolorVirginicaTotalSetosa500050100.000.000.00100.00Versicolor0464500.0092.008.00100.00Virginica0347500.006.0094.00100.00Total504951150Percent33.3332.6734.00100.00Priors0.33330.33330.3333ErrorCountEstimatesforSPECIES:SetosaVersicolorVirginicaTotalRate0.00000.08000.06000.0467Priors0.33330.33330.3333主要结果分析。表38.2中输出了逐步判别分析的汇总结果。四个变量逐步被选入判别分析模型的次序为petallen、sepalwid、petalwid、sepallen,并且没有变量被剔除出来。说明最有效的判别函数是由这四个变量组成的。但是,第一个进入的petallen变量却已经能很好区分类别信息。它的偏达到0.9414,值最大也很大达到1180.161,平均平方典型相关(AverageSquaredCanonicalCorrelation)值为0.47068586。将它与四个变量全部用于判别分析时的平均平方典型相关值0.59594941比较,其实相差并不是非常大。特别注意,用前三个变量时的平均平方典型相关值0.59495691与用全部四变量时的0.59594941相比较,几乎没有差异。用偏分析也能得到相同的结论。因此,从能得出的判别函数既简洁又高效的角度看,用petallen、sepalwid和petalwid三个变量作为指标建立判别函数式是最优的。另外,如果用一个变量作为指标建立判别函数式,我们应该首先使用变量petallen。从逐步判别分析的第一步还可看到(只要去掉stepdisc过程中的short选项),使用petalwid变量也能较好地建立判别函数式,因为它的也高达0.9289,与0.9414相差并不多。表38.3中输出了用单个变量petallen作为指标建立判别函数式的结果。选择pool=test时,表示要先经过H0:3组的方差为齐性的原假设,检验若满足齐性则合并,反之则不合并。因Chi-Square=55.417943DF=2,P=0.0001,在α=0.1水平上拒绝接受H0。所以将用各类内部的协方差矩阵计算类间的平方距离,并建立判别函数。单变量petallen所产生的总的、合并的和组间的标准差为:17.6530、4.3033和20.9070,=0.9414,F=1180.161,P=0.0001检验结果表明petallen具有显著区别3组总体的能力。注意与前面的逐步判别分析的结果应该是一致的。假设各类先验概率均为1/3时(discrim过程的默认值),用全部数据建立起来的二次判别函数,再用来判别每一个样品的理论归属(ResubstitutionSummary),最后得到与实际归属比较后的误判率=0.0467,150×0.0467=7例误判,符合率=1—0.0467=95.33%。同时还给出了按实际分类与理论分类吻合与否的交叉表,主对角线上的50、46、47为两种分类一致的记录数,及占各类实际总数的百分比为100%、92%、94%,也就是说Versicolor类错判4例,Virginica类错判3例。利用二次判别函数还导出互相证实的结果(Cross-validationResults)。所谓互相证实,就是在共有N个样品中,每次留下一个样品作为新样品,由N—1个样品建立判别函数,然后将留下的这个样品代入判别函数,判别其归属。对每一个样品都留下来一次作为新样品来判别其归属。这样有利于减小用全部数据建立的判别函数再对全部数据进行回代判别所产生的偏差。误判率=0.0467,正好等于用全部数据建立起来的二次判别函数的误判率,但要注意这两者的误判率常常是不相等的,通常互相证实的误判率要高些。150×0.0467=7例误判,符合率=1—0.0467=95.33%。7例判错的样品号分别为:12、25、63、83、118、131、148。分析118号样品:其原来实际归属为Versicolor类,理论误判为Virginica类,是由于分别按二次判别函数计算出来的这个样品归属3类的事后概率得到的,归属于Setosa的事后概率为0.0000,归属于Versicolor的事后概率为0.4710,归属于Virginica的事后概率为0.5290,取3个概率值中最大者所对应的样品类为理论归类结果。所以实际Versicolor类中的50例,有4例(12、118、131、148)误判到Virginica类,46例实际分类与理论分类吻合,还有3例(25、63、83)由Virginica类误判到Versicolor类,最终结果Versicolor类=46+3=49例。表38.4使用4个变量进行判别分析的部分结果DiscriminantAnalysisofFisher(1936)IrisDataDiscriminantAnalysis150Observations149DFTotal4Variables147DFWithinClasses3Classes2DFBetweenClassesClassLevelInformationPriorSPECIESFrequencyWeightProportionProbabilitySetosa5050.00000.3333330.333333Versicolor5050.00000.3333330.333333Virginica5050.00000.3333330.333333DiscriminantAnalysisWithinCovarianceMatrixInformationCovarianceNaturalLogoftheDeterminantSPECIESMatrixRankoftheCovarianceMatrixSetosa45.35332Versicolor47.54636Virginica49.49362Pooled48.46214DiscriminantAnalysisTestofHomogeneityofWithinCovarianceMatricesTestChi-SquareValue=140.943050with20DFProb>Chi-Sq=0.0001Sincethechi-squarevalueissignificantatthe0.1level,thewithincovariancematriceswillbeusedinthediscriminantfunction.Reference:Morrison,D.F.(1976)MultivariateStatisticalMethodsp252.DiscriminantAnalysisPairwiseGeneralizedSquaredDistancesBetweenGroups蔼2__-1__D(i|j)=(X-X)'COV(X-X)+ln|COV|ijjijjGeneralizedSquaredDistancetoSPECIESFromSPECIESSetosaVersicolorVirginicaSetosa5.35332110.74017178.26121Versicolor328.415357.5463623.33238Virginica711.4382625.413069.49362MultivariateStatisticsandFApproximationsS=2M=0.5N=71StatisticValueFNumDFDenDFPr>FWilks'Lambda0.02343863199.14582880.0001Pillai'sTrace1.1918988353.46682900.0001Hotelling-LawleyTrace32.47732024580.53282860.0001Roy'sGreatestRoot32.191929201166.95741450.0001NOTE:FStatisticforRoy'sGreatestRootisanupperbound.NOTE:FStatisticforWilks'Lambdaisexact.DiscriminantAnalysisClassificationResultsforCalibrationData:WORK.IRISResubstitutionResultsusingQuadraticDiscriminantFunctionPosteriorProbabilityofMembershipinSPECIES:ObsFromClassifiedSPECIESintoSPECIESSetosaVersicolorVirginica5VirginicaVersicolor*0.00000.60500.39509VersicolorVirginica*0.00000.33590.664112VersicolorVirginica*0.00000.15430.8457*MisclassifiedobservationDiscriminantAnalysisClassificationSummaryforCalibrationData:WORK.IRISResubstitutionSummaryusingQuadraticDiscriminantFunctionNumberofObservationsandPercentClassifiedintoSPECIES:FromSPECIESSetosaVersicolorVirginicaTotalSetosa500050100.000.000.00100.00Versicolor0482500.0096.004.00100.00Virginica0149500.002.0098.00100.00Total504951150Percent33.3332.6734.00100.00Priors0.33330.33330.3333ErrorCountEstimate

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论