




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、判别分析(DiscriminantAnalysis)一、概述:判别问题又称识别问题,或者归类问题。判别分析是由于年提出,年由首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体。所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量。训练样本的要求:类别明确,测量指标完整准确。一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷。判别分析的类别很多,常用的有:适用于定性指标或计数资料的
2、有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间,可根据不同情况分别采用以上方法。类别(有的称之为总体,但应与的区别)的含义一一具有相同属性或者特征指标的个体(有的人称之为样品)的集合。如何来表征相同属性、相同的特征指标呢?同一类别的个体之间距离小,不同总体的样本之间距离大。距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距绝对距离马氏距离:(Manhattandistance)设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为,协方差阵为E的总体(类别)A的两个个体
3、(点),则个体X与Y的马氏距离为D(X,Y)=(X,Y)tE-i(X,Y),类似地可以定义个体X与总体(类别)A的距离为D(X,A)=(X,i(X,)明考斯基距离(Minkowskidistanee):明科夫斯基距离欧几里德距离(欧氏距离)、Fisher两类判别、训练样本的测量值A类训练样本编号x1x2xm1xxxA11A12A1m2xxxA21A22A2mnAxAn1AxAn2AxAnAm均数xxxA1A2AmB类训练样本编号x1x2xm1xxxB11B12B1m2xxxB21B22B2mnBxBn1BxBn2BxBnBm均数xxxB1B2Bm二、建立判另U函数(DiscriminantAn
4、alysisFunction)为:YCX+CX+CX1122mmTOC o 1-5 h z其中:C、C和C为判别系数()12m可解如下方程组得判另系数。wC+wC+wCx(A)x(B)1111221mm11wC+wC+wCx(A)x(B)2112222mm22wC+wC+wCx(A)x(B)m11m22mmmmm各类的离差阵分别以L(A)、L(B)表示L(A)L(A)11L(A)21L(A)12L(A)22L(A)1mL(A)2mL(A)m1L(A)m2L(A),mmL(B)L(B)11L(B)21L(B)12L(B)22L(B)1mL(B)2mL(B)m1L(B)m2L(B),mm类内离差阵
5、W为L(A)、L(B)之和Ww11w21w12w221mw2mWL(A)+L(B)wwwTOC o 1-5 h zm1m2mm、Y值的判别界值将X(A)、X(A)、12、X(A)代入判别函数,得到相应的Y(A),m将X(B)、X(B)、12、X(B)代入判别函数,得到相应的Y(B),m两类的判别界值为:YY(A)+Y(B)c一2当两类的样本含量相差较多时应加权,用下式计算判别界值TOC o 1-5 h z“nY(A)+nY(B)YTBcn+nAB将每个个体的x、x、X代入判别函数计算Y,根据判别界值Y判别归12mc类。四、对判别函数检验T为训练样本中两类和在一起的离差阵(注意与W的区别)计算W
6、ilks统计量Utt1112ttT=2122ttm1m2t)1mt2mt丿mmv=m,v=nm112五、回代观察判别函数的判别效果举例设要建立一个判别函数来判别医院的工作情况,公认的A类医院11所,B类医院9所。X1:床位使用率X2:治愈率X3:诊断指数判别指标如下两表:A类医院编号XXX3Y198.8285.4993.187.9839285.3779.1099.657.9879386.6480.6496.947.9391473.0886.8298.708.1008578.7380.4497.617.88366103.4480.4093.757.8807791.9980.7793.937.81
7、61887.5082.5094.107.3665981.8288.4597.908.18021073.1682.9492.127.65921186.1983.5593.307.8919均数89.337382.827394.70737.8781B类医院编号XXXY172.4878.1282.387.030044258.8186.2073.466.7616372.4884.8774.096.8505490.5682.0777.157.0413573.7366.6393.987.2244672.7987.5977.157.0550774.2793.9185.546.7346893.6285.8979
8、.807.3152978.6977.0186.797.2522均数76.381179.143381.14897.0331合计均数81.85781.17088.6061计算各类中的变量值均数2计算各类的离差阵及两类的离差阵之和921.956085.6700104.7177、L(A)89.78906.1099、187.6898丿867.113745.535261.9823、L(B)602.2566390.0085、360.0057丿WL(A)+L(B)1789.069740.134842.7354,692.0456383.8986547.6955丿3x(A)X(B)=86.3376-76.3811
9、=9.956211X(A)X(B)=82.8273-79.1433=3.684022X(A)X(B)=94.7073-81.1489=13.558433TOC o 1-5 h zwCwCwC=x(A)x(B)11112213311wCwCwC=x(A)x(B)21122223322wCwCwC=x(A)x(B)311322333331789.0697C40.1348C42.7354C=9.9562123,40.1348C692.0456C383.8986C=3.6840123,42.7354C383.8986C547.6955C=13.5584123解此方程组得C=0.0074401C=0.0
10、324122C=0.0480553判别函数为Y=0.007440 x0.032412x0.048055x1235求Yc(A)=7.8781(B)=7.0331=Y(A)Y(B)=7.4556nY(A)nY(B)=tb=7.4978nnA6检验2279.7392141.4208625.4625、759.2241-136.6546、1457.6529丿UW4109787692130041753=0.192944厂1-UN一m一1F,=22.3085Umv二Nm1二162|w|、it为相应矩阵的行列式的值7.回代(internalvalidation)判别效果原分类一判别函数的判别归类ABA101B
11、00A正确率=90.9%B正确率=100%总正确率(符合率)=91%A误判率=B误判率=总误判率=5%符合率的高低取决于所选判别指标的特异性以及训练样本中各个体分类的可靠性。组内回代组外回代剔除回代Bayes多类判别设有g个总体,记为A,A,,A.提取了m个特征变量,12g记为x,x,x.对各个总体分别做了n,n,n次试验,得12m12g到的观测数据记为X(x)kijk1,2,g;i1,2,n;j=1,2,mkx代表第k个总体的第i个样本的第j个特征变量的观测值。kij注意总体、样品的概念Bayes多类判别是要建立g个判别函数Y(A)C(A)+C(A)X+C(A)X+C(A)XTOC o 1-
12、5 h z01111212m1mY(A)C(A)+C(A)X+C(A)X+C(A)X02121222m2mY(A)C(A)+C(A)X+C(A)X+C(A)Xg0g1g12g2mgm将每个个体代入每个函数式求得Y(A)、Y(A)Y(A),对于具体某个个体,12g哪个Y值最大,就将其判为哪类。Cj为判别系数过程Bayes多类判别分析的过程1计算判别系数(1)计算各组每个各变量的均数xk1,2,G,kjj1,2m计算各组的离差阵厶()和类内离差阵W=L(A)+L(A)+L(A)Gw)1mw2mW1,w11w21w12w22Wm1wm2w丿mm(3)求W的逆矩阵W-1A1类的判别系数计算:W1(W1
13、1w21w12w22wm2、Wimw2mmm(C(A),11C(A)21=(N-G)W11W21w12w22Wlmw2m(x(A),j11x(A)22jC(仙m1jwm1wm2wmm丿jx(A力mmC(A)-迟C(A)x(A)012j1j1j=1其余各类的判别系数以同样的方法求得,并可对每个个体的所属类判定求出后验概率(或称事后概率posteriorprobability,与之对应的是先验概率或事前概率priorprobability),这与后面的逐步判别分析中的计算方法一样,这里不做介绍。2假设检验(略放在逐步之后?还是先讲)3判别函数的判别效果观察举例用Bayes多类判别分析法对前面Fis
14、her二类判别分析的例子。1原始数据及基本计算(略)1计算类内离差阵数据和其逆矩阵1789.0697W=-40.134842.7354、692.0456383.8986547.6955丿其逆矩阵为0.0005637W-1=0.00009340.0001095、0.00237980.00167540.0030087丿(C(A),1C(A)=(20-2)2(C(A)丿3(0.00056370.00009340.00237980.0001095、0.0016754(86.337382.82730.0030087八94.7073丿1.2019、=6.54937.7970C(A)=0的A类的判别函数为(
15、A)二-692.2342+1.2019x+6.5493x+7.797x123(B)=-558.1299+1.068x+5.9658x+6.932x123其中逐步判别分析(StepwiseDiscriminantAnalysis)从m个可能有判别能力的变量中筛选出对判别分类有统计学意义的p(pm)个变量,建立判别函数Y(A)二C(A)+C(A)X+C(A)X+C(A)X+lnQ(A)11011112121pY(A)=CA+CA(X)+C202QAln()C(A)序1g1C(A)pgXInpQ(A)g式中Q(A)、Q(A)Q(A)为各类的先验概率12g1准备工作1)计算各类各指标的均数,计算各指标
16、的总均数2)计算类内离差阵W,记为W0(此为初始阵)计算总离差阵T,记为T0(3)确定检验水准(或与之相对应的F值)2逐步筛选变量(前进法、后退法、逐步法)筛选变量过程中(无论是引入一个变量还是剔出一个变量),每一步都要对上一步所得的矩阵作消去变换。设现在进行到(g+1)步,上一步(g步)曾得到两个矩阵(W(g),T(g1),本步要引入(或剔除)变量x,W(g)和T(g1)要按下式以(r,r)为主元作消去变换。W(g+1)=ijwgrrwgrwgrrwg匸wgrrwgwgwg址_ijwgrri=j=ri=r,j=rt(g1)ijtgrrtg占tgrrtg斗tgrrtgtgtgijtgrri=j
17、=rir,j=r每一步中哪个变量的判别能力强?看WilksUU(g1)r=t(g)rrw(g)rr检验方法:是否要剔除?1UNG(l1)F=r-Ur是否要剔除?G-lV=N-G-(l-1)2V=G-1,1V=N-G-l2(略)Bayes多类判别(续)1检验判别函数的判别能力WUT咒2-(N-1-)lnU2l(G-1)2计算判别系数,建立判别函数应加入先验概率3判别函数对任意两类之间的判别能力WilksU反映G类之间总的判别能力,任意两类(如E类和F类)间用MahalanobisD2反映(公式略)对马氏距离的检验用(N一G一l,1)nnF=EFEFl(N一G)(n,n)EFG一1,N一G一l,1
18、124判别分类对于某个体,代判别函数,分别计算Y(A)、Y(A)Y(A),其中Y(A)最12gF大,则判为该个体数A类,必要时还可计算出后验概率:FP(AF)eY(af)eY(A/j15回代观察判别函数的判别效果聚类分析(ClusterAnalysis)常用的系统聚类、逐步聚类和模糊聚类法常用的系统聚类、逐步聚类和模糊聚类法1根据相似系数和距离聚类其中相似系数有1)相关系数2)列联系数3)点相关系数ad-beQij:(a,b)(e,d)(a,e)(b,d)常用的距离包括(1)绝对距离dx-x,x-x,x-x12112112221m2m缺点:各变量量纲不同,数量级不同,不能直接向加(可先行标准化
19、后消除上述缺点)个体a、b的距离(也称L距离)为dab-x-xakbk标化后)常用的系统聚类、逐步聚类和模糊聚类法常用的系统聚类、逐步聚类和模糊聚类法k-1(2)平方距离(也称L2距离)为dab标化后)常用的系统聚类、逐步聚类和模糊聚类法常用的系统聚类、逐步聚类和模糊聚类法常用的系统聚类、逐步聚类和模糊聚类法常用的系统聚类、逐步聚类和模糊聚类法2系统聚类法常用,可用于对个体的聚类,也可用于对指标的聚类以个体间聚类的基本思想:首先定义样品间的距离(-或L2),以d表示,并定以类间的距离(最大距离法、最小距离法、平均距离法),以D表示。然后开始聚类,开始一个个体一类,n个个体,则有n类。将距离近的
20、两类合并成新的一类,重新计算新类与其他类之间的距离。将距离近的两类合并成新的一类,再重新计算新类与其他类之间的距离。121223456789101112这样每次聚类之后,减少一类,直至最后所有个体都合成一类。最后将整个聚类过程汇成聚类图,参照图进行分析,以便确定分几类为宜。举例设有12个个体,各测了3个指标编号-指标XXX31571027153321446525669677778148207991981210744114513126571计算各类(个体间)的距离12类(个体)之间的L距离叫)即Dy.113211143111843128551684615216812107162123151523
21、817242618182659111648642124106513711172219131167135339182158d12=|5-7|+|7-1|+|10-5|=13d39=|3-19|+|2-8|+|14-12|=24a2与a距离(2)最近,将其合并,并命名为G13。重新计算其他10类与G13之间的距离,它们与G13间的距离按最小距离法定义,因此D1,13=minD1,2,D1,7=min13,15=13D3,13=minD3,2,D3,7=min14,16=1411类(个体)之间的L距离G1G311G3G41118G4G53128G5G651684G6G81627231515G9172
22、4261818G101116486G116513711G12613533G1313148108G85G92124G10221913G11182158G1223264157G13三个3,任意选定其中两类合并,如G1与G5和并G14G418G4G6168G6G8272315G8G92426185G9G1016462124G10G1151311221913G11G121353182158G12G13148823264157G13G141184151786310G3G14有两个3,合并起中之一对,G6和G12G15G3G418G4G82723G8G924265G9G101642124G10G11513
23、221913G11G131482326415G13G1411815178610G14G1513515185873G15TOC o 1-5 h z合并G14与G15G16G418G4G82723G8G924265G9G101642124G10G11513221913G11G131482326415G13G161151517567G3G16合并G4与G10G17G827G8G9245G9G1152219G11G1314232615G13G1611151767G16G171621241345G3G17TOC o 1-5 h z合并G13、G17G18G827G8G9245G9G1152219G11G
24、161115176G163G18TOC o 1-5 h z并G3、G11G19G8G192219613G19并G8与G9G20G185G18G19613G19G20152119G16G20TOC o 1-5 h z并G16与G18G21G19G20G2119G20615G21并G19与G21G22G21G2215G22并G20与G22合为一类于是只有G20,G22他们之间的距离为15,最后合并为一类可归纳为下表:步数合并的类别距离新类名类内个体1G2,G72G13a2,a72G1,G53G14a1,a53G6,G123G15a6,a124G14,G153G16a1,a
25、5,a6,a125G4,G104G17a4,a106G13,G174G18a2,a4,a7,a107G3,G115G19a3,a118G8,G95G20a8,a99G16,G185G21a1,a2,a4,a5,a6,a7,a10,a1210G19,G216G22a1,a2,a3,a4,a5,a6,a7,a10,a11,a1211G20,G2215G23全部274101561231189聚类方法不同,得各类的结果也不同对指标的聚类也有最大相似系数和最小相似系数法例牙槽弓的形态特征需用22个指标才能全面描述,现测量609副牙槽弓的形态指标,得结果如下:609副牙弓形态指标的测量值编号指标XiX2X
26、22132.541.031.0234.040.537.5334.541.034.060925.033.034.0均数31.539.333.0标准差1指标间的相关系数(*0.01)2822368873452728945335067845641414035266738424441328078364246453463848933394546395273889102331394240355470841011442013050027191616091112464740311524252526184612134047443721212324272333871314282521181268
27、483020052924211415424041372739403939242857595015164141413726313536372427576438911617536262543728303130251473822257601718526263564024283031261676841956597918194042464332354651534120505625798262541920394245433536434852422353592778835562692021907256412441363331216953433143434849394021223636343122897152
28、4124262320804433262334353722步数合并的类别相关系数新类名115,160.912321,210.902433,40.892546,220.892658,90.8827612,130.8728723,190.7929817,180.793097,270.73311028,300.73321124,20.72331229,200.69341326,140.68351425,50.67361531,100.54371632,340.50381733,380.39391836,370.32401935,390.20412041,110.14422140,420.0043实验部
29、分逐步聚类应用系统聚类法聚类时,每一步聚类都需计算各类之间的距离,如果对609个人的牙弓作个体间的聚类,计算每两个个体间距离,需185136次!每一步只能合并一类,须经608次,这样计算量很大,作出聚类图时也十分复杂,不便与分析。逐步聚类法可以较好的克服上述缺点。一、原理和步骤先按某种原则选出一些凝聚点,把每个凝聚点作为聚类的核心。其余个体按就近的原则向各凝聚点凝聚(即归为一类),这样得到初始分类方案。然后对此方案不断修改,直至分类比较合理,不能再修改时为止最初选终始凝方聚分案类占八、修否改方案分类是否合理?二、选凝聚占凝聚占应是有代表性的占,以这些凝聚占为基础进行初始分类。可以人为地选择,也
30、可根据某种标准定。常用的方法有:1经验选择。对医院分类时,分别找三所有代表性优、良、差的医院为凝聚占。2人为地把个体按某种标准分为若干类,计算每类的均数,以此为凝聚占。先按优、良、差把医院分三类,分别计算其均数。3.密度法较客观。限定一个d(不宜太大,也不宜太小),以每个个体为中心,以d为半径(想象成一个圆或球),半径内的个体数即为密度。每个个体的密度求出后,以密度大的个体为第I个凝聚点。再考虑密度次大的个体,如它与第I个凝聚点的距离2d,则了作为第II个凝聚点,否则不能作为第II个凝聚点。之后再考虑下一个密度次大的个体,如它与第I、II个凝聚点的距离都2d,则可成为III凝聚点。这样一直下去
31、,直至所有的个体都考察一遍,此时选定了若干个凝聚点。三、初始分类。四、逐步修改分类方案,直至无可修改的为止cluster过程fastclus过程varclus过程tree过程过程常用语句及选择项PROCDISCRIM语句的选择项Data=数据集名SimpleThreshold=PdistanceListlisterrout=数据集名outstat=数据集名priorsproportional指定调用数据集打印所有变量的描述性统计量为分类指定可接受的最小后验概率0P1输出各组间的距离列出所有个体的判别的类别列出判错的个体指出输出的数据集(包括原始值、后验概率、判别分类)将判别统计量的结果输出到S
32、AS数据集中以训练样本中各类别的比例为先验概率(默认为各类的先验概率相等)先验概率之和须等于1举例1分组变量为group,其值分别为A、B、C和D,写作:priorsA=.3B=.25C=.25D=.2举例2分组变量为group,其值分别为1、2、3、4和5,写作:priors1=.32=.23=.24=.155=.15定义分类的变量按语句中指明的变量分别作判别分析(在作判别分析分析前先对数据集排序)定义标识变量,而非观测值号指明用于判别的变量dataa;inputy1-y4g;y3=0-y3;cards;108.09.52.8751.50050-1.0001-42.02
33、.55.7500.0001-18.03.55.350-25.00025-1.250130.07.04.5002.500167.28.03.500-2.0005022.550242.010.03.5000.0002-48.07.55.375-25.000224.09.04.3003.250233.610.03.0008.7502-506.25025-2.7503750.1253-50.410.54.750-2.5003-24.04.05.5005.000325.213.03.2500.150
34、3-60.011.05.000-10.0003108.09.52.8751.50050-1.0001-42.02.55.7500.0001-18.03.55.350-25.00025-1.250130.07.04.5002.500167.28.03.500-2.0005022.550242.010.03.5000.0002-48.07.55.375-25.000224.09.04.3003.250233.610.03.0008.7502-506.25025-2.750344.49.52.
35、8750.1253-50.410.54.750-2.5003-24.04.05.5005.000325.213.03.2500.1503-60.011.05.000-10.0003procdiscrimsimpledistancelistout=bpool=yes;classg;run;逐步判别分析Method=stepwise|forward|backwardsle=psls=pdataa;inputx1-x4g;cards;108.09.5-2.8751.500164.86.5-3.750-1.0001-42.02.5-5.7500.0001-18.03.5-5.350-25.000121
36、.37.5-4.625-1.250130.07.0-4.5002.500167.28.0-3.500-2.00013.68.5-4.25022.550242.010.0-3.5000.0002-48.07.5-5.375-25.000224.09.0-4.3003.250233.610.0-3.0008.7502-21.66.5-3.7506.250243.212.5-4.625-2.750344.49.5-2.8750.1253-50.410.5-4.750-2.5003-24.04.0-5.5005.000325.213.0-3.2500.1503-60.011.0-5.000-10.0003;procstepdiscmethod=stepwisesle=0.15sls=0.15;classg;run;逐步判别分析Data=数据集名Seed=数据集名产生)radius=数值maxc=数值max
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陇东学院《隧道工程设计》2023-2024学年第二学期期末试卷
- 陕西学前师范学院《生活中的生物学》2023-2024学年第二学期期末试卷
- 陕西工商职业学院《酒店集团经营模式比较》2023-2024学年第二学期期末试卷
- 陕西旬阳中学2025届高三下学期开学质检物理试题含解析
- 陕西理工大学《液压系统故障诊断》2023-2024学年第二学期期末试卷
- 陕西省咸阳市百灵中学2024-2025学年招生全国统一考试考试说明跟踪卷(二)化学试题含解析
- 陕西省扶风县2025届初三第二学期4月模拟考试物理试题含解析
- 陕西省汉中市2024-2025学年三下数学期末学业水平测试试题含解析
- 陕西省洛南县永丰中学2024-2025学年高三八校联考英语试题(四)含解析
- 陕西省渭南市重点中学2024-2025学年高三下学期4月阶段练习(一模)语文试题试卷含解析
- 东洋(TOYO)VF64C系列变频器中文说明书
- 公司组织结构图Word模板
- 内部控制案例第02章案例6 獐子岛
- 石化公司成品油销售中心考核方案
- 机动车检测站车辆起火及应急疏散演练记录
- DB13(J)∕T 105-2017 预应力混凝土管桩基础技术规程
- 加压气化操作规程(共115页)
- 消防监督执法规范化建设培训课件
- 标准鲁班尺尺寸对比表
- 2021-2022学年成都市锦江区初三二诊英语试题
- 南轩堂蜀湘张氏先祖迁徙路线及世系索引——张居高
评论
0/150
提交评论