距离、广义平方距离与Bayes判别_第1页
距离、广义平方距离与Bayes判别_第2页
距离、广义平方距离与Bayes判别_第3页
距离、广义平方距离与Bayes判别_第4页
距离、广义平方距离与Bayes判别_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、判别分析距离判别、Bayes判别一、距离判别1、距离判别所用 DISCRIM 过程(一般判别过程)简介 常用格式如下:PROC DISCRIM;CLASS variable;VAR variable;RUN;常用语句说明:PROC DISCRIM 语句语句一般格式:PROC DISCRIM ;表示调用DISCRIM过程,开始执行判别分析。选项一般有如下几类:数据集选项DATA=SAS-data-set :指定分析的数据集,缺省为最 新创建数据集;TESTDATA=SAS-data-set :指定待分类的输入观测数 据集。OUT=SAS-data-set :生成输由数据集,包括来自输入 数据集的

2、所有数据,后验概率以及每个观测被重复替换后所分入的类。判别方法选项MEIHOD =NORMAL|NPAR :确定导由分类准则的方 法。当指定方法为 NORMAL时,导由的判别函数基于组内 总体是正态分布的, 而当指定的方法为 NPAR时,导由的判 别函数基于非参数方法,缺省时系统设定为正态。POOL = NO|TEST|YES :确定计算平方距离是以合计 协方差阵还是组内协方差阵为基础。缺省时系统规定采用合并协方差阵导由线性判别函数,此时系统暗含假定各组协方差阵相等;POOL = NO采用组内协方差阵导由线性判别函数,暗含假定各组协方差阵不相等;POOL = TEST ,对组内协方差阵进行齐性

3、检验,根据检验 结果导由判别函数。其它常用判别方法选项LIST :列由每个观测重复替换分类结果。WCOV :输由组内协力差阵的估计。PCOV :合并类内协方差阵估计。DISTANCE :输由类均值之间的平方距离SIMPLE :输由简单描述统计量。CLASS 语句一般格式为:CLASS variable ;该语句规定进行判别分析的分类变量,可以是字符型的,也 可以是数值型的。VAR语句一般格式为:VAR variable;用来指明用来建立判别函数的变量。2、距离判别应用举例(课本 181页)例5. 1. 1(盐泉含钾性判别)某地区经勘探证明 A盆地是 一个钾盐矿区,B盆地是一个钠盐矿区,其他盐盆

4、地是否含 钾盐有待作曲判断.今从A, B两盆地各抽取5个盐泉样品: 从其他盆地抽得 8个盐泉样品,18个盐泉的特征数值见表 5. 1.试对后8个待判盐泉进行含钾性判别.盐泉类别年 号K , W/CL(*工)Br * AOVCI (x2)k * lo/sii (X0K/B I类别号12,797, 8049. bO第一类:24.6712.3447,80含桃就臬3IB4 316,1863 15, 10待2ft. 602.40LWL 27.006.707. MJ3Q-2U到A7.9。2,404.3033,20松53, L912.403 201,439Q口5. 1。d.4324 60京3.402 313

5、1 一的15.002.705.0264.00下面用SAS/STAT软件中的DISCRIM 过程进行判别归类:以下SAS程序首先生成 SAS数据集D511,然后调用DISCRIM过程对含钾和不含钾的 A, B两类盆地的10个样品特征测量值用距离判别的方法,建立线性判别函数.并对 已知类别的样品和待判样品进行判别归类。输由 5.1.1至输由5.1.4是SAS程序输由的部分结果.SAS程序如下:(假定两组总体协方差阵相等)data d511;input x1-x4 group $;cards;13.852.797.8049.60A22.314.6712.3147.80A28.824.6316.186

6、2.15A15.293.547.5043.20A28.794.9016.1258.10A2.181.061.2220.60B3.850.804.0647.10B11.400.003.500.00B3.662.422.1415.10B12.100.005.680.00B8.853.385.1726.10.28.602.401.20127.0.20.706.707.6030.20.7.902.404.3033.20.3.193.201.439.90.12.405.104.4324.60.16.803.402.3131.30.15.002.705.0264.00.5proc discrim data

7、=d511 wcov pcov distance list;class group;var x1-x4; run;程序解释说明:(1) DATA 步创建一个用于建立判别函数和归类的名为d511的SAS数据集。其中x1-x4为盐泉的四个特征数值,group为分类变量,为字符型。数据行的后八行为 待判样品,不参与判别函数的创建,group为缺省值代表要求判别归类。(2) proc discrim 表示调用 discrim 过程,选项 data=d511 指 定分析的输入数据集,缺省时采用最新创建的SAS数据集;(3)选项wcov pcov分别要求输由组内协方差阵 (即&和 S2)和合并样本协方差阵

8、(即 S)(见输由5.1-1)(4)选项distance要求输由各组间的距离(见输由输由2);(5)选项1ist要求输由按距离准则的判别结果(见输由输由 5.1-4 )。class语句规定进行判别分析的分类变量,即 group;var语句指明用来建立判别函数的变量。主要输生结果:输由5.1-1组内协方差阵(即&和S2)和合并样本协方差阵(即S)The DlSCRIM FrocedurcVI thln-Class Covaxi ance JilatricesVariablcx450. 995620005. 9157600030. 24C6450047. 0215950005. 0157GOOO0

9、. 818830003. 427660003. 9831000030.24GS45003. 4=276600013. 1073200028.880750047. 026950g3. 9831000026. 9890730060, 23200000VariableXlx2z3x4xl22. 25b3Z00-3, 5W&60U6. 1400500-6Z, 0393500k2-3. 5406600o. 9300SOO-1. 12240006,2953000 xS6, 14005001. 12240002.9830000-E. OGoC 000*4-G7. 02925006. 2953000-6. 5

10、5&0000374.9030000ETQUD =凡DF = 4Fooled ithin-Class Covariance Malrix DF = 3Virialale12 3 4 X X X X36. 62597001.1875500IS. 1933475TO. 00120001.18755000. 90395501.15263005.139200018. 19334751.152630010. 547910011. 2160375-10. 00120005.139200011.2160375217. 5675000输由5.1-2组间距离及两组总体均值差异的显著性检验Squared Di st

11、ance t o groupFr ohlgr oup037. 0287G37. 02976 0F St at 1 s tics,NDF4, DDF-5 for Squared Di.s t ance to groupFrom.gr cup014. 4S43S14.46436 0Frob M ahal anob i s Di stance for Squaied Ci s t ance t * grourFrcn gr oupAEA1, 00000. 0059B0. 00591. 0000A,B两组间距离为 37.02876,检验H。: (1)的F统计量值为14.46436,对应P值=0.005

12、9bronObe groupciissified inta sroup1Z34E6709OL2345671 1 1 1 1 1 1 1AB0.9gg 90. 0001L00000, 0000Looco0. 00001.gg0. 00001.1000a. noon0,1.00000.)0(JO1, 1)0000.ooco1.0000u.DOUU1,UQOO0.DOCO1.00000.D0160. 99融Lgg0, oooo1.0. 00000.侬口0. 91700.DOCO1.00001.oocaCL 00001,00000, 00001.)0(1()I), 1)01)0* JIlscLassi

13、fled Qtservation回判结果全部正确,8个待判盐泉1, 4, 5归为B,为不含钾盐泉,2, 3, 6, 7, 8归位A,为含钾盐泉。或者将待判别的数据单独形成一个数据集,SAS程序如下:data ds511;input x1-x4 group $;cards ;13.85 2.79 7.80 49.60 A22.31 4.67 12.31 47.80 A28.82 4.63 16.18 62.15 A15.29 3.54 7.50 43.20 A28.79 4.90 16.12 58.10 A2.18 1.06 1.22 20.60 B3.85 0.80 4.06 47.10 B1

14、1.40 0.00 3.50 0.00 B3.66 2.42 2.14 15.10 B12.10 0.00 5.68 0.00 B;data d511test;input x1-x4 group $;cards8.85 3.38 5.17 26.10 .28.60 2.40 1.20 127.0 .20.70 6.70 7.60 30.20 .7.90 2.40 4.30 33.20 .3.19 3.20 1.43 9.90 .12.40 5.10 4.43 24.60 .16.80 3.40 2.31 31.30 .15.00 2.70 5.02 64.00 .;proc discrim d

15、ata =ds511 testdata =d511testwcov pcov distance list testlist ;class group;var x1-x4;run ;在协方差阵是否相等不能确定的情况下,添加选项 pool=test首先检验协方差阵是否相等,采用如下程序:proc discrim data =ds511testdata=d511testpool=testslpool=0.05 list;class group; var x1-x4; run ;组内协方差阵齐性的检验结果The DISCRIM ProcedureTest of Homogeneity of Withi

16、n Covariance Matrices Chi-SquareDF Pr ChiSq19.055381100.0396Since the Chi-Square value is significant at the 0.05level, the within covariance matrices willbe used in the discriminant function.卡方检验的P值为0.0396IJJIJJGeneral i zed Squared D istance to groupFrom名 roupAB占-1,362638D5.41916B?1536J7032判别结果Ps

17、t erior Prcbabi 11 tyMciubcrship in groupFtojiiOtis groupCl a Ecifi ed Into groupAB12 3 4 5 6 7 8 901235670 i-l 1- i-I dx- 1- n-I 1- IX IaaaaaeeeeeAAAAAbEBEEEERBEEEE1.00000. 0000L 0000CL 0U001 00000. 00000. oooo1. 00000. ooooL 00000. 口。gL 00006 0000L 00000, ooooL 0000*Q. 0000L. 0000Q. 0000L 0000*0,

18、QOOOL AiOOO0. 0000L 0 00 0*0. 0000L 0000*0. 1S230. 9G77*U. 0000L 0000挛o. oooo HL 00001.0。0, 00001. ocno0. noon曳 Miscla.Esified obeeration回判结果全部正确,待判别的8各盐泉全归为B,即不含钾二、广义平方距离判别和Bayes判别当先验概率和各组协方差阵都相等等时,广义平方距离判别法即为马氏距离判别法。广义平方距离判别调用 discrim过程。当各组协方差阵相等 时,Bayes判别法与协方差阵相等 情况下的马氏距离 判别法一致;当各组协方差阵 不相等时,此时的Ba

19、yes判别法与协方 差阵不全相等情况下的 广义平方距离 判别法一致。应用举例(课本191页)例5.2.2 (胃癌的鉴别)下表是从病例中随机抽取的部分 资料,这里有二个总体:胃癌、萎缩件胃炎和非胃炎患者.从每个总体抽5个病人,每人化验 4项生化指标:血清铜蛋白 (XI)、蓝色反应(X2)、尿阻噪乙酸(x3)和中性硫化物(X4).试 用广义平方距离判别方法 建立判别准则并对这 15个样品进 行判别归类。表5.2胃癌检验的生化指标关另U房开加油姻事白 Z 树川啪乙酿 xr中性碗化枷X7ra ca12782f311FT W22451争4IOtco ml3ZtMle7127* FL701307err r

20、r5100l看了2n14714130LOOG12ISO1 1776非 ftizn1 33LO26用 .j-fT*10U1OO51(11麻西 非111W5L 159拧 百1217034131631423J 31351)K12151UO1 172SAS程序如下:data d522;input group x1-x4 ;cards;1 228 134 20 11 1 245 134 10 401 200 167 12 27 1 170 150 7 81 100 167 20 14 2 225 125 7 142 130 100 6 12 2 150 117 7 62 120 133 10 26 2

21、160 100 5 103 185 115 5 19 3 170 125 6 43 165 142 5 3 3 135 108 2 123 100 117 7 2;proc discrim data=d522 pool=no distance list;class group;priors equal;var x1-x4;run;程序解释说明:pool=no表示认为三个总体的协方差阵不全相等,此时采用广义平方距离进行判别归类;priors equal;假定先验概率相等,都为 1/3.PRI0RS语句:该语句指定各组中成员由现的先验概率.一般格式:规定先验概率为各组Priors equal ;规

22、定先验概率相等Priors proportional|prop;样本由现的比例Priors probabilities;指定各个组(即分类变量的各个水平)的先验概率如: priors A=0.1 B =0.3 C =0.5 D =0.1 ;如果分类变量的水平值为小写字符或数值时必须用括号括 起来.Priors a =0.1b=0.3c=0.5d=0.1 ;Priors l =0.12 =0.33 =0.54 =0.1 ;主要输生结果:输由(A) 两两配对的组间广义平方距离 TOC o 1-5 h z Pairwise Generalized Squared Di stances Betireen Groups 2_-1 _D (i|j) = (X - X )f COV (X - X ) + In |COV | 1 J J 1 jJGeneral ized Squared Di stance to groupFro group12320.9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论