《多元统计分析》实验教学上机指导书电子教案_第1页
《多元统计分析》实验教学上机指导书电子教案_第2页
《多元统计分析》实验教学上机指导书电子教案_第3页
《多元统计分析》实验教学上机指导书电子教案_第4页
《多元统计分析》实验教学上机指导书电子教案_第5页
已阅读5页,还剩129页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Good is good, but better carries it.精益求精,善益求善。多元统计分析实验教学上机指导书-多元统计分析实验教学上机指导书数学与统计学学院信息与计算科学教研室第一章聚类分析一、实验目的与要求1.通过上机操作使学生掌握系统聚类分析方法在SAS和SPSS软件中的实现,熟悉系统聚类的用途和操作方法,了解各种距离,能按要求将样本进行分类;2.要求学生重点掌握该方法的用途,能正确解释软件处理的结果,尤其是冰柱图和树形图结果的解释;3.要求学生阅读一定数量的文献资料,掌握系统聚类分析方法在写作中的应用。二、实验内容与步骤SAS部分(一)SAS程序语言简介SAS系统强大的数据

2、管理能力、计算能力、分析能力依赖于作为其基础的SAS语言。SAS语言是一个专用的数据管理与分析语言,它的数据管理功能类似于数据库语言(如FoxPro),但又添加了一般高级程序设计语言的许多成分(如分支、循环、数组),以及专用于数据管理、统计计算的函数。SAS系统的数据管理、报表、图形、统计分析等功能都可以用SAS语言程序来调用,只要指定要完成的任务就可以由SAS系统按照预先设计好的程序去进行,所以SAS语言和FoxPro等一样是一种第四代计算机语言。SAS语言有它自己的对变量、常量、表达式的一系列规定,有一系列标准函数,有它自己的语句、语法,可以按一定规则构成SAS程序。SAS语言程序由数据步

3、(DATA步)和过程步(PROC步)组成。数据步用来生成数据集、计算、整理数据,过程步用来对数据进行分析、报告。SAS语言的基本单位是语句,每个SAS语句一般由一个关键字(如DATA,PROC,INPUT,CARDS,BY)开头,包含SAS名字、特殊字符、运算符等,以分号结束。SAS关键字是用于SAS语句开头的特殊单词。SAS名字在SAS程序中标识各种SAS成分,如变量、数据集、数据库,等等。SAS名字由1到8个字母、数字、下划线组成,第一个字符必须是字母或下划线。SAS关键字和SAS名字都不区分大小写。语句关键字用大写或小写方式都可以,但不可简化,必须原样照写。SAS程序由语句构成。一个SA

4、S语句可以占若干行,可以从任意一列开始,但必须在语句结束处加分号,因为SAS系统是根据分号判断哪些文字属于一个语句的,因此在一行上可以写几个SAS语句,只要每个语句都用分号结束(最常见的SAS编程错误就是丢失分号)。因为分号作为语句结束标志,所以SAS语句不需要单独占一行,一个语句可以写到多行(不需任何续行标志),也可以在一行连续写几个语句。SAS语言中只要允许用一个空格的地方就可以加入任意多个空白(空格、制表符、回车),允许用空格的地方是名字周围、运算符周围。比如,程序procprintdata=c9501;byavg;run;和procprintdata=c9501;byavg;run;是

5、等效的。另外,虽然SAS关键字和SAS名字不区分大小写,但字符型数据值要区分大小写,比如Beijing和BEIJING被认为是不同的数据值。在SAS程序中可以加入注释,注释使用C语言语法,用/*和*/在两端界定注释,这种注释可以出现在任何允许加入空格的位置,可以占多行。我们一般只把注释单独占一行或若干行,不把注释与程序代码放在同一行。注释的另一个作用是把某些代码暂时屏蔽使其不能运行。下面是一个注释的例子:/*生成95级1班考试成绩的数据集*/datac9501;SAS程序包括数据步和过程步两种结构,每一个步是一段相对完整的可以单独运行的程序。每个步以RUN语句结束。当一个步后面跟着另一个步时,

6、前面一个步的RUN语句可以省略。一个DATA步后面可以跟几个PROC步,也可以若干个DATA步后面跟几个PROC步;或以PROC步打头,后面跟若干个DATA步,再跟PROC步,程序中的每个步都是相应独立的,彼此不能交叉,不能嵌套。数据步用来生成、整理数据和自编程计算,过程步调用SAS已编好的处理过程对数据进行处理。我们自己用SAS编程序实现各多元统计分析方法主要用到过程步。在本课的学习过程中,主要采用调用已有数据集的方式,因此程序的重点在PROC步上,要分析的数据集只要在选择项DATA=中指明即可。最简单的PROC步只有一个PROC语句,即:PROC过程名;该语句调用指定的过程分析在该语句之前

7、最近建立的数据集。在调用时的其他要求全部采用SAS系统设置的缺省值。PROC语句的一般格式为:PROC过程名选择项;(二)用CLUSTER过程和TREE过程进行谱系聚类聚类分析又称群分析、点群分析,是定量研究分类问题的一种多元统计方法。聚类分析的基本思想是认为所研究的样品或指标之间存在着程度不同的相似性,于是根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。所以,聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量

8、度就可以产生不同的聚类结果。SAS/STAT模块中提供了谱系聚类(CLUSTER)、快速聚类(FASTCLUS)、变量聚类(VARCLUS)等聚类过程。我们重点要求掌握谱系聚类法。谱系聚类是一种逐次合并类的方法,最后得到一个聚类的二叉树聚类图。其基本计算过程是,对于n个观测,先计算其两两的距离得到一个距离矩阵,然后把离得最近的两个观测合并为一类,于是我们现在只剩了n-1个类(每个单独的未合并的观测作为一个类)。计算这n-1个类两两之间的距离,找到离得最近的两个类将其合并,就只剩下了n-2个类直到剩下两个类,把它们合并为一个类为止。当然,真的合并成一个类就失去了聚类的意义,所以上面的聚类过程应该

9、在某个类水平数(即未合并的类数)停下来,最终的类数就是这些未合并的类的个数。决定聚类个数是一个很复杂的问题。1.谱系聚类类数的确定谱系聚类最终得到一个聚类树形图,可以把所有观测聚为一类。到底应该把观测分为几类合适是一个比较难抉择的问题,因为分类问题本身就是没有一定标准的,关于这一点实用多元统计分析(王学仁、王松桂,上海科技出版社)第十章给出了一个很好的例子,即扑克牌的分类。我们可以把扑克牌按花色分类,按大小点分类,按桥牌的高花色低花色分类,等等。决定类数的一些方法来自于统计的方差分析的思想,我们在这里作一些介绍。(1)统计量其中为分类数为个类时的总类内离差平方和,为所有变量的总离差平方和。越大

10、,说明分为个类时每个类内的离差平方和都比较小,也就是分为个类是合适的。但是,显然分类越多,每个类越小,越大,所以我们只能取使得足够大,但本身比较小,而且不再大幅度增加。(2)半偏相关在把类和类合并为下一水平的类时,定义半偏相关半偏其中为合并类引起的类内离差平方和的增量,半偏相关越大,说明这两个类越不应该合并,所以如果由类合并为类时如果半偏相关很大就应该取类。(3)伪F统计量伪F统计量评价分为个类的效果。如果分为个类合理,则类内离差平方和(分母)应该较小,类间平方和(分子)相对较大。所以应该取伪F统计量较大而类数较小的聚类水平。(4)伪统计量用此统计量评价合并类和类的效果,该值大说明不应合并这两

11、个类,所以应该取合并前的水平。2.CLUSTER过程用法由于在SAS系统中聚类分析过程没有现成的窗口操作,所以实现聚类分析必须编写SAS程序。SAS/STAT模块中的Cluster过程可实现系统聚类分析,可调用Tree过程生成聚类谱系图。CLUSTER过程的一般格式为:PROCCLUSTERDATA=输入数据集METHOD=聚类方法选项;VAR聚类用变量;COPY复制变量;RUN;其中的VAR语句指定用来聚类的变量。COPY语句把指定的变量复制到OUTTREE的数据集中。PROCCLUSTER语句的主要选项有:(1)METHOD=选项,这是必须指定的,此选项决定我们要用的聚类方法,主要由类间距

12、离定义决定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法还要额外指定密度估计方法(K=、R=或HYBRID)。(2)DATA输入数据集,可以是原始观测数据集,也可以是距离矩阵数据集。(3)OUTTREE=输出数据集,把绘制谱系聚类树的信息输出到一个数据集,可以用TREE过程调用此数据集绘图树形图并实际分类。(4)STANDARD选项,把变量标准化为均值为0,标准差为1。(5)PSEUDO选项和CCC选项。PSEUDO选项要

13、求计算伪F和伪统计量,CCC选项要求计算、半偏和CCC统计量。其中CCC统计量也是一种考察聚类效果的统计量,CCC较大的聚类水平是较好的。3.TREE过程用法TREE过程可以把CLUSTER过程产生的OUTTREE数据集作为输入数据集,画出谱系聚类的树形图,并按照用户指定的聚类水平(类数)产生分类结果数据集。其一般格式如下:PROCTREEDATA数据集OUT=输出数据集NCLUSTER=类数选项;COPY复制变量;RUN;其中COPY语句把输入数据集中的变量复制到输出数据集(实际上这些变量也必须在CLUSTER过程中用COPY语句复制到OUTTREE数据集)。PROCTREE语句的重要选项有

14、:(1)DATA数据集,指定从CLUSTER过程生成的OUTTREE数据集作为输入数据集。(2)OUT数据集,指定包含最后分类结果(每一个观测属于哪一类,用一个CLUSTER变量区分)的输出数据集。(3)NCLUSTERS选项,由用户指定最后把样本观测分为多少个类(即聚类水平)。(4)HORIZONTAL,画树形图时沿水平方向画,即绘制水平方向的树形图,系统默认绘制垂直方向的树形图。4.例子我们以多元统计分析中一个经典的数据作为例子,这是Fisher分析过的鸢尾花数据,有三种不同鸢尾花(Setosa、Versicolor、Virginica),种类信息存入了变量SPECIES,并对每一种测量了

15、50棵植株的花瓣长(PETALLEN)、花瓣宽(PETALWID)、花萼长(SEPALLEN)、花萼宽(SEPALWID)。这个数据已知分类,并不属于聚类分析的研究范围。这里我们为了示例,假装不知道样本的分类情况(既不知道类数也不知道每一个观测属于的类别),用SAS去进行聚类分析,如果得到的类数和分类结果符合真实的植物分类,我们就可以知道聚类分析产生了好的结果。这里我们假定数据已输入SASUSER.IRIS中(见系统帮助菜单的“SamplePrograms|SAS/STAT|DocumentationExample3fromProcCluster”)。为了进行谱系聚类并产生帮助确定类数的统计量

16、,编写如下程序:procclusterdata=sasuser.irismethod=wardouttree=otreepseudoccc;varpetallenpetalwidsepallensepalwid;copyspecies;run;可以显示如下的聚类过程(节略):TPseudoPseudoiNCL-ClustersJoined-FREQSPRSQRSQERSQCCCFt*2e149OB16OB7620.0000001.0000.148OB2OB5820.0000071.0000.1854.1.T147OB96OB10720.0000071.0000.1400.1.T146OB89O

17、B11320.0000071.0000.1253.1.T145OB65OB12620.0000071.0000.1182.9.T25CL50OB5770.0006340.98240.9733356.446291.05.624CL78CL6270.0007420.98170.9722546.430293.59.823CL68CL3890.0008050.98090.9711016.404296.06.922CL30OB13760.0008960.98000.9698686.352298.35.121CL70CL3340.0009760.97900.9685456.290300.73.220CL3

18、6OB25100.0010870.97790.9671196.206302.99.819CL40CL22190.0011410.97680.9655796.146306.17.718CL25CL39100.0012490.97550.9639066.082309.56.217CL29CL45160.0013510.97420.9620816.026313.58.216CL34CL32150.0014620.97270.9600795.984318.49.015CL24CL28150.0016410.97110.9578715.929323.79.814CL21CL5370.0018730.96

19、920.9554185.850329.25.113CL18CL48150.0022710.96690.9526705.690333.88.912CL16CL23240.0022740.96470.9495414.632342.49.611CL14CL43120.0025000.96220.9458864.675353.35.810CL26CL20220.0026940.95950.9415474.811368.112.99CL27CL17310.0030600.95640.9362965.018386.617.88CL35CL15230.0030950.95330.9297915.443414

20、.113.87CL10CL47260.0058110.94750.9214965.426430.119.16CL8CL13380.0060420.94140.9105145.806463.116.35CL9CL19500.0105320.93090.8952325.817488.543.24CL12CL11360.0172450.91370.8723313.987515.141.03CL6CL7640.0300510.88360.8266644.329558.157.22CL4CL31000.1110260.77260.6968713.833502.8115.61CL5CL21500.7725

21、950.00000.0000000.000.502.8伪F图形CCC图形伪图形半偏图形输出结果列出了把150个观测每次合并两类,共合并149次的过程。NCL列指定了聚类水平G(即这一步存在的单独的类数)。“-ClustersJoined-”为两列,指明这一步合并了哪两个类。其中OBxxx表示原始观测,而CLxxx表示在某一个聚类水平上产生的类。比如,NCL为149时合并的是OB16和OB76,即16号观测和76号观测合并;NCL为1(最后一次合并)合并的是CL5和CL2,即类水平为5时得到的类和类水平为2时得到的类合并,CL5又是由CL9和CL19合并得到的,CL2是由CL4和CL3合并得到的

22、,等等。FREQ表示这次合并得到的类中有多少个观测。SPRSQ是半偏,RSQ是,ERSQ是在均匀零假设下的的近似期望值,CCC为CCC统计量,PseudoF为伪F统计量,Pseudot*2为伪统计量,NormRMSDist是正规化的两类元素间距离的均方根,Tie指示距离最小的候选类对是否有多对。因为我们假装不知道数据的实际分类情况,所以我们必须找到一个合理的分类个数。为此,考察CCC、伪F、伪和半偏统计量。我们打开ASSIST模块,调入上面产生的OTREE数据集,绘制各统计量的图形。因为类水平太大时的信息没有多少用处,所以我们用WHERE语句对OTREE数据集取其类水平不超过30的观测。各统计

23、量的图形显示:CCC统计量建议取5类或3类(局部最大值),伪F建议3类(局部最大值),伪建议3类(局部最大值处是不应合并的,即局部最大值处的类数加1),半偏建议3类。由这些指标看,比较一致的是3类,其次是5类。为了看为什么不能明显地分为三类,我们对四个变量求主分量,画出前两个主分量的散点图。可以看出Setosa(红色)与其它两类分得很开,而Versicolor(绿色)与Virginica(蓝色)则不易分开。因为我们知道要分成3类,所以我们用如下的TREE过程绘制树形图并产生分类结果数据集:proctreedata=otreehorizontalnclusters=3out=oclust;cop

24、yspecies;run;树形图因为观测过多所以显得杂乱。从图中也可以看出,分为两类可以分得很开,而分成三类时距离则不够远。这个TREE过程用NCLUSTERS=3指定了分成3个类,结果数据集OCLUST中有一个CLUSTER变量代表生成的分类。我们把这个数据集调入ASSIST模块中用不同颜色代表SPECIES(实际种类),用不同符号代表不同聚类过程分类,作前两个主分量散点图。可以看出,Virsicolor和Virginica两类互相都有分错为对方的。为了统计分类结果,可以用ASSIST模块FREQ过程作表,得到如下结果:SPECIES(Species)CLUSTERFrequency|1|2

25、|3|Total-+-+-+-+Setosa|0|0|50|50-+-+-+-+Versicolor|49|1|0|50-+-+-+-+Virginica|15|35|0|50-+-+-+-+Total643650150可见Virginica被分错的较多。同学们可以自己试用其它的类间距离来聚类,可以得到不同的结果。SPSS部分系统聚类分析在SPSS中的实现较为简单,因为有现成的窗口菜单操作,在SPSS主菜单中选择AnalyzeClassifyHierarchicalCluster,可实现系统聚类分析。SPSS软件处理结果的解释可参见SAS部分的相关内容,所不同的是在SPSS的结果中,聚类进度表

26、中以0表示参与合并的是观测,以数字表示参与合并的是类,作为类出现时用类中较小的观测号来表示。聚类分析在写作中的应用从“中国期刊网”上查阅相关文章,如“中国城市竞争力聚类分析”等,掌握聚类分析在写作中的应用。第二章判别分析一、实验目的与要求1.通过上机操作使学生掌握判别分析方法在SAS和SPSS软件中的实现,了解判别方法的分类、适用条件和结果验证方法;2.要求学生熟悉判别分析的用途和操作,重点掌握对软件处理结果的解释(区域图、未标准化典型判别函数、Bayes判别函数)和如何使用分析结果对新样品进行分类;3.要求学生阅读一定数量的文献资料,掌握判别分析方法在写作中的应用。二、实验内容与步骤判别分析

27、和聚类分析有相似的作用,都是起到分类的作用。但是,判别分析是已知分类然后总结出判别准则,是一种有指导的学习;而聚类分析则是有了一批样本,不知道它们的分类,甚至连分成几类也不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是无指导的学习。判别分析是用于判断个体所属类别的一种统计方法。根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。当然,这种准则在某种意义上是最优的,如错判概率最小或错判损失最小等。其前提是总体均值有显著差异,否则错分率

28、大,判别分析无意义。例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别,把这种区别表示为判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。SAS部分在SAS系统中没有现成的菜单操作,须通过编程来实现判别分析。SAS/STAT模块中实现判别分析的过程有:Discrim,实现最基本的判别分析;Candisc,将判别分析与典型相关分析相结合;Stepdisc,逐步判别分析,是一个变量的筛选过程。(一)DISCRIM过程的语句说明SAS/STAT的DISCRIM过程可以使用参数判别分析方法和非参数判别分析方法进行判别分析。参数方法假定每个类的观测来自

29、(多元)正态分布总体,各类的分布的均值(中心)可以不同。非参数方法不要求知道各类所来自总体的分布,它对每一类使用非参数方法估计该类的分布密度,然后据此建立判别准则。参数方法的判别准则为:先决定是使用合并协方差阵还是单个类的协方差阵,计算到各组的广义距离,把判入最近的组;或者计算属于各组的后验概率,把判入后验概率最大的组。SAS/STAT的DISCRIM过程一般格式如下:PROCDISCRIMDATA=输入数据集选项;CLASS分类变量;VAR判别用自变量集合;RUN;其中,PROCDISCRIM语句的选项中“输入数据集”为训练数据的数据集,包括一个分类变量(在CLASS语句中说明)和用来建立判

30、别公式的自变量集合(在VAR语句中说明)。可以用“TESTDATA=数据集”选项指定一个检验数据集,检验数据集必须包含与训练数据集相同的自变量集合,用训练数据集产生判别准则后将对检验数据集中的每一个观测给出分类值,如果这个检验数据集中有表示真实分类的变量可以在过程中用“TESTCLASS分类变量”语句指定,这样可以检验判别的效果如何。用“OUTSTAT=数据集”指定输出判别函数的数据集,后面可以再次用DISCRIM过程把输出的判别函数作为输入数据集(DATA=)读入并用它来判别检验数据集(TESTDATA=)。用“OUT=数据集”指定存放训练样本及后验概率、交叉确认分类的数据集。用“OUTD=

31、数据集”指定训练样本及组密度估计数据集。用“TESTOUT=数据集”指定检验数据的后验概率及分类结果。用“TESTOUTD=数据集”输出检验数据及组密度估计。PROCDISCRIM语句还有一些指定判别分析方法的选项。用METHOD=NORMAL或NPAR选择参数方法或非参数方法。用POOL=NO或TEST或YES表示不用合并协方差阵、通过检验决定是否使用合并协方差阵、用合并协方差阵。如果使用非参数方法,需要指定“R=核估计半径”选项来规定核估计方法或者指定“K=最近邻个数”来规定最近邻估计方法。PROCDISCRIM语句有一些规定显示结果的选项。用LISTERR显示训练样本错判的观测。用CRO

32、SSLISTERR显示用刀切法对训练样本判别错判的观测。用LIST对每一观测显示结果。用NOCLASSIFY取消对训练样本的分类检验。用CROSSLIST显示对训练样本的刀切法的判别结果。用CROSSVALIDATE要求进行交叉核实。当有用“TESTDATA=”指定的检验数据集时用TESTLIST选项显示检验数据集的检验结果,当有TESTCLASS语句时用TESTLISTERR可以列出检验样本判错的观测,用POSTERR选项可以打印基于分类结果的分类准则的后验概率错误率估计。用NOPRINT选项可以取消结果的显示。在DISCRIM过程中还可以使用PRIORS语句指定先验概率的取法。“PRIOR

33、SEQUAL”指定先验概率相等。“PRIORSPROPORTIONAL”指定先验概率与各类个数成正比。“PRIORS概率值表”可以直接指定各组的先验概率值。(二)例子用卫星遥感可以分辨作物的种类。CROPS是训练数据集,其中包含了作物的实际种类(CROP)和四种遥感指标变量(X1-X4)。datacrops;title五种作物遥感数据的判别分析;inputcrop$x1-x4;cards;CORN16273133CORN15233030CORN16272726CORN18202523CORN15153132CORN15323215CORN12151673SOYBEANS20232325SOYB

34、EANS24242532SOYBEANS21252324SOYBEANS27452412SOYBEANS12131542SOYBEANS22323143COTTON31323334COTTON29242628COTTON34322845COTTON26252324COTTON53487526COTTON34352578SUGARBEETS22232542SUGARBEETS25252426SUGARBEETS34251652SUGARBEETS54232154SUGARBEETS25433215SUGARBEETS2654254CLOVER12453254CLOVER24582534CLOVE

35、R87546121CLOVER51313116CLOVER96485462CLOVER31311111CLOVER56131371CLOVER32132732CLOVER36265432CLOVER53080654CLOVER32326216;run;用下列DISCRIM过程可以产生线性判别函数(METHOD=NORMAL规定使用参数方法,POOL=YES选项规定使用合并协方差阵,这样产生的判别函数是线性函数,为系统的默认值)。用OUTSTAT=选项指定了判别函数的输出数据集为CROPSTAT,这个数据集可以用来判别检验数据集。选项LIST要求列出每个观测的结果,CROSSVALIDATE要求

36、交叉核实。“PRIORSPROPORTIONAL”即按各种类出现的比例计算各类的先验概率。procdiscrimdata=cropsoutstat=cropstatmethod=normalpool=yeslistcrossvalidate;classcrop;priorsproportional;varx1-x4;run;结果如下(节略):DiscriminantAnalysis36Observations35DFTotal4Variables31DFWithinClasses5Classes4DFBetweenClasses上面是一些数据信息基本情况。ClassLevelInformati

37、onPriorCROPFrequencyWeightProportionProbabilityCLOVER1111.00000.3055560.305556CORN77.00000.1944440.194444COTTON66.00000.1666670.166667SOYBEANS66.00000.1666670.166667SUGARBEETS66.00000.1666670.166667以上为各组的基本情况,并列出了先验概率值。因为指定了“PRIORSPROPORTIONAL”所以各组的先验概率按实际数据中各组比例计算。DiscriminantAnalysisPairwiseGenera

38、lizedSquaredDistancesBetweenGroups2_-1_D(i|j)=(Xi-Xj)COV(Xi-Xj)-2lnPRIORj上面为各组均值间广义距离平方的公式,即_-1_-1_Constant=-.5XjCOVXj+lnPRIORjCoefficientVector=COVXj上面即线性判别函数的公式,给出了到第j类的线性判别函数的常数项和各自变量的系数的公式。下面具体给出了各类的线性判别函数的各常数项及系数值。CROPCLOVERCORNCOTTONSOYBEANSSUGARBEETCONSTANT-10.98457-7.72070-11.46537-7.28260-9

39、.80179X10.08907-0.041800.024620.00003690.04245X20.173790.119700.175960.158960.20988X30.118990.165110.158800.106220.06540X40.156370.167680.183620.141330.16408比如,CLOVER(苜蓿)类的线性判别函数就可以用-10.98457+0.08907*X1+0.17379*X2+0.11899*X3+0.15637*X4来计算。下面为判别分析对训练数据集(CalibrationData)用线性判别函数的判别结果,先给出了广义平方距离函数的公式Dis

40、criminantAnalysisClassificationResultsforCalibrationData:WORK.CROPSResubstitutionResultsusingLinearDiscriminantFunctionGeneralizedSquaredDistanceFunction:2_-1_Dj(X)=(X-Xj)COV(X-Xj)-2lnPRIORj然后是每个观测属于各类的后验概率的公式:PosteriorProbabilityofMembershipineachCROP:Pr(j|X)=exp(-.5D2j(X)/SUMkexp(-.5D2k(X)下面就是每个观测

41、的判别情况,包括原来属于哪一类(FromCROP),分入了哪一类(ClassifiedintoCROP),以及属于各类的后验概率值。有星号的为错判的观测。PosteriorProbabilityofMembershipinFromClassifiedCROPintoCROPCLOVERCORNCOTTONSOYBEANSSUGARBEETS16273133CORNCORN0.08940.40540.17630.23920.089715233030CORNCORN0.07690.45580.14210.25300.072216272726CORNCORN0.09820.34220.13650.3

42、0730.115718202523CORNCORN0.10520.36340.10780.32810.095515153132CORNCORN0.05880.57540.11730.20870.039815323215CORNSOYBEANS*0.09720.32780.13180.34200.101112151673CORNCORN0.04540.52380.18490.13760.108320232325SOYBEANSSOYBEANS0.13300.28040.11760.33050.138524242532SOYBEANSSOYBEANS0.17680.24830.15860.2660

43、0.150221252324SOYBEANSSOYBEANS0.14810.24310.12000.33180.157027452412SOYBEANSSUGARBEETS*0.23570.05470.10160.27210.335912131542SOYBEANSCORN*0.05490.47490.09200.27680.101322323143SOYBEANSCOTTON*0.14740.26060.26240.18480.144831323334COTTONCLOVER*0.28150.15180.23770.17670.152329242628COTTONSOYBEANS*0.252

44、10.18420.15290.25490.155934322845COTTONCLOVER*0.31250.10230.24040.13570.209126252324COTTONSOYBEANS*0.21210.18090.12450.30450.178053487526COTTONCLOVER*0.48370.03910.43840.02230.016634352578COTTONCOTTON0.22560.07940.38100.05920.254822232542SUGARBEETSCORN*0.14210.30660.19010.22310.138125252426SUGARBEET

45、SSOYBEANS*0.19690.20500.13540.29600.166734251652SUGARBEETSSUGARBEETS0.29280.08710.16650.14790.305654232154SUGARBEETSCLOVER*0.62150.01940.12500.04960.184525433215SUGARBEETSSOYBEANS*0.22580.11350.16460.27700.21912654254SUGARBEETSSUGARBEETS0.08500.00810.05210.06610.788712453254CLOVERCOTTON*0.06930.2663

46、0.33940.14600.178924582534CLOVERSUGARBEETS*0.16470.03760.16800.14520.484587546121CLOVERCLOVER0.93280.00030.04780.00250.016551313116CLOVERCLOVER0.66420.02050.08720.09590.132296485462CLOVERCLOVER0.92150.00020.06040.00070.017331311111CLOVERSUGARBEETS*0.25250.04020.04730.30120.358856131371CLOVERCLOVER0.

47、61320.02120.12260.04080.202332132732CLOVERCLOVER0.26690.26160.15120.22600.094336265432CLOVERCOTTON*0.26500.26450.34950.09180.029253080654CLOVERCLOVER0.59140.02370.06760.07810.239232326216CLOVERCOTTON*0.21630.31800.33270.11250.0206*Misclassifiedobservation下面给出了训练数据判别的概况,先写出了广义平方距离的公式和属于每一类的后验概率的公式(略)

48、,然后是每一类判入各类的个数和百分比:DiscriminantAnalysisClassificationSummaryforCalibrationData:WORK.CROPSResubstitutionSummaryusingLinearDiscriminantFunctionNumberofObservationsandPercentClassifiedintoCROP:FromCROPCLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalCLOVER603021154.550.0027.270.0018.18100.00CORN0601070.0085.710.

49、0014.290.00100.00COTTON30120650.000.0016.6733.330.00100.00SOYBEANS0113160.0016.6716.6750.0016.67100.00SUGARBEETS11022616.6716.670.0033.3333.33100.00Total10858536Percent27.7822.2213.8922.2213.89100.00Priors0.30560.19440.16670.16670.1667比如,CLOVER一共有11个观测,正确判别的为6个,占54.55%,有3个错判为COTTON(棉花),2个错判为SUGARBEE

50、TS(甜菜)。最后一行为各类的先验概率。下面为各类的错判率(把某类错判为其它类的次数百分比):ErrorCountEstimatesforCROP:CLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalRate0.45450.14290.83330.50000.66670.5000Priors0.30560.19440.16670.16670.1667可见识别最好的是玉米,最差的是棉花。下面是对训练数据集进行交叉核实判别的情况。交叉核实的想法是,为了判断观测i的判别正确与否,用删除第i个观测的训练数据集算出判别准则(函数),然后用此判别函数来判别第i观测。对每一观测都进

51、行这样的判别。结果先写出了广义平方距离函数,这里因为建立判别准则时不使用要判别的观测,所以公式中用了表示除去了X所在观测后的第j组的均值,用表示除去X所在观测后得到的合并协方差阵估计。DiscriminantAnalysisClassificationSummaryforCalibrationData:WORK.CROPSCross-validationSummaryusingLinearDiscriminantFunctionGeneralizedSquaredDistanceFunction:_-1_D2j(X)=(X-X(X)j)COV(X)(X-X(X)j)-2lnPRIORjPost

52、eriorProbabilityofMembershipineachCROP:Pr(j|X)=exp(-.5D2j(X)/SUMexp(-.5D2k(X)k后面是对各类交叉核实判别的概况。FromCROPCLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalCLOVER431031136.3627.279.090.0027.27100.00CORN0412070.0057.1414.2928.570.00100.00COTTON30021650.000.000.0033.3316.67100.00SOYBEANS0113160.0016.6716.6750.0016.6

53、7100.00SUGARBEETS21021633.3316.670.0033.3316.67100.00Total9939636Percent25.0025.008.3325.0016.67100.00Priors0.30560.19440.16670.16670.1667这一次11个苜蓿的观测只判对了4个。下面是用交叉核实计算的各类的错判率:ErrorCountEstimatesforCROP:CLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalRate0.63640.42861.00000.50000.83330.6667Priors0.30560.19440.

54、16670.16670.1667这时错误最少的玉米也有42.86%的错判率。现在假设我们有若干遥感数据放在了数据集TEST中,实际是已知作物类型的(在变量CROP中),但是我们假装不知道,然后用上面建立的线性判别函数(已保存在CROPSTAT数据集中)对这些遥感数据进行判别,这样可以得到比较客观的判别效果的评价。下面程序中用DATA=指定了判别函数数据集(由上一次的DISCRIM过程产生),用TESTDATA=选项指定了检验数据集名,用TESTOUT=选项指定了检验数据集判别结果的输出数据集,用TESTLIST要求列出检验结果。datatest;inputcrop$x1-x4;cards;CO

55、RN16273133SOYBEANS21252324COTTON29242628SUGARBEETS54232154CLOVER32326216;procdiscrimdata=cropstattestdata=testtestout=touttestlist;classcrop;testclasscrop;varx1-x4;run;procprintdata=tout;run;结果列出了每个观测的判别结果和判入每类的后验概率,因为我们知道真实分类,所以结果中有一项是“FromCROP”,如果不知道真实分类则只能给出判入的类(ClassifiedintoCROPP)。DiscriminantA

56、nalysisClassificationResultsforTestData:WORK.TESTClassificationResultsusingLinearDiscriminantFunctionPosteriorProbabilityofMembershipinCROP:XVALUESFromClassifiedCROPintoCROPCLOVERCORNCOTTONSOYBEANSSUGARBEETS16273133CORNCORN0.08940.40540.17630.23920.089721252324SOYBEANSSOYBEANS0.14810.24310.12000.331

57、80.157029242628COTTONSOYBEANS*0.25210.18420.15290.25490.155954232154SUGARBEETSCLOVER*0.62150.01940.12500.04960.184532326216CLOVERCOTTON*0.21630.31800.33270.11250.0206下面给出了各类的判别概况(略)。下面列出了错判的百分比。ErrorCountEstimatesforCROP:CLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalRate1.00000.00001.00000.00001.00000.6389

58、Priors0.30560.19440.16670.16670.1667可见错判率很高(总错判率达63.89)。(三)Stepdisc过程说明Stepdisc,逐步判别分析,是一个变量的筛选过程,筛选出重要的变量,则过程结束;可调用DISCRIM过程并用筛选出的重要变量进行判别分析。SPSS部分判别分析在SPSS中的实现较为简单,因为有现成的窗口菜单操作,在SPSS主菜单中选择AnalyzeClassifyDiscriminant,可实现判别分析。SPSS软件处理结果的解释可参见SAS部分的相关内容。判别分析在写作中的应用从“中国期刊网”上查阅相关文章,掌握判别分析在写作中的应用。第三章主成分

59、分析一、实验目的与要求1.通过上机操作使学生掌握主成分分析方法在SAS和SPSS软件中的实现,熟悉主成分分析的用途、目的,掌握如何判断主成分分析的适用条件,能正确选择适当的主成分;2.要求学生能正确解释软件处理的分析结果;3.要求学生阅读一定数量的文献资料,掌握主成分分析方法在写作中的应用。二、实验内容与步骤现实中的统计对象经常用多个指标来表示,比如人口普查,就可以有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、地区等;企业调查,可以有净资产、负债、盈利、职工人数、还贷情况等等。多个指标(变量)可以分别进行分析,但是,我们往往希望综合使用这些指标,这时用主成份分析、因子分析等方法可以

60、把数据的维数降低,同时又尽量不损失数据中的信息。主成份分析的目的是用原始的多个变量做若干线性组合,并尽可能多地保留原始变量中的信息。从原始变量到新变量是一个正交变换(坐标变换)。为了减少变量的个数,希望前几个主成分就可以代表原变量的大部分信息。定义为第K个主成份的贡献率,称为前m个主成份的累计贡献率。一般取m使得累计贡献率达到70%80%以上。前个主成份在的m个线性组合中能对最好地线性逼近。SAS部分(一)用PRINCOMP过程进行主成份分析1.SAS中的PRINTCOMP过程有如下功能:(1)完成主成份分析。(2)主成份的个数可以由用户自己确定,主成份的名字可以由用户自己规定,主成份得分是否

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论