统计软件课程设计_第1页
统计软件课程设计_第2页
统计软件课程设计_第3页
统计软件课程设计_第4页
统计软件课程设计_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、东北大学秦皇岛分校统计软件课程设计报告鸢尾花亚属类型的判别分析学 院数学与统计学院专 业学 号5122121姓 名殷晓娟指导教师马世美 张子选成 绩教师评语:指导教师签字: 2014年7月6日 数学与统计学院课程设计报告 第 11 页1 绪 论1.1 课题的背景鸢尾花为法国的国花,是一类具有较高观赏价值的多年生草本植物。鸢尾属花卉属于鸢尾科,setosa、versicolor和virginica是三种有名的鸢尾花。1935年,埃德加·安德森(EdgarAnderson)从加拿大加斯帕半岛上的鸢尾属花朵中提取的地理变异数据(Anderson,E.,1935),并在统计学上形成了一类多重

2、变量分析的Fisher鸢尾花数据集。每个样本含有四个特征,它们分别是花萼和花瓣的长度和宽度,这些特征可被用作样本的定量分析。基于这四个特征的集合,罗纳德·费雪(RonaldAylmerFisher)作为判别分析的一个例子,发展了一个线性判别分析以确定其属种(Fisher,R.A,1936)。由此,该数据集被广泛运用到统计学中。1.2 SAS简介SAS(Statistics Analysis System)是世界上最著名的统计分析系统之一,具有完备的数据访问、管理、分析和呈现功能,被誉为国际标准统计分析系统。1966年它最初由美国北卡罗莱纳州立大学(North

3、60;Carolina State University)的两位生物统计学研究生编制而成。1976年正式成立SAS软件研究所,开始SAS系统的开发、维护、销售和培训工作,真正实现了这一软件的商业化。SAS内含30余个模块,功能上覆盖了包括医药、金融等各行各业数据管理和数据分析的各个应用领域。就常见的统计分析任务而言备选的一个专门模块是SAS/STAT。它主要包括:方差分析、回归分析、属性数据分析、非参数分析、多变量分析、判别分析、聚类分析、生存分析、得分方法等近70个过程,从而组成了一个庞大而完整的统计方法集2。1.3 判别分析法简述 判别分析是用于判断样品所属类型的一种统

4、计分析方法。在生产、科研和日常生活中经常遇到如何根据观测到的数据资料对所研究的对象进行判别归类的问题。判别分析是应用性很强的一种多元统计方法,已渗透到各个领域。常用的判别分析方法有距离判别法、贝叶斯判别法和费希尔判别法。1.3.1 距离判别法 马氏距离:设总体G为m维总体(考察m个指标),均值向量为,协方差阵为=(ij),则样品X=(x1,x2,xm)与总体G的马氏距离定义为 分别计算样品X到两个总体的距离d21(X)和d22(X) (或记为d2(X,G1)和d2(X,G2) ),并按距离最近准则判别归类,即判别准则为:判X G1 , 当d2(X,G1) < d2(X,G2) 时; 判X

5、 G2 , 当d2(X,G1) > d2(X,G2)时;待判, 当d2(X,G1) = d2(X,G2)时。1.3.2 贝叶斯判别法贝叶斯的统计思想总是假定对所研究的对象已有一定的认识,常用先验概率分布来描述这种认识 .然后我们抽取一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布。各种统计推断都通过后验概率分布来进行.将贝叶斯思想用于判别分析就得到贝叶斯判别法。贝叶斯判别准则主要有两种:1按后验概率最大进行归类:X属于第t组的后验概率为 在正态假设下按后验概率最大进行归类的准则,等价于按广义平方距离最小准则进行归类。2按错判平均损失最小进行归类:设有k个总体: ,已知的

6、联合密度函数为,先验概率为(i=1,k),错判损失为L(j|i)。则贝叶斯判别的解为:,其中1.3.3 费希尔判别法费希尔判别的基本思想是投影.将k组m维数据投影到某一个方向,使得投影后组与组之间尽可能地分开。而衡量组与组之间是否分开的方法借助于一元方差分析的思想,利用方差分析的思想来导出判别函数。费希尔判别准则下线性判别函数u(X)=a'X的解a为特征方程的最大特征根所对应的满足的特征向量l1;且相应的判别效率()=1。1.4 课题研究目的依据鸢尾花亚属中典型个体的不同性状特征(花萼和花瓣的长度和宽度),对未知鸢尾花个体进行所属类型的判别分析,以探究距离判别法在鸢尾属的分类中应用。2

7、鸢尾花亚属类型的判别分析2.1 判别分析过程各取setosa、versicolor和virginica三种鸢尾花各45个,通过三种判别分析法分别建立判别准则,然后对剩余的15个研究对象进行判别归类, 数据见参考文献3。2.1.1 距离判别法的实现data dywh; input x1-x4 group $; cards;0.2Iris-setosa4.93.01.40.2Iris-setosa0.2Iris-setosa .4.83.0.73.0.32.55.03

8、.0...5.0.5.73.0.12.53.03.0..0.2.options ps=60 ls=75;proc print data=dywh;run;proc discrim data=dywh simple wcov pcov wsscp psscp distance list; class group; var x1-x4;run;2.1.2 贝叶斯判别法的实现data dywh; input x1-

9、x4 group $; cards;0.2Iris-setosa4.93.01.40.2Iris-setosa0.2Iris-setosa .4.83.0.73.0.32.55.03.0...5.0.5.73.0.12.53.03.0..0.2.proc discrim data

10、=dywh pool=no distance list; class group;* priors '1'=0.33333 '2'=0.33333 '3'=0.33333; var x1-x4;run;quit;2.1.3 费希尔判别法的实现data dywh; input x1-x4 group $; cards;0.2Iris-setosa4.93.01.40.2Iris-setosa0.2Iris-setosa .4.83.0.73.05.

11、2.55.03.0...5.0.5.73.0.12.53.03.0..0.2.proc candisc data=dywh out=canywh1 ncan=2 distance simple; class group; var x1-x4;run;goptions ftext='宋体'symbol1 cv=red v=square h=2;symbol2 cv=

12、blue v=star h=2;symbol3 cv=green v=dot h=2;proc gplot data=canywh1; plot can2*can1 = group;run;proc print data=canywh1;run;proc discrim data=canywh1 distance list; class group; var can1 can2;run;proc discrim data=canywh1 pool=test distance list; class group; var can1 can2;run;quit;2.2 判别结果分析2.2.1 距离

13、判别法结果分析1合并样本组内离差阵和合并样本协方差阵 Pooled Within-Class SSCP MatrixVariable x1 x2 x3 x4 x1 36.91333333 13.27444444 22.80244444 5.31577778 x2 13.27444444 16.00311111 7.53333333 4.75155556 x3 22.80244444 7.53333333 24.65911111 5.91200000 x4 5.31577778 4.75155556 5.91200000 5.87288889 Pooled Within-Class Covari

14、ance Matrix, DF = 132Variable x1 x2 x3 x4 x1 0.2796464646 0.1005639731 0.1727457912 0.0402710438 x2 0.1005639731 0.1212356902 0.0570707071 0.0359966330 x3 0.1727457912 0.0570707071 0.1868114478 0.0447878788 x4 0.0402710438 0.0359966330 0.0447878788 0.044491582 产生的合并样本协方差阵用来计算马氏距离。2三个亚属间的马氏距离Squared

15、Distance to groupFrom group Iris-set Iris-ver Iris-virIris-set 0 88.70237 175.34029 Iris-ver 88.70237 0 16.30151 Iris-vir 175.34029 16.30151 0从表中可以得出setosa和versicolor的马氏距离为88.70237,setosa和virginica的马氏距离为175.34029,versicolor和virginica的马氏距离为16.30151。3线性判别函数的建立Linear Discriminant Function for groupVari

16、able Iris-set Iris-ver Iris-virConstant -79.15786 -68.87393 -99.95391x1 21.36109 14.16542 10.97183x2 22.51153 6.31900 3.16207x3 -14.65479 6.66409 14.40262x4 -17.25156 5.37554 18.46390 从表中可得线性判别函数为:4判别归类结果From ClassifiedObs group into group Iris-set Iris-ver Iris-vir136 Iris-set * 1.0000 0.0000 0.000

17、0137 Iris-ver * 0.0000 0.9999 0.0001138 Iris-set * 1.0000 0.0000 0.0000139 Iris-vir * 0.0000 0.0002 0.9998140 Iris-vir * 0.0000 0.0113 0.9887141 Iris-vir * 0.0000 0.0060 0.9940142 Iris-set * 1.0000 0.0000 0.0000143 Iris-ver * 0.0000 0.9999 0.0001144 Iris-set * 1.0000 0.0000 0.0000145 Iris-set * 1.00

18、00 0.0000 0.0000146 Iris-ver * 0.0000 1.0000 0.0000147 Iris-ver * 0.0000 1.0000 0.0000148 Iris-vir * 0.0000 0.0258 0.9742149 Iris-vir * 0.0000 0.0000 1.0000150 Iris-set * 1.0000 0.0000 0.0000 回判结果给出来自三个亚属的135个样品中除第66,79和124外都判对了;对15个 待判样品的判别结果为:第1,3,7,9,15五个鸢尾花为setosa,第2,8,10,11,12 五 个鸢尾花为versicolor

19、,第4,5,6,13,14五个鸢尾花为virginica。2.2.2 贝叶斯判别法结果分析1三个亚属两两配对的组间广义平方距离Generalized Squared Distance to groupFromgroup Iris-set Iris-ver Iris-virIris-set -12.78404 94.12685 149.85847Iris-ver 293.61733 -10.83147 4.06230Iris-vir 651.43513 5.79169 -8.86466 三个总体的协方差阵不等,故.2判别归类结果From ClassifiedObs group into grou

20、p Iris-set Iris-ver Iris-vir136 Iris-set * 1.0000 0.0000 0.0000137 Iris-ver * 0.0000 0.9994 0.0006138 Iris-set * 1.0000 0.0000 0.0000139 Iris-vir * 0.0000 0.0000 1.0000140 Iris-vir * 0.0000 0.0004 0.9996141 Iris-vir * 0.0000 0.0022 0.9978142 Iris-set * 1.0000 0.0000 0.0000143 Iris-ver * 0.0000 0.999

21、9 0.0001144 Iris-set * 1.0000 0.0000 0.0000145 Iris-set * 1.0000 0.0000 0.0000146 Iris-ver * 0.0000 0.9995 0.0005147 Iris-ver * 0.0000 1.0000 0.0000148 Iris-vir * 0.0000 0.0965 0.9035149 Iris-vir * 0.0000 0.0000 1.0000150 Iris-set * 1.0000 0.0000 0.0000 回判结果给出来自三个亚属的135个样品中除第66,79和124外都判对了;对15个 待判样品

22、的判别结果为:第1,3,7,9,15五个鸢尾花为setosa,第2,8,10,11,12 五 个鸢尾花为versicolor,第4,5,6,13,14五个鸢尾花为virginica。与距离判别法的判别 结果一致。 2.2.3 费希尔判别法结果分析 1典型相关及两个典型变量的A-1B的特征值 Adjusted Approximate SquaredCanonical Canonical Standard CanonicalCorrelation Correlation Error Correlation1 0.984544 0.984189 0.002650 0.9693262 0.451771

23、 0.440073 0.068756 0.204097Eigenvalues of Inv(E)*H = CanRsq/(1-CanRsq)Eigenvalue Difference Proportion Cumulative1 31.6009 31.3444 0.9920 0.99202 0.2564 0.0080 1.0000Likelihood ApproximateRatio F Value Num DF Den DF Pr > F1 0.02441355 174.15 8 258 <.00012 0.79590278 11.11 3 130 <.0001 首先从检验

24、两个典型变量的F统计量判别结果可以看出p值都小于显著性水平所以这两个典型变量存在显著性差异,可以用来讨论总体间的判别问题。 其次,从表中可以看出第一大特征值=31.6009的贡献率达到99.20%,所以用地一个判别函数即可进行很好的判断了。 2Gplot生成的图形图2.1 费希尔判别法Gplot生成图由图也可以看出第一个判别函数就已经能很好的将这些点分类了,显然第二个函数的区分度还很不够。3判别归类结果From ClassifiedObs group into group Iris-set Iris-ver Iris-vir136 ris-set * 1.0000 0.0000 0.00001

25、37 Iris-ver * 0.0000 0.9999 0.0001138 Iris-set * 1.0000 0.0000 0.0000139 Iris-vir * 0.0000 0.0002 0.9998140 Iris-vir * 0.0000 0.0113 0.9887141 Iris-vir * 0.0000 0.0060 0.9940142 Iris-set * 1.0000 0.0000 0.0000143 Iris-ver * 0.0000 0.9999 0.0001144 Iris-set * 1.0000 0.0000 0.0000145 Iris-set * 1.0000 0.0000 0.0000146 Iris-ver * 0.0000 1.0000 0.0000147 Iris-ver * 0.0000 1.0000 0.0000148 Iris-vir * 0.0000 0.0258 0.9742149 Iris-vir * 0.0000 0.0000 1.0000150 Iris-set

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论