判别分析与聚类分析_第1页
判别分析与聚类分析_第2页
判别分析与聚类分析_第3页
判别分析与聚类分析_第4页
判别分析与聚类分析_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、广东金融学院实验报告课程名称: 实验编号及实验名称题目:判别分析与聚类分析系 别姓 名学 号班 级实验地点实验日期实验时数指导教师同组其他成员无成 绩一、 实验目的及要求目的:聚类分析是有了一批样品,不知道它们的分类,甚至墨守成规分成几类都不知道,希望用某种方法把样品进行合理的分类,聚类分析实际上是建立一种分类方法。而判别分析是判断样品所属类型的一种统计方法,希望建立一个准则,对给定的任意一个样品,依据这个准则可以判断它是来自哪个总体。当然,所建判别准则在某种意义上应该是最优的,是产生错判的整合最少。本实验目的是通过使用SAS系统中的Stepdisc和Cluster过程完成判别分析与聚类分析,

2、掌握它们的一般操作方法以及如何结合使用。要求:实验形式(个人);实验学时数4。二、 实验环境及相关情况(包含使用软件、实验设备、主要仪器及材料等)SAS软件三、 实验内容及步骤(包含简要的实验步骤流程)1、 从广发证券下载股票数据并剔除没交易的股票。2、 按人工分类方法对股票分类,分成四类;对以上进行人工分类的变量进行逐步判别分析,剔除一些不显著的多余变量;将逐步判别出来的剩余变量进行判别分析,得出误判率。3、 将上面逐步判别分析的剩余变量进行聚类分析进一步得到新的分类;再将新的分类类进行逐步判别分析,最后把得到的剩余变量进行判别分析。4、 分析人工分类和聚类分析分类的分类效果,即分析他们分别

3、得到的误判率的大小。四、 实验结果(包括程序或图表、结论陈述、数据记录及分析等,可附页) 1、 用univariate过程对数据进行分类,得到price的分位数,见附录1,由图1得到price按分位数分类的结果:第一类:0-6.420;第二类:6.42-9.615;第三类:9.615-15.29;第四类:15.29以上。2、 对所有的变量按人工分好的四类进行逐步判别分析,见附录2,可以看到,通过逐步判别后的剩余变量为var1-var3 var5-var6 var8 var11-var19,剔除掉的变量为var4 var7 var9-var10。3、 将上面第2题的逐步判别分析得到的剩余变量进行

4、判别分析,见附录3,由图3可知,第一类误判概率为64.27%,第二类误判概率为18.58%;第三类误判概率为23.84%;第四类误判概率为34.88%,误判率普遍较高。4、 进行聚类分析:将上面第2题逐步判别分析得到的剩余变量进行聚类分析分类,见附录4,结果见图4、图5。5、 进行逐步判别分析:聚类后的结果进行逐步判别,见附录5,通过逐步判别后的剩余变量为: var1-var3 var5-var6 var8 var14-var19,剔除掉变量var11-var13。6、 再进行一次判别分析:将聚类分析的剩余变量进行判别分析,见附录6,得到第一类的误判概率为0.22%,第二类的误判概率为9.4%

5、;第三类的误判概率为12.12%;第四类并无误判。结论:由以上结果可知,人工分类与聚类分析得到的分类分别进行判别分析时,前者的误判率明显比后者大很多,所以进行聚类分析可以大大减小判别分析的误判率。五、 实验总结(包括心得体会、问题回答及实验改进意见,可附页)经过这次实验,我学会了凡事只需耐心去做,就可以成功,我们要养成一种不怕苦,不怕累的精神。经过这次实验,我觉得聚类分析操作上有点难度,并且要细心观察结果才能得出可靠信息,从而为下一步的判别分析打下基础。而在判别分析中,可以对聚类分析得到的类数进行分类讨论,通过总误判率的大小来选定最适合的分类方法,当然,详细的对象调整还是在聚类分析的聚类图中,

6、而且也要结合实际情况来判断。六、 教师评语评语评语等级优良中及格不合格1.实验态度认真,实验目的明确2.实验方案、程序设计合理3.实验过程(实验步骤详细,记录完整,数据合理)4.实验结论正确,分析透彻5.实验报告独立完成,无抄袭现象,并按时提交,格式规范,文字叙述流畅,逻辑性强综合评定:附录:1、 进行描述性统计量分析,对现价进行分位数分类程序:data lwh; set lwh;if price>0;run;proc univariate data=lwh;var price;run;运行结果: 图1 输出现价分位数2、 将人工分类做逐步判别分析的程序:data lwh;set lwh

7、;if price<6.42 then l=1;if price>6.42 and price<9.615 then l=2;if price>9.615 and price<15.29 then l=3;if price>15.29 then l=4;run;data lwh;set lwh;drop price;run;proc stepdisc data=lwh;class l;run;运行结果:图2逐步判别分析的剩余变量和剔除变量3、判别分析的程序:proc discrim data=lwh outstat=newstat method=normal

8、 pool=yes listcrossvalidate;class l;priors proportional;var var1-var3 var5-var6 var8 var11-var19;run;运行结果:图3 人工分类剩余变量的判别分析结果4、聚类分析程序:proc aceclus data=lwh out=ace p=0.03 noprint;var var1-var3 var5-var6 var8 var11-var19;run;proc cluster data=ace outtree=Tree method =wardccc pseudo print=15;var var1-v

9、ar3 var5-var6 var8 var11-var19;id code;run;proc tree data=Tree out=new nclusters=4 graphics haxis=axis1 horizontal;height _rsq_;copy var1-var3 var5-var6 var8 var11-var19;id code;run;运行结果:图4聚类分析的结果图5 谱系聚类图 5、根据聚类的分类进行逐步判别程序:proc stepdisc data=new;class cluster;run;运行结果:图6聚类剩余变量的逐步判别6、对按聚类分类的逐步判别后的剩余变量,进行判别分析程序:proc discrim data=new outstat=newstat method

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论