多元统计分析(聚类分析).doc_第1页
多元统计分析(聚类分析).doc_第2页
多元统计分析(聚类分析).doc_第3页
多元统计分析(聚类分析).doc_第4页
多元统计分析(聚类分析).doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用多元统计分析第五章 聚类分析 主讲:孔 幸 组员:杨海生 王晶晶 田艳霞 龚禄娃第五章 聚类分析习题5.8试使用系统聚类法和K-均值法分别对这些地区进行聚类分析,并对结果进行比较分析。将数据导入SPSS,分析得到以下结果:5.8.1 系统聚类分析(类平均法)1.系统聚类分析树状图使用平均联接(组间)的树状图重新调整距离聚类合并图5.8-1系统聚类法树状图如图5.8-1所示,选择的聚类方法为类平均法,计算距离的方法(或相似性的度量方法)为欧氏距离平方。从树状图可见,将16个地区分成4类:第一类:上海,经济相对发达地区,农民每人平均生活消费支出情况的六个经济指标相对于16个地区来说都比较大,说明上海农民的平均生活消费水平在16个地区中最高的。第二类:北京和浙江,经济中上等地区,农民每人平均生活消费支出的六个经济指标相对于其他的13个地区(除上海外)都比较高,说明北京和浙江地区农民的平均生活消费水平在16个地区中属于中上等水平。第三类:天津、江苏、辽宁、福建、江西、安徽、内蒙古、黑龙江和吉林,经济中等地区,这7个地区农民的平均生活消费水平在16个地区中属于中等水平。第四类:河北、河南、山西和山东,经济中下等地区,这4个地区农民的平均生活消费水平在16个地区中中下等水平,即在16个地区中是相对较低的。5.8.2 K-均值法通过上述的系统聚类分析(类平均法)我们发现,16个地区农民的平均生活消费水平可以分成4类,因此,我们运用K-均值法做快速聚类分析时,将16个地区聚成的类数设定为4类。在SPSS中的运行结果解释具体如下:1.首先分析方差分析表,见表5.8-1表5.8-1 方差分析表聚类误差FSig.均方df均方df食品5127.237396.7841252.9760.000衣着100.666328.916123.4810.050燃料24.794311.122122.2290.137住房3015.5423124.8621224.1510.000交通和通讯341.567360.105125.6830.012娱乐教育文化4.53932.555121.7770.205从表5.8-1中可见,聚成的四类在食品、衣着、燃料、住房、交通和通讯以及娱乐教育文化六个经济指标的均值间无差异的原假设下,出现目前值或更极端值的概率分别为0.000、0.050、0.137、0.000、0.012和0.205,故变量食品、衣着、住房以及交通和通讯在分类过程中均在统计学上有显著性意义(P=0.000、0.050、0.000和0.012都小于或等于0.05),而燃料和娱乐教育文化变量无统计学上的显著性意义(P=0.137和0.205大于0.05),因此,有必要在剔除燃料和娱乐教育文化变量后重新做聚类分析。剔除燃料和娱乐教育文化后重新做的聚类分析结果解释如下:2.迭代过程分析表5.8-2 迭代过程中类中心得变化量迭代聚类中心内的更改1234115.3050.00012.19522.66420.0000.0000.0000.000表5.8-2显示了迭代过程的基本情况,它表明迭代到第二次时,类中心点已没有太大变化达到收敛。3.给出个观测量所属的类及与所属类中心的距离表5.8-3 各观测量所属类成员表地区聚类距离地区聚类距离北京115.305上海20.000天津424.186江苏417.877河北312.195浙江115.305山西311.569安徽411.564内蒙古418.423福建410.319辽宁414.599江西413.464吉林422.664山东319.847黑龙江312.010河南36.823表5.8-3中聚类列给出了观测量所属的类别,距离列给出了观测量与所属类中心的距离。4.给出聚类结果形成的中心的各变量值表5.8-4 最终的类中心表聚类1234食品180.13221.11106.65141.78衣着38.1738.6426.2328.15住房53.83115.6519.9825.09交通和通讯41.6850.8223.426.01结合表5.8-3和表5.8-4,我们可以看出16个地区被分成4类,第一类包括:北京和浙江,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为180.13、38.17、53.83和41.68,这类地区农民每人平均生活消费水平在16个地区中属于中上等。第二类为上海,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为221.11、38.64、115.65和50.82,上海农民每人平均生活消费水平在16个地区中属于最高的。第三类包括:河北、山西、黑龙江、山东和河南,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为106.65、26.23、19.98和23.4,这类地区农民每人平均生活消费水平在16个地区中属于中等。第四类包括:天津、内蒙古、辽宁、吉林、江苏、安徽、福建和江西,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为141.78、28.15、25.09和26.01,这类地区农民每人平均生活消费水平在16个地区中是相对较低的。5.给出分类变量的方差分析表表5.8-5 方差分析表聚类误差FSig.均方df均方df食品5127.237396.7841252.9760.000衣着100.666328.916123.4810.050住房3015.5423124.8621224.1510.000交通和通讯341.567360.105125.6830.012表5.8-5给出了分类变量的方差分析表,从表中可见用来聚类的4个变量食品、衣着、住房以及交通和通讯在分四类过程中,均有统计学上的显著性意义(P=0.000、0.050、0.000和0.012都小于或等于0.05),表明用这4个变量将16各地区分成四类的快速聚类过程是成功的,聚类效果有统计学意义。综上所述,将我国16个地区农民支出情况的抽样调查数据通过系统聚类分析和K-均值法聚类分析可以看出,运用这两种方法分析得出的结果基本上一致,但是也有两点不同:(1)在系统分类法分析的结果中,将黑龙江地区与天津、内蒙古和江西等地区归为一类,而在K-均值法聚类分析结果中,将黑龙江地区与河南、河北、山东和山西等地区归为一类。(2)在系统分类法分析的结果中,将上海地区分成第一类,北京和浙江地区分成第二类,天津、内蒙古和江西等地区分成第三类,河南、河北、山东和山西等地区分成第四类;而在K-均值法聚类分析结果中,北京和浙江地区分成第一类,上海地区分成第二类,河南、河北、山东和山西等地区分成第三类,天津、内蒙古和江西等地区分成第四类。习题5.9试利用两种不同的聚类法对城市进行聚类分析。将数据导入SPSS,分析得到以下结果:5.9.1系统聚类分析(类平均法)1. 系统聚类分析树状图使用平均联接(组间)的树状图重新调整距离聚类合并图5.9-1 系统聚类法树状图如图5.9-1所示,选择的聚类方法为类平均法,计算距离的方法(或相似性的度量方法)为欧氏距离平方。从树状图可见,将34个我国部分省会城市和计划单列市分成4类:第一类:深圳,经济较发达城市。第二类:重庆和成都,经济中等城市第三类:上海和广州,经济中上等城市第四类:长春、南昌、哈尔滨、昆明、石家庄、兰州、西宁、南宁、太原、银川、乌鲁木齐、合肥、福州、海口、贵阳、郑州、西安、沈阳、长沙、济南、青岛、武汉、杭州、宁波、南京、天津、大连、北京和厦门。经济中下等城市。5.9.2系统聚类分析(中间距离法)1.系统聚类分析树状图使用中位数联接的树状图重新调整距离聚类合并图5.9-2 系统聚类法树状图如图5.9-2所示,选择的聚类方法为中间距离法,计算距离的方法(或相似性的度量方法)为欧氏距离平方。从树状图可见,将34个我国部分省会城市和计划单列市分成4类:第一类:深圳,经济较发达城市。第二类:重庆和成都,经济中等城市。第三类:杭州、宁波、南京、天津、沈阳、长沙、青岛、济南、武汉、大连、北京、厦门、上海和广州。经济中上等城市。第四类:长春、南昌、哈尔滨、昆明、石家庄、兰州、西宁、南宁、太原、银川、乌鲁木齐、合肥、福州、海口、贵阳、郑州、和西安。经济发展相对缓慢城市。综上所述,通过运用两种不同的系统聚类法(类平均法和中间距离法)对城市进行聚类分析,我们可以看

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论