多元统计关于社会经济案例的聚类分析_第1页
多元统计关于社会经济案例的聚类分析_第2页
多元统计关于社会经济案例的聚类分析_第3页
多元统计关于社会经济案例的聚类分析_第4页
多元统计关于社会经济案例的聚类分析_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连民族学院数学实验报告课程:多元统计分析实验题目:关于社会经济案例的聚类分析系别:理学院专业:信息与计算科学姓名:历红影班级:信息102班指导教师:滕颖俏完成学期:2013年4月26日实验目的:1.通过本次上机,掌握利用SPSS进行聚类分析;2.加深对聚类分析的理解,学会用聚类分析解决现实生活中的问题;3.学会利用最长距离法等多种方法进行聚类分析并对其进行比较。实验内容:(问题、数学模型、要求、关键词)城镇居民消费水平通常用表1中的八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。原始数据列于表1。表12005年31个省、直辖市、自治区城镇区民月平均消费数据x1人均粮食支出(元/人)x5人均衣着支出(元/人)x2人均副食支出(元/人)x6人均日用杂品支出(元/人)x3人均烟、酒、饮料支出(元/人)x7人均水电燃料支出(元/人)x4人均其他副食支出(元/人)x8人均其他非商品支出(元/人)x1x2x3x4x5x6x7x8北京21.30124.8935.4373.9893.0120.5843.97433.73天津21.50122.3929.0851.6455.0411.3054.88288.13河北18.2590.2124.4532.4462.487.4547.50178.84山西21.8466.3818.0531.3274.488.1934.97177.45内蒙古21.3767.0820.2835.2781.0710.9439.46182.20辽宁22.74115.8828.2142.4458.079.6348.65194.85吉林20.2288.9418.5435.6365.728.8150.29186.52黑龙江21.3375.5014.0029.5669.298.2442.08165.90上海21.13168.6940.8170.1274.3215.4650.90422.74江苏18.61122.5127.0742.5063.4715.3836.14240.92浙江19.96142.2443.3350.74101.7712.9253.44394.55安徽19.61107.1332.8535.7761.347.5334.60142.23福建25.56171.6522.3040.5357.1312.6054.03225.08江西18.75104.6815.5535.6151.8011.1836.27142.72山东18.2788.3419.0743.1972.9812.5942.16200.18河南19.0773.1818.0129.3864.518.9138.14155.45湖北18.76102.6721.8730.4764.3311.9942.14168.17湖南20.25104.4520.7238.1562.9812.6739.16213.56广东23.68173.3017.4343.5953.6616.8665.02385.94广西18.70131.3511.6932.0641.5410.8442.77178.51海南16.16139.9212.9823.5824.8710.7632.35144.21重庆18.18120.3926.1837.9468.1611.6438.48246.37四川18.53109.9521.4933.0450.9810.8833.96183.85贵州18.3392.4325.3832.1956.3214.0038.57144.82云南22.3099.0833.3632.0152.067.0432.85190.04西藏29.67146.9064.5154.3686.1014.7732.19193.10陕西20.0370.7519.7534.9553.2910.5538.20189.41甘肃18.6872.7423.7238.6962.419.6535.26170.12青海20.3375.6420.8833.8653.8110.0632.82171.32宁夏19.7570.2418.6736.7161.7510.0840.26165.22新疆21.0378.5514.3534.3364.989.8333.87161.67实验方法和步骤(包括数值公式、算法步骤、程序):将原始数据录入SPSS,并依次点击Analyze->Correlate->Bivariate,打开BivariateCorrelations对话框,把八个变量选入Variables栏中,单击“OK”,得到这八个指标对应的相关系数,列于表2。下面采用欧氏距离,分别运用类平均法、最短距离法、最长距离法,对31个省、直辖市、自治区分类。类平均法聚类在SPSS中的操作为:点选“Analyze”→“Classify”→“HierarchicalCluster”,打开HierarchicalClusterAnalysis对话框,将八个聚类指标选入Variables栏中,将表示地区的变量选入LabelCasesBy栏中,按“Plots”按钮,在弹出的窗口中选中Dendrogram(谱系图)选项,按“Continue”返回主对话框,在按“Method”按钮,在ClusterMethod下拉菜单中选择Between-groupslinkage(组间连接法,即类平均法)选项,返回主对话框后按“OK”即可得到聚类结果,结果见图2。最短距离法操作步骤与类平均法一样,只不过要在ClusterMethod下拉菜单中选择NearestNeighbo选项,结果见图3。最长距离法操作步骤与类平均法一样,只不过要在ClusterMethod下拉菜单中选择NearestNeighbor选项,结果见图4。分别显示了三种方法的分类结果。为便于对照,将三种方法分类的结果综合列于图5。实验数据和分析:表2相似性系数(相关系数)矩阵表2中最大的相关系数为r4,8=0.837,将G4和G8并成一新类G9,然后计算G9与各类的相关系数,再找最大的相关系数,每次缩小一类,得到图1。我们可以看出全国城镇居民得消费结构大致可以分为三个方面,一类是各种副食、日用品及交通通信、文化教育和住房等支出,这是在消费结构中起主导作用的方面;其次是居民购买烟、酒、饮料及着装支出;粮食和水电燃料是两项很重要的消费指标,但目前在城镇居民的消费中占的比例较小,可将它们归并为同一类。图1城镇居民消费指标聚类图下面我们对31个省进行聚类分析,得到不同方法的聚类结果。图1类平均法谱系图图2最短距离法谱系图图3最长距离法谱系图图5:三个方法结果比较表序号地区类平均距离法标号最短距离法标号最长距离法标号1北京1112天津2223河北3234山西3235内蒙古3236辽宁3237吉林3238黑龙江3239上海11110江苏22211浙江11112安徽32313福建22214江西32315山东32316河南32317湖北32318湖南32319广东11120广西32321海南32322重庆22223四川32324贵州32325云南32326西藏22227陕西32328甘肃32329青海32330宁夏32331新疆323由图可直观看出,类平均法分为三类:{1,9,11,19}为第一类,{13,2,22,10}为第二类,其他为第三类;最短距离法分为两类,{1,9,11,19}为一类,其余的省市归为一大类;最长距离法也分为三类:{1,9,11,19}为第一类,{10,22,2,13,26}为第二类,其余的省市为第三类。很显然,这三种方法的分类效果是有差异的。那么究竟采用哪一种分类为好呢?一种方法是根据分类问题本身的知识来决定取舍。另一种方法是将几种方法的共性取出来,有争议的样品根据其实际情况再划分。综合考虑这两点,笔者认为从全国各省、市、区的消费情况来看,分为三类较为合适。由分类结果可以看出,类平均法和最长距离法的分类结果基本上一致,只是在西藏应该划入第二类还是第三类上存在差异,从表3—5的实际情来看,西藏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论