




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数理统计(课程大作业2)聚类和判别分析学院:机械工程学院专业:材料加工工程日期:2014年12月22日摘要:本文介绍聚类与判别方法,然后结合实际,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。关键字:经济类型SPSS聚类分析判别分析1引言中华人民共和国成立后,通过有计划地进行大规模的社会主义建设,中国已成为世界上最具有发展潜力的经济大国之一,人民生活总体上达到小康水平。按预定计划,到2010年,中国将建立起比较完善的社会主义市场经济体制;到2020年,建立起比较成熟的社会主义市场经济体制。但是,我国的经济发展还不太均衡,地区性差异十分显著,尤其是东西部发展十分不同步。近年来,这种不均衡引起了人们的注意。新中国成立至1978年的30年间,中国政府一直致力于平衡发展战略,各种投资政策和财政支付转移明显地向边远和落后地区倾斜,然而效果不佳,付出的代价非常大。自1978年实行改革开放以后,中国政府在区域经济发展战略上来了一个大转变,从平衡发展战略转向不平衡发展战略,优先发展沿海地区,发展和开放的政策明显向沿海地区倾斜,使得沿海地区得以迅速发展起来,也迅速地拉大了沿海与内地的经济发展差距.从地区生产总值来看,2003年广东省为13626亿元,约相当于3个湖南(4639亿元)或10个贵州(1365亿元)或35个青海(390亿元).从人均地区生产总值来看,2003年浙江为20147亿元,3倍于江西(6678元),4倍于甘肃,5.6倍于贵州。本文就是在这样的背景下提出来的,使用SPSSStatistics19.0这一统计软件,利用国家统计局公布的《中国统计年鉴2013》中提供的2012年我国各地区经济发展的数据,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。2数据采集本文数据来源于《中国统计年鉴2013》,具体数据见表1表SEQ表格\*ARABIC1源数据地区居民消费水平(元)社会固定资产投资(亿元)人均地区生产总值(元)政府消费支出(亿元)城镇居民人均总收入(元/人)北京30349.56112.4874754451.836468.75天津22984.07934.8931731698.729626.41河北10749.419661.3365843272.720543.44山西10829.08863.3336281605.420411.71内蒙古15195.511875.7638862466.923150.26辽宁17998.721836.3566492178.823222.67吉林12276.39511.5434151566.220208.04黑龙江11600.89694.7357112812.717759.75上海36892.95117.6853732807.340188.34江苏19452.330854.2683477329.029676.97浙江22844.717649.4633744013.334550.30安徽10977.715425.8287921876.321024.21福建16143.912439.9527631854.828055.24江西10572.910774.2288001560.519860.36山东15095.031256.0517685960.325755.19河南10380.321450.0314993584.020442.62湖北12283.015578.3385722897.320839.59湖南11739.514523.2334802397.721318.76广东21823.318751.5540956241.830226.71广西10519.59808.6279521612.221242.80海南10634.52145.432377448.320917.71重庆13655.48736.2389141389.322968.14四川11280.217040.0296082831.420306.99贵州8372.05717.8197101039.718700.51云南9781.67831.1221951763.221074.50西藏5339.5670.522936289.618028.32陕西11852.212044.5385641944.920733.88甘肃8542.05145.0219781131.917156.89青海10289.11883.433181410.217566.28宁夏12120.42096.936394404.219831.41新疆10675.16158.8337961891.817920.68三聚类分析3.1聚类分析过程首先将数据导入SPSS中,并剔除待分析的河北、浙江、新疆三省数据。表3所示的为聚类分析的汇总结果:表3案例处理汇总案例有效缺失总计N百分比N百分比N百分比28100.00.028100.0a.平方Euclidean距离已使用b.平均联结(组之间)从表3中可以看到28个样本的数据全都有效,均用于系统聚类分析过程。表中列出了有效样本、缺失样本和样本总数的个数和百分数。表4显示的是样本的凝聚过程。对本文选取的28个样本,系统进行了27步分析,并在每一步中给出了凝聚过程中两类之间的相关系数。表4聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集2112183568152.1640011210214789624.428009322267892087.3840084192712067895.8150075152513591635.444001263714116255.33200147192819190996.70840198222321666276.49630139101623240192.30820111062030411453.520001211101241848265.89691161261542054641.6151051413222453920958.1018023143654768430.05261219151864763844.618002216101481191025.397110201751796231017.5220018185111.141E817021193191.218E814720203101.515E819162321451.868E80182522122.597E815027233222.667E8201326249133.113E8002525493.780E821242626341.133E923252727133.450E922260表4所列各项的意义如下:阶——聚类步骤号;群集组合——在某步中合并的个案;系数——距离或相似系数;首次出现阶群集——新生成聚类;下一阶——对应步骤生成的新类将在第几步与其它个案或新类合并。从中可以看出聚类的进度和类详细合并的步骤。可以从表中看出,第12和第18个样本最先进行了聚类,样本间的距离为3568152.164。表5显示的是聚类后的集群成员:表5群集成员案例群集1:北京12:天津13:山西24:内蒙古35:辽宁36:吉林27:黑龙江28:上海19:江苏310:安徽211:福建312:江西213:山东314:河南215:湖北216:湖南217:广东318:广西219:海南220:重庆221:四川222:贵州223:云南224:西藏225:陕西226:甘肃227:青海228:宁夏2从表5可以看到系统聚类分析的最终结果为:北京市、天津市、上海市属于第一类,内蒙古、辽宁省、江苏省、福建省、山东省、广东省被分为第三类,其他省、直辖市、自治区被分为第二类。图1为垂直冰柱图,形状类似于冬天屋檐上垂下的冰柱,因此得名。横轴:案例(Case)表示被聚类的对象;纵轴:群集数(Numberofclusters)表示被聚成几类;图1以冰柱图表示聚类分析结果。图中第1列为聚类步骤号,第1行为样本及样本号。图中每一列代表一个冰柱,深色柱代表冰柱的长短。从冰柱的长短变化可以看出聚类的全过程。即如果样本或新类在第n步合并,则在图中第n步以上合并项对应列中用深色填充,没有空格。由于冰柱图是按照聚类的编号进行排列,所以其与聚结表的顺序刚好相反,也就是说聚结表的第一步对应于冰柱图的最后一步。冰柱图一般从表格的最后一行开始观察。最后一行中,类的数目为27,即聚积成27类,其中样本江西和广西用深色柱连接在一起,表示成两个样本聚成一类,其余每个样本构成一类。因此从冰柱图中可以非常清楚地看到,聚成n时类时,各个样本的类归属情况。图1冰柱图图2为聚类分析之后的树状图:图2树状图图2清晰地表示出了聚类的全过程。它将实际的距离按比例调整到0-25的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将和水平线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的样本聚成一类。3.2聚类分析结果总结从上一部分的聚类分析过程可以看出,SPSS软件将本文所采用的数据分为3类,如表6所示:表SEQ表格\*ARABIC6集群地区第一类北京、天津、上海第二类其他省、自治区、直辖市第三类内蒙古、辽宁、江苏、福建、山东、广东北京市、天津市、上海市构成一类。北京、天津作为老牌经济强省,同时也是北方京津冀经济圈的主要经济贡献力量,其在全国经济整体盘面上表现一直相对强劲。上海市作为中国的经济中心,其整体发展水平高于全国其他地市,其在居民消费水平、人均地区生产均值、城镇居民人均总收入等诸多指标中都有着明显的优势。内蒙古由于近几年煤炭等能源生产增长,还有富饶的草原畜牧业,经济发展迅速。而辽宁、江苏、福建、山东、广东这些沿海地区,由于受到改革开放经济政策的影响,经济实力仅次于北京、上海、天津。故以上几个省份被划为一类。其余省市被划分为一类。这些省市中也包括黑龙江省等经济条件较好的省市,但各行业领域发展并不均衡,故将其划入该类中。4判别分析4.1判别分析过程根据聚类分析的结果,将省份分为3类,在SPSS中添加一个新变量G用来表示类别,取值为1、2和3,同时在表中添加了三个个案河北、浙江、新疆,作为待判样本。下面是判别结果相关表格。下表7为参与分析的个案处理的摘要显示,可以看出,共有28个样本作为判别基础数据进入分析。表7分析案例处理摘要未加权案例N百分比有效2890.3排除的缺失或越界组代码39.7至少一个缺失判别变量0.0缺失或越界组代码还有至少一个缺失判别变量0.0合计39.7合计31100.0下表8为分组的统计量统计信息。由下表可以看出一共有3个组,其中第一组3例,第二组19例,第三组6例。同时,下表给出了各组中变量的均值和标准差。表8组统计量G类别均值标准差有效的N(列表状态)未加权的已加权的1居民消费水平30075.46676958.4980833.000社会固定资产投资6388.26671428.7164833.000人均地区生产总值88673.66674035.7900533.000城镇居民人均总收入35427.83335357.3521433.000政府消费支出2985.93331385.2156233.0002居民消费水平10686.62631816.102851919.000社会固定资产投资9417.91585710.441511919.000人均地区生产总值31458.21056544.425491919.000城镇居民人均总收入20020.65631518.894221919.000政府消费支出1661.3158938.749361919.0003居民消费水平17618.11672668.3756566.000社会固定资产投资21168.93338537.0120766.000人均地区生产总值57918.00006708.2528366.000城镇居民人均总收入26681.17333121.5293266.000政府消费支出4338.60002430.3017466.000合计居民消费水平14249.32146810.849482828.000社会固定资产投资11611.38577880.562142828.000人均地区生产总值43258.392920322.599272828.000城镇居民人均总收入23098.67895646.004382828.000政府消费支出2376.94291755.029852828.000下表9为组均值的均等性检验表:表9组均值的均等性的检验Wilks的LambdaFdf1df2Sig.居民消费水平.15369.121225.000社会固定资产投资.5709.437225.001人均地区生产总值.092123.026225.000城镇居民人均总收入.17260.366225.000政府消费支出.5928.615225.001该检验方法的原假设是组均值对应相等,此时各变量间没有显著差异。本例中的各变量的显著性概率均小于0.05,所以拒绝原假设,即认为各变量之间存在显著的差异。下表10为汇聚的组内矩阵表,该表显示了各个变量两两之间的协方差和相关系数。表10汇聚的组内矩阵居民消费水平社会固定资产投资人均地区生产总值城镇居民人均总收入政府消费支出协方差居民消费水平7672426.6603033279.6575216758.8785283078.9181480414.129社会固定资产投资3033279.65738217995.8478001104.6083391896.3046634790.857人均地区生产总值5216758.8788001104.60841140382.873960452.8981465320.179城镇居民人均总收入5283078.9183391896.304960452.8985905955.3771618204.396政府消费支出1480414.1296634790.8571465320.1791618204.3961969279.350相关性居民消费水平1.000.177.294.785.381社会固定资产投资.1771.0065人均地区生产总值.294.2021.000.062.163城镇居民人均总收入.785.226.0621.000.474政府消费支出.381.765.163.4741.000a.协方差矩阵的自由度为25。下表11的协方差矩阵,展示了聚类分析后的各个类的变量两两之间的协方差:表11协方差矩阵G类别居民消费水平社会固定资产投资人均地区生产总值城镇居民人均总收入政府消费支出1居民消费水平48420695.503-9852735.767-27368710.96736940141.4424156123.882社会固定资产投资-9852735.7672041230.7735741544.133-7654132.957-1084074.793人均地区生产总值-27368710.9675741544333-21531547.583-3479584.133城镇居民人均总收入36940141.442-7654132.957-21531547.58328701221.9614071622.683政府消费支出4156123.882-1084074.793-3479584.1334071622.6831918822.3032居民消费水平3298229.5804319615.9809662694.1051680206.960662639.440社会固定资产投资4319615.98032609142.1888424512.8463916161.1194982434.632人均地区生产总值9662694.1058424512.84642829504.9533747667.0591404456.119城镇居民人均总收入1680206.9603916161.1193747667.0592307039.664413414.266政府消费支出662639.4404982434.6321404456.119413414.266881250.3603居民消费水平7120228.6103556875.0652245580.0005590592.9563354119.110社会固定资产投资3556875.06572880575.0517380659.1405922954.67315670819.526人均地区生产总值2245580.0007380659000-76717.8903662392.520城镇居民人均总收入5590592.9565922954.673-76717.8909743945.3074974081.553政府消费支出3354119.11015670819.5263662392.5204974081.5535906366.532合计居民消费水平46387670.6226278134.1481.252E836970857.2075704313.183社会固定资产投资627813458530401569.8588345411.10111060870.150人均地区生产总值1.252E830401569.8584.130E81.003E816762748.823城镇居民人均总收入36970857.2078345411.1011.003E831877365.4555444351.363政府消费支出570431315016762748.8235444351.3633080129.790a.总的协方差矩阵的自由度为27。4.2判别分析结果总结首先,对协方差矩阵的均等性进行箱式检验。下表12为对数行列式表,该表包括各类别和合并组内的对应的秩和对数行列式:表12对数行列式G类别秩对数行列式1.a.b2574.0803580.611汇聚的组内578.557打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。a.秩<3b.案例太少无法形成非奇异矩阵通过表13得出检验结果:表13检验结果a箱的M79.900F近似。3.083df115df2339.325Sig..000对相等总体协方差矩阵的零假设进行检验。a.有些协方差矩阵是奇异矩阵,因此一般程序不会起作用。将相对非奇异组的汇聚组内协方差矩阵检验非奇异组。其行列式的对数为71.701。表14为特征值表:表14特征值函数特征值方差的%累积%正则相关性115.035a94.594.5.9682.878a5.5100.0.684a.分析中使用了前2个典型判别式函数。表15为Wilks表:表15Wilks的Lambda函数检验Wilks'Lambda卡方dfSig.1到2.03378.31310.0002.53314.4944.006该表中各项为Wilks的值、卡方值、自由度和显著性概率。当显著性概率小于0.05时,拒绝原假设,认为组间均值不相等。由表中可以看出,显著性概率均小于0.05,所以认为组间均值不等。表16为标准化的典型判别式函数系数,其中包含了各独立变量对应的判别函数的标准化系数值:表16标准化的典型判别式函数系数函数12居民消费水平-.124-.666社会固定资产投资-.121.880人均地区生产总值.857.199城镇居民人均总收入.737.359政府消费支出-.207.040表17为结构矩阵表,该表内为判别变量与根据函数内相关系数绝对大小排序的标准化公共判别函数变量之间的合并组内相关系数:表17结构矩阵函数12人均地区生产总值.807*.210居民消费水平.605*-.155城镇居民人均总收入.567*.066社会固定资产投资.038.914*政府消费支出.142.662*判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。*.每个变量和任意判别式函数间最大的绝对相关性表18为典型判别式函数系数表,里面列出的是各变量及常数项对应的没有进行标准化的典型判别函数系数:表18典型判别式函数系数函数12居民消费水平.000.000社会固定资产投资.000.000人均地区生产总值.000.000城镇居民人均总收入.000.000政府消费支出.000.000(常量)-11.563-3.051非标准化系数利用上表17,可以得到前两个判别函数的表达式:f1=-11.563,f2=-3.051表18为组质心处的函数值表:表19组质心处的函数G函数1219.107-1.3002-2.201-.29732.4161.592在组均值处评估的非标准化典型判别式函数该表包括对应与表17中两个函数的各类别的函数值。可得:河北:f1=-11.563,f2=-3.051浙江:f1=-11.563,f2=-3.051新疆:f1=-11.563,f2=-3.051可以看出,河北、浙江和新疆的最大值在都在f2判别函数处取得。继续进行判别,将河北、浙江、新疆的分入聚类分析所分出的三个类中。接下来进行进一步的判别分析,采用Fisher判别法。首先来看分类处理的摘要,如表20所示:表20分类处理摘要已处理的31已排除的缺失或越界组代码0至少一个缺失判别变量0用于输出中31下表21显示的为组的先验概率:表21组的先验概率G先验用于分析的案例未加权的已加权的1.33333.0002.3331919.0003.33366.000合计1.0002828.000该表包括各类别和全部对应的先验概率和参与分析的未加权和经过加权的个案数。各类别的先验概率等于1除以类别数。在本文中,类别数等于3,所以各类别的先验概率均等于0.333。然后进行Fisher判别,表22为Fisher线性判别函数的系数表:表22分类函数系数G123居民消费水平-.004-.004-.005社会固定资产投资.000.001.001人均地区生产总值.003.001.002城镇居民人均总收入.011.008.010政府消费支出-.007-.005-.006(常量)-244.062-76.524-137.397Fisher的线性判别式函数利用该表得到3各类别的分类判别函数为:f1=-0.004×居民消费水平+0.003×人均地区生产总值+0.011×城镇居民人均总收入-0.007×政府消费支出-244.062f2=-0.004×居民消费水平+0.001×社会固定资产投资+0.001×人均地区生产总值+0.008×城镇居民人均总收入-0.005×政府消费支出-76.524f3=-0.005×居民消费水平+0.001×社会固定资产投资+0.002×人均地区生产总值+0.010×城镇居民人均总收入-0.006×政府消费支出-13
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《高中校园文化发展》课件
- 《会计实务手工操作》课件
- 《招聘的策略》课件
- 铁路调车工作实训无线调车灯显设备课件
- 铁路工程安全技术石家庄铁路44课件
- 铁路货物运杂费保价费率相关规定课件
- 《GB 15562.1-1995环境保护图形标志 排放口(源)》(2025版)深度解析
- 中世纪文化课件
- 股东资金借用合同范例
- 东阳木雕文化课件
- 二年级科学下册教案 -《3 可伸缩的橡皮筋》 冀人版
- 分析化学第三章酸碱滴定法课件
- 结核病防治知识培训试题带答案
- 心血管疾病医疗质量控制指标(2020年版)
- 培训(微机保护基础)课件
- 《生物冶金》课程教学大纲
- DB22-T 5118-2022 建筑工程资料管理标准
- 工程地质测绘ppt版(共61页)
- 水文地质与工程地质勘察工程地质测绘PPT
- 机组黑启动方案
- 平衡计分卡及战略地图
评论
0/150
提交评论