北航应用数理统计大作业-聚类分析_第1页
北航应用数理统计大作业-聚类分析_第2页
北航应用数理统计大作业-聚类分析_第3页
北航应用数理统计大作业-聚类分析_第4页
北航应用数理统计大作业-聚类分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用数理统计聚类分析与判别分析(第二次作业)学院:姓名:

学号:2013年12月16日

我国各地区居民消费水平的聚类分析和判别分析摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找评价各省份人民消费水平的指标,包括居民消费水平、农村居民消费水平、城镇居民消费水平和居民人均消费四个指标,利用统计软件SPSS综合考虑各指标,对全国各省份进行K-Means聚类分析,利用Fisher线性判别待判城市类型,进一步验证所建模型的有效性。关键字:聚类分析,判别分析,SPSS,居民消费水平1,引言人均消费水平是指一定时期内(月、年)平均每人占有和享受的物质生活资料和服务的数量。它是一个国家整个经济活动成果的最终体现,也是反映人民物质和文化生活需要的满足程度。一个国家的国民生产总值(GNP)除以该国国民人口的总数所得出的商。即指分摊到每个国民份上的国民生产总值的平均值。在经济学上,一般用来衡量或表示一个国家的经济发展程度。经过改革开放后三十多年的长足进展,尽管世界格局在走向多极化的过程中不断呈现出错综复杂、风云变幻的局面,但中国领导人高瞻远瞩,始终不渝地坚持以经济建设为中心,坚持走和平发展的道路,使中国步履稳健、坚定不移地走向世界,融入经济全球化的历史进程之中。中国在为经济全球化作出贡献的同时,也从中获取了巨大的增长动力,中国人民的生活水平和消费水平也在不断提高。2014年全国居民人均可支配收入20167元,比上年增长10.1%,扣除价格因素,实际增长8.0%。按常住地分,城镇居民人均可支配收入28844元,比上年增长9.0%,扣除价格因素,实际增长6.8%;城镇居民人均可支配收入中位数为26635元,增长10.3%。农村居民人均可支配收入10489元,比上年增长11.2%,扣除价格因素,实际增长9.2%;农村居民人均可支配收入中位数为9497元,增长12.7%。全年农村居民人均纯收入为9892元。全国居民人均消费支出14491元,比上年增长9.6%,扣除价格因素,实际增长7.5%。按常住地分,城镇居民人均消费支出19968元,增长8.0%,扣除价格因素,实际增长5.8%;农村居民人均消费支出8383元,增长12.0%,扣除价格因素,实际增长10.0%。本文综合考虑了衡量人民消费水平因素,选取各地区居民消费水平,消费水平包括城镇居民消费水平和农村居民消费水平,综合考虑了居民人均消费作为类别分析的主要经济指标:X1:居民消费水平(元)X2:城镇居民消费水平(元)X3:农村居民消费水平(元)X4:居民人均消费(元)从区域发展角度从上面5个经济指标将城市经济发展水平划分为三大类:G1:高消费地区G2:中等消费地区G3:低消费地区3.2数据收集和整理本文所有数据来源于《中国统计年鉴(2014)》,选取2014年度31个省份主要居民消费水平做模型建立及分析。其中前31个省份相关消费指标水平作为初始样本用于划分类别,建立类别总体G;再利用判别函数进行判别分析。所有相关数据经过量纲统一规则化处理见表1所示。表1:各省份居民消费水平省份居民消费水平农村居民消费城镇居民消费居民人均消费北京市33337176633583631102.89天津市26261149542877922342.98河北省1155764601719811931.54山西省1207874761634110863.83内蒙古自治区1716882182359016258.12辽宁省20156104172516116067.98吉林省1367677731871413025.97黑龙江省1297874781710212768.76上海市39223202214146433064.76江苏省23585145712875319163.56浙江省24771154583010122551.97安徽省1161861141777911726.99福建省17115101472172517644.47江西省1191074291672811088.89山东省1672892242335813328.9河南省1178264381883311000.44湖北省1391277551915612928.31湖南省1292070051950813288.73广东省2373999143044019205.5广西壮族自治区1171057951918510274.31海南省1171270721587712470.59重庆市1527065382168113810.62四川省1248580741789912368.4贵州省95415383165819303.35云南省112246003190899869.54西藏自治区62753874140017316.95陕西省1320666201962012203.59甘肃省96165245163279874.57青海省1207069541761712604.8宁夏回族自治区1353770621967112484.52新疆维吾尔自治区1140159421828511903.714,数据结果及分析4.1聚类分析4.1.1聚类分析过程采用统计软件SPSS可以快速方便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:(1)K-均值聚类初始聚类中心表格2:初始聚类中心聚类123居民消费水平39223262616275农村居民消费20221149543874城镇居民消费414642877914001居民人均消费33064.760022342.98007316.9500(2)样本聚类表格3:聚类成员案例号省份聚类距离1北京市14379.2602天津市27635.5873河北省3929.7344山西省31983.2675内蒙古自治区26352.8266辽宁省23055.4097吉林省32666.8968黑龙江省32010.8859上海市14379.26010江苏省24508.22811浙江省27652.63412安徽省3618.76613福建省26473.34114江西省31567.06515山东省27767.50816河南省31066.38317湖北省32922.02318湖南省32544.86019广东省25077.43520广西壮族自治区31969.71221海南省32327.80622重庆市35477.29523四川省31769.12324贵州省33773.23925云南省32242.84526西藏自治区38554.75727陕西省32186.04928甘肃省33568.40929青海省31151.20030宁夏回族自治区32560.34531新疆维吾尔自治区3956.540(3)最终聚类中心表格4:最终聚类中心聚类123居民消费水平362802119011928农村居民消费18942116136595城镇居民消费386502648817962居民人均消费32083.825018320.435011576.5910表格5:最终聚类中心间的距离聚类123124874.66339925.644224874.66315138.312339925.64415138.312表格6:每个聚类中的案例数聚类12.00028.000321.000有效31.000缺失.000(4)聚类方差分析表格7:聚类方差分析聚类误差FSig.均方df均方df居民消费水平6.930E826814286.54028101.697.000农村居民消费1.854E822927580.9532863.319.000城镇居民消费5.251E825546020.1832894.685.000居民人均消费4.570E824333185.90928105.467.000F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。4.1.2聚类结果分析从上述聚类分析过程可知,样本完全有效,32个个体被分成三大类:G1(高消费地区):北京,上海。G2(中等消费地区):天津市,内蒙古自治区,辽宁省,江苏省,浙江省,福建省,山东省,广东省。G3(低消费地区):河北省,山西省,吉林省,黑龙江省,安徽省,江西省,河南省,湖北省,湖南省,广西壮族自治区,海南省,重庆市,四川省,贵州省,云南省,西藏自治区,陕西省,甘肃省,青海省。宁夏回族自治区,新疆维吾尔自治区。从地区分类结果可知,北上作为国际化城市发展代表,其消费水平远超其他沿海城市及内陆城市;沿海开放城市以及内陆主要枢纽城市的消费水平高于其他城市;中部地区级西部城市发展水平受限于地理、资源和资本等因素,经济发展表现不强劲,消费水平也比较低。从最后的方差分析中可知,分类检验水平显著,分类结果值得借鉴。4.2判别分析4.2.1判别结果及分析一般来讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;因变量(dependentvariable):分组变量——定性数据(个体、产品/品牌、特征,定类变量)。自变量(independentvariable):判别变量——定量数据(属性的评价得分,数量型变量)。采用IBM

SPSS

Statistics

19作为统计工具,将数据输入SPSS。依次选择分析→分类→判别进入设置对话框。选择上一步聚类分析所得的结果变量作为分组变量。由于已在聚类分析中将城市经济类型分为四类,因此其取值范围为1~3。原始数据作为自变量以对其进行分类判别。自变量输入方式为步进法。判别方法选用最小F值,进入值设置为3.84,删除值设置为2.71。在“分类”中设置先验概率为所有组相等。点击“确认”进入统计计算。(1)判别图图SEQ图\*ARABIC1典则判别函数从图中很明显,看到三个组中心也就是人民消费水平,以及围绕着组中心的样本,说明直观上分组判别式完全可以接受的。(2)典型判别式函数摘要表格8:特征值函数特征值方差的%累积%正则相关性18.393a98.098.0.9452.169a2.0100.0.381a.分析中使用了前2个典型判别式函数。表格9:Wilks的Lambda函数检验Wilks的Lambda卡方dfSig.1到2.09165.9044.0002.8554.3041.038表格10:标准化的典型判别式函数系数函数12城镇居民消费.4551.331居民人均消费.626-1.260表格11:结构矩阵函数12居民消费水平a.957*.075居民人均消费.946*-.323城镇居民消费.895*.445农村居民消费a.774*-.232判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。a.该变量不在分析中使用。*.每个变量和任意判别式函数间最大的绝对相关性从表中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的98%,第二判别函数解释了2%;两个判别函数解释了100%;当然,两个判别函数直接具有显著的差异和判别力。(3)分类统计量表格12:组的先验概率案例的类别号先验用于分析的案例未加权的已加权的1.33322.0002.33388.0003.3332121.000合计1.0003131.000表格13:分类函数系数案例的类别号123城镇居民消费.005.004.003居民人均消费.004.001.000(常量)-150.594-65.139-30.222Fisher的线性判别式函数Fisher线性判别函数,我们主要用来构建判别方程,理论上说:如果我们知道某个地区的城镇居民消费水平和居民消费水平,我们就可以估计出该地区应该是属于哪种类型的。5,结论通过聚类以及判别分析可知,我国居民消费水平的的高低和地理因素有很大关联,城市的经济发展水平呈现东南沿海高,中西部内陆低的态势,而经济发展水平极大地制约着居民消费水平。同时地区之间经济发展差距悬殊,事实上是制约消费水平发展的另一个重要因素。长期以往,显然不利于经济的平衡发展。此外,北京作为我国首都,毋庸置疑具有天然的发展优势,其政治中心,交通中心,文化中心的地位吸引了国内外大量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论