多远统计分析课程设计_第1页
多远统计分析课程设计_第2页
多远统计分析课程设计_第3页
多远统计分析课程设计_第4页
多远统计分析课程设计_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对我国区域经济发展水平的分析第第页1.引言随着中国经济的发展和社会的进步,人民的生活水平日益提高,城镇居民的生活水平更是上了一个大台阶.由于改革开放以来,城镇的投资的加大和企业的增加,近年来各地城镇家庭收入逐年递增。城镇家庭的收入增加,必然会导致家庭消费支出总额的增加和家庭消费支出结构的变化。从最近几年的统计数据可以看出:城镇地区对吃穿等基本生活资料的消费呈下降趋势,而对于文化教育及医疗保健的支出消费逐年递增。从城镇家庭收支的变化情况可以看出整个国家的经济增长状况,以小见大,为决策提供一定的依据。聚类和判别都是分类学的基本方法,而分类学是人类认识世界的基础学科。平时我们对事物的认识都需要对其进行分类。为了研究现阶段的全国经济发展各时间段的差异,我们需要对时期的经济指标进行分类,以便更好的做出下一步的经济策略。聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。判别分析则先根据已知的类别的事物的性质,利用某种技术建立函数式,然后对未知类型的新事物进行判断,将其归为已知的类别中。聚类分析事先并不知道对象的类别的面貌,甚至连共有几个类别也不确定。判别分析事先知道已知的对象的类别和类别数。本文以2010年国家统计年鉴上公布的全国各地区城镇居民家庭平均每人全年消费性支出(2009年)作为数据源,将聚类分析和判别分析的原理运用到各个时期经济发展水平分类的研究上,对此问题进行统计分析。2.模型的建立和聚类分析本文采用《中国统计年鉴(2010)》中的“中国各地区城镇居民家庭平均每人全年消费性支出(2009年)”的七项数据,即:食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信、教育文化娱乐服务,运用SPSS19采用聚类分析方法,对全国城镇居民的消费结构进行了地区差异的分析。表1.1中国各地区城镇居民家庭平均每人全年消费性支出(单位:元)地区食品衣着居住家庭设备用品及服务医疗保健交通和通信教育文化娱乐服务全国4478.541284.201228.91786.94856.411682.571472.76北京5936.111795.681290.221225.681389.452767.852654.98天津5404.531362.561505.70911.921273.381968.371740.85河北3250.771190.191142.83628.49971.291151.15982.21山西3071.931162.001319.45563.82789.921095.771070.60内蒙古3772.631857.191246.21797.77992.731557.031504.36吉林3637.321419.121394.94543.691120.441305.451028.06黑龙江3397.411403.721026.77547.87978.79922.77956.85上海7344.831593.081913.221365.391002.143498.653138.98江苏4773.671297.951148.85923.32808.371721.871968.03浙江5604.721614.661485.90828.96984.623290.632295.32安徽4051.401080.061219.83589.73716.871013.381225.36福建5336.361171.881394.91859.06591.501993.771504.96江西3881.561053.01935.44761.85550.251145.161066.94山东3954.341548.751280.04885.04885.161719.681332.97河南3272.751270.741004.37684.79875.521033.991048.14湖北4160.511210.32999.49759.24694.61953.691208.46湖南4174.551146.251074.69798.40784.661233.821207.72广西4129.55855.601021.11754.79538.171598.681111.13四川4391.731178.38973.02679.16648.311416.491150.73贵州3755.611012.14747.57589.35535.43983.131146.35云南4460.581102.14943.67393.22708.781587.19798.69西藏4581.601086.42689.76356.86352.311062.83465.84陕西3988.571209.961018.23683.51863.361071.481430.22甘肃3359.301169.70801.21559.06746.77894.351025.47青海3548.851043.40790.50505.32701.37975.91889.32宁夏3432.231260.581128.12636.88921.861363.631075.88新疆3386.331357.05856.78552.50684.011198.65855.53参考表1.1中全国城镇居民平均每人全年消费性支出的数据,将我国经济发展区域划分为3类,即经济一般发达地区、比较发达地区、发达地区。在应用SPSS软件采用系统聚类方法进行聚类时,将聚类数定义为3,运行SPSS软件,输出结果如下:表1.2案例处理摘要(a)案例有效缺失合计N百分比N百分比N百分比27100.0%0.0%27100.0%a.平方Euclidean距离已使用上表是样品的处理概要,从中可以看出27个样品的数据全都有效,均用于系统聚类分析过程。表1.3系统聚类过程表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集21923.3230052511.4520053816.61400114714.681009559.69721861519.703001071220.826001485101.050501397211.07040121015181.2186019118131.2923014127171.338901513451.4490815148121.8221171715471.9101312171625262.342002117482.457151418184243.08717019194153.446181022206225.16200222125276.9891602522467.14519202523239.0250024241212.236023262542512.437222126261446.99524250上表是样品的凝聚进度,从中可以看出系统聚类分析过程中的每一步。由于有27个样品,所以总共进行了26步,并在每一步中给出了凝聚过程中两类之间的相关系数。阶(Stage)表示聚类的先后顺序群集组合(ClusterCombined)表示在某步中合并的个案,合并后用第一项的个案号表示生成的新类。系数(Coefficients)为相似系数。据聚类分析的基本原理,个案之间的亲密程度最高即相似系数最接近于1,最先合并。因此该列中的系数与第一列的聚类步骤相对应,系数从小到大。首次出现的阶聚集(StageClusterFirstAppears)表示新类首次出现的步骤。对应于各聚类步骤参与合并的两项中,如果有一个是新生成的类,则在对应的列中显示出该新类在哪一步中第一次生成。下一阶(NextStage)为新类下一次出现的步骤,表示对应步骤生成的新类将在第几步与其它个案或新类合并。表1.4群集成员案例群集案例群集1:北京115:内蒙古32:上海116:宁夏33:浙江117:青海34:福建218:山东35:江苏219:山西36:天津220:陕西37:贵州321:四川38:河北322:西藏39:河南323:新疆310:黑龙江324:云南311:湖北325:安徽312:湖南326:甘肃313:吉林327:广西314:江西3上表表明聚类成员,给出了每一个样品为所分三类中哪一类的成员,即系统聚类分析的最终结果。表1.5分类的树状表聚类分析结论:对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值均<0.1,即聚类效果好。这样,原有27类(即原有的27个省区分组)聚合成3类,第一类含有3个地区,第二类含3有个地区,第三类含有21个地区。总结得出:第一类:3个地区北京市、浙江省、上海市;第二类:3个地区天津市、福建省、江苏省;第三类:21个地区河南省、甘肃省等其它地区。这与我们直观上得出的结论并比较吻合,第一类的北京为中国政治经济文化中心,浙江和上海为沿海经济迅速发展区,地处经济发达地区;第二类的天津市、福建和江苏省也都属于经济较发达地区,故经济入选较为发达类型;而第三类的河南省、甘肃省等其它地区则同属于经济一般发达类型。这个结果从一个侧面反映出了我国经济发展的水平和结构。经济水平有了较大的提高,但经济重心仍然集中在几个发达的主要省市,如北京、上海等。中国实行改革开放政策以来.经济有了突飞猛进的增长.特别是城镇经济的迅速发展,但经济发展不平衡的问题也一直伴随着.3.模型的判别分析根据聚类分析的结果,将各地区共分为3类,编号分别为1,2和3。在SPSS中添加新的一列资源分类来表示类别,将这27个已分类的地区作为“训练样本”,用7组预测变量来建立判别准则来对27个地区进行判别分析;同时根据所建立的判别准则判别辽宁、广东、海南、重庆4个省区,即“待判样本”属于哪一类经济发展区域;原始数据如下表2.1所示:表2.1分类后的数据序号地区食品衣着居住家庭设备医疗保健交通通信教育文化聚类1北京4560.521442.42977.471322.362173.262514.761212.8912上海5248.951026.87877.59762.922332.832431.741435.7213浙江4393.401383.63615.45852.272492.011946.151229.2514福建3854.26784.71525.65513.611232.701321.331233.4925江苏3462.66886.82647.52600.691203.451467.36997.5326天津3680.22864.89634.391049.331092.871452.171368.2027安徽3091.28869.55336.99441.42788.25869.23694.1738甘肃2408.37854.00403.80562.74703.071034.42716.3539广西2857.40477.67360.62401.06785.01850.90826.86310贵州2649.02832.74446.53329.77775.07938.37627.23311河北2492.26849.58460.27737.43875.43827.72864.92312河南2215.32919.31431.02520.57762.08847.12737.00313黑龙江2215.68971.44319.37634.30665.01843.94755.32314湖北2868.39877.01401.22517.19763.14997.74752.56315湖南2850.94868.23513.63632.52965.091182.18871.70316吉林2457.21907.61318.65671.44815.02890.22984.95317江西2636.93725.72451.32357.03600.16894.58742.93318内蒙古2323.551168.93464.55555.00928.481052.65802.26319宁夏2444.98874.39480.70578.75774.57846.72890.97320青海2366.42724.96420.31542.93753.07793.72653.04321山东2711.651091.22526.29624.061175.571201.97838.17322山西2252.501016.69441.82589.97825.181007.92830.38323陕西2588.91768.47478.58612.30824.461280.14746.59324四川2838.22754.93505.83449.871009.35976.33728.43325西藏3107.90734.83211.10221.70694.21359.34612.67326新疆2386.97953.03364.11472.35765.72819.72698.66327云南3102.46745.08335.14600.081076.93754.69585.35328广东6225.221064.331814.001052.57925.622979.882168.88待判别29海南4507.81581.661000.32585.72604.151548.76961.95待判别30辽宁4680.851338.841293.00607.511018.441493.171283.68待判别31重庆4576.231503.491120.601043.06982.731189.031351.90待判别3.1SPSS软件分析后的结果如下:表2.2特征值函数特征值方差的%累积%正则相关性123.382a95.595.5.97921.099a4.5100.0.724分析中使用了前2个典型判别式函数。从表中可以看出SPSS给出了两个判别函数,它们的特征值分别为23.382和1.099。因为函数1的特征值(即组间平方和与组内平方和之比值,即B0/E0)最大,且贡献率为95.5%(>85%),说明所选择的典型变量互不相关,可以对样本进行距离判别;函数1的正则相关性(是组间平方和与总平方和之比的平方根)接近1,说明组间差异较大;所以函数1最具判别力。表2.3Wilks的Lambda函数检验Wilks的Lambda卡方dfSig.1到2.02082.63814.0002.47615.5686.016函数检验的零假设是各组变量均值相等。Lambda接近0表示组均值不同,接近1表示组均值没有不同。lambda的卡方转换(Chi-square)用于确定其显著性,由表中数据可知具有显著性(sig.<0.01)。表2.4典型判别式函数系数函数12食品.002.002衣着.003.000家庭设备-.001.006医疗保健.000.000交通和通信.003-.004教育文化.002-.003居住.002.007(常量)-15.968-6.337非标准化系数上表是根据7组预测变量建立的两个典则判别函数的各个变量的系数,通过这个系数可以得到Fisher得分。表2.5组质心处的函数AverageLinkage(BetweenGroups)函数12发达12.051-.994较发达3.0442.716一般-2.156-.246在组均值处评估的非标准化典型判别式函数上表给出了每个典则判别函数在每一组(类)中的质心,结合判别函数1和判别函数2可以对训练样本进行判别分析,将训练样本的变量带入函数,得到的值与哪一组质心最接近,则判断就属于此组,经过SPSS软件计算,如图2.1所示:图2.1所有组的散点图根据表2.4所建立的2个典则判别函数,把这两个函数当成该观测值的坐标,这样表2.1中的31个观测值(包括4个“待判样本”)就是二维平面上的31个点;它们的点位投影到二维空间之后,再根据各点的位置远近算出具体的判别公式,进行距离判别。3.2采用Fisher判别,分类统计量为:表2.6组的先验概率AverageLinkage(BetweenGroups)先验用于分析的案例未加权的已加权的发达.11133.000较发达.11133.000一般.7782121.000合计1.0002727.000上表是每一类的先验概率是根据组的大小进行计算所得。表2.7分类函数系数AverageLinkage(BetweenGroups)发达较发达一般食品.094.080.064衣着.150.128.114家庭设备.052.080.067医疗保健.001-.003-.003交通和通信.038-.008-.013教育文化.002-.023-.024居住.089.097.065(常量)-448.251-263.140-153.414上表为每类的分类函数系数,即Fisher线形判别函数。该表给出了三个线性分类函数的系数。通过将一个新的样品的各个指标(变量)代入这些函数,经计算,就可以得到分别代表三类的三个值,哪个值最大,该样品就属于相应的那一类;也就是说,将该样品判定属于该类。各类Fisher线形判别函数为:F1=-448.251+0.094·食品+0.150·衣着+0.052·家庭设备+0.001·医疗保健+0.038·交通和通信+0.002·教育文化+0.089·居住;F2=-263.140+0.080·食品+0.128·衣着+0.080·家庭设备-0.003·医疗保健-0.008·交通和通信-0.023·教育文化+0.097·居住;F3=-153.414+0.064·食品+0.114·衣着+0.067·家庭设备-0.003·医疗保健-0.013·交通和通信-0.024·教育文化+0.065·居住。现由所建立的Fisher线形判别函数可以直接对27个训练样本和4个待判样本进行判别归类,同时可以得到回报率和判别得分,最终结果如表2.8、表2.9所示:表2.8判别结果案例数目实际组最高组判别式得分预测组P(D>d|G=g)P(G=g|D=d)到质心的平方Mahalanobis距离函数1函数2pdf初始133.71821.000.662-1.364-.063233.66321.000.823-2.908-.754333.63321.000.915-2.672.560433.78721.000.479-2.636-.746533.73321.000.620-2.176.541633.52021.0001.308-3.283-.443733.48621.0001.441-3.323-.528833.81421.000.411-1.614.095933.22921.0002.952-.481.1371033.61021.000.988-1.861.7031133.25021.0002.772-3.348.9171233.63621.000.905-1.376-.7901333.31621.0002.303-2.5361.2241433.25421.0002.742-3.721-.7881533.02421.0007.444.432-1.1081633.99021.000.019-2.257-.3421733.67221.000.795-1.874-1.0921833.68521.000.758-1.349-.5721933.53321.0001.258-2.990.5042033.67921.000.775-2.892-.7312133.14121.0003.915-1.055-1.8902222.91921.000.1683.4142.8932322.1762.9993.4752.376.9762422.28221.0002.5343.3424.2802511.94221.000.11911.709-.9592611.14221.0003.90412.975.7522711.17321.0003.51311.470-2.77628(广东)未分组的1.02721.0007.2599.478-1.79129(海南)未分组的3.64821.000.868-1.468-.87330(辽宁)未分组的3.08921.0004.843-.8551.52931(重庆)未分组的2.2192.9973.0381.8251.470表2.9分类结果aAverageLinkage(BetweenGroups)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论