版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精选优质文档-----倾情为你奉上精选优质文档-----倾情为你奉上专心---专注---专业专心---专注---专业精选优质文档-----倾情为你奉上专心---专注---专业应用数理统计(论文)中国区域经济类型的聚类和判别分析指导老师:冯伟院系名称:材料科学与工程学号:SY姓名:刘桎东2014年12月20日
摘要区域经济发展的指标体系,包括人口总数、第一产业总产值、第二产业总产值、第三产业总产值、财政收入、社会消费品零售总额、货物进出口总额、平均工资、人均可支配收入和居民消费水平等。本文主要通过系统类聚的方法,将全国31个省市(自治区)的2013年经济发展状况进行归类分析,得出全国区域经济发展水平的一些基本情况,并进行了相应的判别分析,为我国经济在快速发展的前提下,做好协调发展提供一些启示。关键字:区域经济聚类分析判别分析目录
引言在制定国民经济和社会发展规划时,通常需要按照行政区域进行经济类型的划分,这有助于对不同地区经济发展存在的差异进行宏观调控,从而因地制宜出台相应的经济政策,促进各地区经济的协调发展,为国民经济持续协调健康发展奠定了坚实基础。明确当前我国发达地区和落后地区的区间格局,对于进一步的研究和分析我国各区域间经济发展的状况,并探求切实可行的区域协调发展政策以实现我国经济的可持续发展有着极为重要的现实意义。在多元统计分析中,常常使用聚类分析和判别分析来解决样本的分类问题。在事先并不知道应将样品或指标分为几类的情况下,可以使用聚类分析根据样本或指标的相似程度,将样本或指标归组分类;而在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。本文试图通过聚类分析的方法,分析2013年中国31个省市(区域)经济发展发展状况和差异情况,从中寻找一些有用的信息,提出对我国经济如何在快速发展的基础上,做到协调发展的一些思考。本文采用多元统计分析方法,对我国区域经济发展指标进行聚类分析,客观地反映当前各地区的经济类型。
数据收集分区指标是表征分区单位的特征因子,它的确定合理与否是分区成败的关键。由于经济是与科技以及人民生活状况等因素直接联系的,为反映全国经济系统的全貌,评价或分析系统时必须充分考虑这三个方面的水平和状态,这是本文选择指标的理论依据,实际选择指标时还要考虑指标与目标的一致性和取得指标数据的可能性。本文选取2013年大陆31省市的10项与经济相关的指标来衡量一个地区的经济发展水平:人口总数(万人)、第一产业总产值(亿元)、第二产业总产值(亿元)、第三产业总产值(亿元)、财政收入(亿元)、社会消费品零售总额(亿元)、货物进出口总额(亿元)、平均工资(元)、人均可支配收入(元)和居民消费水平(元)。上述数据来源于《中国统计年鉴2014》,如表2.1所示。选取33个省市作为聚类的变量。表2.1数据收集地区国内生产总值(亿元)总人口(万人)在岗职工平均工资(元)社会商品零售总额(亿元)货物进出口总额(百万美元)北京21330.831333.49638.1天津15726.931016.66738394738.7.6太原2531.09369.74577711450.210671.05呼和浩特2894.05237.88504691256.12195沈阳7098.71730.84565903570.115800.29长春5342.43754.55569772217.520728.75哈尔滨5340.07987.29515543070.96807.96上海23567.71438.699303.5.3南京8820.75648.72772864167.257220.77杭州9206.16715.76708234201.567997.75宁波7610.28583.78702282992.1合肥5157.97712.81596481666.820087福州5169.16674.94588383062.934663.17厦门3273.58203.44630621072.383553.11南昌3667.96517.73518481304.912226.43济南5770.6621.61623233087.610500.14青岛8692.1780.64620973361.779888.33郑州6776.99937.8497562913.646430.9武汉10069.48827.31606244369.326428.87长沙7824.81671.41618473162.112561.3广州16706.87842.42742467144.5.8深圳16001.82332.21734924844南宁3148.3729.66543301616.94814.1海口1091.7165.3150653541.33400.9重庆14262.63375.2568525710.795450.24成都10056.591210.74632014468.955844.39昆明3712.99550.5581531905.929394.32拉萨347.4552.7372468180.32076.29西安5492.64815.29540983093.924982.97兰州2000.94374.6754008944.94556.49西宁1065.78202.6454914414.11596.74银川1388.6219659080382.54500乌鲁木齐2461.47266.916161710708284.58表2.1数据收集这个数据我也没有哇,只有上面那个数据,没用的话删除了吧这个数据我也没有哇,只有上面那个数据,没用的话删除了吧省份社会消费品零售总额(亿元)货物进出口总额(亿元)平均工资(元)人均可支配收入(元)居民消费水平(元)北京8375.19300640321.033337天津4470.46777332293.626261河北10516.74150122580.311557山西5139.34640722455.612078内蒙古5114.25072325496.717168辽宁10581.44550525578.220156吉林5426.44284622274.613676黑龙江6251.24079419597.012978上海8052.09090843851.439223江苏20796.55717732537.523585浙江15225.55657137850.824771安徽6542.44780623114.211618福建8275.34853830816.417115江西4576711910山东22294.84699828264.116728河南12426.63830122398.011782湖北10885.94389922906.413912湖南9018.64272623414.012920广东25453.95331833090.023739广西5133411710海南992.94497122928.911712重庆4599.85000625216.115270四川10561.44796522367.612485贵州2366.24736420667.19541云南4004.64244723235.511224西藏293.25777320023.46275陕西4999.54744622858.413206甘肃2173.84283318964.89616青海544512070宁夏610.55047621833.313537新疆2108.24906419873.811401
聚类分析聚类分析概述聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似性,于是根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。研究怎样对事物进行合理分类(归类)的统计方法称为聚类分析。依据分类对象的不同可以把聚类分析再分成Q型聚类和R型聚类,Q型聚类是指对样品进行聚类,R型聚类是指对变量进行聚类。聚类分析的基本原理是把某种性质相似的对象归于同一类,而不同类的之间则存在较大差异。为此,首先要能刻画各个变量之间或者各个样本点之间的相似性。Q聚类一般使用“距离”度量样本点之间的相似性,定义样本点之间的距离可以采用欧氏距离、明考夫斯基距离、马氏距离、兰氏距离等测度。R聚类则使用“相似系数”作为变量相似性的度量。定义各变量之间的相似系数则多采用样本相关系数、夹角余弦等测度。聚类分析包括很多种方法,包括系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等,不同的方法适合解决不同类型的问题,本文中使用的为系统聚类法。系统聚类法是最常用的一种聚类方法,初始时要先把要归类的n个对象各自视为一类,然后逐渐把关系最密切的两个类合并成一个新类,知道最后把n个对象都归为一类时停止。这种聚类过程可以用一张聚类谱系图形象的展示出来。由于系统聚类时要把两个“最接近”的类合并到一起构成一个新类,这是还需要规定类与类之间的相似性测度,常用的方法有最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平法和。聚类分析过程及结果输出用SPSS程序中的聚类分析进行分类计算。聚类方法使用Ward,所用的距离种类选择欧氏平方距离以两变量差值平方和为距离,即两观察单位间的距离为其值差的平方和。标准化选择Z得分。对33各省市进行聚类处理,结果汇总如下:表3.1表示所有观测量都加入聚类分析,没有遗漏。表3.1个案处理摘要a个案有效缺失总计个案数百分比个案数百分比个案数百分比33100.0%00.0%33100.0%a.平方欧氏距离使用中表3.2聚类表阶段组合聚类系数首次出现聚类的阶段下一个阶段聚类1聚类2聚类1聚类21612.10700623132.113001431316.131009433014800106627.199101571523.19900158424.203001891320.212301110718.215502111513.262092012333.280401413910.288001914331.3081221815615.38667211618.4030032171719.43300201834.4801482219911.6171302520517.6491117232167.89215102322314.9581802623561.149202127242211.2330029259261.84819027263282.1522202827592.63423252828353.477262730292228.61024030302313.3702928313122528.72730032321240.12516310表3.2为分层聚类分析的聚类过程表。表中第一列表示聚类分析的步骤,第二列和第三列表示该步聚类分析中,哪两个样本聚成了一类;如:第一步是第6个变量和第12个变量进行聚类,第二步是第31个变量和第32个变量进行聚类,以此类推,聚类过程共进行了32步,所有的样本聚成了一大类。第四列表示两个样本间的距离系数,从表中可以看出,距离小的样本之间先聚类;第五和第六列表示某步聚类分析中,参与聚类的是样本还是类,0则表示样本,数字n(非零)表示第n步聚类产生的类参与了本步聚类;第七列表示本步聚类结果在下面聚类的第几步中用到。图3.1为系统聚类的冰柱图,图的纵坐标表示聚类的数目,从图最下方看起,从32类,逐渐到20类、15类、最后聚成一个大类。首先是合肥和昆明聚成一类,其余变量各为一类。第二步将兰州和乌鲁木齐聚成另一类中,以此类推,最后所有变量聚成了一个大类。该图相较而言更为直观的显示了聚类过程。图3.1系统聚类的冰柱图图3.2Ward联结的树状图图3.2为Ward联结的树状图,该图比冰柱图更容易看出分类状况,并且分析结果与聚类表和聚类冰柱图的分析结果是一致的。通过比较,选择四群集,即将变量分成四类,如表3.3所示。
表3.3Ward联结的树状图案例区域群集1:北京12:天津23:河北34:山西35:内蒙古36:辽宁37:吉林38:黑龙江19:江苏310:浙江311:安徽312:福建313:江西314:河南315:湖北316:广东317:广西318:海南319:重庆320:四川321:云南222:西藏223:甘肃324:青海325:宁夏426:新疆327:上海3讨论北京是我国的首都,属于我国政治经济文化中心,而上海是我国的第一大城市,属于经济龙头,无论是经济发展水平还是科技文化教育的实力在我国都是领先的,因此这两者分在一类(第一类)。而广东、江苏作为沿海开放的省份,外商投资多,经济实力相当雄厚,所以分为一类(第四类);相比之下,天津、河北、辽宁、浙江、福建、河南、湖北、四川这几个省份,福建、辽宁、天津、浙江、河北作为沿海省份,在经济上稍逊于前两个类,但辽宁作为我国的重工业发展基地,福建紧靠台湾,近两年沿海交流加深,浙江近几年由于引进外资以及小商品行业的发展,经济实力迅猛提高,而天津与河北则处在紧邻北京的优势地理位置上,河南、湖北与四川则各自有着自己的优势,因此划分为一类(第二类),其余划分为第三类,这些省份主要集中在我国的西部和中部内陆,与前面类别中的省份存在一定的差异未改动。未改动。文末最后有将分类整理成段落的格式,可以看那个写描述分析,随便写写吧
判别分析判别分析概述判别分析是在已知分类数目的情况下,根据一定的指标对不知类别的数据进行归类。它是判别样品所属类型的一种统计方法。其主要原理是利用原有的分类信息,得到体现这种分类的函数关系式(称之为判别函数,一般是与分类相关的若干个指标的线形关系式),然后利用该函数去判断未知样品属于哪一类。因而是个学习和预测的过程。我们常用的判别分析方法有距离判别法、费歇尔判别法和贝叶斯判别法等。判别分析过程及结果输出选取27个省份的数据与其对应的类别作为已知分类,湖南、贵州、山东、陕西作为带分类变量进行判别分析,定义分类结果为变量“分组类别”,采用自变量全进入模型来进行判别分析,因此分类结果变量的取值范围为1~4。输出结果如下所示:表4.1分析案例处理摘要表未加权个案数个案数百分比有效33100.0排除缺失或超出范围组代码0.0至少一个缺失判别变量0.0既包括缺失或超出范围组代码,也包括至少一个缺失判别变量0.0总计0.0总计33100.0表4.1为分析案例处理摘要表,表明一共有33条记录,已分好类的有33条,还有0条需要进行分类。表4.2为特征值表。由于本文中的预测变量有四个,类别数也为4个,因此判别函数的个数应为4。判别函数的特征值越大,表明该函数越具有区别力。从表中可以得到不同函数的特征值。
表4.2特征值表表函数特征值方差百分比累计百分比典型相关性18.683a52.452.4.94726.777a40.993.4.93331.098a6.6100.0.723a.在分析中使用了前3个典则判别函数。表4.3判别函数显著性检验函数检验威尔克Lambda卡方自由度显著性1直至3.006139.22415.0002直至3.06176.7878.0003.47720.3793.000表4.3为判别函数的显著性检验结果表,从Sig.值来看,三个判别函数的效果是显著的。表4.4标准化典型判别式函数系数函数123国内生产总值(亿元)-1.572.843-2.949总人口(万人)2.066-.569.118在岗职工平均工资(元).637.175.600社会商品零售总额(亿元)-.178.1032.416货物进出口总额(百万美元).740.412.433表4.4为标准化典型判别式函数系数,即标准化的Fisher判别函数系数,由该表可以得到三个Fisher判别函数,将标准化的变量代入该函数计算可以得到各观测值的具体空间位置。表4.5组重心Fisher判别函数值AverageLinkage(BetweenGroups)函数12313.6317.3172.1482-1.9194.391-2.4623-.586-.920.184414.322-2.962-1.876表4.5为各类别重心在空间中的坐标位置,故若将个观测值代入前一个表格得到的判别函数中得到具体坐标位置后,即可计算其与各类别重心的距离,从而得到分类。表4.6分类函数系数AverageLinkage(BetweenGroups)1234国内生产总值(亿元)-.0074.502E-5-.005-.012总人口(万人).066.030.051.160在岗职工平均工资(元).003.002.002.003社会商品零售总额(亿元).003-.005-.001-.007货物进出口总额(百万美元).0005.382E-55.286E-5.000(常量)-168.887-75.669-66.403-271.508表4.6为Bayes判别函数系数,可以得到四个Bayes判别函数,将观测值代入该函数,可以得到四个函数值,通过比较函数值的大小即可判断该样品判入哪一类。下图为典型判别函数图,从该图可以直观的看出各类别的分布。图4.1典型判别函数图讨论通过一系列的计算,可以得到如表4.7的分类结果矩阵,由表可知原已分类案例的判别回报率为100%,说明判别正确率非常高。同时,从表中还可以得出待分类的四个案例中,有两个被分到了第一类,有三个被分到了第二类,有27个被分到了第三类,有一个被分到了第四类。表4.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学二年级第一学期班主任工作计划12篇
- 竞选班干部演讲稿范文汇编9篇
- 社会实践活动总结【6篇】
- 行政部个人年终工作总结怎么写
- 车间火灾安全
- 单位统计个人工作总结范例
- 校园安全主题演讲稿集锦15篇
- 出国金融案例分享会
- 奋进新时代争做追梦人征文10篇
- 二年级班先进班集体事迹材料【五篇】
- 《新视野商务英语视听说》第四版-上-U2 Jobs and Responsibilities
- 医院业务标准流程图
- (新版)吉林省生态环境监测专业技术人员大比武理论试题库(含答案)
- 装修合同逾期诉状模板
- 人音版(主编:吴斌) 四年级上册 音乐 第7课 幸福拍手歌 教案
- 2024年02月中国文物保护基金会2024年招考4名人员笔试历年典型考题及考点研判与答案解析
- QB/T 8024-2024 电热采暖炉(正式版)
- 中国饮食文化智慧树知到期末考试答案2024年
- 音乐技能综合实训智慧树知到期末考试答案2024年
- MOOC 饲料毒物学-华中农业大学 中国大学慕课答案
- 第五单元《京腔昆韵》-欣赏 ☆姹紫嫣红 课件- 2023-2024学年人音版初中音乐八年级下册
评论
0/150
提交评论