多元统计分析_第1页
多元统计分析_第2页
多元统计分析_第3页
多元统计分析_第4页
多元统计分析_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、摘要区域经济发展不平衡的问题是世界各国普遍存在的问题,改革开放以来发展迅速的中国也出现了这一问题,并且日趋严重。本文在肯定全国存在区域经济发展不平衡问题的基础上,把眼光聚集,把范围缩小,研究在具体的一个省份的是个地级市之间是否存在经济发展的不平衡问题。本文锁定浙江省,介绍了浙江省各地级市的发展现状。本文收集了浙江省2014年的温州市、杭州市、宁波市、嘉兴市、湖州市、绍兴市、金华市、舟山市、台州市和丽水市十个地级市的GDP、财政收入、农业、工业、建筑业、旅游业、保险业、房地产业、国内贸易和对外贸易十个经济指标的数据,运用多元统计分析方法中的主成分分析法和K均值聚类分析法对各地级市的经济进行了比较

2、分析。从主成分分析法的原理和计算步骤入手,并构建了主成分分析模型,利用SPSS计算出反映经济竞争力的总得分,得分排名前三为的分别是宁波市、台州市和杭州市,最后三名的分别是绍兴市、舟山市和金华市,并且得分差距明显,证明了经济发展不平衡问题确实存在;再次,筛选出影响经济的主要因素作为主因子,并建立起因子模型,计算出反映经济竞争力的总得分,得到前三名分别为宁波市、杭州市和温州市,最后三名分别为湖州市、舟山市和丽水市;最后,运用K均值聚类分析法将各地级市按照总得分归类,共产生了三类,每一类的城市都是在经济发展综合水平上相近的。结合上述三种模型对浙江省10个地级市经济发展和竞争力水平的差异进行具体分析,

3、找出各地级市产生差距的原因,进一步提出具体可行的改善方法与措施。关键词:经济指标 主成分分析 因子分析 K均值聚类分析法 地级市AbstractRegional economic development imbalances is a common problem around the world, has been developing rapidly since the reform and opening up of China, there is the problem, and has become increasingly serious. Based on the affirma

4、tion of the national regional economic development imbalance problems, based on the gathered the vision, the narrow, research in a specific province is a prefecture level between whether there is the imbalance of economic development.Lock in zhejiang province, this paper introduces the current situa

5、tion of the development of each level city, zhejiang province. This paper collected in 2014, wenzhou, zhejiang province, hangzhou, ningbo, jiaxing, huzhou, shaoxing, jinhua, zhoushan, taizhou, and ten level city of lishui city GDP, fiscal revenue, agriculture, industry, construction industry, touris

6、m, insurance, real estate industry, domestic and foreign trade ten economic index data, using multivariate statistical analysis method of principal component analysis (pca) and k-means clustering analysis to the economy of the prefecture level has carried on the comparative analysis. From the princi

7、ple and calculation steps of principal component analysis (pca), and construct the principal component analysis model, and use SPSS to calculate the economic competitiveness of total score, score the top three for the ningbo, taizhou, and hangzhou, the last three are shaoxing, zhoushan and jinhua, a

8、nd scored obvious gap, proved that the economic development imbalance exists; Again, the main factors that affect the economy as the main factor, and establish the factor model, calculate the total score, reflected in its economic competitiveness are the top three of wenzhou, ningbo, hangzhou, and r

9、espectively, the last three huzhou, zhoushan and lishui, respectively; Finally, using the k-means clustering analysis to the total score of each prefecture level according to the classification, produced a total of three categories, each category of cities are similar on the comprehensive level of e

10、conomic development.Combined with the above three models in 10 cities in zhejiang carry out specific analysis on differences in the levels of economic development and competitiveness, find out the cause for this difference is the prefecture level, and further puts forward concrete methods and measur

11、es for improvement.Key Words: Economic indicators Principal component analysis Factor analysis K-means clustering analysis Prefecture level一、问题的提出中国地域辽阔、人口众多、资源丰富,但是个区域在地理位置、要素禀赋、历史背景、人口密度及素质、科技条件和初始发展水平方面都存在着较大的差距,而这些正是各区域经济发展的先决条件,再加上中央政府对个地区实施的经济政策不一致,使得我国各地区经济发展水平、速度和综合竞争力严重的不平衡。本文在肯定全国存在区域经济发展不

12、平衡问题的基础上,把眼光聚集,把范围缩小,来关注中国区域经济发展的不平衡问题是否在某一个具体的省份内部也是存在的,答案是肯定的。区域经济差异是各级政府部门共同关注的问题,是各级政府部门指定区域经济发展政策的重要依据,同时区域经济差异变动形式与国民经济发展过程相联系,因此研究新形势下浙江省区域经济不平衡发展的现状与竞争水平具有重大的实践意义。二、问题的分析改革开放以来,浙江省的经济取得了长足进步,经济总体水平不断提高,人均国内生产总值发生了显著增长,省内各地级市的经济形势也发生了很大的变化,而各地级市的经济差距也在不断的拉大。为了能客观清晰的认识各地级市的优势、劣势以及现状、发展潜力,找到缩小地

13、级市间经济差距,协调各地级市间经济发展的有效途径,进一步提升浙江省整体竞争力,本文以浙江省为对象,通过对浙江省的10个地级市经济数据利用SPSS统计软件进行主成分分析、因子分析和K均值聚类分析,从而得到相应的模型。利用主成分分析可以得出作为主要成分的指标对经济综合竞争力的贡献率大小如何,可以分析经济差距产生的原因;而利用因子分析可以得出各个地级市综合竞争力与主要因子之间的模型,据此模型计算出各个地级市的综合竞争力得分;采用K均值聚类分析法可以对10个地级市归为不同发展等级的类别。综合分析与评价,最后提出相应的客观可行的缩小地级市经济差距的意见和措施,以实现浙江省10个地级市经济协调发展。三、模

14、型的假设1、浙江省10个地级市的数据都是准确无误的;2、各地级市之间的经济指标具有可比性;四、数据的收集 建立了研究的指标体系之后,就要对每一指标的具体数值进行收集,本文收集了浙江省2014年的温州市、杭州市、宁波市、嘉兴市、湖州市、绍兴市、金华市、舟山市、台州市和丽水市十个地级市的GDP、财政收入、农业、工业、建筑业、旅游业、保险业、房地产业、国内贸易和对外贸易十个经济指标的数据(数据来源见附录)。其数据见下表4.1:单位(亿元)GDP财政收入农业工业建筑业旅游业保险业房地产业国内贸易对外贸易温州市4302.81612.44192.254740.11298.13681.00144.77808

15、.882410.361246.92杭州市9201.161920.11278.583426.42433.811886.33320.412301.083838.734079.88宁波市7602.51860.60431.603490.103714.101068.10207.001328.1014400.0013116.60嘉兴市3352.80568.0926.491633.84177.65565.0396.67525.721347.022024.04湖州市1956.00295.70211.40700.60590.90503.2063.20342.70871.20599.40绍兴市4265.83564

16、.34195.981924.93290.49652.0792.96613.511487.142081.04金华市3206.64461.40141.961302.833044.22620.00135.83367.671592.702489.40舟山市1021.66148.93199.481967.62102.10338.4422.97225.80376.58740.10台州市3387.51485.29379.341402.99188.65583.55112.39496.051646.321324.74丽水市1051.00135.02294.67357.9871.30339.5832.88157.

17、63476.35174.48 表4.1五、模型的建立与求解5.1主成分分析法模型的建立与求解5.1.1主成分的数学推导:设为一个p为随即向量,并假定存在二阶矩,其均值向量与协差阵分别记为 (6.3)考虑如下的线性变换 (6.4)用矩阵表示为。我们希望寻找一组新的变量,这组新的变量要求充分的反映原变量的信息,而且相互独立。这里我们注意到,对于有 这样,我们所要解决的问题就转化为,在新的变量相互独立的条件下,求,达到最大。我们下面借助投影寻踪的思想来解决这一问题。首先应该注意到,使得达到最大的线性组合,显然用常数乘以也随之增大,为了消除这种不确定性,不妨假设。那么,问题可以更加明确。第一主成分为,

18、满足。第二主成分为,满足。一般情形,第k主成分为,满足 求第一主成分,构造目标函数为 (6.5)对目标函数 (6.6)由(6.6)式两边左乘 (6.7)由于X的协差阵为非负定的,其特征方程(6.6)的根均大于零,不妨设。由(6.7)式知道的方差为。那么,的最大方差值为,其相应的单位化特征向量为。再求第二主成分之前,我们首先明确由(6.6)式知。那么,如果相互独立,即有。这时,我们可以构造求第二主成分的目标函数,即 (6.9)对目标函数 (6.10)这样说明,如果X的协差阵的特征根为。由(6.12)式知道的最大方差值为第二大特征根,其相应的单位化的特征向量。针对一般的情形,第k主成分应该是在的条

19、件下,使得达到最大的。这样我们构造目标函数为 (6.13)对目标函数 (6.14) (6.16)对于X的协差阵的特征根。由(6.15)式和(6.16)式知道的最大方差值为第k大特征值,其相应的单位化的特征向量为。 综上所述,设的协差阵为,其特征根为,相应的单位化的特征向量为。那么,由此所确定的主成分为,其方差分别为的特征根。5.1.2模型的建立步骤(1)将原始数据标准化; (2)建立变量的相关系数阵;(3)求R的特征根为,相应的特征向量为;(4)由累计方差贡献率确定主成分的个数(m),并写出主成分为5.1.3模型的求解与分析1、在SPSS窗口中选择AnalyzeData ReductionFa

20、ctor菜单项,调出因子分析主界面,并将变量移入Variables框中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程(关于因子分子在SPSS中实现的详细过程,参见因子分析法)。得到如表5.1所示的特征根和方差贡献率表和表5.2所示的因子载荷阵。第一个因子就可以解释64.817%,第二个因子可以解释19.577%,即前面两个因子可以解释84.394%的方差 表5.1 特征根和方差贡献率表 表5.2 因子载荷阵 2、将表5.2中因子载荷阵中的数据输入SPSS数据编辑窗口,命名为a1和a2。点击菜单项中的TransformCompute,调出Compute variable对话框,在对话框

21、中输入等式:z1=a1 / SQRT(6.482),计算第一个特征向量。点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。再调出Compute variable对话框,在对话框中输入等式: z2=a2 / SQRT(1.958),计算第二个特征向量。点击OK按钮,即可在数据编辑窗口中得到以z2为变量名的第二特征向量。 Z1Z2X10.39-0.10X20.35-0.32X30.180.33X40.27-0.10X50.190.51X60.36-0.25X70.37-0.18X80.37-0.23X90.300.43X100.310.42 表5.3 特征向量矩阵根据表5.3得主

22、成分的表达式:Y1=0.39*X1+0.35*X2+0.18*X3+0.27*X4+0.19*X5+0.36*X6+0.37*X7+0.37*X8+0.30*X9+0.31*X10Y2=-0.10*X1-0.32*X2+0.33*X3-0.10*X4+0.51*X5-0.25*X6-0.18*X7-0.23*X8+0.43*X9+0.42*X103、再次使用Compute命令,调出Compute variable对话框,在对话框中输入等式:Y1=0.39*X1+0.35*X2+0.18*X3+0.27*X4+0.19*X5+0.36*X6+0.37*X7+0.37*X8+0.30*X9+0.3

23、1*X10Y2=-0.10*X1-0.32*X2+0.33*X3-0.10*X4+0.51*X5-0.25*X6-0.18*X7-0.23*X8+0.43*X9+0.42*X10分别计算出以上结果后,利用公式得到综合得分并排序得到下Y1Y2Y排序温州市4971.193293.0262569.9764杭州市9383.605741.6801597.49993宁波市14330.5311743.198433.3231嘉兴市3451.336568.6321190.07656湖州市1984.329421.204543.21785绍兴市4058.797605.8079175.90498金华市4026.817

24、2467.2-388.60110舟山市1593.424103.4066144.1649台州市3313.679571.1501803.27432丽水市1010.121100.5435184.13957 表5.4 根据10个经济指标计算所得Y的大小可得2014年浙江省10个地级市的经济发展实力中,排在前五名的分别是宁波市,台州市,杭州市,温州市和湖州市,并且这五个地级市的综合得分都在500以上;排在中间的四个地级市是嘉兴市,丽水市,绍兴市和舟山市,这四个地级市的综合得分在0-200之间;排在最后的是金华市,它的综合得分是负数,与排在前九个地级市相隔甚远。这也说明了浙江省的10个地级市经济发展状况存

25、在显著的差距,经济发展最好的与最差的地区差距非常明显。5.2因子分析法模型的建立与求解5.2.1因子分析法的数学推导:因子分析是一种降维,简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构,这几个抽象的变量就是因子。每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即 (7.1)(7.1)式中的称为公共因子,称为的特殊因子。该模型可用矩阵表示为 (7.2)这里 且满足:(1); (2)即公共因子与特殊因子是不相关的;(3),即各个公共因子不相关且方差为1;(4),即各个特殊因子不相关,方差不要求相等。 模型中的

26、称为因子“载荷”,是第i个变量在第j个因子上的负荷,如果把变量看成m维空间中的一个点,则表示它在坐标轴上的投影,因此矩阵A称为因子载荷矩阵。5.2.2模型的建立步骤(1)将数据标准化,标准化后的数据矩阵记入X阵;(2)求矩阵X的相关系数阵;(3)求R的全部特征根i及相应的特征向量;(4)根据前k个主分量累计贡献率大小,确定因子个数;(5)求初始因子载荷阵A;(6)若公因子的含义不清楚,不便于实际解释时,将初始因子阵作旋转处理,直到达到要求;(7)根据因子载荷大小说明因子具体含义。5.2.3模型的求解与分析1. 在SPSS窗口中选择AnalyzeData ReductionFactor,调出因子

27、分析主界面,并将10个变量移入Variables框中。图5.5 因子分析主界面2. 点击Descriptives按钮,展开相应对话框,见图5.6。选择Initial solution复选项。这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。单击Continue按钮,返回主界面。图5.6 Descriptives子对话框3. 点击Extraction按钮,设置因子提取的选项,见图5.7。在Method下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。在Analyze栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。

28、在Display栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。在Extract栏中指定因子提取的数目,有两种设置方法:一种是在Eigenvalues over后的框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;第二种设置方法是直接在Number of factors后的矩形框中输入要求提取的公因子的数目。这里我们均选择系统默认选项,单击Continue按钮,返回主界面。图5.7 Extraction子对话框4.点击Rotation按钮,设置因子旋转的方法。这里选择Varimax(方差最大旋转),并选择Display栏中的Rotate

29、d solution复选框,在输出窗口中显示旋转后的因子载荷阵。单击Continue按钮,返回主界面。图5.8 Rotation子对话框5.点击Scores按钮,设置因子得分的选项。选中Save as variables复选框,将因子得分作为新变量保存在数据文件中。选中Display factor score coefficient matrix复选框,这样在结果输出窗口中会给出因子得分系数矩阵。单击Continue按钮返回主界面。图5.9 Scores子对话框6. 单击OK按钮,运行因子分析过程。我们已经得到了标准化数据的计算相关系数矩阵,然后计算系数矩阵的特征值及方差贡献率见表表5.1所示

30、的特征根和方差贡献率表和表5.2所示的因子载荷阵。第一个因子就可以解释64.817%,第二个因子可以解释19.577%,即前面两个因子可以解释84.394%的方差。 表5.10 旋转前因子载荷阵 表5.11 旋转后因子载荷阵从表5.10中可以看出,每个因子在不同原始变量上的载荷没有明显的差别,为了便于对因子进行命名,需要对因子载荷阵进行旋转,得表5.11。经过旋转后的载荷系数已经明显地两极分化了。第一个公共因子在X1,X2,X6,X7和X8五个指标上有较大载荷,说明这五个指标有较强的相关性,可以归为一类;第二个公共因子在指标X3,X5,X9和X10四个指标上有较大载荷,同样可以归为一类。根据表

31、5.12易得:表5.12 因子得分系数矩阵F1=0.165*X1+0.235*X2-0.063*X3+0.130*X4-0.126*X5+0.213*X6+0.190*X7+0.209*X8-0.059*X9-0.053*X10F2=0.020*X1-0.125*X2+0.241*X3-0.007*X4+0.350*X5-0.078*X6-0.031*X7-0.64*X8+0.326*X9+0.318*X10下面根据输出结果列出浙江省10个地级市在这两个公共因子上的得分情况,进而将各个因子的得分排名列于每一个因子列的后面,结果如下表:F1排序F2排序温州市1553.7422734.0077杭州

32、市2843.51411058.0663宁波市414.829299349.7611嘉兴市936.90554752.41285湖州市503.18086469.09938绍兴市1124.5153850.3914金华市423.180582119.9972舟山市496.13197258.34789台州市889.68335746.21116丽水市298.304410179.992110 表5.13进一步,根据两个因子方差最大正交旋转后的方差贡献率矩阵得到经济综合竞争力(记为F),关于两个公共因子的综合模型:F=62.35%F1+37.65%F2其中的系数是根据公式 根据上述综合模型,再结合表5.13中两个

33、公共因子的得分,我们算出浙江省10个地级市经济综合竞争力得分及排名,结果列与下表。F1F2F排序温州市1553.742734.0071245.1123杭州市2843.5141058.0662171.2932宁波市414.82929349.7613778.8311嘉兴市936.9055752.4128867.4446湖州市503.1808469.0993490.34918绍兴市1124.515850.3911021.3075金华市423.18052119.9971062.0324舟山市496.1319258.3478406.60629台州市889.6833746.2111835.6667丽水市2

34、98.3044179.9921253.759810表5.14浙江省10个地级市经济综合竞争力得分及排名结合表5.13和表5.14的因子分析结果我们可以清楚的看出2014年浙江省10个地级市的经济发展实力中,排在前五名的分别是宁波市,杭州市,温州市,金华市和绍兴市,并且这五个地级市的综合得分都在1000以上;排在后面的地级市是嘉兴市,台州市,湖州市,舟山市和丽水市,这五个地级市的综合得分在0-870之间;与排在前五个地级市相隔甚远。这也说明了浙江省的10个地级市经济发展状况存在显著的差距。5.3 K均值聚类分析法模型的建立与求解5.3.1 K均值聚类分析法的数学推导K均值法是一种快速聚类法,和系

35、统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。在对多元数据进行分析时,相对与数据的大小,我们更多的对变量的变化趋势或方向感兴趣。因此,我们可以利用“夹角余弦法”和“相关系数”两种度量方法。(一)夹角余弦法两变量和看作p维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算 显然,。(二)相关系数 相关系数经常用来度量变量间的相似性。变量和的相关系数定义为 显然也有,。 无论是夹角余弦还是相关系数,它们的绝对值都小于1,作为变量近似性的度量工具,我们把它们统计为。当时,说明变量和完全相似;当近似于1时说明变量和非常密切;当时,说明变量和完全不一样;当近似于0时,说明变量和差别很大。据此,

36、我们把比较相似的变量聚为一类,把不太相似的变量归为不同的类内。在实际聚类过程中,为了计算方便,我们把变量间相似性的度量公式做一个变换为或者,用表示变量间的距离远近,小则和先聚成一类。K均值法只产生指定类数的聚类结果。5.3.2模型的建立步骤(1)将所有的样品分成k个初始类;(2)通过欧几里得距离将某个样品划入离中心最近的类中;(3)重复步骤(2),知道所有的样品都不能再分配时为止。5.3.3模型的求解与分析K均值聚类分析法用统计软件SPSS计算过程与因子分析法过程相似,此处就不再详细说明。聚类结果分析:以下三表给出了10个地级市所属的类及其与所属类中心的距离,聚类形成的类的中心的各变量值以及各

37、类的地级市数。由以上表格可知杭州市自成一类,这一类的类中心10个经济指标的产值分别为9201.16,1920.11,278.58,3426.42,433.81,1886.33,320.41,2301.08,3838.73,4079.88,属于10个经济指标都比较发达的地区。宁波市也自成一类,这一类的类中心10个经济指标的产值分别为7602.51,860.60,431.603490.10,3714.10,1068.10,207.00,1328.10,14400.00,13116.60,属于10个经济指标都欠发达的地区。其余的温州市、嘉兴市、湖州市、绍兴市、金华市、舟山市、台州市和丽水市9个地级市

38、为一类,这一类的类中心10个经济指标的产值分别为2818.03,408.90,205.20,1753.86,595.43,535.36, 87.71,442.25,1275.96,1335.01,属于10个经济指标中等发达的地区。六、总结 根据上述多元统计分析结果我们可以清楚的看出,宁波市、杭州市和温州市排在前三名,而且其综合得分都比较领先,这说明了这三个地级市的经济发展的软硬水平方面都做得比较到位,是经济发达的地区,都在浙江省占据着不可动摇的地位。排在中间的是台州市、嘉兴市、绍兴市、湖州市和金华市,它们的综合得分也不是很低,处于经济欠发达的地区,其经济实力还有待提高。排在最后的两个地级市是舟山市和丽水市,它们的综合得分较低,与前三名相差甚远,其综合竞争力薄弱,还需要加强。 综上,各个地级市经济发展差异的主要原因有自然资源分布的地区差异,投资政策导向的地区倾斜,地域辐射作用的强弱等等。由于这些原因的综合作用,形成了浙江省2014年地级市经济发展的格局。七、合理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论