主成分分析和因子分析在评价区域经济发展水平中的应用_第1页
主成分分析和因子分析在评价区域经济发展水平中的应用_第2页
主成分分析和因子分析在评价区域经济发展水平中的应用_第3页
主成分分析和因子分析在评价区域经济发展水平中的应用_第4页
主成分分析和因子分析在评价区域经济发展水平中的应用_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主成分分析和因子分析在评价区域经济发展水平中的应用圃2007军第9期·现代管理科学·名家观察主成分分析和因子分析在评价区域经济发展水平中的应用.贾万敬伺建敏摘要文章从主成分分析、因于分析的发展过程、基本原理.应用等方面出发来全面地介绍多元数据处理的主要方法.文章以江苏省各地市经济发展水平为例,根据江苏省各市2005年的国民经济主要统计指标,利用spss软件处理的结果来说明上述方法在坪价江苏省各地市的经济在展水平中的应用.关键词=主成分分析;因于分析;区域经济一、引言的,而协方差矩阵对劣点值相当敏感,为了增强主成分分我国是一个经济与社会发展水平,资源与环境禀赋情析的稳健性,对

2、协方差进行算法改进,从而提高主成分分况在各区域间差异非常大的国家。自科学发展观提出以析的稳健性。来,区域经济协调发展的研究得到了充分的重视。要制订主成分综合评价应用中也存在很大争议,有的学者就出促进区域经济协调发展的有效政策,首先,必需对区域提出了究竟应选取多少个主成分来对样本进行排序的问经济发展的水平做出合理的评价,从中找出形成区域经济题。一般来说,主要有两种观点:一是只用第一主成分,英发展水平差异的关键因素。主成分分析和因子分析是多兀罔统计学家肯德尔认为.第一主成分能够最大限度地反映统计中十分常用的两种方法,本文将着重介绍这两种方法样本间的差异,是概括指标差异信息的最佳线性函数。因的基本原

3、理、数学模型以便从根本上揭示出这两种方法的此,只能用第一主成分对样本综合排序。我国也有部分学区别。本文还将介绍主成分分析和因子分析的发展历程和者持这种观点,南开大学孟生旺老师从几何投影角度阐应用领域。结合江苏省区域经济发展的现状,选取反映明,在多指标综合评价中,只有第一主成分结合原始数据25年江苏省13个地级市经济发展水平的12个主要统的信息最多,因而也就只能以第主成分值作为综合评价计指标,运用因于分析方法对江苏省各地级市的经济发展值才合理。另一种观点则认为,不仅要充分重视第主成的基本状况进行综合评价。分,而且也要顾及其它主成分在综合评价中所起的作用,二、分析方法简介否则,损失的信息较多,有时

4、甚至困歪曲样本间的实际相统计推断的理论工作大多数都是基于总体为多元正对地位。提出的改进办法是:先技累积方差贡献率不低于态的假定,然而在高于一维的情况r,要说明一组样本来某个阀值(比如85%)的原则确定前几个主成分,然后以每自多元正态总体是非常困难的,而且多个变量使用的测量个主成分各自的贡献率为权数将选定主成分线性如l权求单位也可能各不相同或者变量间的数值大小相差很大。网和来综合评价样本的优劣。此,要对多元数据进行处理,通常将初始变量标准化。(2)主成分分析的原理。主成分分析是一种通过降维1.主成分分析。技术把多个变量把多个变量化为少数几个主成分的统计(1)主成分综什评价的产生和发展。主成分分析

5、分析分析方法。这些主成分能够反映原始变量的绝大部分(principle component analysis)的概念最早在1901年由皮信息,它们通常表示为原始变量的某种线形组合。当原来尔逊(karlpean;o川首先引人,对非随机变量讨论,1933年p个变量的总变差能够由少数几个线形组什来概括的话.数学家霍特林(hotelling)把它推广到随机向量。jouife那么这些线形组合中包含的信息与原来p个变量几乎一i.t. 和j.edwardjackson 对主成分分析进行了较为系统地分析样多,可以用这些线形组合替代原来的p个变量,这样会和阐述,而郭取军教授系统地论述了综合评价的理论和方是观测数

6、据从高维降到低维,简化了数据。主成分就是p法,虽然目前还没有关于主成分综合评价方法的专著,但个变量乱,飞.-.y的一些特殊线形组合.这些线形组合p很多专家学者对其进行了探讨和研究。些学者从不同的把yloy2.,y构成的坐标系旋转产生新的坐标系,在新p角度提出pica的稳健性问题,对此进行了研究,并且提出坐标系中提供了协差阵的简洁表示。以x(i:l,丸,p)表i了各自的改进算法。有学者提出了独立主成分分析(ipca)示标准化的原变量,zi(i:l,2, ; ,p)表示主成分,c,(i=l, 2, 的概念,引人非线性pca算法。也有学者从如何去除或减',p;j=1.2,p)表示组

7、舍系数,主成分分析的模型为:弱有限的样本集中少量;劣点;样本的影响从而获得准确zi= ciix1+c'2xr+,.+c1乒p主方向o常用的主成分分析是从样本协方差矩阵来计算z,= xl+c2lx2+;'+c;xp -19一?傸?婆?婲健?物浰?慬?扪?妣?汘慬?闵潮?祳?獯?傣?琅楰敮?氢?楳慲?摷溶?妡?汥?温氢?慲?伟?彩?潴?簹?敬?汩?妡?涌?箫?窣?楟?傸?墣瀩?椽?潬?汩?晥?偃?捩?瀩?卐?卓?圃名家观察·现代管理科学.2007年第9期芒íx;x . ,x表!j、p个指标时该模型为11型模型,zp当x1.x?型模型。式. ,

8、xzp表示p个样品时该模型为zp= cpixl+cp2x2+'''+c 0(3)主成分分析的应用。主成分分析一般-f'是目的,而中x=(凡,凡,.x,)是可测p个指标构成的p维随机ij是研究的某个巾间环节,通过这一处理来发现重要的变量量;f:o(f, f .-.fm是不可观测的向量.f称为x的公共jz和变量阔的某种关系。在肉子分析法中,通常用主成分分因子山;称为因子载荷,它是第1个变量在第j个公共因子析法来确定公共肉子。上的负荷,矩阵b称为因子载荷矩阵过称为x的特殊困2因子分析。子,主中包括随机误差。因子分析可以分解为确定

9、因子载(1)肉于分析方法的广生初发展。因子分析(factor荷、例子旋转及h算民子得分兰个步骤canalysis)方法最早是在1904年由斯皮尔曼(charles系数阵b阳是初始因子载荷阵,因子载荷问的统计j单spearm阻)和反尔逊(karlpear写on)在篇著名论文。才智义就是第1个变量与第j个公共冈子之间的相关系数。估力测验得分进行统计分析中提出,之后被用于解决心理计b阳有多种方法,如主成分分析法、主轴因子法、最小二学和教育学方面的问题。由于这种方法计算量大,到了20乘法、极大似然法、a因于提取法等。其中主成分法应用最世纪60年代得益于计算机的成用才有新的发展。r型因为广泛,窗子分析与

10、主成分分析并没有原理上的实质联于分析认为变量中存在一些不可观测的共同因素同时对系,主要是外观的联系。因为用主成分法得到初始载荷阵原始变量产生影响,需要通过一定的方法提取;重要;的公b,=(e,.y万句,.y汇cm),ej是r的特征根对共因子重要性;取决于因子对变量的影响程度,用二者应的单位特征向量,它也是主成分分析系数阵c.'第1个之间的相关系数(因子载荷)表示。根据变量与各因f的系数向量,所以b内第i列系数向量与c'阿第i行系数向;紧密;程度,把原始变量归结到各因子中,通过这些;精量仅相差倍数汇c炼;的因子认识复杂现象。因子分析的目的是用几个不可用主成分法

11、确定肉子载荷的方法比较简单,但是这种观测的隐变量来解释原始变量间的协方差关系。方法所得到的特殊因子,毡之间并不相互独立,因(2)因子分析的原理。因子分析是假定p个变量的变此,用主成分法确定因于载荷不完全符合因子横型的假设异主要是一些共同的因于引起的,希望用少数几个公共因前提,也就是说所得的因子载荷并不完全正确g但是当共子来解释变量中的主要变化。由于样本内含样品和指标的同度较大时,特殊因于所引起的作用较小,因而特殊因子两维性,因子分析分为r型和o型,前者是基于指标的分之间的相关性所带来的影响就几乎可以忽略。由于满足上析,而后者是基于样品的分析。因子分析的数学模型(正交述模型的系数阵b阳不唯一,这

12、成为园子载荷阵旋转的理因子模型)为.论依据。一般情况下,初始因子载荷阵中各变量对因于的x,=huf,+ b12f2+;'+btjm'吨系数没有靠近两极数搞;0;和;1;,说明各变量在每个因于xz=b;f,+ b;f计.+b;,fm+上;分量;差4多,各因子并不;偏向;某些变量,这样很难提炼公共因子的意义,因此要旋转bp_.改变它的坐标旱,x,=b;f,+ b;f户'+b;f.+,使变量;偏向;不同的因子,并根据系数绝对值对变量归类表12005年江苏省各市国民经济主要统计指标人均gdp 高新技术第气产第二产城镇固定地方财政规模以规模以上社会消

13、费消费品第一产gdp 增长率产业产业产值业产值业产值资产投资总收人上工业工业利税品零售总零售总(元/人)(%) 值(亿元)(亿元)(亿元)增长率(亿元)(亿元)增加值总额额(亿元)额增长(%) (亿元)! (亿元)率(骨)y, yy, , y, y, yy, y, , y; 飞hyiy1116.3 南京1 116.44 35538 510.17 961.68 i 365.39 i15.2 1 236.8 1 004.99 1 215 1 118 13.1 16.3 元锡890且i50964 421.8 1 15.1 1 695 1 060 353.1 384.77 824.1 14.8 l31

14、241 6 15.7 徐州435.23 113 697 14.3 85.1 612.05 431.95 145.26 397.36 150.68 396.04 17.9 常州534.7 制4.0816.2 31 969 .42 161.84 15.1 79 220.45 6035.31 450.39 14.73600895-0.157 苏州16.5 54165 1 233.76 718.1 2463.7 598.15 905.07 15.3 2 691.3 1256.32 16.9 南通16.2 370.69 19979 15171.19 564.53 163.01 536.41 .4 426

15、.15 823.99 485.9 14.4 220.28 182,08 i 15.6 连古汹10362.04 14.2 201.52 161.09 56.28 96,09 32.81 14.9 淮安14.9 11 255 46.93 232.46 14.3 188.22 75.56 160.86 73.66 198.62 255.75 14.4 15.6 盐城264.27 12932 14.3 126,73 453,79 325.56 86.89 272.27 78.23 316.91 14.2 15,7 295.55 20389 272.07 15 518 117.03 388.76 102

16、.38 306.89 318.22 14.3 扬镇江州15.0 262.77 28241 324,97 118.42 360.44 97.71 241.39 15 512,01 283.29 16.6 15.7 218.69 334,82 112,94 323.39 107,8 233.81 15 479.8 249,6 13.9 问;寻首州寻迁12414.9 i .55 i 7568 14.6 6.15 112,5 25.83 56.88 14.27 109.5 163.25 15.4 -20 -?穰?印健?硬堲塰?攲?奖?夳奤夵夶妣失?夳奱奖?妡?慬敡慲?碣?檲?琵?祳牭獯?扰?楳虑温?碣

17、?抣?簳?灬?砽?榸?硬戱?抿?狋?吨?汥?碡?懒?采?浘?牬?勐?傸?扉歆?灭燊?洫?墡?彽?彬?捴慲?泐凐?采?潲汥?勐?墵?傸?.27年第9期·现代管理科学·名家观察命名,最常用的旋转方法是最大方差正交旋转。验目的是确定所要求的数据是否取自多元正态分布的总(3)因子分析的应用。近年来,随着现代高速电子计算体,若差异检验的f值显著,表jj所取的数据来自在态分机的出现,人们将网子分析的理论成功地应用于心理学布总体,可以做进一步分析;kmo检验目的是分析观测变会学、经济学、人口学、地质学,英三呈f巨-在化学和物理学中t也量之间的简单相关系数和偏相关系数的相对大小来确定得到成

18、1矿1功1地运用.这f使史得因于分析的理论和h法吏j川川丰富c该数据是否适合进行因子分析,取值变化在0-1之间,若三、实证研究kmo过小,说明变量之间的相朵小能被其他变量解择.进本文选取25年江苏省各地级市的12个国民经济行网子分析不适合。通过spss软件计算得到以上数据的主要统计指标(资料来源=江苏省统计局,26),相关数据?art!ctt检验的f值等于0.000,表明所取的数据来自正态见表10利用spss统计软件对表1的数据进行处理,在因分布的总体;kmo检验值为0.726,肉此适合1世囚f分析e子分析的过程中使用主成分法提取公共因子。(注1表示本文使用spss13.0对数据进行因子分析,

19、采用主成分原始变量.x;表示标准化后的变量)法提取特征值大于1的主成分作为公共因子,得到方差最表2因于旋转后的载荷矩阵、特征值贡献丰和草计贡献率太正交旋转后的因子载荷矩阵、特征f庄、贡献率和累计贡献率。特征值大于1的前两个公冈子的累计贡献率已达到第-主因f第二主因子同哇乒)90.8%,可见提取2个因子后,它们反映了原始变量的大0.020 0938 部分信息。从旋转后的因于载荷矩阵可以得到12个原始gdp增k率-0.374 0.682 变量号这2个因子之间的表达式如下:高新技术产值0.153 0.953 x,= 0.938f,+0.020f, 第一产业产值0.976 0.158 x,=0.682

20、f,-0.374f, 第二产业产值-0.041 0.976 第一产业产值增长率口.0930.949 x,=0.822f,-0.287f, 城市固定资产投资0.968 。.011从表2可以看出,第一主因于在规模以上工业利税总地方财政总收入0.039 00996857 额、地方财政总收入、第二产业产值、第三产业产值等指标规模以上工业增加值0.188 上具有较大的载荷,这些指标均反映r地区的经济总量,规模以上利税总额0.989 0.094 因此可以将第一主因子命名为;经济总量因子;。而第二主社会消费品零售总额0.942 -d.173 因子在第三产业产值增长率上具有较大的载荷,这是反映社会消费品零售总

21、额增长率-d.287 0.822 经济增长速度的指标,因此可以将第二主因子命名为;经特征值9.553 1.248 济增长速度因子飞从表三的综合因子的分的数值来看,得贡献率(%)797 10.401 分值大的三个地区为苏州、南京、无锡,它们的综合闵于得累计贡献率(%)797 90.008 分值大于1,可见这三个地区的经济发展水平居于前列,表3因于得分及综合排在明显好于其它地区的经济发展状况。而位于苏北地区的宿!城市因子得分综合因综合排名l迁、淮安、连云港三个地区,其综合因子得分的分俏很低,子得分f, 说明它们的经济发展水平与苏州、南京、无锡三个地区相02if52 46 1.083 02 2 比要

22、落后很多,属于经济欠发达地区,其它地民的经济发l南元锡京忙去;:0.83997 1.069 3 展处于居中水平。徐州0.081 13 -1.44534 -0.09525 6 参考文献常州-d.1b 52 0.898 23! 0.003 38 1. jean boivin,serena ng. are more data always 苏州:寸2.27479 0.36344 2.05394 better for factor analysis? journal of economet?南通0.241 76 -0.517 88 0.15399 4 rics,2006, (132): 169-194. 连e港-0.794 12 -0.30379 -d.73746 11 2. congde lu,chunmei zhang, taiyi zhang, wei 淮安-0.788 0.391 54 0.74272 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论