因子分析和聚类分析在全国省会城市经济实力分析中的应用_第1页
因子分析和聚类分析在全国省会城市经济实力分析中的应用_第2页
因子分析和聚类分析在全国省会城市经济实力分析中的应用_第3页
因子分析和聚类分析在全国省会城市经济实力分析中的应用_第4页
因子分析和聚类分析在全国省会城市经济实力分析中的应用_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

因子分析和聚类分析在全国省会城市经济实力分析中的应用摘要:本文利用SPSS中的因子分析和聚类分析功能对全国26个省会城市经济实力进行分析。先用因子分析,再对因子分析的结果进行聚类分析。本文选取2012年上半年26个省会城市的9个经济指标,通过因子分析提取两个因子计算出26个省会城市的综合得分函数,再根据因子分析得出的得分函数对这些城市进行聚类分析,分类结果为:然后再对分类后的城市进行分析说明,最后针对分类的结果进而得出经济综合实力的结论。关键词:因子分析聚类分析SPSS经济实力一、引言城市的发展是经济发展和社会进步的重要标志。目前,我国正处于加快推进现代化的历史阶段。现代城市既要有发达的经济,也要有发达的文明。文明城市是指在全面建设小康社会、推进社会主义现代化建设新的发展阶段,物质文明、政治文明与精神文明协调发展,经济和社会事业全面进步,精神文明建设取得显著成就,市民整体素质和城市文明程度较高的城市。文明城市,是反映一个地区现代文明程度、城市综合竞争实力的重要标志。创建文明城市对经济社会发展所产生的现实意义和深远影响,已经远远超出了原来一般意义上的群众性精神文明建设活动。我们要从战略高度来看待创建文明城市的重要意义,提高对创建文明城市重要性的认识。随着改革开放的脚步,全国各地经济都有着飞速的发展,人们越来越关注各个省会城市经济实力。经济是衡量一个地区综合实力的重要指标,而依照经济实力对城市进行分类可以看出一个地区综合实力以及发展潜力,利用经济分类,我们也可以得出该地区的发展状况,以及在哪些方面做得不够,哪些方面可以得到改进。基于以上原因,本文运用SPSS对全国26个省会城市,合肥,武汉,长沙,郑州,南昌,太原,西安,福州,石家庄,沈阳,哈尔滨,长春,南京,杭州,济南,南宁,成都,贵阳,昆明,兰州,西宁,银川,海口,广州,乌鲁木齐,呼和浩特2012年上半年的9类经济指标进行因子分析,聚类分析。根据这两种分析的结果,对该26个省会城市进行2012上半年的经济分类。这样能让广大人们群众更清楚的认识此26个省会城市的经济状况,上级部门也可以通过这些分类对这26个地区下达给类发展命令,让这26个城市在经济上能更进一步。选取的这九个经济指标是地区生产总值(X1),社会消费品零售总额(X2),规模以上工业增加值(x3),出口总额(x4),固定资产投资(x5),人民币储蓄存款余额(x6),地方财政收入(x7),农民人均现金收入(x8),城镇居民人均收入(x9)。二、模型假设假设经济指标数据真实、准确;假设选取的经济指标能基本上全面反映城市的经济信息;假设各个经济指标信息之间存在重叠;假设特殊因子。三、符号说明符号表示符号说明x1城市生产总值x2社会消费品零售总额x3规模以上工业增加值x4出口总额x5固定资产投资x6人民币储蓄存款余额x7地方财政收入x8农民人均现金收入x9城镇居民人均可支配收入特殊因子模型分析与建立4.1模型分析4.1.1因子分析因子分析基本思想因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常成为因子。然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。从全部计算过程来看做R型因子分析与作Q型因子分析都是一样的,只不过出发点不同,R型从相关系数矩阵出发,Q型从相似系数矩阵出发都是对同一批观测数据,可以根据其所要求的母的决定用哪一类型的因子分析。因子分析模型基本概念因子分析是一种通过显在变量测评潜在变量测评,通过具体指标测评抽象因子的分析方法,最早是由心理学家ChalesSpearman在1904年提出的,他的基本思想是将实测的多个指标,用少数几个潜在的指标(因子)的线性组合表示。因子主要应用到两个方面:一是寻求基本结构,简化观测系统;二是对变量或样本进行分类。统计原理因子分析的核心是用奇偶少的相互独立的因子反映原有变量的绝大部分信息,可以通过下面的数学模型来表示。设原有个变量,且每个变量(或经标准化处理后)的均值为0,标准差均为1。现将每个原有变量用()个因子的线性组合来表示,即有(4.1)式(4.1)便是因子分析的数学模型,也可用矩阵的形式表示为.其中称为因子,由于它们出现在每个原有变量的线性表达式中,因此又称为公共因子。因子可理解为高维空间中互相垂直的个坐标轴;称为因子载荷矩阵,()称为因子载荷,是第个原有变量在第个因子上的负荷。如果把变量看成维因子空间的一个变量,则表示在坐标轴上的投影,相当于多元线性回归模型中的标准化回归系数;称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差。由式(4.1)可知因子是不可见的。因子载荷在因子不相关的前提下,因子载荷是变量与因子的相关系数,反映了变量与因子的相关程度。因子载荷值小于等于1,绝对值越接近1,表明因子与变量的相关系数越强。同时,因子载荷也反映了因子对解释变量的重要作用和程度。变量共同度变量共同度也即变量方差,变量的共同度的数学定义为(4.2)式(4.2)表明,变量的共同度是因子载荷矩阵中第行元素的平方和。在变量标准化时,由于变量的方差可以表示成,因此原有变量的方差可由两个部分解释:第一部分为变量共同度,是全部因子对变量方差解释说明的比例,体现了因子全体对变量的解释贡献程度。变量共同度越接近1,说明因子全体解释说明了变量的较大部分方差,如果用因子全体刻画变量,则变量的信息丢失较少;第二部分为特殊因子的平方,反应了变量方差中不能由因子全体解释说明的比例,越小则说明变量的信息丢失越少。总之,变量的共同度刻画了因子全体对变量信息解释的程度,是评价变量信息丢失程度的重要指标。如果大多数原有变量的变量共同度均较高(如高于0.8),则说明提取的因子能够反映原有变量的大部分(80%以上)信息,仅有较少的信息丢失,因子分析的效果较好。因此,变量共同度是衡量因子分析效果的重要依据。因子的方差贡献因子的方差贡献的数学定义为(4.3)式(4.3)表明,因子的方差贡献是因子载荷阵中第列元素的平方和。因子的方差贡献反映了因子对原有变量总方差的解释能力。该值越高,说明相应因子的重要性越高。因此,因子的方差贡献和方差贡献率事衡量因子重要性的关键指标。4.1.2聚类分析系统聚类的基本思想系统聚类方法的基本思想是首先定义样品间的距离(或相似系数)和类与类之间的距离。初始将n个样品看成n类(每一类包含一个样品),这是类间的距离与样品间的距离是等价的,然后将距离最近的两类合并成为新类,并计算新类与其他类的类间距离,再按最小距离准则并类。这样每侧缩小一类,直到所有的样品都并成一类为止。聚类分析计算方法系统聚类法的聚类原则决定于样品间的距离(或相似系数)及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法。1、最短距离法A.类与类之间的距离定义为两类中相距最近的样品之间的距离,即列为和之间的距离定义为=B.当某步骤类和类合并为和后,按最短距离法计算新类与其他类的类间距离,其递推公式为:2、最长距离法A.类与类之间的距离定义为两类中相距最远的样品之间的距离,即列为和之间的距离定义为=B.当某步骤类和类合并为和后,按最长距离法计算新类与其他类的类间距离,其递推公式为:3、中间距离法A.如果类与类之间的距离既不采用两同类之间的最近距离,也不采用最远的距离,而是采用介于这两者间的距离,这种方法称为中间距离法。B.当某步骤类和类合并为和后,按中间距离法计算新类与其他类的类间距离,其递推公式为4、重心法A.如果将两类间的距离定义为两类中心间的距离,这种方法称为重心法。B.当某步骤类和类合并为和后,它们所包含的样品个数分别为和,并定义样品间的距离为欧式距离,按重心法计算新类与其他类的类间距离,其递推公式为:5、类平均法A.用两类样品两辆之间平方距离的平均作为类之间的距离,这种方法叫作类平均法B.当某步骤类和类合并为和后,它们所包含的样品个数分别为和,按类平均法计算新类与其他类的类间距离,其递推公式为:6、可变类平均法可变类平均法是将合并后的新类与其他类的距离平方公式进一步推广为:7、可变法纪McQuitty相似分析法当某步骤类和类合并为和后,可变法把与其他类的距离平方公式进一步定义为:,若则把此方法称为McQuitty相似分析法三8、离差平方和法(Ward法)A.Ward法是先将n个样品各自成一类,每次选择使所有类的总离差平方和增加最小的两类进行合并,直至所有样品合并为一类为止。Ward法把某俩国内类合并后增加的离差平方和看成为类间的平方距离。B.当样品间距离采用欧式距离时,步骤类和类合并为和后,它们所包含的样品个数分别为和,新类与其他类的类间距离的递推公式为:五、模型求解5.1数据处理原始数据(附录1)选取2012年上半年全国26个省会城市地区生产总值(x1)、社会消费品零售总额(x2)、规模以上工业增加值(x3)、出口总额(x4)、固定资产投资(x5)、人民币储蓄存款余额(x6)、地方财政收入(x7)、农民人均现金收入(x8)和城镇居民人均收入(x9)九个经济指标,其中缺失值用均值处理。5.2因子分析5.2.1考察原有变量是否适合做因子分析表1原有变量的相关系数矩阵表1是原有变量的相关系数矩阵。可以看到,大部分的相关系数都较高,各变量呈较强的线性关系,能够从中提取公共因子,适合因子分析。表2巴特利特球度检验和KMO检验KMOandBartlett'sTestKaiser-Meyer-OlkinMeasureofSamplingAdequacy..837Bartlett'sTestofSphericityApprox.Chi-Square269.641df36Sig..000由表2可知,巴特利特球度检验统计量的观测值为278.552,相应的概率P接近0。如果显著性水平为0.05,由于概率P小于显著性水平,应拒绝零假设,认为相关系数矩阵与单位阵有显著差异。同时,KMO值为0.836,根据Kaiser给出了KMO度量标准可知原有变量适合做因子分析。5.2.2提取因子这里首先进行尝试性分析。根据原有变量的相关系数矩阵,采用主成分分析法提取2个因子,因子分析初始解如表3。表3因子分析初始解CommunalitiesInitialExtraction地区生产总值1.000.959社会消费品零售总额1.000.922规模以上工业增加值1.000.883出口总额1.000.855固定资产投资1.000.948人民币储蓄存款余额1.000.779地方财政收入1.000.953农民人均现金收入1.000.708城镇居民人均可支配收入1.000.757表3是指定提取两个特征根时的因子分析的初始解。由第二列可知,此时所有变量的共同度均较高,各个变量的信息丢失都较少。因此本次因子提取的总体效果较理想。表4因子解释原有变量总方差的情况表4是对因子解的描述,其中包括特征根值,方差贡献率和累积贡献率。从上表可知,前两个特征值累计贡献率达到86.28%>85%,说明前两个主成分基本包含了全部指标具有的信息,所以,提取两个主成分是合理的。图1横坐标为因子数目,纵坐标为特征跟。可以看到:第一个因子的特征根值很高,对解释原有变量的贡献最大;第三个以后的因子特征值都较小,对解释原有变量的贡献很小,因此提取两个因子是合适的。图1因子的碎石图表5显示了因子载荷矩阵,是因子分析的核心内容。表5因子载荷矩阵ComponentMatrixaComponent12地区生产总值.979.032地方财政收入.965.145社会消费品零售总额.960-.015规模以上工业增加值.928.151人民币储蓄存款余额.875-.118出口总额.857-.348城镇居民人均可支配收入.835-.246农民人均现金收入.817-.199固定资产投资.719.657根据该表可以写出本应用案例的因子分析模型:地区生产总值=0.9790.032地方财政收入=0.9650.145社会消费品零售总额=0.96—0.015规模以上工业增加值=0.9280.151人民币储蓄存款余额=0.875—0.118出口总额=0.857—0.348城镇居民人均可支配收入=0.835—0.246农民人均现金收入=0.817—0.199固定资产投资=0.7190.657由表5可知,9个变量在第一个因子上的载荷都很高,意味着它们与第一个因子的相关程度高,第一个因子很重要;第二个因子与原有变量的相关性均很小,它对原有变量的解释不显著。另外还可以看到,这两个因子的实际含义比较模糊。5.2.3因子的命名解释这里采用方差最大发对因子载荷矩阵实施正交旋转以使因子具有命名解释性。指定按第一因子在和降序的顺序输出旋转后的因子载荷后的因子载荷以及旋转后的因子载荷图。分析结果如表6。表6旋转后的因子载荷矩阵RotatedComponentMatrixaComponent12出口总额.901.208城镇居民人均可支配收入.825.278社会消费品零售总额.794.540人民币储蓄存款余额.783.406农民人均现金收入.783.307地区生产总值.782.589地方财政收入.706.674规模以上工业增加值.672.657固定资产投资.211.951由表6可知,地区生产总值(x1)、社会消费品零售总额(x2)、规模以上工业增加值(x3)、出口总额(x4)、人民币储蓄存款余额(x6)、地方财政收入(x7)、农民人均现金收入(x8)、城镇居民人均收入(x9)在第一个因子上有较高的载荷,第一个因子主要解释了这几个变量,可解释为财政经济指标;固定资产投资(x5)在第二个因子有较高的载荷,第二个因子主要解释了这一个变量,可解释为投资建设经济指标。与旋转前相比,因子含义较为清晰。5.2.4计算因子得分这里,采用回归法估计因子得分系数,并输出因子得分系数,结果如表7。表7因子得分系数矩阵ComponentScoreCoefficientMatrixComponent12地区生产总值.087.117社会消费品零售总额.124.061规模以上工业增加值-.014.249出口总额.380-.330固定资产投资-.447.814人民币储蓄存款余额.197-.064地方财政收入-.005.246农民人均现金收入.256-.162城镇居民人均可支配收入.296-.215根据表7可写出以下因子得分函数:=0.087地区生产总值0.124社会消费品零售总额—0.014规模以上工业增加值0.38出口总额—0.447固定资产投资0.197人民币储蓄存款余额—0.005地方财政收入0.256农民人均现金收入0.296城镇居民人均可支配收入=0.117地区生产总值0.061社会消费品零售总额0.249规模以上工业增加值—0.33出口总额0.814固定资产投资—0.064人民币储蓄存款余额0.246地方财政收入—0.162农民人均现金收入—0.215城镇居民人均可支配收入计算出26个省会城市的因子得分(附录2)。5.3聚类分析这里利用SPSS系统聚类Q型聚类对26个省会城市进行分类分析。其中个体距离采用欧氏距离,类间距离采用离差平方和距离(ward)。分析结果如图2树状图。图226个省会城市经济实力层次聚类分析由上图可看出把26个城市分为3类时的分类结果如表8。表826个省会城市经济实力分类结果由上表知,可把26个城市分为3类;第一类:合肥、南昌、太原、石家庄、哈尔滨、长春、南宁、贵阳、昆明、兰州、西宁、银川、海口、乌鲁木齐。这一类由于地理,资源等因素,经济还是主要依靠传统的工业、农业和制造业为主。居民的平均消费水平较低,投资力度也较低综合起来的经济实力在这26个城市中低于其他两类;第二类:武汉、长沙、郑州、西安、福州、沈阳、南京、济南、成都、呼和浩特。这一类城市从改革开放以来,由于自身的环境因素和国家加大投资开发建设,经济规模和经济产量大大增加,并且经济正在逐步由传统的工业、农业、制造业往第三产业转型,所以综合经济实力在前一类城市之上;第三类:杭州、广州。这一类城市最早成为中国沿海开放城市,再加上国家每年大力度的投资建设,经济一直是领跑全国,经济实力强于其他两类城市。六、模型评价与推广6.1模型评价6.1.1优点因子分析优点:消除了评价指标之间的相关影响;通过评价方法模式化、降维的简化作用减少了指标选择的工作量;权数的确定具有统一的客观标准,具有非人为性或者非随意性,采用信息权数有助于客观地反映样本间的现实关系。聚类分析优点:聚类分析模型的优点就是直观,结论形式简明。6.1.2缺点因子分析缺点:样本容量要足够大,因子分析的综合评价有可能包含重复信息;评价标准与样本有关,评价结果是一个相对优劣顺序。聚类分析缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。6.2模型推广本题采用的模型有两个,包括因子分析法,聚类分析法,综合来说这些模型能很好地解决题目所要求解决的问题。而且他们之间的每一个都可以推广到现实生活中去。因子分析可以推广到分析大学生消费行为的主要因素聚类分析法可以推广到对产品的分级七、参考文献[1]薛薇,《SPSS统计分析方法及应用(第二版)》,北京:电子工业出版社,2009[2]高惠璇,《应用多元统计分析》,北京:北京大学出版社,2005[3]茆诗松,《概率论与数理统计》,北京:高等教育出版社,2011年八、附录附录1城市地区生产总值社会消费品零售总额规模以上工业增加值出口总额固定资产投资人民币储蓄存款余额地方财政收入农民人均现金收入城镇居民人均收入合肥1751.67625.26772.8240.761876.31974.81191.66450513358武汉3734.951648.041298.5352.92339.414608.91424.2682114546长沙2896.51153.111110.1720.841900.522853.18287.981005415645郑州2622.911119.281255.4786.831594.713650.3303.29821912403南昌1296.74541.44434.7636.981030.321771.42126.95648811389太原1044.72562.33347.7415.53325.432904.72117安1832.981047.98520.9930.361723.714555.4210.61604914713福州1657.51071.36706.5691.921447.022925.74195.3625915470石家庄2041.2829.9830.936.11512.33575.6146.1540511400沈阳3209.561327.61604.430.12642.94111382.2948413068哈尔滨18411087.3302.48.6711.93265.5187.5680210238长春1906825.6913.612.9988.52628.8185.111123南京3398.131490.721275.19151.172041.674355.78373.6926619388杭州3372.681332.811134.53199.51486.25745.23460.431112920590济南2266.831080.955327.63967.32735.1203.28756815574南宁1120.67588.39296.1711.741003.955340.68115.37522411437成都3951.41614.661137.7147.332775.066622416.78729014067贵阳685.78312.75214.4410.371242.761378.33133.02411211011昆明1347.9639.48412.6115.451077.012848.63184.43572112910兰州715.09353.06278.1322.68429.161582.7652.1631439095西宁373.51144.94147.971.9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论