主成份分析和因子分析实例_第1页
主成份分析和因子分析实例_第2页
主成份分析和因子分析实例_第3页
主成份分析和因子分析实例_第4页
主成份分析和因子分析实例_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于主成份分析和因子分析实例第1页,课件共63页,创作于2023年2月各个主成分分析是原始指标的线性组合第2页,课件共63页,创作于2023年2月满足如下的条件:主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为1。即第3页,课件共63页,创作于2023年2月设X的协方差阵为Σ,1,2,…,p为Σ的特征根,不妨假设12…p

,可以证明:第一主成份的方差为1,线性组合的系数为1所对应的特征单位向量。进一步可以证明为各个特征根所对应的标准正交向量所组成的矩阵第4页,课件共63页,创作于2023年2月因子分析的基本思想因子分析也是一种数据简化的方法。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个不可观测变量来多个变量的相关关系。这几个不可观测变量能够反映原来众多变量的主要信息,这些不可观测的潜在变量称为因子。第5页,课件共63页,创作于2023年2月基本的因子分析模型:第6页,课件共63页,创作于2023年2月

称为公共因子,是不可观测的变量,系数称为因子载荷。是特殊因子,是不能被前m个公共因子包含的部分。并且满足:即不相关;即互不相关,方差为1。即互不相关,方差不一定相等第7页,课件共63页,创作于2023年2月Analyze→DataReduction→Fctor进入因子分析和主成份分析对话框13例1:利用2007年全国31省市自治区经济发展情况的八项指标做主成份分析。第8页,课件共63页,创作于2023年2月■Descriptive框:选择描述性统计量。第9页,课件共63页,创作于2023年2月◘Statistics:

►Univariatedescriptives输出原始变量的均值、标准差等单变量的描述统计量。

►Initialsolution

给出因子提取前,分析变量的公因子方差。对于主成份分析来说,这些值是分析变量的相关(协方差)矩阵对角线的元素。◘CorrelationMatrix

相关矩阵栏

►Coefficients

给出原始分析变量间的相关系数矩阵。

►Significancelevels给出每个相关系数相对于0的单尾假设检验的显著性水平。

►Determinant给出相关系数矩阵的行列式值。第10页,课件共63页,创作于2023年2月►Inverse

给出相关系数矩阵的逆矩阵。►Reproduced

再生相关矩阵。此项给出因子分析后的相关矩阵,还给出残差,即原始相关阵与再生相关阵的差。►Anti-image

给出反映像相关矩阵►KMOandBartletttestofsphericity

要求进行KMO检验和球形Bartlett检验。KMO是用来比较变量间相关系数的大小。如果KMO接近1,表示适合做因子分析,如果KMO接近0,表示不适合做因子分析。球形Bartlett检验是检验相关矩阵是否是单位矩阵,表明数据是否合适做因子模型。第11页,课件共63页,创作于2023年2月■Extraction按钮:用于设置因子提取方法、迭代收敛条件、公因子数等。第12页,课件共63页,创作于2023年2月◘Method:选择因子提取方法,共有七种因子提取方法,默认为主成份法。七种方法分别是:PrincipalComponents:主成份法;Unweightedleastsquares:未加权最小二乘法Generalizedleastsquare:综合最小平方法Maximumlikelihood:最大似然估计法Principalaxisfactoring:主轴因子法Alphafactoring:因子法Imagefactoring:映像因子法。第13页,课件共63页,创作于2023年2月◘Analyze

►CorrelatonMatrix

使用相关矩阵进行因子分析。如果原始变量的量纲不同选择此项。►CovarianceMatrix

使用协方差矩阵进行因子分析。◘Extract因子提取选项。►Eigenvaluesover

指定提取的因子的特征根应具有的范围。►Numberoffactors

指定提取公因子的数目。第14页,课件共63页,创作于2023年2月◘Display

指定与因子提取相关的输出项。

►Unrotatedsolution

要求显示未经旋转的因子提取结果。

►Screeplot

显示碎石图。◘MaximumiterationsforConvergence

指定因子分析收敛的最大迭代次数,默认值为25.第15页,课件共63页,创作于2023年2月■Rotation按钮第16页,课件共63页,创作于2023年2月◘Method

选择旋转的方法。►None

不进行旋转。►Varimax

方差最大旋转。是一种正交旋转。它使得每个因子具有最高载荷的变量数最小。►DirectOblimin

直接斜交旋转。如果指定此项需要输入Delta值,越接近于0,斜交程度越深。►Quartmax四次最大正交旋转。四次方最大法通过使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。四次方最大旋转是从简化载荷矩阵的行出发,通过旋转初始因子,使每个变量只在一个因子上又较高的载荷,而在其它的因子上尽可能低的载荷。如果每个变量只在一个因子上有非零的载荷,这时的因子解释是最简单的。第17页,课件共63页,创作于2023年2月►Equamax平均正交旋转。是方差最大旋转和四次最大旋转的结合。可以使在一个因子上有较高载荷的变量数和变量中需要解释的因子数最少。►Promax斜交旋转方法。允许因子之间彼此相关,它比直接斜交旋转更快,因此适用于大数据集的因子分析。◘Display►Rotatedsolution

给出旋转后的因子载荷矩阵和因子转换矩阵。对于斜交旋转除显示以上两项外,还显示因子之间的相关矩阵。第18页,课件共63页,创作于2023年2月►Lodingplots因子载荷散点图。给出以因子为坐标轴的各变量的载荷散点图。如果有两个因子,给出原始变量旋转以后的散点图。如果多于三个因子,则给出基于前三个因子的三维载荷散点图。如果只提取一个因子则不会给出散点图。■Scores因子得分对话框。◘Saveasvariable将因子得分最为新变量保存在数据文件中。2第19页,课件共63页,创作于2023年2月◘Method

指定计算因子得分的方法。►Regression回归法。►Bartlett巴特利特法(加权最小二乘法)。►Anderson-Rubin安德森-鲁宾法。是为了保证因子的正交性,而对Bartlett做的调整。因子得分的均值为0,方差为1,且彼此不相关。◘Displayfactorscorecoefficientmatrix显示因子得分系数矩阵,是标准化的得分系数。第20页,课件共63页,创作于2023年2月■Options

2第21页,课件共63页,创作于2023年2月◘Sortedbysize载荷系数按其数值的大小排列并构成因子载荷矩阵。使在同一个因子上具有较高载荷的变量排在一起,便于观察。◘Suppressabsolutevalueslessthan

不显示那些绝对值小于所指定值的载荷系数。输入0-1之间的数,默认值为0.1。选择此项可以突出载荷较大的变量,便于得出结论。第22页,课件共63页,创作于2023年2月Initial列表示各变量的方差。Extraction列表示每个变量被公共因子提取的方差,即共同度。因子分析结果第23页,课件共63页,创作于2023年2月第24页,课件共63页,创作于2023年2月上表为未经旋转的因子载荷矩阵。国内生产总值=0.968*第一公因子+0.238*第二公共因子。。。。。。第25页,课件共63页,创作于2023年2月再生相关矩阵:它是因子分析后的相关矩阵。即根据各个变量的公共因子表达式所计算的变量之间的相关系数矩阵。残差为原始相关矩阵与再生相关矩阵的差。第26页,课件共63页,创作于2023年2月旋转后的因子载荷矩阵。相对于未旋转前因子载荷的元素更加极端。第27页,课件共63页,创作于2023年2月上表为因子旋转时的因子转换矩阵。第28页,课件共63页,创作于2023年2月成分得分系数矩阵,上表给出了用原始变量表示主成份得分的系数信息。标准化第一主成份(第一公因子)=0.221*标准化后的国内生产总值+……+0.187*标准化后的城乡存款余额第29页,课件共63页,创作于2023年2月未标准化第一主成份=0.221**标准化后的国内生产总值+……+0.187**标准化后的城乡存款余额未标准化第二主成份=-0.046**标准化后的国内生产总值+……+0.016**标准化后的城乡存款余额第30页,课件共63页,创作于2023年2月上表为因子得分的协方差矩阵,由此可见各个因子之间是完全正交的。第31页,课件共63页,创作于2023年2月例2:用主成份分析研究影响我国物价波动的因素。受国内经济波动、居民收入及财富变化、生产成本价格上涨、国际石油、粮食等原材料价格的影响使得我国物价的波动变得极其复杂。由于物价的波动不是取决于某一种因素,或某几个指标,而是受多方面因素的影响。而且随着我国市场化程度的深化以及经济全球化进程的加快,我国物价的波动不仅反映了国内市场中总供给和总需求的矛盾,而且受国际经济的影响,尤其是国际市场价格的影响也越来越大。

因此选取能够反映上述因素的15个经济变量

,进行因子分析。第32页,课件共63页,创作于2023年2月第33页,课件共63页,创作于2023年2月

4个公因子对原始变量方差的累计贡献率为85.89%,可见通过因子分析实现了将15维数据变量降至4维的目的。代表成本因素的各上游价格指数在公因子F1上有较高的载荷,可称为成本因子;而代表居民需求增长的两个收入变量在公因子F3上有较高的载荷,可称为需求因子;表示货币因素的3个变量在公因子F2上有较高的载荷,可称为货币因子;而代表财富变化的股票指数在公因子F4上有较高的载荷,称为财富因子。但还有一些变量的载荷并不是很明确,我们可以通过因子旋转得到实际意义更加明确的因子模式。第34页,课件共63页,创作于2023年2月第35页,课件共63页,创作于2023年2月旋转后的各公因子的载荷可以看出各因子所代表的意义更明确:代表成本因素的各上游价格指数和G7PPI的变化在公因子F1上有较高的载荷,可称

F1为成本因子,同时也表明我国价格的变化,尤其是原材料类价格的变化和国际PPI的变化有较高的相关性;而代表居民需求增长的两个收入变量在公因子F3上有最高的载荷,可称

F3为需求因子;而表示包括GDP增长率在内的货币因素在公因子F2上的载荷都是最大的,可称

F2为货币因子;而代表财富变化的股票指数和表示国际经济形势的G7GDP指数同比增速在公因子F4上载荷最大,称为财富因子和国际经济因子。通过观察旋转后的因子载荷,可以发现各因子所代表实际意义更明确。第36页,课件共63页,创作于2023年2月要考察物价波动,通过观察可以发现CPI在各公因子的载荷分别为0.77、0.08、0.54和0.12,可见代表成本和需求变动的因子和对CPI变化的解释能力是最强的,即在样本区间内物价波动受成本推动和需求拉动的影响较大,其中成本推动占主导地位。

第37页,课件共63页,创作于2023年2月第38页,课件共63页,创作于2023年2月例3:用主成份法构建我国出口景气指数。由于出口同多个产业相关,并涉及投资、生产等经济环节,因此选取多个与出口相关的指标合成出口景气指数,从而综合反映出口的波动水平。目前应用较广泛的景气指数方法有扩散指数(DI)方法、合成指数(CI)方法,还有应用主成分分析、状态空间模型、Markov动态因子转移模型、Probit模型等方法来构建景气指数的方法。在构建某一产业部门的景气指数时,主要应用主成分分析方法。第39页,课件共63页,创作于2023年2月由于中国出口商品总值同比增长率直接反映了中国的出口状况,因此将出口总值增长率作为基准指标。

一致指标是指该指标的波动与当前出口的景气变动大体一致。

先行指标是指在经济波动达到高峰(或低谷)前,超前出现峰和谷的指标。

滞后指标是指那些转折点(峰或谷)滞后于经济波动的指标,其作用在于它的峰和谷的出现可以确认经济波动的高峰或低谷确已出现。

第40页,课件共63页,创作于2023年2月将收集到的指标进行数据处理,计算相应的增长率序列,并将其进行季节调整,然后利用时差相关分析方法、K-L信息量方法、峰谷对应法等多种方法筛选出了15个景气指标,分别构成中国出口的先行、一致、滞后指标组。

本文所选取的一致指标包括加拿大、香港、美国、澳大利亚、韩国、OECD等国家和地区的进口商品总额。由于上述国家和地区都为中国的前10大贸易伙伴,中国向他们的出口额占到出口总额将近90%,而欧盟、美国和香港也是中国贸易顺差的三大来源地;因此他们的进口总额同中国出口额是密切相关的。第41页,课件共63页,创作于2023年2月指标名称K-L信息量相关系数先行指标中国固定资产投资累计增速中国外商直接投资实际利用金额累计增速美国狭义货币指数增速OECD狭义货币指数增速六国加权广义货币指数增速30.50(-12)84.01(-12)42.98(-12)47.45(-9)57.53(-11)0.72(-12)0.37(-12)0.66(-12)0.64(-9)0.65(-12)一致指标中国出口总值增速美国进口商品总值增速澳大利亚进口商品总值增速韩国进口商品总值增速OECD进口商品总值增速加拿大进口商品总值增速香港进口商品总值增速0.00(0)40.01(0)26.24(-2)96.74(-2)28.08(+1)34.50(+1)34.33(+2)1.0(0)0.61(0)0.78(-2)0.64(-2)0.76(+1)0.68(+1)0.69(+2)滞后指标美国进口价格指数发展中国家进口单位价格世界进口单位价格48.38(+5)55.35(+8)51.73(+8)0.55(+5)0.43(+8)0.49(+9)第42页,课件共63页,创作于2023年2月特征向量特征值贡献率(%)累积贡献率(%)1234567第一主成分0.390.390.390.360.400.380.334.9370.3870.38第二主成分0.16-0.38-0.130.34-0.09-0.470.680.699.8680.24计算结果表明:一致指标组的第一主成分的贡献率达到70.38%,较充分地代表了一致指标组的变动状况,因此将第一主成分作为出口一致合成指数。一致指标组各指标的特征向量都在0.3~0.4之间,对合成指数的贡献较为平均。第43页,课件共63页,创作于2023年2月特征向量特征值贡献率(%)累积贡献率(%)12345第一主成分0.410.300.450.560.492.5651.2151.21第二主成分0.230.88-0.15-0.22-0.290.9218.3969.60先行指标组的第一主成分的贡献率为51.21%,还未能充分解释先行指标组的变动。第一和第二主成分的累积贡献率达到了69.60%,解释了先行指标组的大部分变动。第44页,课件共63页,创作于2023年2月

第一主成分中,加权广义货币指数、固定资产投资、美国狭义货币指数、OECD狭义货币指数的特征向量的分量分别为0.41、0.45、0.56和0.49,这表明先行指标组的第一主成分主要包含了上述四个指标的信息。在第二主成分中,外商直接投资的特征向量分量为0.88,这说明先行指标组第二主成分主要受外商直接投资影响。第45页,课件共63页,创作于2023年2月图1出口一致合成指数(一致指标组第一主成分,实线)、出口先行合成指数Ⅰ(先行指标组第一主成分,虚线)图2出口一致合成指数(一致指标组第一主成分,实线)、出口先行合成指数Ⅱ(先行指标组第二主成分,虚线)第46页,课件共63页,创作于2023年2月例4

研究影响住宅价格波动因素的因子分析模型。影响住宅价格波动的因素有宏观经济因素、政策因素、市场的供给、需求和资本因素以及消费者和投资者的心理因素等,本文选择与这些因素相关的14项指标进行分析,各项指标经过标准化处理,进行因子分析结果如下表:

第47页,课件共63页,创作于2023年2月指标名称变动因素f1f2f3f41.房地产开发资金来源中的外商直接投资增速-0.049-0.2350.0150.8742.房地产开发资金来源中的国内贷款增速0.6080.680.238-0.1143.房地产开发资金来源合计增速0.860.130.236-0.1454.房地产开发资金来源中的自筹资金增速0.943-0.2010.011-0.0795.金融机构建筑业贷款增速0.2650.6760.071-0.4076.货币供应量M1增长率0.3400.1410.7610.4647.五年期贷款利率-0.8760.1270.146-0.278.建筑材料购进价格指数(上年=100)0.296-0.890-0.0760.1719.全国住宅土地交易价格指数(上年=100)0.695-0.324-0.477-0.10310.住宅完成投资额增速-0.1950.752-0.0950.14811.商品房新开工面积同比增速-0.2680.6040.654-0.08812.商品房竣工面积同比增速0.0310.7080.437-0.28213.商品房销售面积同比增速0.4420.1810.7840.25114.城镇居民人均可支配收入增速0.3920.13-0.8360.181特征值3.9833.4482.9061.503贡献率(%)28.45224.62620.75810.734累计贡献率(%)28.45253.07873.83684.570第48页,课件共63页,创作于2023年2月

其中,资金来源中的自筹资金增长率、国内贷款增长率,资金来源合计增长率、五年期利率等代表资金可获得性的指标在因子f1上有较高的载荷,并且全国住宅土地交易价格指数在因子f1上也有较高的载荷,因此,用因子f1代表资本可获得性和土地交易价格;同样,可以发现因子f2对各供给因素的载荷较高(如:建筑材料购进价格指数、住宅完成投资额增速、新开工面积增速、竣工面积增速等),因此因子f2代表供给因素;因子f3对需求因素(如:个人可支配收入、销售面积和M1增长率等)的载荷较高,代表需求因子;而资金来源中的外商投资增长率和金融机构建筑业贷款增长率等在因子f4上有较高的载荷,因此因子f4也代表资本可获得性。第49页,课件共63页,创作于2023年2月pe表示商品住宅销售价格的增长率,用商品住宅销售价格指数(上年同期=100)-100来代表。利用普通最小二乘法得到下面的结果:

利用表中列出的4个公共因子代表14个相关变量,进一步分析这些因素对我国住宅价格波动的影响。建立下面的回归分析模型:t=(1.56)(29.76)(3.85)(1.48)(2.48)

t=(14.0)(-7.8)R2=0.998D.W.=2.03第50页,课件共63页,创作于2023年2月由于因子f2在回归结果中不显著,因此从式中剔除掉。表明在本轮的住宅价格上涨中,供给因素的影响较弱。而代表资本可获得性的因子f1和因子f4对价格波动有正的影响,需求因子f3对住宅价格波动也有正的影响。因此,可以得出结论认为近几年我国住宅价格的上涨主要受两方面因素影响:(1)由于缺乏较好的融资渠道,民间大量闲置资本流入房地产住宅投资市场,产生较大的投机需求,造成市场需求虚高;(2)住房制度改革以后释放出的对住宅的大量需求。而实际上,房地产开发资金合计从1998年的5030亿元增加到2005年的25360亿元,在7年的时间里增长了5倍多。而且在表中可以看到住宅土地交易价格在因子f1中有较高的载荷。综上所述,在调控我国住宅价格波动的过程中,紧缩“银根”和“地根”起着重要的作用。第51页,课件共63页,创作于2023年2月对应分析因子分析分为R型因子分析和Q型因子分析。一般来说两种因子分析是分开进行的。这一方面会漏掉一些指标和样本之间的信息,另一方面Q型因子分析的工作量较大对应分析是借助列联

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论