主成份分析与因子分析实例_第1页
主成份分析与因子分析实例_第2页
主成份分析与因子分析实例_第3页
主成份分析与因子分析实例_第4页
主成份分析与因子分析实例_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关于主成份分析和因子分析实例第一张,PPT共六十三页,创作于2022年6月各个主成分分析是原始指标的线性组合第二张,PPT共六十三页,创作于2022年6月满足如下的条件:主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为1。即第三张,PPT共六十三页,创作于2022年6月 设X的协方差阵为, 1, 2, p为的特征根,不妨假设1 2 p ,可以证明:第一主成份的方差为1,线性组合的系数为1所对应的特征单位向量。进一步可以证明为各个特征根所对应的标准正交向量所组成的矩阵第四张,PPT共六十三页,创作于2022年6月因子分析的基本思想因子分析也是

2、一种数据简化的方法。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个不可观测变量来多个变量的相关关系。这几个不可观测变量能够反映原来众多变量的主要信息,这些不可观测的潜在变量称为因子。第五张,PPT共六十三页,创作于2022年6月基本的因子分析模型:第六张,PPT共六十三页,创作于2022年6月 称 为公共因子,是不可观测的变量,系数称为因子载荷。 是特殊因子,是不能被前m个公共因子包含的部分。并且满足:即不相关;即 互不相关,方差为1。即 互不相关,方差不一定相等第七张,PPT共六十三页,创作于2022年6月AnalyzeDataReductionFctor进入因

3、子分析和主成份分析对话框13例1:利用2007年全国31省市自治区经济发展情况的八项指标做主成份分析。第八张,PPT共六十三页,创作于2022年6月 Descriptive框:选择描述性统计量。第九张,PPT共六十三页,创作于2022年6月Statistics: Univariate descriptives 输出原始变量的均值、标准差等单变量的描述统计量。 Initial solution 给出因子提取前,分析变量的公因子方差。对于主成份分析来说,这些值是分析变量的相关(协方差)矩阵对角线的元素。Correlation Matrix 相关矩阵栏 Coefficients 给出原始分析变量间的

4、相关系数矩阵。 Significance levels给出每个相关系数相对于0的单尾假设检验的显著性水平。 Determinant 给出相关系数矩阵的行列式值。第十张,PPT共六十三页,创作于2022年6月Inverse 给出相关系数矩阵的逆矩阵。Reproduced 再生相关矩阵。此项给出因子分析后的相关矩阵,还给出残差,即原始相关阵与再生相关阵的差。Anti-image 给出反映像相关矩阵KMO and Bartlett test of sphericity 要求进行KMO检验和球形Bartlett检验。KMO是用来比较变量间相关系数的大小。如果KMO接近1,表示适合做因子分析,如果KMO

5、接近0,表示不适合做因子分析。球形Bartlett检验是检验相关矩阵是否是单位矩阵,表明数据是否合适做因子模型。第十一张,PPT共六十三页,创作于2022年6月Extraction按钮:用于设置因子提取方法、迭代收敛条件、公因子数等。第十二张,PPT共六十三页,创作于2022年6月Method:选择因子提取方法,共有七种因子提取方法,默认为主成份法。七种方法分别是:Principal Components:主成份法;Unweighted least squares :未加权最小二乘法Generalized least square:综合最小平方法Maximum likelihood:最大似然估

6、计法Principal axis factoring:主轴因子法Alpha factoring: 因子法Image factoring:映像因子法。第十三张,PPT共六十三页,创作于2022年6月Analyze Correlaton Matrix 使用相关矩阵进行因子分析。如果原始变量的量纲不同选择此项。Covariance Matrix 使用协方差矩阵进行因子分析。Extract 因子提取选项。Eigenvalues over 指定提取的因子的特征根应具有的范围。Number of factors 指定提取公因子的数目。第十四张,PPT共六十三页,创作于2022年6月Display 指定与因

7、子提取相关的输出项。 Unrotated solution 要求显示未经旋转的因子提取结果。 Scree plot 显示碎石图。Maximum iterations for Convergence 指定因子分析收敛的最大迭代次数,默认值为25.第十五张,PPT共六十三页,创作于2022年6月Rotation 按钮第十六张,PPT共六十三页,创作于2022年6月Method 选择旋转的方法。 None 不进行旋转。 Varimax 方差最大旋转。是一种正交旋转。它使得每个因子具有最高载荷的变量数最小。 Direct Oblimin 直接斜交旋转。如果指定此项需要输入Delta值,越接近于0,斜交

8、程度越深。 Quartmax 四次最大正交旋转。四次方最大法通过使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。四次方最大旋转是从简化载荷矩阵的行出发,通过旋转初始因子,使每个变量只在一个因子上又较高的载荷,而在其它的因子上尽可能低的载荷。如果每个变量只在一个因子上有非零的载荷,这时的因子解释是最简单的。第十七张,PPT共六十三页,创作于2022年6月Equamax 平均正交旋转。是方差最大旋转和四次最大旋转的结合。可以使在一个因子上有较高载荷的变量数和变量中需要解释的因子数最少。Promax 斜交旋转方法。允许因子之间彼此相关,它比直接斜交旋转更快,因此适用于大数据集的因子分析。Disp

9、layRotated solution 给出旋转后的因子载荷矩阵和因子转换矩阵。对于斜交旋转除显示以上两项外,还显示因子之间的相关矩阵。第十八张,PPT共六十三页,创作于2022年6月Loding plots 因子载荷散点图。给出以因子为坐标轴的各变量的载荷散点图。如果有两个因子,给出原始变量旋转以后的散点图。如果多于三个因子,则给出基于前三个因子的三维载荷散点图。如果只提取一个因子则不会给出散点图。Scores 因子得分对话框。Save as variable 将因子得分最为新变量保存在数据文件中。2第十九张,PPT共六十三页,创作于2022年6月Method 指定计算因子得分的方法。Reg

10、ression 回归法。Bartlett 巴特利特法(加权最小二乘法)。Anderson-Rubin 安德森-鲁宾法。是为了保证因子的正交性,而对Bartlett做的调整。因子得分的均值为0,方差为1,且彼此不相关。Display factor score coefficient matrix 显示因子得分系数矩阵,是标准化的得分系数。第二十张,PPT共六十三页,创作于2022年6月Options 2第二十一张,PPT共六十三页,创作于2022年6月 Sorted by size 载荷系数按其数值的大小排列并构成因子载荷矩阵。使在同一个因子上具有较高载荷的变量排在一起,便于观察。Suppres

11、s absolute values less than 不显示那些绝对值小于所指定值的载荷系数。输入0-1之间的数,默认值为0.1。选择此项可以突出载荷较大的变量,便于得出结论。第二十二张,PPT共六十三页,创作于2022年6月Initial 列表示各变量的方差。Extraction列表示每个变量被公共因子提取的方差,即共同度。因子分析结果第二十三张,PPT共六十三页,创作于2022年6月第二十四张,PPT共六十三页,创作于2022年6月上表为未经旋转的因子载荷矩阵。国内生产总值0.968第一公因子0.238第二公共因子。第二十五张,PPT共六十三页,创作于2022年6月再生相关矩阵:它是因子

12、分析后的相关矩阵。即根据各个变量的公共因子表达式所计算的变量之间的相关系数矩阵。残差为原始相关矩阵与再生相关矩阵的差。第二十六张,PPT共六十三页,创作于2022年6月旋转后的因子载荷矩阵。相对于未旋转前因子载荷的元素更加极端。第二十七张,PPT共六十三页,创作于2022年6月上表为因子旋转时的因子转换矩阵。第二十八张,PPT共六十三页,创作于2022年6月成分得分系数矩阵,上表给出了用原始变量表示主成份得分的系数信息。标准化第一主成份(第一公因子)0.221标准化后的国内生产总值0.187标准化后的城乡存款余额第二十九张,PPT共六十三页,创作于2022年6月未标准化第一主成份0.221标准

13、化后的国内生产总值0.187标准化后的城乡存款余额未标准化第二主成份-0.046标准化后的国内生产总值0016标准化后的城乡存款余额第三十张,PPT共六十三页,创作于2022年6月上表为因子得分的协方差矩阵,由此可见各个因子之间是完全正交的。第三十一张,PPT共六十三页,创作于2022年6月例2: 用主成份分析研究影响我国物价波动的因素。受国内经济波动、居民收入及财富变化、生产成本价格上涨、国际石油、粮食等原材料价格的影响使得我国物价的波动变得极其复杂。由于物价的波动不是取决于某一种因素,或某几个指标,而是受多方面因素的影响。而且随着我国市场化程度的深化以及经济全球化进程的加快,我国物价的波动

14、不仅反映了国内市场中总供给和总需求的矛盾,而且受国际经济的影响,尤其是国际市场价格的影响也越来越大。 因此选取能够反映上述因素的15个经济变量 ,进行因子分析。第三十二张,PPT共六十三页,创作于2022年6月第三十三张,PPT共六十三页,创作于2022年6月 4个公因子对原始变量方差的累计贡献率为85.89%,可见通过因子分析实现了将15维数据变量降至4维的目的。 代表成本因素的各上游价格指数在公因子F1上有较高的载荷,可称为成本因子;而代表居民需求增长的两个收入变量在公因子F3上有较高的载荷,可称为需求因子;表示货币因素的3个变量在公因子F2上有较高的载荷,可称为货币因子;而代表财富变化的

15、股票指数在公因子F4上有较高的载荷,称为财富因子。但还有一些变量的载荷并不是很明确,我们可以通过因子旋转得到实际意义更加明确的因子模式。 第三十四张,PPT共六十三页,创作于2022年6月第三十五张,PPT共六十三页,创作于2022年6月旋转后的各公因子的载荷可以看出各因子所代表的意义更明确:代表成本因素的各上游价格指数和G7PPI的变化在公因子F1上有较高的载荷,可称 F1为成本因子,同时也表明我国价格的变化,尤其是原材料类价格的变化和国际PPI的变化有较高的相关性;而代表居民需求增长的两个收入变量在公因子F3上有最高的载荷,可称 F3为需求因子;而表示包括GDP增长率在内的货币因素在公因子

16、F2上的载荷都是最大的,可称 F2为货币因子;而代表财富变化的股票指数和表示国际经济形势的G7GDP指数同比增速在公因子F4上载荷最大,称为财富因子和国际经济因子。通过观察旋转后的因子载荷,可以发现各因子所代表实际意义更明确。第三十六张,PPT共六十三页,创作于2022年6月 要考察物价波动,通过观察可以发现CPI在各公因子的载荷分别为0.77、0.08、0.54和0.12,可见代表成本和需求变动的因子和对CPI变化的解释能力是最强的,即在样本区间内物价波动受成本推动和需求拉动的影响较大,其中成本推动占主导地位。 第三十七张,PPT共六十三页,创作于2022年6月第三十八张,PPT共六十三页,

17、创作于2022年6月例3:用主成份法构建我国出口景气指数。由于出口同多个产业相关,并涉及投资、生产等经济环节,因此选取多个与出口相关的指标合成出口景气指数,从而综合反映出口的波动水平。目前应用较广泛的景气指数方法有扩散指数(DI)方法、合成指数(CI)方法,还有应用主成分分析、状态空间模型、Markov动态因子转移模型、Probit模型等方法来构建景气指数的方法。在构建某一产业部门的景气指数时,主要应用主成分分析方法。第三十九张,PPT共六十三页,创作于2022年6月 由于中国出口商品总值同比增长率直接反映了中国的出口状况,因此将出口总值增长率作为基准指标。 一致指标是指该指标的波动与当前出口

18、的景气变动大体一致。 先行指标是指在经济波动达到高峰(或低谷)前,超前出现峰和谷的指标。 滞后指标是指那些转折点(峰或谷)滞后于经济波动的指标,其作用在于它的峰和谷的出现可以确认经济波动的高峰或低谷确已出现。 第四十张,PPT共六十三页,创作于2022年6月 将收集到的指标进行数据处理,计算相应的增长率序列,并将其进行季节调整,然后利用时差相关分析方法、K-L信息量方法、峰谷对应法等多种方法筛选出了15个景气指标,分别构成中国出口的先行、一致、滞后指标组。 本文所选取的一致指标包括加拿大、香港、美国、澳大利亚、韩国、OECD等国家和地区的进口商品总额。由于上述国家和地区都为中国的前10大贸易伙

19、伴,中国向他们的出口额占到出口总额将近90%,而欧盟、美国和香港也是中国贸易顺差的三大来源地;因此他们的进口总额同中国出口额是密切相关的。第四十一张,PPT共六十三页,创作于2022年6月指标名称K-L信息量相关系数先行指标中国固定资产投资累计增速中国外商直接投资实际利用金额累计增速美国狭义货币指数增速OECD狭义货币指数增速六国加权广义货币指数增速30.50(-12)84.01(-12)42.98(-12)47.45(-9)57.53(-11)0.72(-12)0.37(-12)0.66(-12)0.64(-9)0.65(-12)一致指标中国出口总值增速美国进口商品总值增速澳大利亚进口商品总

20、值增速韩国进口商品总值增速OECD进口商品总值增速加拿大进口商品总值增速香港进口商品总值增速0.00(0)40.01(0)26.24(-2)96.74(-2)28.08(+1)34.50(+1)34.33(+2)1.0(0)0.61(0)0.78(-2)0.64(-2)0.76(+1)0.68(+1)0.69(+2)滞后指标美国进口价格指数发展中国家进口单位价格世界进口单位价格48.38(+5)55.35(+8)51.73(+8)0.55(+5)0.43(+8)0.49(+9)第四十二张,PPT共六十三页,创作于2022年6月特征向量特征值贡献率(%)累积贡献率(%)1234567第一主成分0

21、.390.390.390.360.400.380.334.9370.3870.38第二主成分0.16-0.38-0.130.34-0.09-0.470.680.699.8680.24计算结果表明:一致指标组的第一主成分的贡献率达到70.38%,较充分地代表了一致指标组的变动状况,因此将第一主成分作为出口一致合成指数。一致指标组各指标的特征向量都在0.30.4之间,对合成指数的贡献较为平均。 第四十三张,PPT共六十三页,创作于2022年6月特征向量特征值贡献率(%)累积贡献率(%)12345第一主成分0.410.300.450.560.492.5651.2151.21第二主成分0.230.88

22、-0.15-0.22-0.290.9218.3969.60先行指标组的第一主成分的贡献率为51.21%,还未能充分解释先行指标组的变动。第一和第二主成分的累积贡献率达到了69.60%,解释了先行指标组的大部分变动。 第四十四张,PPT共六十三页,创作于2022年6月 第一主成分中,加权广义货币指数、固定资产投资、美国狭义货币指数、OECD狭义货币指数的特征向量的分量分别为0.41、0.45、0.56和0.49,这表明先行指标组的第一主成分主要包含了上述四个指标的信息。在第二主成分中,外商直接投资的特征向量分量为0.88,这说明先行指标组第二主成分主要受外商直接投资影响。第四十五张,PPT共六十

23、三页,创作于2022年6月图1 出口一致合成指数(一致指标组第一主成分,实线)、 出口先行合成指数(先行指标组第一主成分,虚线)图2 出口一致合成指数(一致指标组第一主成分,实线)、 出口先行合成指数(先行指标组第二主成分,虚线)第四十六张,PPT共六十三页,创作于2022年6月例4 研究影响住宅价格波动因素的因子分析模型。影响住宅价格波动的因素有宏观经济因素、政策因素、市场的供给、需求和资本因素以及消费者和投资者的心理因素等,本文选择与这些因素相关的14项指标进行分析 ,各项指标经过标准化处理 ,进行因子分析结果如下表: 第四十七张,PPT共六十三页,创作于2022年6月指标名称变 动 因

24、素f 1f 2f 3f 41.房地产开发资金来源中的外商直接投资增速-0.049-0.2350.0150.8742.房地产开发资金来源中的国内贷款增速0.6080.680.238-0.1143.房地产开发资金来源合计增速0.860.130.236-0.1454.房地产开发资金来源中的自筹资金增速0.943-0.2010.011-0.0795.金融机构建筑业贷款增速0.2650.6760.071-0.4076.货币供应量M1增长率0.3400.1410.7610.4647.五年期贷款利率-0.8760.1270.146-0.278.建筑材料购进价格指数(上年=100)0.296-0.890-0.

25、0760.1719.全国住宅土地交易价格指数(上年=100)0.695-0.324-0.477-0.10310.住宅完成投资额增速-0.1950.752-0.0950.14811.商品房新开工面积同比增速-0.2680.6040.654-0.08812.商品房竣工面积同比增速0.0310.7080.437-0.28213.商品房销售面积同比增速0.4420.1810.7840.25114.城镇居民人均可支配收入增速0.3920.13-0.8360.181特征值3.9833.4482.9061.503贡献率(%)28.45224.62620.75810.734累计贡献率(%)28.45253.0

26、7873.83684.570第四十八张,PPT共六十三页,创作于2022年6月 其中,资金来源中的自筹资金增长率、国内贷款增长率,资金来源合计增长率、五年期利率等代表资金可获得性的指标在因子f1上有较高的载荷,并且全国住宅土地交易价格指数在因子f1上也有较高的载荷,因此,用因子f1代表资本可获得性和土地交易价格;同样,可以发现因子f2对各供给因素的载荷较高(如:建筑材料购进价格指数、住宅完成投资额增速、新开工面积增速、竣工面积增速等),因此因子f2代表供给因素;因子f3对需求因素(如:个人可支配收入、销售面积和M1增长率等)的载荷较高,代表需求因子;而资金来源中的外商投资增长率和金融机构建筑业

27、贷款增长率等在因子f4上有较高的载荷,因此因子f4也代表资本可获得性。 第四十九张,PPT共六十三页,创作于2022年6月pe表示商品住宅销售价格的增长率,用商品住宅销售价格指数(上年同期=100) - 100来代表 。利用普通最小二乘法得到下面的结果: 利用表中列出的4个公共因子代表14个相关变量,进一步分析这些因素对我国住宅价格波动的影响。建立下面的回归分析模型: t = (1.56) (29.76) (3.85) (1.48) (2.48) t = (14.0) (-7.8) R 2=0.998 D.W.=2.03第五十张,PPT共六十三页,创作于2022年6月由于因子f2在回归结果中不

28、显著,因此从式中剔除掉。表明在本轮的住宅价格上涨中,供给因素的影响较弱。而代表资本可获得性的因子f1和因子f4对价格波动有正的影响,需求因子f3对住宅价格波动也有正的影响。因此,可以得出结论认为近几年我国住宅价格的上涨主要受两方面因素影响:(1)由于缺乏较好的融资渠道,民间大量闲置资本流入房地产住宅投资市场,产生较大的投机需求,造成市场需求虚高;(2) 住房制度改革以后释放出的对住宅的大量需求。而实际上,房地产开发资金合计从1998年的5030亿元增加到2005年的25360亿元,在7年的时间里增长了5倍多。而且在表中可以看到住宅土地交易价格在因子f 1中有较高的载荷。综上所述,在调控我国住宅价格波动的过程中,紧缩“银根”和“地根”起着重要的作用 。第五十一张,PPT共六十三页,创作于2022年6月对应分析 因子分析分为R型因子分析和Q型因子分析。一般来说两种因子分析是分开进行的。这一方面会漏掉一些指标和样本之间的信息,另一方面Q型因子分析的工作量较大对应分析是借助列联表独立检验中卡方统计量的计算方法对原始数据矩阵进行转换,得到规格化的概率矩阵,使数据资料具有对称性,将R型因子分析和Q型因子分析建立起联系,在做R型因子分析的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论