《多元统计分析-基于R(第3版)》课件 第10章-因子分析_第1页
《多元统计分析-基于R(第3版)》课件 第10章-因子分析_第2页
《多元统计分析-基于R(第3版)》课件 第10章-因子分析_第3页
《多元统计分析-基于R(第3版)》课件 第10章-因子分析_第4页
《多元统计分析-基于R(第3版)》课件 第10章-因子分析_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

7/31/2024主编:费宇1主编:费宇中国人民大学出版社7/31/2024主编:费宇2第10章因子分析因子分析(factoranalysis)最早起源于KarlPearson和ChalesSpearman等人关于智力的定义和测量工作,因子分析的基本目的是,只要可能,就用少数几个潜在的不能观察的随机变量(称为因子)去描述许多个随机变量之间的协方差关系.从这点上看,因子分析与主成分分析有相似之处,但因子分析中的因子是不可观察的,也不必是相互正交的变量.因子分析可以视为主成分分析的一种推广,它的基本思想是:根据相关性大小把变量分组,使得组内的变量相关性较高,但不同组的变量相关性较低,则每组变量可以代表一个基本结构,称为因子,它反映已经观测到的相关性.因子分析可以用来研究变量之间的相关关系,称为R型因子分析;也可以用来研究样品之间的相关关系,称为Q型因子分析.二者虽然形式上有所不同,但数学处理上是一样的,所以本章只介绍R型因子分析.7/31/2024主编:费宇3第10章因子分析10.1正交因子模型10.2因子模型的估计10.3因子正交旋转10.4因子得分10.5因子分析小结10.6案例分析7/31/2024主编:费宇410.1正交因子模型1.模型定义设p维随机向量的期望为,方差-协方差矩阵为Σ,

假定X线性地依赖于少数几个不可观测的随机变量f1,…,fm(m<p)和p个附加的方差源

ε1,…,εp,

一般称f1,…,fm为公因子,称ε1,…,εp为特殊因子,或误差.

1.模型定义7/31/2024主编:费宇5那么,因子模型为1.模型定义引入矩阵符号,记

那么因子模型(10.1)可以写为7/31/2024主编:费宇61.

模型定义其中aij称为第i个变量在第j个因子上的载荷,矩阵A称为载荷矩阵.我们假定

如果模型(10.2)满足假定(10.3),则称该模型为正交因子模型,如果F的各个分量相关,即

不是单位阵,则相应的模型称为斜交因子模型,本书只讨论正交因子模型.7/31/2024主编:费宇71.

模型定义从正交因子模型容易求得X的协方差7/31/2024主编:费宇81.模型定义同样,容易求得由(10.4)可得该式说明xi的方差由两部分构成:m个公因子和一个特殊因子,其中表示第j个公因子对xi的方差贡献,而Фi是第i个特殊因子对xi的方差贡献,称之为特殊度.记

hi2=ai12+ai22+…+aim2,它表示m个公因子对变量xi的方差贡献总和,称之为第i个共同度,它是载荷矩阵A的第i行元素平方和.7/31/2024主编:费宇91.模型定义由(10.5)可得上式说明aij表示变量xi与公因子fj的协方差.另一方面,我们也可以考虑某个公因子fj对各个变量x1,…,xp的影响,采用来度量这个影响的大小,bj2是载荷矩阵A第j列元素的平方和,称之为公因子fj对各p个变量的方差贡献,bj2越大,表示fj对各p个变量的影响越大,它可以作为公因子fj重要性的一个度量.7/31/2024主编:费宇101.模型定义需要指出的是,当

m>1时,因子模型是不唯一的,设T为m×m正交矩阵,即TTT=TTT=I,模型(10.2)可改写为

式中,A*=AT,F*=TTF7/31/2024主编:费宇111.模型定义注意到即F*也满足(10.3),显然因子F与F*有相同的统计性质,但相应的载荷矩阵A与A*是不相同的,但它们产生相同的方差-协方差矩阵Σ

,即7/31/2024主编:费宇121.模型定义一方面,因为F*=TTF,即F*是由F经正交变换得到,而A*=AT,即A*=(a*ij)是由A=(aij)经正交变换得到,另一方面,由(10.11)易知,变量xi的共同度为即正交变换不改变公因子的共同度.7/31/2024主编:费宇1310.2

因子模型的估计建立因子模型首先要估计载荷矩阵及特殊方差,常用的估计方法有主成分法、主因子法和极大似然法.1.

主成份法设Σ的特征值为λ1,

λ2,…,λp(λ1≥λ2≥…≥λp≥0),e1,e2,…,ep为对应的标准正交化特征向量,那么Σ可以写为7/31/2024主编:费宇141.

主成份法这个分解是公因子个数为p,特殊因子方差为0的因子模型的方差-协方差矩阵结构形式,即虽然上式给出的Σ因子分析表达式是精确的,但实际应用中没有价值,因为因子分析的目的是要寻找少数m(m<p)个公因子解释原来p个变量的协方差结构,所以,采用主成分分析的思想,如果Σ的最后p-m个特征值很小,在(10.13)中略去λm+1em+1eTm+1+…+λpepeTp对Σ的贡献,7/31/2024主编:费宇151.

主成份法于是得这里假定了(10.2)中的特殊因子是可以在Σ的分解中忽略的,如果特殊因子不能忽略,那么它们的方差可以取Σ-AAT的对角元,7/31/2024主编:费宇161.

主成份法此时有其中7/31/2024主编:费宇171.

主成份法实际应用中Σ是未知的,通常用它的估计,即样本协方差矩阵S来代替,考虑到变量的量纲差别,往往需要将数据标准化,这样求得的样本方差-协方差矩阵就是原来数据的相关系数矩阵R,所以可以从R出发来估计因子载荷矩阵和特殊因子的方差.7/31/2024主编:费宇181.

主成份法设R的特征值为 ,

为对应的标准正交化特征向量,设

m<p,则由R出发因子模型的载荷矩阵的估计为特殊因子的方差фi的估计为7/31/2024主编:费宇191.

主成份法这时,共同度hi2的估计为变量xi与公因子fj协方差的估计为,公因子fj对各个变量的贡献bj2的估计为7/31/2024主编:费宇201.

主成份法那么,如何确定公因子数目m呢?可以仿照主成分分析的思想,比如寻找m使得来确定公因子数m.7/31/2024主编:费宇212.

主因子法假定原始向量X的各分量已作了标准化变换.如果其满足正交因子模型,则有7/31/2024主编:费宇22则称为X的约相关矩阵.其中,

R为X的相关矩阵.令2.

主因子法7/31/2024主编:费宇23

中的对角线元素是

,而不是1,非对角线元素和R中是完全一样的,并且是一个非负定矩阵.设是特殊方差的一个合适的初始估计,则约相关矩阵可估计为:2.

主因子法7/31/2024主编:费宇24其中,,是的初始估计.又设的前个特征值依次为,相应的正交单位特征向量为,则A的主因子解为:2.

主因子法7/31/2024主编:费宇25由此我们可以重新估计特殊方差,的最终估计为:如果我们希望求得拟合程度更高的解,则可以采用迭代的方法,即利用式(10.26)中的再作为特殊方差的初始估计,重复上述步骤,直至解稳定为止.2.

主因子法7/31/2024主编:费宇26特殊(或共性)方差的常用初始估计方法有:(1)取

,其中是的第个对角线元素,此时共性方差的估计为

,它是

和其他个变量间样本复相关系数的平方,该初始估计方法最为常用.(2)取

,此时.(3)取

,此时

,得到的是一个主成分解.3.

极大似然法7/31/2024主编:费宇27设公共因子,特殊因子,且相互独立,则必然有原始向量.由样本计算得到的似然函数是和的函数.由于,故似然函数可更清楚地表示为.记的极大似然估计为,即有可以证明,而和满足方程组:3.

极大似然法7/31/2024主编:费宇28式中,由于A的解是不唯一的,故为了得到唯一解,可附加计算上方便的唯一性条件:是对角矩阵.3.

极大似然法7/31/2024主编:费宇29方程组(10.28)的和一般可用迭代方法解得.对极大似然解,当因子数增加时,原来因子的估计载荷及对x的贡献将发生变化,这与主成分解及主因子解不同.10.3

因子正交旋转在第10.1节我们已经看到,满足方差结构Σ

=AAT+Ф的因子模型并不惟一,模型的公因子与载荷矩阵不惟一.如果F是模型的公因子,A是相应的载荷矩阵,而T是m×m正交矩阵,则F*=TTF也是公因子,相应的载荷矩阵为A*=AT,A*也满足Σ=A*A*T+Ф这说明,公因子和因子载荷矩阵作正交变换后,并不改变共同度,我们称因子载荷的正交变换和伴随的因子正交变换为因子正交旋转.7/31/2024主编:费宇3010.3

因子正交旋转设

是用某种方法(比如主成分法)得到的因子载荷矩阵的估计,T为

m×m正交阵,则是旋转载荷矩阵.问题是:为什么要进行因子旋转?其目的是什么?7/31/2024主编:费宇3110.3

因子正交旋转如果初始载荷不易解释时,就需要对载荷作旋转,以便得到一个更简单的结构.最理想的情况是这样的载荷结构,每个变量仅在一个因子上有较大的载荷,而在其余因子上的载荷比较小,至多是中等大小,这样公因子fi的具体含义可由载荷较大的变量根据具体问题加以解释.如何进行因子旋转寻找一个简单结构的载荷矩阵,这里不作详细介绍.7/31/2024主编:费宇3210.4

因子得分在因子分析中,虽然我们关心模型中载荷矩阵的估计和对公因子的解释,但对于公因子的估计,即因子得分,有时也是需要的.但是因子得分的计算并不同于通常意义下的参数估计,而是对不可观测的因子fj取值的估计,下面介绍用加权最小二乘法估计因子得分.7/31/2024主编:费宇331.

加权最小二乘法给定因子模型X=μ+AF+ε,假定均值向量μ,载荷矩阵A和特殊方差阵Ф已知,把特殊因子ε看作误差,因为Var(εi)=фi(i=1,2,…,p)未必相等,所以我们用加权最小二乘法估计公因子F.首先将因子模型

(10.2)改写为7/31/2024主编:费宇341.

加权最小二乘法两边左乘Ф-1/2得记X*=Ф-1/2(X-μ),A*=Ф-1/2A,ε*=Ф-1/2ε,则上式可以写成注意到E(ε*)=Ф-1/2E(ε)=0,

cov(ε*)=E(ε*ε*T)=Ф-1/2E(εεT)Ф-1/2=I7/31/2024主编:费宇351.

加权最小二乘法所以(10.32)是经典的回归模型,由最小二乘法知F的估计为

实际中,A,

Ф和μ都是未知的,通常用它们的某种估计来代替,比如我们采用正交旋转后的载荷矩阵A的估计,和样本均值 ,分别代替A,Ф和μ7/31/2024主编:费宇361.

加权最小二乘法于是可得对应于xj的因子得分7/31/2024主编:费宇372.

回归法在正交因子模型中,假设服从(m+p)元正态分布,用回归预测方法可将估计为:7/31/2024主编:费宇382.

回归法在实际应用中,可用,和分别代替上式中的,和来得到因子得分.样品的因子得分7/31/2024主编:费宇393.

综合因子得分7/31/2024主编:费宇40个因子任意若干个取相反符号,特别是全部取相反符号仍然满足因子分析模型,所以仍然可以作为因子。3.

综合因子得分以各因子的方差贡献率为权重,由各因子的线性组合得到综合评价指标函数:式中,7/31/2024主编:费宇413.

综合因子得分7/31/2024主编:费宇42那么这样的因子得分函数将会有种不同的组合。所以这样的因子得分实际上是不好解释的,此外,使用不同的因子旋转会得到不同的因子,从而综合评价函数也就不同,哪一个才是对的呢?还有,综合起来表示的是什么因子呢?所以,因子综合得分是没有合理的解释的。例10.1数据文件为eg9.1前面第9章例9.1表9-1给出了52名学生的数学(x1)、物理(x2)、化学(x3)、语文(x4)、历史(x5)和英语(x6)成绩,试进行学生成绩的因子分析.解:采用R软件对样本数据进行因子分析,首先计算样本数据的相关系数矩阵,观察各变量之间的相关性.

R程序及结果如下:7/31/2024主编:费宇43例10.1数据文件为eg9.1#假设已经读取了52名学生成绩数据cor(X)#计算样本数据的相关系数矩阵x1x2x3x4x5x6x11.000.650.70-0.56-0.46-0.44x20.651.000.57-0.50-0.35-0.46x30.700.571.00-0.38-0.27-0.24x4-0.56-0.50-0.381.000.810.83x5-0.46-0.35-0.270.811.000.82x6-0.44-0.46-0.240.830.821.007/31/2024主编:费宇44例10.1数据文件为eg9.1从样本数据各变量的相关系数上可以看出,x4、x5和x6之间存在较强的相关性.为了消除各变量之间的相关性,下面分别采用R软件中基于极大似然法的因子分析函数factanal()和基于主成分法的因子分析函数factpc()对数据进行因子分析提取因子.

R程序及结果如下:7/31/2024主编:费宇45例10.1数据文件为eg9.1#极大似然法做因子分析factanal(X,factors=2,rotation="none")Call:factanal(x=X,factors=2,rotation="none")Uniquenesses:x1x2x3x4x5x60.230.460.330.150.210.15Loadings:Factor1Factor2x1-0.680.56x2-0.600.43x3-0.490.66x40.920.10x50.860.24x60.880.277/31/2024主编:费宇46例10.1数据文件为eg9.1

Factor1Factor2SSloadings3.401.07ProportionVar0.570.18CumulativeVar0.570.74

Testofthehypothesisthat2factorsaresufficient.Thechisquarestatisticis3.6on4degreesoffreedom.Thep-valueis0.46#主成分法做因子分析library(mvstats)#加载mvstats包fac=factpc(X,2)fac7/31/2024主编:费宇47例10.1数据文件为eg9.1$VarsVarsVars.PropVars.CumFactor13.7100.618361.83Factor21.2620.210482.87$loadingsFactor1Factor2X1-0.79370.4224x2-0.73420.4008x3-0.63970.6322x40.88830.3129x50.81010.4661x60.82850.45677/31/2024主编:费宇48例10.1

数据文件为eg9.1从上述极大似然法和主成分法得出的因子分析结果上可以看出,极大似然法前两个因子累计贡献率只有74%,而主成分法累计贡献率达到了82.87%,说明主成分法效果比极大似然分析法效果好,其原因在于,极大似然法做因子分析要求数据样本要服从多元正态分布,但在实际中大多数数据都很难满足多元正态要求。接下来为了更好地解释因子的含义,我们基于主成分法采用方差最大化作因子正交旋转。R程序及结果如下:7/31/2024主编:费宇49例10.1

数据文件为eg9.1fac1=factpc(X,2,rotation="varimax")#用主成分法采用方差最大化作因子正交旋转FactorAnalysisforPrincompinVarimax:fac1$VarsVarsVars.PropVars.CumFactor12.66144.3444.34Factor22.31238.5382.87$loadingsFactor1Factor2x1-0.32320.8390x2-0.29250.7837x3-0.06960.8967x40.8763-0.3451x50.9174-0.1782x60.9253-0.19737/31/2024主编:费宇50例10.1数据文件为eg9.1从上述因子正交旋转的结果可以看出,方差累计贡献率达到了82.87%.第一个因子主要和语文(x4)、历史(x5)和英语(x6)三科有很强的正相关,相关系数分别为0.8763、0.9174和0.9253;第二个因子主要和数学(x1)、物理(x2)和化学(x3)三科有很强的正相关,相关系数分别为0.8390、0.7837和0.8967;所以第一个因子可称为“文科因子”,第二个因子称为“理科因子”.可见,因子正交旋转后因子的含义更清楚.在了解各个综合因子的具体含义后,可采用回归估计等估计方法计算样本的因子得分.R程序及结果如下:7/31/2024主编:费宇51例10.1数据文件为eg9.1fac2=factpc(X,2,rotation="varimax",scores="regression")#利用回归估计计算因子得分fac2$scores#输出因子得分情况Factor1Factor2[1,]0.66036-0.68718[2,]-1.07568-0.15572[3,]-1.60123-1.88323[4,]-0.722160.15234[5,]-1.75198-1.12791……………[49,]2.37146-0.89236[50,]0.09089-0.83832[51,]1.603130.27088[52,]1.19589-0.15308

7/31/2024主编:费宇52例10.1

数据文件为eg9.1plot(fac2$loadings,xlab="Factor1",ylab="Factor2")#输出因子载荷图7/31/2024主编:费宇53还可以绘制两因子载荷图,R程序如下:原始变量在两个因子上的载荷图如图10-1所示,从图10-1可以看出,x4、x5和x6离第一个因子所代表的横轴比较近,而x1、x2和x3离第二个因子所代表的纵轴较近.例10.1

数据文件为eg9.17/31/2024主编:费宇54图10.1第一个因子和第二个因子的载荷图例10.1

数据文件为eg9.1biplot(fac2$scores,fac2$loadings)#画出各个学生的因子得分图和原坐标在因子的方向,全面反映了因子与原始数据的关系.7/31/2024主编:费宇55以两个公共因子分别为横纵坐标,绘制出各

个学生的因子得分图和原坐标在因子方向图如图10-2所示,这个图直观反映了以上分析的基本结果.例10.1

数据文件为eg9.17/31/2024主编:费宇56图10.2各个学生的因子得分图和原坐标在因子方向图10.5

因子分析小结(1)因子分析是主成分分析的推广,也是一种降维技术,其目的是用几个潜在的、不可观测的因子来描述原始变量间的协方差或相关关系.主成分分析法所获得的主成分数目和原来的变量的个数是一样多的,最终选择多少个主成分是由主成分的累积方差贡献率来决定,但主成分的解几乎是唯一的.而因子分析模型不但要看解释的样本方差的比例,还可以做方差最大化旋转,即中因子载荷矩阵A是不唯一的,可以通过旋转得到更优的解.7/31/2024主编:费宇5710.5

因子分析小结(2)因子载荷矩阵的元素、行平方和、列平方和以及元素平方和都有很明确的统计意义.(3)在因子分析的应用中,确定m的初步方法是前m个包含的因子方差贡献率不低于80%,且明显要小于p.(4)正交因子模型中常用的参数估计方法有主成分法、主因子法和极大似然法.对主成分解和主因子解,当因子数m增加时,原来因子的估计载荷并不变,以致原来因子对x的总方差贡献也不变,但这7/31/2024主编:费宇5810.5

因子分析小结一点对极大似然解并不成立.然而无论何种解,对不同因子数的选取,经旋转后的因子一般是不同的.主成分法和主因子法是在求解的过程中确定因子数m的,而极大似然法却必须在求解之前确定m.(5)因子旋转不改变共性方差和残差矩阵,旋转后的因子往往会更有实际意义.(6)从样本数据得到的样本协方差矩阵S出发得到的因子分析模型解与从样本相关出发得到的因子分析模型解结果不一样,前者受量纲的影响.在实7/31/2024主编:费宇5910.5

因子分析小结际应用中,当各变量的单位不全相同或虽单位相同但数值变异性相差较大时,一般应对各变量作合适的标准化变换,最常见的是从样本相关矩阵出发进行因子分析.(7)常用的因子得分估计方法有加权最小二乘法和回归法,在条件意义上前者是无偏的,而后者是有偏的.7/31/2024主编:费宇6010.6

案例分析案例10.1(数据文件case10.1)上市公司的经营业绩是多种因素共同作用的结果,各种财务指标为上市公司的经营业绩提供了丰富的信息,同时也提高了分析问题的复杂性.由于指标间存在一定的相关关系,因此可以通过因子分析方法用较少的综合指标分别分析存在于各单项指标的信息,而且互不相关,即各综合指标代表的信息不重叠,代表各类信息的综合指标即为公共因子.本案例是以2017年上市公司中的汽车零配件行业为例,应用因子分析模型评价分析公司经营业绩,选取了财务报表中的十二个主要财务指标如下:7/31/2024主编:费宇61案例10.1

数据文件为case10.17/31/2024主编:费宇62x1:存货周转率(%)x2:总资产周转率(%)x3:流动资产周转率(%)

x4:营业利润率(%)x5:毛利率(%)

x6:成本费用利润率(%)x7:总资产报酬率(%)x9:每股收益(元)x8:净资产收益率-加权(扣除非经常性损益)(%)x10:扣除非经常性损益每股收益(元)x11:每股未分配利润(元)x12:每股净资产(元)具体数据如表10-1所示.案例10.1

数据文件为case10.17/31/2024主编:费宇63先读取数据,求财务指标间的相关系数矩阵,R程序如下:case10.1<-read.table("clipboard",header=T)#将case10.1.xls中的数据读入到R中data<-case10.1[,-1]name<-case10.1[,1]da<-scale(data)dadat<-cor(da)dat案例10.1

数据文件为case10.17/31/2024主编:费宇64财务指标间的相关系数矩阵下表所示.表10-2十二个财务指标的样本相关矩阵案例10.1

数据文件为case10.17/31/2024主编:费宇65由上面的相关系数矩阵可知,财务指标之间存在较强的线性相关关系,适合用因子分析模型进行分析,下面分别用主成分法、主因子法、极大似然估计法进行因子分析.下面用R软件(由于对应三种方法的代码较长,以下分析结果的代码详见教材对应的文件名为case10.1的相关代码的txt文档)分别做主成分法、主因子法和极大似然估计法因子分析,比较结果如表10-3所示.案例10.1

数据文件为case10.17/31/2024主编:费宇66表10-3三种方法旋转后的因子载荷估计案例10.1

数据文件为case10.17/31/2024主编:费宇67由表10-3可知,主成分法提取的因子方差贡献率最大,因此本案例选用主成分法做因子分析.主成分法的R程序如下:library(mvstats)#加载mvstats包fac=factpc(da,3)facfac1=factpc(da,3,rotation="varimax")#用主成分采用方差最大化做因子正交旋转fac1结果如表10-4所示.案例10.1

数据文件为case10.17/31/2024主编:费宇68表10-4当m=3时的主成分解(旋转后)案例10.1

数据文件为case10.17/31/2024主编:费宇69由表10-4可知,营业利润率、毛利率、成本费用利润率、总资产报酬率、净资

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论