第五章因子分析和主成分分析课件_第1页
第五章因子分析和主成分分析课件_第2页
第五章因子分析和主成分分析课件_第3页
第五章因子分析和主成分分析课件_第4页
第五章因子分析和主成分分析课件_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 主成分分析与因子分析5.1 因子分析模型与应用1. 因子分析模型 设p维可观测的随机向量X = (X1,.,Xp)(假定Xi为标准化变量,即E(Xi) = 0,Var(Xi) = 1,i = 1,2,p)表示为或 X = AF + 其中F1、F2、Fm称为公共因子,简称因子,是不可观测的变量;待估的系数阵A称为因子载荷阵,aij(i = 1,2,p;j = 1,2,m)称为第i个变量在第j个因子上的载荷(简称为因子载荷); 称为特殊因子,是不能被前m个公共因子包含的部分。并且满足:cov(F,) = 0,即F,不相关; D(F) = Im,即F1、F2、Fm互不相关,方差为1;D()

2、= diag(12,22,p2),即1、2、p互不相关,方差不一定相等,iN(0,i2)。 因子分析的目的就是通过模型X = AF + 以F代替X,由于m 0,相应的特征向量为u1*,u2*,up*,则有近似分解式:R* = AA其中 ,令 (i = 1,p),则A和D为因子模型的一个解,这个解称为主因子解。 在实际中特殊因子方差(或变量共同度)是未知的。以上得到的解是近似解。为了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的D* = diag( )作为特殊因子方差的初始估计,重复上述步骤,直到解稳定为止。 变量共同度hi2常用的初始估计有以下几种方法: 取第i个变量与其他所有变

3、量的多重相关系数的平方; 取第i个变量与其他变量相关系数绝对值的最大值; 取1,它等价于主成分解。(3) 极大似然法 假定公共因子F和特殊因子服从正态分布,那么可得到因子载荷阵和特殊因子方差的极大似然估计,设p维观测向量X(1),.,X(n)为来自正态总体Np(,)的随机样品,则样品似然函数为,的函数L(,)。 设= AA + D,取 = ,则似然函数为A,D的函数:(A,D),求A,D使达最大。为保证得到唯一解,可附加计算上方便的唯一性条件:AD-1A = 对角阵,用迭代方法可求得极大似然估计A和D。2. 因子旋转(正交变换) 所谓因子旋转就是将因子载荷矩阵A右乘一个正交矩阵T后得到一个新的

4、矩阵A*。它并不影响变量Xi的共同度hi2,却会改变因子的方差贡献qj2。因子旋转通过改变坐标轴,能够重新分配各个因子解释原始变量方差的比例,使因子更易于理解。 设p维可观测向量X满足因子模型:X = AF +。T为正交阵,则因子模型可写为X = ATTF + = A*F* +其中A* = AT,F* = TF。 易知, = AA + D = A*A* + D(其中A* = AT)。这说明,若A,D是一个因子解,任给正交阵T,A* = AT,D也是因子解。在这个意义下,因子解是不惟一的。 由于因子载荷阵是不惟一的,所以可对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元

5、素平方值向0和1两极分化,这样的因子便于解释和命名。 有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。这些旋转方法的目标是一致的,只是策略不同。 如果两种旋转模型导出不同的解释,这两种解释不能认为是矛盾的。倒不如说是看待相同事物的两种不同方法,是在公因子空间中的两个不同点。只取决于惟一的一种你认为是正确旋转的任何结论都是不成立的。 在统计意义上所有旋转都是一样的,即不能说一些旋转比另一些旋转好。因此,在不同的旋转方法之间进行的选择必须根据非统计观点,通常选择最容易解释的旋转模型。3. 因子得分 计算因子得分的途径是用原有变量来描述因子,第j个因子在第i个样本上的值可表示为:Fji

6、 = j1xi1 + j2xi2 + jpxip (j = 1,2,k) 式中,xi1,xi2,xip分别是第1,2,p个原有变量在第i个样本上的取值,j1,j2,jp分别是第j个因子和第1,2,k个原有变量间的因子值系数。可见,它是原有变量线性组合的结果(与因子分析的数学模型正好相反),因子得分可看作各变量值的加权(j1,j2,jp)总和,权数的大小表示了变量对因子的重要程度。于是有: Fj = j1X1+j2X2+jpXp (j = 1,2,k) 上式称为因子得分函数。由于因子个数k小于原有变量个数p,故式中方程的个数少于变量的个数。因此,对因子值系数通常采用最小二乘意义下的回归法进行估计

7、。可将上式看作是因子变量Fj对p个原有变量的线性回归方程(其中常数项为0)。可以证明,式中回归系数的最小二乘估计满足:Bj = AjR-1,其中Bj = (j1,j2,jp),Aj = (a1j,a2j,apj)为第1,2,p个变量在第j个因子上的因子载荷,R-1为原有变量的相关系数矩阵的逆矩阵。 由上式计算出因子变量Fj的因子值系数,再利用因子得分函数可算出第j个因子在各个样本上的因子得分。13.3 主成分分析(PCA)的概念与步骤1. 主成分分析基本思想 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组新的互不相关的综

8、合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢? 在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)0。称F2为第二主成分,依此类推可以构造出第三、第四、第p个主成分。2. 主成分分析的数学模型 设有n个样本(多元观测值),每个样本观测p项指标(变量):X1,X2,Xp,得到原始数据资料阵:其中

9、Xi = (x1i,x2i,xni),i = 1,2,p。 用数据矩阵X的p个列向量(即p个指标向量)X1,X2,Xp作线性组合,得综合指标向量:简写成:Fi = a1iX1 + ai2X2 +apiXp i = 1,2,p 为了加以限制,对组合系数ai = (a1i,a2i,api)作如下要求:即:ai为单位向量:aiai = 1,且由下列原则决定: 1) Fi与Fj(ij, i, j = 1, , p)互不相关,即Cov(Fi,Fj) = aiai = 0,其中是X的协方差阵。 2) F1是X1,X2,Xp的一切线性组合(系数满足上述要求)中方差最大的,即 ,其中 a= (a1,a2,ap

10、) F2是与F1不相关的X1,X2,Xp一切线性组合中方差最大的,Fp是与F1,F2,Fp-1都不相关的X1,X2,Xp的一切线性组合中方差最大的。 满足上述要求的综合指标向量F1,F2,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值i,每一个主成分的组合系数ai = (a1i,a2i,api)就是相应特征值i所对应的单位特征向量。方差的贡献率为 ,i越大,说明相应的主成分反映综合信息的能力越强。3. 主成分分析的步骤(1) 计算协方差矩阵 计算样品数据的协方差矩阵:

11、= (sij)pp,其中 i,j = 1,2,p(2) 求出的特征值及相应的特征向量 求出协方差矩阵的特征值12p0及相应的正交化单位特征向量:则X的第i个主成分为Fi = aiX i = 1,2,p。(3) 选择主成分 在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率解释主成分Fi所反映的信息量的大小,m的确定以累计贡献率达到足够大(一般在85%以上)为原则。另外,如果主成分对应的特征根已小于1,一般也不选用(4) 计算主成分得分 计算n个样本在m个主成分上的得分: i = 1,2,m(5) 标准化 实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:其中 , ,j = 1,2,p。标准化后的数据阵记为X*,其中每个列向量(标准化变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论