第八章因子分析_第1页
第八章因子分析_第2页
第八章因子分析_第3页
第八章因子分析_第4页
第八章因子分析_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

因子分析第八章因子分析因子分析的基本原理因子载荷阵的求解因子载荷和变量共同度的统计意义因子旋转因子分析方法应用实例

变量的相关性公共因子?将多个具有错综复杂关系的变量转换成少数几个不相关的综合指数(因子)?问题的提出20世纪初由KarlPearson和ChalesSpearman关于智力的定义和测量工作而开始了因子分析的近代发展。Spearman对学生考试所得的分数做了分析,他注意到在分数之间的相关矩阵中存在一定的系统影响,下表是某学校33个学生6门功课的相关系数矩阵:

一、概述1234561.古典语2.法语3.英语4.数学5.判别6.音乐10.830.780.700.660.6310.670.670.650.5710.640.540.5110.540.5110.41表中课程是按照相关系数从上到下递减排列的。Spearman注意到相关矩阵中一个有趣的规律:如果不考虑对角元素的话,任意两列的元素大致例1成比例,对1列和3列有:那么各门功课相关的“效应”就可以被说明。其中是对所有变量都起作用的公因子,是对所特有的,即每门课程的考试成绩可以看作由一个公因子(与智力相一致)和一个特殊因子之和组成。于是Spearman指出第i个变量(第i门功课)上的分数都遵从以下形式:例2考虑人的五个生理指标:收缩压(),舒张压(),心跳间隔(),呼吸间隔(),舌下温度()。从生理学的知识知道这五个指标是受植物神经的交感神经和副交感神经这两个因子的共同影响,即这五个指标至少受到两个公共因子的作用,如果用分别表示交感神经和副交感神经,那么可以设想变量是的线性函数,再加上其它对有影响的因子,即

表示两个因子,称为公共因子;系数称为因子载荷,表示对第i个变量的影响程度;为特殊因子,是其它不能被两个因子包括的对有影响的部分。这样五个生理变量之间的相关效应就可以通过公因子和特殊因子来说明。

因子分析是主成分分析的推广和发展,它是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是处理降维的一种统计方法。因子分析的任务,首先是估计出,然后将抽象因子赋予实际背景的解释或给以命名。什么是因子分析因子分析R型因子分析:对变量Q型因子分析:对样品基本思想通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量(不可观测)去描述多个变量之间的相关关系;然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系。因此,因子分析的出发点是原始变量的相关矩阵。二、因子分析模型

一般地,设为可观测的随机变量,且有1.数学模型(8.1)用矩阵表示:

为公共(共性)因子(commonfactor),简称因子(factor)■

为特殊因子(specificfactor)

和均为不可直接观测的随机变量

称为因子载荷是第i个变量在第j个公共因子上的负荷,为因子负荷(载荷)(factorloading)矩阵。高维空间中的互相垂直的m个坐标通常先对作标准化处理,使标准化得到的新变量。这样就有假定(1)

(2)

(3),即和不相关。则称(8.1)为具有m个公因子的正交因子模型。

如果与相关时(),则不是对角阵,此时的模型称为斜交因子模型。因子分析的目的是通过以代替,由于,从而达到简化变量的维数。3.因子分析与主成分分析的异同:①从一个协方差阵出发,都是降维;②主成分的数学模型实质上是一种变换,而因子分析是描述原变量的相关阵结构的一种模型;③主成分的解是唯一的,而因子分析的解是不唯一的;④应用目的不同。三、因子分析提取因子的方法主成分法(principalcomponentfactor)用主成分法确定因子载荷是在进行因子分析之前先对数据进行一次主成分分析,然后把前面几个主成分作为未旋转的公因子。用主成分法寻找公因子的方法如下:

找出p个主成分则主成分与原始变量之间存在如下关系式:按由大到小其中,为随机向量的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从到的转换关系是可逆的,即有(8.2)对上面每一等式只保留前m个主成分而把后面的部分用代替,则上式变为:(8.3)(8.4)(8.4)式在形式上与因子模型相一致,且之间互不相关,把,令,则(8.4)式变为:由此得到了载荷矩阵和一组初始公因子(未旋转)。(8.5)主成分法(principalcomponentfactor)

设的样本相关阵为,的特征根为:对应的单位特征向量:

则有从另一个角度讲主成分法上式恰是时,因子模型中的结构。因为此时模型为即,设,则载荷阵的解为:共同度的估计为:正交因子模型具有如下特性:假定因子模型中,各个变量及公共因子、特殊因子都已经是标准化的变量。(1)因子载荷(负荷)的统计意义是随机变量与公共因子的相关系数,即表示依赖的比重(分量)。反映了在上的相对重要性。(2)变量共同度的统计意义变量的共同度定义为因子载荷中的第i行元素的平方和。X的方差可表示为此时有

是m个公共因子对第i个变量的总方差的贡献,称为第i个共同(communality)或共性方差,公因子方差(commonvariance),说明该变量的几乎全部原始信息都被所选取的公共因子说明了。该式说明:的方差由两部分组成:②是特定变量所产生的方差,称为特殊因子方差(specificfactorvariance),是不能由公共因子解释的部分;仅与本身的变化有关,它是使的补充值。(3)公共因子的方差贡献的统计意义设称为公共因子对的“贡献”,表示同一公共因子对诸变量所提供的方差贡献之和,它是衡量公共因子相对重要性的一个指标。越大,则表明对的贡献越大,或者说对的影响和作用越大。

每一个公共因子的载荷系数之平方和等于对应的特征根,即该公共因子的方差。说明:由于用主成分所得的特殊因子之间并不相互独立,因此,用主成分法确定因子载荷不完全符合因子模型的假设前提,即所得的因子载荷并不完全正确。但是当共同度较大时,特殊因子所起的作用较小,因而特殊因子之间的相关性所带来的影响就几乎可以忽略。极大似然法(maximumlikelihoodfactor)假定原变量服从正态分布,公共因子和特殊因子也服从正态分布,构造因子载荷和特殊方差的似然函数,求其极大,得到唯一解。主因子法(principalfactor)设原变量的相关矩阵为,其逆矩阵为。各变量特征方差的初始值取为逆相关矩阵对角线元素的倒数,。则共同度的初始值为。

以代替相关矩阵中的对角线上的元素,得到约化相关矩阵。

的前m个特征根及其对应的单位化特征向量就是主因子解。迭代主因子法(iteratedprincipalfactor)主因子的解很不稳定。因此,常以估计的共同度为初始值,构造新的约化矩阵,再计算其特征根及其特征向量,并由此再估计因子载荷及其各变量的共同度和特殊方差,再由此新估计的共同度为初始值继续迭代,直到解稳定为止。四、因子旋转目的:使因子负荷两极分化,要么接近于0,要么接近于1。结构简化:就是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷较小。当公共因子涵义不清时结构简化的A因子载荷阵旋转每个仅在上有较大载荷四、因子旋转常用的旋转方法:(方差最大)正交旋转、斜交旋转等。(1)方差最大正交旋转(varimaxorthogonalrotation)基本思想:使公共因子的相对负荷()的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。考虑两个因子的平面正交旋转,设正交阵所谓结构简化,就是使的每一列元素的平方值向1和0两极分化,或者说使因子的贡献尽量分散。即把变量分成两部分:一部分主要与有关,另一部分主要与有关,这也就是要求两组数据的方差要尽可能地大。(8.6)故正交旋转角度必须满足使旋转后所得到因子载荷阵的总方差达到最大,即(8.7)根据求极值原理,先求对的偏导数,利用式(8.6)、(8.7),经过计算知要使

须满足:其中(8.8)

如果公共因子多于两个,可以逐次对每两个进行上述的旋转。当公因子数时,可以每次取两个,全部配对旋转,旋转时总是对初始载荷矩阵中的列、列同时进行,此时式(8.8)中只需将就可以了。变换共需进行次,这样就完成了第一轮旋转,然后对第一轮旋转所得结果用上述方法继续进行旋转,得到第二轮旋转的结果。每一次旋转后,矩阵各列平方的相对方差之和总会比上一次有所增加。如此继续下去,当总方差的改变不大时,就可以停止旋转,这样就得到了新的一组公共因子及相应的因子载荷矩阵,使得各列元素平方的相对方差之和最大。(2)斜交旋转(obliquerotation)因子斜交旋转后,各因子负荷发生了较大变化,出现了两极分化。各因子间不再相互独立,而彼此相关。各因子对各变量的贡献的总和也发生了改变。适用于大数据集的因子分析。五、因子得分因子模型变量(样品)性质及变量(样品)间的相互关系例如:考察企业经济效益的优劣各企业划分归类因子得分五、因子得分因子得分就是公共因子在每一个(变量)样品点上的得分。在因子模型中,公因子的个数少于原始变量的个数,且公因子是不可观测的隐变量,载荷矩阵不可逆,因而不能直接求得公因子用原始变量表示的精确线性组合。因子得分函数五、因子得分Thomson法,即回归法回归法得分是由1939年由Thomson提出来的,得到的因子得分是有偏的,但计算结果误差较小。Thomson用回归的思想求出线性组合系数的估计值,建立如下以公因子为因变量、原始变量为自变量的回归方程(因子得分函数):由于假设变量及公因子都已经标准化了。以下求回归系数。仅知利用样本值可得因子载荷阵,由因子载荷的意义知:即其中因此记则于是即为估计因子得分的计算公式。Bartlett法

Bartlett因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分是无偏的,但计算结果误差较大。估计出因子得分后,用少数公共因子描述原始变量的数据结构;也可用作进一步的分析:样本点之间的比较分析,对样本点的聚类分析等。六、因子分析的步骤输入原始数据,进行标准化计算(处理);求样本相关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论