第六章 因子分析_第1页
第六章 因子分析_第2页
第六章 因子分析_第3页
第六章 因子分析_第4页
第六章 因子分析_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章因子分析1第1节因子分析概述一、因子分析的意义

1、实际研究中,考察的多个变量可能存在一些问题:(1)分析的复杂性:变量较多虽然可以提供更丰富的信息,但也会大大增加分析问题的复杂性和难度。(2)变量间的相关性:变量间信息的高度重叠(高度相关)会影响分析结果。如果直接地削减变量的个数,会导致信息丢失和不完整等问题。

2、因子分析:以最少的信息丢失为前提,将众多的原有变量综合成较少的几个综合指标(称为因子),从而降低变量的维数。

3、因子分析的特点:(1)因子个数大大少于原有变量的个数。(2)因子能够反映原有变量绝大部分的信息。(3)因子之间的线性关系不显著。(4)因子具有命名解释性。二、因子分析的数学模型和相关概念

1、因子分析的核心:用较少的、相互独立的因子反映原有变量的绝大部分信息。因子分析的数学模型:设有p个变量,每个变量的均值为0,标准差为1。将每个原有变量用k个(k<p)因子f1,f2,…,fk

的线性组合表示,即独特因子公共因子

也可用矩阵形式表示:X=AF+ε,其中,F称为因子。由于它们出现在每个原有变量的线性表达式中,因此也称为公共因子。

因子可以理解为高维空间中相互垂直的k个坐标轴,矩阵A称为因子载荷矩阵,载荷矩阵的元素amn(m=1,2,…,p;n=1,2,…,k)称为因子载荷,是第m个原有变量在第n个因子上的载荷。如果把变量xm看作k维空间中的一个向量,则amn表示fn在坐标轴上的投影,它相当于多元回归分析中的标准化回归系数。称为特殊因子,表示原有变量不能被因子解释的部分,其均值为0,相当于多元回归分析中的残差项。

2、因子分析的相关概念:(1)因子载荷:在因子不相关的前提下,因子载荷是变量与因子的相关系数。它反映了因子对解释变量的重要程度。(2)变量共同度:即公共方差,变量的共同度是因子载荷矩阵中第m行元素的平方和:在变量标准化时,由于变量的方差可以表示为,因此原有变量的方差可由两部分解释:一部分为变量的共同度,是全部因子对变量的方差解释说明的比例;另一部分为特殊因子的平方,是全部因子对变量的方差不能解释说明的比例。越大,或者说越小,说明变量的信息丢失越小。变量的共同度是评价变量信息丢失程度的重要指标。

(3)因子的方差贡献:因子的方差贡献是因子载荷矩阵第n列元素的平方和:因子的方差贡献反映了因子对原有变量总方差的解释能力,该值越高,说明相应的因子越重要。因子的方差贡献和方差贡献率是衡量因子重要性的关键指标。

9寻找基本结构

在多元统计中,经常遇到诸多变量之间存在强相关的问题,它会对分析带来许多困难。通过因子分析,可以找出几个较少的有实际意义的因子,反映出原来数据的基本结构。

例如:调查汽车配件的价格中,通过因子分析从20个指标中概括出原材料供应商、配件厂商、新进入者、后市场零部件厂商、整车厂和消费者6个基本指标。从而找出对企业配件价格起决定性作用的几个指标。10数据化简

通过因子分析,可以找出少数的几个因子来代替原来的变量做回归分析、聚类分析、判别分析等。

11

主成分分析:通过对一组变量的几个线性组合来解释这组变量的方差和协方差结构,以达到数据的压缩和数据的解释的目的。

若有一些指标

,取综合指标即它们的线性组合F,当然有很多,我们希望线性组合F包含很多的信息,即var(F)最大,这样得到F记为F1,然后再找F2,F1与

F2无关,以此类推,我们找到了一组综合变量

F1,F2,…,Fm,这组变量基本包含了原来变量的所有信息。

主成分分析与因子分析的区别12主成分分析的数学模型13主成分分析与因子分析公式上的区别因子分析(m<p)主成分分析14第2节因子分析的基本内容一、考察变量是否适合进行因子分析

1、因子分析的目的是从众多的原有变量中综合出少数具有代表性的因子,因此它要求原有变量之间应存在较强的相关关系。

2、变量相关程度的度量指标:先将变量标准化(1)相关系数矩阵:计算简单相关系数,如果大部分相关系数值均小于0.3(即为弱相关),那么原则上这些变量是不适合进行因子分析的。(2)反映像矩阵:主要包括反映像协方差矩阵和反映像相关系数矩阵。反映像相关系数矩阵对角线上的元素为对应变量的MSA(MeasureofSamplingAdequacy)统计量:

是变量与的简单相关系数,是变量与在控制了剩余变量下的偏相关系数。如果反映像相关矩阵对角线上的元素(即MSA)的绝对值接近于1,其他值均较小,说明这些变量的相关性较强,适合进行因子分析。(3)巴特利特球度检验(Bartlett’sTestofSphericity):零假设:相关系数矩阵是单位阵。巴特利特球度检验统计量近似服从分布。如果该统计量的观测值比较大,对应的P值小于给定的显著性水平,则拒绝零假设,认为相关系数矩阵不大可能是单位阵,即原有变量适合进行因子分析。

(4)KMO(Kaiser-Meyer-Olkin)检验。KMO统计量用于检验变量间的偏相关性是否足够小,是简单相关量和偏相关量的一个相对指数,由下式求得:KMO>0.9非常适合0.8<KMO<0.9适合0.7<KMO<0.8一般0.6<KMO<0.7不太适合KMO<0.5不适合18

简单相关系数

相关系数:表示两要素之间的相关程度的统计指标。

对于两个要素x与y,如果它们的样本值分别为xi与yi(i=1,2,...,n),它们之间的相关系数:19偏相关系数在多要素构成的系统中,当研究某一个要素对另一个要素的影响或相关程度时,把其它要素的影响视为常数,而单独研究两个要素之间的相互关系的密切程度时,称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。一级偏相关系数:假设有三个要素x1、x2、x3,它们之间的偏相关系数共有三个,即r12.3,r13.2,r23.1其计算公式分别如下:20r12.3,r13.2,r23.1又称为一级偏相关系数21二级偏相关系数:若有四个要素x1、x2、x3和x4,则有六个偏相关系数,即r12.34,r13.24,r14.23,r23.14,r24.13,r34.12,称为二级偏相关系数,计算公式如下:22二、因子提取和因子载荷矩阵的求解

1、因子分析的关键:根据样本数据求解因子载荷矩阵。因子载荷矩阵的求解方法主要有:主成分法、主轴因子法、最大似然法、最小二乘法、因子提取法和映像因子法等。其中,主成分法使用最广泛,它能够为因子分析提供初始解,因子分析是主成分分析结果的延伸和拓展。

2、主成分分析法通过坐标变换的方法将原有的p个相关变量标准化,再进行线性组合转换成另一组不相关的变量,于是有:其中,(1)求解系数矩阵的原则:

①Fm与Fn(m≠n)不相关。②F1是原有变量x1,x2,…,xp

的一切线性组合中方差最大的,F2是与F1不相关的原有变量的一切线性组合中方差最大的,……,Fp是与F1,F2,…,Fp-1都不相关的原有变量的一切线性组合中方差最大的。综合变量F1,F1,…,Fp依次称为原有变量的第1个、第2个、…、第p个主成分。它们综合原有变量的能力是依次递减的。由于umn为随机向量X的相关矩阵的特征值对应的特征向量的分量,特征向量之间彼此正交,实际上从X到F的转换关系是可逆的,即:我们只保留前k个主成分,把后面的用代替,即:(2)主成分分析法的步骤:①将原有变量的数据进行标准化处理。②根据变量特性选择计算相关矩阵还是协方差矩阵。由于变量标准化会抹杀一部分重要信息,所以对同度量或同数量级的数据,直接从协方差矩阵求解主成分为宜。建议实际研究中从不同角度出发求解主成分并研究其结果的差异。③求相关矩阵或协方差矩阵的特征根及对应的特征向量然后计算,即得各个主成分。通常我们只需要用前几个主成分,这几个主成分即为所求的初始因子。

3、求原有变量的因子载荷矩阵(成分矩阵)。确定提取因子数的两个方法:(1)根据特征根大小确定因子数:一般取特征根大于1的因子。(2)根据累计方差贡献率确定因子数:通常选取累计方差贡献率大于0.80时的特征根个数为因子个数。很多人习惯使用方法(1),但它缺乏完善的理论支持,大多数情况是使用方法二。

在提取因子的过程中涉及下列名词,现分别说明:30(1)特征值

特征值是指每个变量在某一公共因子上的因子负荷的平方总和,又叫特征根。在因子分析的公共因子提取中,特征值最大的公共因子会最先被提取,最后提取特征值最小的公共因子。因子分析的目的就是使因子维度简单化,希望以最小的公共因子能对总变异量作最大的解释,因而提取的因素愈少愈好,而提取因子之累积解释的变异量则愈大愈好。31

每个公共因子对原始数据的解释能力,可以用该因子所解释的总方差来衡量,通常称为该因子的贡献率,它等于和该因子有关的因子负荷的平方和,实际中常用相对指标来表示。相对指标体现公共因子的相对重要性,即每个公共因子所解释的方差占所有变量总方差的比例。(2)因子的贡献率32三、因子旋转使因子具有命名可解释性

1、因子载荷矩阵第m行多个列上元素的绝对值都较大(通常大于0.5),则表明原有变量与多个因子同时具有较强的相关关系。通过因子旋转可以使一个变量只在尽可能少的因子上具有比较高的载荷,因子的含义就变清楚了。

2、因子矩阵旋转:将因子载荷矩阵右乘一个正交矩阵,得到一个新矩阵。它不影响原有变量的共同度,但会改变因子的方差贡献,即会重新分配各因子解释原有变量方差的比例,使因子更易于理解。

(1)正交旋转:坐标轴在旋转过程中始终保持垂直,新生成的因子保持不相关。正交旋转方法主要有:四次方最大法(Quartimax)、方差最大法(Varimax)和等量最大法(Equamax)等,方差最大法使用较多。(2)斜交旋转:坐标轴可以是任意角度的,新生成的因子不能保证不相关。

使因子具有命名可解释性方面,斜交旋转通常优于正交旋转,但却以不能保持因子的不相关性为代价。因此,一般选择正交旋转方法。

四、计算因子得分

1、因子得分(即标准化主成分)是因子分析的最终体现。计算因子得分的方法:回归法、Bartlett法和Anderson-Rubin法。

2、计算因子得分是用原有变量描述因子:

因为原始变量和公共因子均为标准化变量,因此回归模型中不存在常数项。

因子分析的对话框介绍在FactorAnalysis对话框中,左边较大的矩形框是源变量框,右边“Variables”框为选入分析的变量框36各变量的基本统计量(包括均数,标准差和样本量)因子分析的初始解(包括原变量的公因子方差,与变量数目相同的因子,各因子的特征值及其所占总方差的百分比和累计百分比)相关系数矩阵相关系数矩阵单侧检验的概率值相关系数矩阵的行列式KMO和巴特利球型检验相关系数矩阵的逆矩阵反映象协方差阵和相关阵再生相关阵(给出因子分析后的相关阵及其残差,下三角为再生相关阵,上三角为残差,即再生相关系数与原始相关系数之差)Descriptives按钮37“Analyze”指定提取因子的依据:Correlationmatrix:相关系数矩阵(系统默认,当原有变量存在数量级的差异时,通常选择该选项)Covariancematrix:协方差矩阵“Extract”提取标准:Eigenvalusover:以特征值大于某数值为提取标准Numberoffactors:自定义提取因子的数量(正整数)“Display”输出内容:Unrotatedfactorsolution:未旋转的因子负荷阵Screeplot:碎石图(以特征值大小排列的原始变量序号为横轴,特征值为纵轴的加连线的散点图)MaximumIterationsforConvergence:最大迭代次数(正整数),系统默认25次Extraction按钮38Rotation按钮“Mothod”因子旋转方法:正交法None:不旋转(系统默认)Varimax:最大方差旋转法Quartimax:四次方最大正交旋转法Equamax:平均正交旋转法“Display”输出内容:Rotatedsolution:旋转后的因子负荷矩阵Loading

plot(s):旋转后的因子负荷散点图斜交法DirectOblimin:最大斜交旋转法,选此项,下方的Delta框被激活,可填入小等于0.8的值,系统默认0,即产生最高相关因子。Promax:斜交旋转法,选此项,下方的Kappa框被激活,系统默认4。该法允许因子间相关,远较最大斜交旋转法计算速度快,适于大型数据处理。

-----------------------------------------------------------------------39FactorScores按钮“Method”求因子得分方法:Regression:回归法(系统默认)Bartlett:Bartlett法Anderson-Rubin:Anderson-Rubin法Displayfactorscorecoefficientmatrix:输出因子得分系数矩阵40Option按钮“MissingValues”缺失值处理:Excludecaseslistwise:剔除含有缺失值的所有观察单位(系统默认)Excludecasespairwise:剔除各对变量中含有缺失值的观察单位Replacewithmean:用各变量的均值替代缺失值“CoefficientDisplayFormat”因子矩阵的输出格式:Sortedbysize:按因子系数由大到小排列Suppressabsolutevalueslessthan:只列出大于某一数值的因子系数(系统默认0.1)41第3节案例分析案例X1:每万人中等职业教育在校生数X2:每万人中等职业教育招生数X3:每万人中等职业教育毕业生数X4:每万人中等职业教育专任教师数X5:本科以上学校教师占专任教师的比例X6:高级教师占专任教师的比例X7:学校平均在校生人数X8:国家财政预算中等职业教育经费占国内生产总值的比例X9:生均教育经费

对北京18个区县中等职业教育发展水平的9个指标进行因子分析,然后进行综合评价。数据如有表所示,9个指标分别表示如下含义:42操作步骤定义变量:变量“qx”为字符型变量,表示区县;变量x1,x2,…,x9均为数值型变量,表示中等教育发展水平的状况。

3.从左侧的变量列表中选择x1,x2,…,x9变量进入“Variables”框中。

43444546结果分析上表显示原有变量的相关系数矩阵及其检验。可以看到,大部分的相关系数都较高(大于0.3,单边检验值小于0.05),各变量呈较高的线性关系,能够从中提取公共因子,适合进行因子分析。大部分的相关系数值大于0.3大部分的检验值小于0.0547

巴特利球形检验统计量为131.051,相应的概率Sig为0.000,因此可认为相关系数矩阵与单位阵有显著差异。同时,KMO值为0.762,根据Kaiser给出的KMO度量标准可知原有变量适合作因子分析。48

右表是因子分析的初始解,显示了所有变量的共同方差数据。“Initial”列是因子分析初始解下的变量共同方差。它表示,对原有9个变量如果采用主成分分析方法提取所有特征值(9个),那么原有变量的所有方差都可被解释,变量的共同方差均为1(原有变量标准化后的方差为1)。“Extraction”列是在按指定提取条件(本例提取3个因子)提取特征值时的共同方差。可以看到,所有变量的共同方差均较高,各个变量的信息丢失都较少。因此本次因子分析提取的总体效果较理想49上表中,第一列是因子编号,以后三列组成一组,每组中数据项的含义依次是特征根值,方差贡献率和累计方差贡献率。

第一组数据项描述了因子初始解的情况。可看到,第1个因子的特征值是4.975,解释原有9个变量总方差的

55.275%(4.975÷9×100),累计方差贡献率为55.275%;其余数据含义类似。

第二组数据项描述了因子解的情况。可看到,由于指定提取3个因子,3个因子共解释了原有变量总方差的84.466%。总体上,3个因子反映了原有变量的大部分信息,因子分析效果较理想。第三组数据描述了经过旋转后最终因子解的情况。可见,因子旋转后累计方差比没有改变,但重新分配了

各个因子解释原有变量的方差,改变了各个因子的方差贡献,使得因子更易于解释。50右图中,横坐标为因子数目,纵坐标为特征值。可见,第1个因子的特征值很高,对解释原有变量的贡献最大;第4个以后的因子特征值都较小,对解释原有变量的贡献很小,已经成为可被忽略的“高山脚下的碎石”,因此提取3个因子是适合的。3个主要因子51

从表中可以看到,9个变量在第1个因子上的负荷都很高,意味着它

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论