第十章 因子分析_第1页
第十章 因子分析_第2页
第十章 因子分析_第3页
第十章 因子分析_第4页
第十章 因子分析_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章因子分析第1页,共61页,2023年,2月20日,星期三相关例子(1)奥林匹克十项全能:百米跑、跳远、铅球、跳高、400米跑、百米跨栏、铁饼、撑杆跳远、标枪、1500米跑研究问题:十项全能所包括的运动技能可概括为几项?十项全能可压缩为哪几个项目?实验设计:记录了34名运动员1988年奥赛的成绩数据文件及变量:Olymp88.sav

田赛成绩6项(长度m)

径赛成绩4项(秒sec)统计分析问题:10个原始变量是否可用少量因子表示?与这些因子相关性最强的原始变量是什么?第2页,共61页,2023年,2月20日,星期三相关例子(2)生育率因素分析生育率受社会、经济、文化、计划生育政策等很多因素影响。现选择的变量有:人均国民收入、城镇人口比例、初中以上文化程度的人口比例、多孩率、综合节育率。现根据1990年中国30个省、自治区、直辖市的数据分析哪些因素对生育率有影响。问题:这些因素对生育率的影响并不完全独立,而是交织在一起。因子分析的目的:找出基本的数据结构,即这些变量是否可用少量因子表示?然后用新生成的因子再对生育率进行分析第3页,共61页,2023年,2月20日,星期三什么是因子分析是一种数据简化的技术它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。第4页,共61页,2023年,2月20日,星期三前言因子分析是多元统计分析技术的一个分支,其主要目的是浓缩数据(也称为观察变量)。因子分析的主要目的也是找出少数几个假想变量---称为因子,去描述具有相关性的多个指标。基本思想是分解原始变量,从中归纳出潜在的“类别”,相关性较强的指标归为一类,不同类间变量的相关性则较低。每一类变量代表了一个“共同因子”,即一种内在结构,因子分析就是寻找该结构。因子分析一般要求提取出的公因子有实际含义,如果分析中各因子难以找到合适的意义,则可以通过适当的旋转,改变信息量在不同因子上的分布,最终方便对结果的解释。第5页,共61页,2023年,2月20日,星期三因子分析与主成分分析的区别与联系主成分分析仅仅是变量变换,找出原始变量的线性组合(主成分);其功能是简化原有的变量,强调的是解释数据变异的能力;适合做数据简化;模型中没有误差项;主成分分析是作指标用的,不需要旋转因子分析要寻找变量内部的相关性及潜在的共同因素;其功能在于解释原始变量之间的关系,强调的是变量之间的相关性;适合检测数据结构;模型中有误差项,以潜在的假想变量和随机影响变量的线性组合表示原始变量;一般需要进行旋转才能对因子进行命名与解释主成分分析是因子分析的一种特定的方法第6页,共61页,2023年,2月20日,星期三因子分析的分类R型因子分析研究变量间的相互关系从变量间的相关系数矩阵出发Q型因子分析研究样品间的相互关系从样品间的相似系数矩阵出发第7页,共61页,2023年,2月20日,星期三因子分析的主要问题因子分析模型因子分析的重要概念(因子载荷,变量共同度,方差贡献)模型中的参数估计因子旋转公因子得分第8页,共61页,2023年,2月20日,星期三因子分析模型不失一般性,所讨论的变量都是标准化变量设有p个观察变量x1,x2,…,xp,设有m

个公因子f1,f2,…,fm因子模型的一般表达形式为:f1,f2,…,fm

称为公因子(Commonfactor)εi称为特殊因子

(Uniquefactor),是不能被前m个公共因子包含的部分αij称为因子负载(Factorloadings)第9页,共61页,2023年,2月20日,星期三因子分析模型矩阵形式式中x是p×1的随机向量,且总假定已标准化,即公因子向量F是m×1的不可观测的随机向量,假定第10页,共61页,2023年,2月20日,星期三因子分析模型与回归模型的比较回归模型两者的区别因子分析模型回归分析模型待估参数因子载荷aij回归系数βi“自变量”的性质fi是不可观测的潜在变量xi是可观测的显变量“自变量”个数的特点m是未知的p是已知的“自变量”之间的关系相互独立可能相关第11页,共61页,2023年,2月20日,星期三因子分析模型的路径分析图f1f2fmxpx2x1ε1ε2εpα11α12α1mα21α22α2mαp1αp2αpm第12页,共61页,2023年,2月20日,星期三因子负载(Factorloadings)因子负载是因子分析模型中最重要的一个统计量因子负载是连接观察变量和公因子之间的纽带当公因子之间完全不相关时,很容易证明:

因子负载αij

等于第i个变量和第j个因子之间的相关系数,A=(αij

)为因子载荷阵(因子负荷阵)αij

的绝对值越大,表示公因子fj与变量xi的关系越密切,从中寻找公因子fj的实际含义。第13页,共61页,2023年,2月20日,星期三因子负载还可以用来估计观察变量之间的相关系数,当公因子之间彼此不相关时,由因子分析模型很容易推导出变量xi与xj之间的相关系数为:

即任何两个观察变量之间的相关系数等于对应的因子负载乘积之和。

如果从观测数据计算出的相关系数和从因子模型导出的变量的相关系数差别很小,则可以说模型很好地拟合了观测数据,因子解是合适的。第14页,共61页,2023年,2月20日,星期三变量xi与变量xj之间关系f1f2fmxixjαi1αjmαj1αj2αi2αim第15页,共61页,2023年,2月20日,星期三公因子方差(Communality)观察变量方差由两部分组成:一部分是由公因子决定,另一部分是由特殊因子决定。反映了m个公因子在xi的方差中所占比例公因子方差越大(接近1),变量能被公因子说明的程度越高,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好公因子方差(共性方差):第16页,共61页,2023年,2月20日,星期三公因子的方差贡献(Contributions)每个公因子对数据的解释能力,可以用该因子所解释的总方差来衡量,通常称为该因子的贡献,记为gj它等于和该因子有关的因子负载的平方和fj的方差贡献:fj的方差贡献率:第17页,共61页,2023年,2月20日,星期三注意hi2和gj2之间的区别!hi2:因子载荷矩阵的第i行的元素的平方和gj2:因子载荷矩阵的第j列的元素的平方和,衡量各公因子的相对重要性第18页,共61页,2023年,2月20日,星期三因子模型参数估计-主成分法xi关于主成分y1,y2,…,ym的回归方程中下标的含义:i→原指标序号

j→主成分序号

第19页,共61页,2023年,2月20日,星期三因子模型公因子方差(共性方差):fj的方差贡献:第20页,共61页,2023年,2月20日,星期三因子得分主成分取值:因子得分:因子得分系数矩阵:第21页,共61页,2023年,2月20日,星期三利用主成分法进行因子分析的步骤1、求出原指标xi的相关系数矩阵R2、求出相关系数矩阵R的特征根和其对应的单位化特征向量3、根据累计贡献率确定m个主成分(公因子),等价于确定m个p维向量4、求出原指标xi与第j个主成分(公因子)间的相关系数及因子负荷矩阵A第22页,共61页,2023年,2月20日,星期三5、由m个主成分得出m个公因子(坐标伸缩)6、得出原指标xi关于公因子的关系式7、得出共性方差,因子的方差贡献第23页,共61页,2023年,2月20日,星期三主成分矩阵、因子负荷矩阵、得分系数矩阵间的“三角关系”主成分矩阵因子负荷矩阵得分系数矩阵第24页,共61页,2023年,2月20日,星期三因子旋转为什么需要进行因子旋转?建立了因子分析目的不仅仅要找出公共因子,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目的是通过改变坐标轴的位置,使因子载荷阵的结构简化,重新分配每个因子所解释的方差的比例,使载荷矩阵每列或行的元素平方值向0和1两极分化,更易于解释不改变对数据的拟合程度,不改变因子的共同度,改变的是每个因子的方差贡献第25页,共61页,2023年,2月20日,星期三简单的因子载荷矩阵结构指每个变量在尽可能少的因子上有比较高的负载。以因子为轴,以因子负载为坐标作图,则每个变量是空间中的一个点,该图称为因子负载图。显然,简单结构的位置应该在f1’

、f2’处,,其位置使因子的意义相对更明确第26页,共61页,2023年,2月20日,星期三方差最大的正交旋转1、将原来因子负荷阵A通过正交旋转后得A*,使得因子负荷阵每一列元素能够“两极化”,即通过方差极大的正交旋转,使因子解的实际意义更容易解释。2、根据求出的方差贡献3、因子得分4、经正交旋转后的单位化特征向量为正交矩阵。第27页,共61页,2023年,2月20日,星期三

因子旋转的方式正交旋转:因子轴之间仍保持90度,即因子间不相关方差最大法(Varimax)从简化因子载荷矩阵的每一列出发,使和每个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子上有较高的载荷时,对因子的解释最简单。四次方最大法(Quartimax)从简化因子载荷矩阵的每一行出发强调了对变量解释的简洁性,牺牲了对因子解释的简洁性等量最大法(Equamax)将前两种方法结合起来斜交旋转:因子间的夹角任意第28页,共61页,2023年,2月20日,星期三没有一个准则能帮助使用者选定一种特定的旋转技术,没有可以令人信服的理由能够说某种旋转方法优于其他的方法。因此,选择旋转方法主要是根据研究问题的需要。如果因子分析的目标主要是进行数据化简,把很多变量浓缩为少数几个因子,而因子的确切含义是什么并不重要,应用选用正交旋转如果研究的目标是要得到几个理论上有意义的因子,可以选用斜交旋转。因为现实中很少有完全不相关的变量,所以,理论上,斜交旋转优于正交旋转。但斜交旋转中因子间的斜交程度受使用者定义的参数的影响,而且斜交旋转中所允许的因子之间的相关程度是很小的,大多数研究者都会选取更少的因子重新进行分析。基于此,斜交优越性被大大削弱了,正交旋转应用更广泛。如果研究者不知道应该选用哪种旋转方法的话,可以不必选,直接用软件中默认的方法VARIMAX第29页,共61页,2023年,2月20日,星期三因子分析的步骤选择分析变量,检验待分析的原始变量是否适合做因子分析

提取公因子,估计因子模型中的未知参数选择合适公因子的数量

旋转因子使得公因子具有可解释性

进行因子命名

计算因子得分,进行结果解释

第30页,共61页,2023年,2月20日,星期三用SPSS软件进行因子分析StatisticsDataReductionFactor…在因子分析的主对话框中除了要指定参与因子分析的变量以外,还有五个子对话框可供选择:

Descriptive,Extraction,Rotation,Scores,Option

第31页,共61页,2023年,2月20日,星期三1.Extraction子对话框提供与因子提取有关的选项:Method:选择提取因子的方法Extract:决定提取因子的个数Display:指定与初始因子有关的输出项Analyze:指定分析矩阵MaximumiterationsforConvergence:指定因子分析收敛的最大迭代次数第32页,共61页,2023年,2月20日,星期三Method(因子载荷矩阵的估计方法)Principalcomponents(主成分分析)Unweightedleastsquare(普通最小二乘)Generalizedleastsquares(广义最小二乘)Maximumlikelihood(极大似然法)PrincipalAxisfactoring(主轴因子法)Alpha(α因子提取法)Image(映象分析法)第33页,共61页,2023年,2月20日,星期三ExtractEigenvalueover:指定要提取因子的最小特征值,默认值为1Numberoffactors:直接指定提取因子的个数第34页,共61页,2023年,2月20日,星期三DisplayUnrotatedfactorsolution:显示未经旋转的因子解Screeplot:显示碎石图,提取因子个数的参考依据第35页,共61页,2023年,2月20日,星期三AnalyzeCorrelationmatrix:指定以分析变量的相关系数矩阵为提取因子的依据,系统默认Covariancematrix:指定以分析变量的协方差矩阵为提取因子的依据第36页,共61页,2023年,2月20日,星期三MaximumiterationsforConvergence系统默认值为25第37页,共61页,2023年,2月20日,星期三2.Rotation子对话框提供与因子旋转有关的选项Method:选择因子旋转方法Display:指定输出选项MaximumiterationsforConvergence:指定因子分析收敛的最大迭代次数第38页,共61页,2023年,2月20日,星期三MethodNone:不进行旋转Varimax:方差最大法Quartimax:四次方最大法Equamax:等量最大法DirectOblimin:斜交旋转第39页,共61页,2023年,2月20日,星期三DisplayRotatedsolution:显示旋转后的因子解Loadingplots:显示因子负载图第40页,共61页,2023年,2月20日,星期三MaximumiterationsforConvergence系统默认值为25第41页,共61页,2023年,2月20日,星期三3.FactorScores子对话框提供与因子值有关的选项Method:指定计算因子值的方法Saveasvariables:将因子值作为新变量保存在数据文件中Displayfactorscorecoefficientmatrix:显示因子值系数矩阵第42页,共61页,2023年,2月20日,星期三MethodRegression:回归法Bartlett:巴特利特法Anderson-Rubin:安德森-鲁宾法第43页,共61页,2023年,2月20日,星期三三种方法的因子得分均值都为零,方差不一样:回归法计算的因子得分方差为因子得分的估计值与实际值之间的多元相关的平方巴特利特法计算的因子得分方差为超出变量范围的各因子平方和被最小化安德森-鲁宾法计算的因子得分标准差为1,且彼此不相关第44页,共61页,2023年,2月20日,星期三Displayfactorscorecoefficientmatrix显示的是标准化得分系数,还可以显示协方差矩阵第45页,共61页,2023年,2月20日,星期三4.Descriptive子对话框

提供描述性统计量以及与相关矩阵有关的统计量Statistics:Correlationmatrix:第46页,共61页,2023年,2月20日,星期三StatisticsUnivariatedescriptives:显示各观察变量的均值和标准差Initialsolution:显示公因子的方差、特征值、各因子解释的方差比例和累积比例第47页,共61页,2023年,2月20日,星期三CorrelationmatrixCoefficients:观察变量的相关系数矩阵Significancelevels:每个相关系数的显著水平Determinant:相关系数矩阵的行列式Inverse:相关系数矩阵的逆矩阵Reproduced:由因子模型估计出的相关系数与残差Anti-image:反映象相关矩阵KMOandBartlett’stestofsphericity:KMO测度和巴特利特球体检验,用于检验数据是否适合做因子分析,K值小于0.5,不适合做因子分析第48页,共61页,2023年,2月20日,星期三5.Option子对话框

提供有关缺失值处理及数据显示格式的选项Missingvalues:缺失值处理方式Coefficientdisplayformat:因子负载显示方式第49页,共61页,2023年,2月20日,星期三CoefficientdisplayformatSortedbysize:按绝对值大小排列Suppressabsolutevalueslessthan:不显示绝对值小于指定值的因子负载第50页,共61页,2023年,2月20日,星期三完全使用系统默认值,得到的是提取特征值大于等于1的因子,采用主成分分析法提取因子,不进行因子旋转的结果第51页,共61页,2023年,2月20日,星期三案例:奥林匹克十项全能分析步骤和方法是否适合进行因子分析?默认输出因子旋转指定因子输出模型评价第52页,共61页,2023年,2月20日,星期三是否适合进行因子分析?考察的统计量:KMO>0.5;Bartlett’ssig<0.05KMO统计量越接近1,做因子分析的效果越好。一般认为:KMO>0.9,效果最佳;0.7以上效果尚佳;0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论