管理统计与应用软件第6章因子分析_第1页
管理统计与应用软件第6章因子分析_第2页
管理统计与应用软件第6章因子分析_第3页
管理统计与应用软件第6章因子分析_第4页
管理统计与应用软件第6章因子分析_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章因子分析在科学研究中,往往希望尽可能多地收集反映研究对象的多个变量,以期能对问题有比较全面、完整的把握与认识。多变量的大样本虽然能为科学研究提供大量的信息,但是在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性,这意味着表面上看来彼此不同的变量并不能从各个侧面反映事物的不同属性,而恰恰是事物同一种属性的不同表现。2如何从众多相关的指标中找出少数几个综合性指标来反映原来指标所包含的主要信息,这就需要进行因子分析(FactorAnalysis),它是用少数几个因子来描述许多指标或因素之间的联系,即:用较少几个因子反映原始数据的大部分信息的统计方法。3第一节概述一、提出者

因子分析最初是由英国心理学家C.Spearman提出的。1904年他在美国心理学刊物上发表了第一篇有关因子分析的文章。以后因子分析逐步被发展完善。50年代以来,由于计算机的发展,因子分析在社会学、经济学、管理学、医学、地质学、气象学中得到了较为广泛的应用。二、因子分析的含义

因子分析,又叫因素分析,就是通过寻找众多变量的公共因素来简化变量中存在复杂关系的一种统计方法,它将多个变量综合为少数几个“因子”以再现原始变量与“因子”之间的相关关系。

比如:分析学生的各项成绩,包括数学、语文、英语、百米、跳高和铅球等,如果一个学生的学习成绩之间相关性很好,体育成绩的相关性也很好,而学习成绩和体育成绩间相关性很差,那么可以考虑学生的学习成绩是否存在一个共同的影响因子,这里暂且称之为智力因子,用学生的学习成绩(数学、语文、英语)来指示学生的智力这个因子,而用体育成绩(百米、跳高、铅球)来指示体力这个因子,本来智力因子和体力因子没有办法直接测量,而因子分析可以解决这个问题。5

6三、因子分析的主要作用1、寻找基本结构

在多元统计中,经常遇到诸多变量之间存在强相关的问题,它会对分析带来许多困难。通过因子分析,可以找出几个较少的有实际意义的因子,反映出原来数据的基本结构。例如:调查汽车配件的价格中,通过因子分析从20个指标中概括出原材料供应商、配件厂商、新进入者、后市场零部件厂商、整车厂和消费者6个基本指标。从而找出对企业配件价格起决定性作用的几个指标。72、数据化简

通过因子分析,可以找出少数的几个因子来代替原来的变量做回归分析、聚类分析、判别分析等。8四、因子特点因子个数远远少于原有变量的个数因子能够反映原有变量的绝大部分信息因子之间的线性关系不显著因子具有命名解释性第二节因子分析原理及分析步骤一、因子分析数学模型

独特因子公共因素10因子分析的目的就是以F代替Z,由于一般p<m,从而达到简化变量维度的愿望。二、因子分析的基本步骤1.确定因子分析的前提条件

因子分析是从众多的原始变量中综合出少数几个具有代表性的因子,这必定有一个前提条件,即原有变量之间具有较强的相关性。如果原有变量之间不存在较强的相关关系,则无法找出其中的公共因子。因此,在因子分析时需要对原有变量做相关分析。通常可采用如下几种方法:

12(1)计算相关系数矩阵计算原有变量的简单相关系数矩阵。观察相关系数矩阵,如果相关系数矩阵中的大部分相关系数值小于0.3,则各个变量之间大多为弱相关,这就不适合做因子分析。如果一个变量与其他变量间相关度很低,则在下一分析步骤中可考虑剔除此变量。13(2)进行统计检验在因子分析过程中提供了几种检验方法来判断变量是否适合做因子分析。主要统计方法有如下两种:

4阶单位阵1.巴特利球形检验(BarlettTestofSphericity)。它是以变量的相关系数矩阵为出发点,零假设:相关系数矩阵是一个单位阵。如果巴特利球形检验的统计计量数值较大,且对应的相伴概率值小于用户给定的显著性水平,则应该拒绝零假设;反之,则不能拒绝零假设,认为相关系数矩阵可能是一个单位阵,不适合做因子分析。注:单位阵:主对角线上的元素都是1,其余的元素都是零的n阶方阵,叫做n阶单位矩阵14

(3).KMO(Kaiser-Meyer-Olkin)检验。KMO统计量用于检验变量间的偏相关性是否足够小,是简单相关量和偏相关量的一个相对指数,由下式求得:KMO>0.9非常适合0.8<KMO<0.9适合0.7<KMO<0.8一般0.6<KMO<0.7不太适合KMO<0.5不适合152.提取因子

决定因子提取的方法(即求初始因子)的方法很多,有“主成分分析法”,“主轴因子法”,“极大似然法”,“最小二乘法”,“Alpha因子提取法”和“映象因子提取法”等等。最常用的是“主成分分析法”和“主轴因子法”,其中又以“主成分分析法”的使用最为普遍。在提取因子的过程中涉及下列名词,现分别说明:16(1)特征值

特征值是指每个变量在某一公共因子上的因子负荷的平方总和,又叫特征根。在因子分析的公共因子提取中,特征值最大的公共因子会最先被提取,最后提取特征值最小的公共因子。因子分析的目的就是使因子维度简单化,希望以最小的公共因子能对总变异量作最大的解释,因而提取的因素愈少愈好,而提取因子之累积解释的变异量则愈大愈好。17每个公共因子对原始数据的解释能力,可以用该因子所解释的总方差来衡量,通常称为该因子的贡献率,它等于和该因子有关的因子负荷的平方和,实际中常用相对指标来表示。相对指标体现公共因子的相对重要性,即每个公共因子所解释的方差占所有变量总方差的比例。(2)因子的贡献率183.确定公共因子数根据某种规则,确定数据所需的公共因子数,方法有:根据公共因子在变量总方差中所占的累计百分比,一般大于85%;特征根大于1的因子将被选入;当变量数Q为偶数时,公共因子个数应小于Q/2,为奇数时,应小于(P-1)/2。194.因子的命名因子的命名是因子分析的一个核心问题。旋转后可决定因子个数,并对其进行命名。对于新因子变量的命名要根据新因子变量与原变量的关系,即观察旋转后的因子负荷矩阵中某个新因子变量能够同时解释多少原变量的信息。205.计算因子得分计算因子得分是因子分析的最后一步。因子变量确定后,便可计算各因子在每个样本上的具体数值,这些数值就是因子的得分,形成的新变量称为因子变量,它和原变量的得分相对应。有了因子得分,在以后的分析中就可以因子变量代替原有变量进行数据建模,或利用因子变量对样本进行分类或评价等研究,进而实现降维和简化的目标。21第三节用SPSS进行因子分析一、因子分析的对话框介绍在FactorAnalysis对话框中,左边较大的矩形框是源变量框,右边“Variables”框为选入分析的变量框23各变量的基本统计量(包括均数,标准差和样本量)因子分析的初始解(包括原变量的公因子方差,与变量数目相同的因子,各因子的特征值及其所占总方差的百分比和累计百分比)相关系数矩阵相关系数矩阵单侧检验的概率值相关系数矩阵的行列式KMO和巴特利球型检验相关系数矩阵的逆矩阵反映象协方差阵和相关阵再生相关阵(给出因子分析后的相关阵及其残差,下三角为再生相关阵,上三角为残差,即再生相关系数与原始相关系数之差)Descriptives按钮24“Analyze”指定提取因子的依据:Correlationmatrix:相关系数矩阵(系统默认,当原有变量存在数量级的差异时,通常选择该选项)Covariancematrix:协方差矩阵“Extract”提取标准:Eigenvalusover:以特征值大于某数值为提取标准Numberoffactors:自定义提取因子的数量(正整数)“Display”输出内容:Unrotatedfactorsolution:未旋转的因子负荷阵Screeplot:碎石图(以特征值大小排列的原始变量序号为横轴,特征值为纵轴的加连线的散点图)MaximumIterationsforConvergence:最大迭代次数(正整数),系统默认25次Extraction按钮25Rotation按钮“Mothod”因子旋转方法:正交法None:不旋转(系统默认)Varimax:最大方差旋转法Quartimax:四次方最大正交旋转法Equamax:平均正交旋转法“Display”输出内容:Rotatedsolution:旋转后的因子负荷矩阵Loadingplot(s):旋转后的因子负荷散点图斜交法DirectOblimin:最大斜交旋转法,选此项,下方的Delta框被激活,可填入小等于0.8的值,系统默认0,即产生最高相关因子。Promax:斜交旋转法,选此项,下方的Kappa框被激活,系统默认4。该法允许因子间相关,远较最大斜交旋转法计算速度快,适于大型数据处理。-----------------------------------------------------------------------26FactorScores按钮“Method”求因子得分方法:Regression:回归法(系统默认)Bartlett:Bartlett法Anderson-Rubin:Anderson-Rubin法Displayfactorscorecoefficientmatrix:输出因子得分系数矩阵27Option按钮“MissingValues”缺失值处理:Excludecaseslistwise:剔除含有缺失值的所有观察单位(系统默认)Excludecasespairwise:剔除各对变量中含有缺失值的观察单位Replacewithmean:用各变量的均值替代缺失值“CoefficientDisplayFormat”因子矩阵的输出格式:Sortedbysize:按因子系数由大到小排列Suppressabsolutevalueslessthan:只列出大于某一数值的因子系数(系统默认0.1)28二、实例分析案例X1:每万人中等职业教育在校生数X2:每万人中等职业教育招生数X3:每万人中等职业教育毕业生数X4:每万人中等职业教育专任教师数X5:本科以上学校教师占专任教师的比例X6:高级教师占专任教师的比例X7:学校平均在校生人数

X8:国家财政预算中等职业教育经费占国内生产总值的比例X9:生均教育经费对北京18个区县中等职业教育发展水平的9个指标进行因子分析,然后进行综合评价。数据如有表所示,9个指标分别表示如下含义:29操作步骤定义变量:变量“qx”为字符型变量,表示区县;变量x1,x2,…,x9均为数值型变量,表示中等教育发展水平的状况。

3.从左侧的变量列表中选择x1,x2,…,x9变量进入“Variables”框中。30313233结果分析上表显示原有变量的相关系数矩阵及其检验。可以看到,大部分的相关系数都较高(大于0.3,单边检验值小于0.05),各变量呈较高的线性关系,能够从中提取公共因子,适合进行因子分析。大部分的相关系数值大于0.3大部分的检验值小于0.0534巴特利球形检验统计量为131.051,相应的概率Sig为0.000,因此可认为相关系数矩阵与单位阵有显著差异。同时,KMO值为0.762,根据Kaiser给出的KMO度量标准可知原有变量适合作因子分析。35右表是因子分析的初始解,显示了所有变量的共同方差数据。“Initial”列是因子分析初始解下的变量共同方差。它表示,对原有9个变量如果采用主成分分析方法提取所有特征值(9个),那么原有变量的所有方差都可被解释,变量的共同方差均为1(原有变量标准化后的方差为1)。“Extraction”列是在按指定提取条件(本例提取3个因子)提取特征值时的共同方差。可以看到,所有变量的共同方差均较高,各个变量的信息丢失都较少。因此本次因子分析提取的总体效果较理想36上表中,第一列是因子编号,以后三列组成一组,每组中数据项的含义依次是特征根值,方差贡献率和累计方差贡献率。

第一组数据项描述了因子初始解的情况。可看到,第1个因子的特征值是4.975,解释原有9个变量总方差的55.275%(4.975÷9×100),累计方差贡献率为55.275%;其余数据含义类似。

第二组数据项描述了因子解的情况。可看到,由于指定提取3个因子,3个因子共解释了原有变量总方差的84.466%。总体上,3个因子反映了原有变量的大部分信息,因子分析效果较理想。第三组数据描述了经过旋转后最终因子解的情况。可见,因子旋转后累计方差比没有改变,但重新分配了各个因子解释原有变量的方差,改变了各个因子的方差贡献,使得因子更易于解释。37右图中,横坐标为因子数目,纵坐标为特征值。可见,第1个因子的特征值很高,对解释原有变量的贡献最大;第4个以后的因子特征值都较小,对解释原有变量的贡献很小,已经成为可被忽略的“高山脚下的碎石”,因此提取3个因子是适合的。3个主要因子38

从表中可以看到,9个变量在第1个因子上的负荷都很高,意味着它们与第1个因子的相关程度高,其余2个因子与9个变量的相关性相对较小。另外还可看到,这3个因子的实际含义比较模糊。右表显示了因子负荷矩阵

是因子分析核心内容39从右表可知,用主成分分析法进行方差极大法旋转后,在校生数、招生数、毕业生数、专任教师数和经费比例5个变量在第1个因子上有较高的负荷,第1个因子主要解释这5个变量,其意义代表中等职业教育的相对规模大小,可解释为发展规模;

发展规模学校规模办学条件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论