版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
因子分析
(FactorAnalysis)知识点1、什么是因子分析?2、理解因子分析的基本思想3、因子分析的数学模型以及模型中公共因子、因子载荷变量共同度的统计意义4、因子旋转的意义5、结合SPSS软件进行案例分析zf案例1:
我们试图对某快餐店的质量进行评估,选择了就餐等待时间、清洁度等6个指标作为观测变量:这些变量之间有高度的相关关系这些变量能否综合成两个或多个因子?这些彼此相关的变量会导致某些信息多次考虑,引起分析的偏误······如何避免??因子分析的基本理论zf2除了主成分分析(PCA)外,还有用来实现‘降维’的其他方法吗
??因子分析Factoranalysis1、什么是因子分析?2、因子分析的基本思想?3、因子分析与主成分分析的区别??zf3Spearman(1904)
发表的论文“Generationintelligenceobjectivelydeterminedandmeasured”,AmericanJournalPsychology15,201-293.被认为是因子分析研究的开端.这篇文章主要是针对中学生考试成绩进行因子分析zf4当考虑该矩阵上三角中的相关元素会发现:(1)每一行元素呈递减的趋势,且递减的大小大致相当;(2)任意两列元素大致成比例。
中学生各门课程考试成绩的相关系数矩阵
classicsfrenchenglishmathdiscrmusicclassics10.830.780.70.660.63french0.8310.670.670.650.57english0.780.6710.640.540.51math0.70.670.6410.450.51discr0.660.650.540.4510.4music0.630.570.510.510.41究竟是什么因素在影响着学生的成绩呢?zf5Spearman提出:标准化的每个原始变量可用以下的方程形式表示:每门课程的考试成绩可用两个因素做解释:(1)总体智力水平因子generalintelligence
f
;(2)特殊潜能因子specifictalentsordeficienciesClassics*、French*等是标准化后的考试成绩,均值为0,方差为1f为公共因子,对各门课程的考试成绩均有影响,且其均值为0,方差为1;为特殊因子,仅对第i门课程考试成绩有影响;其中f与相互独立。每门课程的考试成绩可看作为由一个公共因子和一个特殊因子之和zf6
案例2:假设我们有学生以下几门课程的成绩Supposewehavestudents’testscoresforMathematics(M),Physics(P),Chemistry(C),English(E),History(H),andFrench(F).
其相关系数矩阵如下:
MPCEHFM1
P0.621
C0.540.511
E0.320.380.361
H0.2840.3510.3360.6861
F0.370.430.4050.730.7351这6门课程成绩可用两个或多个能力因子做解释吗?在M,P,C这几门课程之间有较高的相关关系;在E,H,F这几门课程之间有较高的相关关系。zf7案例3:在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。而每个原始变量可表示为:称是不可观测的潜在因子,称为公共因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分,称为特殊因子。zf81、什么是因子分析?因子分析是主成分分析的推广,也是利用降维的思想,由研究原始变量相关矩阵的内部依赖关系出发,把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析方法。zf92、因子分析的基本思想:根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量之间的相关性较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。
因子分析将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子。注意:原始变量是可观测的,而公共因子是不可观测的潜在变量。我们需要计算每个公共因子得分,从而替代原始变量。zf103、主成分分析分析与因子分析差异:(1)主成分分析模型是原始变量的线性组合,是将原始变量加以综合、归纳;而因子分析是将原始变量加以分解。(2)主成分分析中,主成分载荷是唯一确定的;因子分析中因子载荷不是唯一的。(3)因子分析中因子载荷的不唯一性有利于对公因子进行有效解释;而主成分分析对提取的主成分的解释能力有限。zf11例:对美国洛杉矶12个人口调查区的5个经济学变量的数据进行因子分析(12个地区调查表.sav)zf12zf13每个因子的载荷系数没有很明显的差别,所以不好命名.为了对因子进行命名,可以进行旋转,使系数向0和1两极分化第一主因子对中等学校平均校龄,专业服务项目,中等房价有绝对值较大的载荷(代表福利条件因子);第二主因子对总人口和总雇员数有较大的载荷(代表人口因子).zf14因子分析的基本步骤(1)因子分析的前提条件鉴定考察原始变量之间是否存在较强的相关关系,是否适合进行因子分析。如果原有变量相互独立,不存在相关关系,也就无需进行因子分析。(2)因子提取
研究如何在样本数据的基础上提取综合因子。zf15(3)因子旋转
通过正交旋转或斜交旋转使提取出的因子具有可解释性。(4)计算因子得分求解各样本在各因子上的得分,为进一步分析奠定基础。zf16(1)计算相关系数矩阵(correlationcoefficientsmatrix)
如果相关系数矩阵中的大部分相关系数值均小于0.3,即各变量间大多为弱相关,原则上这些变量不适合进行因子分析。(2)巴特利特球度检验(Bartletttestofsphericity)
其零假设H0:相关系数矩阵为单位矩阵(即原始变量之间无相关关系)。如果统计量卡方值较大且对应的sig值小于给定的显著性水平a时,零假设不成立。即说明相关系数矩阵不太可能是单位矩阵,变量之间存在相关关系,适合做因子分析。因子分析前提条件——相关性分析方法zf17(3)KMO(Kaiser-Meyer-Olkin)检验
KMO检验的统计量是用于比较变量间简单相关系数矩阵和偏相关系数的指标,数学定义为:KMO值越接近1,意味着变量间的相关性越强,原有变量适合做因子分析;越接近0,意味变量间的相关性越弱,越不适合作因子分析。Kaiser给出的KMO度量标准:0.9以上非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。zf18因子分析不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析。如果每个公共因子的含义不清,则可对因子载荷阵进行旋转。因子旋转的目的:使每个变量在尽可能少的因子上有比较高的载荷,让某个变量在某个因子上的载荷趋于1,而在其他因子上的载荷趋于0。即:使载荷矩阵每列或行的元素平方值向0和1两极分化。因子旋转的目的及方法zf19因子旋转方法:(1)正交旋转:在旋转时始终保持公因子之间的相互独立性。主要有以下方法:varimax方差最大旋转;
quartmax四次最大正交旋转;equamax等量正交旋转(2)斜交旋转:在旋转时,放弃了因子之间彼此独立的限制,旋转后的新公因子更容易解释。主要有以下的方法:directoblimin直接斜交旋转;
promax斜交旋转方法。zf20生育率受社会、经济、文化、计划生育政策等很多因素影响,但这些因素对生育率的影响并不是完全独立的,而是交织在一起,如果直接用选定的变量对生育率进行多元回归分析,最终结果往往只能保留两三个变量,其他变量的信息就损失了。因此,考虑用因子分析的方法,找出变量间的数据结构,在信息损失最少的情况下用新生成的因子对生育率进行分析。选择的变量有:多子率、综合节育率、初中以上文化程度比例、城镇人口比例、人均国民收入。下表是1990年中国30个省、自治区、直辖市的数据。案例分析3:生育率的影响因素分析zf21zf22特征根与各因子的贡献EigenvalueDifferenceProportionCumulative3.249175972.034642910.64980.64981.214533060.962968000.24290.89270.251565070.067433970.05030.94310.184131090.083536290.03680.97990.100594800.0201
1.0000zf23没有旋转的因子结构
Factor1Factor2x1-0.760620.55316x20.56898-0.76662x30.891840.25374x40.870660.34618x50.890760.36962zf24各旋转后的共同度0.884540230.911439980.859770610.877894530.93006369Factor1可解释方差Factor2可解释方差2.99754292.1642615zf25
Factor1Factor2x1-0.35310-0.87170x20.077570.95154x30.891140.25621x40.922040.16655x50.951490.15728
Factor1Factor2x1-0.05897-0.49252x2-0.058050.58056x30.330420.03497x40.35108-0.02506x50.36366-0.03493方差最大旋转后的因子结构标准化得分函数在这个例子中我们得到了两个因子,第一个因子是社会经济发展水平因子,第二个是计划生育因子。有了因子得分值后,则可以利用因子得分为变量,进行其他的统计分析。zf26因子分析的上机操作问题题项从未使用很少使用有时使用经常使用总是使用12345A1电脑A2录音磁带A3录像带A4网上资料A5校园网或因特网A6电子邮件A7电子讨论网A8CAI课件A9视频会议A10视听会议zf27题目编号A1A2A3A4A5A6A7A8A9A10011551111111022552221211034333431411044344442422054433441411064333342321074444332411081531111111094454442411105435543533115434442522125454443522133552221311145343332522154553332522164444351411175445554544185442341511195455553533205445552521zf28(01)建立数据文件zf29(02)选择分析变量
——选SPSS[Analyze]菜单中的(DataReduction)→(Factor),出现【FactorAnalysis】对话框;——在【FactorAnalysis】对话框中左边的原始变量中,选择将进行因子分析的变量选入(Variables)栏。zf30(03)设置描述性统计量——在【
FactorAnalysis】框中选【
Descriptives】按钮,出现【Descriptives】对话框;——选择Initialsolution(未转轴的统计量)选项——选择KMO选项——点击(Contiue)按钮确定。zf31zf32(04)设置对因子的抽取选项
——在【FactorAnalysis】框中点击【Extraction】按钮,出现【FactorAnalysis:Extraction】对话框;——在Method栏中选择(Principalcomponents)选项;——在Analyze栏中选择Correlationmatrix选项;——在Display栏中选择Unrotatedfactorsolution选项;——在Extract栏中选择Eigenvaluesover并填上1;——点击(Contiue)按钮确定,回到【FactorAnalysis】对话框中。zf33zf34zf35(05)设置因子转轴——在【FactorAnalysis】对话框中,点击【Rotation】按钮,出现【FactorAnalysis:Rotation】(因子分析:旋转)对话框。——在Method栏中选择Varimax(最大变异法)——在Display栏中选择Rotatedsolution(转轴后的解)——点击(Contiue)按钮确定,回到【FactorAnalysis】对话框中。zf36zf37(06)设置因素分数——在【FactorAnalysis】对话框中,点击【Scores】按钮,出现【FactorAnalysis:Scores】(因素分析:分数)对话框。——一般取默认值。——点击(Contiue)按钮确定,回到【FactorAnalysis】对话框。zf38zf39(07)设置因子分析的选项——在【FactorAnalysis】对话框中,单击【Options】按钮,出现【FactorAnalysis:Options】(因素分析:选项)对话框。——在MissingValues栏中选择Excludecaseslistwise(完全排除缺失值)——在CoefficientDisplayFormat(系数显示格式)栏中选择Sortedbysize(依据因素负荷量排序)项;——在CoefficientDisplayFormat(系数显示格式)勾选“Suppressabsolutevalueslessthan”,其后空格内的数字不用修改,默认为0.1。——如果研究者要呈现所有因素负荷量,就不用选取“Suppressabsolutevalueslessthan”选项。在例题中为了让研究者明白此项的意义,才勾选了此项,正式的研究中应呈现题项完整的因素负荷量较为适宜。——单击“Continue”按钮确定。zf40zf41zf42对SPSS因子分析结果的解释取样适当性(KMO)检验——KMO值越大,表示变量间的共同因素越多,越适合进行因素分析,要求KMO>0.5——要求Barlett’s的卡方值达到显著程度zf432.共同度检查zf443.因子陡坡检查,除去坡线平坦部分的因子图中第三个因子以后较为平坦,故保留3个因子zf454.方差贡献率检验——取特征值大于1的因子,共有3个,分别(6.358)(1.547)(1.032);——变异量分别为(63.58%)(15.467%)(10.32%)zf465.显示未转轴的因子矩阵zf476.分析转轴后的因子矩阵----根据因子负荷量形成3个公共因子zf487.形成综合分析结果题项贡献率(解释变异量)累积贡献率(累积解释变异量)Component(抽取的因子)因子1负荷量因子2负荷量因子3负荷量共同性A1电脑A8CAI课件A6电子邮件A5校园网或因特网A4网上资料43.885%43.885%0.9150.9120.8840.8240.7890.9280.9070.8670.9010.872A10视听会议A9视频会议A7电子讨论网31.372%75.257%0.9390.9240.8580.9390.9650.919A3录像带A2录音磁带14.108%89.366%0.9480.6520.9000.738特征值4.3893.1371.411zf49生育率受社会、经济、文化、计划生育政策等很多因素影响,但这些因素对生育率的影响并不是完全独立的,而是交织在一起,如果直接用选定的变量对生育率进行多元回归分析,最终结果往往只能保留两三个变量,其他变量的信息就损失了。因此,考虑用因子分析的方法,找出变量间的数据结构,在信息损失最少的情况下用新生成的因子对生育率进行分析。选择的变量有:多子率、综合节育率、初中以上文化程度比例、城镇人口比例、人均国民收入。下表是1990年中国30个省、自治区、直辖市的数据。案例分析:生育率的影响因素分析zf50zf51特征根与各因子的贡献EigenvalueDifferenceProportionCumulative3.249175972.034642910.64980.64981.214533060.962968000.24290.89270.251565070.067433970.05030.94310.184131090.083536290.03680.97990.100594800.0201
1.0000zf52没有旋转的因子载荷
Factor1Factor2x1-0.760620.55316x20.56898-0.76662x30
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 皮革与可持续时尚
- 动物模型研究
- 竹架板批发供应协议
- 个性化入学保证书样式
- 在建期房购买协议
- 合同终止保安服务协议
- 安全协议书模板汇编
- 英文物资采购协议范例
- 电池市场推广购销合同
- 仓库续租延期条款书
- 第7课认认真真学打字(教案)- 三年级上册信息技术 人教版
- 部编版道德与法治五年级上册【第四单元】全单元课件
- 人教版九年级上册化学实验报告单
- 民族团结主题班会教学课件
- 国开成本会计第14章综合练习试题及答案
- 幼儿园教育活动设计与指导(第二版)教案第二章第二节幼儿园语言教育活动设计二
- 外观检查记录表
- GB∕T 13171.1-2022 洗衣粉 第1部分:技术要求
- 气温的变化与分布 完整版课件
- 现在完成时的用法 完整版课件
- 中小学古诗词首
评论
0/150
提交评论