下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第9章 因子分析与主成份分析因子分析与因子分析过程因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法。线性综合指标往往是不能直接观测到的,但它更能反映事物的本质。因子分析概念 在各个领域的科学研究中往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性。由于各变量之间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息,而综合指标之间彼此不相关,即各指标代表的信息不
2、重叠。这样就可以对综合指标根据专业知识和指标所反映的独特含义给予命名。这种分析方法成为因子分析,代表各类信息的综合指标就称为因子或主成份。根据因子分析的目的我们知道,综合指标应该比原始变量少,但包括的信息量应该相对损失较少。原始变量:X1、X2、X3、X4Xm主成份:Z1、Z2、Z3、Z4Zn则各因子与原始变量之间的关系可以表示成:X1=b11Z1+b12Z2+b13Z3+b1nZn+1X2=b21Z1+b22Z2+b23Z3+b2nZn+2X3=b31Z1+b32Z2+b33Z3+b3nZn+3Xm=bm1Z1+bm2Z2+bm3Z3+bmnZn+n写成矩阵形式为:X=BZ+E。其值X为原始
3、变量向量,B为公因子负荷系数矩阵,Z为公因子向量,E为残差向量。公因子Z1、Z2、Z3Zn之间彼此不相关,称为正交模型。因子分析的任务就是求出公因子负荷系数和残差。如果残差E的影响很小可以忽略不计,数学模型变为X=BZ。如果Z中各分量之间彼此不相关,形成特殊形式的因子分析,称为主成分分析。主成分分析的数学模型可以写成:Z1=11X 1+12X2+13X 3+1mX mZ2=21X 1+22X2+23X 3+2mX mZ3=31X 1+32X2+33X 3+3mX mZn=n1X 1+n2X2+n3X 3+nmX m写成矩阵形式为:Z=AX。Z为主成份向量,A为主成份变换矩阵,X为原始变量向量。
4、主成份分析的目的是把系数矩阵A求出。主成份Z1、Z2、Z3在总方差中所占比重依次递减。从理论上讲m=n即有多少原始变量就有多少主成份,但实际上,前面几个主成份集中了大部分方差,因此取主成份数目远远小于原始变量的数目,但信息损失很小。因子分析的一个重要目的还在于对原始变量进行分门别类的综合评价。如果因子分析结果保证了因子之间的正交性(不相关)但对因子不易命名,还可以通过对因子模型的旋转变换使公因子负荷系数向更大(向1)或更小(向0)方向变化,使得对公因子的命名和解释变得更加容易。进行正交变换可以保证变换后各因子仍正交,这是比较理想的情况。如果经过正交变换后对公因子仍然不易解释,也可以进行斜交旋转
5、。或许可以得到比较容易解释的结果。 因 子 分 析使用系统默认值进行因子分析1 建立数据文件现以对12个地区的5个经济指标的调查数据进行因子分析为例,本数据是美国洛衫矶标准大城市统计区中的12个人口调查区的五个经济学变量的数据。数据编号data15-01。定义变量及标签:no编号,pop总人口,school中等学校平均校龄,employ总雇员数,services专业服务项目,house中等房价。2操作步骤:(1)AnalyzeData ReductionFactor(2)将pop、school、employ、services、house移入Variables框中3 结果及其说明 表1公因子提取
6、前后的公因子方差表。 Initial 在提取因子(或成分,系统默认的是主成分法)之前的各变量的公因子方差。原始变量的公因子方差均为1,五个变量的公因子方差之总和为5。 Extraction各变量的未旋转的公因子方差。说明各变量信息被提取的比例。可见,五个变量的信息都提取的比较充分。表2各成分的公因子方差表 Components各主成分的序号。 Initial Eigenvalues相关矩阵或协方差矩阵的特征值。这些值是用于确定哪些因子(或成分)应保留。共有三项:Total各成分的特征值。第一主成分特征值为Total=2.873,第二主成分特征值为Total=1.797。本例只有前两个因子的特征
7、值大于1。 of Variance各成分所解释的方差占总方差的百分比。也就是各因子特征值占特征值总和的百分比。Cumulative 从上至下各因子方差占总方差百分比的累积百分比。前两个因子的特征值之和占总方差的93.4。 Extraction Sums of Squared Loadings 因子提取结果。未旋转的因子载荷的平方和。给出的是每个因子(或成分)的特征值、说明的方差占总方差的百分比和累计百分比。从初始分析的统计量可以看出按照系统默认值给出的分析原则,提取原则是特征值大于1。那么应该取前两个因子(就本次分析来说应该称作主成分)。而前两个因子已经对大多数数据给出了充分的概括,可以看出前
8、两个成分所解释的方差占总方差的93.4。因此,最后结果是确定提取两个主成分。表3因子矩阵。因为默认的提取公因子的方法是主成分法,因此可以称之为成分矩阵。根据该表可以写出两个主成分表达式(使用变量名): Component 1=0.581×pop0.767×school0.672×employ0.932×service0.791×houseComponent 2=0.806×pop0.545×school0.726×employ0.104×service0.558×house可以说,用这两个因子代
9、替五个原始变量,可以概括原始变量所包含信息的93.4。由以上输出结果可以认为对因子的提取结果是比较理想的。但是要想对两个因子命名就感到比较困难,每个因子中各原始变量的系数没有明显的差别。因此为了对因子进行命名,可以进行旋转,使系数向0和1两极分化。这就要使用选择项了。因子分析实例之一(仍然用数据编号data15-01)操作步骤:(1)AnalyzeData ReductionFactor(2)将pop、school、employ、services、house移入Variables框中(3)单击Statistics按纽(4)单击Extraction按纽(5)单击Rotation按纽(6)单击Sc
10、ores按纽(7)单击Options按纽结果分析与结论表1为单变量描述统计量(自左至右)变量标签(显示变量标签或变量名)。Mean各变量的均值。Std.Deviation各变量的标准差。Analysis计算这些统计量的观测量数。表2为原始变量的相关分析结果相关矩阵与相关矩阵中各相关系数对应的显著性概率。其中的“”表明自身相关的相关系数为1,其不相关的显著性概率自然为0,因此不再显示。各主成分的特征值和各主成分所解释的方差百分比同上例表1和表2;初始因子提取结果同上例表3。不再解释。图5表现各成分特征值的碎石图分析碎石图可以看出因子1与因子2,以及因子2与因子3之间的特征值之差值比较大。而因子3
11、、4、5之间的特征值差值均比较小。可以初步得出保留两个因子将能概括绝大部分信息。表6是初始捉取的因子(主成分)负荷矩阵。通过这个系数矩阵可以用各原始变量写出因子表达式。各统计量含义见上例3的解释。这两个输出表是相同的,排序有别。但对因子的命名尚感到困难。表 7是旋转后因子(主成分)矩阵。表下方是有关因子提取与旋转方法的说明:使用主成分法提取因子,使用最大方差法Varimax方法旋转,经3次迭代收敛。表中给出了旋转后的因子负荷矩阵,是按系数由大到小排列的。可以看出经过旋转后负荷系数己经明显地向两极分化了。第一个主成分Component 1 对中等房价House、中等校平均校龄school、专业服
12、务项目services有绝对值较大的负荷系数;第二个因子负荷系数绝对值较大的正好是五个原始变量中的另外两个即总人口Pop和总雇员数Employ。根据这些变量的原始含义可以对两个因子进行命名。第一个因子主要概括了一般的社会福利情况的因子:中等房价、中等学校校龄和社会服务项目数可以命名为福利条件因子。第二个因子主要概括了人的情况,人口数和就业人数,可以称为人口因子。表8为因子转换矩阵。图9为旋转后的因子(成分)载荷图,分别以第一主成分和第二主成分值为横、纵坐标,按表15-7(旋转后因子矩阵)中数据作图得到主成分图。从图中可以看出旋转后各成分的变量更集中了。表10为有关因子得分的信息。因子得分系数矩
13、阵。根据因子得分系数和原始变量的标准化值可以计算每个观测量的各因子的得分数。并可以据此对观测量进行进一步的分析(聚类分析)。旋转后的因子(主成分)表达式可以写成:式1facl_l=-0.039×employ+0.403×house-0.091×pop+0.392×school+0.229×services 式2fact2_l=0.465×employ-0.098×house+0.484×pop-0.096×school+0.138×services表11是估计回归因子分数的协方差矩阵,即因子(两
14、个主成分)间的相关矩阵。可以看出旋转后Component 1与 Component 2是完全不相关的。这也是因为正交旋转(Varimax)后因子仍然正交。在数据编辑窗中的以新变量的形式保存的因子得分信息。数据文件中因子分数变量的命名:FAC1_1是分析1的第一个回归因子分数,FAC2_1标签是分析1的第二个回归因子分数变量。有了观测量的因子得分变量的值,我们可以进一步对观测量估计因子得分变量进行聚类分析,进一步对每个调查区进行人口与福利方面的分类或分析。因子分析实例之二(仍然用数据编号data15-01)利用新变量对12个调查区进行聚类分析的过程及结果:聚类要求聚为两类、三类、四类。然后利用G
15、raph功能作散点图,比较分为两类和三类的结果。操作步骤:(1) AnalyzeClassifyHierarchical Cluster(2) 选择Fac1_1、fac2_2作为分析变量(3) 选择no作为标识变量(4) 选择观测量聚类(cases)(5) Statistics:Range of solutions(From 2 throug 3 cluster)(6) Method:选择系统默认状态(7) Plots:选择Dangrogram;在Icicle指定 All cluster;选择Vertical(8) Save: Range of solutions(From 2 throug
16、3 cluster)(9)GraphsSactterSimple将Fac1_1、fac2_2选入X轴与Y轴;选择no作为标识变量;分别选择clu2_1、clu3_1、clu4_1作为标出类别号变量(Set Markers by)部分结果解释:(1)从图1可以看出如果将调查区分为两类,第2、3、7区类号为2的,是福利因素和人口因素均比较低的,其余调查区的这两个因素水平比较高。可以认为经济状况是相对来说比较好的。(2)从图2可以更细致地划分和分析各调查区的经济水平。 类号为2的调查区有编号为2、3、7三个地区,在图的左下角,是两个因子得分均比较低的,可以认为从五个经济指标来看均较差的地区。 类号为3的调查区Facl_1比较低,即福利因子得分较低;而Fac2_1比较高即人口因子得分较高说明总人口多,就业人数多。但反映福利的学校、服务项目、中等房价均比较低。这样的地区有6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《经典咏流传》观后感想
- 酒店安全事件
- 2021年公司趣味运动会策划范文
- 证券行业2024年二季度市场表现分析
- 能源管理法规律师顾问
- 工业厂房消防系统安装合同
- 农业发展草场租赁合同
- 学区房急售直接二手房交易合同
- 农业银行企业贷款合同范本
- 时间规划局英文
- 七年级语文上册18-我的白鸽课件
- 中职家长会课件教学
- 博弈论完整版本
- DB34∕T 4179-2022 社区邻里中心建设与服务规范
- 校园天眼平台建设方案
- Excel常用函数公式及技巧
- 期末测试卷(试题)-2024-2025学年人教PEP版(2024)英语三年级上册
- 美妆细分市场机会与策略洞察-任拓-202409
- 2024-2030年中国网络安全行业发展前景及投资战略研究报告
- 《学习与娱乐平衡》主题班会
- 加油站风险清单(隐患排查表)(195项) 2024
评论
0/150
提交评论