数学模型讲座因子分析_第1页
数学模型讲座因子分析_第2页
数学模型讲座因子分析_第3页
数学模型讲座因子分析_第4页
数学模型讲座因子分析_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

因子分析

(Factoranalysis)

因子分析是主成分分析的推广和发展,它也是多元统计中处理降维的一种方法。因子分析是研究相关阵或协差阵的内部依赖关系,将多个变量综合为少数几个因子,再现原始变量与因子之间的关系。形成和发展:1904年CharlesSpearman的论文

《对智力测验得分进行的统计分析》

早期主要用于心理学和教育学方面的问题目前:经济学、社会学、考古学、生物学、医学及体育科学实例1(1)为了解学生的学习能力,观测了n个学生p个科目的成绩,用X1,

X2,…,Xp

表示科目(例如代数、几何、语文、英语,……)可以认为各科目有两部分组成:其中F是对所有的Xi都起作用的公共因子,它表示智能高低的因子;系数ai称为因子载荷,表示第i各科目在智能高低上的体现;εi

是科目变量特有的特殊因子,描述原始变量.这就是一个最简单的因子模型;

(2).推广到m个因子,如数学因子、记忆因子、计算因子等,分别记为F1,F2,……,Fm。

这就是一个因子分析模型.实例2

调查青年对婚姻家庭的态度,抽取n个青年回答了50个问题的答卷,这些问题可归纳为如下的几个方面:如对相貌的重视,对孩子的观点、对老人的态度等实例3考察人体的五项生理指标:收缩压、舒张压、心跳间隔、呼吸间隔和舍下温度。从生理学知识,这五项指标是受植物神经支配的,植物神经又分为交感神经和副交感神经,因此这五项指标也可以用因子分析模型去处理

因子分析的主要应用

(1).寻求基本结构,简化观测系统,将具有错综复杂关系的对象(变量或样本)综合为少数几个因子(不可观测的随机变量),以再现因子与原始变量之间的内在联系

(2).用于分类,对变量或样本进行分类.

R型和Q型因子分析(1).R型从变量的相关阵出发,找出控制所有变量的几个公共因子,用以对变量或样本进行分类。(2).Q型从样本的相相似据阵出发,找出控制所有样本的几个主要因素。因子分析与主成分分析的区别

(1).主成分分析不能作为一个模型,只是变量变换,而因子分析需要构造模型

(2).主成分的个数和变量的个数相同,它是将一组具有相关的关系的变量变换为一组互不相关的变量,而因子分析是要用尽可能少的的公因子,以便构造一个简单的因子模型

(3).

主成分表示为原始变量的线性组合,而因子分析是将原始变量表示为公因子和特殊因子的线性组合。R型因子分析的数学模型用矩阵表示因子分析的数学模型简记为且满足

为任一个m阶的正交阵,上式仍满足约束条件因子分析每个相应的系数不是唯一的,即因子载荷阵不是唯一的

通过模型以F代替X,由于m<p,或m<n,从而达到简化变量维数目的因子分析的目的正交因子模型中各统计量的意义因子载荷的统计意义第i个变量与第j个公共因子的相关系数。用统计学术语叫权重,表示Xi依赖Fj的分量因子载荷据阵A中各行元素的平方和记为称为变量Xi的共同度公共因子方差剩余方差变量共同度的统计意义因子载荷据阵A中各列元素的平方和记为表示第j个因子对所有分量的总影响,称为第j个因子对X的贡献,它是衡量第j个因子相对重要性的指标公共因子Fj方差的统计意义因子载荷阵的估计方法主成分法主因子法极大似然法设样本的协差阵的特征值和特征向量分别为:则协差阵可分解为其中分量A和D就是因子模型的一个解,A中的第j列和X中的第j个主成分的系数相差一个倍数。故此解常称为因子模型的主成分解。当最后p-m个特征值较小时,协差阵可以近似的分解为公因子个数的确定方法1)根据实际问题的意义或专业理论知识2)用确定主成分个数的原则因子旋转

用一个正交阵右乘A,使旋转后的因子载荷阵结构简化,即使得每个变量仅在一个公共因子上有较大的载荷,而在其余的因子上载荷比较小。方差最大的正交旋转使得旋转后的所得到的因子载荷阵的总方差达到最大值.因子得分Thomson回归法因子分析的海伍德现象若的各分量已经标准化,则即共性方差与特殊方差的和为1,也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差的估计可能会等于或超过1,如果等于1,就称为海伍德现象如果超过1称为超海伍德现象(ultra--Heywoodcase).超海伍德现象意味着某些特殊因子的方差为负(negativevariance),表明肯定是存在着问题。造成这种现象的可能原因包括:共性方差本身估计的问题;太多的公共因子,出现了过拟合;太少的公共因子,造成拟合不足;数据太少,不能提供稳定的估计;因子模型不合适这些数据。当出现海伍德现象时,应对估计结果持谨慎态度。可以尝试增加数据量,或改变公共因子的数目,让公共因子数目在一个允许的范围内变动,观察估计的结果是否有改观;还可以尝试用其它多元统计方法进行分析,比如主成分分析。因子分析的步骤

计算所选原始变量的相关系数矩阵相关系数矩阵描述了原始变量之间的相关关系。可以帮助判断原始变量之间是否存在相关关系,这对因子分析是非常重要的,因为如果所选变量之间无关系,做因子分析是不恰当的。并且相关系数矩阵是估计因子结构的基础。

选择分析的变量用定性分析和定量分析的方法选择变量,因子分析的前提条件是观测变量间有较强的相关性,因为如果变量之间无相关性或相关性较小的话,他们不会有共享因子,所以原始变量间应该有较强的相关性。

提取公共因子这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于1(或特征值大于1)的那些因子,因为方差小于1的因子其贡献可能很小;按照因子的累计方差贡献率来确定,一般认为要达到60%才能符合要求;

因子旋转通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。

计算因子得分求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做聚类分析的变量,做回归分析中的回归因子。

因子分析计算步骤与实例分析

对我国30个省市自治区的农业生产情况作因子分析。从农业生产条件和生产结果及效益出发,选取六项指标分别为:X1—乡村劳动力人口(万人)、X2—人均经营耕地面积(亩)、X3—户均生产性固定资产原值(元)、X4—家庭基本纯收入(元)、X5—人均农业总产值(千元/人)、X6—增加值占总产值比重(%),原始资料数据如下页表:序号地区X1X2X3X4X5X61北京66.90.932972.413290.732.52549.72天津80.21.644803.542871.621.77449.63河北1621.82.034803.542871.810.8004544山西635.42.762257.661499.140.55556.25内蒙古514.110.175834.941550.150.905166.46辽宁605.12.963108.862059.351.475253.17吉林534.24.734767.511940.461.115463.18黑龙江494.88.245573.022075.421.628357.89上海661.021660.034571.813.044835.610江苏1530.21.262826.862868.331.192150.611浙江1123.10.945494.233289.070.856563.312安徽1953.61.443573.621508.240.575659.213福建775.80.822410.052295.191.149662.814江西1103.21.32310.981804.930.664959.915山东2475.11.443109.111989.530.88095516河南2815.81.53782.261508.360.582358.517湖北1296.51.62291.61754.130.879962.818湖南2089.31.422348.721719.180.58764.719广东1439.80.883249.612928.241.09659.720广西1579.91.433090.171590.90.569464.521海南165.91.354454.771575.490.353565.222四川3903.71.082870.451340.610.444364.123贵州1376.61.182282.271206.250.289265.424云南1642.22.424025.061096.730.345664.225西藏88.62.5111559.831257.710.434970.426陕西1046.12.62228.551091.960.438359.727甘肃6725.862879.361037.120.488357.228青海137.12.626725.111133.060.409670.329宁夏139.14.015607.971346.890.497362.530新疆288.53.967438.131161.711.493957.8因子分析计算步骤与实例分析第一步将原始数据标准化第二步建立指标间的相关系数阵R:因子分析计算步骤与实例分析第三步求R的特征值和特征向量。序号特征值贡献率累积贡献率(%)12.776546.275646.275621.740929.016075.291730.711611.861287.152940.43347.224894.377850.23693.948498.326360.10041.6736100因子分析计算步骤与实例分析

由于前三个特征值累积贡献率已达87.15%,所以取前三个特征值所对应的特征向量如下:u1u2u30.1460-0.6242-0.18540.16310.52700.75470.24210.52720.5369-0.54630.01530.2325-0.54550.2317-0.04220.54530.02250.2276因子分析计算步骤与实例分析第四步列出因子载荷矩阵表。

因子指标a1a2a3X10.2433-0.8236-0.15640.7621X20.27180.69540.63660.9629X30.40350.69570.45290.8520X4-0.91030.02020.19610.8675X5-0.90890.3057-0.03560.9210X60.90860.02960.1920.8634因子分析计算步骤与实例分析第五步对因子载荷阵实行方差最大正交旋转,旋转后的矩阵如下:

由上表可见,每个因子只对应少数几个指标的因子载荷较大,因此可根据上表对指标进行分类。

因子指标F1F2F3X1-0.3793-0.7252-0.3036X2-0.10460.21780.9510X3-0.29570.86980.0890X40.88620.0265-0.2852X50.94990.12060.0645X6-0.89760.2402-0.0009因子分析计算步骤与实例分析第六步将六项指标按高载荷分成三类,并结合专业知识给出各因子的命名如下:高载荷指标命名因子一X4-家庭基本纯收入X5-人均产值X6-增加值占总产值比重产出及效益因子因子二X1-乡村劳动力人口X3-户均生产性固定资产原值人为投入条件因子因子三X2-人均经营耕地面积自然条件因子因子分析计算步骤与实例分析在第一因子中,X4、X5、X6三项指标有较大的载荷,这些都从产出效益方面描述农业情况的,所以称为产出及效益因子。在第二个因子中,X1、X3有较大的载荷,这主要是人们对农业的生产工具、人力等的投入,所以称为人为投入条件因子。在第三个因子中,X2有较大的载荷,这主要从自然条件方面刻划农业的生产条件状况,所以称为自然条件因子。因子分析的matlab函数与因子分析相关的matlab函数主要有rotatefactors和factoran其中factoran调用了rotatefactors函数。factoran用来根据原始数据样本观测数据,样本协方差矩阵或样本相关系数矩阵,计算因子模型中因子载荷阵

的最大似然估计,求特殊方差的估计,因子旋转矩阵和因子得分,还能对因子模型进行检验。factoran函数的调用格式如下:1)lambda=factoran(X,m)返回包含m个公共因子的因子模型的载荷阵lambda。输入参数X是n行d列的矩阵,每行对应一个观测,每列对应一个变量。m是一个正整数,表示模型中公共因子的个数。输入参数lambda是一个d行m列的矩阵,第

行第

列元素表示第

个变量在第

个公共因子的载荷。默认情况下,factoran函数调用用rotatefactors函数,并用'varimax'选项(rotatefactors函数的可用选项)来计算旋转后因子载荷阵的估计。2)[lambda,psi]=factoran(X,m)返回特殊方差的最大似然估计psi,psi是包含d个元素的列变量,分别对应d个特殊方差的最大似然估计。3)[lambda,psi,T]=factoran(X,m)返回m行m列的旋转矩阵T。4)[lambda,psi,T,stats]=factoran(X,m)返回一个包含模型检验信息的结构体变量stats,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论