第八章 因子分析_第1页
第八章 因子分析_第2页
第八章 因子分析_第3页
第八章 因子分析_第4页
第八章 因子分析_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章因子分析指导老师:XXX教授授课人:XXX主讲内容引言§8.1因子分析的基本思想与模型§8.2参数估计8.2.1因子载荷的统计意义8.2.2因子载荷矩阵的求解§8.3因子旋转§8.4因子得分§8.5因子分析的展望和建议引言上一章我们对主成分分析作了讨论。通常,只要变量之间存在一定的相关性,前几个主成分往往就能具有较高的累计贡献率,从而达到较好的降维目的。然而,在很多情况下值时对变量作了降维还不行,还必须对主成分给出符合实际背景和意义的解释。进行这种解释往往正是主成分分析的困难之处。本章将介绍的因子分析(factoranalysis)可看作主成分分析的推广和发展,也是利用降维方法进行统计分析的一种多元统计方法。因子分析研究相关矩阵或协方差矩阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相互关系,得到了广泛的应用。因子分析的概念起源于20世纪初KarlPearson和CharlesSpearmen等人关于智力测验的统计工作,目前,因子分析已成功应用于心理学、医学、经济学等领域,并因此促进了理论的不断丰富和完善。在解决实际问题和科学研究中,我们经常会手机尽可能多的数据信息,希望能对问题有一个较全面、综合的认识;但有与理论发展和应用技术的限制,很对变量无法在处理和分析中发挥作用,大量的信息反而成为了分析和解决问题的障碍。例如,在评价一个学小的综合水平时,会收集到关于学校的众多信息,包括学生人数、教师人数、学生数学竞赛和英语竞赛获奖情况、实验室的规模、图书馆藏书量、每年科研人员论文数、师生比例等信息,但将这些海量信息集中在一起处理时,会感到烦乱繁杂而无从下手;同时,由于变量间存在一定的相关性和心系重叠现象,就更增加了处理的难度。为了解决这些问题,直接的办法是减少变量的个数,但还不能使损失的信息量太多。因子分析方法是一种能够降低变量的数量,并得到广泛应用的有效方法。利用因子分析方法处理数据,就是将众多的变量综合成较少的几个综合指标,这例如,国民经济发展水平由很多不同产业因素决定,诸如制鞋业、家电业、服务业、钢铁产业、信息产业、种植业、养殖业等,利用因子分析,如果可以得到4个因子,经过研究所有产业和这4个因子之间的关系,可以发现有一个因子可能是代表工业产业的一个综合,另外的分别代表农业、第三产业和信息产业。

总之,因子分析是研究如何将众多的变量利用为数不多的几个因子表示,并且保证信息损失最小和因子间不具有显著的相关性的多元统计分析方法。些指标称为因子。因子的个数远远少于变量的数量,但因子能够反映原始变量的大部分信息,同时,因子之间不具有显著性的线性关系。不仅如此,利用因子分析得到的因子还能有效的解释变量,这对于问题的进一步分析和应用有重要的意义。§8.1因子分析的基本思想与模型一.因子分析的基本思想

因子分析的基本思想是根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为公共因子。对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。二.因子模型在实际问题的研究中,描述某一问题(或过程)的指标很多,有时多到几十个。例如,为了充分了解中学生的知识和能力,常常需要设计大量的问题让学生作答。这些问题涉及面很广。但相互之间存在一定的联系,一般来说,可归结为文字表达、计算算推导、艺术修养、史地知识和生活常识五个方面,我们称每个方面为一个因子。我们的目的也就是要从一些相互关联的问题的回答中找出这少数几个主要因子,每一个主要因子可以帮助我们对学生的知识和能力进行分析和解释。因子分析的另一个作用是对变量(或样品)进行分类处理。我们可以根据因子得分值,在因子铀所构成的空间中把变量(或样品)点画出来,形象直观地达到分类的目的。例8.1某企业招聘人才,对每位应聘者进行外貌、申请书的形式、专业能力、讨人喜欢的能力、自信心、洞察力、诚信、推销本领、经验、工作态度、抱负、理解能力、潜在能力、实际能力、适应性的15个方面考核.这15个方面可归结为应聘者的表现力、亲和力、实践经验、专业能力4个方面,每一方面称为一个公共因子。企业可根据这4个公共因子的情况来衡量应聘者的综合水平。为了给出因子分析模型,我们先看下面的两个例子。例8.2在企业经济效益的评价中,经济效益的指标体系有八项:固定资产利税率、资金利税率、销售收入利税率、资金利润率、固定资产产值率、流动资金周转天数、万元产值能耗、全员劳动生产率。这八项指标可概括为赢利能力、资金和人力利用、产值能耗三个方面.这三个方面在企业的生产经营活动中为主要因子,起着支配作用,企业要提高经济效益就要在这三个公共因子方面下功夫。综合上面的例子,我们给出因子分析的一般模型。设有n个样品,每个样品观测p个变量.为了对变量进行比较,并消除由于观测量纲的差异及数量级不同所造成的影响,将样品观测值进行标准化处理,使标准化后的变量的均值为0,方差为1。为了方便,我们将原始观测值和变换后的新变量均用x表示。设原公共因子变量为经标准化后的公共因子变量记为如果,(1)是可观测随机向量,且均值向量且协方差矩阵协方差矩阵与相关矩阵相等;(2)是不可观测向量,其均值向量协方差矩阵即向量的各分量是相互独独立的;(3)与F相互独立,且的协方差矩阵是对角阵,即(8.1)或者说,的各分量之间也是相互独立的,则模型称为因子模型。模型(8.1)的矩阵形式为其中此时(*)模型(8.1)中的称为公共因子(也称为主因子),而它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量。公共因子的含义,必须结合具体问题的实际意义而定。称为特殊因子,是向量的的分量所特有的因子,各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。式(8.2)的矩阵中的元素称为因子载荷,的绝对值越,对于大表明与的相依程度越大,或称公共因子的载荷量大,故称为公共因子载荷量,简称因子载荷。矩阵A称为因子载荷矩阵。例8.2.1设随机向量的协方差矩阵为则可分解为其中当m=p时,任何协方差矩阵均可按(*)式进行分解,如;可取而当时,未必能作(*)式的分解.在因子分析的大多数应用中,m较p小得多,一般很难准确地作(*)式的分解,通常只能使这种分解近似地成立,近似程度越好,表明因子模型拟合得越佳。§8.2参数估计为了讨论因子模型的参数估计方法,我们需要了解因子载荷矩阵A统计意义,这对于解释因子分析的结果也是十分重要的。§8.2.1因子载荷的统计意义一、因子载荷的统计意义由式(8.1)知所以(8.5)与的协方差为即是与的协方差。另一方面,与的相关系数为因此,也是与的相关系数,它表示依赖的程度,反映了第i个变量对第j个公共因子的相对重要性,也就是变量与公共因子间的密切程度,同时也可将看作第i个变量在第j个公共因子上的权。二、变量共同度的统计意义如果将因子载荷矩阵A中第i行元素的平方和记为即因子载荷矩阵中各行元素的平方和为称它为变量的共同度。因为已将假设原始变量和主因子、特殊因子都进行了标准化处理,所以的方差式(8.9)表明变量由两部分组成,第一部分是它反映了全部公共因子对变量的影响,是全部公共因子对的方差贡献。若全部公共因子对的方差贡献接近于1,则表明该变量的几乎全部原始信息都被选取的公共因子说明了。第二部分是特殊因子的方差,仅与变量本身的变化有关,称为剩余方差。由式(8.9)知,增大则必减小,因此表示x的第i个分量对于F的每一分量的共同依赖为变量的共同度。三、公共因子的方差贡献的统计意义和记为如果将因子载荷矩阵A的第列的各元素的平方,即的值程度,故则表示第j个公共因子对于x的每个分量所提供方差的总和。称为公共因子对x的方差贡献,它是衡量公共因子相对重要性的指标,越大,表明公共因子对x的贡献越大,或者说对x的影响和作用就越大。如果将因子载荷矩阵A的所有都计算出来,使其按大小排序,就可以依此提取最有影响的公共因子。§8.2.2因子载荷矩阵的求解要建立一个实际问题的因子分析模型,重要的是进行因子模型参数的估计,其中最关键的是要根据样品数据矩阵估计载荷矩阵众下面介绍两种常用的载荷矩阵的估计方法。一、主成分法设随机向量的均值为,协方差矩阵为为对应的标可以分解为为的特征值,准正交化特征向量,则(8.11)差矩阵结构,特殊因子的方差为0,载荷矩阵的第j列为因此除了常数因子之外,在第j个因子上的载荷就是第j个总体主成分的系数与式(8.4)比较,式(8.12)给出的表达式是精确的,但它并无实用价值,因为我们的目的是寻求用少数几个公共因子解释协差结构的因子模型。上面的分解是公共因子与变量个数一样多的因子模型的协方我们通常略去式(8.11)中m-p项后对的贡献,于是得到式(8.13)是假定了因子模型中的特殊因子是不重要的,因而从的分解中忽略掉特殊因子的方差。若考虑特殊因子,则协方差矩阵为设S为样本协方差矩阵,经过标准化处理后,变量的协方差矩阵就等于样本相关矩阵R。对样本协方差矩阵S或相关矩阵R作类似式(8.14)的分解,就可得到A和的一个解。因为因子载荷矩阵A是前m个主成分系数的倍数,所以称由这种分解得到的解为主成分解。一般地,设为样本相关矩阵R的特征根,为对应的标准正交化特征向量。设,则因子载荷矩阵为(8.15)共同度的估计为(8.16)一是根据具体问题的专业知识来确定,二是采用主成分分析中选取主成分个数的方法。例如,我们按所选取的公共因子的信息量的和占总体消息量达到一个适当比例为止,我们可以从少到多逐步增加模型中公共因子个数m,使所选的主因子对样本方差的贡献累计达到85%以上。这个比例是可以根据具体问题调整的,关键是要有利于因子模型的解释。如何选取公共因子的个数m呢?例8.3根据原始数据(表81)对企业经济效益指标体系的八项指标建立因子分析模型(何晓群,2003).表8.1全国重点水泥厂主要经济效益指标厂家编号固定资产利税率(%)资金利税率(%)销售收入利税率(%)资金利润率(%)固定资产产值率(%)流动资金周转天数(d)万元产值能耗(t)全员劳动生产率116.6826.7531.8418.4053.255528.831.75219.7027.5632.9419.2059.825532.922.87315.2023.4032.9816.2446.786541.691.5347.298.9721.304.7634.396239.281.63529.4556.4940.7443.6875.326926.682.14632.9342.7847.9833.8766.465032.872.60725.3937.8536.7627.5668.186335.792.43815.0519.4927.2114.2156.137635.761.75919.8228.7833.4120.1759.257139.131.831021.1335.2039.1626.5252.476235.081.731116.7528.7229.6219.2355.765830.081.521215.8328.0326.4017.4361.196132.751.601316.5329.7332.4920.6350.416937.511.31142.22454.5931.0537.0067.956332.331.571512.9220.8225.1212.5451.076639.181.83解设为固定资产利税率;为资金利税率;税率;为销售收入利为资金利润率;为固定资产产值率;为流动资金周转天数;为万元产位能耗;为万元产位能耗;由原始数据计算出相关矩阵为(对称部分未写出)计算相关矩阵R的特征值,前三个特征值为它们对样本方差的累积贡献率为于是我们选m=3。因子载荷和共同度的估计列于表8.2中表8.2因子载荷与共同度的估计变量因子共同度载荷量0.9698-0.01360.22680.99210.91680.2955-0.11130.94020.8434-0.11790.36760.86030.94620.2625-0.03050.96520.90030.2162-0.06980.8622-0.30790.86430.19060.8781-0.66890.10050.64950.87930.5737-0.46700.27340.62195.0981.2700.8120.6370.7960.897由表8.2可得出企业经济效益指标体系的因子分析模型(特殊因子忽略不计)如下:由因子分析模型可知,第一个主因子主要由固定资产利税率、资金利税率、销售收入利税率、资金利润率、固定资产产值率这五个指标所决定,这五个指标在主因子上的载荷均在0.8以上,它代表着企业经济活动中的赢利能力,而且主因子的体系中的重要方面。企业要提高经济效益,就要在这个主因子方差贡献己达63%之多,所以更说明是企业经济效益指标企业经济活动中流动资金的周转快慢对企业的经济效益影响也很大,而流动资金的周转快慢与企业的生产经营及市场信息相关。企业要提高经济效益就要在产品结构的调整上想办法,要生产适销对路的产品,提高本企业产品的市场占有率。第二个主因子主要由流动资金周转天数所决定,说明产值和能耗反映的是投入与产出的关系.企业要提高经济效益就不能忽视降低生产成本、提高劳动生产率这些重要问题。第三个主因子主要由万元产值能耗八和全员劳动生产率所决定。这个主因子土要反映了企业的产值和能耗方面,方面下功夫。例8.4研究纽约股票市场上五种股票(AlliedChemical,Dupont,UnionCarbide,Exxon和Texaco)的周回升率(何晓群,2003)。这里,周回升率=(本星期五市场收盘价一上星期五市场收盘价)/上星期五市场收盘价。原始资料见王学仁等(1990)《实用多元统计分析》,这组资料是对五种股票从1975年1月到1976年12月的独立观测值。解设分别为上述五种股票的周回升率,则从原始数据计算得到我们考虑样本相关矩阵R的前两个主成分,即m=2,因子分析的主成分解列于表8.3。由表8.3可知,第一主因子代表了一般经济条件,称为市场因子,所有股票在这个因子上的载荷都比较大,且大致相等。第二个主因子凡是化学股票(前三个都是化学工业公司)和石油股票(后两个是石油公司)的一个“对照”,两者分别有比较大的负、正载荷,生差异,通常称为工业因子.归纳起来,可得如下结论:股票回升率由一般经济条件、工业部门活动和各公司本身特殊活动三部分决定.变量因子共同度载荷量

AlliedChemical0.783-0.2170.66

Dupont0.773-0.4580.81

UnionCarbide0.794-0.2340.69

Exxon0.7130.4720.73

Texaco0.71250.5240.78特征值2.8570.809累计贡献0.5710.733使不同工业部门的股票产二、极大似然法如果假定公共因子F和特殊因子服从正态分布,那么我们能够得到因子载荷和特殊因子方差的极大似然估计。设为来自正态总体的随机样本,这里且与有联合正态分布。由似然函数的理论知它通过依赖于A和.式(8.17)并不能惟一确定A,为此,可添加惟一性条件(8.18)这里是一个对角阵。用数值极大化方法可以得到极大似然估计和.极大似然估计和将使为对角矩阵,且使式(8.17)达到最大。共同度的极大似然估计为(8.19)第i个因子对总体样本方差的贡献为其中为第i个变量的方差。关于极大似然估计方法的理论推导和证明可参见张尧庭等(1997)《多元统计分析引论》。例8.5(续例8.4)取m=2,对股票价格数据应用极大似然法做因子载荷的估计。解用极大似然法和主成分法估计的因子载荷列于表8.4。由表中数值可知,主成分法的公共因子对总体样本方差的贡献比极大似然法要大,这是因为主成分因子分析与主成分相联系,而极大似然法具有方差极大化性质。极大似然法得到的主因子可解释为市场因子,这是因为所有变量在上都有较大的正载荷,这与例8.4的情况一致。第二个主因子的意义并不像主成分法那么清楚。载荷的符号虽然也形成化学胜票和石油股票的一个对照但有一些绝对值很小,因此可以把它看成仅仅是Dupont化学公司和Texaco石油公司之间的一个对比。表8.4基于极大似然法和主成分法的因子载荷估计变量极大似然估计主成分估计共同度共同度AlliedChemical0.6840.1890.500.783-0.2170.66

Dupont0.6940.5170.750.773-0.4580.81UnionCarbide0.6810.2480.530.794-0.2340.69

Exxon0.621-0.0730.390.7130.4720.73

Texaco0.792-0.4420.820.7120.5240.78累计贡献0.4850.5980.5710.7338.3因子旋转建立因子分析模型的目的不仅是找出主因子,更重要的是知道每个主因子的明确意义,以便对实际问题进行深入分析。然而用上一节介绍的方法求出的主因子解,各主因子代表的变量并不很突出,容易使因子的意义含糊不清,不便于对实际问题进行分析。公共因子是否易于解释,很大程度上取决于因子载荷矩阵A元素结构。假设A是从相关矩阵R出发求得的,则即A的所有元素均在-1和1之间。如果载荷矩阵A的所有元素都接近0或则模型的公共因子就易于解释。这时可将原始变量分成m个部分,第一部分对应第一个公共因子第m部分对应第m个公共因子反之,如果载荷矩阵A的元素多数居中,不大不小,则对模型的公共因子一般就不易作出解释,此时应该考虑进行引资旋转,是的旋转之后的载荷矩阵在每列上元素的绝对值尽量的拉开大小距离,也就是hi进肯呢个地使其中的一些元素接近于0,另一些元素接近于因子旋转有方差最大正交旋转法和斜交旋转法等,本节只介绍方差最大正交旋转方法。对公共因子作正交旋转相当于对载荷矩阵A作一正交变换,右乘正交矩阵T,使B=AT能有更鲜明的实际意义。旋转后的公共因子向量为它的几何意义是在m维空间上对原因子轴作一刚性旋转。因子旋转不改变共性方差和残差矩阵,这时因为从而可通过适当的旋转来得到我们比较满意的公共因子。这种变换因子载荷矩阵的方法称为因子旋转。先考虑两个因子的平面正交旋转。设因子载荷矩阵为取为正交矩阵令(8.22)这样他的目的是希望所得结果使载荷矩阵的每一列元素按其平方值尽可能大或者尽可能小,即向l和0两极分化,也就是说因分成两部分,一部分主要与第一因子有关,另一部分主要与第和这两级数据的方差要尽可能的大,考虑各列的相对方差(8.23)这里取是为了消除符号不同的影响,除以除各个变量对公共因子依赖程度不同的影响。现在要求总的方是为了消达到最大值,于是考虑G对子的贡献越分散越好。这实际上是希望将变量二因子有关,这也就是要求差达到最大,即要求使(8.24)其中这一公式的详细理论证明参见张尧庭等(1997)《多元统计分析引论》。的导数,利用式(8.22)、式(8.23),经过一些计算,就要取满足可知要使当公共因子数m>2时,可以每次取2个,全部配对旋转,旋转次旋转,但是旋转完毕后,并不能认为就已经达到目的。还可以重新开始,进行第二轮次配对旋转。于是每经过一次旋转,A矩阵就发生变化,即从的各列相应的相对方差之和只会比的大,记为各列方差之和,则有这是一个单调上升的序列,而它又是有界的,因此它一定会收敛两列进行,此时在公式(8.24)中,只时总是对A阵中第就行了。因此共需进行需将到某一极限经过若干次旋转后,它的总方差的变化不大了,就可停止旋转。例8.6(续例8.5)对股票价格问题,用极大似然法给出的初始因子载荷和方差极大旋转因子载荷(m=2)都列在表8.5中。表8.5旋转前后的因子载荷变量因子载荷极大似然估计旋转因子的载荷估计共同度AlliedChemical0.6840.1890.6010.3770.50Dupont0.6940.5170.8500.1640.75UnionCarbide0.6810.2480.6430.3350.53Exxon0.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论