版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
因子分析的一个应用流程
1传统正交因子分析模型因子分析是多元分析中的一种方法。在心理学、教育学、社会学、经济学、管理学、自然科学等众多领域的多指标(变量)体系中,如员工绩效指标体系、学生课程指标体系、节约型社会指标体系、生态环境可持续型指标体系、和谐社会指标体系、对外投资环境指标体系等,因子分析常应用于综合评价与监控。传统的因子分析模型是:有p维的可观测随机向量X=(X1,…,Xp)′,E(X)=μ=(μ1,…,μp)′,Cov(X)=∑=(σij)p×p,要求X是线性依赖于几个不能观测的称之为公因子的随机向量F=(F1,…,Fm)′和附加的称之为误差(或特殊因子)的随机向量ε=(ε1,…,εp)′。具体是:或矩阵表示是:L=(lij)p×m是公因子载荷阵,且设:Cov(ε,F)=0,E(F)=0,Cov(F)=Im(单位阵),E(ε)=0上述关系与假设构成传统的正交因子分析模型。因子分析的估计方法与理论较多,但实际上,因子分析的应用并没有达到较成熟的状态,据归纳,一些使用者在应用因子分析时,常出现以下8个问题或困惑:(1)因子分析的模型有传统的因子分析模型和近期改进的因子分析模型L(见第二部分),使用哪个模型更好?(2)因子分析解不唯一,有初始因子、旋转后因子,何时使用初始因子更好?何时使用旋转后因子更好?(3)初始因子与旋转后因子的计量值能混合使用吗?(4)现行因子个数的确定方法有时会失去一些原始变量的解释,如何确定因子个数更好?(5)因子如何命名、正向化,能保持原始变量与因子的内在关系?(6)前k个因子能加权综合的条件是什么?(7)用综合因子对样品进行分类客观吗?(8)综合评价结果,如何能深入到决策相关性程度?有关文献并没有清楚地阐述上述问题,以至应用因子分析时,不易把握。本文应用近期改进的因子分析模型L的理论,逐一解析了上述问题,给出了因子分析应用中的一个综合评价步骤,以实例说明它的有效性,并给出了因子分析应用中的一些建议。2因子分析模型的改进问题(1)解析:传统的因子分析模型没有优化条件,参照主成分分析能降维,是因为主成分有方差最大化的条件,故传统的因子分析模型要能降维,没有优化条件是一个缺陷。文(1982)指出:因子分析的模型和理论是很不完善的,还存在许多问题。为此,文(2006)用因子对变量的方差贡献和最大化替代误差项方差阵为对角阵的条件式(1.3),提出了改进的因子分析模型L;文(2007)用因子分析模型L求出了传统因子分析模型的解,得出:传统因子分析模型的公因子解不能降维,且有时会丢失一些变量的解释,故使用传统的因子分析模型不是更好的,同时,传统因子分析模型解的求出,为因子分析更好模型的确立提供了深入和充分的理论依据;文(2009)用标准化主成分法等证明了:因子分析模型L的因子解是前k个标准化主成分或其旋转。因为前k个主成分能降维,故前k个标准化主成分或其旋转能降维,能解释所有变量(见问题(2)、问题(4)解析),有:结论1因子分析模型L有因子对变量方差贡献和最大化的条件,其因子能降维、能解释所有变量,故因子分析模型L是更好的。为了便于应用,这里给出近期改进的因子分析模型L及其解:因子分析模型L有p维的可观测随机向量X=(X1,…,Xp)′,E(X)=μ=(μ1,…,μp)′,Cov(X)=∑=(σij)p×p,要求X是线性依赖于少数几个不能观测的称之为因子的随机向量f=(f1,…,fk)′(k<p)和附加的称之为误差的δ=(δ1,…,δk)′,即B=(bij)p×k称为因子载荷阵,bij称为变量Xi在因子fj上的载荷,且求B、f,使:tr(B′B)达到最大(tr是方阵的迹)(3)式(1)~(3)称为正交因子分析模型L。设∑的特征值为λ1、…、λp,λ1≥…≥λp≥0,相应的单位正交特征向量为e1,…,ep,记:设Г是使B0Г达到方差最大化的正交旋转阵,记BГ=B0Г,fГ=Г′f0(前k个标准化主成分f0方差最大化的正交旋转),称BГ为旋转后因子载荷阵,fГ为旋转后因子。引理1因子分析模型L的解:B=B0,f=f0,max{tr(B′B)}=∑j=1kλj。引理2因子分析模型L的解:B=BГ,f=fГ,max{tr(B′B)}=∑j=1kλj。为了优化现有因子分析理论,为了能用流行统计软件计算因子分析模型L的解,文建立了因子分析模型L的解与传统因子分析模型中主成分法估计、回归法估计的关系:引理3设L是主成分法的前k列公因子载荷阵(含旋转后),F是L回归的因子,则因子分析模型L的解:B=L,f=F。即引理3说明:统计软件中,计算因子分析主成分法的前k列公因子载荷阵L*及其回归的因子F*,是因子分析模型L的解。注:因为主成分法误差项的方差阵不是对角阵,故主成分法估计的因子载荷阵L及其回归的因子F,不是传统因子分析模型的解。由结论1,因子分析模型以下指的是:因子分析模型L;由引理3,因子分析模型的解以下指的是:主成分法的因子载荷阵L及其回归的因子F。问题(2)解析:因子分析是用因子f解释变量X的,故要求每个变量Xi(i=1,2,…,p)仅在某个因子fj(1≤j≤p)上有高额的载荷bij。由式(2.3),达到最大,非零载荷bij的绝对值—bij—总体上会更大,故因子分析模型L解释所有变量是更好的,由引理3,主成分法的因子载荷阵是更好的。变量X标准化时,因子载荷阵B是变量X与因子f的相关阵,载荷bij是变量Xi与因子fj的相关系数,考虑到降维,该要求用因子载荷阵B描述是:B的每行有一个高额载荷的绝对值较靠近1,B的列数较小,称此为结构简化。因此,有:结论2变量X标准化时,主成分法下,多个不同列旋转后因子载荷阵中选出的因子载荷阵B0Г达到结构简化,B0Г与B0比较(见注2)。(1)如果B0Г达到更好的结构简化,则使用相应的旋转后因子;(2)如果B0达到更好的结构简化或B0Г、B0都是差异不大的结构简化,则使用相应的初始因子。注2旋转后因子载荷阵B0Г是逐次对初始因子载荷阵B0每两列元素进行方差最大化正交旋转的结果,初始因子载荷阵B0是列元素平方和(因子方差贡献vj)降序排列达到最大化的结果,即B0Г、B0的最大化方向不同,故一般情况下B0Г、B0的结果是不同的。问题(3)解析:由注2,一般情况下B0Г、B0的结果是不同的,故初始因子、旋转后因子解释的变量一般都发生了变化,这使得两者因子的计量值、方差贡献都不一样,故有:结论3初始因子、旋转后因子有最大化方向不同的条件,结果不同,故初始因子、旋转后因子不能混淆、不能混合使用。问题(4)解析:现行因子个数的确定方法有时是不合理的,如用累计方差贡献率达到85%确定因子个数,有时会失去一些原始变量解释。因为因子分析中是用因子解释变量,故选取的因子应该与变量有显著相关性(大样本时至少应达到中度相关),于是有:结论4记达到更好结构简化的m列因子载荷阵是Bm,若(Bm,λm12+1em+1,…,λp12ep)前k列元素绝对值大于显著相关的临界值(大样本取0.5-0.8),则因子个数为k,相应因子载荷阵记为Bk。问题(5)解析:变量标准化时,因子载荷阵Bk是变量X与因子f=(f1,…,fk)′的相关阵,Bk的第j列bj是变量X与因子fj的相关系数,绝对值大于显著相关临界值(大样本取0.5-0.8)的对应变量与fj相关性高,因此有:结论5在Bk的第j列bj的元素中,选出绝对值大于显著相关临界值(大样本取0.5~0.8)的对应变量,归为因子fj一组,由这组变量的内在关系对因子fj进行命名及其正向化,这样的因子分析能保持一些变量与因子的内在关系。正向化后因子载荷阵及其因子记为B、f。问题(6)解析:因子是标准化的、彼此不相关,参照普通中学学生,语文、英语、数学考试成绩可总分的条件:标准化、不相关、同方向,有:结论6如果因子f=(f1,…,fk)′是正向的,则因子可进行相应方差贡献率的加权综合。问题(7)解析:综合因子是前k个因子方差贡献率的加权平均。综合因子的样品值反映的是n个样品在综合因子中的综合相对位置(样品相应的优势、劣势、差距状况等),前k个因子的样品值反映的是n个样品在前k个因子中的相对位置。仅用综合因子进行分析会失去前k个因子的特征,仅用前k个因子进行分析会失去综合因子的特征,这样是不客观的,因此,有:结论7因子分析中既要进行综合因子的样品分析,又要进行前k个因子的样品分析,两者的结合分析才是较客观、较可靠的。样品数量较多,逐个样品分析看不出共性规律。仅按综合因子值给出分类结果,失去了前k个因子的多因素特征,事实上,样品的共性规律表现在前k个因子的样品值中,对前k个因子样品值进行聚类分析(前k个因子是标准化,不相关的,选取欧式距离的聚类分析效果较好),并按综合因子值相应顺序给出分类,便找出了样品之间较为客观、可靠性的共性规律,故有:结论8对前k个因子样品值进行系统聚类分析,按综合因子值相应顺序给出样品的分类,能较客观、可靠地反映样品之间的共性规律,便于进行样品的共性分析。问题(8)解析:因子分析、聚类分析给出了样品客观、可靠的个性与共性特征。但因子fj有综合性,决策的相关性有待与原始指标结合起来,由结论5,因子fj是按与其显著相关(大样本时达到中度相关)的原始变量归为因子fj这一类命名的,故将相应原始变量对应替换为因子fj进行联系性分析,便得出了较为可靠的决策相关性结果。结论9将因子fj对应替换为与其显著相关(大样本时达到中度相关)的原始变量,对这些联系性的原始变量逐组(当作因子fj)和综合地进行数据分析,得出的是较为客观、可靠的决策相关性结果。3主成分法的优化现行论文和文献中,应用因子分析的步骤大部分是:指标的标准化;求变量样本相关阵R、初始因子载荷阵、旋转后因子载荷阵、旋转后因子;用因子方差累计贡献率确定因子个数;旋转后因子的命名。以下步骤增加了:指标的正向化,指标高度相关性的判定,因子是否旋转的确定、因子的正向化,更新了因子个数确定方法,更新了因子命名方法,建立了因子、综合因子与原始变量的对应关系,因子中变量的内在关系,能进行深入的数据分析。(1)指标正向化、标准化;(2)指标间高度相关性判定:用变量相关阵R判定,若变量间有高度相关,因子分析继续,否则,直接进行逐个指标分析,用∑pi=1xi进行综合分析(xi是正向化、标准化的);(3)选取用于比较的因子载荷阵:主成分法下(引理3),对多个旋转后因子载荷阵,找出结构简化的旋转后因子载荷阵B0Г:即B0Г每行有一个元素的绝对值较靠近1、列数较小;(4)确定因子是否旋转:B0Г、B0比较,若B0Г达到更好的结构简化,则用旋转后因子(结论2);若B0达到更好的结构简化或B0Г、B0都是差异不大的结构简化,则用初始因子(结论2);记达到更好结构简化的m列因子载荷阵是Bm;(5)确定因子个数k:若(Bm,λm12+1em+1,…,λp12ep)前k列元素绝对值大于显著相关的临界值(大样本取0.5-0.8),则因子个数为k(结论4),相应的因子载荷阵记为Bk[(λm12+1em+1,…,λp12ep)是p列初始因子载荷阵后面的p-m列];(6)因子的命名及其正向化:在Bk的第j列bj的元素中,选出绝对值大于显著相关临界值(大样本取0.5-0.8)的对应变量,归为因子fj一组,由这组变量的内在关系对因子fj进行命名(结论5);正向化是:如果归为因子fj一组变量的内在关系是越大越好,则因子fj取正号,否则,取负号。正向化后因子载荷阵及其因子记为B、f=(f1,…,fk)′(k≥m时,f的前m个因子是Bm回归的正向化因子,第m+1、…、k个因子是p列初始因子载荷阵回归的第m+1、…、k个正向化初始因子;k<m时,f是Bm前k列因子载荷阵回归的正向化因子,引理3);(8)对前k个因子f1,…,fk的样品值、综合因子f综的样品值进行排序;(9)用前k个因子f1,…,fk的样品值做系统聚类分析(如类平均法),按综合因子f综样品值顺序给出样品相应的分类结果(结论8);(10)结合前k个因子样品值的聚类分析结果,因子、综合因子样品值和排序,因子、综合因子与原始变量的对应关系,因子中变量的内在关系,进行优势、劣势、潜力状况和原因等的综合评价,给出较客观、可靠的决策相关性建议(结论7、结论9)。4旋转后因子为验证上述因子分析综合评价步骤的有效性,用广东省2008年规模以上9大产业发展水平的数据进行综合评价。指标选取为:X1-企业科技活动人员(人)、X2-当年科技活动经费支出总额(千元)、X3-企业单位数(个)、X4-工业总产值(亿元)、X5-工业增加值(亿元)、X6-全部从业人员年均人数(万人)、X7-主营业务收入(亿元)、X8-利税总额(亿元)、X9-全员劳动生产率(元/人)、X10-百元固定资产原价实现利税(元)。9个行业为:1-电子信息业、2-电气机械及专用设备、3-石油及化学、4-纺织服装、5-食品饮料、6-建筑材料、7-森工造纸、8-医药、9-汽车及摩托车,数据见表1。⑴指标都是正向的,仅对变量进行标准化;⑵由表1数据,用SPSS软件计算得,X4与X7的相关系数为0.972,X5与X7的相关系数为0.974,变量间有高度相关性,因子分析继续;⑶多个不同列的旋转后因子载荷阵挑选得,m=3时,旋转后因子载荷阵B0Г达到结构简化(见表2),旋转后因子方差贡献v1=4.863、v2=2.252、v3=1.914;⑷初始因子载荷阵B0(见表2)与B0Г比较:由表2得表3,表3表明,B0Г达到更好的结构简化,故用旋转后因子;⑸前3个旋转后因子,变量正态分布下,取显著水平为5%,显著相关的临界值是r(7)=0.666,由B0Г和r(7)判断,前3个旋转后因子与变量显著相关;其它因子与变量没有显著相关,故因子个数k=3,前三个因子的累计方差贡献率为90.29%;⑹因子命名与正向化:由B0Г和r(7)判断,f1Γ与X7-主营业务收入、X4-工业总产值、X5-工业增加值、X6-全部从业人员年均人数、X3-企业单位数显著正相关,因子f1Γ称为产值人力因子;f2Γ与X9-全员劳动生产率、X10-百元固定资产原价实现利税、X8-利税总额显著正相关,因子f2Γ称为效益因子;f3Γ与X1-企业科技活动人员、X2-当年科技活动经费支出总额显著正相关,因子f3Γ称为科技水平因子。因子f1Γ、f2Γ、f3Γ是正向化的;⑺以旋转后方差贡献率vi/p为权数构造综合因子(xi是Xi的标准化):⑻旋转后因子、综合因子样品值及排序见表4;⑼用系统聚类分析类平均法,选用欧氏距离,通过表4三个旋转后因子f1Γ、f2Γ、f3Γ的样品值对样品进行聚类。取分类阈值为1.68时,分成五类,结合综合因子样品值排名顺序给出相应共性分类结果如表4:第一类:3-石油及化学;第二类:1-电子信息业;第三类:2-电气机械及专用设备:6-建筑材料;第四类:4-纺织服装、7-森工造纸;第五类;5-食品饮料、8-医药、9-汽车及摩托车。(10)结合前3个旋转后因子样品值的聚类分析结果,因子、综合因子样品值和排序,因子、综合因子,原始数据,原始变量名称的意义,进行优势、劣势和影响因素等的综合评价,给出客观、可靠的决策相关性建议。第一类:3-石油及化学综合因子f综Γ值排第1,高于平均水平。其产值人力因子f1Γ值排第3,高于平均水平,有较大优势;效益因子f2Γ值排第1,优势明显;科技水平因子f3Γ值排第5,低于平均水平。即该行业是效益优势明显,产值人力较高,科技水平有待提高的行业。原因及问题:效益因子f2Γ中X9-全员劳动生产率、X8-利税总额、X10-百元固定资产原价实现利税均排第1,产值人力因子f1Γ中X7-主营业务收入排第3、X4-工业总产值排第3、X5-工业增加值排第3、X6-全部从业人员年均人数排第5、X3-企业单位数排第3,科技水平因子f3Γ中X1-企业科技活动人员排第3、X2-当年科技活动经费支出总额排第5。建议:3-石油及化学行业在继续保持效益因子f2Γ中X9-全员劳动生产率、X8-利税总额、X10-百元固定资产原价实现利税均排第1优势;产值人力因子f1Γ中应保持和提高X7-主营业务收入排第3、X4-工业总产值排第3、X5-工业增加值排第3、X3-企业单位数排第3、X6-全部从业人员年均人数排第5的较好优势;科技水平因子f3Γ中,适当增加X1-企业科技活动人员和发挥好他们的作用,加大X2-当年科技活动经费的投入,必然产生更强的优势。第三类:2-电气机械及专用设备、6-建筑材料,综合因子f综Γ值依次排3、4,2-电气机械及专用设备高于平均水平,6-建筑材料略低于平均水平。其产值人力因子f1Γ值依次排2、5,2-电气机械及专用设备高于平均水平,有较大优势,6-建筑材料低于平均水平;效益因子f2Γ值依次排6、7,低于平均水平;科技水平因子f3Γ值依次排1、2,高于平均水平。即该类行业是科技水平高,但效益较差的行业。原因及问题、建议,与第一类行业的分析类似。第二类行业综合评价、建议方法与第一类行业类似,第四类、第五类行业综合评价、建议方法与第三类行业类似,此略。以上分析及结论,找到了研究对象的共性、优势、不足、潜力状况和原因等,用具有可控性的原始指标给出了较可靠的决策相关性建议,验证了因子分析模型L方法的有效性。5主成分法因子(1)模型选择。传统的因子分析模型没有优化条件,公因子解不能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论