SAS讲义十课因子分析

上传人：j*** IP属地：天津上传时间：2022-03-05 格式：DOC 页数：21 大小：228.50KB 积分：20 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第三十六课因子分析因子分析(Factor Analysis)是主成分分析的推广，它也是从研究相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。具体地说，就是要找出某个问题中可直接测量的、具有一定相关性的诸指标，如何受少数几个在专业中有意义，又不可直接测量到，且相对对立的因子支配的规律，从而可用诸指标的测定来间接确定诸因子的状态。何为因子分析因子分析的目的是用有限个不可观察的潜在变量来解释原变量间的相关性或协方差关系。在这里我们把不可观察的潜在变量称为公共因子(common factor )。在研究样品时，每个样品需要检测很多指标，假

2、设测得 p个指标，但是这 p个指标可能受到 m (m< p )个共同因素的影响，再加上其他对这些指标有影响的因素。写成数学的形式就是：me1Xi 二 aj耳2aimfX2 = a2i fi ' &22 彳2 ""a2m fm ' e2(36.1)Xp 二api fi - ap2f2 apmfmep利用矩阵记号有(36.2)A称为因子载荷矩阵，ei是单变量XPAnmf/?1各个指标变量都受到 fi的影响，因此fi称为公共因子，Xi所特有的因子，称为 Xj的特殊因子ep分别是均值为0,方差unique factor)。设 fl， f2，,，fm分

3、别是均值为0,方差为1的随机变量，即D( f) = I m ；特殊因子e1， e，为d12，d；，,，dp的随机变量，即D(e) = diag(d12,df / ,dp D ；各特殊因子之间及特殊因子与公共因子之间都是相互独立的，即Cov(e ,勺)=0,i鼻j及Cov(e, f) = 0。错误！未定义书签。是第j个变量在第i个公共因子上的负荷，从投影的角度看，aji就是Xj 在坐标轴f上的投影。i主成份分析的目标是降维，而因子分析的目标是找出公共因素及特有的因素，即公共因子与特殊因子。在主成份分析中，残差通常是彼此相关的。在公因子分析中，特殊因子起到残差的作用，但被定义为彼此不相关且和公

4、因子也不相关。而且每个公因子假定至少对两个变量有贡献，否则它将是一个特殊因子。在开始提取公因子时，为了简便还假定公因子彼此不相关且具有单位方差。在这种情况下，向量X的协方差矩阵工可以表为匕二 D(X)二 D(Af e) = AA D(36.3)这里D=diag(d12,d；,，d：), diag表示对角矩阵。如果假定已将错误！未定义书签。标准化，也就是说错误！未定义书签。的每一个分量 Xi的均值都为0,方差都是1，即D(XJ二1 ,那么Xi =ai1f1 - ai2 f2 aim fm - em1=Var(XJ =送 a； +d：(36.4)m记h； = a2，则有2 21 = hi

5、di , i = 1,2, p(36.5)错误！未定义书签。反映了公共因子f对Xi的影响，称为公共因子f对Xj的“贡献”。hj2实际反映了变量 Xi对公共因子f的依赖程度。另一方面，还可以考虑指定的一个公共因子fj对各个变量Xi的影响。实际上，fj对各个变量Xi的影响可由A中第j列的元素来描述，那么p2 、 2g jaij(36.6)称为公共因子fj对X的“贡献”。显然g：越大，fj对X的影响就越大，g2成为衡量因子重要性的一个尺度。实际上mCov(Xi,fj)八 aikCov(fk, fj) Cov(e, fj)二 aj(36.7)k 二那么矩阵A的统计意义就非常清楚：错误！未定义书签。是

6、Xi和fj的相关系数；错误！未定义书签。是X i对公共因子f的依赖程度；错误！未定义书签。是公共因子fj对X的各个分量总的影响。下面我们来看怎样求解因子载荷矩阵A。二、因子载荷矩阵的求解如果已知X协方差矩阵匕和D，可以很容易地求出 A。根据(36.3)有二-D = AA(36.8)记£ = D，则I*是非负定矩阵。若记矩阵 I*的p个特征值人 > 打 > , > 几 > 人时='p = 0,且m个非零特征值所对应的特征向量分别为1 ,2， m ,则L的谱分解式为匸二 111222八 ''m m m(36.9)'2 2 /

7、只要令(36.10)就可以求出因子载荷矩阵 A。但在实际问题中，我们并不知道3、D，即不知道z*，已知的只是n个样品，每个样品测得p个指标，共有np个数据，样品数据见表 6.1所示。为了建立公因子模型，首先要估2计因子载荷错误！未定义书签。和特殊因子方差di。常用的参数估计方法有以下三种：主成份法、主因子解法和极大似然法。1. 主成份法主成份法求因子载荷矩阵 A的具体求法如下：首先从资料矩阵出发求出样品的协方差矩阵，记之为？，其特征值为1 一_ 'p 一 0，相应单位正交特征向量为1, 2,p，当最后p - m个特征值较小时，则对?进行谱分解可以近似为? = '1 1，

8、2 2 2 'm m m D（36.11）其中 > '2 > , > 韦0是协方差矩阵？相应的前m个较大特征值。先取a1 = . r 1，然后看？-aa；是否接近对角阵。如果接近对角阵，说明公共因子只要取一个就行了，所有指标主要受到这一个公共因子的影响；如果？-a1a1不是近似对角阵，就取 a2二._2 2，然后看？-印耳-a2a2是否接近对角阵，如果接近对角阵，就取两个公共因子；否则再取 a3二.3 3,直到满足“要求”为止。这里的“要求”要视具体情况而定，一般而言，就象主成分分析一样，直接取前q个特征值和特征向量，使得它们的特征值之和占全部特征q值之

9、和的85%以上即可。此时，特殊因子方差dj =二aj,i =1,2,p。t d祇）2r12rpirp2(36.12)(h2)2计算R的特征值和特征向量，取前m个正特征值，1 _，2 一_Am _0及相应特征向量为1,m，则有近似分解式二 AA(36.13)1 m(* j *C*?n其中 A =(1 1 ,2 2,r 'm m)，令 C?3, , i =1,2/ ,p ，则 A 和t 二D*二diag（&2，d2,，（?2）为因子模型的一个解，这个解就称为主因子解。上面的计算是我们假设已知特殊因子方差的初始估计（Ci）2，那么特殊因子方差的初始估计值如何得到呢？由于在实际中特殊因

10、子方差d；（或公因子方差h；）是未知的。以上得到的解是近似解。为了得到近似程度更好的解，常常采用迭代主因子法。即利用上面得到的 D*二diag（C2，C2,，dp）作为特殊方差的初始估计，重复上述步骤，直到解稳定为止。公因子方差（或称变量的共同度）常用的初始估计有下面三种方法：h2取为第i个变量与其他所有变量的多重相关系数的平方（或者取d： = 1/r"，其中r"是相关矩阵R的可逆矩阵R'的对角元素，则h2 = 1 -d：）；2h取为第i个变量与其他所有变量相关系数绝对值的最大值;2取hi =1,它等价于主成份解。3. 极大似然法假定公共因子f和特殊因子e服从正态分

11、布，那么我们可得到因子载荷阵和特殊方差的极大似然估计。设p维的n个观察向量x（1）,x（2），x（n）为来自正态总体 Np（",二）的随机样本，则样本似然函数为 J和二的函数L（m。设二二AA D，取二二X，对于一组确定的随机样本，J已经变成了确定已知的值，则似然函数L（m 可以转换为 A和D的函数'（代D）。接下来就可以求 A和D取什么值，函数（A, D）能达到最大。为了保证得到唯一解，可以附加唯一性条件 A D aA二对角阵，再用迭代方法可求得极大似然估计的A和D的值。三、因子旋转因子模型被估计后，还必须对得到的公因子f进行解释。进行解释通常意味着对每个公共因子给出

12、一种意义明确的名称，它用来反映在预测每个可观察变量中这个公因子的重要性，这个公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数，显然这个因子的系数绝对值越大越重要，而接近 0则表示对可观察变量没有什么影响。因子解释是一种主观的方法，有时侯，通过旋转公因子可以减少这种主观性，也就是要使用非奇异的线性变换。设p维可观察变量 X满足因子模型 X =Af e。设错误！未定义书签。是任一正交阵，则因子模型可改写为X = A - f e ? A* f * e(36.14)其中，A*二A】，f* =】f。根据我们前面假定：每个公因子的均值为0,即E(f) = 0，每个公因子的方差为1,即卩D( f)

13、 = I，各特殊因子之间及特殊因子与公共因子之间都是相互独立的，即Cov(ei, ej) = 0,i = j 及 Cov(e, f) = 0。可以证明E(f*) =E(】f) E(f) = 0(36.15)D(f*)二 DC f) D(f)】=1(36.佝Cov(e, f *)二 Cov(e,丨 f)二丨 Cov(e f) = 0(36.17)D(X)二 D(A*f * e)二 D(A*f *) D(e)二 A* (A*)D(36.18)因此，X二AA： D二A* (A*) ' D。这说明，若 A和D是一个因子解，任给正交阵错误!未定义书签。，A*和D也是因子解。由于正交阵错误！未

14、定义书签。是任给的，所以因子解不是唯一的。在实际工作中，为了使载荷矩阵有更好的实际意义，在求出因子载荷矩阵A后，再右乘一个正交阵】，这样就变换了因子载荷矩阵，这种方法称为因子轴的正交旋转。我们知道，一个所有系数接近 0或土1的旋转模型矩阵比系数多数为0与±1之间的模型容易解释。因此，大多数旋转方法都是试图最优化模型矩阵的函数。在初始因子提取后，这些公因子是互不相关的。如果这些因子用正交变换(orthogonal transformation )进行旋转，旋转后的因子也是不相关的。如果因子用斜交变换(oblique transformation )进行旋转，则旋转后的因子变为相关

15、的。但斜交旋转常常产生比正交旋转更有用的模型。旋转一组因子并不能改变这些因子的统计解释能力。如果两种旋转模型导出不同的解释，这两种解释不能认为是矛盾的。倒不如说，是看待相同事物的两种不同方法。从统计观点看，不能说一些旋转比另一些旋转好。在统计意义上，所有旋转都是一样的。因此在不同的旋转之间进行选择必须根据非统计观点。在多数应用中，我们选择最容易解释的旋转模型。四、应注意的几个问题因子分析是主成分分析的推广，它也是一种降维技术，其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。因子模型在形式上与线性回归模型很相似，但两者有着本质的区别：回归模型中的自变量是可观测到的，而因子

16、模型中的各公因子是不可观测的隐变量。而且，两个模型的参数意义很不相同。因子载荷矩阵不是唯一的，利用这一点通过因子的旋转，可以使得旋转后的因子有更鲜明的实际意义。因子载荷矩阵的元素及一些元素组合有很明确的统计意义。因子模型中常用的参数估计方法主要有：主成分法，主因子法和极大似然法。在实际应用中，常从相关矩阵 R出发进行因子模型分析。常用的因子得分估计方法有：巴特莱特因子得分和汤姆森因子得分两种方法。五、Factor因子分析过程因子分析用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据，表达一组相互关联的变量。通常情况下，这些相关因素并不能直观观测，这类分析通常需用因

17、子分析完成。factor过程一般由下列语句控制：proc factor data= 数据集 < 选项列表 > ; priors 公因子方差；var变量表；partial变量表；freq变量；weight变量;by变量；run ；1. proc factor语句的 <选项列表>。1）有关输出数据集选项。out=输出数据集创建一个输出数据集，包括输入数据集中的全部数据和因子得分估计。outstat=输出数据集用于存储因子分析的结果。这个结果中的部分内容可作为进一步因子分析的读入数据集。2）有关因子提取和公因子方差选项。、scoremethod=因子选择方法包括p

18、rincipal （主成份法），prinit （迭代主因子法）， usl （没有加权的最小二乘因子法），alpha C 因子法或称harris法），ml （极大似然法）， image（映象协方差阵的主成份法），pattern （从type=选项的数据集中读入因子模型）（从type=选项的数据集中读入得分系数）。常用方法为 principal （主成份法）、ml （极大似然法）和prinit （迭代主因子法）。heywoo 公因子方差大于 1时令其为1,并允许迭代继续执行下去。因为公因子方差是相关系数的平方，我们要求它总是在0和1之间。这是公因子模型的数学性质决定的。尽管如此，但在最终的公因

19、子方差的迭代估计时有可能超过1。如果公因子方差等于1，这种状况称为 Heywood状况，如果公因子方差大于 1，这种状况称为超-Heywood 状况。在超-Heywood状况时，因子解是无效的。priors =公因子方差的计算方法名规定计算先验公因子方差估计的方法，即给各变量的公因子方差 hi2赋初值，包括 one （等于1.0）， max （最大绝对相关系数），smc （多元相关系数的平方），asmc （与多元相关系数的平方成比例，但要适当调整使它们的和等于最大绝对相关），input （从data=指定的数据集中，按type=指定类型读入第一个观察中的先验公因子方差估计），rando

20、m （0与1之间的随机数）。3）有关规定因子个数及收敛准则的选项。nfactors=n要求保留n个公因子，否则只保留特征值大于1的那些公因子。mineigen=p规定被保留因子的最小特征值。proportion=p使用先验公因子方差估计，对被保留的因子规定所占公共方差比例为这个p值。converge=p当公因子方差的最大改变小于p时停止迭代。缺省值 =0.001。maxiter=n规定迭代的最大数。缺省值为30。4）有关旋转方法的选项。rotate =因子转轴方式名给出旋转方法。包括none, varimax , quartimax ,equamax, orthomax , hk , prom

21、ax, procrustes。常用的有 varimax （正交的最大方差转轴法）、orthomax （由gamma=指定权数的正交方差最大转轴法）和 promax （在正交最大方差转轴的基础上进行斜交旋转）。norm= kaiser | raw | weight | cov | none为了对因子模型进行旋转，规定模型矩阵中行的正规化方法。例如，norm=kaiser表示使用 Kaiser的正规化方法。norm=weight表示使用Cureton-Mulaik方法进行加权。norm=cov表示模型矩阵的这些行被重新标度为表示协方差而不是相关系数。norm=raw或none表示不进行正规化

22、。gamma=p规定正交方差最大旋转的权数。prerotate=因子转轴方式名规定预先旋转的方法。除了promax和procrustes的旋转方法，任何其他的旋转方法都可使用。5）有关控制打印输出的选项。simple打印输出包括简单统计数。corr打印输出相关阵和偏相关阵。score打印因子得分模型中的系数。scree打印特征值的屏幕图。ev打印输出特征向量。residuals打印残差相关阵和有关的偏相关阵。nplot=n规定被作图的因子个数。plot在旋转之后画因子模型图。preplot 在旋转之前画因子模型图。msa打印被所有其余变量控制的每对变量间的偏相关，并抽样适当的Kaiser度量。

23、reorder在打印输出时让各种因子矩阵的这些行重新排序。在第一个因子上具有最大绝对载荷的变量首先被输出，然后按最大载荷到最小输出，紧接着在第二个因子上输出具有最大绝对载荷的变量等等。2. priors 语句。为var变量设定公因子方差，值在0.0和1.0之间。其值的设定应与var语句的变量相对应。例如：proc factor ； priors 0.70.8 0.9 ； var x y z ；其他语句的使用略。六、 Factor score因子得分过程无论是初始因子模型还是旋转后的因子模型，都是将指标表示为公因子的线性组合。在因子分析中，还可以将公因子表示为指标的线性组合，这样就可以从指标

24、的观测值估计各个公因子的值，这种值叫因子得分。它对样品的分类有实际意义。因子得分可由proc score过程完成。score过程一般由下列语句控制：proc score data= 数据集 < 选项列表 > ; var变量；run ;proc score语句选项包括out=输出数据集，存储因子得分结果等。将factor和score两个过程书写在同一个程序中，可以提高分析的效率。七、实例分析例36.1下表36.1给出的数据是在洛杉矶十二个标准大都市居民统计地区中进行人口调查获得的。它有五个社会经济变量，它们分别是人口总数(pop)、居民的教育程度或中等教育的年数(school )、

25、雇佣人总数(employ )、各种服务行业的人数(services )和中等的房价(house),试作因子分析。表36.1五个社会因素调查数据编号popschoolemployserviceshouse1570012.82500270250002100010.96001010000334008.810001090004380013.61700140250005400012.8160014025000682008.3260060120007120011.440010160008910011.5330060140009990012.534001801800010960013.73600390250

26、001196009.63300801200012940011.44000100130001.建立数据文件。程序如下:data socecon;input pop school employ services house; title 'FIVE SOCIO-ECONOMIC VARIABLES' cards;5700 12.8 2500 270 250001000 10.9 600 10 10000) ) ) ) )9400 11.4 4000 100 13000run;程序运行后，生成一个scoecon数据集2. 调用因子分析factor过程。菜单操作方法，在SAS系统的主菜

27、上，选择 Globals/SAS/Assist进入Assist的主菜单，再选择 data analysis/multivar/factor analysis（因子分析）。编程方法如下：proc factor data=socecon method=prin priors=one simple corr score;run;proc factor data=socecon method=prin priors=smc msa scree residual preplotrotate=promax reorder plot outstat=fact_all ;run;proc factor dat

28、a=socecon method=ml heywood nfacotors=1;run;proc factor data=socecon method=ml heywood nfactors=2;run;proc factor data=socecon method=ml heywood nfactors=3;run;程序说明：共调用了5个factor因子分析过程。第1个过程为主成份因子分析，第2个过程为主因子分析，第3个过程为提取一个因子的最大似然分析，第4个过程为提取二个因子的最大似然分析，第5个过程为提取三个因子的最大似然分析。第1个factor因子分析过程，由于选项 method=pr

29、in和priors=one,提取因子的方法采用主成份分析，先验公因子方差估计被规定为1。选项simple和corr要求输出描述统计量和相关阵。选项score要求输出因子得分系数。第2个factor因子分析过程，由于不是priors=one选项，所以提取因子的方法采用主因子分析，选项method=prin不起作用。选项priors=smc表示先验公因子方差估计被规定为每个变量与其他变量的多重相关系数的平方。选项msa表示控制所有其余变量的偏相关。选项scree表示输出所有特征值按从大到小排列的斜坡图，用于选择因子个数。选项residual输出残差相关阵和有关的偏相关阵，得到特殊因子方差的剩余

30、相关。选项rotate=promax规定因子模型预先按正交最大方差的旋转，再在正交最大方差转轴的基础上进行斜交的promax旋转。选项preplot表示绘制因子模型旋转前的散点图。选项plot表示绘制因子模型旋转后的散点图。选项reorder表示按因子上具有的载荷大小排列。选项outstat=fact_all表示将因子分析的各种结果输出到fact_all数据集中。1和第2个factor因子分其他3个最大似然因子分析过程的说明，我们在这里省略。第析过程运行后，主要的结果见表36.2到表36.9。Means and Standard Deviations from 12 observations（

31、每个变量的均值和标准差）POPSCHOOL EMPLOY SERVICESHOUSEMean 6241.66667 11.4416667 2333.33333 120.83333317000Std Dev 3439.99427 1.78654483 1241.21153 114.927513 6367.53128Correlations（相关矩阵）POP SCHOOL EMPLOY SERVICES HOUSEPOP 1.00000 0.00975 0.97245 0.43887 0.02241表36.2均值、标准差及相关矩阵表36.3主成份法的输出结果Initial Factor Metho

32、d: Principal ComponentsPrior Communality Estimates: ONE（初始公因子方差估计值）Eigenvalues of the Correlation Matrix: Total = 5 Average = 1（相关矩阵的特征值）12345Eigenvalue2.87331.79670.21480.09990.0153Difference1.07671.58180.11490.0847Proportion0.57470.35930.04300.02000.0031Cumulative0.57470.93400.97700.99691.00002 fa

33、ctors will be retained by the MINEIGEN criterion.（确定的因子数目）Factor Pattern（因子模型）FACTOR1 FACTOR2POP 0.58096 0.80642SCHOOL 0.76704 -0.54476EMPLOY 0.67243 0.72605SERVICES 0.93239 -0.10431HOUSE 0.79116 -0.55818Variance explained by each factor（每个因子解释的方差）FACTOR1 FACTOR22.873314 1.796660Final Communality Es

34、timates: Total = 4.669974（最终公因子方差估计）POP SCHOOL EMPLOY SERVICES HOUSE表36.4主因子法的输出结果表36.5主因子法的正交最大方差预旋转结果Initial Factor Method: Principal FactorsPartial Correlations Controlling all other Variables（控制所有其余变量的偏相关）POP SCHOOL EMPLOY SERVICES HOUSEPOP 1.00000 -0.54465 0.97083 0.09612 0.15871SCHOOL -0.54465

35、 1.00000 0.54373 0.04996 0.64717EMPLOY 0.97083 0.54373 1.00000 0.06689 -0.25572SERVICES 0.09612 0.04996 0.06689 1.00000 0.59415HOUSE 0.15871 0.64717 -0.25572 0.59415 1.00000Kaiser's Measure of Sampling Adequacy: Over-all MSA = 0.57536759（抽样适当的Kaiser量度，包括所有变量的和每个变量的）POP SCHOOL EMPLOY SERVICES HOU

36、SE0.472079 0.551588 0.488511 0.806644 0.612814Prior Communality Estimates: SMCPOP SCHOOL EMPLOY SERVICES HOUSE0.968592 0.822285 0.969181 0.785724 0.847019Eigenvalues of the Reduced Correlation Matrix:（约化相关矩阵的特征值）Total = 4.39280116 Average = 0.878560231 2345Eigenvalue2.73431.71610.0396-0.0245-0.0726D

37、ifference1.01821.67650.06410.0481Proportion0.62250.39070.0090-0.0056-0.0165Cumulative0.62251.01311.02211.01651.00002 factors will be retained by the PROPORTION criterion. Factor Pattern表36.6 主因子法的Promax斜交旋转结果Rotation Method: Promax（旋转方法：在正交最大方差旋转的基础上再斜交旋转）Target Matrix for Procrustean Transformation

38、（用于Procrustean斜交变换的目标矩阵）FACT0R1 FACT0R2HOUSE 1.00000 -0.00000SCHOOL 1.00000 0.00000SERVICES 0.69421 0.10045POP 0.00001 1.00000EMPLOY 0.00326 0.96793Procrustean Transformation Matrix1 21 1.04117 -0.098652 -0.10572 0.96303Normalized Oblique Transformation Matrix（正规化斜交变换矩阵）1 21 0.73803 0.542022 -0.7055

39、5 0.86528Inter-factor Correlations（因子间的相关）FACTOR1 FACTOR2FACTOR1 1.00000 0.20188FACTOR2 0.20188 1.00000Rotated Factor Pattern （Std Reg Coefs）FACTOR1 FACTOR2HOUSE 0.95558 -0.09792SCHOOL 0.91842 -0.09352SERVICES 0.76053 0.33932POP -0.07908 1.00192EMPLOY 0.04799 0.97509Reference Axis Correlations（参考轴相关

40、）FACTOR1 FACTOR2FACTOR1 1.00000 -0.20188FACTOR2 -0.20188 1.00000Reference Structure （Semipartial Correlations）（半偏相关系数的参考结构）FACTOR1FACTOR2HOUSE 0.93591 -0.09590SCHOOL 0.89951 -0.09160Initial Factor Method: Principal FactorsPlot of Factor Pattern for FACT0R1 and FACT0R2FACTOR11D .9E.8B.7C.6.5.4.3.2.1A

41、-1 -.9-.8-.7-.6-.5-.4-.3-.2-.1 0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1 0-.1FACTOR2-.2-.3-.4-.5表36.7主因子法的没有旋转因子模型图Prerotation Method: VarimaxPlot of Factor Pattern for FACTOR1 and FACTOR2 FACTOR1E1.B.8 D.7.6.5.4.3.2.1C-1 -.9-.8-.7-.6-.5-.4-.3-.2-.1 0 .1 .2 .3 .4 .5 .6 .7 .8 .9 A 0-.1FACTOR2-.2-.3-.4-.5表36.8主因

42、子法的方差最大预旋转因子模型图Rotation Method: PromaxPlot of Reference Structure for FACT0R1 and FACT0R2Reference Axis Correlation = -0.2019 Angle = 101.6471FACTOR1E 1B.9.8 D.7.6.5.4.3.2.1C-1 -.9-.8-.7-.6-.5-.4-.3-.2-.1 0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1 0-.1A FACTOR2-.2-.3-.4-.5表36.9 主因子法的Promax斜交旋转因子模型图3. 主要结果分析。第1个

43、factor过程输出见表 36.2所示的简单统计数（Means and Standard Deviations ）和相关系数（Correlations），以及见表36.3所示主成份分析结果。主成份分析的先验公因子方差估计按指定值为1 （缺省值也为1），所以5个变量组成的相关矩阵的特征值之和为5，平均值为1。主成份法求解的结果表明有两个较大的特征值且都大于1，分别为 2.873314和1.796660，能解释数据标准变异的93.4%，因而这两个主成份能基本概括和解释整个数据的信息。若使用三个主成份（解释变异的97.7%），则大多数情况下都能满足需要。factor过程依据特征值大于1的原则（确定

44、因子个数的缺省准则）选择了前两个主成份因子。所以含有两个公因子的初始公因子模型为：pop= 0.58096 f1 + 0.80642 f2schoo= 0.76704 f1 0.54476 f2employ 0.67243 f + 0.72605 f?services=0.93239 f1 0.10431 f2house= 0.79116 £ 0.55818 f?第1和第2公因子能解释的方差分别为 2.873314和1.796660 , 5个标准化变量的最终公因子方差估计值之和为4.669974=2.873314+1.796660=0.987826+0.885106+0.97930

45、6+0.8802362 2+0.937500。特征值与它的特征向量之间有如下等式，例如，2.873314=0.58096 +0.76704 +0.672432+0.932392+0.791162。第1主成份因子factorl在5个变量上的因子载荷量皆为正值，其中它与services的相关特别大(0.93239),总体上大小基本相近，可称为基本社会因子。第 2主成份因子factor2在pop( 0.80642)和employ( 0.72605)上有较大的正载荷量，而在house(-0.55818 )和school( -0.54476)上有绝对值较大的负载荷量，在services( -0.104

46、31 )上的载荷量非常小。所以，第2主成份因子是反映了地区的总人口和总雇佣人口与地区的房价和教育水平的对比值，可称为人口就业因子。最终公因子方差表明，所有变量都能由这两个因子很好他说明，其公因子估计值从services的0.880236到pop的0.987826的范围内。主成份生成的标准因子得分具有均值为0方差为1。但计算得到的因子得分仅仅是真正因子得分的估计，这些估计具有均值为0，方差等于该因子同这些变量的复相关系数的平方。所以，每个标准因子得分的系数计算，可以通过每个因子与所有变量的回归分析得到的，标准因子得分模型为：f1 =0.20219 pop+ 0.26695school+ 0.

47、23403employ+ 0.32450servicesF 0.27535 housef2 =0.44884 pop- 0.30320school+ 0.40411employ 0.05806services- 0.31068house第2个factor过程进行主因子分析，规定每个变量的先验公因子方差估计使用与其他所有变量复相关系数的平方(priors=smc)。主因子分析的选项要求计算抽样适当的Kaiser度量(msa)。如果数据适合这个公因子模型，显然应该在控制所有其余变量的条件下，两变量之间的相关系数(此时称为偏相关系数)应该比原始的相关系数小。我们比较表36.4中的两变量间的偏相关

48、系数与前面表36.2中两变量的原始相关系数，pop和school间的偏相关系数为-0.54465，它的绝对值比原始相关系数0.00975大得多，这表明有问题，此外不满足条件的偏相关还有， pop禾口 house之间、school禾口 employ 之间、employ 与 house之间。msa指标是度量偏相关比原始相关小多少的综合指标，它既提供了所有变量一起考虑的msa值，又提供了单个变量的msa值，为我们直观快速判断因子模型拟合好坏提供了标准。msa的值在0.8以上是好的，msa的值在0.5以下需要采取补救措施，或者删除一些违法的变量，或者引入与违法变量有关的其他变量。显然所有变量的msa

49、=0.57536759是很差的，单个变量除了services变量的msa=0.806644很好外，其余都很差甚至不能接受。所以，每个变量作为一个因子或者说每一个因子只包含一个变量的因子模型是不能接受的。共同使用的经验法则是每个因子至少应该包含有三个变量。先验公因子方差估计 smc都很大(接近于 1),女口 pop=0.968592 , school= 0.822285 , employ=0.969181 , services= 0.785724 , house=0.847019，而主成份分析的五个变量先验公因子方差估计都设定为1,因此，主因子分析的因子载荷应该与主成份分析没有大的差异。约

50、化相关矩阵的特征值之和=0.968592+0.822285+0.969181+0.785724+0.847019=4.39280116，平均值为0.87856023。两个很大的特征值 2.7343和1.7161很明显地表示，应提取二个公因子。这两个大的正特征值之和占公共方差4.39280116的(2.7343+1.7161 ) /4.39280116=101.31% ,它像没有进行迭代时才可能得到的一样，非常接近100%。对被保留因子个数的规定为，保留因子的特征值之和占公共方差的比例大于proportion=p选项中p值，p的缺省值为100%。主因子分析过程绘制了特征值的( scree)斜坡

51、图，图形在这里我们没有给出。从图中我们可以看出在第三个特征值处有明显的弯曲，也就是说从第三个特征值开始变成了在平地上，而不是在斜坡上。从观察到的斜坡图上也可证明取二个公因子的结论是正确的。见表36.4中给出的主因子模型，它类似于主成份模型。所有最终公因子方差都很接近于先验的公因子方差，值得注意的只有 house从0.847019增加到0.884950。接近100%的公共方差被解释了。在对角线上的特殊因子方差剩余相关都很小，且与最终公因子方差之和等于1。例如pop变量的最终公因子方差为0.978113，特殊因子方差为0.02189，两者之和0.978113+0.02189=1。变量之间的剩余相关也很小，最大值为house与services之间的0.03370。输出对所有变量和对每个变量的非对角偏相关的均方根。例如，所有变量的非对角偏相关的均方根为0.01693282，pop变量的非对角偏相关的均方根为0.008153。最后输出控制因子的偏相关阵及对所有变量和对每个变量的非对角偏相关的均方根。本例因为特殊因子的方差很小，故偏相关其实不是很重要。以上的这些结果分析表明先验公因子方差估计smc虽很好，但可能不完全是最佳的公因子方差估计。从表36.7中看出，没有旋转的因子模型中变量可分为两个很紧凑的类，house（ E）和school（B）在f

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

SAS讲义十课因子分析

文档简介

温馨提示

最新文档

评论

SAS讲义十课因子分析

文档简介

温馨提示

最新文档

评论

相关文档