版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章因子分析
FactorAnalysis1内容梗概:8.1概述因子分析8.2因子分析的概念与步骤8.3使用FACTOR过程进行因子分析28.1概述因子分析一、因子分析基本思想
从分析多个可观测的原始指标的相关关系入手,找到支配这种相关关系的有限个不可观测的潜在变量,是多元分析中处理降维的一种统计方法.如:考察人体的五项生理指标:收缩压、舒张压、心跳间隔、呼吸间隔和舌下温度.从生理学知识,这五项指标是受植物神经支配的,植物神经又分为交感神经和副交感神经,因此这五项指标也可以用因子分析模型去处理.3二、因子分析数学模型
X1:收缩压X2:舒张压X3:心跳间隔X4:呼吸间隔X5:舌下温度F1:交感神经F2:副交感神经
commonfactor4
specificfactor
commonfactor5Xi:观测指标(标准化数据)
Fi:公因子ei:特殊因子aij:因子载荷(计算关键项)6X=AF+e7三、因子分析的主要应用
(1).寻求基本结构,简化观测系统,将具有错综复杂关系的对象(变量或样本)综合为少数几个因子(不可观测的随机变量),并再现因子与原始变量之间的内在联系;(2).用于分类,对变量或样本进行分类.8四、因子分析与主成分分析的区别(1).主成分分析不能作为一个模型,只是变量变换,而因子分析需要构造模型;(2).主成分的个数和变量的个数相同,它是将一组具有相关的关系的变量变换为一组互不相关的变量,而因子分析是要用尽可能少的的公因子,以便构造一个简单的因子模型;(3).主成分表示为原始变量的线性组合,而因子分析是将原始变量表示为公因子和特殊因子的线性组合.98.2
因子分析的概念与计算步骤
1.因子分析模型
设p维可观测的随机向量X=(X1,...,Xp)'(假定Xi为标准化变量,即E(Xi)=0,Var(Xi)=1,i=1,2,…,p)表示为10
X=AF+ε
上式称为因子模型,其中F1、F2、…、Fm称为公因子,简称因子,是不可观测的变量;待估的系数阵A称为因子载荷阵,aij(i=1,2,…,p;j=1,2,…,m)称为第i个变量在第j个因子上的载荷(简称为因子载荷);
ε称为特殊因子,是不能被前m个公共因子包含的部分.并且满足:cov(F,ε)=0,即F,ε不相关;
D(F)=Im,即F1、F2、…、Fm互不相关,方差均为1;D(ε)=diag(12,22,…,p2),即ε1、ε2、…、εp互不相关,方差不一定相等,εi~N(0,i2).
因子分析的目的就是通过模型X=AF+ε以F代替X,由于m<p,从而达到降维的目的.112.因子分析模型中的几个统计特征(1)因子载荷aij的统计意义
由Xi=ai1F1+…+aimFm+εi,两边同乘以Fj,再求数学期望:
E(XiFj)=ai1E(F1Fj)+…+aijE(FjFj)+…+aimE(FmFj)+E(εiFj)从而有rij=E(XiFj)=aij即载荷矩阵中第i行,第j列的元素aij是第i个变量与第j个公因子的相关系数,反映了第i个变量与第j个公因子的相关程度.|aij|1,绝对值越大,相关程度越高.在这种意义上公因子解释了观测变量间的相关性.12(2)
.变量共同度的统计意义
因子载荷矩阵第i行的元素平方和:
称为变量Xi的共同度(i=1,2,…,p).
对Xi=ai1F1+…+aimFm+εi两边求方差:
显然,若因子方差hi2大,剩余方差i2必小.而hi2大就表明Xi对公因子的共同依赖程度大.设Var(Xi)=1,即所有的公共因子和特殊因子对变量Xi的贡献为1.如果hi2非常靠近1,则i2非常小,此时因子分析的效果好,从原变量空间到公共因子空间的转化性质好.可见hi2反映了变量Xi对公共因子F的依赖程度,故称hi2为变量Xi的共同度.13(3)公共因子Fj方差贡献的统计意义
因子载荷矩阵A中各列元素的平方和:
称为公共因子Fj对X的贡献,是衡量Fj相对重要性的
指标,qj2越大表明Fj对X的贡献越大.143.因子载荷矩阵的估计方法
给定p个相关变量X1,...,Xp的观测数据阵X,由X=AF+ε易推出
∑=AA'+D其中∑=D(X)为X的协方差阵,A=(aij)为p
m的因子载荷阵,D=diag(12,22,…,p2)为p阶对角阵.
由p个相关变量的观测数据可得到协差阵的估计,记为S.为了建立因子模型,首先要估计因子载荷aij和特殊方差i2.常用的参数估计方法有以下三种:主成分法,主因子法和极大似然法.15(1)主成分法
设样品协方差阵S的特征值为λ1≥λ2≥…≥λp≥0,u1,u2,…,up为对应的标准化特征向量,当最后p–m个特征值较小时,S可近似地分解为:其中,
为pm阵,
,即得因子模型的一个解.载荷阵A中的第j列和X的第j个主成分的系数相差一个倍数(j=1,…,m),故这个解称为主成分解.16(2)主因子法
主因子方法是对主成分方法的修正,设R=AA'+D,则R*=R–D=AA'称为约相关矩阵,若已知特殊因子方差的初始估计,也就是已知变量共同度的估计:则R*对角线上的元素是
,而不是1.即:17计算R*的特征值和特征向量,取前m个正特征值λ1*≥λ2*≥…≥λm*>0,相应的特征向量为u1*,u2*,…,um*,则有近似分解式:
R*
=AA'其中
,令
(i=1,…,p)则A和D为因子模型的一个解,这个解称为主因子解.18(3)极大似然法
假定公因子F和特殊因子ε服从正态分布,那么可得到因子载荷阵和特殊因子方差的极大似然估计,设p维观测向量X(1),...,X(n)为来自正态总体Np(μ,∑)的随机样品,则样品似然函数为μ,∑的函数L(μ,∑).
设∑=AA'+D,取μ=,则似然函数为A,D的函数:(A,D),求A,D使达最大.为保证得到唯一解,可附加计算上方便的唯一性条件:A'D-1A=对角阵,用迭代方法可求得极大似然估计A和D.19
在实际中特殊因子方差(或变量共同度)是未知的.以上得到的解是近似解.为了得到近似程度更好的解,常常采用迭代主因子法.即利用上面得到的D*=diag(
)作为特殊因子方差的初始估计,重复上述步骤,直到解稳定为止.变量共同度hi2常用的初始估计有以下几种方法:取第i个变量与其他所有变量的多重相关系数的平方;取第i个变量与其他变量相关系数绝对值的最大值;取1,它等价于主成分解.204.因子旋转(正交变换)
所谓因子旋转就是将因子载荷矩阵A右乘一个正交矩阵T后得到一个新的矩阵A*.它并不影响变量Xi的共同度hi2,却会改变因子的方差贡献qj2.因子旋转通过改变坐标轴,能够重新分配各个因子解释原始变量方差的比例,使因子更易于理解.21设p维可观测向量X满足因子模型:X=AF+ε.T为正交阵,则因子模型可写为X=ATT'F+ε=A*F*+ε其中A*=AT,F*=T'F.易知,∑
=AA'+D=A*A*'+D(其中A*=AT).这说明,若A,D是一个因子解,任给正交阵T,A*=AT,D也是因子解.在这个意义下,因子解是不惟一的.
由于因子载荷阵是不惟一的,所以可对因子载荷阵进行旋转.目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化,这样的因子便于解释和命名.22
有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法.这些旋转方法的目标是一致的,只是策略不同.
如果两种旋转模型导出不同的解释,这两种解释不能认为是矛盾的.倒不如说是看待相同事物的两种不同方法,是在公因子空间中的两个不同点.只取决于惟一的一种你认为是正确旋转的任何结论都是不成立的.
在统计意义上所有旋转都是一样的,即不能说一些旋转比另一些旋转好.因此,在不同的旋转方法之间进行的选择必须根据非统计观点,通常选择最容易解释的旋转模型.238.3
使用FACTOR过程进行因子分析
FACTOR过程输入格式
PROCFACTORDATA=<数据集><选项>;
VAR<原始变量>;
RUN;24(1)PROC
FACTOR语句
PROC
FACTOR语句标志FACTOR过程的开始,同时还可通过设置其他语句定义数据集、指定具体分析方法和过程等.通常只需要VAR语句作为PROCFACTOR语句的附加选项.(2)VAR语句
VAR语句用来指定需要分析的数值变量.如果该句省略,那么在其他语句中未做特殊规定的所有数值变量都将被分析.2526
实例分析
【例1】2004年31个省市自治区经济发展基本情况的八项指
标,原始数据如表1所示.
表1
31个省市自治区经济发展基本情况假定上述数据存放在数据集s1中,试对经济发展基本情况的八项指标作因子分析.27(1)主成分解PROCFACTORDATA=s1;
Varx1–x8;
TITLE'8个经济指标的分析';
TITLE2'主成分解';
RUN;
结果给出8个变量的简单统计量,相关阵(略),相关阵的特征值、累计贡献(如图所示).28
前两个主成分解释了84.60%的方差,按照缺省的选择因子个数的准则,取大于1的特征值,所以取两个因子.
它们是用公因子表示原始变量的回归系数.第一公因子在所有8个变量上都有正的载荷,可见这个因子反应了经济发展规模的影响,但载荷有大有小.第二公因子在居民消费价格指数和零售商品价格指数上有大的正载荷,反映了价格指标的影响.
因子模型(factorpattern,或称因子载荷阵)为最重要的结果之一,如图所示.29结果还给出了公因子解释能力的估计(图1):
图1各变量的共同度
VarianceExplainedbyEachFacor给出了公因子对原始变量的解释能力(方差贡献)的量度,FinalCommunalityEstimates:Total是两个公因子对原始变量的解释能力的总和.
最后一行给出每个原始变量的共同度,由于变量x5被两个因子解释的信息不够多,于是考虑选取3个公因子.30(2)选择公因子在FACTOR语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度养老地产项目承包经营开发合同3篇
- 2024版建筑行业物联网应用服务合同
- 二零二五年度建筑工程通风排烟系统安装合作协议2篇
- 2024年电子商务平台关键技术研发合同
- 2024毛纱原料进出口贸易长期战略合作合同3篇
- 2024年电商企业项目管理合同3篇
- 2024影视制作公司与影视发行公司的发行合同
- 2025年度物业管理招投标合同范本及物业管理法律法规3篇
- 二零二五年度小微企业设备租赁抵押贷款担保合同3篇
- 2025年西藏货运从业资格证考试模拟考试题库及答案大全
- 喷涂主管年后业务规划暨工作计划
- 《迎接期末考试动员会》PPT班会课件
- 基于STM32的智能温控风扇设计
- 交易所商业计划书
- 2024年华电江苏能源有限公司招聘笔试参考题库含答案解析
- 远程银行行业背景分析
- 如何提高孩子的注意力和专注力
- 认识海洋生物
- 2022-2023学年海南省海口市重点中学八年级(上)期末物理试卷(含解析)
- 2023年金属技术监督上岗员真题模拟汇编(共1064题)
- 胆石症教案完
评论
0/150
提交评论