




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章 多元统计分析2 因子分析因子分析(factor analysis)始于20世纪初的心理学研究,很快被应用于社会学、经济学、人类学、地质学、医学等领域。“计量运动”时期被引入地理学。计算机技术的发展为实现因子分析的复杂计算提供了技术支持。目前在许多科学领域都有应用报道。因子分析的基本目的在于:用少数几个随机变量刻画较多变量之间的协方差关系。这少数的随机变量是不可观测的,人们称之为“因子(factor)”。基本思路是:根据相关性大小将变量分组,使得组内的变量之间具有较高的相关性,不同组内的变量之间相关性较低。每一组变量组成一个“因子”,代表一种结构, 实则原始变量的线性组合,反映已经观测到
2、的相关性。因子分析有两类:一是R型因子分析,用于刻画变量之间的相关性;二是Q型因子分析,用于刻画样本之间的相似性。1 数学模型(R型)下面以R型因子分析为例,说明因子分析的基本原理。至于Q型因子分析,数学原理与R型因子分析一样,计算时只需将原始变量转置,剩余的处理过程与R型因子分析没有分别。 相关矩阵假定n个样本、m个变量的标准化数据矩阵(为了书写方便,对标准化数据不加上角标), (2-1)式中xij代表第i个样本在第j个变量上的观测值(,),等式右端的列向量代表第j个变量在n个样本上的观测值,可视为n维欧式空间中的一个点或向量。变量之间的相关系数或协方差可以表为, (2-2)表为内积形式便是
3、. (2-3)m个变量两两之间的相关系数组成一个m维对称方阵. (2-4)考虑两个变量,我们有,容易验证:. (2-5)矩阵特征值非负,此即所谓半正定矩阵;如果m个变量线性无关,则R正定,特征值全正。对于标准化数据,可以通过相关系数研究协方差矩阵的结构。 因子模型及其基本定理假定公因子之间、单因子之间以及公因子与单因子之间都是互不相关的(即正交的),将原来m个变量表示成若干个因子(新变量)的线性组合形式, (), (2-6)式中、和、理论上是待求的新变量,即因子。上式的各个变量和参数解释如下: 为了求解因子模型,需要建立对角矩阵, (2-7)为了说明方便,只考虑两个变量、两个因子的情况,因子模
4、型可以展开为, (2-8)令,.式中F被称为因子计量(measurement of factors),其要素数值实则因子得分。于是因子模型可以表为矩阵形式, (2-9)显然,.同理.于是. (2-10)令为约相关矩阵,则上式化为, (2-11)这是因子分析的基本定理,式中. (2-12)显然,R*与R只是对角线上的元素不同,其余元素相同。 因子模型各个变量或参数的统计意义 因子载荷与因子载荷矩阵用二维的情况进行说明。假定数据都已标准化,公因子与原始变量的相关矩阵. (2-13)可见因子载荷矩阵其实就是因子与变量的相关系数矩阵,因子载荷可以表作. (2-14)式中,。对于二变量的情况,列为表格即
5、为表3-2-1 公因子方差与方差贡献 变量因子x1x2方差贡献()f1a11a12s12=a112+a122f2a21a22s12=a212+a222公因子方差()h12=a112+a212h22=a122+a222 公因子方差(communality)我们称,() (2-15)为第j个变量xj的公因子方差。对于二变量的情形,显然, . (2-16)第j个变量的方差为, (2-17)从而. (2-18)显然。可以看出: 变量xj的方差由两部分构成:一是公因子方差hj2,它是全部因子对变量xj的总方差所提供的贡献;二是单因子对变量所提供的方差贡献,仅与xj自身的变化有关。 公因子方差hj2是p个
6、公因子对变量xj解释程度的一个参数,hj2越大,说明用这p个因子解释该变量的能力越强,这个变量与其余变量的相关性也就越强。毕竟变量之间的关系体现在变量与公因子的关系中。 方差贡献我们称, (), (2-19)为方差贡献。对于二变量,我们有, . (2-20)显然。对于任意变量,则有. (2-21)方差贡献表示第k个因子在公因子方差中所占的份额,据此判断该因子的重要程度。在地理学研究中,一个因子所代表的地理因素在问题中的作用大小有时可以通过方差贡献反映出来。 相关系数根据因子分析基本定理可知,变量xi与xj的相关系数为, (,且). (2-22)以二变量为例予以说明。考虑到式(2-10),我们有
7、. (2-23)显然, (2-24). (2-25)可见原始A阵包含了原始变量的全部相关信息。 因子模型解及其非唯一性根据因子分析的基本定理,求解因子模型,关键是计算公因子方差hj2,然后借助可知单因子载荷uj,而相关矩阵R是已知的,从而可得约相关矩阵R*,有了约相关矩阵,通过可以算出因子载荷矩阵。问题在于,求公因子方差是极其困难的。因此有人考虑用相关矩阵代替约相关矩阵,即暂时不考虑单因子,从而可以利用主成分分析方法求方程, (2-26)的近似解,用以代替的精确解。但是,方程和的解都不是唯一的:如果A是方程的一个解,则对于任意p阶正交矩阵P,PA也是方程的解,因为. (2-27)这种性质为我们
8、根据实际需要挑选因子解提供了条件。用主成分分析求解主因子,因子模型化为. (2-28)或者. (2-29)式中为因子计量系数。将上式写作代数形式便是. (2-30)从形式上看,C好像是A的逆矩阵,但因省略的缘故,其含义已发生了变化。2 主因子解 准则借助主成分得到的解叫做主因子解,主因子解是求其它因子解的基础,故又称初始因子解。求解准则如下:从相关矩阵R出发,在所有可能的因子中先求f1和诸变量xj在该因子上的载荷,使得方差贡献 (2-31)为最大;然后,从R中消除f1的影响,得剩余相关矩阵,从出发在所有可能的因子中求出f2及诸变量在它上面的载荷,使得方差贡献 (2-32)为最大。依此类推,直到
9、选取足够的因子为止。 解法根据因子计量、原始变量及因子载荷之间的关系可知, (2-33)表为向量形式,可得. (2-34)为简明起见,以二变量为例说明。将上式表作二变量形式便是, (2-35)展开可得. (2-36)在等式两端取第k行,得到, (2-37)等价地. (2-38)式中k=1,2, p。按照前述准则,给定一个n维标准化的变量f作为因子,它必然满足. (2-39)各个原始变量在它上面的载荷为. (2-40)方差贡献. (2-41)于是求主因子f1就化为求如下二次型的条件极值问题. (2-42)构造Lagrange函数, (2-43)显然极值条件. (2-44)对于f1,便是. (2-
10、45)可见,f1是矩阵的最大特征根所对应的标准化特征向量。在上式两端同乘以化为. (2-46)可见二次型的极值即方差贡献等于特征根1。在式(2-45)两端同时左乘XT/n得到, (2-47)即. (2-48)考虑到式(2-4)及式(2-40)上式容易化为. (2-49)仿式(2-42),为求第二主因子,我们构造如下二次型极值问题. (2-50)建立Lagrange函数. (2-51)求偏导得到, (2-52). (2-53)由式(2-53)可知,代入式(2-52)得到. (2-54)类似前面的变换方法,可以得到如下关系, . (2-55)按照这种方法逐步进行,可以推出第k个公因子fk和它相应的
11、因子载荷ak满足方程, (2-56). (2-57)式中,是矩阵第k个较大的特征根。在计算过程中,由于矩阵为n阶,远大于的阶数m,故一般用方程计算ak,然后由计算因子计量. (2-58). (2-59)或. (2-60)式中是由R的p个较大特征根构成的对角阵. (2-61)于是因子计量矩阵可以表作. (2-62)根据因子解的非唯一性,利用正交矩阵T对A实施变换,变换结果TA=B必然也是因子解,代入上式可得. (2-63) 几何解释如果设是相关矩阵R的最大特征根,是相应的单位特征向量,则有, . (2-64)构造二次型如下. (2-65)由二次型的极值性质可以知道. (2-66)当时,。由于,二
12、次型可以表作. (2-67)这里Z便是前述主成分,即, (2-68)且有 . (2-69)令,则Z可以写作. (2-70)这意味着主成分Z是m个原始变量的线性组合,二次型便是它的方差,当时,得到方差最大的组合,方差为。第一因子的载荷为是与单位特征向量是相同方向的向量,由于 及,故有. (2-71)可见因子计量正是标准化的主成分得分,且二者是相同方向的向量,因子计量的方差必然为1。借助这种分析方法可以将其推广到R阵的第j大特征根及其对应的特征向量。将原始数据矩阵按行分块,改为. (2-72)式中是X阵的第i个行向量,表示第i个样本在变量空间中的位置,是m维欧式空间中的一个点或向量。因此z1可以表
13、作. (2-73)这表示向量zj表示各个样品点在方向的投影。其二次型. (2-74)表示第j个样本点在方向的投影的方差,或在这个特征向量方向上的离散程度。参考前面主成分的几何分析,不难理解主因子解的几何意义:n个样本点在m维变量空间中一般呈椭球形分布,向量表示n个样本点离散程度第j大方向,离散程度可用来度量。载荷与特征向量方向相同(即平行),代表m维椭球的第j长半轴所在的方向。不难想见,主因子载荷分别代表样本点椭球的m个轴的方向,方差贡献便是第j个因子轴的半轴长度的平方,即有. (2-75)3 正交因子解 因子轴旋转的几何意义一般来说,主因子解不是最终解,由于因子解的非唯一性,我们可以在主因子
14、解的基础上寻求意义更为明确的因子解。前面我们讲到主成分的几何意义:在变量空间中将原始变量坐标轴旋转一定的角度,并借助Givens变换即正交旋转变换将样本点坐标在新的坐标系中重新表出。主因子解其实就是主成分解,但我们现在不是在变量空间中讨论变量,而是在样本空间中讨论变量。在样本空间中,求出主因子解后给出p3时,旋转过程非常复杂。 方差极大正交旋转因子坐标系正交旋转的主要目的是寻求适当正交变换矩阵,使得. (2-78)中的B阵的结构尽可能地简单:每列仅有少数几个元素的绝对值接近于1,大部分元素接近于0,也就是是要求B中的每列(行)元素按绝对值大小有尽可能大的方差,从而因子仅与少量变量的关系密切。所
15、谓方差极大准则(Varimax)就是:为了运算方便,要求B阵的每行元素的平方有尽可能大的方差。 四次幂极大正交旋转主要是清理因子载荷矩阵的行。此外还可以清理载荷矩阵的列,这涉及到因子载荷的4次幂,故称四次幂极大准则(Quartimax)。4 斜交因子解 两种斜交因子解有时候由于数据自身的原因,正交因子旋转不可能达到前述目的,即正交因子解不能满足需要。于是需要进行斜交因子旋转。斜交因子旋转分为两类,即斜主因子解(即斜交主因子解)和斜参因子解(即利用斜交因子参考轴求得的解)。斜主因子解:因子轴和分别穿过数据组团的重心位置,但不满足。斜参因子解:找到斜主因子解后,就可以建立斜参因子轴即斜交因子参考轴
16、:令,样本在斜参因子轴和上的投影可以给出斜参因子解。这两种因子解都可以通过某一组正交因子解的斜交变换得到。斜交因子解的原则是尽可能地使得变量落在主轴附近,或者使得变量在参考轴上的投影为0。图3-2-2 因子轴斜交旋转示意图 四次幂极小法可以在一组方差极大正交解的基础上进行斜交旋转。通常按照四次幂极小准则(Quarimin)进行斜交旋转,这样可以简化因子结构,求出一组斜参因子解。5 几点说明通过主成分得到的主因子解是因子分析的基础,概念比较笼统,如果仅仅满足于变量的约简和正交,到这一步已经够了,但如果还想开展某些系统分析,则需要进一步的求解;正交因子解可以进一步给出清晰的因子变量关系和因子结构,
17、如果此时的分析结论比较符合实际,则不必寻求斜交解;斜交因子解可以给出比较符合实际情况的因子解的结构,据此可以得到更为符合实际结论。如果正交因子解与斜交因子解的结论基本一致,就没有必要给出斜交解。6 实例分析某层控铅锌矿品位高、规模大,矿体赋存于奥陶系灰岩的古喀斯特裂隙溶洞中。考察发现,矿区含银,且局部达到工业品味。为了对该层控铅锌矿开展综合评价,在矿体的不同部位采取了4块样本分别化验Pb、Zn、Ag的含量,然后以Pb、Zn、Ag为变量进行因子分析。显然在我们的问题中,n=4,m=3。标准化的数据见下表:表3-2-2 标准化的数据表铅(Pb)锌(Zn)银(Ag)样本一(S1)-1.26-0.96
18、-0.78样本二(S2)-0.64-0.96-1.14样本三(S3)0.640.581.32样本四(S4)1.261.340.62资料来源:矫希国,孙凤兴,等编. 多元统计分析方法.下面逐步进行分析: 主因子解(主成分)表为矩阵形式便是,由此得相关系数矩阵.由此得特征多项式,解得,.图3-2-3 特征根递减折线图根据特征根求出对应的特征向量,进而得因子载荷和公因子方差: 于是得公因子方差和方差贡献表表3-2-3 因子载荷、公因子方差及方差贡献PbZnAg方差贡献因子10.9740.9830.9302.780因子2-0.204-0.1460.3680.198公因子方差0.9900.9881.00
19、02.978图3-2-4 因子载荷图 顺便说明成分得分系数矩阵,它是载荷矩阵各列除以对应的特征根得到的结果,例如,.至于成分得分协方差矩阵乃是因子得分的相关系数。因子得分表格如下:表3-2-4 因子得分因子1因子2样本1-0.904200.48228样本2-0.81983-0.64765样本30.752131.16303样本40.97191-0.99766从载荷表中可以看出,第一因子的方差贡献为2.778,占92.6%,但各个变量在它上面的载荷都很大;在从成分分布图上,Ag距离第一因子较远。总之是看不出变量之间的亲疏关系。因此需要作正交旋转。 正交旋转采用方差极大正交旋转(Varimax)方法
20、,用原因子载荷矩阵乘以变换矩阵T,即得旋转后的因子载荷矩阵:.这里.于是. 至于成分得分系数矩阵,计算方法为,即. 表3-2-5 因子载荷、公因子方差及方差贡献(旋转后)PbZnAg方差贡献因子10.8810.8520.4851.737因子20.4610.5120.8751.240公因子方差0.9890.9871.0002.976对比图3-2-4与图3-2-5可以看出,相对于正交因子轴,斜交因子轴顺时针旋转了3930,使得第一因子轴与变量Pb、Zn靠近,第二因子轴与变量Ag接近,从而变量与因子的亲疏关系更为清晰、明确。图3-2-5 正交旋转后的因子载荷图表3-2-6 正交旋转后的因子得分因子1
21、因子2样本1-1.00467-0.20205样本2-0.22161-1.02101样本3-0.158121.37598样本41.38439-0.15292地质过程Pb-Zn过程Ag过程 斜交因子解 如果进行因子旋转,则可以借助斜交因子参考轴得到斜交因子解,常用的解法是Oblimin,结果如下: 在主因解和正交解中,因子载荷即变量与因子的相关系数;在斜交解中,因子载荷不再等于变量与因子的相关系数,我们可以得到两组参量:一是因子图式(Factor pattern)矩阵:相当于因子载荷,但绝对值不限于01之间,因为它不再是变量与因子的夹角余弦。二是因子结构(Factor structure)矩阵,是因子与变量的相关系数。图3-2-6 斜交旋转后的因子载荷图表3-2-7 斜交旋转后的因子得分因子
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 装修合同清洁要求详解
- 旅游经济学试题含参考答案
- 植物学习题含答案
- 建筑工程劳务分包合同协议
- 营销管理岗职业规划
- 电子支付业务合作合同
- 蔬菜供应标准合同书
- 离婚子女抚养合同范本
- 房地产买卖合同法律问题分析与研究
- 机织运动服装的人体工学优化设计考核试卷
- GB/T 30725-2014固体生物质燃料灰成分测定方法
- GB/T 27703-2011信息与文献图书馆和档案馆的文献保存要求
- GB/T 11379-2008金属覆盖层工程用铬电镀层
- 颈椎病诊治指南
- 思想道德与法治2021版第六章第一节
- (新版)旅游接待业理论考试题库(含各题型)
- 《食品感官分析技术》最全完整版课件全套教学教程
- 三年级下册数学课件-4.1 整体与部分 ▏沪教版 (共21张ppt)
- 【课件】抒情与写意-文人画 课件高中美术人美版(2019)美术鉴赏
- 14.1兽药陈列环境温湿度记录表
- 辽宁省地方标准编制说明
评论
0/150
提交评论