第8讲因子分析法预测ppt课件_第1页
第8讲因子分析法预测ppt课件_第2页
第8讲因子分析法预测ppt课件_第3页
第8讲因子分析法预测ppt课件_第4页
第8讲因子分析法预测ppt课件_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、LOGOLOGOYOUR SITE HERE因子分析与地质成因解释因子分析与地质成因解释(Factor Analysis)第十三讲第十三讲YOUR SITE HERE第一节第一节 引言引言第二节第二节 主成分分析主成分分析第三节第三节 因子分析因子分析第四节第四节 对应分析对应分析主要内容主要内容YOUR SITE HERE第一节第一节 引言引言YOUR SITE HERE回归分析因果因子分析由因索果由因索果执果析因执果析因12( |,.,)pyE y x xx12( ,.,)pyf x xxy = X+YOUR SITE HERE方阵的特征值和特征向量方阵的特征值和特征向量对于对于n阶方阵阶

2、方阵AA x = l x特征值特征值实数实数(也可以是复数)(也可以是复数)特征向量特征向量n维非零向量维非零向量可以用从一点指可以用从一点指向另一点的箭头向另一点的箭头来表示来表示 缩放因子缩放因子矩阵乘法对应矩阵乘法对应了一个变换,了一个变换,把一个向量变把一个向量变成同维数的另成同维数的另一个向量一个向量 YOUR SITE HERE一个变换的特征向量是这样一种向量,一个变换的特征向量是这样一种向量,它经过这种特定的变换后保持方向不变它经过这种特定的变换后保持方向不变,只是进行长度上的伸缩而已,只是进行长度上的伸缩而已 。特征向量所指示的方向是更本质的东西,特征值特征向量所指示的方向是更

3、本质的东西,特征值只不过反映了特征向量在变换时的伸缩倍数。只不过反映了特征向量在变换时的伸缩倍数。特征方程特征方程|A-lI|=0 的解为特征值的解为特征值l; 满足满足 (A-liI)xi=0 的向量的向量xi为为li的特征的特征量。量。YOUR SITE HEREn阶方阵阶方阵A有且恰有有且恰有n个特征个特征值;值;AT与与A有相同的特征值;有相同的特征值;n阶方阵阶方阵A=(aij)nxn的迹等的迹等于其特征值之和;于其特征值之和;实对称矩阵实对称矩阵A的特征值都是的特征值都是实数;实数;实对称矩阵实对称矩阵A的不同特征值的不同特征值所对应的特征向量都正交。所对应的特征向量都正交。因而,

4、其特征值可以排序:因而,其特征值可以排序:l1l1 l2 l2 lp lp因而,存在正交矩阵因而,存在正交矩阵P P,使,使得得P-1AP P-1AP ( (以以A A的的n n个特个特征值为对角元素的对角阵征值为对角元素的对角阵) )11( )nniiiiitralAYOUR SITE HERE地质成因是地质学研究的根本问题之一。地质成因是地质学研究的根本问题之一。理性认识理性认识感性认识感性认识内在本质内在本质外在表象外在表象从定量角度对各地质变量进行成因分析,所建立的从定量角度对各地质变量进行成因分析,所建立的数学模型一般有数学模型一般有主成分分析又称主分量分析)主成分分析又称主分量分析

5、)因子分析因子分析R型、型、Q型)型)对应分析对应分析YOUR SITE HERE在如此多的地质变量之中,有很多是相关的。在如此多的地质变量之中,有很多是相关的。人们希望能够找出它们的少数人们希望能够找出它们的少数“代表来对它代表来对它们进行描述。们进行描述。需要把这种有很多变量的数据进行高度概括。需要把这种有很多变量的数据进行高度概括。一般情形下,每个变量都会提供一定的信息,一般情形下,每个变量都会提供一定的信息,但其重要程度与侧重有所不同,且这些变量所但其重要程度与侧重有所不同,且这些变量所提供的信息在一定程度上有所重叠。提供的信息在一定程度上有所重叠。把所有指标和数字都原封不动地摆出去吗

6、?把所有指标和数字都原封不动地摆出去吗? YOUR SITE HERE利用相关性来对所涉及的变量加以利用相关性来对所涉及的变量加以“改造和改造和“组合组合”。用为数较少的、互不相关或基本用为数较少的、互不相关或基本不相关的新变量来不相关的新变量来“代表原来代表原来多个变量所提供的信息。多个变量所提供的信息。通过对新变量的分析达到合理分析通过对新变量的分析达到合理分析和数据解释的目的。和数据解释的目的。相关相关互不相关互不相关YOUR SITE HERE潜在的、可导出的潜在的、可导出的(latent、 derived)少量少量不相关不相关取主舍次取主舍次识别、分别识别、分别隐性的隐性的基因的基因

7、的可观测的可观测的(observed)大量大量相关相关主次杂乱主次杂乱混合、叠加混合、叠加显性的显性的多样化的多样化的地质资料观测变量地质资料观测变量因子因子两类变量的不同特性两类变量的不同特性执果执果析因析因YOUR SITE HERE最早提出:最早提出:J. Person(皮尔逊皮尔逊),主成分分析,主成分分析,1901、S. Spearman(斯卑尔曼斯卑尔曼),真因子分析,真因子分析,1904年,用于心年,用于心理学研究;理学研究;Benzeci(贝尔凯斯贝尔凯斯),对应分析,对应分析,1970。因子分析最早引入地质领域:因子分析最早引入地质领域:W.C. Krumbren克伦克伦宾)

8、,宾),1957年,研究沉积学。年,研究沉积学。应用发展的重要地质人物:应用发展的重要地质人物:J.Imbrie(英布里英布里)发展简史发展简史已成为地质学等领域中传播最快、应用最广的已成为地质学等领域中传播最快、应用最广的多元统计方法之一多元统计方法之一 。YOUR SITE HERE基本概念基本概念是一种常用的处理高维数据的多元统计分是一种常用的处理高维数据的多元统计分析方法。析方法。是一种化繁为简,将指标尽可能压缩的降是一种化繁为简,将指标尽可能压缩的降维即空间压缩技术。维即空间压缩技术。把数目较多的变量作线性组合,组合成几把数目较多的变量作线性组合,组合成几个主要的新变量个主要的新变量

9、主成分,少数几个主主成分,少数几个主成分代表了原有变量变化的主要信息。成分代表了原有变量变化的主要信息。又称主分量分析。又称主分量分析。主成分分析主成分分析(Principal Component Analysis)作用:降维作用:降维YOUR SITE HERE信息的大小如何度量?信息的大小如何度量?从统计分析角度看,一个指标看作随机从统计分析角度看,一个指标看作随机变量或一串数据所包含的信息,可以用变量或一串数据所包含的信息,可以用差异的大小差异的大小方差来度量。方差来度量。方差越大,所包含的信息量就越大;方差越大,所包含的信息量就越大;方差越小,所包含的信息量就越小。方差越小,所包含的信

10、息量就越小。()22111niisxxn-数学物理化学总分甲807060210乙707060200丙607060200YOUR SITE HEREx1x2y2y1YOUR SITE HERE是一种常用的处理高维数据的多元统计分析方法。是一种常用的处理高维数据的多元统计分析方法。是一种探索不易观测或不能观测的潜在因素,用有限是一种探索不易观测或不能观测的潜在因素,用有限个隐变量来解释原始变量之间相关关系的技术。个隐变量来解释原始变量之间相关关系的技术。是通过对地质观测数据的分析来建立一个成因系统。是通过对地质观测数据的分析来建立一个成因系统。它能把原来具有一定程度相关联系的地质变量转换为它能把原

11、来具有一定程度相关联系的地质变量转换为数量较少的由原始地质变量组合而成的新变量数量较少的由原始地质变量组合而成的新变量因因子,用它们来代替原始变量,各因子之间基本上是不子,用它们来代替原始变量,各因子之间基本上是不相关的基本独立)。相关的基本独立)。又称析因分析。又称析因分析。因子分析因子分析(Factor Analysis)基本概念基本概念YOUR SITE HERE相关性度量:变量间的方差相关性度量:变量间的方差-协方差、相关系数协方差、相关系数相关性度量:夹角余弦和各种距离系数相关性度量:夹角余弦和各种距离系数R型因子分析型因子分析R型因子分析是主成分分析的发展型因子分析是主成分分析的发

12、展Q型因子分析型因子分析研究变量之间的成因分类研究变量之间的成因分类研究样品之间的成因分类研究样品之间的成因分类因子分析分类因子分析分类YOUR SITE HERECIMFEABDKLGJN形状因子1 因子2 因子3 2 +0 +0CHH 2 +1 +1YOUR SITE HERE沉积盆地与剥蚀区示意图沉积盆地与剥蚀区示意图F1F2F3xj = f(F1,F2,F3, )YOUR SITE HEREMgCO3SiO2CaCO3COMgCaSi碳酸盐演示分类三角图解YOUR SITE HERER2R1R14Si-11(Na+K)-2(Fe+Ti)R2 (Al+2Mg+6Ca)侵入岩分类R1-R2

13、图解 (De la Roche等, 1980)YOUR SITE HERE因子分析典型应用问题因子分析典型应用问题沉积盆地蚀源区的研究沉积盆地蚀源区的研究沉积物粒度分析沉积物粒度分析沉积相研究沉积相研究地层分析地层分析古生物与古环境的研究古生物与古环境的研究岩石化学成分的研究岩石化学成分的研究变质岩原岩恢复变质岩原岩恢复矿床成因研究矿床成因研究矿物的类质同象研究矿物的类质同象研究地球化学地球化学等等识别矿化活动的阶段和类型识别矿化活动的阶段和类型分析成矿控制因素分析成矿控制因素识别地层剖面上发生的气候、水体识别地层剖面上发生的气候、水体深度、物质来源,水动力学条件等深度、物质来源,水动力学条件

14、等沉积环境因素的细微变化。沉积环境因素的细微变化。识别在同一时间点上不同空间过程识别在同一时间点上不同空间过程的叠加过程;识别蚀源区的个数、的叠加过程;识别蚀源区的个数、岩石类型、分布岩石类型、分布识别岩浆岩的形成过程,诸如岩浆识别岩浆岩的形成过程,诸如岩浆的异源叠加,或同源多期侵入,分的异源叠加,或同源多期侵入,分异作用,交代作用,同化作用,交异作用,交代作用,同化作用,交代识别作用,矿化活动等;岩浆岩代识别作用,矿化活动等;岩浆岩的分类的分类识别在同一空间点上不同时间识别在同一空间点上不同时间过程的叠加过程过程的叠加过程YOUR SITE HERE作用:作用:用最精炼的形式描述地质对象压缩

15、原始用最精炼的形式描述地质对象压缩原始数据,降维技术)数据,降维技术)指示成因推理方向探索潜在因素、进行指示成因推理方向探索潜在因素、进行成因分类、思考成因结论)成因分类、思考成因结论)分解叠加的地质过程例如:得到矿物共分解叠加的地质过程例如:得到矿物共生组合变量生组合变量划分不同成矿阶段划分不同成矿阶段不同地质不同地质过程分解、时空分解)过程分解、时空分解)等等YOUR SITE HERE是在是在R型因子分析和型因子分析和Q型因子分析的基础上发型因子分析的基础上发展起来的,能够揭示变量与样品之间双重关系展起来的,能够揭示变量与样品之间双重关系的一种多元统计方法。的一种多元统计方法。又称又称R

16、-Q型因子分析。型因子分析。对应分析对应分析(Correspondence Analysis)基本概念基本概念因子分析是研究系统分类、成因分类因子分析是研究系统分类、成因分类的重要手段,在地质研究中的作用:的重要手段,在地质研究中的作用:第一、压缩原始数据。第一、压缩原始数据。第二、指示成因推理方向。第二、指示成因推理方向。第三、分解叠加的地质过程。第三、分解叠加的地质过程。因子分析是研究变量间相关关系、样品间相似关因子分析是研究变量间相关关系、样品间相似关系、变量与样品间成因联系以及探索它们之间系、变量与样品间成因联系以及探索它们之间产生上述关系之内在原因的一些多元统计分析产生上述关系之内在

17、原因的一些多元统计分析方法的总称方法的总称. .根据它们的的研究对象可分为:根据它们的的研究对象可分为:(1 1)、主成分分析;)、主成分分析;(2 2)、)、R R型因子分析;型因子分析;(3 3)、)、Q Q型因子分析;型因子分析;(4 4)、对应分析;)、对应分析;因子分析在地质研究中的应用:因子分析在地质研究中的应用:YOUR SITE HERE第二节第二节 主成分分析主成分分析2 2 主成分分析主成分分析地质中经常要作多变量的综合分析,这些变量经地质中经常要作多变量的综合分析,这些变量经常是不独立的,存在复杂的相关关系。为了化繁常是不独立的,存在复杂的相关关系。为了化繁为简,用一种数

18、学方法把数目较多的变量作线性为简,用一种数学方法把数目较多的变量作线性组合,组合成几个主要的新变量组合,组合成几个主要的新变量主成分。主成分。YOUR SITE HERE一、主成分分析的基本思想一、主成分分析的基本思想构造关于原始变量的适当的线性组合,形成几构造关于原始变量的适当的线性组合,形成几个新变量即所谓的主成分),它们是我们用个新变量即所谓的主成分),它们是我们用来代替原始变量进行资料解释的综合性指标。来代替原始变量进行资料解释的综合性指标。这一分析过程应使得这一分析过程应使得每个新变量都是各原始变量的线性组合每个新变量都是各原始变量的线性组合新变量的数目大大少于原始变量的数据新变量的

19、数目大大少于原始变量的数据新变量保留了原始变量所包含的绝大部分信息新变量保留了原始变量所包含的绝大部分信息新变量之间互不相关,即各自含义的信息不重叠。新变量之间互不相关,即各自含义的信息不重叠。主成分的几何意义主成分的几何意义: :(1 1N N个点的新坐标个点的新坐标F1F1和和F2F2的的相关很小,几乎为零。相关很小,几乎为零。(2 2在新坐标系中在新坐标系中N N个点的波个点的波动方差大部分归结为动方差大部分归结为F1F1的的波动,波动,F2F2的波动很小,故用的波动很小,故用F1F1就可以反映变化的大部分信息。就可以反映变化的大部分信息。(3 3由于是正交坐标系,坐标由于是正交坐标系,

20、坐标F1F1,F2F2与与x1x1,x2x2间的间的关系可用下式表示关系可用下式表示: :x1x2F1F2-2121221221112111222121212212111211cossinsincoscossinsincosxxAxxaaaaxxFFxaxaxxFxaxaxxF0) 2 , 1(1221221112221aaaakaakkA是正交矩阵,满足计算步骤计算步骤: :(1 1作数据标准化。作数据标准化。(2 2计算变量之间的相关系数矩阵计算变量之间的相关系数矩阵(3 3用用JacobiJacobi法计算相关系数矩阵法计算相关系数矩阵R R的特的特征值征值jj及对应的特征向量及对应的特

21、征向量uj(j=1,2,p)uj(j=1,2,p)即可得主成分即可得主成分FjFj,其表达式为,其表达式为: :ppjjjxuxuxuFj 2211(4 4计算前计算前m m个特征值所占的累计百分比:个特征值所占的累计百分比:(5 5计算各个样品在计算各个样品在m m个主成分上的得分,个主成分上的得分,第第i i个样品的第个样品的第j j个主成分为个主成分为: :), 2 , 1(%10011pmpiimjj ll), 2 , 1;, 2 , 1(2211mjNixuxuxuFpipjijijij (6 6利用前利用前m m个主成分作地质解释或利用样品在主成分个主成分作地质解释或利用样品在主成

22、分上的得分对样品进行分类。上的得分对样品进行分类。YOUR SITE HERE二、主成分分析的数学提法二、主成分分析的数学提法111212122212.ppnnnpxxxxxxXxxx观测资料矩阵观测资料矩阵x1x2 xpCaseVar.12n确定应该构造多少个综合指标主成分),并确定应该构造多少个综合指标主成分),并如何构造出各主成分的表达式用如何构造出各主成分的表达式用x1,x2,xp表示)表示)YOUR SITE HEREx1x2y2y111111212221222cossinsincosyxllxyxllx-方差越大,所包含方差越大,所包含的信息量就越大的信息量就越大11( )()pp

23、iiiiVar xVar y主成分分析主成分分析YOUR SITE HERE我们希望用我们希望用y1来代替原来来代替原来p个变量个变量x1,x2,xp,这就要求在向量这就要求在向量l1的正则化条件下,的正则化条件下,y1的方差尽的方差尽可能大,由此确定的随机变量可能大,由此确定的随机变量y1称为第一主成分称为第一主成分。如果第一主成分还不足以反映原来如果第一主成分还不足以反映原来p个变量的信个变量的信息,那么考虑第二主成分。为了有效反映原变量息,那么考虑第二主成分。为了有效反映原变量的信息,新变量的信息,新变量y1和和y2所包含的信息不应重叠,所包含的信息不应重叠,即要求即要求y1和和y2不相

24、关。前述两个约束条件下求不相关。前述两个约束条件下求l2使使Var(y2)达到最大,从而得到第二主成分。达到最大,从而得到第二主成分。YOUR SITE HERE以此类推,我们最多可以找出以此类推,我们最多可以找出p个个yi出来。出来。然而我们最多只选择然而我们最多只选择k个个yi (i=1,2,k, k0。 YOUR SITE HERE1111 112212221 122221 122 . . . . pppppppppppyl xl xl xl xyl xl xlxl xyl xlxl xl x 对对p个指标,经过适当线性组个指标,经过适当线性组合,合,p个新变量为个新变量为这里这里y1,

25、y2,yp分别称为第一主成分、第二主成分、第分别称为第一主成分、第二主成分、第p主成分。主成分。lij 称为第称为第 i 个主成分个主成分 yi 在第在第 j 个原始变量个原始变量 xj 上的载上的载荷主成分载荷),是第荷主成分载荷),是第i个特征向量的第个特征向量的第j个分量个分量 。12,., iiiipllll()12.pxxxxYOUR SITE HERE111()( )iVar yVar l xllS (,)( ,)ijijijCov y yCov l x l xllS ()()x11()1nijp pkiikjjksxxxxn-S其中,其中,样本协方差矩阵样本协方差矩阵xx( )i

26、jijp piijjp psrssR样本相关矩阵样本相关矩阵对标准化数据矩阵:对标准化数据矩阵:新变量随机变量新变量随机变量yi的方差与协方差的方差与协方差11X Xn-RYOUR SITE HERE1iil l 一般地,在约束条件一般地,在约束条件(向量(向量l的正则化)的正则化)(,)0,1,2,.,1ikikCov y yllki-S( yi和和yk所包含的信息不应重叠,即所包含的信息不应重叠,即yi和和yk不相关)不相关)之下求向量之下求向量li ,使使Var(yi)达到达到最大,由此向最大,由此向量量li所确定的所确定的1212,.,.iiiiippxxyl xlllx ()称为称为

27、x1,x2,xp的第的第i个主成分。个主成分。YOUR SITE HERE三、主成分的性质三、主成分的性质 Y=LX, LL=I。这里,这里,L为为X的协差阵的的协差阵的特征向量单位化的组特征向量单位化的组成的正交阵。成的正交阵。 y 的各分量之间是互不的各分量之间是互不相关的。相关的。 y 的的 p 个分量是按方个分量是按方差大小、由大到小排列的差大小、由大到小排列的。 y 的协差阵为对角阵。的协差阵为对角阵。12( )()( ).pVarVarVarlll YL XLXL SL(,)0, iijijCov y yijl,YOUR SITE HERE11kiipiill1kpiill第第k个

28、主成分个主成分的方差贡献率的方差贡献率前前k个主成分个主成分的累积方差贡的累积方差贡献率献率(一般取一般取80%, 85%)11ppiiiiisl(,)i ijijijjjlar y xsl这里,这里,a(yi,xj)表示第表示第 i 个主成分个主成分 yi 和第和第 j 个原始变量个原始变量 xj 之间的线之间的线性相关系数,称为因子载荷。矩性相关系数,称为因子载荷。矩阵阵A=(aij)称为因子载荷矩阵称为因子载荷矩阵标准化:消除量纲和数标准化:消除量纲和数量级上的影响,量级上的影响,sii=1(kp)系统总方差不变系统总方差不变(i,j=1,2,p)1pijiiijasl2111ppiji

29、 ijiijjalslYOUR SITE HERE对原始数据进行标准化变换对原始数据进行标准化变换计算个变量间的相关系数,形成相关系数矩阵计算个变量间的相关系数,形成相关系数矩阵R。求出求出R的特征值并按大小排列及相应于的单位特征的特征值并按大小排列及相应于的单位特征向量。即可得主成分的表达式。向量。即可得主成分的表达式。 将特征值按大小降序排列,计算前将特征值按大小降序排列,计算前k个特征值之和占个特征值之和占特征值总和的百分数,一般按累积方差贡献率大于特征值总和的百分数,一般按累积方差贡献率大于85%(或(或80%)的准则,来确定)的准则,来确定k,从而建立前,从而建立前k个主个主成分:成

30、分:1122.(1,2,., )jjjpjpyl xl xl xjk四、主成分的计算步骤四、主成分的计算步骤YOUR SITE HERE计算各个样品在计算各个样品在k个主成分上的得分。第个主成分上的得分。第i个样品的第个样品的第j个主成分得分为个主成分得分为: 从而可得新指标主成分样本值从而可得新指标主成分样本值(yij)nxk以代替原样以代替原样本值本值(xij)nxp作统计分析。作统计分析。对前对前k个主成分进行地质解释并对样品进行分类。个主成分进行地质解释并对样品进行分类。1(1,2,., ;1,2,., )pijit tjtyx lin jk四、主成分的计算步骤四、主成分的计算步骤YO

31、UR SITE HERE(A) Sn, (B) As, (C) Cu, (D) Pb, (E) Zn, (E) Cd.三角符号表示三角符号表示锡矿床,粗黑锡矿床,粗黑线条表示断层线条表示断层四、应用实例四、应用实例YOUR SITE HEREYOUR SITE HERE第一主成分第一主成分YOUR SITE HERE第三节第三节 因子分析因子分析YOUR SITE HERE一、因子分析的基本思想一、因子分析的基本思想对于直接可观测的随机变量,根据其相关性大对于直接可观测的随机变量,根据其相关性大小,使得同组内的变量之间相关性较高,不同小,使得同组内的变量之间相关性较高,不同组的变量相关性较低。

32、每组变量代表一个基本组的变量相关性较低。每组变量代表一个基本结构,用一个不可观测的综合变量表示,这个结构,用一个不可观测的综合变量表示,这个基本结构称为公因子。基本结构称为公因子。于是,原始观测的随机变量于是,原始观测的随机变量X可分解为不可观测可分解为不可观测或未做观测的两个随机向量的线性组合:或未做观测的两个随机向量的线性组合:一是对整个一是对整个X有影响的公共因素有影响的公共因素公因子;公因子;二是只对各对应分量有影响的特殊因素二是只对各对应分量有影响的特殊因素特特殊因子。殊因子。YOUR SITE HEREF1F2YOUR SITE HERE建立因子载荷矩阵建立因子载荷矩阵给出各公共因

33、子的合理解释及命名给出各公共因子的合理解释及命名若有必要当难以招到合理解释的公共因子若有必要当难以招到合理解释的公共因子时,进一步作因子旋转。时,进一步作因子旋转。因子分析的基本任务是:因子分析的基本任务是:因子分析就是寻找这些公共因子的模型分析因子分析就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。量,以此考察原变量间的联系与区别。百米跑成绩百米跑成绩X1X1跳远成绩跳远成绩X2X2铅球成绩铅球成绩X3X3跳高成绩跳高成绩X4

34、X4400400米跑成绩米跑成绩X5X5百米跨栏百米跨栏X6X6铁饼成绩铁饼成绩X7X7撑杆跳远成绩撑杆跳远成绩X8X8标枪成绩标枪成绩X9X915001500米跑成绩米跑成绩X10 X10 奥运会十项全能运动项目奥运会十项全能运动项目得分数据的因子分析得分数据的因子分析 -102. 017. 002. 001. 039. 018. 008. 009. 007. 0124. 034. 018. 013. 017. 044. 021. 011. 0124. 033. 023. 039. 024. 036. 020. 0132. 017. 027. 073. 031. 028. 0134. 046

35、. 036. 052. 040. 0129. 019. 049. 063. 0138. 051. 034. 0142. 035. 0159. 01变量共同度0.6910.217-0.58-0.2060.840.7890.184-0.1930.0920.70.7020.5350.047-0.1750.80.6740.1340.1390.3960.650.620.551-0.084-0.4190.870.6870.042-0.1610.3450.620.621-0.5210.109-0.2340.720.5380.0870.4110.440.660.434-0.4390.372-0.2350.57

36、0.1470.5960.658-0.2790.891F2F3F4F1X2X3X4X5X6X7X8X9X10X 因子载荷矩阵可以看出,除第一因子在所有的变量在公共因子上有较大的正载荷,可以称为一般运动因子。其他的3个因子不太容易解释。似乎是跑和投掷的能力对比,似乎是长跑耐力和短跑速度的对比。于是考虑旋转因子,得下表 变量变量共同度共同度0.844*0.1360.156-0.1130.840.631*0.1940.515*-0.0060.70.2430.825*0.223-0.1480.810.2390.150.750*0.0760.650.797*0.0750.1020.4680.870.404

37、0.1530.635*-0.170.620.1860.814*0.147-0.0790.72-0.0360.1760.762*0.2170.66-0.0480.735*0.110.1410.570.045-0.0410.1120.934*0.891F2F3F4F1X2X3X4X5X6X7X8X9X10X 通过旋转,因子有了较为明确的含义: X1百米跑,X2跳远和X5 400米跑,需要爆发力的项目在F1有较大的载荷, F1可以称为短跑速度因子; X3铅球, X7铁饼和 X9 标枪在 F2上有较大的载荷,可以称为爆发性臂力因子; X6百米跨栏, X8撑杆跳远,X2跳远和X4跳高在F3上有较大的载荷

38、,F3爆发腿力因子; F4 长跑耐力因子设对研究对象的设对研究对象的n个样品测试了个样品测试了p个变量个变量x1, x2, , xp,可认为这,可认为这p个变量共同起个变量共同起因于因于m因子因子(即因素即因素) F1, F2, , Fm.假定这假定这m个公因子个公因子(可理解为新的变量可理解为新的变量)对对每个指标每个指标(变量变量)的影响或作用是线性的的影响或作用是线性的(我们总是讨论线性模型我们总是讨论线性模型),那么,因子分,那么,因子分析模型可以表示为:析模型可以表示为: 二、二、R型因子分析的数学提法型因子分析的数学提法YOUR SITE HERE11111221122112222

39、21122mmmmppppmmpxa Fa Fa Fxa Fa FaFxa Fa FaF称为因子模型。称为因子模型。矩阵形式矩阵形式xAFYOUR SITE HERE(1) x = (x1, x2, , xp)是可观测随机向量,均值是可观测随机向量,均值向量向量E(x)=0,协方差阵,协方差阵 Cov(X)=,且协方差,且协方差阵阵与相关矩阵相等因子分析通常要先对与相关矩阵相等因子分析通常要先对观测资料数据作标准化处理);观测资料数据作标准化处理);(2) F= (F1, F2, , Fm) (mp)是不可测的向量是不可测的向量,其均值向量,其均值向量E(F)=0,协方差矩阵,协方差矩阵 Co

40、v(F) = I,即向量的各分量是相互独立的,即向量的各分量是相互独立的; (3) = (1, 2, p)与与F相互独立相互独立Cov(F,)=0,且且E()=0, e的协方差阵的协方差阵是对角阵,即各分量是对角阵,即各分量e之间是相互独立的。之间是相互独立的。假定条件假定条件YOUR SITE HERE111212122212mmpppmaaaaaaAaaa因子载荷因子载荷第第i个变量在第个变量在第j个公因子上的载荷个公因子上的载荷 A中元素中元素aij称为称为YOUR SITE HERExxxxTTp pp pp pp pLLLLI主成分模型主成分模型特征向量约束条件特征向量约束条件从而,

41、每个原始变量亦可用各主成分从而,每个原始变量亦可用各主成分F1,F2,Fp的线的线性组合来表示性组合来表示x1xpx1pp pxLF实际上,我们不需要实际上,我们不需要p个主成分,按累积个主成分,按累积方差贡献取前方差贡献取前m个主成分。个主成分。x1xx1Tpp ppFLx从主成分分析模型到因子分析模型从主成分分析模型到因子分析模型YOUR SITE HERE这这m个主成分对应的数据矩阵就是将特征向量矩阵剖分成:个主成分对应的数据矩阵就是将特征向量矩阵剖分成:1212(1)(2),.,.,.,iiiipi mi mipp miimmlllllllll- ()=(i=1,2,p)x1xpx1x

42、x(1)App pAp mB pmBAABBFxLFLLFL FL F于是于是使得模型中使得模型中FA和和FB因子中各变量都是标准化因子中各变量都是标准化,即均值为,即均值为0,方差为,方差为1,可得,可得R型因子模型:型因子模型:mx1xmx1ppAF从主成分分析模型到因子分析模型从主成分分析模型到因子分析模型YOUR SITE HERE1111122112211222221122mmmmppppmmpxa Fa Fa Fxa Fa FaFxa Fa FaF称为因子模型。称为因子模型。矩阵形式矩阵形式x1xx1x1pp mmpxAF因子分析因子分析二、二、R型因子分析的数学提法型因子分析的数

43、学提法公因子、公共公因子、公共因子或潜因子因子或潜因子特殊因子特殊因子唯一因子唯一因子原始观测变量原始观测变量共性共性个性个性YOUR SITE HERE因子载荷因子载荷第第i个变量在第个变量在第j个个公因子上的载荷公因子上的载荷 A中元素中元素aij称为称为略去特殊因子部分,略去特殊因子部分,因子分析的简化模型因子分析的简化模型(m0)和相应的标准正交的和相应的标准正交的特征向量特征向量li;八、因子分析的步骤YOUR SITE HEREv确定公共因子数确定公共因子数m按前按前m个特征值之和占特征个特征值之和占特征值总和的百分比来确定);值总和的百分比来确定);v求出主因子载荷矩阵求出主因子

44、载荷矩阵A=aij;v计算公共因子的共性方差计算公共因子的共性方差hi2,是否接近于是否接近于1;v对载荷矩阵进行旋转,以求能更好地解释公共因对载荷矩阵进行旋转,以求能更好地解释公共因子;子;v计算因子得分;计算因子得分;v对公共因子作出专业性的解释。对公共因子作出专业性的解释。YOUR SITE HERE相关性度量:变量间的方差相关性度量:变量间的方差-协方差、相关系数协方差、相关系数相关性度量:夹角余弦和各种距离系数相关性度量:夹角余弦和各种距离系数R型因子分析型因子分析控矿地质因素分析控矿地质因素分析R型因子分析是主成分分析的发展型因子分析是主成分分析的发展Q型因子分析型因子分析圈定远景

45、区圈定远景区研究变量之间的成因分类研究变量之间的成因分类研究样品之间的成因分类研究样品之间的成因分类焦家金矿矿化元素因子分析焦家金矿矿化元素因子分析地质找矿论丛, 2019年 02期 焦家金矿位于胶东西北部,是“焦家式破碎带热液蚀变岩型金矿的命名地。它以规模巨大、矿体形态简单、矿化连续、稳定等特点明显有别于石英脉金矿。在水平上,以断面为中心向外依次出现绢英岩化带、钾化-绢英岩化-硅化带、硅化-钾化带、正常花岗岩带;在垂向上,蚀变分带不是很发育,随着深部韧性变形作用加强,蚀变的强度和规模都逐渐减小。YOUR SITE HERE第四节第四节 对应分析对应分析YOUR SITE HERE对应分析是在

46、对应分析是在R型因子分析和型因子分析和Q型因子分析型因子分析的基础上发展起来的、能够揭示变量与样的基础上发展起来的、能够揭示变量与样品之间双重关系的一种多元统计方法。品之间双重关系的一种多元统计方法。YOUR SITE HERE可提供以下信息:可提供以下信息: 变量间的关系:空间上邻近的一些变量点,变量间的关系:空间上邻近的一些变量点,表示这些变量紧密相关,即它们具有成因上的表示这些变量紧密相关,即它们具有成因上的联系,指示某一特定的地质作用;联系,指示某一特定的地质作用;样品间的关系:邻近的样品点具有相似的性样品间的关系:邻近的样品点具有相似的性质,属同一类型,是同样地质作用的产物;质,属同

47、一类型,是同样地质作用的产物;变量与样品之间的关系:同一类型的样品点变量与样品之间的关系:同一类型的样品点将为邻近的变量点所表征。也就是说,同类样将为邻近的变量点所表征。也就是说,同类样品点为其邻近变量点所指示的地质作用下的产品点为其邻近变量点所指示的地质作用下的产物。物。更重要的是,可在同一图上表示出上述三种信更重要的是,可在同一图上表示出上述三种信息,从而可同时进行分类及地质推断解释。息,从而可同时进行分类及地质推断解释。 YOUR SITE HERER型和Q型对应关系的对偶定理 YOUR SITE HEREYOUR SITE HEREG2 F2G2 F20 0.2-0.20.20.4-0

48、.2-0.412345678111012913123456789图3.2.3 对应分析的R型因子载荷和Q型因子载荷图(圆点为样品点,三角为变量点)YOUR SITE HERE主成分分析是将主分量表示为原观测变量的线性组合,主成分分析是将主分量表示为原观测变量的线性组合,而因子分析是将原观测变量表示为公共因子的线性组合;而因子分析是将原观测变量表示为公共因子的线性组合;主成分分析的主成分数主成分分析的主成分数m和原变量数和原变量数p相等,它是将一相等,它是将一组具有相关性的变量变换为一组独立的变量,而因子分析组具有相关性的变量变换为一组独立的变量,而因子分析的目的是要使公共因子数。的目的是要使公共因子数。m比原变量数比原变量数p小,而且要尽小,而且要尽可能地选取小的可能地选取小的m,以便尽可能地构造一个结构简单的模,以便尽可能地构造一个结构简单的模型。型。在主成分分析中,原观测变量对某一主成分的影响大小在主成分分析中,原观测变量对某一主成分的影响大小,由该主成分相应的特征向量确定,而在因子分析中,原,由该主成分相应的特征向量确定,而在因子分析中,原观测变量在某一主因子上的载荷,由该主因子相应的特征观测变量在某一主因子上的载荷,由该主因子相应的特征向量确定。向量确定。 因子分析与主成分分析的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论