主成分分析法[高教书苑]

上传人：8*** IP属地：广东上传时间：2021-05-31 格式：PPT 页数：74 大小：1.53MB 积分：12 举报 版权申诉

已阅读5页，还剩69页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第第5 5节节主成分分析主成分分析（Principal Components Analysis,PCA）第三章第三章地理学中的经典统地理学中的经典统计分析方法计分析方法 1高级教育主要内容主要内容主成分分析概述主成分分析概述主成分分析的基本原理主成分分析的基本原理主成分分析的计算步骤主成分分析的计算步骤主成分分析方法应用实例主成分分析方法应用实例主成分分析的主成分分析的SPSSSPSS实现过程实现过程主成分分析的应用及需要注意的问题主成分分析的应用及需要注意的问题附：主成分分析与因子分析的区别附：主成分分析与因子分析的区别 2高级教育一、主成分分析概述一、主成分分析

2、概述 3高级教育 v假定你是一个公司的财务经理，掌握了公假定你是一个公司的财务经理，掌握了公司的所有数据，这包括司的所有数据，这包括众多的变量众多的变量，比如，比如固定资产、流动资金、每一笔借贷的数额固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分产值、利润、折旧、职工人数、职工的分工和教育程度等等工和教育程度等等。 v如果让你向上级或有关方面介绍公司状况，如果让你向上级或有关方面介绍公司状况，你能够把这些指标和数字都你能够把这些指标和数字都原封不动地摆原封不动地摆出去吗出去吗？

3、引子引子 4高级教育 v当然不能。当然不能。汇报什么？汇报什么？ v发现在如此多的变量之中，有很多是发现在如此多的变量之中，有很多是相关的。人们希望能够找出它们的相关的。人们希望能够找出它们的少少数数“代表代表”来对它们进行描述。来对它们进行描述。 v需要把这种有需要把这种有很多变量很多变量的数据进行高的数据进行高度概括，度概括，用少数几个指标简单明了地用少数几个指标简单明了地把情况说清楚。把情况说清楚。 5高级教育 v主成分分析（主成分分析（ Principal Components Analysis ）和）和因子分析（因子分析（Factor Analysis）就是把变量维数降低就

4、是把变量维数降低以便于描述、理解和分析的方法。以便于描述、理解和分析的方法。 v主成分分析也称为主分量分析，是一种通过降维来主成分分析也称为主分量分析，是一种通过降维来简化数据结构的方法：如何把多个变量化为少数几简化数据结构的方法：如何把多个变量化为少数几个综合变量（综合指标）个综合变量（综合指标），而这几个综合变量可以，而这几个综合变量可以反映原来多个变量的大部分信息，所含的信息又互反映原来多个变量的大部分信息，所含的信息又互不重叠，即它们之间要相互独立，互不相关。不重叠，即它们之间要相互独立，互不相关。 v这些综合变量就叫因子或主成分，它是不可观测的这些综合变量就叫因子或主成分

5、，它是不可观测的，即，即它不是具体的变量它不是具体的变量（这与聚类分析不同），（这与聚类分析不同），只只是几个指标的综合是几个指标的综合。 v在引入主成分分析之前，先看下面的例子。在引入主成分分析之前，先看下面的例子。什么是主成分分析法？什么是主成分分析法？ 6高级教育成绩数据成绩数据 v53个学生的数学、物理、化学、语文、历个学生的数学、物理、化学、语文、历史、英语的成绩如下表（部分）。史、英语的成绩如下表（部分）。 7高级教育从本例可能提出的问题从本例可能提出的问题 v能不能把这个数据表中的能不能把这个数据表中的6 6个变量用一个变量用一两个综合变量来表示呢？两个综合变量来表

6、示呢？ v这一两个综合变量包含有多少原来的信这一两个综合变量包含有多少原来的信息呢？息呢？ v能不能利用找到的综合变量来对学生排能不能利用找到的综合变量来对学生排序呢？序呢？ 8高级教育 v事实上，以上的三个问题在地理学研究中，事实上，以上的三个问题在地理学研究中，也会经常遇到。它也会经常遇到。它所涉及的问题可以推广到所涉及的问题可以推广到对企业、对学校、对区域进行对企业、对学校、对区域进行分析、评价、分析、评价、排序和分类排序和分类等。等。 v比如对比如对n个区域进行综合评价，可选的描述区个区域进行综合评价，可选的描述区域特征的指标很多，而这些指标往往存在域特征的指标很多，而这些

7、指标往往存在一一定的相关性定的相关性（既不完全独立，又不完全相关（既不完全独立，又不完全相关），这就给研究带来很大不便。），这就给研究带来很大不便。若选指标太若选指标太多，会增加分析问题的难度与复杂性，选指多，会增加分析问题的难度与复杂性，选指标太少，有可能会漏掉对区域影响较大的指标太少，有可能会漏掉对区域影响较大的指标，影响结果的可靠性。标，影响结果的可靠性。 9高级教育这就需要我们在相关分析的基础上，采这就需要我们在相关分析的基础上，采用主成分分析法找到几个用主成分分析法找到几个新的相互独立新的相互独立的综合指标的综合指标，达到既减少指标数量、又，达到既减少指标数量、又能

8、区分区域间差异的目的。能区分区域间差异的目的。 10高级教育二、主成分分析的基本原理二、主成分分析的基本原理 11高级教育（一）主成分分析的几何解释（一）主成分分析的几何解释 v例中数据点是六维的；即每个观测值是例中数据点是六维的；即每个观测值是6维空维空间中的一个点。希望把间中的一个点。希望把6维空间用低维空间表维空间用低维空间表示。示。 v先假定只有二维，即只有两个变量，语文成先假定只有二维，即只有两个变量，语文成绩（绩（x1）和数学成绩（）和数学成绩（x2），分别由横坐标），分别由横坐标和纵坐标所代表；和纵坐标所代表； v每个学生都是二维坐标系中的一个点。每个学生都是二维坐标

9、系中的一个点。 12高级教育空间的点空间的点 v如果这些数据形成一个椭圆形状的点阵如果这些数据形成一个椭圆形状的点阵（这在二维正态的假定下是可能的）该（这在二维正态的假定下是可能的）该椭圆有一个长轴和一个短轴。在短轴方椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少；向上数据变化很少； v在极端的情况，短轴如退化成一点，长在极端的情况，短轴如退化成一点，长轴的方向可以完全解释这些点的变化，轴的方向可以完全解释这些点的变化，由二维到一维的降维就自然完成了。由二维到一维的降维就自然完成了。 13高级教育 2 x 1 x 假定语文成绩假定语文成绩（X1）和数学成和数学成绩绩（X

10、2）的相的相关系数关系数= 0.6 。设设 X1 和和 X2 分别分别为标准化后的分为标准化后的分数，右图为其散数，右图为其散点图。点图。 14高级教育那么随机向量那么随机向量的方差的方差协方差矩阵为协方差矩阵为可以看出，在变量标准化的情况下的方差可以看出，在变量标准化的情况下的方差协方差协方差矩阵与其相关矩阵相等。矩阵与其相关矩阵相等。由求矩阵特征值和特征向量的方法：令由求矩阵特征值和特征向量的方法：令可以求出：可以求出： 15高级教育对应的特征向量分别为：对应的特征向量分别为：显然，这两个特征向量是显然，这两个特征向量是相互正交的相互正交的单位向量。而且它们单位

11、向量。而且它们与原来的坐标轴与原来的坐标轴 X1 和和 X2 的夹角都分别等于的夹角都分别等于45 。如果将。如果将坐标轴坐标轴 X1 和和 X2 旋转旋转45 ，那么点在新坐标系中的坐标，那么点在新坐标系中的坐标（Y1,Y2）与原坐标（）与原坐标（X1,X2）有如下的关系：）有如下的关系： Y1和和Y2均是均是X1 和和 X2 的线性组合的线性组合系数代表什么？系数代表什么？ 16高级教育 2 x 1 x 在新坐标系中，在新坐标系中，可以发现：虽然可以发现：虽然散点图的形状没散点图的形状没有改变，但新的有改变，但新的随机变量随机变量 Y1 和和 Y2 已经不再相已经不再相关

12、。而且大部分关。而且大部分点沿点沿 Y1 轴散开，轴散开，在在 Y1 轴方向的轴方向的变异较大（即变异较大（即 Y1的方差较的方差较大）大），相对来说，相对来说，在在 Y2轴方向的轴方向的变异较小（即变异较小（即 Y2 的方差较的方差较小）小）。 17高级教育事实上，随机变量事实上，随机变量 Y1和和 Y2的方差分别为：的方差分别为：可以看出，可以看出，最大变动最大变动方向方向是由特征向量所决定的，是由特征向量所决定的，而特征值则刻画了对应的方差。而特征值则刻画了对应的方差。这只是我们举的这只是我们举的一个例子，对于一般情况，数学上也能证明。一个例子，对于一般情况，数

13、学上也能证明。 18高级教育在上面的例子中在上面的例子中 Y1 和和 Y2 就是原变量就是原变量 X1和和 X2 的第一主成分和第二主成分。实际上第一主成的第一主成分和第二主成分。实际上第一主成分分 Y1 就基本上反映了就基本上反映了 X1 和和X2 的主要信息，因的主要信息，因为图中的各点在新坐标系中的为图中的各点在新坐标系中的 Y1 坐标基本上就坐标基本上就代表了这些点的分布情况，因此可以选代表了这些点的分布情况，因此可以选 Y1 为一为一个新的综合变量。当然如果再选个新的综合变量。当然如果再选 Y2也作为综合也作为综合变量，那么变量，那么 Y1 和和 Y2 则反映了则反映了

14、X1 和和 X2的全部的全部信息。信息。 19高级教育从几何上看，找主成分的问题就是找出从几何上看，找主成分的问题就是找出 p维空间中椭球体的主轴问题，就是要在维空间中椭球体的主轴问题，就是要在 x1xp的相关矩阵中的相关矩阵中m个较大特征值所对应的个较大特征值所对应的特征向量。特征向量。究竟提取几个主成分或因子，一般有两究竟提取几个主成分或因子，一般有两种方法：种方法： v特征值特征值11 v累计贡献率累计贡献率0.80.8 那么如何提取主成分呢？那么如何提取主成分呢？（二）主成分分析的基本思想（二）主成分分析的基本思想 20高级教育假定有假定有n个地理样本，每个样本共有个地理

15、样本，每个样本共有p p个变量，个变量，构成一个构成一个np阶的地理数据矩阵阶的地理数据矩阵 npnn p p xxx xxx xxx X 21 22221 11211 （3.5.1）综合指标如何选取呢？这些综合指标要想尽可能多地综合指标如何选取呢？这些综合指标要想尽可能多地反映原指标的信息，综合指标的表达式中要含有原指反映原指标的信息，综合指标的表达式中要含有原指标，那么我们通常是取原指标的线性组合，适当调整标，那么我们通常是取原指标的线性组合，适当调整它们的系数，使综合指标间相互独立且代表性好。它们的系数，使综合指标间相互独立且代表性好。 21高级教育定义：记定义：记x1，x2

16、，xP为原变量指标，为原变量指标， z1，z2，zm（mp）为新变量指标）为新变量指标 pmpmmm pp pp xlxlxlz xlxlxlz xlxlxlz 2211 22221212 12121111 . (3.5.2) 可以看出，新指标对原指标有多个线性组合，可以看出，新指标对原指标有多个线性组合，新指标对哪个原指标反映的多，哪个少，取决于它的新指标对哪个原指标反映的多，哪个少，取决于它的系数。系数系数。系数lij的确定原则：的确定原则： zi与与zk（ik；i，k=1，2，m; j= 1，2，p ）相互无关；）相互无关；22高级教育 z1是是x1，x2，xP的一切线性组合的一切线

17、性组合中方差最大者中方差最大者(最能解释它们之间的变化），最能解释它们之间的变化）， z2是与是与z1不相关的不相关的x1，x2，xP的所有线性的所有线性组合中方差最大者组合中方差最大者; zm是与是与z1，z2， zm 1都不相关的都不相关的x1，x2，xP，，的所有线性组的所有线性组合中方差最大者。合中方差最大者。则新变量指标则新变量指标z1，z2，zm分别称为原分别称为原变量指标变量指标x1，x2，xP的第的第1，第，第2，第，第 m主成分。主成分。 23高级教育从以上的分析可以看出，主成分分析的从以上的分析可以看出，主成分分析的实质就是确定原来变量实质就是确定原来

18、变量xj（j=1，2 ， p）在诸主成分在诸主成分zi（i=1，2，m）上的荷载）上的荷载 lij （ i=1，2，m； j=1，2 ，p）。）。从数学上可以证明，它们分别是相关矩从数学上可以证明，它们分别是相关矩阵（也就是阵（也就是x1，x2，xP 的相关系数矩阵）的相关系数矩阵） m个较大的特征值所对应的特征向量。个较大的特征值所对应的特征向量。 24高级教育三、主成分分析的计算步骤三、主成分分析的计算步骤 25高级教育（一）计算相关系数矩阵一）计算相关系数矩阵 rij（i，j=1，2，p）为原变量）为原变量xi与与xj标准化后的标准化后的相关系数，相关系数， rij=rji，

19、，其计算公式为其计算公式为 pppp p p rrr rrr rrr R 21 22221 11211 （3.5.3） n k n k jkjiki n k jkjiki ij xxxx xxxx r 11 22 1 )()( )( （3.5.4） 26高级教育（二）计算特征值与特征向量（二）计算特征值与特征向量 1、解特征方程，求出特征值，、解特征方程，求出特征值，并使其按大小顺序排列并使其按大小顺序排列； 0RI 0 21 p 2、分别求出对应于特征值、分别求出对应于特征值的特征向量的特征向量，要求，要求 =1，即，即，其中表示向量其中表示向量的第的第j个分量个分量,也就

20、是说也就是说为单位向量。为单位向量。 i ), 2 , 1(piei i e 1 1 2 p j ij e ij e i e i e 27高级教育 3 3、计算主成分贡献率及累计贡献率、计算主成分贡献率及累计贡献率贡献率贡献率 ),2, 1( 1 pi p k k i 累计贡献率累计贡献率 ),2, 1( 1 1 pi p k k i k k 一般取累计贡献率达一般取累计贡献率达85%95%的特征值的特征值所对应的第所对应的第1 1、第、第2 2、第、第m（mp）个主成分。）个主成分。 m , 21 28高级教育 4、计算主成分载荷计算主成分载荷在主成分之间不相关时，在主成分之间不相关

21、时，主成分载荷就是主成分主成分载荷就是主成分z zi i与变量与变量x xj j之之间的相关系数间的相关系数（在数学上可以证明）（在数学上可以证明） 5 5、各主成分的得分、各主成分的得分得到各主成分的载荷以后，可以按照（得到各主成分的载荷以后，可以按照（3.5.23.5.2）计算各主成）计算各主成分的得分分的得分 ), 2 , 1,(),(pjiexzpl ijijiij （3.5.5） pmpmmm pp pp xlxlxlz xlxlxlz xlxlxlz 2211 22221212 12121111 . 29高级教育 nmnn m m zzz zzz zzz Z 21 22221

22、 11211 （3.5.6）每个地区的综合评价值为：对各个主成分每个地区的综合评价值为：对各个主成分进行加权求和。权重为每个主成分方差的进行加权求和。权重为每个主成分方差的贡献率。贡献率。 30高级教育四、四、主成分分析方法应用实例主成分分析方法应用实例 31高级教育（一）（一）下面，我们根据表下面，我们根据表3.5.13.5.1给出的给出的数据，对某农业生态经济系统做主成分分析。数据，对某农业生态经济系统做主成分分析。表3.5.13.5.1 某农业生态经济系统各区域单元的有关数据 32高级教育 33高级教育步骤如下：步骤如下：（1）将表）将表3.5.1中的数据作标准差标准

23、化中的数据作标准差标准化处理，然后将它们代入公式（处理，然后将它们代入公式（3.5.4）计算相）计算相关系数矩阵（表关系数矩阵（表3.5.2）。）。 x1x2x3x4x5x6x7x8x9 x11-0.327 -0.714 -0.3360.3090.4080.790.1560.744 x2-0.331-0.0350.6440.420.2550.009-0.0780.094 x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924 x4-0.340.6440.0710.3830.069-0.05-0.0310.073 x50.3090.42-0.740.38

24、310.7340.6720.0980.747 x60.4080.255-0.7550.0690.73410.6580.2220.707 x70.790.009-0.93-0.0460.6720.6581-0.030.89 x80.156-0.078 -0.109 -0.0310.0980.222-0.0310.29 x90.7440.094-0.9240.0730.7470.7070.890.291 表3.5.23.5.2相关系数矩阵 34高级教育（2）由相关系数矩阵计算特征）由相关系数矩阵计算特征值，以及各个主成分的贡献率与累值，以及各个主成分的贡献率与累计贡献率（表计贡献率（表3.5

25、.3）。由表）。由表3.5.3可可知，第知，第1，第，第2，第，第3主成分的累计贡主成分的累计贡献率已高达献率已高达86.596%（大于（大于85%），），故只需要求出第故只需要求出第1、第、第2、第、第3主成分主成分 z1，z2，z3即可。即可。 35高级教育表3.5.33.5.3特征值及主成分贡献率 =4.661/8.9988 36高级教育（3 3）对于特征值）对于特征值分别分别 =4.661 0=4.661 0、 =2.089 0=2.089 0、=1.0430=1.0430，分别求出其特征向量，分别求出其特征向量 e1 1，e2 2，e3 3，再用公式（，再用公式（3.5.

26、53.5.5）计算各变量）计算各变量 x x1 1，x2 2，x9 9在主成分在主成分z1 1，z2 2，z3 3上的载荷上的载荷（表（表3.5.43.5.4）。）。 i 37高级教育表表3.5.4 3.5.4 主成分载荷主成分载荷上述计算过程上述计算过程,可以借助于可以借助于SPSS或或Matlab软件系统实现。软件系统实现。 38高级教育 (1)从表从表3.5.4可以看出，第可以看出，第1主成分主成分z1 与与x1，x5，x6，x7，x9呈现出较强的正相呈现出较强的正相关，与关，与x3呈现出较强的负相关，而这几个呈现出较强的负相关，而这几个变量则综合反映了生态经济结构状况，因变量

27、则综合反映了生态经济结构状况，因此可以认为第此可以认为第1主成分主成分z1是生态经济结构是生态经济结构的代表。的代表。 (2)第第2主成分主成分z2与与x2，x4，x5呈现出较呈现出较强的正相关，与强的正相关，与x1呈现出较强的负相关，呈现出较强的负相关，其中，除了其中，除了x1为人口总数外，为人口总数外，x2，x4，x5都都反映了人均占有资源量的情况，因此可以反映了人均占有资源量的情况，因此可以认为第认为第2主成分主成分z2代表了人均资源量。代表了人均资源量。分析：主成分载荷是主成分与变量之间的分析：主成分载荷是主成分与变量之间的相关系数。相关系数。 39高级教育显然，用显

28、然，用3个主成分个主成分z1、z2、z3代替原来代替原来 9个变量个变量（x1，x2，x9）描述农业生态）描述农业生态经济系统，可以使问题更进一步简化、明经济系统，可以使问题更进一步简化、明了。了。 (3)第第3主成分主成分z3与与x8呈现出的正相关程度呈现出的正相关程度最高，其次是最高，其次是x6，而与，而与x7呈负相关，因此可呈负相关，因此可以认为第以认为第3主成分在一定程度上代表了农业主成分在一定程度上代表了农业经济结构。经济结构。 (4)另外，表另外，表3.5.4中最后一列（占方差中最后一列（占方差的百分数），在一定程度上反映了的百分数），在一定程度上反映了3个主成个主成

29、分分z1、z2、z3包含原变量（包含原变量（x1，x2，x9）的信息量多少。的信息量多少。 40高级教育 v接着还可以计算每个主成分的得分，接着还可以计算每个主成分的得分，组成一个新的数据集，作为进一步应组成一个新的数据集，作为进一步应用系统聚类分析方法进行区划、分类用系统聚类分析方法进行区划、分类的新的出发点。的新的出发点。 v也可以用来综合评价。也可以用来综合评价。 v进行区域差异分析进行区域差异分析 41高级教育五、主成分分析的五、主成分分析的SPSS实现过程实现过程 42高级教育 v以书上例子为例，将数据存为以书上例子为例，将数据存为.sav文件文件， v选选AnalyzeD

30、ata ReductionFactor进入主对话框；进入主对话框； v把把x1x9选入选入Variables，然后点击，然后点击Descriptive v击击Extraction，在在Method选择一个方法（如果是主成分分析，则选选择一个方法（如果是主成分分析，则选 Principal Components），），下面的选项可以随意，比如要画碎石图就选下面的选项可以随意，比如要画碎石图就选Scree plot，另，另外在外在Extract选项可以按照特征值的大小选主成分（或因选项可以按照特征值的大小选主成分（或因子），也可以选定因子的数目；子），也可以选定因子的数目；之后回到主对话

31、框（用之后回到主对话框（用Continue）。）。 v然后点击然后点击Rotation，再在该对话框中的，再在该对话框中的Method选择一个选择一个旋转方法（如果是不作旋转就选旋转方法（如果是不作旋转就选None，我们选，我们选Varimax, 方差最大正交旋转法），方差最大正交旋转法），在在Display选选Rotated solution（以输出和旋转有关的结（以输出和旋转有关的结果）和果）和Loading plot（以输出载荷图）；之后回到主对话（以输出载荷图）；之后回到主对话框（用框（用Continue）。）。 v如果要计算因子得分就要点击如果要计算因子得分就要点击Score

32、s，再选择，再选择Save as variables（因子得分就会作为变量存在数据中的附加列上）（因子得分就会作为变量存在数据中的附加列上）和计算因子得分的方法（比如和计算因子得分的方法（比如Regression）；之后回到）；之后回到主对话框（用主对话框（用Continue）。这时点）。这时点OK即可。即可。 43高级教育 44高级教育 45高级教育 46高级教育 47高级教育 48高级教育 49高级教育结果解释结果解释 C Co or rr re el la at ti io on n M Ma at tr ri ix x 1.000-.327-.714-.336.309.408.7

33、90.156.744 -.3271.000-.035.644.420.255.009-.078.094 -.714-.0351.000.070-.740-.755-.930-.109-.924 -.336.644.0701.000.383.069-.046-.031.073 .309.420-.740.3831.000.734.672.098.747 .408.255-.755.069.7341.000.658.222.707 .790.009-.930-.046.672.6581.000-.030.890 .156-.078-.109-.031.098.222-.0301.000.290 .

34、744.094-.924.073.747.707.890.2901.000 人口密度人均耕地面积森林覆盖率农民人均纯收入人均粮食产量经济作物占农作物播面比例耕地占土地面积比果园与林地面积之比灌溉田占耕地面积之 Correlation 人口密度人均耕地面积森林覆盖率农民人均纯收入人均粮食产量经济作物占农作物播面比例耕地占土地面积比果园与林地面积之比灌溉田占耕地面积之 KMO and Bartletts TestKMO and Bartletts Test .759 159.767 36 .000 Kaiser-Meyer-Olkin Measure

35、 of Sampling Adequacy. Approx. Chi-Square df Sig. Bartletts Test of Sphericity KMO值大于值大于0.5， Bartletts Test的的 Sig. 大于大于0.05表表明可用因子分析明可用因子分析 50高级教育结果解释结果解释 CommunalitiesCommunalities 1.000.832 1.000.803 1.000.947 1.000.757 1.000.858 1.000.718 1.000.952 1.000.990 1.000.938 人口密度人均耕地面积森林覆盖率农民人均纯收入

36、人均粮食产量经济作物占农作物播面比例耕地占土地面积比果园与林地面积之比灌溉田占耕地面积之 InitialExtraction Extraction Method: Principal Component Analysis. 说明提取的几个因子包含每个原变量的程度说明提取的几个因子包含每个原变量的程度公因子方差公因子方差 51高级教育结果解释结果解释这里的这里的Initial Eigenvalues就是特征值（数据就是特征值（数据相关阵的特征值）。相关阵的特征值）。头三个成分特征值累头三个成分特征值累积占了总方差的积占了总方差的86.596%。后面的特征值的。后面的特征值的

37、贡献越来越少。贡献越来越少。 Total Variance ExplainedTotal Variance Explained 4.66151.79051.7904.66151.79051.7904.60551.17251.172 2.08923.21775.0072.08923.21775.0072.10023.32974.500 1.04311.58986.5961.04311.58986.5961.08912.09586.596 .5075.63892.234 .3153.50295.736 .1932.14097.876 .1141.27199.147 .045.50499.650 .

38、031.350100.000 Component 1 2 3 4 5 6 7 8 9 Total% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative % Initial EigenvaluesExtraction Sums of Squared LoadingsRotation Sums of Squared Loadings Extraction Method: Principal Component Analysis. 52高级教育特征值的贡献还可以从特征值的贡献还可以从SP

39、SS的所谓碎石图看出的所谓碎石图看出 53高级教育怎么解释这三个主成分。前面说过主成分是原始九怎么解释这三个主成分。前面说过主成分是原始九个变量的线性组合。是怎么样的组合呢？个变量的线性组合。是怎么样的组合呢？SPSSSPSS可以可以输出下面的表。输出下面的表。这里每一列代表一个主成分作为原来变量线性组合的系数这里每一列代表一个主成分作为原来变量线性组合的系数（比例）。比如第一主成分写成九个原先变量的线性组合，（比例）。比如第一主成分写成九个原先变量的线性组合，系数（比例）为系数（比例）为0.739, 0.123, -0.964, 0.042, 0.813, 0.819，0.933

40、， 0.197，0.964。 C Co om mp po on ne en nt t M Ma at tr ri ix x a a .739-.532-.061 .123.887-.028 -.964.096.095 .042.868.037 .813.444-.011 .819.179.125 .933-.133-.251 .197-.100.970 .964-.025.092 人口密度人均耕地面积森林覆盖率农民人均纯收入人均粮食产量经济作物占农作物播面比例耕地占土地面积比果园与林地面积之比灌溉田占耕地面积之 123 Component Extraction Method:

41、 Principal Component Analysis. 3 components extracted. a. 54高级教育如用如用x x1 1 x x9 9分别表示原先的九个变量，而用分别表示原先的九个变量，而用y y1 1, ,y y2 2, ,y y3 3, , 表示新的表示新的主成分，那么，原先九个变量主成分，那么，原先九个变量x x1 1, ,x x2 2, ,x x3 3, ,x x4 4, ,x x5 5, ,x x6 6与第一和第二与第一和第二第三主成分第三主成分y y1 1, ,y y2 2，，y y3 3的关系为：的关系为： y y 1 1 = 0 . 7 3

42、 9= 0 . 7 3 9x x 1 1 + 0 . 1 2 3 x 2 2 - 0 . 9 6 4x x 3 3 + 0 . 0 4 2x x 4 4 + 0.813x x5 5+0.819x x6 6+0.933x x7 7+0.197x x8 8+0.964x x9 9 这些系数称为主成分载荷（这些系数称为主成分载荷（loading），它表示主成分和相应的），它表示主成分和相应的原先变量的相关系数。原先变量的相关系数。相关系数相关系数(绝对值）越大，主成分对该变量的代表性也越大。绝对值）越大，主成分对该变量的代表性也越大。可以看得出，第一主成分对各个变量解释得都很充分。而最后可以看

43、得出，第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。的几个主成分和原先的变量就不那么相关了。 55高级教育 Rotated Component MatrixRotated Component Matrix a a .773-.483.044 .070.891-.054 -.972.034-.016 -.017.870.003 .780.496.059 .787.238.206 .962-.079-.141 .093-.051.989 .947.043.198 人口密度人均耕地面积森林覆盖率农民人均纯收入人均粮食产量经济作物占农作物播面比例耕地

44、占土地面积比果园与林地面积之比灌溉田占耕地面积之 123 Component Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Rotation converged in 4 iterations. a. X X1 1=0.773=0.773y y1 1-0.483-0.483y y2 2+0.044+0.044y y3 3 56高级教育计算因子得分计算因子得分 v可以根据前面的因子得分公式（因子得可以根据前面的因子得分公式（因子得分系

45、数和原始变量的标准化值的乘积之分系数和原始变量的标准化值的乘积之和），算出每个样本的第一个因子、第和），算出每个样本的第一个因子、第二个因子和第三个主成分的大小，即算二个因子和第三个主成分的大小，即算出出每个样本每个样本的因子得分的因子得分f1，， f2和和f3。 v人们可以根据这三套因子得分对样本分人们可以根据这三套因子得分对样本分别排序。当然得到因子得分只是别排序。当然得到因子得分只是SPSS软软件的一个选项（可将因子得分存为新变件的一个选项（可将因子得分存为新变量、显示因子得分系数矩阵）量、显示因子得分系数矩阵） 57高级教育 Component Score Coeffi

46、cient MatrixComponent Score Coefficient Matrix .180-.245-.030 .003.424-.043 -.218.035.066 -.021.416.018 .161.223-.001 .155.102.134 .230-.059-.215 -.059-.011.930 .196.005.110 人口密度人均耕地面积森林覆盖率农民人均纯收入人均粮食产量经济作物占农作物播面比例耕地占土地面积比果园与林地面积之比灌溉田占耕地面积之 123 Component Extraction Method: Principal Compone

47、nt Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores. 58高级教育六、主成分分析的应用六、主成分分析的应用 59高级教育根据主成分分析的定义及性质，我们已大体上根据主成分分析的定义及性质，我们已大体上能看出主成分分析的一些应用。概括起来说，主成能看出主成分分析的一些应用。概括起来说，主成分分析主要有以下几方面的应用。分分析主要有以下几方面的应用。 1主成分分析能降低所研究的数据空间的维数主成分分析能降低所研究的数据空间的维数。即用研究。即用研究m维的维的Y空间代替空间代替p

48、维的维的X空间空间(mp)，而低维的而低维的Y空间代替空间代替高维的高维的x空间所损失的信息很空间所损失的信息很少。即使只有一个主成分少。即使只有一个主成分Yl(即即 m1)时，这个时，这个Yl仍仍是使用全部是使用全部X变量变量(p个个)得到的。例如要计算得到的。例如要计算Yl的均的均值也得使用全部值也得使用全部x的均值。在所选的前的均值。在所选的前m个主成分个主成分中，如果某个中，如果某个Xi的系数全部近似于零的话，就可以的系数全部近似于零的话，就可以把这个把这个Xi删除，这也是一种删除多余变量的方法。删除，这也是一种删除多余变量的方法。 60高级教育 2有时可通过因子负荷有时

49、可通过因子负荷aij的结构，弄清的结构，弄清X变量间的变量间的某些关系。某些关系。 3. 多维数据的一种图形表示方法。我们知道当维数多维数据的一种图形表示方法。我们知道当维数大于大于3时便不能画出几何图形，多元统计研究的问题大时便不能画出几何图形，多元统计研究的问题大都多于都多于3个变量。要把研究的问题用图形表示出来是不个变量。要把研究的问题用图形表示出来是不可能的。然而，经过主成分分析后，我们可以选取前两可能的。然而，经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，根据主成分的得分，画个主成分或其中某两个主成分，根据主成分的得分，画出出n个样品在二维平面上的分布状况

50、，由图形可直观地个样品在二维平面上的分布状况，由图形可直观地看出各样品在主分量中的地位。看出各样品在主分量中的地位。 61高级教育 4由主成分分析法构造回归模型。即把各主成由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量分作为新自变量代替原来自变量x做回归分析。做回归分析。 5用主成分分析筛选回归变量。回归变量的选用主成分分析筛选回归变量。回归变量的选择有着重要的实际意义，为了使模型本身易于做结择有着重要的实际意义，为了使模型本身易于做结构分析、控制和预报，好从原始变量所构成的子集构分析、控制和预报，好从原始变量所构成的子集合中选择最佳变量，构成最佳变量集合，用主成

51、分合中选择最佳变量，构成最佳变量集合，用主成分分析筛选变量，可以用较少的计算量来选择变量，分析筛选变量，可以用较少的计算量来选择变量，获得选择最佳变量子集合的效果。获得选择最佳变量子集合的效果。 62高级教育附、主成分分析与因子附、主成分分析与因子分析的区别分析的区别 63高级教育因子分析因子分析 v主成分分析从原理上是寻找椭球的所有主主成分分析从原理上是寻找椭球的所有主轴。原先有几个变量，就有几个主成分。轴。原先有几个变量，就有几个主成分。 v而因子分析是事先确定要找几个成分，这而因子分析是事先确定要找几个成分，这里叫因子（里叫因子（factor）（比如两个），那就找）（比如两

52、个），那就找两个。两个。 v这使得在数学模型上，因子分析和主成分这使得在数学模型上，因子分析和主成分分析有不少区别。而且因子分析的计算也分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点，它复杂得多。根据因子分析模型的特点，它还多一道工序：因子旋转（还多一道工序：因子旋转（factor rotation ）；这个步骤可以使结果更好。）；这个步骤可以使结果更好。 64高级教育 v对于计算机，因子分析并不费事。对于计算机，因子分析并不费事。 v从输出的结果来看，因子分析也有因子从输出的结果来看，因子分析也有因子载荷（载荷（factor loading）的概念，代表）的概

53、念，代表了因子和原先变量的相关系数。但是在了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成因子分析公式中的因子载荷位置和主成分分析不同。分分析不同。 v因子分析也给出了二维图；其解释和主因子分析也给出了二维图；其解释和主成分分析的载荷图类似。成分分析的载荷图类似。 65高级教育主成分分析与因子分析的公式上的区别主成分分析与因子分析的公式上的区别 111 11221 221 12222 1 122 pp pp pppppp ya xa xa x ya xa xax ya xaxa x 111 112211 221 122222 1 122 mm mm ppppmmp

54、 xa fa faf xa fafaf xafafaf 111 11221 221 12222 1 122 pp pp mmmmpp fxxx fxxx fxxx 主成分分析主成分分析因子分析因子分析(mp) 因子得分因子得分主成分载荷主成分载荷旋转之后的旋转之后的因子载荷因子载荷因子得分因子得分系数中的值系数中的值 66高级教育对于学生成绩的数据，对于学生成绩的数据，SPSSSPSS因子分析输出因子分析输出为为 Rotated Component MatrixRotated Component Matrix a a -.387.790 -.172.841 -.184.827

55、.879-.343 .911-.201 .913-.216 MATH PHYS CHEM LITERAT HISTORY ENGLISH 12 Component Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Rotation converged in 3 iterations.a. 67高级教育这个表说明六个变量和因子的关系。这个表说明六个变量和因子的关系。为简单记，我们用为简单记，我们用x1, x2, x3, x4, x5, x6来表示来表示math（数学），（数学）， phys（物（物理），理），chem（化学），（化学），literat（语（语文），文），history（历史），（历史），english （英语）等变量。这样因子（英语）等变量。这样因子f1和和f2与与这些原变量之间的关系是（注意，这些原变量之间的关系是（注意，和主成分分析不同，这里把成分和主成分分析不同，这里把成分（因子）写在方程的右边，把原变（因子）写在方程的右边，把原变量写在左边；但相应的系数还是主量写

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

主成分分析法[高教书苑]

文档简介

温馨提示

最新文档

评论

主成分分析法[高教书苑]

文档简介

温馨提示

最新文档

评论

相关文档