主成分分析法[高教书苑]_第1页
主成分分析法[高教书苑]_第2页
主成分分析法[高教书苑]_第3页
主成分分析法[高教书苑]_第4页
主成分分析法[高教书苑]_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第5 5节节 主成分分析主成分分析 (Principal Components Analysis,PCA) 第三章第三章 地理学中的经典统地理学中的经典统 计分析方法计分析方法 1高级教育 主要内容主要内容 主成分分析概述主成分分析概述 主成分分析的基本原理主成分分析的基本原理 主成分分析的计算步骤主成分分析的计算步骤 主成分分析方法应用实例主成分分析方法应用实例 主成分分析的主成分分析的SPSSSPSS实现过程实现过程 主成分分析的应用及需要注意的问题主成分分析的应用及需要注意的问题 附:主成分分析与因子分析的区别附:主成分分析与因子分析的区别 2高级教育 一、主成分分析概述一、主成分分析

2、概述 3高级教育 v假定你是一个公司的财务经理,掌握了公假定你是一个公司的财务经理,掌握了公 司的所有数据,这包括司的所有数据,这包括众多的变量众多的变量,比如,比如 固定资产、流动资金、每一笔借贷的数额固定资产、流动资金、每一笔借贷的数额 和期限、各种税费、工资支出、原料消耗、和期限、各种税费、工资支出、原料消耗、 产值、利润、折旧、职工人数、职工的分产值、利润、折旧、职工人数、职工的分 工和教育程度等等工和教育程度等等。 v如果让你向上级或有关方面介绍公司状况,如果让你向上级或有关方面介绍公司状况, 你能够把这些指标和数字都你能够把这些指标和数字都原封不动地摆原封不动地摆 出去吗出去吗?

3、引子引子 4高级教育 v当然不能。当然不能。汇报什么?汇报什么? v发现在如此多的变量之中,有很多是发现在如此多的变量之中,有很多是 相关的。人们希望能够找出它们的相关的。人们希望能够找出它们的少少 数数“代表代表”来对它们进行描述。来对它们进行描述。 v需要把这种有需要把这种有很多变量很多变量的数据进行高的数据进行高 度概括,度概括,用少数几个指标简单明了地用少数几个指标简单明了地 把情况说清楚。把情况说清楚。 5高级教育 v主成分分析(主成分分析( Principal Components Analysis )和)和 因子分析(因子分析(Factor Analysis)就是把变量维数降低就

4、是把变量维数降低 以便于描述、理解和分析的方法。以便于描述、理解和分析的方法。 v主成分分析也称为主分量分析,是一种通过降维来主成分分析也称为主分量分析,是一种通过降维来 简化数据结构的方法:如何把多个变量化为少数几简化数据结构的方法:如何把多个变量化为少数几 个综合变量(综合指标)个综合变量(综合指标) ,而这几个综合变量可以,而这几个综合变量可以 反映原来多个变量的大部分信息,所含的信息又互反映原来多个变量的大部分信息,所含的信息又互 不重叠,即它们之间要相互独立,互不相关。不重叠,即它们之间要相互独立,互不相关。 v这些综合变量就叫因子或主成分,它是不可观测的这些综合变量就叫因子或主成分

5、,它是不可观测的 ,即,即它不是具体的变量它不是具体的变量(这与聚类分析不同),(这与聚类分析不同),只只 是几个指标的综合是几个指标的综合。 v在引入主成分分析之前,先看下面的例子。在引入主成分分析之前,先看下面的例子。 什么是主成分分析法?什么是主成分分析法? 6高级教育 成绩数据成绩数据 v53个学生的数学、物理、化学、语文、历个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。史、英语的成绩如下表(部分)。 7高级教育 从本例可能提出的问题从本例可能提出的问题 v能不能把这个数据表中的能不能把这个数据表中的6 6个变量用一个变量用一 两个综合变量来表示呢?两个综合变量来表

6、示呢? v这一两个综合变量包含有多少原来的信这一两个综合变量包含有多少原来的信 息呢?息呢? v能不能利用找到的综合变量来对学生排能不能利用找到的综合变量来对学生排 序呢?序呢? 8高级教育 v事实上,以上的三个问题在地理学研究中,事实上,以上的三个问题在地理学研究中, 也会经常遇到。它也会经常遇到。它所涉及的问题可以推广到所涉及的问题可以推广到 对企业、对学校、对区域进行对企业、对学校、对区域进行分析、评价、分析、评价、 排序和分类排序和分类等。等。 v比如对比如对n个区域进行综合评价,可选的描述区个区域进行综合评价,可选的描述区 域特征的指标很多,而这些指标往往存在域特征的指标很多,而这些

7、指标往往存在一一 定的相关性定的相关性(既不完全独立,又不完全相关(既不完全独立,又不完全相关 ),这就给研究带来很大不便。),这就给研究带来很大不便。若选指标太若选指标太 多,会增加分析问题的难度与复杂性,选指多,会增加分析问题的难度与复杂性,选指 标太少,有可能会漏掉对区域影响较大的指标太少,有可能会漏掉对区域影响较大的指 标,影响结果的可靠性。标,影响结果的可靠性。 9高级教育 这就需要我们在相关分析的基础上,采这就需要我们在相关分析的基础上,采 用主成分分析法找到几个用主成分分析法找到几个新的相互独立新的相互独立 的综合指标的综合指标,达到既减少指标数量、又,达到既减少指标数量、又 能

8、区分区域间差异的目的。能区分区域间差异的目的。 10高级教育 二、主成分分析的基本原理二、主成分分析的基本原理 11高级教育 (一)主成分分析的几何解释(一)主成分分析的几何解释 v例中数据点是六维的;即每个观测值是例中数据点是六维的;即每个观测值是6维空维空 间中的一个点。希望把间中的一个点。希望把6维空间用低维空间表维空间用低维空间表 示。示。 v先假定只有二维,即只有两个变量,语文成先假定只有二维,即只有两个变量,语文成 绩(绩(x1)和数学成绩()和数学成绩(x2),分别由横坐标),分别由横坐标 和纵坐标所代表;和纵坐标所代表; v每个学生都是二维坐标系中的一个点。每个学生都是二维坐标

9、系中的一个点。 12高级教育 空间的点空间的点 v如果这些数据形成一个椭圆形状的点阵如果这些数据形成一个椭圆形状的点阵 (这在二维正态的假定下是可能的)该(这在二维正态的假定下是可能的)该 椭圆有一个长轴和一个短轴。在短轴方椭圆有一个长轴和一个短轴。在短轴方 向上数据变化很少;向上数据变化很少; v在极端的情况,短轴如退化成一点,长在极端的情况,短轴如退化成一点,长 轴的方向可以完全解释这些点的变化,轴的方向可以完全解释这些点的变化, 由二维到一维的降维就自然完成了。由二维到一维的降维就自然完成了。 13高级教育 2 x 1 x 假定语文成绩假定语文成绩 (X1) 和数学成和数学成 绩绩 (X

10、2) 的相的相 关系数关系数= 0.6 。 设设 X1 和和 X2 分别分别 为标准化后的分为标准化后的分 数,右图为其散数,右图为其散 点图。点图。 14高级教育 那么随机向量那么随机向量 的方差的方差协方差矩阵为协方差矩阵为 可以看出,在变量标准化的情况下的方差可以看出,在变量标准化的情况下的方差协方差协方差 矩阵与其相关矩阵相等。矩阵与其相关矩阵相等。 由求矩阵特征值和特征向量的方法:令由求矩阵特征值和特征向量的方法:令 可以求出:可以求出: 15高级教育 对应的特征向量分别为:对应的特征向量分别为: 显然,这两个特征向量是显然,这两个特征向量是相互正交的相互正交的单位向量。而且它们单位

11、向量。而且它们 与原来的坐标轴与原来的坐标轴 X1 和和 X2 的夹角都分别等于的夹角都分别等于45 。如果将。如果将 坐标轴坐标轴 X1 和和 X2 旋转旋转45 ,那么点在新坐标系中的坐标,那么点在新坐标系中的坐标 (Y1,Y2)与原坐标()与原坐标(X1,X2)有如下的关系:)有如下的关系: Y1和和Y2均是均是X1 和和 X2 的线性组合的线性组合 系数代表什么?系数代表什么? 16高级教育 2 x 1 x 在新坐标系中,在新坐标系中, 可以发现:虽然可以发现:虽然 散点图的形状没散点图的形状没 有改变,但新的有改变,但新的 随机变量随机变量 Y1 和和 Y2 已经不再相已经不再相 关

12、。而且大部分关。而且大部分 点沿点沿 Y1 轴散开,轴散开, 在在 Y1 轴方向的轴方向的 变异较大(即变异较大(即 Y1的方差较的方差较 大)大) ,相对来说,相对来说, 在在 Y2轴方向的轴方向的 变异较小(即变异较小(即 Y2 的方差较的方差较 小)小) 。 17高级教育 事实上,随机变量事实上,随机变量 Y1和和 Y2的方差分别为:的方差分别为: 可以看出,可以看出,最大变动最大变动方向方向是由特征向量所决定的,是由特征向量所决定的, 而特征值则刻画了对应的方差。而特征值则刻画了对应的方差。这只是我们举的这只是我们举的 一个例子,对于一般情况,数学上也能证明。一个例子,对于一般情况,数

13、学上也能证明。 18高级教育 在上面的例子中在上面的例子中 Y1 和和 Y2 就是原变量就是原变量 X1和和 X2 的第一主成分和第二主成分。实际上第一主成的第一主成分和第二主成分。实际上第一主成 分分 Y1 就基本上反映了就基本上反映了 X1 和和X2 的主要信息,因的主要信息,因 为图中的各点在新坐标系中的为图中的各点在新坐标系中的 Y1 坐标基本上就坐标基本上就 代表了这些点的分布情况,因此可以选代表了这些点的分布情况,因此可以选 Y1 为一为一 个新的综合变量。当然如果再选个新的综合变量。当然如果再选 Y2也作为综合也作为综合 变量,那么变量,那么 Y1 和和 Y2 则反映了则反映了

14、X1 和和 X2的全部的全部 信息。信息。 19高级教育 从几何上看,找主成分的问题就是找出从几何上看,找主成分的问题就是找出 p维空间中椭球体的主轴问题,就是要在维空间中椭球体的主轴问题,就是要在 x1xp的相关矩阵中的相关矩阵中m个较大特征值所对应的个较大特征值所对应的 特征向量。特征向量。 究竟提取几个主成分或因子,一般有两究竟提取几个主成分或因子,一般有两 种方法:种方法: v特征值特征值11 v累计贡献率累计贡献率0.80.8 那么如何提取主成分呢?那么如何提取主成分呢? (二)主成分分析的基本思想(二)主成分分析的基本思想 20高级教育 假定有假定有n个地理样本,每个样本共有个地理

15、样本,每个样本共有p p个变量,个变量, 构成一个构成一个np阶的地理数据矩阵阶的地理数据矩阵 npnn p p xxx xxx xxx X 21 22221 11211 (3.5.1) 综合指标如何选取呢?这些综合指标要想尽可能多地综合指标如何选取呢?这些综合指标要想尽可能多地 反映原指标的信息,综合指标的表达式中要含有原指反映原指标的信息,综合指标的表达式中要含有原指 标,那么我们通常是取原指标的线性组合,适当调整标,那么我们通常是取原指标的线性组合,适当调整 它们的系数,使综合指标间相互独立且代表性好。它们的系数,使综合指标间相互独立且代表性好。 21高级教育 定义:记定义:记x1,x2

16、,xP为原变量指标,为原变量指标, z1,z2,zm(mp)为新变量指标)为新变量指标 pmpmmm pp pp xlxlxlz xlxlxlz xlxlxlz 2211 22221212 12121111 . (3.5.2) 可以看出,新指标对原指标有多个线性组合,可以看出,新指标对原指标有多个线性组合, 新指标对哪个原指标反映的多,哪个少,取决于它的新指标对哪个原指标反映的多,哪个少,取决于它的 系数。系数系数。系数lij的确定原则:的确定原则: zi与与zk(ik;i,k=1,2,m; j= 1,2,p )相互无关;)相互无关;22高级教育 z1是是x1,x2,xP的一切线性组合的一切线

17、性组合 中方差最大者中方差最大者(最能解释它们之间的变化),最能解释它们之间的变化), z2是与是与z1不相关的不相关的x1,x2,xP的所有线性的所有线性 组合中方差最大者组合中方差最大者; zm是与是与z1,z2, zm 1都不相关的 都不相关的x1,x2,xP, , 的所有线性组 的所有线性组 合中方差最大者。合中方差最大者。 则新变量指标则新变量指标z1,z2,zm分别称为原分别称为原 变量指标变量指标x1,x2,xP的第的第1,第,第2,第,第 m主成分。主成分。 23高级教育 从以上的分析可以看出,主成分分析的从以上的分析可以看出,主成分分析的 实质就是确定原来变量实质就是确定原来

18、变量xj(j=1,2 , p) 在诸主成分在诸主成分zi(i=1,2,m)上的荷载)上的荷载 lij ( i=1,2,m; j=1,2 ,p)。)。 从数学上可以证明,它们分别是相关矩从数学上可以证明,它们分别是相关矩 阵(也就是阵(也就是x1,x2,xP 的相关系数矩阵)的相关系数矩阵) m个较大的特征值所对应的特征向量。个较大的特征值所对应的特征向量。 24高级教育 三、主成分分析的计算步骤三、主成分分析的计算步骤 25高级教育 (一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,j=1,2,p)为原变量)为原变量xi与与xj标准化后的标准化后的 相关系数,相关系数, rij=rji,

19、 ,其计算公式为 其计算公式为 pppp p p rrr rrr rrr R 21 22221 11211 (3.5.3) n k n k jkjiki n k jkjiki ij xxxx xxxx r 11 22 1 )()( )( (3.5.4) 26高级教育 (二)计算特征值与特征向量(二)计算特征值与特征向量 1、解特征方程,求出特征值,、解特征方程,求出特征值, 并使其按大小顺序排列并使其按大小顺序排列 ; 0RI 0 21 p 2、分别求出对应于特征值、分别求出对应于特征值 的特征向量的特征向量 ,要求,要求 =1,即,即, 其中表示向量其中表示向量 的第的第j个分量个分量,也就

20、是说也就是说 为单位向量。为单位向量。 i ), 2 , 1(piei i e 1 1 2 p j ij e ij e i e i e 27高级教育 3 3、计算主成分贡献率及累计贡献率、计算主成分贡献率及累计贡献率 贡献率贡献率 ),2, 1( 1 pi p k k i 累计贡献率累计贡献率 ),2, 1( 1 1 pi p k k i k k 一般取累计贡献率达一般取累计贡献率达85%95%的特征值的特征值 所对应的第所对应的第1 1、第、第2 2、第、第m(mp)个主成分。)个主成分。 m , 21 28高级教育 4、计算主成分载荷计算主成分载荷 在主成分之间不相关时,在主成分之间不相关

21、时,主成分载荷就是主成分主成分载荷就是主成分z zi i与变量与变量x xj j之之 间的相关系数间的相关系数(在数学上可以证明)(在数学上可以证明) 5 5、各主成分的得分、各主成分的得分 得到各主成分的载荷以后,可以按照(得到各主成分的载荷以后,可以按照(3.5.23.5.2)计算各主成)计算各主成 分的得分分的得分 ), 2 , 1,(),(pjiexzpl ijijiij (3.5.5) pmpmmm pp pp xlxlxlz xlxlxlz xlxlxlz 2211 22221212 12121111 . 29高级教育 nmnn m m zzz zzz zzz Z 21 22221

22、 11211 (3.5.6) 每个地区的综合评价值为:对各个主成分每个地区的综合评价值为:对各个主成分 进行加权求和。权重为每个主成分方差的进行加权求和。权重为每个主成分方差的 贡献率。贡献率。 30高级教育 四、四、 主成分分析方法应用实例主成分分析方法应用实例 31高级教育 (一)(一)下面,我们根据表下面,我们根据表3.5.13.5.1给出的给出的 数据,对某农业生态经济系统做主成分分析。数据,对某农业生态经济系统做主成分分析。 表3.5.13.5.1 某农业生态经济系统各区域单元的有关数据 32高级教育 33高级教育 步骤如下:步骤如下: (1)将表)将表3.5.1中的数据作标准差标准

23、化中的数据作标准差标准化 处理,然后将它们代入公式(处理,然后将它们代入公式(3.5.4)计算相)计算相 关系数矩阵(表关系数矩阵(表3.5.2)。)。 x1x2x3x4x5x6x7x8x9 x11-0.327 -0.714 -0.3360.3090.4080.790.1560.744 x2-0.331-0.0350.6440.420.2550.009-0.0780.094 x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924 x4-0.340.6440.0710.3830.069-0.05-0.0310.073 x50.3090.42-0.740.38

24、310.7340.6720.0980.747 x60.4080.255-0.7550.0690.73410.6580.2220.707 x70.790.009-0.93-0.0460.6720.6581-0.030.89 x80.156-0.078 -0.109 -0.0310.0980.222-0.0310.29 x90.7440.094-0.9240.0730.7470.7070.890.291 表3.5.23.5.2相关系数矩阵 34高级教育 (2)由相关系数矩阵计算特征)由相关系数矩阵计算特征 值,以及各个主成分的贡献率与累值,以及各个主成分的贡献率与累 计贡献率(表计贡献率(表3.5

25、.3)。由表)。由表3.5.3可可 知,第知,第1,第,第2,第,第3主成分的累计贡主成分的累计贡 献率已高达献率已高达86.596%(大于(大于85%),), 故只需要求出第故只需要求出第1、第、第2、第、第3主成分主成分 z1,z2,z3即可。即可。 35高级教育 表3.5.33.5.3特征值及主成分贡献率 =4.661/8.9988 36高级教育 (3 3)对于特征值)对于特征值 分别分别 =4.661 0=4.661 0、 =2.089 0=2.089 0、=1.0430=1.0430,分别求出其特征向量,分别求出其特征向量 e1 1,e2 2,e3 3,再用公式(,再用公式(3.5.

26、53.5.5)计算各变量)计算各变量 x x1 1,x2 2,x9 9在主成分在主成分z1 1,z2 2,z3 3上的载荷上的载荷 (表(表3.5.43.5.4)。)。 i 37高级教育 表表3.5.4 3.5.4 主成分载荷主成分载荷 上述计算过程上述计算过程,可以借助于可以借助于SPSS或或Matlab软件系统实现。软件系统实现。 38高级教育 (1)从表从表3.5.4可以看出,第可以看出,第1主成分主成分z1 与与x1,x5,x6,x7,x9呈现出较强的正相呈现出较强的正相 关,与关,与x3呈现出较强的负相关,而这几个呈现出较强的负相关,而这几个 变量则综合反映了生态经济结构状况,因变量

27、则综合反映了生态经济结构状况,因 此可以认为第此可以认为第1主成分主成分z1是生态经济结构是生态经济结构 的代表。的代表。 (2)第第2主成分主成分z2与与x2,x4,x5呈现出较呈现出较 强的正相关,与强的正相关,与x1呈现出较强的负相关,呈现出较强的负相关, 其中,除了其中,除了x1为人口总数外,为人口总数外,x2,x4,x5都都 反映了人均占有资源量的情况,因此可以反映了人均占有资源量的情况,因此可以 认为第认为第2主成分主成分z2代表了人均资源量。代表了人均资源量。 分析:主成分载荷是主成分与变量之间的分析:主成分载荷是主成分与变量之间的 相关系数。相关系数。 39高级教育 显然,用显

28、然,用3个主成分个主成分z1、z2、z3代替原来代替原来 9个变量个变量(x1,x2,x9)描述农业生态)描述农业生态 经济系统,可以使问题更进一步简化、明经济系统,可以使问题更进一步简化、明 了。了。 (3)第第3主成分主成分z3与与x8呈现出的正相关程度呈现出的正相关程度 最高,其次是最高,其次是x6,而与,而与x7呈负相关,因此可呈负相关,因此可 以认为第以认为第3主成分在一定程度上代表了农业主成分在一定程度上代表了农业 经济结构。经济结构。 (4)另外,表另外,表3.5.4中最后一列(占方差中最后一列(占方差 的百分数),在一定程度上反映了的百分数),在一定程度上反映了3个主成个主成

29、分分z1、z2、z3包含原变量(包含原变量(x1,x2,x9) 的信息量多少。的信息量多少。 40高级教育 v接着还可以计算每个主成分的得分,接着还可以计算每个主成分的得分, 组成一个新的数据集,作为进一步应组成一个新的数据集,作为进一步应 用系统聚类分析方法进行区划、分类用系统聚类分析方法进行区划、分类 的新的出发点。的新的出发点。 v也可以用来综合评价。也可以用来综合评价。 v进行区域差异分析进行区域差异分析 41高级教育 五、主成分分析的五、主成分分析的SPSS实现过程实现过程 42高级教育 v以书上例子为例,将数据存为以书上例子为例,将数据存为.sav文件文件, v选选AnalyzeD

30、ata ReductionFactor进入主对话框;进入主对话框; v把把x1x9选入选入Variables,然后点击,然后点击Descriptive v击击Extraction, 在在Method选择一个方法(如果是主成分分析,则选选择一个方法(如果是主成分分析,则选 Principal Components),), 下面的选项可以随意,比如要画碎石图就选下面的选项可以随意,比如要画碎石图就选Scree plot,另,另 外在外在Extract选项可以按照特征值的大小选主成分(或因选项可以按照特征值的大小选主成分(或因 子),也可以选定因子的数目;子),也可以选定因子的数目; 之后回到主对话

31、框(用之后回到主对话框(用Continue)。)。 v然后点击然后点击Rotation,再在该对话框中的,再在该对话框中的Method选择一个选择一个 旋转方法(如果是不作旋转就选旋转方法(如果是不作旋转就选None,我们选,我们选Varimax, 方差最大正交旋转法),方差最大正交旋转法), 在在Display选选Rotated solution(以输出和旋转有关的结(以输出和旋转有关的结 果)和果)和Loading plot(以输出载荷图);之后回到主对话(以输出载荷图);之后回到主对话 框(用框(用Continue)。)。 v如果要计算因子得分就要点击如果要计算因子得分就要点击Score

32、s,再选择,再选择Save as variables(因子得分就会作为变量存在数据中的附加列上)(因子得分就会作为变量存在数据中的附加列上) 和计算因子得分的方法(比如和计算因子得分的方法(比如Regression);之后回到);之后回到 主对话框(用主对话框(用Continue)。这时点)。这时点OK即可。即可。 43高级教育 44高级教育 45高级教育 46高级教育 47高级教育 48高级教育 49高级教育 结果解释结果解释 C Co or rr re el la at ti io on n M Ma at tr ri ix x 1.000-.327-.714-.336.309.408.7

33、90.156.744 -.3271.000-.035.644.420.255.009-.078.094 -.714-.0351.000.070-.740-.755-.930-.109-.924 -.336.644.0701.000.383.069-.046-.031.073 .309.420-.740.3831.000.734.672.098.747 .408.255-.755.069.7341.000.658.222.707 .790.009-.930-.046.672.6581.000-.030.890 .156-.078-.109-.031.098.222-.0301.000.290 .

34、744.094-.924.073.747.707.890.2901.000 人口密度 人均耕地面积 森林覆盖率 农民人均纯收入 人均粮食产量 经济作物占农作物播 面比例 耕地占土地面积比 果园与林地面积之比 灌溉田占耕地面积之 Correlation 人口密度 人均耕 地面积森林覆盖率 农民人均 纯收入 人均粮 食产量 经济作物 占农作物 播面比例 耕地占土 地面积比 果园与林地 面积之比 灌溉田占耕 地面积之 KMO and Bartletts TestKMO and Bartletts Test .759 159.767 36 .000 Kaiser-Meyer-Olkin Measure

35、 of Sampling Adequacy. Approx. Chi-Square df Sig. Bartletts Test of Sphericity KMO值大于值大于0.5, Bartletts Test的的 Sig. 大于大于0.05表表 明可用因子分析明可用因子分析 50高级教育 结果解释结果解释 CommunalitiesCommunalities 1.000.832 1.000.803 1.000.947 1.000.757 1.000.858 1.000.718 1.000.952 1.000.990 1.000.938 人口密度 人均耕地面积 森林覆盖率 农民人均纯收入

36、人均粮食产量 经济作物占农作物播 面比例 耕地占土地面积比 果园与林地面积之比 灌溉田占耕地面积之 InitialExtraction Extraction Method: Principal Component Analysis. 说明提取的几个因子包含每个原变量的程度说明提取的几个因子包含每个原变量的程度 公因子方差公因子方差 51高级教育 结果解释结果解释 这里的这里的Initial Eigenvalues就是特征值(数据就是特征值(数据 相关阵的特征值)。相关阵的特征值)。头三个成分特征值累头三个成分特征值累 积占了总方差的积占了总方差的86.596%。后面的特征值的。后面的特征值的

37、贡献越来越少。贡献越来越少。 Total Variance ExplainedTotal Variance Explained 4.66151.79051.7904.66151.79051.7904.60551.17251.172 2.08923.21775.0072.08923.21775.0072.10023.32974.500 1.04311.58986.5961.04311.58986.5961.08912.09586.596 .5075.63892.234 .3153.50295.736 .1932.14097.876 .1141.27199.147 .045.50499.650 .

38、031.350100.000 Component 1 2 3 4 5 6 7 8 9 Total% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative % Initial EigenvaluesExtraction Sums of Squared LoadingsRotation Sums of Squared Loadings Extraction Method: Principal Component Analysis. 52高级教育 特征值的贡献还可以从特征值的贡献还可以从SP

39、SS的所谓碎石图看出的所谓碎石图看出 53高级教育 怎么解释这三个主成分。前面说过主成分是原始九怎么解释这三个主成分。前面说过主成分是原始九 个变量的线性组合。是怎么样的组合呢?个变量的线性组合。是怎么样的组合呢?SPSSSPSS可以可以 输出下面的表。输出下面的表。 这里每一列代表一个主成分作为原来变量线性组合的系数这里每一列代表一个主成分作为原来变量线性组合的系数 (比例)。比如第一主成分写成九个原先变量的线性组合,(比例)。比如第一主成分写成九个原先变量的线性组合, 系数(比例)为系数(比例)为0.739, 0.123, -0.964, 0.042, 0.813, 0.819,0.933

40、, 0.197,0.964。 C Co om mp po on ne en nt t M Ma at tr ri ix x a a .739-.532-.061 .123.887-.028 -.964.096.095 .042.868.037 .813.444-.011 .819.179.125 .933-.133-.251 .197-.100.970 .964-.025.092 人口密度 人均耕地面积 森林覆盖率 农民人均纯收入 人均粮食产量 经济作物占农作物播 面比例 耕地占土地面积比 果园与林地面积之比 灌溉田占耕地面积之 123 Component Extraction Method:

41、 Principal Component Analysis. 3 components extracted. a. 54高级教育 如用如用x x1 1 x x9 9分别表示原先的九个变量,而用分别表示原先的九个变量,而用y y1 1, ,y y2 2, ,y y3 3, , 表示新的表示新的 主成分,那么,原先九个变量主成分,那么,原先九个变量x x1 1, ,x x2 2, ,x x3 3, ,x x4 4, ,x x5 5, ,x x6 6与第一和第二与第一和第二 第三主成分第三主成分y y1 1, ,y y2 2, ,y y3 3的关系为: 的关系为: y y 1 1 = 0 . 7 3

42、 9= 0 . 7 3 9x x 1 1 + 0 . 1 2 3 x 2 2 - 0 . 9 6 4x x 3 3 + 0 . 0 4 2x x 4 4 + 0.813x x5 5+0.819x x6 6+0.933x x7 7+0.197x x8 8+0.964x x9 9 这些系数称为主成分载荷(这些系数称为主成分载荷(loading),它表示主成分和相应的),它表示主成分和相应的 原先变量的相关系数。原先变量的相关系数。 相关系数相关系数(绝对值)越大,主成分对该变量的代表性也越大。绝对值)越大,主成分对该变量的代表性也越大。 可以看得出,第一主成分对各个变量解释得都很充分。而最后可以看

43、得出,第一主成分对各个变量解释得都很充分。而最后 的几个主成分和原先的变量就不那么相关了。的几个主成分和原先的变量就不那么相关了。 55高级教育 Rotated Component MatrixRotated Component Matrix a a .773-.483.044 .070.891-.054 -.972.034-.016 -.017.870.003 .780.496.059 .787.238.206 .962-.079-.141 .093-.051.989 .947.043.198 人口密度 人均耕地面积 森林覆盖率 农民人均纯收入 人均粮食产量 经济作物占农作物播 面比例 耕地

44、占土地面积比 果园与林地面积之比 灌溉田占耕地面积之 123 Component Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Rotation converged in 4 iterations. a. X X1 1=0.773=0.773y y1 1-0.483-0.483y y2 2+0.044+0.044y y3 3 56高级教育 计算因子得分计算因子得分 v可以根据前面的因子得分公式(因子得可以根据前面的因子得分公式(因子得 分系

45、数和原始变量的标准化值的乘积之分系数和原始变量的标准化值的乘积之 和),算出每个样本的第一个因子、第和),算出每个样本的第一个因子、第 二个因子和第三个主成分的大小,即算二个因子和第三个主成分的大小,即算 出出每个样本每个样本的因子得分的因子得分f1, , f2和 和f3。 v人们可以根据这三套因子得分对样本分人们可以根据这三套因子得分对样本分 别排序。当然得到因子得分只是别排序。当然得到因子得分只是SPSS软软 件的一个选项(可将因子得分存为新变件的一个选项(可将因子得分存为新变 量、显示因子得分系数矩阵)量、显示因子得分系数矩阵) 57高级教育 Component Score Coeffi

46、cient MatrixComponent Score Coefficient Matrix .180-.245-.030 .003.424-.043 -.218.035.066 -.021.416.018 .161.223-.001 .155.102.134 .230-.059-.215 -.059-.011.930 .196.005.110 人口密度 人均耕地面积 森林覆盖率 农民人均纯收入 人均粮食产量 经济作物占农作物播 面比例 耕地占土地面积比 果园与林地面积之比 灌溉田占耕地面积之 123 Component Extraction Method: Principal Compone

47、nt Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores. 58高级教育 六、主成分分析的应用六、主成分分析的应用 59高级教育 根据主成分分析的定义及性质,我们已大体上根据主成分分析的定义及性质,我们已大体上 能看出主成分分析的一些应用。概括起来说,主成能看出主成分分析的一些应用。概括起来说,主成 分分析主要有以下几方面的应用。分分析主要有以下几方面的应用。 1主成分分析能降低所研究的数据空间的维数主成分分析能降低所研究的数据空间的维数 。即用研究。即用研究m维的维的Y空间代替空间代替p

48、维的维的X空间空间(mp), 而低维的而低维的Y空间代替空间代替 高维的高维的x空间所损失的信息很空间所损失的信息很 少。即使只有一个主成分少。即使只有一个主成分Yl(即即 m1)时,这个时,这个Yl仍仍 是使用全部是使用全部X变量变量(p个个)得到的。例如要计算得到的。例如要计算Yl的均的均 值也得使用全部值也得使用全部x的均值。在所选的前的均值。在所选的前m个主成分个主成分 中,如果某个中,如果某个Xi的系数全部近似于零的话,就可以的系数全部近似于零的话,就可以 把这个把这个Xi删除,这也是一种删除多余变量的方法。删除,这也是一种删除多余变量的方法。 60高级教育 2有时可通过因子负荷有时

49、可通过因子负荷aij的结构,弄清的结构,弄清X变量间的变量间的 某些关系。某些关系。 3. 多维数据的一种图形表示方法。我们知道当维数多维数据的一种图形表示方法。我们知道当维数 大于大于3时便不能画出几何图形,多元统计研究的问题大时便不能画出几何图形,多元统计研究的问题大 都多于都多于3个变量。要把研究的问题用图形表示出来是不个变量。要把研究的问题用图形表示出来是不 可能的。然而,经过主成分分析后,我们可以选取前两可能的。然而,经过主成分分析后,我们可以选取前两 个主成分或其中某两个主成分,根据主成分的得分,画个主成分或其中某两个主成分,根据主成分的得分,画 出出n个样品在二维平面上的分布状况

50、,由图形可直观地个样品在二维平面上的分布状况,由图形可直观地 看出各样品在主分量中的地位。看出各样品在主分量中的地位。 61高级教育 4由主成分分析法构造回归模型。即把各主成由主成分分析法构造回归模型。即把各主成 分作为新自变量代替原来自变量分作为新自变量代替原来自变量x做回归分析。做回归分析。 5用主成分分析筛选回归变量。回归变量的选用主成分分析筛选回归变量。回归变量的选 择有着重要的实际意义,为了使模型本身易于做结择有着重要的实际意义,为了使模型本身易于做结 构分析、控制和预报,好从原始变量所构成的子集构分析、控制和预报,好从原始变量所构成的子集 合中选择最佳变量,构成最佳变量集合,用主成

51、分合中选择最佳变量,构成最佳变量集合,用主成分 分析筛选变量,可以用较少的计算量来选择变量,分析筛选变量,可以用较少的计算量来选择变量, 获得选择最佳变量子集合的效果。获得选择最佳变量子集合的效果。 62高级教育 附、主成分分析与因子附、主成分分析与因子 分析的区别分析的区别 63高级教育 因子分析因子分析 v主成分分析从原理上是寻找椭球的所有主主成分分析从原理上是寻找椭球的所有主 轴。原先有几个变量,就有几个主成分。轴。原先有几个变量,就有几个主成分。 v而因子分析是事先确定要找几个成分,这而因子分析是事先确定要找几个成分,这 里叫因子(里叫因子(factor)(比如两个),那就找)(比如两

52、个),那就找 两个。两个。 v这使得在数学模型上,因子分析和主成分这使得在数学模型上,因子分析和主成分 分析有不少区别。而且因子分析的计算也分析有不少区别。而且因子分析的计算也 复杂得多。根据因子分析模型的特点,它复杂得多。根据因子分析模型的特点,它 还多一道工序:因子旋转(还多一道工序:因子旋转(factor rotation );这个步骤可以使结果更好。);这个步骤可以使结果更好。 64高级教育 v对于计算机,因子分析并不费事。对于计算机,因子分析并不费事。 v从输出的结果来看,因子分析也有因子从输出的结果来看,因子分析也有因子 载荷(载荷(factor loading)的概念,代表)的概

53、念,代表 了因子和原先变量的相关系数。但是在了因子和原先变量的相关系数。但是在 因子分析公式中的因子载荷位置和主成因子分析公式中的因子载荷位置和主成 分分析不同。分分析不同。 v因子分析也给出了二维图;其解释和主因子分析也给出了二维图;其解释和主 成分分析的载荷图类似。成分分析的载荷图类似。 65高级教育 主成分分析与因子分析的公式上的区别主成分分析与因子分析的公式上的区别 111 11221 221 12222 1 122 pp pp pppppp ya xa xa x ya xa xax ya xaxa x 111 112211 221 122222 1 122 mm mm ppppmmp

54、 xa fa faf xa fafaf xafafaf 111 11221 221 12222 1 122 pp pp mmmmpp fxxx fxxx fxxx 主成分分析主成分分析 因子分析因子分析(mp) 因子得分因子得分 主成分载荷主成分载荷 旋转之后的旋转之后的 因子载荷因子载荷 因子得分因子得分 系数中的值系数中的值 66高级教育 对于学生成绩的数据,对于学生成绩的数据,SPSSSPSS因子分析输出因子分析输出 为为 Rotated Component MatrixRotated Component Matrix a a -.387.790 -.172.841 -.184.827

55、.879-.343 .911-.201 .913-.216 MATH PHYS CHEM LITERAT HISTORY ENGLISH 12 Component Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Rotation converged in 3 iterations.a. 67高级教育 这个表说明六个变量和因子的关系。这个表说明六个变量和因子的关系。 为简单记,我们用为简单记,我们用x1, x2, x3, x4, x5, x6来表示来表示math(数学),(数学), phys(物(物 理),理),chem(化学),(化学),literat(语(语 文),文),history(历史),(历史),english (英语)等变量。这样因子(英语)等变量。这样因子f1和和f2与与 这些原变量之间的关系是(注意,这些原变量之间的关系是(注意, 和主成分分析不同,这里把成分和主成分分析不同,这里把成分 (因子)写在方程的右边,把原变(因子)写在方程的右边,把原变 量写在左边;但相应的系数还是主量写

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论