多元统计分析讲义(第四章)(共16页)_第1页
多元统计分析讲义(第四章)(共16页)_第2页
多元统计分析讲义(第四章)(共16页)_第3页
多元统计分析讲义(第四章)(共16页)_第4页
多元统计分析讲义(第四章)(共16页)_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、注意电子文档使用范围多 元 统 计 分 析Multivariate Statistical Analysis主讲:统计学院 许启发(xuqifa1975)统计学院应用统计学教研室School of Statistics2004年9月第三章 主成分分析【教学目的】1 让学生了解主成分分析的背景、基本思想;2 掌握主成分分析的基本原理与方法;3 掌握主成分分析的操作步骤和基本过程;4 学会应用主成分分析解决实际问题。【教学重点】1 主成分分析的几何意义;2 主成分分析的基本原理。§1 概述一、 什么是主成分分析1研究背景在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。但是,

2、变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同。实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析及典型相关分析便是在这种降维的思维下产生的处理高维数据的统计方法。本章主要介绍主成分分析。主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分

3、析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。概括地说,主成分分析(principal component analysis)就是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。主成分概念最早是由Karl Parson于1901年引进的,1933年Hotelling把这个概念推广到随机向量。在实践中,主成分分析既可以单独使用,也可和其它方法结合使用,如主成分回归可克服多重共线性。2基本思想及意义哲学理念:抓住问题的主要矛盾。主成分

4、分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这个指标进行线性组合作为新的综合指标。问题是:这样的线性组合会很多,如何选择?如果将选取的第一个线性组合即第一个综合指标记为,希望它能尽可能多地反映原来指标的信息,即越大,所包含的原指标信息 度量信息最经典的方差是方差。就越多,的方差应该最大,称为第一主成分。如果第一主成分不足以代表原来个指标的信息,再考虑选取即选择第二个线性组合。为了有效地反映原来的信息,中已包含的信息,无须出现在中,即,称为第二主成分。仿此可以得到个主成分。我们可以发现这些主成分之间互不相关且方差递减,即数据的信息包含在前若干个主

5、成分中,因而只需挑选前几个主成分就基本上反映了原始指标的信息。这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的解决。二、 主成分分析的数学模型及几何意义1数学模型(总体主成分)设有个样品,每个样品观测个指标:,得到原始数据资料阵:。其中,。其协方差矩阵为它是一个阶半正定矩阵。设为个常数向量,考虑如下的线性组合 简记为易知有如果我们希望用代替原来p个变量,这就要求尽可能地反映原p个变量的信息。这里,“信息”用的方差来度量,即越大,表示所含的中的信息越多。但由方差的表达式可知,必须对加以限制,否则无界。而最方便的限制是要求所有具有单位长度,即因此,我们希望在约束条件之下,求使达到最大,由此

6、所确定的随机变量称为的第一主成分。如果第一主成分还不足以反映原变量的信息,考虑采用。为了有效地反映原变量的信息,中已有的信息就不必要再包含在中,用统计的语言来讲,要求与不相关,即于是,在约束条件及之下,求使达到最大,由此所确定的随机变量称为的第二主成分。一般地,在约束条件及之下,求使达到最大,由此所确定的随机变量称为的第主成分。2主成分的几何意义从代数学观点看主成分就是的一些特殊的线性组合,而在几何上这些线性组合正是把构成的坐标系旋转产生的新的坐标系,新坐标系使之通过样品方差最大化方向。下面以二元正态变量为例说明主成分的几何意义。当时,原变量是,设,它们有下图的相关关系:对于二元正态变量,个点

7、的散布大致是一个椭圆,在其长轴方向取坐标轴,在其短轴方向取坐标轴。这相当于在平面上作一坐标变换,即按逆时针方向旋转角度,得或这里的为正交矩阵,即。因此,在坐标系中有如下性质:(1)和为的线性组合;(2)与不相关;(3)与的总方差大部分归结为轴上,而轴上很少。几何意义:一般情况,个变量组成维空间,个样品点就是维空间的个点,对元正态分布变量来说,找主成分的问题就是找维空间中椭球体的主轴问题。§2 主成分的推导及性质这里首先从理论上给出总体主成分,探讨总体主成分的性质,而后再给出样本主成分。一、 总体主成分1总体主成分的推导设,其中且,。求主成分的过程就是寻找的线性组合,使相应的方差尽可能

8、地大的过程。设协差阵的特征根为,相应的正交单位特征向量为,则因此,所以,而事实上,当时有由此可知,在约束条件之下,当时,使达到最大值,且。同理可求,且结论:的主成分就是以的特征向量为系数的线性组合,它们互不相关,其方差为的特征根,主成分的名次是按照特征根大小的顺序排列的。2总体主成分的性质性质1:设为的主成分,则其协差阵为由的协差所对应特征根组成的对角阵。性质2:。证明:。NOTE:此性质说明各变量方差之和等于各个主成分的方差之和,即。因此,描述了第个主成分提取的信息占总信息量的份额。为此,可以给出方差贡献率和方差累积贡献率的定义。定义:称为第个主成分的方差贡献率,称为前个主成分的方差累积贡献

9、率。累积贡献率表明了前个主成分提取了中的总信息量的份额。在实际应用中,通常选取,使前个主成分的累积贡献率达到一定的比例(如85%)。这样用前个主成分代替原来的变量而不至于损失太多的信息,从而达到减少变量个数的目的。性质3:。证明:因为, 这里为第个分量为1其余分量为0的单位向量。并且使用了这个结论。所以,。3标准化变量的主成分 一个总体往往由个变量所组成,代表不同性质的个指标,具有不同的计量单位,使得主成分方差的大小取决于量纲的选择,从而导致各主成分方差大小排序的偏误。实施标准化后,使得不同变量或指标反映信息量的大小具有可比性。在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起个变

10、量取值的分散程度差异较大,这时,总体方差则主要受方差较大的变量的控制。若用求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令其中,。这时,的协方差矩阵便是的相关矩阵,其中利用的相关矩阵作主成分分析,平行于前面的结论,可以有如下的定理。定理:设为标准化的随机向量,其协方差矩阵(即的相关矩阵)为,则的第个主成分并且其中为相关矩阵的特征值,为相应的正交单位化特征向量。这时,第个主成分的贡献为,前个主成分的累积贡献为。4标准化和非标准化数据的主成分例:设协方差矩阵和对应的相关矩阵分别为,如果从出发作主成分分析,易求得其特征值

11、和相应的单位正交化特征向量为,则的两个主成分分别为,第一主成分的贡献率为我们看到由于的方差很大,它完全控制了提取信息量占99.2%的第一主成分(在中的系数为0.999),淹没了变量的作用。如果从相关矩阵出发求主成分,可求得其特征值和相应的单位正交化特征向量为,则的两个主成分分别为此时,第一个主成分的贡献率有所下降,为。由此看到,原变量在第一主成分中的相对重要性由于标准化而有很大的变化。在由所求得的第一主成分中的,和的权重系数分别为0.040和0.999,主要由大方差的变量控制。而在由所求得的第一主成分中,和的权重系数反而成了0.707和0.0707,即的相对重要性得到提升。此例也表明,由和求得

12、的主成分一般是不相同的,而且,其中一组主成分也不是第二组主成分的某简单函数。在实际应用中,当涉及的各变量的变化范围差异较大时,从出发求主成分比较合理。二、 样本主成分1样本主成分的导出面讨论的是总体主成分,但在实际问题中,一般(或)是未知的,需要通过样本来估计。设为取处的一个容量为的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为:其中,分别以和作为和的估计,按照前面所述方法,从样本协差阵和相关阵出发求出的主成分称为样本主成分。定理:设是样本协方差矩阵,其特征值为,相应的正交单位化特征向量为,则第个样本主成分为其中为的任一观测值。当依次代入的个观测值时,便得到第个样本主成分的个观测值。这时这

13、时,第个样本主成分的贡献率定义为:。同时为了消除量纲的影响,我们可以对样本进行标准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵。由出发所得的样本主成分称为标准化样本主成分。只要求出的特征值及相应的单位正交化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本的样本总方差为。证明:对于标准化数据矩阵,样本相关矩阵为,其中为相关矩阵的单位正交特征向量所组成的矩阵其特征根分别为,满足。现在考察从而新变量的样本方差为,即对于有最大的方差;有次大的方差,。并且协方差为由于所以,新变量的样本协方差结论:由推导过程可以看到,由变量,经过正交变换得到的新变量不仅彼此不相关,而且它们的方

14、差是特征根。这表明新变量就是所寻求的主成分,为了书写的方便用来表示。2样本主成分的性质性质1:第个主成分的系数向量是第个特征根所对应的标准化特征向量,即若,则性质2:第个主成分的方差为第个特征根,且任意两个主成分都是不相关的,也就是主成分的样本协方差矩阵是对角矩阵。性质3:样本主成分的总方差等于原变量样本的总方差,即事实上,性质4:第个主成分与第个变量样本之间的相关系数为:, 证明过程详见孙慧钧P99。性质4表明特征向量的第个分量描述了第个变量对第个主成分的重要性。习惯上称主成分与变量的相关系数为中变量的载(负)荷量。性质5:第个主成分对所有变量的载荷量平方之和为主成分的方差,即,它表示主成分

15、对的总方差贡献,并等于对每个方差贡献之和。性质6:所有主成分对变量的总方差贡献为,三、 主成分个数的选取我们知道,主成分分析的根本目的是把复杂的高维空间的(样本)点降至低维空间进行处理分析,这种降维要在尽量不损失原维空间信息的基础上进行。而信息总量的多少已经过数据的正交变换集中反映在新变量的总方差上,即。而根据特征根的性质知道:前面的特征根取值较大。因此,在实际研究过程只取个主成分中的前个进行讨论,因为它集中了信息总量的绝大部分。到底选择多少进行分析合适?需要确定相应的准则。185%原则 该原则是在实践中总结出来的,与其它原则相比,通常有选取较多主成分的倾向。记方差的累积贡献率为根据我国主成分

16、分析的实践来看,通常可以保证分析结果的可靠性。2的原则 实践中,该准则通常容易选取较少的主成分。先计算,然后将与之进行比较,选取的前个变量的主成分。由于由样本数据的相关矩阵所求得,所以,故只要选取的前个变量作为主成分即可。3斯格理(Screet)原则 这是从相反的方向来确定主成分的一种做法。实践中,该准则也倾向于选择较多的主成分,而且一般不单独使用。具体做法:计算特征根的差,如果前个比较近,即出现了较为稳定的差值,则后个变量可以确定为非主成分。4巴特莱特检验(Bartlet)原则 该检验的精确性受到样本容量大小的影响,当较小时,有可能低估突出变量的数目;当较大时,有可能高估突出变量的数目。检验

17、的原假设是最后个分量均等于或不显著地大于零。检验统计量:其中:,具体做法:从开始,一直检验到最后个个变量不显著为止。§3 主成分的解释主成分是原始变量进行线性组合所得到的新变量,对于这些新变量赋予恰当的含义是主成分分析中至关重要的一个环节。同时,应该注意主成分分析的使用场合。一、 主成分的解释对主成分经济意义的解释,通常只能结合被研究事物的具体指标及其变量系数的大小作出,归纳起来主要有以下几种解释思路或方法。1从特征向量的各个分量数值的大小入手进行分析与概括表明了变量与主成分之间的关系。主成分在变量上的系数越大,说明该主成分主要代表了该变量的信息;反之,若越接近于0,则表明几乎没有该

18、变量什么信息。2从特征向量的各个分量数值的符号入手进行分析与概括主成分系数的符号表明了变量与主成分之间的作用关系,一般地,正号表示变量与主成分的作用同方向;而负号则表示变量与主成分作用是逆向变动关系。3如果变量分组较有规则,则从特征向量各分量数值作出组内、组间对比分析4如果主成分中,各变量的系数都大致相同,则要考虑是否存在一个一般性的影响因素二、 主成分分析适应的场合由主成分分析的基本原理可知,其主要作用就是将若干相关指标进行综合,根据相关程度的高低可以得出主成分的作用效果不完全相同,现将其归纳如下:3不完全相关主成分分析效果较好可以实施主成分分析高度相关中度相关低度相关1完全相关2完全不相关

19、不必实施主成分分析三、 主成分分析的基本步骤(计算过程)STEP01:将原始数据进行标准化,得;STEP02:计算的相关系数矩阵;STEP03:求相关系数矩阵的特征根及相应的单位正交特征向量;STEP04:计算方差累积贡献率,确定主成分的个数;STEP05:写出主成分,解释其实际经济意义并指导实践。§4 主成分分析法的应用一、 主成分分析在经营管理中的应用1企业经济效益分析某主管局管辖20个工厂,现要对每个工厂作经济效益分析,经研究确定从所取得的生产成果同所消耗的人力、物力、财力的比率,选取五个指标(或变量)作分析。:固定资产产值率;:净产值劳动生产率;:百元产值流动资金占用率;:百

20、元产值利润率;:百元资金利润率;对这20个工厂同时按照这五个指标收集数据(孙慧钧P107)。解答:STEP01:将原始数据进行标准化,得;1-1.02 0.97 0.13 2.03 0.81 2-1.04 -0.96 0.85 -0.43 -0.90 3-1.25 0.69 1.20 1.36 -0.46 40.20 1.02 0.49 0.58 0.00 5-0.26 -1.07 0.13 -0.52 -0.11 6-1.29 -0.98 1.86 -0.21 -1.08 7-0.63 0.22 -0.29 1.02 0.61 80.21 0.33 -0.57 -0.46 -0.13 9-0

21、.71 0.39 -0.51 -0.32 -0.86 10-0.59 -0.28 0.48 -0.22 -0.57 111.60 2.32 -0.91 0.64 2.34 120.35 0.04 -1.58 0.01 0.24 131.34 -0.06 -0.96 -1.10 0.09 141.06 -0.08 -0.66 -1.17 -0.54 151.15 -0.62 -0.73 -1.46 -0.81 16-0.72 -1.35 0.12 -0.99 -1.05 171.34 1.46 -1.10 -0.31 1.04 180.17 -1.16 -0.04 -1.08 -0.52 191

22、.28 0.45 -0.32 1.18 2.35 20-1.18 -1.36 2.38 1.43 -0.45 STEP02:计算的相关系数矩阵;STEP03:求相关系数矩阵的特征根及相应的单位正交特征向量;表1 相关系数矩阵的特征值及方差累积贡献率 表2 相关系数矩阵的特征值所对应的特征向量STEP04:计算方差累积贡献率,确定主成分的个数;根据85%原则,可以选择个主成分。STEP05:写出主成分,解释其实际经济意义并指导实践。表3 前2个主成分的组成变量主成分0.5030.499-0.4730.0690.518-0.3450.2870.3840.7470.309根据分析,在综合其它变量所反

23、映信息的基础上,突出地反映了经营能力的大小。在综合其它变量所反映信息的基础上,突出地反映了企业盈利水平的高低。2食品业的经营决策某食品企业在对“未来开发方针的目标”作出决策之前,要进行广泛的社会调查,以研究广大消费者对各种食品的嗜好程度。通常是将消费者按男、女及年龄共分10个组作调查,如表所示表 调查对象分组性别男性女性组号12345678910年龄(岁)15以下15-2020-3030-4040以上15以下15-2020-3030-4040以上为了能从每个小组得到充分的信息,每个小组都至少调查50名消费者,共发出785张调查表。在每张调查表中,列出100种食品,要求每个消费者按自己的嗜好程度

24、对每种食品给予评分。最受欢迎的食品给9分,最不受欢迎的给1分。收回所有调查表后,作出初步汇总,即以小组为单元,在每个小组中,各成员都对这100种食品给予评分,求出每小组对每种食品的评分的均值,这样每个小组就有100个数据。根据STEP01STEP04的分析,只需选择前3个主成分即可,这3个主成分为:变量主成分0.2860.3310.3230.2990.2610.3090.3440.3480.3460.3030.4430.235-0.172-0.364-0.5090.4090.2560.036-0.160-0.2600.1940.3360.4420.3750.123-0.034-0.174-0.

25、290-0.322-0.522下面进行STEP05,即分析主成分的经济意义及作用。在第一主成分中,每个变量的系数都在0.3左右,这表明反映了同年龄、性别无关的公共平均嗜好程度,即人们普遍的嗜好程度。由于的方差贡献达到68.26%,所以如果充分考虑人们普遍的嗜好,作出经营决策就有七成把握。在第二主成分中,不论男性或女性都有着共同的规律,即年龄小的系数为正值,年龄大的系数为负值,而且随年龄增大而下降。于是在综合了各小组的信息基础上,突出反映了年龄的嗜好程度。在第三主成分中,男性的系数为正值,女性的系数为负值,因而明显地反映了性别的嗜好程度。综上所述,食品加工业的经营决策,只需从三个方面充分地考虑:

26、人们喜欢吃与不喜欢吃的;青少年喜欢吃的,成人喜欢吃的;男性喜欢吃的,女性喜欢吃的。二、 主成分分析在经济指标综合评价中的应用在实际工作中,多指标的综合评价不仅要求对被评事物(样本点)给出一个诸多方面的综合描述,更需要用一个总指标来说明被评事物的一般水平,通过排序确定其在总体中的相对位置,以便对被评事物之间作对比分析。主成分分析就满足这样的要求,在多指标综合评价中显示出较强的优越性,主要表现在:第一,主成分分析在对数据作标准化处理中,抽象掉各变量的异度量性,抽象掉各指标(变量)的实际经济内涵,使各指标不受计量单位、数量级的影响,能够通过数值的大小进行对比分析和综合。第二,主成分分析通过正交变换寻找主成分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论