主成分分析多元统计分析课件人大何晓群实用教案_第1页
主成分分析多元统计分析课件人大何晓群实用教案_第2页
主成分分析多元统计分析课件人大何晓群实用教案_第3页
主成分分析多元统计分析课件人大何晓群实用教案_第4页
主成分分析多元统计分析课件人大何晓群实用教案_第5页
已阅读5页,还剩108页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1主成分分析多元主成分分析多元(du yun)统计分析课件人统计分析课件人大何晓群大何晓群第一页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心2 目录(ml) 上页 下页 返回 结束 5.1 5.1 主成分分析的基本思想与理论主成分分析的基本思想与理论5.2 5.2 主成分分析的几何意义主成分分析的几何意义5.3 5.3 总体主成分及其性质总体主成分及其性质5.4 5.4 样本主成分的导出样本主成分的导出5.5 5.5 有关问题的讨论有关问题的讨论5.6 5.6 主成分分析步骤及框图主成分分析步骤及框图5.7 5.7 主成分分析的上机实现主成分分析

2、的上机实现第1页/共113页第二页,共113页。2021-11-25中国人民大学六西格玛质量管理(gunl)研究中心3 目录(ml) 上页 下页 返回 结束 主成分分析主成分分析(principal components analysis)也称主分量分析,)也称主分量分析,是由霍特林(是由霍特林(Hotelling)于于19331933年首先提出的。主成分分析是利年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之个综合指标的多元统计方法。通常把转化生成的综

3、合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。本章主要介绍主成分分析的基本理论和方法、主成

4、分分效率。本章主要介绍主成分分析的基本理论和方法、主成分分析的计算步骤及主成分分析的上机实现。析的计算步骤及主成分分析的上机实现。第2页/共113页第三页,共113页。2021-11-25中国人民大学六西格玛质量管理(gunl)研究中心4 目录(ml) 上页 下页 返回 结束 5.1 5.1 主成分主成分(chng fn)(chng fn)分析的基本思分析的基本思想与理论想与理论5.1.1 5.1.1 主成分分析的基本思想主成分分析的基本思想5.1.2 5.1.2 主成分分析的基本理论主成分分析的基本理论第3页/共113页第四页,共113页。2021-11-25中国人民大学六西格玛质量管理(g

5、unl)研究中心5 目录 上页 下页 返回(fnhu) 结束 5.1.1 5.1.1 主成分主成分(chng fn)(chng fn)分析的分析的基本思想基本思想 在对某一事物进行实证研究中,为了更全面、准确地在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着

6、考虑指标的增多增加了虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原

7、来变量绝大多数信息的一种多元统计方法。来解释原来变量绝大多数信息的一种多元统计方法。第4页/共113页第五页,共113页。2021-11-25中国人民大学六西格玛质量管理研究(ynji)中心6 目录(ml) 上页 下页 返回 结束 5.1.1 5.1.1 主成分分析的基本主成分分析的基本(jbn)(jbn)思思想想 既然研究某一问题涉及的众多变量之间有一定的相关性,既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量相关矩阵或协方差矩

8、阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:主成分分析得到的主成分与原始变量之间有如下基本关系:1.每一个主成分都是各原始变量的线性组合;每一个主成分都是各原始变量的线性组合;2.主成分的数目大大少于原始变量的数目主成分的数目大大少于原始变量的数目第5页

9、/共113页第六页,共113页。2021-11-25中国人民大学六西格玛质量管理研究(ynji)中心7 目录(ml) 上页 下页 返回 结束 5.1.1 5.1.1 主成分分析主成分分析(fnx)(fnx)的基本的基本思想思想3.主成分保留了原始变量绝大多数信息4.各主成分之间互不相关 通过主成分分析,可以从事物之间错综复杂的通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次系,得到对事物特征及其

10、发展规律的一些深层次的启发,把研究工作引向深入。的启发,把研究工作引向深入。第6页/共113页第七页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心8 目录(ml) 上页 下页 返回 结束 5.1.2 5.1.2 主成分分析主成分分析(fnx)(fnx)的基的基本理论本理论 设对某一事物的研究涉及个设对某一事物的研究涉及个 指标,分别用指标,分别用 表表示,这个示,这个 指标构成的指标构成的 维随机向量为维随机向量为 。设。设随机向量随机向量 的均值为的均值为 ,协方差矩阵为,协方差矩阵为 。pPXXX,21pp),(21pXXXXX 对对 进行线性变换,

11、可以形成新的综合变量,用进行线性变换,可以形成新的综合变量,用 表示,表示,也就是说,新的综合变量可以由原来的变量线性表示,即满也就是说,新的综合变量可以由原来的变量线性表示,即满足下式:足下式:XY pppppppppXuXuXuXuXuXuYXuXuXuY2211p2222121212121111Y(5.1)(5.1)第7页/共113页第八页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心9 目录 上页 下页 返回(fnhu) 结束 5.1.2 5.1.2 主成分分析的基本主成分分析的基本(jbn)(jbn)理论理论 由于可以任意地对原始变量进行上述线

12、性变换由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量,由不同的线性变换得到的综合变量 的统计特性的统计特性也不尽相同。因此为了取得较好的效果,我们总是也不尽相同。因此为了取得较好的效果,我们总是希望希望 的方差尽可能大且各的方差尽可能大且各 之间互相独立之间互相独立,由于,由于 YXuiiYiY )var()var(XuiiYiiuu =而对任给的常数而对任给的常数 ,有,有c)var(Xuiccciiuu2ciiuu 第8页/共113页第九页,共113页。2021-11-25中国人民大学六西格玛质量管理(gunl)研究中心10 目录 上页 下页 返回(fnhu) 结

13、束 5.1.2 5.1.2 主成分主成分(chng fn)(chng fn)分析分析的基本理论的基本理论 因此对因此对 不加限制时,可使不加限制时,可使 任意增大,问题将变得没任意增大,问题将变得没有意义。我们将线性变换约束在下面的原则之下:有意义。我们将线性变换约束在下面的原则之下:iu)var(iY1iiuu122221 ipiiuuu。),.2 , 1(pi 1,即: 2 与iY相互无关jY ;(ji 。),.2 , 1,pji 3 3. . 是是 的一切满足原则的一切满足原则1 1的线性组合中方差的线性组合中方差最大者;最大者; 是与是与 不相关的不相关的 所有线性组合中方差所有线性组

14、合中方差最大者;最大者;, , 是与是与 都不相关的都不相关的 的所的所有线性组合中方差最大者。有线性组合中方差最大者。1Y1Y2YPXXX,21121,PYYYpYPXXX,21PXXX,21第9页/共113页第十页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心11 目录(ml) 上页 下页 返回 结束 5.1.2 5.1.2 主成分分析主成分分析(fnx)(fnx)的基的基本理论本理论 基于以上三条原则决定的综合变量基于以上三条原则决定的综合变量 分分别称为原始变量的第一、第二、别称为原始变量的第一、第二、第、第 个主成分个主成分。其中,各综合变量在

15、总方差中占的比重依次递减。其中,各综合变量在总方差中占的比重依次递减,在实际研究工作中,通常只挑选前几个方差最大,在实际研究工作中,通常只挑选前几个方差最大的主成分,从而达到简化系统结构,抓住问题实质的主成分,从而达到简化系统结构,抓住问题实质的目的。的目的。PYYY,21p第10页/共113页第十一页,共113页。2021-11-25中国人民大学六西格玛质量管理(gunl)研究中心12 目录(ml) 上页 下页 返回 结束 5.2 5.2 主成分分析的几何主成分分析的几何(j h)(j h)意义意义 由第一节的介绍我们知道,在处理涉及多个指标问题的时由第一节的介绍我们知道,在处理涉及多个指标

16、问题的时候,为了提高分析的效率,可以不直接对候,为了提高分析的效率,可以不直接对 个指标构成的个指标构成的 维维随机向量随机向量 进行分析,而是先对向量进行分析,而是先对向量 进行线进行线性变换,形成少数几个新的综合变量性变换,形成少数几个新的综合变量 ,使得各综,使得各综合变量之间相互独立且能解释原始变量尽可能多的信息,这合变量之间相互独立且能解释原始变量尽可能多的信息,这样,在以损失很少部分信息为代价的前提下,达到简化数据样,在以损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。这一节,我们着重讨论主成分结构,提高分析效率的目的。这一节,我们着重讨论主成分分析的几何意义

17、,为了方便,我们仅在二维空间中讨论主成分析的几何意义,为了方便,我们仅在二维空间中讨论主成分的几何意义,所得结论可以很容易地扩展到多维的情况。分的几何意义,所得结论可以很容易地扩展到多维的情况。pp),(21pXXXXXPYYY,21第11页/共113页第十二页,共113页。2021-11-25中国人民大学六西格玛质量管理研究(ynji)中心13 目录(ml) 上页 下页 返回 结束 5.2 5.2 主成分分析主成分分析(fnx)(fnx)的几何意的几何意义义 设有设有 个样品,每个样品有两个观测变量个样品,每个样品有两个观测变量 ,这样,这样,在由变量在由变量 组成的坐标空间中,组成的坐标空

18、间中, 个样品点散布的情况如个样品点散布的情况如带状,见图带状,见图5-15-1。N21,XX21,XXN图图5-15-1第12页/共113页第十三页,共113页。2021-11-25中国人民大学六西格玛质量管理研究(ynji)中心14 目录(ml) 上页 下页 返回 结束 5.2 5.2 主成分分析主成分分析(fnx)(fnx)的几何意义的几何意义 由图可以看出这由图可以看出这 个样品无论沿个样品无论沿 轴方向还是沿轴方向还是沿 轴方向均轴方向均有较大的离散性,其离散程度可以分别用观测变量有较大的离散性,其离散程度可以分别用观测变量 的方差和的方差和 的方差定量地表示,显然,若只考虑的方差定

19、量地表示,显然,若只考虑 和和 中的任何一个,原中的任何一个,原始数据中的信息均会有较大的损失。我们的目的是考虑始数据中的信息均会有较大的损失。我们的目的是考虑 和和 的线性组合,使得原始样品数据可以由新的变量的线性组合,使得原始样品数据可以由新的变量 和和 来刻画来刻画。 在几何上表示就是将坐标轴按逆时针方向旋转在几何上表示就是将坐标轴按逆时针方向旋转 角度,得到角度,得到新坐标轴新坐标轴 和和 ,坐标旋转公式如下:,坐标旋转公式如下: N1X2X1X2X1X2X1X2X1Y2Y1Y2Ycossinsincos212211XXYXXY第13页/共113页第十四页,共113页。2021-11-

20、25中国人民大学六西格玛质量管理(gunl)研究中心15 目录 上页 下页 返回(fnhu) 结束 5.2 5.2 主成分分析的几何主成分分析的几何(j h)(j h)意意义义 其矩阵形式为:其矩阵形式为:1122cossinsincosYXYXU X其中,其中, 为旋转变换矩阵,由上式可知它是正交阵,为旋转变换矩阵,由上式可知它是正交阵,即满足即满足U,UU1IUU 第14页/共113页第十五页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心16 目录(ml) 上页 下页 返回 结束 5.2 5.2 主成分分析的几何主成分分析的几何(j h)(j h)意

21、意义义 经过这样的旋转之后,经过这样的旋转之后, 个样品点在个样品点在 轴上的离散程度最轴上的离散程度最大,变量大,变量 代表了原始数据绝大部分信息,这样,有时在研代表了原始数据绝大部分信息,这样,有时在研究实际问题时,即使不考虑变量究实际问题时,即使不考虑变量 也无损大局。因此,经过也无损大局。因此,经过上述旋转变换就可以把原始数据的信息集中到上述旋转变换就可以把原始数据的信息集中到 轴上,对数轴上,对数据中包含的信息起到了浓缩的作用。进行主成分分析的目的据中包含的信息起到了浓缩的作用。进行主成分分析的目的就是找出转换矩阵就是找出转换矩阵 ,而进行主成分分析的作用与几何意义,而进行主成分分析

22、的作用与几何意义也就很明了了。下面我们用遵从正态分布的变量进行分析,也就很明了了。下面我们用遵从正态分布的变量进行分析,以使主成分分析的几何意义更为明显。为方便,我们以二元以使主成分分析的几何意义更为明显。为方便,我们以二元正态分布为例。对于多元正态总体的情况,有类似的结论。正态分布为例。对于多元正态总体的情况,有类似的结论。 N1Y1Y2Y1YU第15页/共113页第十六页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心17 目录(ml) 上页 下页 返回 结束 5.2 5.2 主成分主成分(chng fn)(chng fn)分析的几何分析的几何意义意义

23、设变量设变量 遵从二元正态分布,分布密度为遵从二元正态分布,分布密度为:21XX 、)()(2)()1 (21exp121),(2222122112221222112222122121XXXXXXf 令令 为变量为变量 的协方差矩阵,其形式如下的协方差矩阵,其形式如下:21XX 、2221212121XXX21 令 则上述二元正态分布的密度函数有如下矩阵形式则上述二元正态分布的密度函数有如下矩阵形式:第16页/共113页第十七页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心18 目录(ml) 上页 下页 返回 结束 5.2 5.2 主成分主成分(chng

24、 fn)(chng fn)分析的几何分析的几何意义意义)()(2/12/1211|21),(XXeXXf考虑考虑 ( 为常数),为方便,不妨设为常数),为方便,不妨设21)()(dXXd0 上式有如下展开形式:上式有如下展开形式:222222112112211dXXXX令令 ,则上面的方程变为:,则上面的方程变为:,/111 XZ222/XZ ).1 (222222121dZZZZ第17页/共113页第十八页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心19 目录(ml) 上页 下页 返回 结束 5.2 5.2 主成分主成分(chng fn)(chng

25、fn)分析的几何分析的几何意义意义这是一个椭圆的方程,长短轴分别为:这是一个椭圆的方程,长短轴分别为:12d又令又令 为为 的特征值,的特征值, 为相应的标准正交特为相应的标准正交特征向量征向量.02121, 则则 为正交阵,为正交阵, 有:有: ),(21PP,0021PP PP,11因此有因此有: XX)X()X(112d)0(XPPX) ( 1XX) 11( 222111222211)(1)(1XX222121YY 第18页/共113页第十九页,共113页。2021-11-25中国人民大学六西格玛质量管理(gunl)研究中心20 目录(ml) 上页 下页 返回 结束 5.2 5.2 主成

26、分分析的几何主成分分析的几何(j h)(j h)意意义义 与上面一样,这也是一个椭圆方程,且在与上面一样,这也是一个椭圆方程,且在 构成的坐标系构成的坐标系中,其主轴的方向恰恰正是中,其主轴的方向恰恰正是 坐标轴的方向。因为坐标轴的方向。因为 所以,所以, 就是原始变量就是原始变量 的两个主成分,它们的的两个主成分,它们的方差分别为方差分别为 ,在,在 方向上集中了原始变量方向上集中了原始变量 的变差,在的变差,在 方方向上集中了原始变量向上集中了原始变量 的变差,经常有的变差,经常有 远大于远大于 ,这样,我们,这样,我们就可以只研究原始数据在就可以只研究原始数据在 方向上的变化而不致于损失

27、过多信方向上的变化而不致于损失过多信息,而息,而 就是椭圆在原始坐标系中的主轴方向,也是坐标轴就是椭圆在原始坐标系中的主轴方向,也是坐标轴转换的系数向量。对于多维的情况,上面的结论依然成立。转换的系数向量。对于多维的情况,上面的结论依然成立。21,YY21,YY,X11Y,X22Y21,YY21, XX21,1Y12Y2121Y21, 这样,我们就对主成分分析的几何意义有了一个充分的了解。主这样,我们就对主成分分析的几何意义有了一个充分的了解。主成分分析的过程无非就是坐标系旋转的过程,各主成分表达式就是新成分分析的过程无非就是坐标系旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,在

28、新坐标系中,各坐标轴的方向就是坐标系与原坐标系的转换关系,在新坐标系中,各坐标轴的方向就是原始数据变差最大的方向。原始数据变差最大的方向。 第19页/共113页第二十页,共113页。2021-11-25中国人民大学六西格玛质量管理(gunl)研究中心21 目录 上页 下页 返回(fnhu) 结束 5.3 5.3 总体总体(zngt)(zngt)主成分及其主成分及其性质性质 由上面的讨论可知,求解主成分的过程就是由上面的讨论可知,求解主成分的过程就是求满足三条原则的原始变量求满足三条原则的原始变量 的线性的线性组合的过程。本节先从总体出发,介绍求解主组合的过程。本节先从总体出发,介绍求解主成分的

29、一般方法及主成分的性质,然后介绍样成分的一般方法及主成分的性质,然后介绍样本主成分的导出。本主成分的导出。PXXX,21第20页/共113页第二十一页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心22 目录(ml) 上页 下页 返回 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主成主成分分 主成分分析的基本思想就是在保留原始变量尽可能多的信息主成分分析的基本思想就是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。而这里对于随机变量的主要矛

30、盾。而这里对于随机变量 而言,其协方差而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反应,而相关矩阵不过是将原始变量标准化后的协方的信息的反应,而相关矩阵不过是将原始变量标准化后的协方差矩阵。我们所说的保留原始变量尽可能多的信息,也就是指差矩阵。我们所说的保留原始变量尽可能多的信息,也就是指的生成的较少的综合变量(主成分)的方差和尽可能接近原始的生成的较少的综合变量(主成分)的方差和尽可能接近原始变量方差的总和。因此在实际求解主成分的时候,总是从原始变量方差的总和。因此在实际求解主成分的时候,总是从原始变量的协

31、方差矩阵或相关矩阵的结构分析入手。一般地说,从变量的协方差矩阵或相关矩阵的结构分析入手。一般地说,从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的。下面我们分别就协方差矩阵矩阵出发求得的主成分是不同的。下面我们分别就协方差矩阵与相关矩阵进行讨论。与相关矩阵进行讨论。PXXX,21第21页/共113页第二十二页,共113页。2021-11-25中国人民大学六西格玛质量管理研究(ynji)中心23 目录 上页 下页 返回(fnhu) 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主主成分成分(

32、1)(1)从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分引论:设矩阵引论:设矩阵 ,将,将 的特征值的特征值 依大小顺序依大小顺序排列,不妨设排列,不妨设 , 为为 矩阵各特征值对矩阵各特征值对应的标准正交特征向量,则对任意向量,有:应的标准正交特征向量,则对任意向量,有:AA An, 21n21p, 21A1maxxxAxx0 xnxxAxx0 xmin(5.2) 证明:对证明:对 与单位阵与单位阵 进行谱分解,可以写成下面的式子进行谱分解,可以写成下面的式子: AI1niiiiA1niiiI而对任意向量而对任意向量 ,有,有 ,于是有,于是有xniiia1xniiniiiaa1212

33、xxAxx第22页/共113页第二十三页,共113页。2021-11-25中国人民大学六西格玛质量管理(gunl)研究中心24 目录 上页 下页 返回(fnhu) 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主成分主成分类似的,我们可以得出:类似的,我们可以得出: 1,.2, 1maxkkixxAxx0 x0 xinkixxAxx0 x0 xi,.2, 1min于是,自然有于是,自然有1121211212maxmaxniiniiniiniiiaaaa0 x0 xxxAxxnniiniinniiniiixaaaa121212120minminxxAxx0 x 第23页/共113

34、页第二十四页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心25 目录(ml) 上页 下页 返回 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主成主成分分 证明:由引论知,对于任意常向量证明:由引论知,对于任意常向量 ,有,有: 又又 为标准正交特征向量,于是:为标准正交特征向量,于是:u1maxuuuu0ui01jijiji 证明:由引论知,对于任意常向量证明:由引论知,对于任意常向量 ,有,有: 又又 为标准正交特征向量,于是:为标准正交特征向量,于是:u1maxuuuu0ui01jijiji 此时: (5.3) 结论:结论: 设随机

35、向量设随机向量 的协方差矩阵为的协方差矩阵为 , 为为 的特征值,的特征值, 为矩阵为矩阵 各特征值对应各特征值对应的标准正交特征向量,则第的标准正交特征向量,则第 i个主成分为:个主成分为:),.,(21pXXXXp 21n, 21AppiiiiXXXY 2211),.,2 , 1(pi 0),cov(jijiYY)(ji iiiiY )var( 结论:结论: 设随机向量设随机向量 的协方差矩阵为的协方差矩阵为 , 为为 的特征值,的特征值, 为矩阵为矩阵 各特征值对应各特征值对应的标准正交特征向量,则第的标准正交特征向量,则第 i个主成分为:个主成分为:),.,(21pXXXXp 21n,

36、 21AppiiiiXXXY 2211),.,2 , 1(pi )(ji iiiiY )var( 0),cov(jijiYY第24页/共113页第二十五页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心26 目录 上页 下页 返回(fnhu) 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主主成分成分 且:ipkikkikii1令令 ,则有,则有iiu )var(max111111Yuuuu0u类似的,有类似的,有)var(max111111,.,2, 1kkkkkkkiYuuuu0u0ui0),cov(1ijipkjkkikjijiYY第

37、25页/共113页第二十六页,共113页。2021-11-25中国人民大学六西格玛质量管理(gunl)研究中心27 目录 上页 下页 返回(fnhu) 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主主成分成分 由以上结论,我们把由以上结论,我们把 的协方差矩阵的协方差矩阵 的非零特的非零特征值征值 对应的标准化特征向量对应的标准化特征向量 分别分别作为系数向量,作为系数向量, 分别称为随机向分别称为随机向量量 的第一主成分、第二主成分、的第一主成分、第二主成分、第、第 主成分。主成分。 的分量的分量 依次是依次是 的第一主成分、第二主成分、的第一主成分、第二主成分、第、第 主

38、成主成分的充分必要条件是:分的充分必要条件是:pXXX,.21p, 21021 pXXX2211ppYYY ,XpYPYYY,21pX(1 1) ,即,即 为为 阶正交阵;阶正交阵;(2 2) 的分量之间互不相关;的分量之间互不相关;(3 3) 的的 个分量是按方差由大到小排列。个分量是按方差由大到小排列。IuuXuY,upYYp第26页/共113页第二十七页,共113页。2021-11-25中国人民大学六西格玛质量管理研究(ynji)中心28 目录(ml) 上页 下页 返回 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主主成分成分 于是随机向量于是随机向量 与随机向量与随机

39、向量 之间存在下面的关系式:之间存在下面的关系式: XYXuuuX uY21ppppppppXXXuuuuuuuuu21212222111211ppXXX2121(5.4) 注:无论注:无论 的各特征根是否存在相等的情况,对应的标准化的各特征根是否存在相等的情况,对应的标准化特征向量特征向量 总是存在的,我们总可以找到对应各特总是存在的,我们总可以找到对应各特征根的彼此正交的特征向量。这样,求主成分的问题就变成征根的彼此正交的特征向量。这样,求主成分的问题就变成了求特征根与特征向量的问题。了求特征根与特征向量的问题。p, 21第27页/共113页第二十八页,共113页。2021-11-25中国

40、人民大学六西格玛质量管理研究(ynji)中心29 目录(ml) 上页 下页 返回 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主成主成分分 (二)主成分的性质(二)主成分的性质 性质性质1 1 的协方差阵为对角阵的协方差阵为对角阵 。 这一性质可由上述结论容易得到,证明略。这一性质可由上述结论容易得到,证明略。 Y性质性质2 2 记记 ,有,有 ppij)(piiipii11 证明证明: 记记 则有则有 于是于是),(21pPPPpipiiiitrtrtrtr11)()() ()(PPPP第28页/共113页第二十九页,共113页。2021-11-25中国人民大学六西格玛质量

41、(zhling)管理研究中心30 目录(ml) 上页 下页 返回 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主主成分成分 定义定义 5.1 5.1 称称 为第为第 个主成分个主成分 的的方方差贡献率,称差贡献率,称 为主成分为主成分 的累积贡献率。的累积贡献率。 pkk21pk, 2 , 1kkYpiimii11mYYY,21 由此进一步可知,主成分分析是把个由此进一步可知,主成分分析是把个 随机变量的总方差随机变量的总方差 分解为分解为 个不相关的随机变量的方差之和,使第一主成分的方差个不相关的随机变量的方差之和,使第一主成分的方差达到最大,第一主成分是以变化最大的方向向

42、量各分量为系数达到最大,第一主成分是以变化最大的方向向量各分量为系数的原始变量的线性函数,最大方差为的原始变量的线性函数,最大方差为 。 表明了表明了 的方差的方差在全部方差中的比值,称在全部方差中的比值,称 为第一主成分的贡献率。这个值越为第一主成分的贡献率。这个值越大,表明大,表明 这个新变量综合这个新变量综合 信息的能力越强,信息的能力越强,也即由也即由 的差异来解释随机向量的差异来解释随机向量 的差异的能力越强。的差异的能力越强。 pppiii11i1111Xu 11YpXXX,.21Xu 1X第29页/共113页第三十页,共113页。2021-11-25中国人民大学六西格玛质量管理(

43、gunl)研究中心31 目录(ml) 上页 下页 返回 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主主成分成分正因如此,才把正因如此,才把 称为称为 的主成分。进而我们就更清楚为的主成分。进而我们就更清楚为什么主成分的名次是按特征根什么主成分的名次是按特征根 取值的大小排序的取值的大小排序的。 Xu 11YXp,21 进行主成分分析的目的之一是为了减少变量的个数,所以进行主成分分析的目的之一是为了减少变量的个数,所以一般不会取一般不会取 个主成分,而是取个主成分,而是取 个主成分,个主成分, 取多少比较取多少比较合适,这是一个很实际的问题,通常以所取合适,这是一个很实际的问

44、题,通常以所取 使得累积贡献率使得累积贡献率达到达到8585以上为宜,即以上为宜,即ppm mm%8511piimii(5.5)(5.5) 这样,既能使损失信息不太多,又达到减少变量,简化问这样,既能使损失信息不太多,又达到减少变量,简化问题的目的。另外,选取主成分还可根据特征值的变化来确定。题的目的。另外,选取主成分还可根据特征值的变化来确定。图图5-25-2为为SPSSSPSS统计软件生成的碎石图。统计软件生成的碎石图。 第30页/共113页第三十一页,共113页。2021-11-25中国人民大学六西格玛质量管理研究(ynji)中心32 目录(ml) 上页 下页 返回 结束 5.3.1 5

45、.3.1 总体总体(zngt)(zngt)主成分主成分 图图5-25-2 由图由图5-25-2可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所以,取前两个或是前三个主成分是比较合适的。这种方法确定的主成分个数以,取前两个或是前三个主成分是比较合适的。这种方法确定的主成分个数与按累积贡献率确定的主成分个数往往是一致的。在实际应用中有些研究工与按累积贡献率确定的主成分个数往往是一致的。在实际应用中有些研究工作者习惯于保留特征值大于作者习惯于保留特征值大于1 1的那些主成分,但这种方法缺乏完善的理论支的那些主成分,但这种方法缺乏完善的理

46、论支持。在大多数情况下,当持。在大多数情况下,当 时即可使所选主成分保持信息总量的比重达到时即可使所选主成分保持信息总量的比重达到8585以上。以上。3m第31页/共113页第三十二页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心33 目录(ml) 上页 下页 返回 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主主成分成分 定义定义5.2 5.2 第第 个主成分个主成分 与原始变量与原始变量 的相关系数的相关系数 称做称做因子负荷量。因子负荷量。 因子负荷量是主成分解释中非常重要的解释依据,因子负因子负荷量是主成分解释中非常重要的解释依

47、据,因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因。在下荷量的绝对值大小刻画了该主成分的主要意义及其成因。在下一章因子分析中还将要对因子负荷量的统计意义给出更详细的一章因子分析中还将要对因子负荷量的统计意义给出更详细的解释。由下面的性质我们可以看到因子负荷量与系数向量成正解释。由下面的性质我们可以看到因子负荷量与系数向量成正比。比。kkYiX),ikXY( iikkiikuXY/),(pik, 2 , 1, 性质性质3 3 (5.6) 证明:证明: kkY)var(iiiX)var( 令:令: 为单位向量。则为单位向量。则 )0 , 0 , 1 , 0 , 0(ieXe iiX Xu

48、kkY 又又第32页/共113页第三十三页,共113页。2021-11-25中国人民大学六西格玛质量管理研究(ynji)中心34 目录(ml) 上页 下页 返回 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主成分主成分 于是 )e ,ucov(),cov(XXXYikikkiDuXe)(kikkikkiuueueiikkiikikikuXYXYXY)var()var(),cov(),(于是 由性质由性质3 3知因子负荷量知因子负荷量 与向量系数与向量系数 成正比,与成正比,与 的的标准差成反比关系,因此,绝不能将因子负荷量与向量系数标准差成反比关系,因此,绝不能将因子负荷量与

49、向量系数混为一谈。在解释主成分的成因或是第混为一谈。在解释主成分的成因或是第 个变量对第个变量对第 个主成个主成分的重要性时,应当根据因子负荷量而不能仅仅根据分的重要性时,应当根据因子负荷量而不能仅仅根据 与与 的变换系数的变换系数 。),ikXY(kiuiXikkYiXkiu第33页/共113页第三十四页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心35 目录 上页 下页 返回(fnhu) 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主成分主成分 性质性质4 4 pikiiikXY12),((5.7)证明:由性质证明:由性质3有pip

50、ipikkikkikiiikuuXY111222),((5.8)性质性质5 5 22111(,)1ppkikkikkiiYXu证明:因为证明:因为 向量是随机向量向量是随机向量 的线性组合,因此的线性组合,因此 也可以精也可以精确表示成确表示成 的线性组合。由回归分析知识知,的线性组合。由回归分析知识知, 与与 的全相关系数的平方和等于的全相关系数的平方和等于1 1,而因为,而因为 之间之间互不相关,所以互不相关,所以 与与 的全相关系数的平方和也就是的全相关系数的平方和也就是 ,因此,性质,因此,性质5 5成立。成立。 YXiXpYYY,21iXpYYY,21pYYY,21iXpYYY,21

51、21(,)pkikYX第34页/共113页第三十五页,共113页。2021-11-25中国人民大学六西格玛质量管理(gunl)研究中心36 目录(ml) 上页 下页 返回 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主主成分成分 定义定义5.3 5.3 与前与前 个主成分个主成分 的全相关系数平方和称的全相关系数平方和称为为 对原始变量对原始变量 的方差贡献率的方差贡献率 ,即,即iXmmYYY,21mYYY,21iviXmkkikiiiuv121pi, 2 , 1 (5.9)这一定义说明了前这一定义说明了前 个主成分提取了原始变量个主成分提取了原始变量 中中 的信息的信息,

52、由此我们可以判断我们提取的主成分说明原始的能力。,由此我们可以判断我们提取的主成分说明原始的能力。miXiv第35页/共113页第三十六页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心37 目录(ml) 上页 下页 返回 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主成分主成分 (三)从相关阵出发求解主成分(三)从相关阵出发求解主成分 考虑如下的数学变换:考虑如下的数学变换: iiiiiXZpi, 2 , 1令令: 其中,其中, 与与 分别表示变量分别表示变量 的期望与方差。于是有的期望与方差。于是有iiiiX0)(iZE1)var(i

53、Zpp00000022112/1令令:于是,对原始变量于是,对原始变量 进行标准化:进行标准化:X)()(12/1XZ第36页/共113页第三十七页,共113页。2021-11-25中国人民大学六西格玛质量管理(gunl)研究中心38 目录 上页 下页 返回(fnhu) 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主成分主成分 经过上述标准化后,显然有经过上述标准化后,显然有0Z )(E 12/112/1)()()cov(Z Rpppp11121212112 由于上面的变换过程,原始变量由于上面的变换过程,原始变量 的相关阵实际的相关阵实际上就是对原始变量标准化后的协方差矩阵

54、,因此,由相关矩阵上就是对原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则是相一致的矩阵出发求主成分的过程与主成分个数的确定准则是相一致的,在此不再赘述。仍用,在此不再赘述。仍用 分别表示相关阵分别表示相关阵 的特征值与对应的特征值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系的标准正交特征向量,此时,求得的主成分与原始变量的关系式为:式为: pXXX,.21ii ,R),X()( Z12/1iiiYpi, 2 , 1(5.10)第

55、37页/共113页第三十八页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心39 目录(ml) 上页 下页 返回 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主主成分成分 (四)由相关阵求主成分时主成分性质的简单形式(四)由相关阵求主成分时主成分性质的简单形式 由相关阵出发所求得主成分依然具有上面所述的各种性质由相关阵出发所求得主成分依然具有上面所述的各种性质,不同的是在形式上要简单,这是由相关阵,不同的是在形式上要简单,这是由相关阵 的特性决定的的特性决定的。我们将由相关阵得到的主成分的性质总结如下:。我们将由相关阵得到的主成分的性质总

56、结如下:1 1 的协方差矩阵为对角阵的协方差矩阵为对角阵 ;YpiipiiZptrtrY11)var()()()var(. 23 3第第 个主成分的方差占总方差的比例,即第个主成分的方差占总方差的比例,即第 个主成分的个主成分的方差贡献率为方差贡献率为 ,前,前 个主成分的累积方差贡献率个主成分的累积方差贡献率为为 ;kkpkk/mpmii/1。kkiikuZY),(. 4第38页/共113页第三十九页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心40 目录 上页 下页 返回(fnhu) 结束 5.3.1 5.3.1 总体总体(zngt)(zngt)主成

57、分主成分 注意到注意到 ,且,且 ,结合前面从协方差矩阵出发求,结合前面从协方差矩阵出发求主成分部分对主成分性质的说明,可以很容易的得出上述性质主成分部分对主成分性质的说明,可以很容易的得出上述性质。虽然主成分的性质在这里有更简单的形式,但应注意其实质。虽然主成分的性质在这里有更简单的形式,但应注意其实质与前面的结论并没有区别;需要注意的一点是判断主成分的成与前面的结论并没有区别;需要注意的一点是判断主成分的成因或是原始变量(这里原始变量指的是标准化以后的随机向量因或是原始变量(这里原始变量指的是标准化以后的随机向量 )对主成分的重要性有更简单的方法,因为由上面第)对主成分的重要性有更简单的方

58、法,因为由上面第4 4条知这条知这里因子负荷量仅依赖于由里因子负荷量仅依赖于由 到到 的转换向量系数的转换向量系数 (因为对不(因为对不同的同的 ,因子负荷量表达式的后半部分,因子负荷量表达式的后半部分 是固定的)。是固定的)。1)var(iZptr)(RZkYZkiuiZk第39页/共113页第四十页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心41 目录(ml) 上页 下页 返回 结束 5.4 5.4 样本样本(yngbn)(yngbn)主成主成分的导出分的导出记 11()()1nkiikiikxXxXnSnkkiixnX11pi, 2 , 1ppi

59、jr)(RjjiiijijSSSr 在实际研究工作中,总体协方差阵在实际研究工作中,总体协方差阵 与相关阵与相关阵 通常是未通常是未知的,于是需要通过样本数据来估计。设有知的,于是需要通过样本数据来估计。设有 个样品,每个样个样品,每个样品有品有 个指标,这样共得到个指标,这样共得到 个数据,原始资料矩阵如下:个数据,原始资料矩阵如下:Rnpnpnpnnppxxxxxxxxx212222111211X 第40页/共113页第四十一页,共113页。2021-11-25中国人民大学六西格玛质量(zhling)管理研究中心42 目录 上页 下页 返回(fnhu) 结束 5.4 5.4 样本样本(yn

60、gbn)(yngbn)主成主成分的导出分的导出 为样本协方差矩阵,作为总体协方差阵为样本协方差矩阵,作为总体协方差阵 的无偏估计,的无偏估计, 是是样本相关矩阵,为总体相关矩阵的估计。由前面的讨论知,若样本相关矩阵,为总体相关矩阵的估计。由前面的讨论知,若原始资料原始资料 阵是经过标准化处理的,则由矩阵阵是经过标准化处理的,则由矩阵 求得的协方差求得的协方差阵就是相关矩阵,即阵就是相关矩阵,即 与与 完全相同。因为由协方差矩阵求解主完全相同。因为由协方差矩阵求解主成分的过程与同相关矩阵出发求解主成分的过程是一致的,下成分的过程与同相关矩阵出发求解主成分的过程是一致的,下面我们仅介绍由相关阵面我

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论