第五章 主成分分析与典型相关分析_第1页
第五章 主成分分析与典型相关分析_第2页
第五章 主成分分析与典型相关分析_第3页
第五章 主成分分析与典型相关分析_第4页
第五章 主成分分析与典型相关分析_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章主成分分析与典型相关分析主成分分析是研究如何通过原来变量的少数几个线性组合来解释随机向量的方差——协方差结构。具体地说,其目的(1)化简数据

当p个变量的大部分变量能够由它们的k(比p小很多)个主成分(特殊的线性组合)来概括。如果所考虑的问题是这种情况,那么包括在这k个主成分中的信息与原来p个变量几乎一样多,可以用这k个主成分代替原p个变量,这样一来,由p个变量的n次观测组成的数据就被简化为k个主成分的n次观测数据。1(2)揭示变量间的关系

主成分的另一种作用是揭示变量之间的一些关系,而这些关系往往是用别的方法或具体专业知识所难以预料的。例如主成分应用在回归分析中,可以给出回归自变量的近似复共线关系,这对于数据分析会带来一些重要信息。2§5.1总体主成分设X1,X2,…,Xp为某实际问题所涉及的p个随机变量。记X=(X1,X2,…,Xp)T,其均值向量

=E(X),协方差矩阵它是一个p阶非负定矩阵。设li=(li1,li2,…,lip)T(i=1,2,…,p)为p个常数向量,考虑如下线性组合:=(

ij)p

p=E[(X-E(X))(X-E(X))T]3易知有如果我们希望用Y1代替原来p个变量X1,X2,…Xp,这就要求Y1尽可能地反映原p个变量的信息。这里“信息”用Y1的方差来度量,即要求达到最大。若l1不加限制,则Var(Y1)无界。在约束条件l1Tl1=1之下,求l1使Var(Y1)达到最大,由此l1所确定的随机变量称为X1,X2,…,Xp的第一主成分。4如果第一主成分Y1还不足以反映原变量的信息,进一步求Y2。为了使Y1和Y2反映原变量的信息不相重叠,要求Y1与Y2不相关,即于是,在约束条件l2Tl2

=1及l1T

l2

=0之下,求l2使Var(Y2)达到最大,由此l2所确定的随机变量Y2=l2TX称为X1,X2,…,Xp的第二主成分。一般地,在约束条件

及下,求li使Var(Yi)达到最大,由此li所确定的称为X1,X2,…,Xp的第i个主成分。5总体主成分的求法关于总体主成分有如下结论:定理5.1设

是X=(X1,X2,…Xp)T的协方差矩阵,

的特征值及相应的正交单位化特征向量分别为

1≥

2≥...≥

p及

1,

2,…,

p,则X的第i主成分为其中

i=(

i1,

i2,…,

ip)T.这时易见:证明从略。6以上结果告诉我们,求X的各主成分,等价于求它的协方差矩阵

的各特征值及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的X1,X2,…,Xp的线性组合分别为X的第一、第二、直至第p个住成分,而各主成分的方差等于相应的特征值。7总体主成分的性质1.主成分的协方差矩阵及总方差记Y=(Y1,Y2,…Yp)T为主成分向量,则Y=

TX,其中

=(

1,

2,…,

p),且由此得主成分的总方差为即主成分分析是把p个原变量X1,X2,…,Xp的总方差分解成p个不相关变量Y1,Y2,…,Yp的方差之和。82.主成分Yi与变量Xj的相关系数由于,故,从而由此可得Yi

Xj相关系数(也称为因子负荷量)为它给出了主成分Yi与原始变量Xj的关联性的度量。9称为第k个主成分Yk的贡献率;称为Y1,Y2,…,Ym的累计贡献率。定义5.1实际中常取m<p,使前m个主成分的累计贡献率达到较高的比例。累计贡献率表达了前m个主成分提取了原变量X1,X2,…,Xp的多少信息,但没有表达某个变量被提取了多少信息,为此定义5.2前m个主成分对原变量xi的贡献率Fi是10通过具体例子说明求总体主成分的方法。例5.1设随机变量X=(X1,X2,X3)T的协方差矩阵为求X的各主成分。解易得

的特征值及相应的正交化特征向量分别为11因此X的主成分为如果只取第一主成分(m=1),则贡献率为此时对x1,x2,x3的贡献率分别为()F1=5.830.3832/1=0.855;F2=0.996;F3=012若取前两个主成分(m=2),则累计贡献率为此时对x1,x2,x3的贡献率分别为F1=5.830.3832/1=0.855;F2=0.996;F3=1前两个主成分与各原始变量的相关系数的计算:13前两个主成分与各原始变量的相关系数分别为14同理,可求得即Y1与X1,X2高度相关而与X3不相关;Y2与X3,以概率1呈完全线性关系.15标准化变量的主成分实际中,不同变量往往有不同的量纲,由于量纲不同会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。若用

求主成分,则优先照顾了方差较大的变量,有时会造成很不合理的结果。为消除这种影响,常采用变量标准化的方法,即令其中:

i和

ii分别为Xi的数学期望和方差。这时的协方差矩阵便是X的相关矩阵16其中利用X的相关矩阵

作主成分分析,有如下结论:X*的第i个主成分为17第i个主成分Yi*的贡献率为

i*/p,前m个主成分的累计贡献率为例5.2设X=(X1,X2)T的协方差矩阵为相应的相关矩阵为分别从

出发,作主成分分析。Yi*与Xj*的相关系数为18解如果从

出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为X的两个主成分分别为第一主成分的贡献率为19Y1与X1,X2的相关系数分别为如果从

出发求主成分,可求得其特征值和相应的正交单位化特征向量为X*的两个主成分分别为因X2方差很大,完全控制了提取信息量占99.2%的第一主成分(X2在Y1中系数为0.999),淹没了变量X1的作用。20此时,第一主成分的贡献率有所下降,为Y1*与X1*,X2*的相关系数分别为由

所求得的第一主成分中,X1和X2的权重系数为0.707和0.0707,第一主成分与标准化变量X*的相关性变为0.838,即X1的相对重要性得到提升。此例也证明,由

所求得的主成分一般是不同的。在实际运用中,当涉及的变量的变化范围差异较大时,从

出发求主成分比较合理。21§5.2样本主成分当(或

)未知时,通过样本估计。设为容量为n的简单随机样本,即样本矩阵X为22对X进行中心化变换:记变换后的样本矩阵为X*,则样本离差阵A、协方差矩阵S及相关矩阵R分别为23分别以S和R作为

的估计,按前面所述方法求得的主成分称为样本主成分。不失一般性可假设X已中心标准化,这时协方差矩阵与相关矩阵相同,且

R=XTX记R的p个主成分为z1,z2,…,zp。将样本数据代入可得n个样本主成分值Z=X,并称为主成分得分。见下表。其中为R的特征值对应的特征向量组成的正交阵。

=(

1,

2,…,

p)24若取前m(m<p)个样本主成分,使其累计贡献率达到一定的要求(如80%到90%),以前m个样本主成分的得分代替原始数据作分析,这样便可以达到降低原始数据维数的目的。原始数据及其主成分得分序号原变量x1

x2…xp主成分z1

z2…zp12…nx11

x12…x1px21

x22…x2p…..xn1

xn2…xnpz11

z12…z1pz21

z22…z2p…..zn1

zn2…znp25解用相关矩阵进行主成分分析。SAS程序如下:例5.3对麻栎树木的地径x1、胸径x2、树高x3、枝下高x4和平均冠幅x5等5项指标进行测量,其数据如下表(见P106)。试对这5项指标进行主成分分析。序号地径x1胸径x2树高x3枝下高x4平均冠幅x512…18198.75.84.82.72.711.18.16.22.82.9……………...………….41.340.315.54.29.648.044.015.83.58.626dataexm53;inputx1-x5;cards;8.75.84.82.72.7…………….48.044.015.83.58.6;procprincompdata=exm53prefix=zout=b53;varx1-x5;run;procprintdata=b53;varz1z2x1-x5;run;princomp主成分分析过程;prefix=z

主成分用z表示,缺省为prin;out=b53输出主成分得分到b53数据集。27第一主成分的贡献率为77.77%;前两个主成分的累计贡献率达98.14%,可取前两个主成分。输出部分结果:28前两个主成分:xi*为标准化变量。29前两个主成分得分和原始数据:可用主成分得分进行其他分析,如聚类分析等。30若要计算主成分zk与原变量xi的因子负荷r(zk,xi)及前m个主成分对原变量xi的贡献率Fi,可用因子分析过程factor计算,在上述程序后增加以下程序即可。procfactordata=exm53method=prinn=2simple;varx1-x5;run;因子负荷r(zk,xi)前m个主成分对原变量xi的贡献率Fi31解用协方差矩阵进行主成分分析。SAS程序如下:例5.4对10名男中学生的身高(X1)胸围(X2)和体重(X3)进行测量,得数据如下表所示。对其作主成分分析。序号身高x1(cm)胸围x2(cm)体重x3(kg)12345678910149.569.538.5162.577.055.5162.778.550.8162.287.565.5156.574.549.0156.174.545.5172.076.551.0173.281.559.5159.574.543.5157.779.053.532dataex5_4;inputx1-x3@@;cards;149.569.538.5162.577.055.5162.778.550.8162.287.565.5156.574.549.0156.174.545.5172.076.551.0173.281.559.5159.574.543.5157.779.053.5;procprincompcovprefix=y;varx1-x3;run;princomp—主成分分析过程;cov—用协方差矩阵计算,缺省为相关阵;prefix=y

主成分用y表示,缺省为prin。33计算结果:34前两个主成分的累计贡献率已达98.855%,实际应用中可只取前两个主成分,即35第一主成分y1是身高值(x1)胸围值(x2)和体重值(x3)的加权和,当一个学生的y1值较大时,可以推断他较高或较胖或又高又胖,反之,当一个学生的身材比较魁梧时,所对应的y1值也较大。故第一主成分是反映学生身材是否魁梧的综合指标,可称为“大小”因子。第二主成分y2的表达式中,身高(x1)前的系数为正,而胸围(x2)和体重(x3)的系数为负,当一个学生的y2值较大时,说明x1的值较大,而x2,x3相对较小,即该生较高且瘦。可称之为“形状”因子。36例5.5某市为了全面分析机械类各企业的经济效益,选择了8个不同的利润率指标,14家企业关于这8个指标的统计数据如下表。试进行主成分分析.序号净产资产总产收入成本物耗人均流动资金值x1

x2值x3

x4

x5

x6

x7

x8123456789101112131440.424.77.26.18.38.72.44220.025.012.711.211.012.920.23.5429.113.23.33.94.34.45.50.5783.622.36.75.63.76.07.40.1767.334.311.87.17.18.08.91.72627.535.612.516.416.722.829.33.01726.622.07.89.910.212.617.60.84710.648.413.410.99.910.913.91.772

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论