版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1应用多元统计分析应用多元统计分析第七章第七章 主成分分主成分分析析2第七章第七章 主成分分主成分分析析目目 录录7.1 总体的主成分总体的主成分7.2 样本的主成分样本的主成分3第七章第七章 主成分分主成分分析析 多变量分析多变量分析(Multivariate Analysis)是处理是处理多变量多变量(多指标多指标)的统计问题。的统计问题。 多个变量之间常存在相关性,人们希望用多个变量之间常存在相关性,人们希望用较少不相关的变量来代替原来较多且相关的较少不相关的变量来代替原来较多且相关的变量。变量。 主成分就是要从原变量的各种线性组合中主成分就是要从原变量的各种线性组合中找出能集中反映原变
2、量信息的综合变量。找出能集中反映原变量信息的综合变量。4第七章第七章7.1 7.1 总体的主成分总体的主成分什么是主成分分什么是主成分分析析 主成分分析是将多个指标化为少数几个综合指标主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法的一种统计分析方法. . 在实际问题中在实际问题中, ,研究多指标的问题是经常遇到的研究多指标的问题是经常遇到的问题问题. .由于变量个数太多由于变量个数太多, ,并且彼此之间存在着一定并且彼此之间存在着一定的相关性的相关性, ,势必增加分析问题的复杂性势必增加分析问题的复杂性. . 主成分分析就是设法把原来的多个指标重新组合主成分分析就是设法把原来的多
3、个指标重新组合成较少几个新的互不相关的综合变量来代替原来的成较少几个新的互不相关的综合变量来代替原来的变量变量; ;而且这几个综合变量又能够尽可能多地反映原而且这几个综合变量又能够尽可能多地反映原来变量的信息来变量的信息. . 利用这种降维的思想利用这种降维的思想, ,产生了主成分分析、因子产生了主成分分析、因子分析、典型相关分析等统计方法分析、典型相关分析等统计方法. .5第七章第七章 7.17.1总体的主成分总体的主成分什么是主成分什么是主成分 设设X=(=(X1,Xp)是是p维随机向量维随机向量, ,均值向量均值向量E(E(X)=,)=,协差阵协差阵D(D(X)=.)=.考虑它的线性变换
4、考虑它的线性变换: :易见易见: :(7.1.2)(7.1.1)6第七章第七章 7.17.1总体的主成分总体的主成分什么是主成分什么是主成分 假如我们希望用假如我们希望用Z1 1来代替原来的来代替原来的p个变量个变量X1,Xp , ,这就要求这就要求Z1 1尽可能多地反映原来尽可能多地反映原来p个个变量的信息变量的信息, ,这里所说的这里所说的“信息信息”用什么来表用什么来表达呢达呢? ?最经典的方法是用最经典的方法是用Z1 1的方差来表达的方差来表达. Var(Var(Z1 1) )越大越大, ,表示表示Z1 1包含的信息越多包含的信息越多. .由由( (7.1.2) )式看出式看出, ,对
5、对a1 1必须有某种限制必须有某种限制. .否则可使否则可使Var(Var(Z1 1).).常用的限制是常用的限制是: :a1 1a1 1 =1. =1. 若存在满足以上约束的若存在满足以上约束的a1 1, ,使使Var(Var(Z1 1) )达达最大最大, , Z1 1就称为第一主成分就称为第一主成分( (或主分量或主分量).).7第七章第七章 7.17.1总体的主成分总体的主成分什么是主成分什么是主成分 如果第一主成分不足以代表原来如果第一主成分不足以代表原来p个变量的个变量的绝大部分信息绝大部分信息. .考虑考虑X的第二个线性组合的第二个线性组合Z2 2 . . 为了有效地代表原变量组的
6、信息为了有效地代表原变量组的信息, ,Z1 1已体现已体现( (反映反映) )的信息不希望在的信息不希望在Z2 2中出现中出现, ,用统计术语来用统计术语来讲讲, ,就是要求就是要求 Cov(Cov(Z2 2, ,Z1 1)=)=a2 2a1 1=0. (7.1.3)=0. (7.1.3)于是求于是求Z2 2时时, ,就是在约束就是在约束a2 2a2 2=1=1和和(7.1.3)(7.1.3)下下, ,求求a2 2使使Var(Var(Z2 2) )达最大达最大, ,所求之所求之Z2 2称为第二主成分称为第二主成分, ,类似地可求得第三主成分类似地可求得第三主成分,第四主成分第四主成分,.,.,
7、第第p主成分主成分 . .8第七章第七章 7.17.1总体的主成分总体的主成分什么是主成分什么是主成分 换言之换言之,若原数据有若原数据有p个变量,则恰好可个变量,则恰好可得到得到p个主成分个主成分: 1. 每个主成分都是原变量的线性组合每个主成分都是原变量的线性组合; 2. 不同主成分间互不相关(互相正交)不同主成分间互不相关(互相正交); 3. 主成分以其方差减少次序排列主成分以其方差减少次序排列: 第一主成分具有最大方差第一主成分具有最大方差, 第二主成分是与第一主成分正交的原变第二主成分是与第一主成分正交的原变量的线性组合中具有最大方差者量的线性组合中具有最大方差者, 其余主成分都有类
8、似的性质其余主成分都有类似的性质.9第七章第七章 7.17.1总体的主成分总体的主成分什么是主成分什么是主成分 或者说或者说,若原变量包含有一定的信息若原变量包含有一定的信息,则则全体主成分包含与原变量相同的信息全体主成分包含与原变量相同的信息. 方差反映了变量取值的离散程度,方差方差反映了变量取值的离散程度,方差大小表示了变量包含信息的多少大小表示了变量包含信息的多少. 第一主成分包含了尽可能多的信息第一主成分包含了尽可能多的信息, 不同的主成分包含的信息互不重复不同的主成分包含的信息互不重复; 第二主成分包含除第一主成分外剩余第二主成分包含除第一主成分外剩余信息中尽可能多的信息信息中尽可能
9、多的信息; 其余主成分都有类似的性质其余主成分都有类似的性质.10第七章第七章 7.17.1总体的主成分总体的主成分主成分的定义主成分的定义 定义定义7.1.17.1.1 设设X=(=(X1,Xp)为为p维维随机向量随机向量. .称称 Zi= =aiX 为为X的第的第i 主成分主成分( (i=1,2,=1,2,p),),如果如果: : aiai=1 (=1 (i=1,2,=1,2,p);); 当当i 1 1时时 aiaj=0 ( =0 ( j=1,=1,i-1); -1); Var( Var(Zi)= Max Var()= Max Var(X X).). =1,=1,aj =0( =0(j=1
10、,=1,i-1)-1) 11第七章第七章 7.17.1总体的主成分总体的主成分主成分的几何意义主成分的几何意义 从代数学观点看主成分就是从代数学观点看主成分就是p个变量的一些个变量的一些特殊的线性组合特殊的线性组合,而从几何上看这些线性组合正而从几何上看这些线性组合正是把是把X1,Xp构成的坐标系旋转产生的新坐标构成的坐标系旋转产生的新坐标系系,新坐标轴使之通过样本变差最大的方向新坐标轴使之通过样本变差最大的方向(或或者说具有最大的样本方差者说具有最大的样本方差). 设有设有n个观测个观测,每个观测有每个观测有p个变量个变量X1,Xp , 它们的综合指标它们的综合指标(主成分主成分)记为记为Z
11、1 1,Zp . 当当p=2时原变量为时原变量为X1, X2.设设(X1, X2 )服从二元服从二元正态分布正态分布,则样品点则样品点X(i) =(xi1, xi2 ) (i=1,2,n)的的散布图散布图(见下面图形见下面图形)在一个椭园内分布着在一个椭园内分布着.12第七章第七章 7.17.1总体的主成分总体的主成分主成分的几何意义主成分的几何意义 Z1Z213第七章第七章 7.17.1总体的主成分总体的主成分主成分的几何意义主成分的几何意义 对于二元正态随机向量对于二元正态随机向量,n个点散布在一个椭个点散布在一个椭园内园内(当当X1, X2相关性越强相关性越强,这个椭园就越扁这个椭园就越
12、扁). 若取椭园的长轴为坐标轴若取椭园的长轴为坐标轴Z1,椭园的短轴为椭园的短轴为Z2,这相当于在平面上作一个坐标变换这相当于在平面上作一个坐标变换,即按逆时针即按逆时针方向旋转一个角度方向旋转一个角度a a, 根据旋转变换公式根据旋转变换公式,新老新老坐标之间有关系坐标之间有关系: Z1=Cos a aX1 1+ + Sin Sin a aX2 2 Z2= -Sin a aX1 1+ + Cos Cos a aX2 2Z1 Z2 是原变量是原变量X1 1和和X2 2 的特殊线性组合的特殊线性组合. .14第七章第七章 7.17.1总体的主成分总体的主成分主成分的几何意义主成分的几何意义 从图
13、上可以看出二维平面上从图上可以看出二维平面上n个点的波动个点的波动(用二个变量的方差和表示用二个变量的方差和表示)大部分可以归结为大部分可以归结为在在Z1方向的波动方向的波动,而在而在Z2 方向上的波动很小方向上的波动很小,可可以忽略以忽略.这样一来这样一来,二维问题可以降为一维了二维问题可以降为一维了,只只取第一取第一 个综合变量个综合变量Z1即可即可,而而Z1是椭园的长轴是椭园的长轴. 一般情况一般情况,p个变量组成个变量组成p维空间维空间,n个样品点个样品点就是就是p维空间的维空间的n个点个点.对于对于p元正态分布变量来元正态分布变量来说说,找主成分的问题就是找找主成分的问题就是找p维空
14、间中椭球的主维空间中椭球的主轴问题轴问题.15第七章第七章 7.17.1总体的主成分总体的主成分主成分分析的内容主成分分析的内容 主成分分析的计算一般是从原变量的协主成分分析的计算一般是从原变量的协差阵或相关矩阵出发进行差阵或相关矩阵出发进行,包含以下内容:包含以下内容: 1. 各主成分的构成各主成分的构成 ; 2. 各主成分的方差及其在总方差中所占的各主成分的方差及其在总方差中所占的比例比例(贡献率贡献率) ; 3. 每个观测在各个主成分下的得分值每个观测在各个主成分下的得分值; 4. 各主成分与原变量的相关性各主成分与原变量的相关性 .16第七章第七章 7.17.1总体的主成分总体的主成分
15、主成分的求法主成分的求法 设设p维随机向量维随机向量X的均值的均值E(E(X)=0,)=0,协差阵协差阵D(D(X)=)=0.0.由定义由定义7.1.1,7.1.1,求第一主成分求第一主成分Z1 1= = a1 1X的问题就是求的问题就是求a1 1=(=(a1111, ,a2121,ap1 1),),使得使得在在a1 1a1 1=1=1下下,Var(,Var(Z1 1) )达最大达最大. . 这是条件极值问题这是条件极值问题, ,用拉格朗日乘数法用拉格朗日乘数法. .令令 ( (a1 1)=Var()=Var(a1 1X)-()-(a1 1a1 1-1)-1) = = a1 1a1 1-(-(
16、a1 1Ipa1 1-1),-1),由由(7.1.4)( (见附录见附录(8.3)(8.3)式式) )17第七章第七章 7.17.1总体的主成分总体的主成分主成分的求法主成分的求法 因因a1 10,0,故故| |- -I|=0,|=0,求解求解(7.1.4),(7.1.4),其实就其实就是求是求的特征值和特征向量问题的特征值和特征向量问题. .设设=1是是的的最大特征值最大特征值, ,则相应的单位特征向量则相应的单位特征向量a1 1即为所求即为所求. . 一般地一般地, ,求求X的第的第i主成分就是求主成分就是求的第的第i大特征大特征值对应的单位特征向量值对应的单位特征向量. . 定理定理7.
17、1.17.1.1 设设X=(=(X1,Xp)是是p维随机向维随机向量量, ,且且D(D(X)=,)=,的特征值的特征值1 12 2p p ,A1 1, ,a2 2,ap为相应的单位正交特征向量为相应的单位正交特征向量, ,则则X的的第第i主成分为主成分为 Zi= = aiX ( (i=1,2,=1,2,p).).18第七章第七章 7.17.1总体的主成分总体的主成分回顾附录中回顾附录中定理定理7.2 定理定理7.2 设设B是是p阶对称阵阶对称阵,i=chi(B)是是B的第的第i大的特征值,大的特征值,li 是相应于是相应于i的的B的标准化特征向的标准化特征向量量(i1,p), x为任一非零为任
18、一非零p维向量,那么有维向量,那么有)5 . 7() 1 (1xxBxxp右边不等式的等号当右边不等式的等号当x=cl1时成立,左边不等式时成立,左边不等式的等号当的等号当x=clp时成立,这里时成立,这里c是非零常数是非零常数.19第七章第七章 7.17.1总体的主成分总体的主成分回顾附录中回顾附录中定理定理7.2 (2)记记2=(lr+1,lp ),即即2是由是由lr+1,lp 张成的空间张成的空间,则则 )6 . 7(max10+rxxxxBxx2且当且当x=clr+1 时达到最大值,这里时达到最大值,这里c非零常非零常数数.20第七章第七章 7.17.1总体的主成分总体的主成分定理定理
19、7.1.1的证明的证明1aaaap定理定理7.1.1证明证明 因因为对称阵,利用附录为对称阵,利用附录中定理中定理7.2的结论的结论(1),可知对任意非零向量可知对任意非零向量a有有且最大值在且最大值在a=a1时达到时达到.故在故在a1a1 =1的约的约束条件下束条件下,使得使得11111)(Var)(VaraaXaZ达极大值达极大值.21第七章第七章 7.17.1总体的主成分总体的主成分定理定理7.1.1的证明的证明raaaaaa0max 根据主成分的定义根据主成分的定义7.1.1,Z1= a1 X为为X的的第一主成分第一主成分. 对对r=2,3,p,记记r (ar,ap),利用利用附录中的
20、定理附录中的定理7.2的结论的结论(2)即得即得r且最大值在且最大值在a=ar时达到时达到.22第七章第七章 7.17.1总体的主成分总体的主成分定理定理7.1.1的证明的证明故在故在arar =1的约束条件下的约束条件下, ar 满足满足且使得且使得rrrrraaXaZ)(Var)(Var达极大值达极大值. 根据主成分的定义根据主成分的定义7.1.1,Zr= ar X为为X的第的第r主成分主成分. (证毕证毕) 1, 1(0rjaaaaaajrjjjrjr23第七章第七章 7.17.1总体的主成分总体的主成分定理定理7.1.1的推论的推论 设设Z=(Z1, Z2 , Z p )为为p维随机向
21、量,则维随机向量,则其分量其分量Zi (i=1,2, p) 依次是依次是X的第的第i主成分主成分的充分必要条件是:的充分必要条件是: Z=AX,A为正交阵;为正交阵; D(Z)=diag(1 , 2 , , p ),即随机向量,即随机向量Z的协差阵为对角阵;的协差阵为对角阵; 12p 0 . 24第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 主成分主成分Zi就是以就是以的单位特征向量的单位特征向量ai为系数的为系数的线性组合线性组合,它们互不相关它们互不相关,且方差且方差Var(Zi)= i . 记记=(=(ij),=diag(),=diag(1 1, ,2 2,
22、p p),), 其中其中1 12 2p p为为的特征值的特征值, , a1 1, ,a2 2,ap是相应的单位正交特征向量是相应的单位正交特征向量. .主成分向量主成分向量Z = (= (Z1 1,Zp), ), 其中其中 Zi= =aiX ( (i=1,2,=1,2,p) )总体主成分有如下性质总体主成分有如下性质: :25第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质piipiii11 (1) (1) D(D(Z)=,)=,即即p个主成分的方差为:个主成分的方差为: Var(Var(Zi)=)=i , ,且它们是互不相关且它们是互不相关 (2) (2) piii
23、1通常称通常称 为原总体为原总体X的总方差的总方差,该性质说该性质说明原总体明原总体X的总方差可分解为不相关的主的总方差可分解为不相关的主成分的方差和成分的方差和.26第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 即即p个原变量所提供的总信息个原变量所提供的总信息( (总方差总方差) )的的绝大部分只须用前绝大部分只须用前m个主成分来代替。这说明个主成分来代替。这说明若前几个主成分集中了大部分信息,则后几个若前几个主成分集中了大部分信息,则后几个主成分的方差都很小,包含的信息也很少主成分的方差都很小,包含的信息也很少. 在实际应用时就可用前面较少的几个主成分在实际
24、应用时就可用前面较少的几个主成分来代替原来代替原p个变量来描述数据的变化个变量来描述数据的变化.且存在且存在miipiiipm11,使27第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质), 2 , 1,(),(pikaXZiiikkik (3) (3)主成分主成分Zk与原始变量与原始变量Xi的相关系数的相关系数 证明证明 : Var(Xi) =ii Var(Zk) = k k Cov( Cov( Xi , ,Zk )=Cov()=Cov(eiX, , ak X) ) = = ei ak = = ei (k k ak ) ) = = k k aik (ei是第是第i个
25、元素为个元素为1,其余为其余为0的单位向量的单位向量)iiikkkiiikkikaaXZ),(28第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 常把主成分常把主成分Zk与原始变量与原始变量Xi的相关系数称为的相关系数称为因因子负荷量子负荷量( (或因子载荷量或因子载荷量).).利用因子载荷量利用因子载荷量, ,可对可对指标分类指标分类. .如果把主成分与原始变量的相关系数如果把主成分与原始变量的相关系数列成表列成表7.17.1的形式,则由相关系数的公式,还可的形式,则由相关系数的公式,还可得出性质得出性质(4)(4)和和(5).(5).表表7.129第七章第七章
26、7.17.1总体的主成分总体的主成分主成分的性质主成分的性质), 2 , 1(1),()4(12piXZpkik,AAAA 因因Xi也可表成也可表成Z1 1,Zp的线性组合的线性组合, ,且且 Z1 1, , Zp相互独立,由回归分析的知识相互独立,由回归分析的知识, , Xi 与与 Z1 1,Zp的的全相关系数的平方和等于全相关系数的平方和等于1 1,即表,即表7.17.1中每一行的平方中每一行的平方和均为和均为1.1.事实上事实上,由由 故有故有. 1),(,),(12121211pkiiikkikpkpkikkipiipiiiaXZaaaaa即30第七章第七章 7.17.1总体的主成分总
27、体的主成分主成分的性质主成分的性质 因因Zk可表成可表成X1 1,Xp的线性组合的线性组合, ,但但X1 1,Xp 一般有相关性,由一般有相关性,由Zk与与Xi的相的相关系数的公式,可得出表关系数的公式,可得出表7.17.1中中Zk对应的对应的每一列关于各变量方差的加权平方和为每一列关于各变量方差的加权平方和为k (即即Var(Var(Zk)=)=k).).31第七章第七章 7.17.1总体的主成分总体的主成分主成分的贡献率主成分的贡献率 主成分分析的目的是为了简化数据主成分分析的目的是为了简化数据结构(即减少变量的个数)结构(即减少变量的个数), ,故在实故在实际应用中一般不用际应用中一般不
28、用p个主成分个主成分, ,而选用而选用前前m( (mp) )个主成分个主成分. .m取多大取多大, ,这是这是一个很实际的问题一个很实际的问题. .为此为此, ,我们引进贡我们引进贡献率的概念献率的概念. .32第七章第七章 7.17.1总体的主成分总体的主成分主成分的贡献率主成分的贡献率 定义定义7.1.27.1.2 称称k / 1 +. +m +p 为主成分为主成分Zk的贡献率的贡献率; ;又称又称 fm= = 1 +2 +. +m/ 1 +2 +. +m +p 为为 主成分主成分Z1 1,Zm( (mp) )的累计贡献率的累计贡献率. . 通常取通常取m, ,使累计贡献率达到使累计贡献率
29、达到70%70%或或80%80%以上以上, ,累计贡献率的大小表达累计贡献率的大小表达m个主成分提取了个主成分提取了X1 1, , , ,Xp的多少信息的多少信息, ,但它没有表达某个变量被提取但它没有表达某个变量被提取了多少信息了多少信息, ,为此又引入另一个概念为此又引入另一个概念. .33第七章第七章 7.17.1总体的主成分总体的主成分主成分的贡献率主成分的贡献率 定义定义7.1.37.1.3 前前m个主成分个主成分Z1 1,Zm 对对原变量原变量Xi的贡献率的贡献率i(m) 定义为定义为 Xi 与与Z1 1, , , ,Zm 的相关关系数的平方的相关关系数的平方, ,它等于它等于),
30、(1212)(mkikmkiiikkmiXZa34第七章第七章 7.17.1总体的主成分总体的主成分主成分的贡献率主成分的贡献率-例子例子 例例7.1.1 7.1.1 设随机向量设随机向量X=(X1,X2,X3)的协差阵为的协差阵为1 -2 0-2 5 00 0 2=试求试求X的主成分及其对变量的主成分及其对变量Xi的贡献率的贡献率i(i=1,2,3). 解解 的特征值为的特征值为 1=3+ 81/2, 2=2, 3=3-81/2.由相应标准化特征向量可得出主成分由相应标准化特征向量可得出主成分:35第七章第七章 7.1 7.1 总体的主成分总体的主成分主成分的贡献率主成分的贡献率-例子例子
31、Z1=0.383 X1-0.924X2 , Z2= X3 (X3本身就是一个主分量,它与本身就是一个主分量,它与X1,X2不相关不相关), Z3=0.924X1+0.383 X2.当取当取m=1=1或或m=2=2时时, ,主成分主成分对对X的贡献率可达的贡献率可达72.8%或或97.85%.下表下表 列出列出m个主分量对变量个主分量对变量Xi的贡献率的贡献率)2 , 1; 3 , 2 , 1(),(kiaXZiiikkik36第七章第七章 7.17.1总体的主成分总体的主成分 标准化变量的主成分及性质标准化变量的主成分及性质 在实际问题中在实际问题中, ,不同的变量往往有不同的量不同的变量往往
32、有不同的量纲纲, ,而通过而通过来求主成分首先优先照顾方差来求主成分首先优先照顾方差( (ii) )大的变量大的变量, ,有时会造成很不合理的结果有时会造成很不合理的结果, ,为了消为了消除由于量纲的不同可能带来的一些不合理的影除由于量纲的不同可能带来的一些不合理的影响响, ,常采用将变量标准化的方法常采用将变量标准化的方法. .即令即令37第七章第七章 7.17.1总体的主成分总体的主成分标准化变量的主成分及性质标准化变量的主成分及性质 标准化后的随机向量标准化后的随机向量X* *=(=(X1 1* *, ,X2 2* *, , Xp* *)的协差阵的协差阵* *就是原随机向量就是原随机向量
33、X的相的相关阵关阵R. .从相关阵从相关阵R出发来求主成分出发来求主成分, ,记为记为Z * *=(=(Z1 1* *,Zp* *),),则则Z* *与与Z具有相似的具有相似的性质性质. . 把主成分把主成分Zk* *( (k=1,=1,p) )对变量对变量Xi*的因的因子负荷量子负荷量ik= =( (Zk*,Xi* *) )列成表列成表7.2.7.2.38第七章第七章 7.17.1总体的主成分总体的主成分标准化变量的主成分及性质标准化变量的主成分及性质 7.239第七章第七章 7.2 7.2 样本的主成分样本的主成分 在实际问题中在实际问题中, ,一般协差阵一般协差阵未知未知, ,需要需要通
34、过样本来估计通过样本来估计. .设设X(t)=(=(xt1,xtp)()(t=1, =1, ,n) )为来自总体为来自总体X的样本的样本, ,记样本资料阵记样本资料阵x11,x12 ,x1px21,x22 ,x2p.xn1,xn2 ,xnpX=记样本协差阵为记样本协差阵为S, ,样本相关阵为样本相关阵为R,并用并用S作为作为 的估计或用的估计或用R作为总体相关阵的估计作为总体相关阵的估计. .40第第七章七章 7.2 7.2 样本的主成分样本的主成分 样本主成分及其性质样本主成分及其性质 假定每个变量的观测数据都已标准化假定每个变量的观测数据都已标准化( (X=0),=0),这时样本协差阵就是
35、样本相关阵这时样本协差阵就是样本相关阵R,且且 R=S=离差阵离差阵 /(/(n-1)-1) =XX/(/(n-1)-1) 仍记仍记R 阵的阵的p个主成分为个主成分为Z1 1,Zp , , 1 12 2p00为为R的特征根的特征根, , a1 1, ,a2 2, , ,ap为相应的标准化特征向量为相应的标准化特征向量( (记记正交阵正交阵A=(=(a1 1,ap) ). .显然第显然第i个样本主成个样本主成分为分为 Zi= =ai iX ( (i=1,=1,p). ). 41第七章第七章 7.27.2样本的主成分样本的主成分 样本主成分及其性质样本主成分及其性质 将第将第t个样品个样品X(t)
36、 =( =(xt1, , xtp)的值代入的值代入Zi得样品得样品t的第的第i个主成分得个主成分得分分 zti = =aiX(t) ( (i=1,=1,p).).记记Z(t) = (zt1, zt2 , ztp) (t=1,n) = (a1X(t) ,a2X(t) ,apX(t) ) = AX(t)称称Z(t) 为为第第t个样品的主成分得分向量个样品的主成分得分向量. .42第七章第七章 7.27.2样本的主成分样本的主成分 样本主成分及其性质样本主成分及其性质 表表7.3 7.3 原始数据和样本主成分得分原始数据和样本主成分得分令令(z1,z2,zp) 样本主成分样本主成分Z1 Z2 Zp
37、43第七章第七章 7.2 7.2 样本的主成分样本的主成分 样本主成分及其性质样本主成分及其性质 样本主成分得分阵样本主成分得分阵Z和原始数据阵和原始数据阵X有如下关有如下关系系Z = =Z(1) Z(2) .Z(n) X(1) A AX(2) A A.X(n) A A= X A=或或 X = ZA , 其中其中 Z(t) =AX(t) ( t=1,2,n )样本主成分得分具有如下一些性质样本主成分得分具有如下一些性质. .(np)(np)(pp)44第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 (1)(1) Z=(Z(1)+ Z(2)+ Z(n)
38、/n =(AX(1) +AX(2) + AX(n) )/n=AX=0,=0,以下由样本主成分得分的协差阵来得出样本主以下由样本主成分得分的协差阵来得出样本主成分的性质成分的性质(1)(1)的另一结论的另一结论. . 样本主成分得分的协差阵为样本主成分得分的协差阵为 SZ = = ZZ/(/(n-1)-1)标准化变量的样本协差阵就是样本相关阵标准化变量的样本协差阵就是样本相关阵R, ,且且 R = XX/(/(n-1)-1)R阵的阵的p个特征根个特征根1 12 2 p 相应的标相应的标准化特征向量为准化特征向量为a1 1, ,a2 2, , ,ap 。45第七章第七章 7.2 7.2 样本的主成
39、分样本的主成分样本主成分及其性质样本主成分及其性质 记正交阵记正交阵A= (= (a1 1,ap) . .则有则有 ARA=diag(=diag(1 1, ,2 2 , ,p) )又知又知 Z=XA,则则 SZ = = ZZ/(/(n-1)=-1)=A AXXA /(/(n-1)-1) = = A ARA=diag(diag(1 1, ,2 2 , ,p) ) = = ZZ= ( (n-1) -1) 46第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 zi zi=(n-1) i (i=1,2,p) zizj=0 (当当ij 时时 )上式说明样本主成分
40、得分的样本均值为上式说明样本主成分得分的样本均值为0,0,样本样本协差阵为对角阵协差阵为对角阵. .当当ij 时,第时,第i个主成分得分个主成分得分向量向量zi与第与第j个主成分得分个主成分得分zj是相互正交的是相互正交的. .pppnzzzzz00)1(),.,(121147第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 因因 ARA=diag(=diag(1 1, ,2 2 , ,p) ) 称称k / /p为样本主成分为样本主成分Zk的贡献率的贡献率; ;又称又称 fm=1 1+m/p为样本主成分为样本主成分Z1,Zm ( (mp) )的累计贡献
41、率的累计贡献率. .pRRAARAApii)(tr) (tr)(tr148第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 (3)(3)样本主成分具有使残差平方和最小的优良性样本主成分具有使残差平方和最小的优良性 如果我们只取前如果我们只取前m个主成分个主成分( (mp),),并考虑用并考虑用前前m 个主成分个主成分Z1, , Zm的线性组合表示的线性组合表示Xj的回的回归方程归方程: : Xj= =bj1Z1+ + bjmZm+ + j ( (j=1,=1,p) ) (* *) 则当则当bjk= =ajk( (k=1,=1,m) )时,可使回归方程的
42、残时,可使回归方程的残差平方和达最小值差平方和达最小值. .而且回归方程的决定系数而且回归方程的决定系数R2 2( (j) =) =j( (m) ). . 我们把我们把j( (m) )称为称为m个主成分对原变量个主成分对原变量Xj j的贡献的贡献率率, ,j( (m) )的大小反映了的大小反映了m个主成分能够反映个主成分能够反映Xj的变的变差的比例差的比例. .49第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 把表把表7.37.3给出的原始变量的观测数据和前给出的原始变量的观测数据和前m个主成分的得分数据作为以上模型(个主成分的得分数据作为以上模型
43、(* *)中因变量中因变量X1,X p和自变量和自变量Z1,Zm的观的观测数据测数据. .问题化为:按最小二乘准则求参数矩阵问题化为:按最小二乘准则求参数矩阵B:pmpmbbbbB1111,使得残差平方和,使得残差平方和 Q( (B) )达最小达最小. .(pm)50第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 ,11111111*npnpnmnmxxxxXzzzzZ(nm)记记(np)则多对多的回归模型(则多对多的回归模型(*)的矩阵形式为:)的矩阵形式为: X = Z* B + E由多因变量的回归分析由多因变量的回归分析( (参见第四章参见第四
44、章) )的理的理论知论知:参数矩阵参数矩阵B的最小二乘估计为的最小二乘估计为 51第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 B = (Z* Z* )-1 Z* X 记A*= (= (a1 1,am) , A2= (= (am+1 1,aP)则由则由 Z = ( ( Z*|Z2 ) =XA=X ( (A*|A2 ) 可得可得 Z* =XA*且因且因 A*RA*=diag(diag(1 1, ,2 2 , ,m),),于是于是 Z* Z* = = A*XXA* =(n-1)A*RA* =(n-1)diag(diag(1 1, ,2 2 , ,m)
45、)52第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质*(A*)*53第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 即即当当 B=A* 或或 bjk= =ajk( (j =1,2,=1,2,p; ;k=1,=1,m) )时,时,可使回归的残差平方和达最小值可使回归的残差平方和达最小值. . 而而Xj 回归方程的决定系数回归方程的决定系数 R2 2( (j) =) =j( (m) ) ( (j=1,2,=1,2,p).).54第七章第七章 7.27.2样本的主成分样本的主成分主成分的个数及解释主成分的个数及解
46、释 主成分分析的目的之一是主成分分析的目的之一是简化数据结构简化数据结构, ,用用尽可能少的主成分尽可能少的主成分Z1, , Zm( (mp) )代替原来代替原来的的p个变量个变量, ,这样就把这样就把p个变量的个变量的n次观测数据简次观测数据简化为化为m个主成分的得分数据个主成分的得分数据. .在这里要求:在这里要求: m个主成分所反映的信息与原个主成分所反映的信息与原来来p个变量提供的信息差不多个变量提供的信息差不多; ; m个主成分又能对资料所具有个主成分又能对资料所具有的意义进行解释的意义进行解释. .55第七章第七章 7.27.2样本的主成分样本的主成分主成分个数的确定主成分个数的确
47、定 主成分的个数主成分的个数m如何选取是实际工作者关心如何选取是实际工作者关心的问题的问题. .关于主成分的个数如何确定关于主成分的个数如何确定, ,常用的标常用的标准有两个:准有两个: (1) (1) 按累计贡献率达到一定程度按累计贡献率达到一定程度( (如如70%70%或或80%80%以上以上) )来确定来确定m; (2) 先计算先计算S或或R的的p个特征根的均值个特征根的均值, ,取大取大于于的特征根个数的特征根个数m. 当当p=20 =20 时时, ,大量实践表明大量实践表明, ,第一个标准容易取太多第一个标准容易取太多的主成分的主成分, ,而第二个标准容易取太少的主成分而第二个标准容
48、易取太少的主成分, ,故最故最好将两者给合起来应用好将两者给合起来应用, ,同时要考虑同时要考虑m个主成分对个主成分对Xi的贡献率的贡献率i( (m) ). . 56第七章第七章 7.27.2样本的主成分样本的主成分应用例子应用例子7.2.17.2.1 例例7.2.17.2.1 学生身体各指标的主成分分析学生身体各指标的主成分分析. . 随机抽取随机抽取3030名某年级中学生名某年级中学生, ,测量其身高测量其身高(X1)(X1)、体重、体重(X2)(X2)、胸围、胸围(X3)(X3)和坐高和坐高(X4),(X4),数据见书中数据见书中P277P277表表7.4(7.4(或以下或以下SASSA
49、S程序的数据行程序的数据行). ). 试对中试对中学生身体指标数据做主成分分析学生身体指标数据做主成分分析. . 解解 (1) (1) 以下以下SASSAS程序首先生成包括程序首先生成包括3030名学生名学生身体指标数据的身体指标数据的SASSAS数据集数据集d721(d721(其中变量其中变量NUMBERNUMBER记录识别学生的序号记录识别学生的序号) ),然后调用,然后调用SAS/STASAS/STA软件中的软件中的PRINCOMPPRINCOMP过程进行主成分分析过程进行主成分分析. .57第七章第七章 7.2 7.2 样本的主成分样本的主成分例例7.2.17.2.1的的sassas程
50、序程序 Data d721; input number x1-x4 ; cards;1 148 41 72 78 2 139 34 71 763 160 49 77 86 4 149 36 67 79.27 144 36 68 76 28 141 30 67 7629 139 32 68 73 30 148 38 70 78;proc princomp data=d721 prefix=z out=o721 ; var x1-x4;run;该选项规定该选项规定主成分的前主成分的前缀名字为缀名字为z生成包含主生成包含主分量得分的分量得分的输出数据集输出数据集行指针控制符行指针控制符指示读完该行指
51、示读完该行数据行后再数据行后再跳到下一行。跳到下一行。58第七章第七章 7.2 7.2 样本的主成分样本的主成分例例7.2.17.2.1的的sassas程序程序 proc plot data=o721; plot z2*z1 $ number=*;run;proc sort data=o721; by z1;run;proc print data=o721; var number z1 z2 x1-x4;run;绘制前二个主成分得分的绘制前二个主成分得分的散点图散点图.作图符号为作图符号为*,并并在每散点旁边加上序号在每散点旁边加上序号,以以便识别各个观测便识别各个观测.把输出集把输出集o72
52、1按第一主成分按第一主成分z1的得分值从小的得分值从小 到大排序到大排序输出排序后的数据集输出排序后的数据集o72159第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的输出结果的输出结果 学生身体指标数据的描述统计量和相关阵学生身体指标数据的描述统计量和相关阵60第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的输出结果的输出结果 输出输出7.2.1 7.2.1 相关阵的特征值和特征向量相关阵的特征值和特征向量61第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的结果分析的结果分析 PRINCOMPPRINCOMP
53、过程由相关阵出发进行主成分分析过程由相关阵出发进行主成分分析. .由输出由输出7.2.17.2.1中相关阵的特征值可以看出,第中相关阵的特征值可以看出,第一主成分的贡献率已高达一主成分的贡献率已高达88.53%88.53%;且前二个主;且前二个主成分的累计贡献率已达成分的累计贡献率已达96.36%.96.36%.因此只须用两因此只须用两个主成分就能很好地概括这组数据个主成分就能很好地概括这组数据. . 另由第三和四个特征值近似为另由第三和四个特征值近似为0 0,可以得出,可以得出这这4 4个标准化后的身体指标变量个标准化后的身体指标变量( (Xi* *, ,i=1,2,3,4)=1,2,3,4
54、)有近似的线性关系有近似的线性关系( (即所谓共线性即所谓共线性),),如如 0.505747 0.505747 X1 1* * -0.690844 -0.690844 X2 2* * +0.461488 +0.461488 X3 3* * -0.232343 -0.232343 X4 4* *c(c(常数常数).).62第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的结果分析的结果分析 由最大的两个特征值对应的特征向量可以写由最大的两个特征值对应的特征向量可以写出第一和第二主成分出第一和第二主成分: Z1 1=0.4970 =0.4970 X1 1* *+0.51
55、46 +0.5146 X2 2* * +0.4809 +0.4809 X3 3* * +0.5069 +0.5069 X4 4* * Z2 2= -0.5432 = -0.5432 X1 1* * +0.2102 +0.2102 X2 2* * +0.7246 +0.7246 X3 3* * - 0.3683 - 0.3683 X4 4* * 第一和第二主成分都是标准化后变量第一和第二主成分都是标准化后变量Xi* * ( (i=1,2,3,4)=1,2,3,4)的线性组合,且组合系数就是特征的线性组合,且组合系数就是特征向量的分量向量的分量. .63第七章第七章 7.27.2样本的主成分样本的
56、主成分例例7.2.17.2.1的结果分析的结果分析 利用特征向量各分量的值可以对各主成利用特征向量各分量的值可以对各主成分进行解释分进行解释. . 第一大特征值对应的第一个特征向量的各第一大特征值对应的第一个特征向量的各个分量值均在个分量值均在0.50.5附近附近, ,且都是正值且都是正值, ,它反映它反映学生身材的魁梧程度学生身材的魁梧程度. .身体高大的学生身体高大的学生, ,他的他的4 4个部位的尺寸都比较大个部位的尺寸都比较大; ;而身体矮小的学生而身体矮小的学生, ,他的他的4 4个部位的尺寸都比较小个部位的尺寸都比较小. .因此我们称因此我们称第一主成分为大小因子第一主成分为大小因
57、子. .64第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的结果分析的结果分析 第二大特征值对应的特征向量中第第二大特征值对应的特征向量中第一一( (即身高即身高X1X1的系数的系数) )和第四个分量和第四个分量( (即即坐高坐高X4X4的系数的系数) )为负值为负值, ,而第二而第二( (即体重即体重X2X2的系数的系数) )和第三个分量和第三个分量( (即胸围即胸围X3X3的系的系数数) )为正值为正值, ,它反映学生的胖瘦情况它反映学生的胖瘦情况, ,故故称第二主成分为胖瘦因子称第二主成分为胖瘦因子. .65第七章第七章 7.27.2样本的主成分样本的主成分例
58、例7.2.17.2.1的输出结果的输出结果 输出输出7.2.2 7.2.2 第二主成分得分对第一主成分得分的散布图第二主成分得分对第一主成分得分的散布图66第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的结果分析的结果分析 输出输出7.2.27.2.2是是PLOTPLOT过程产生的输出图形过程产生的输出图形,从图中可以直观地看出,按学生的身体,从图中可以直观地看出,按学生的身体指标尺寸,这指标尺寸,这3030名学生大约应分成三组名学生大约应分成三组( (以以第一主成分得分值为第一主成分得分值为-1-1和和2 2为分界点为分界点).). 每一组包括哪几名学生由每个散点
59、旁边每一组包括哪几名学生由每个散点旁边的序号可以得知的序号可以得知. .更详细的信息可从更详细的信息可从PRINTPRINT过程产生的输出数据列表中得到过程产生的输出数据列表中得到. .67第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的输出结果的输出结果 按第一主成分得分排序后的主成分得分和原始数据按第一主成分得分排序后的主成分得分和原始数据68第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的结果分析的结果分析 以上以上输出列表中把输出列表中把3030个观测按第一主成分从小个观测按第一主成分从小到大重新排序后的输出结果到大重新排序后的输
60、出结果. .从这里可以得到分从这里可以得到分为三组时各组学生的更多的信息如下为三组时各组学生的更多的信息如下: : G G1 1=11,15,29,10,28,6,24,14,2,27,18=11,15,29,10,28,6,24,14,2,27,18 G G2 2=4,30,22,1,16,26,23,21,8,9,7,17=4,30,22,1,16,26,23,21,8,9,7,17 G G3 3=20,13,19,12,5,3,25=20,13,19,12,5,3,25 若考虑用若考虑用Z1 1 , ,Z2 2进行聚类进行聚类, ,这就是主成分这就是主成分聚类方法聚类方法. .69 以下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度对讲机系统集成服务合同
- 2024年度技术转让合同服务内容扩展
- 近摄镜市场发展预测和趋势分析
- 连衣裙市场发展预测和趋势分析
- 2024年度版权购买合同(具体权益内容)
- 浇铸用车市场发展现状调查及供需格局分析预测报告
- 插线板市场发展现状调查及供需格局分析预测报告
- 2024年度无人机遥感监测服务合同
- 2024年度别克汽车金融贷款服务合同
- 气动开窗器市场需求与消费特点分析
- ISO27001信息安全管理体系培训资料
- 红色经典影片与近现代中国发展学习通超星期末考试答案章节答案2024年
- 2024年法律职业资格考试(试卷一)客观题试卷与参考答案
- 2024年湖北武汉经济技术开发区(汉南区)事业单位专项招聘35人历年高频500题难、易错点模拟试题附带答案详解
- 2024秋国家开放大学《马克思主义基本原理》专题测试1-8参考答案
- 新概念英语第二册33课市公开课获奖课件省名师示范课获奖课件
- BitTk支付公链-精简版
- 2024年四川省凉山州中考数学适应性试卷
- Unit1 Lets be friends(教学设计)-2024-2025学年外研版(三起)(2024)英语三年级上册
- 上海离职协议书模板
- 第十五届全国交通运输行业职业技能大赛(公路收费及监控员赛项)考试题库-下(简答题)
评论
0/150
提交评论