第七章 主成分分析_第1页
第七章 主成分分析_第2页
第七章 主成分分析_第3页
第七章 主成分分析_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——第七章主成分分析应用多元统计分析

第七章主成分分析

目录

§7.1总体的主成分§7.2样本的主成分

多变量分析(MultivariateAnalysis)是处理多变量(多指标)的统计问题。

多个变量之间常存在相关性,人们希望用较少不相关的变量来代替原来较多且相关的变量。

主成分就是要从原变量的各种线性组合中找出能集中反映原变量信息的综合变量。

第七章§7.1总体的主成分

什么是主成分分析

主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法.在实际问题中,研究多指标的问题是经常遇到的问题.由于变量个数太多,并且彼此之间存在着一定的相关性,势必增加分析问题的繁杂性.主成分分析就是设法把原来的多个指标重新组合成较少几个新的互不相关的综合变量来代替原来的变量;而且这几个综合变量又能够尽可能多地反映原来变量的信息.利用这种降维的思想,产生了主成分分析、因子分析、典型相关分析等统计方法.

设X=(X1,…,Xp)′是p维随机向量,均值向量E(X)=μ,协差阵

D(X)=Σ.考虑它的线性变换:

?z1?a1'x?a11x1?a22x2??ap1xp?'z?a?21x?a12x1?a22x2??ap2xp???zp?ap'x?a1px1?ap2x2??apxpp?易见:

Var(Zi)?ai?ai(i?1,2,p)Cov(Zi,Zj)?ai'?zj(i,j?1p)'

假使我们希望用Z1来代替原来的p个变量X1,…,Xp,这就要求Z1尽可能多地反映原来p个变量的信息,这里所说的“信息〞用什么来表达呢?最经典的方法是用Z1的方差来表达.Var(Z1)越大,表示Z1包含的信息越多.由(7.1.2)式看出,对a1必需有某种限制.否则可使Var(Z1)→∞.常用的限制是:a1'a1=1.若存在满足以上约束的a1,使Var(Z1)达最大,Z1就称为第一主成分(或主分量

假使第一主成分不足以代表原来p个变量的绝大部分信息.考虑X的其次个线性组合Z2.为了有效地代表原变量组的信息,Z1已表达(反映)的信息不希望在Z2中出现,用统计术语来讲,就是要求Cov(Z2,Z1)=a2'Σa1=0.(7.1.3)

于是求Z2时,就是在约束a2'a2=1和(7.1.3)下,求a2使Var(Z2)达最大,所求之Z2称为其次主成分,类似地可求得第三主成分,第四主成分,….,第p主成分。

换言之,若原数据有p个变量,则恰好可得到p个主成分:1.每个主成分都是原变量的线性组合;2.不同主成分间互不相关(相互正交);

3.主成分以其方差减少次序排列:第一主成分具有最大方差,

其次主成分是与第一主成分正交的原变量的线性组合中具有最大方差者,

其余主成分都有类似的性质.

或者说,若原变量包含有一定的信息,则全体主成分包含与原变量一致的信息.方差反映了变量取值的离散程度,方差大小表示了变量包含信息的多少.

第一主成分包含了尽可能多的信息,不同的主成分包含的信息互不重复;

其次主成分包含除第一主成分外剩余信息中尽可能多的信息;其余主成分都有类似的性质.主成分的定义

定义7.1.1设X=(X1,…,Xp)′为p维随机向量.称Zi=ai'X为X的第

i主成分(i=1,2,…,p),假使:①ai'ai=1(i=1,2,…,p);

②当i>1时ai'Σaj=0(j=1,…,i-1);③Var(Zi)=MaxVar(α'X).α'α=1,α'Σaj=0(j=1,…,i-1)主成分的几何意义

从代数学观点看主成分就是p个变量的一些特别的线性组合,而从几何上看这些线性组合正是把X1,…,Xp构成的坐标系旋转产生的

新坐标系,新坐标轴使之通过样本变差最大的方向(或者说具有最大的样本方差).

设有n个观测,每个观测有p个变量X1,…,Xp,它们的综合指标(主成分)记为Z1,…,Zp.

当p=2时原变量为X1,X2.设(X1,X2)听从二元正态分布,则样品点X(i)=(xi1,xi2)(i=1,2,…n)的散布图(见下面图形)在一个椭园内分布着

对于二元正态随机向量,n个点散布在一个椭园内(当X1,X2相关性越强,这个椭园就越扁).

若取椭园的长轴为坐标轴Z1,椭园的短轴为Z2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转一个角度a,根据旋转变换公式,新老坐标之间有关系:

Z1=CosaX1+SinaX2Z2=-SinaX1+CosaX2

Z1Z2是原变量X1和X2的特别线性组合.

从图上可以看出二维平面上n个点的波动(用二个变量的方差和

表示)大部分可以归结为在Z1方向的波动,而在Z2方向上的波动很小,可以忽略.这样一来,二维问题可以降为一维了,只取第一个综合变量Z1即可,而Z1是椭园的长轴.

一般状况,p个变量组成p维空间,n个样品点就是p维空间的n个点.对于p元正态分布变量来说,找主成分的问题就是找p维空间中椭球的主轴问题.主成分分析的内容

主成分分析的计算一般是从原变量的协差阵或相关矩阵出发进行,包含以下内容:

1.各主成分的构成;

2.各主成分的方差及其在总方差中所占的比例(贡献率);3.每个观测在各个主成分下的得分值;4.各主成分与原变量的相关性.主成分的求法

设p维随机向量X的均值E(X)=0,协差阵D(X)=Σ>0.由定义7.1.1,求第一主成分Z1=a1'X的问题就是求a1=(a11,a21,…,ap1)′,使得在a1'a1=1下,Var(Z1)达最大.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论