主成分分析简介_第1页
主成分分析简介_第2页
主成分分析简介_第3页
主成分分析简介_第4页
主成分分析简介_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析简介PrincipalComponentAnalysis(PCA)什么是主成分分析?我们来看一个例子:小学各科成绩的评估可以用下面的综合成绩来体现:a1×語文+a2×数学+a3×自然+a4×社会科学

确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相对于新的综合变量——主成分什么是主成分分析?推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理,这就是PCA。

这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。什么是主成分分析?由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。

主成分分析(PrincipalComponentAnalysis,简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。为什么要根据方差确定主成分?情形II下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息对主成分的要求上例可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原理的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。一般来说,我们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。

主成分分析的目的压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。这样就可以消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题。主成分得分

(潜变量-latentvariable)PC(1)=a11X1+a12X2+…+a1pXpPC(2)=a21X1+a22X2+…+a2pXp...PC(m)=am1X1+am2X2+…+ampXp选择加权系数a11…,a1p时要能使PC(1)得到最大解释方差的能力,而PC(2)则是能对原始数据中尚未被PC(1)解释的差异部分拥有有最大解释能力,若以此类推,我们可以找出m个PC出來(m≦p)

主成分轴、载荷向量原始数据前的加权系数决定了新的综合变量主成分(得分)的大小和性质,通常称为主成分轴或者载荷向量(载荷轴、载荷系数)。主成分分析的关键就是确定这些系数,这些系数构成了新的坐标系,将原始变量在新的坐标系下投影就可求得新坐标系下的变量值(主成分得分)。三变量主成分分析示意图PC1=a1xi1+a2xi2+a3xi3PC2=b1xi1+b2xi2+b3xi3对三维空间下的一组样本(设样本数为n),其原始变量的坐标系为x1,x2,x3,在对原始坐标系经过坐标平移、尺度伸缩、旋转等变换后,得到一组新的、相互正交的坐标轴v1,v2,可使原始变量在新坐标系上的投影值(分别称为第一、第二主成分)的方差达到最大。其中v1,v2称为第一、第二载荷轴。对于m维空间,载荷轴的个数最多为m。主成分变换将三维空间的样本显示在二维空间为什么要进行主成分分析?消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题压缩变量个数,剔除冗余信息,使模型更好地反映真实情况。PCA分析在很多领域有广泛应用(模式识别、化学组分的定量分析、多元物系的组分数目确定、动力学反应机理的确定等)为什么要进行主成分分析?对p个变量进行n次观测得到的观测数据可用下面的矩阵表示

采用PCA技术可以将上述矩阵的列数压缩。

基本概念协方差(covariance)

方差标准差基本概念相关系数(correlationcoefficient)协方差数据矩阵的每一列对应一个变量的n个量测值,任意两列之间可以计算两变量间的协方差cov(i,j),i=j时,协方差矩阵

主成分的求解步骤:

i)对原始数据矩阵进行标准化处理

相当于对原始变量进行坐标平移与尺度伸缩:

ii)求协方差矩阵Ziii)特征分解

相当于将原来的坐标轴进行旋转得到新的坐标轴U:—Z的特征值组成的对角阵U—Z的特征向量按列组成的正交阵,它构成了新的矢量空间,作为新变量(主成分)的坐标轴,又称为载荷轴。

­特征值表示新变量(主成分)方差的大小

­得到的特征矢量的方差比前一个特征矢量的更小,也就是依次递减

­特征矢量相互正交,即不相关iv)确定主成分个数(1)根据累积贡献率

当大于某个阈值时,可认为主成分数目为m。(2)根据其它准则*特征值大于1.0的因子数定为主成分数。*利用特征值与因子数目的曲线,到某一因子数后,特征值减小幅度变化不大,此转折点的因子数即为主成分数m。*保留那些与一个以上变量有重大关系的因子。

v)求主成分得分-新的变量值

F阵的每一行相当于原数据矩阵的所有行(即原始变量构成的向量)在主成分坐标轴(载荷轴)上的投影,这些新的投影构成的向量就是主成分得分向量。主成分分析原理根据方差最大化原理,用一组新的、线性无关且相互正交的向量来表征原来数据矩阵的行(或列)。这组新向量(主成分)是原始数据向量的线性组合。通过对原始数据的平移、尺度伸缩(减均值除方差)和坐标旋转(特征分解),得到新的坐标系(特征向量)后,用原始数据在新坐标系下的投影(点积)来替代原始变量。主成分的特点☆主成分是原变量的线性组合;☆各个主成分之间互不相关;☆主成分按照方差从大到小依次排列,第一主成分对应最大的方差(特征值);☆每个主成分的均值为0、其方差为协方差阵对应的特征值;☆不同的主成分轴(载荷轴)之间相互正交。主成分的特点☆

如果原来有p个变量,则最多可以选取p个主成分,这p个主成分的变化可以完全反映原来全部p个变量的变化;☆

如果选取的主成分少于p个,则这些主成分的变化应尽可能多地反映原来全部p个变量的变化。主成分的数学定义PCA的优点

★它能找到表现原始数据阵最重要的变量的组合★

通过表示最大的方差,能有效地直观反映样本之间的关系★

能从最大的几个主成分的得分来近似反映原始的数据阵的信息PCA中的重要概念载荷轴(特征矢量)得分(投影)方差(特征值)中心化、标准化协方差矩阵、相关系数矩阵(相关矩阵)例1:有3个变量X1,X2与X3(m=3),其16次(n=16)观测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论