版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十章 利用PCA来简化数据10.1引言多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,相关性,势必增加了分析问题的复杂性。举一个简单的例子,现在需要进行了一项关于美国国民经济的研究,现有美国1929一1938年各年的数据,从中可以得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等等。要如何介绍美国国民收入与支出的情况?是否需要将这17个变量信息面面俱到的罗列出来呢?如果这样做,由于要素太多、信息量太过庞大,会增加问题的复杂性和分析难度,不容
2、易让别人抓住主要信息,工作量也会大大提高。并且要素与要素之间可能存在相关关系,这样会导致信息重叠,分析偏误。对此问题我们需要对这些要素进行高度概括,从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。美国的统计学家斯通(Stone)使用主成分分析的方法,用可直接测量的三个新变量总收入F1、总收入变化率F2和经济发展或衰退的趋势F3就取代了原来的17个变量,令人吃惊的是精度达到了97.4%。主成分分析方法能够在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化,也就是说,对高
3、维变量空间进行降维处理。很显然,在一个低维空间要比在一个高维空间处理问题容易得多。如此能够使问题得到更好的解决。10.2 主成分分析的相关概念及基本原理10.2.1 主成分分析的相关概念主成分分析(Principal component analysis)缩写为PCA。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主成分分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地
4、。被誉为应用线形代数最价值的结果之一。主成分分析采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。主成分就是由原始变量综合形成的几个新变量。依据主成分所含信息量的大小称为第一主成分,第二主成分等等。主成分与原始变量之间的具有以下几种关系:(1)主成分保留了原始变量绝大多数信息。(2)主成分的个数大大少于原始变量的数目。(3)各个主成分之间互不相关。(4)每个主成分都是原始变量的线性组合。10.2.2 主成分分析的基本原理主成分
5、分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望越大,表示包含的信息越多。因此在所有的线性组合中所选取的应该是方差最大的,故称为第一主成分。如果第一主成分不足以代表原来个变量的信息,再考虑选取即第二个线性组合,为了有效地反映原来信息,已有的信息就不需要再出现在中,用数学语言表达就是要求,称为第二主
6、成分,依此类推可以构造出第三、四第个主成分。10.3 主成分分析的作用概括起来说,主成分分析主要由以下几个方面的作用。1主成分分析能降低所研究的数据空间的维数。即用研究维的空间代替维的空间,而低维的空间代替高维的空间所损失的信息很少。即:使只有一个主成分(即)时,这个仍是使用全部变量(个)得到的。例如要计算的均值也得使用全部的均值。在所选的前个主成分中,如果某个的系数全部近似于零的话,就可以把这个删除,这也是一种删除多余变量的方法。 2有时可通过因子负荷的结论,弄清变量间的某些关系。 3多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要
7、把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。4由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量做回归分析。 5用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。 10.
8、4 主成分分析的数学模型一个实际问题中,有个要素,将其看作个随机变量,对个变量进行线性组合,得到新的变量,新变量能够充分反应原始变量的信息,并且相互独立。对于一个样本资料,观测个变量,个样品的数据资料阵为:其中:主成分分析就是将个观测变量综合成为个新的变量(综合变量),即即 (10-1)简写为:要求模型满足以下条件:互不相关(,)的方差大于的方差大于的方差,依次类推 于是,称为第一主成分,为第二主成分,依此类推,有第个主成分。主成分又叫主分量。这里我们称为主成分系数。上述模型可用矩阵表示为:,其中 称为主成分系数矩阵。10.5 主成分分析的几何解释10.5.1 方差的意义方差是实际值与期望值之
9、差平方的期望值。在概率论和数理统计中,方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着重要意义。 (10-2)方差就是到中心的偏离程度,可以代表点的离散程度。(a) (b)图1 点的离散示意图从图1(a)和(b)可以看出,(a)的离散程度大于(b),因此我们确定,(a)的方差大于(b),点更加离散。10.5.2 PCA的几何解释假设有个样品,每个样品有二个变量,即在二维空间中讨论主成分的几何意义。设个样品在二维空间中的分布大致为一个椭园,如下图所示:图2 主成分几何解释图将坐标系进行正交旋转一个角度,使其椭圆长轴方向取坐标,在椭圆
10、短轴方向取坐标,旋转公式为(10-3)写成矩阵形式为: (10-4)其中为坐标旋转变换矩阵,它是正交矩阵,即有,即满足。经过旋转变换后,得到下图的新坐标:图3 主成分几何解释图新坐标有如下性质:(1)个点的坐标和的相关几乎为零。(2)二维平面上的个点的方差大部分都归结为轴上,而轴上的方差较小。和称为原始变量和的综合变量。由于个点在轴上的方差最大,因而将二维空间的点用在轴上的一维综合变量来代替,所损失的信息量最小,由此称轴为第一主成分,轴与轴正交,有较小的方差,称它为第二主成分。旋转变换的目的:将原始数据的大部分信息集中到yl轴上,对数据中包含的信息起到了浓缩作用。优点:(1)可达到简化数据结构
11、的目的。(2)新产生的综合变量Fl,F2具有不相关的性质,从而避免了信息重叠所带来的虚假性。10.6 主成分分析的导出及主成分分析的步骤10.6.1 主成分的导出根据主成分分析的数学模型的定义,要进行主成分分析,就需要根据原始数据,以及模型的三个条件的要求,如何求出主成分系数,以便得到主成分模型。这就是导出主成分所要解决的问题。1、根据主成分数学模型的条件要求主成分之间互不相关,为此主成分之间的协差阵应该是一个对角阵。即,对于主成分,其协差阵应为, (10-5)=2、设原始数据的协方差阵为,如果原始数据进行了标准化处理后则协方差阵等于相关矩阵,即有, (10-6)3、再由主成分数学模型条件和正
12、交矩阵的性质,若能够满足条件最好要求为正交矩阵,即满足 (10-7)于是,将原始数据的协方差代入主成分的协差阵公式得 (10-8) (10-9)展开上式得展开等式两边,根据矩阵相等的性质,这里只根据第一列得出的方程为:为了得到该齐次方程的解,要求其系数矩阵行列式为0,即显然,是相关系数矩阵的特征值,是相应的特征向量。根据第二列、第三列等可以得到类似的方程,于是是方程 (10-10)的个根,为特征方程的特征根,是其特征向量的分量。4、下面再证明主成分的方差是依次递减设相关系数矩阵的个特征根为,相应的特征向量为相对于的方差为同样有:,即主成分的方差依次递减。并且协方差为: (10-11)综上所述,
13、根据证明有,主成分分析中的主成分协方差应该是对角矩阵,其对角线上的元素恰好是原始数据相关矩阵的特征值,而主成分系数矩阵的元素则是原始数据相关矩阵特征值相应的特征向量。矩阵是一个正交矩阵。于是,变量经过变换后得到新的综合变量新的随机变量彼此不相关,且方差依次递减。10.6.2 主成分分析的计算步骤样本观测数据矩阵为:第一步:对原始数据进行标准化处理。 其中 第二步:计算样本相关系数矩阵。为方便,假定原始数据标准化后仍用表示,则经标准化处理后的数据的相关系数为: (10-12)第三步:用雅克比方法求相关系数矩阵的特征值()和相应的特征向量。第四步:选择重要的主成分,并写出主成分表达式。主成分分析可
14、以得到个主成分,但是,由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,一般不是选取个主成分,而是根据各个主成分累计贡献率的大小选取前个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重。即贡献率= (10-13)贡献率越大,说明该主成分所包含的原始变量的信息越强。主成分个数的选取,主要根据主成分的累积贡献率来决定,即一般要求累计贡献率达到810%以上,这样才能保证综合变量能包括原始变量的绝大多数信息。另外,在实际应用中,选择了重要的主成分后,还要注意主成分实际含义解释。主成分分析中一个很关键的问题是如何给主成分赋予新的意义
15、,给出合理的解释。一般而言,这个解释是根据主成分表达式的系数结合定性分析来进行的。主成分是原来变量的线性组合,在这个线性组合中个变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用,线性组合中各变量系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的实际意义,这要结合具体实际问题和专业,给出恰当的解释,进而才能达到深刻分析的目的。第五步:计算主成分得分。根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主
16、成分得分。具体形式可如下。第六步:依据主成分得分的数据,则可以进行进一步的统计分析。其中,常见的应用有主成份回归,变量子集合的选择,综合评价等。10.7 主成分分析在计算机视学领域的应用PCA方法是一个具有很高普适性的方法,被广泛应用于多个领域。这里要特别介绍的是它在计算机视觉领域的应用,包括如何对图像进行处理以及在人脸识别方面的特别作用。10.7.1 数据表示如果要将PCA方法应用于视觉领域,最基本的问题就是图像的表达。如果是一幅大小的图像,它的数据将被表达为一个维的向量:在这里图像的结构将被打乱,每一个像素点被看作是一维,最直接的方法就是将图像的像素一行行的头尾相接成一个一维向量。还必须要
17、注意的是,每一维上的数据对应于对应像素的亮度、灰度或是色彩值,但是需要划归到同一纬度上。10.7.2 模式识别假设数据源是一系列的20幅图像,每幅图像都是大小,那么它们都可以表示为一个维的向量。将它们排成一个矩阵:然后对它们进行PCA处理,找出主元。为什么这样做呢?据人脸识别的例子来说,数据源是20幅不同的人脸图像,PCA方法的实质是寻找这些图像中的相似的维度,因为人脸的结构有极大的相似性(特别是同一个人的人脸图像),则使用PCA方法就可以很容易的提取出人脸的内在结构,也及时所谓“模式”,如果有新的图像需要与原有图像比较,就可以在变换后的主元维度上进行比较,则可衡量新图与原有数据集的相似度如何
18、。对这样的一组人脸图像进行处理,提取其中最重要的主元,即可大致描述人脸的结构信息,称作“特征脸”(EigenFace)。这就是人脸识别中的重要方法“特征脸方法”的理论根据。近些年来,基于对一般PCA方法的改进,结合ICA、kernel-PCA等方法,在主元分析中加入关于人脸图像的先验知识,则能得到更好的效果。10.7.3 图像信息压缩使用PCA方法进行图像压缩,又被称为Hotelling算法,或者Karhunenand Leove(KL)变换。这是视觉领域内图像处理的经典算法之一。具体算法与上述过程相同,使用PCA方法处理一个图像序列,提取其中的主元。然后根据主元的排序去除其中次要的分量,然后
19、变换回原空间,则图像序列因为维数降低得到很大的压缩。例如上例中取出次要的5个维度,则图像就被压缩了1/4。但是这种有损的压缩方法同时又保持了其中最“重要”的信息,是一种非常重要且有效的算法。10.8 总结与讨论PCA技术的一大好处是对数据进行降维的处理。我们可以对新求出的“主元”向量的重要性进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维从而简化模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。PCA技术的一个很大的优点是,它是完全无参数限制的。在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关,与用户是独
20、立的。但是,这一点同时也可以看作是缺点。如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高。图4图 4 黑色点表示采样数据,排列成转盘的形状。容易想象,该数据的主元是或是旋转角。如图4中的例子,PCA找出的主元将是。但是这显然不是最优和最简化的主元。之间存在着非线性的关系。根据先验的知识可知旋转角是最优的主元。则在这种情况下,PCA就会失效。但是,如果加入先验的知识,对数据进行某种划归,就可以将数据转化为以为线性的空间中。这类根据先验知识对数据预先进行非线性转换的方法就成为kernel-PCA,它扩展了PCA能
21、够处理的问题的范围,又可以结合一些先验约束,是比较流行的方法。有时数据的分布并不是满足高斯分布。如图5所示,在非高斯分布的情况下,PCA方法得出的主元可能并不是最优的。在寻找主元时不能将方差作为衡量重要性的标准。要根据数据的分布情况选择合适的描述完全分布的变量,然后根据概率分布式 (10-14)来计算两个向量上数据分布的相关性。等价的,保持主元间的正交假设,寻找的主元同样要使。这一类方法被称为独立主元分解(ICA)。图5图5 数据的分布并不满足高斯分布,呈明显的十字星状。 这种情况下,方差最大的方向并不是最优主元方向。PCA方法和线形代数中的奇异值分解(SVD)方法有内在的联系,一定意义上来说
22、,PCA的解法是SVD的一种变形和弱化。对于的矩阵,通过奇异值分解可以直接得到如下形式: (10-15)其中是一个的矩阵,是一个的矩阵,而是的对角阵。形式如下:其中,是原矩阵的奇异值。由简单推导可知,如果对奇异值分解加以约束:的向量必须正交,则矩阵即为PCA的特征值分解中的,则说明PCA并不一定需要求取,也可以直接对原数据矩阵进行SVD奇异值分解即可得到特征向量矩阵,也就是主元向量。参考文献1 Lindsay I Smith. A tutorial on Principal Components Analysis. Online technical report available from http:/csnet.otago.ac.nz/cosc453/student_ tutorials/principal_components.pdf, 2002.2Jonathon Shlens. A Tutorial on Principal Component Analysis. Onlin
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年版坚定初心专题教育培训协议版B版
- 2024年环保项目质押担保及反担保合同范本解析3篇
- 2024年环保项目抵押融资担保合同示范文本3篇
- 房屋租赁合同模板锦集九篇
- 小学二年级教学工作计划
- 无人货架项目效益分析报告
- 中国移动CAD行业市场运行现状及投资战略研究报告
- 谁的尾巴中班教案
- 石油化工非标设备项目可行性研究报告
- 2025-2031年中国海南省生态旅游行业发展前景预测及投资方向研究报告
- 在小学语文教学中彰显人文情怀 人文情怀
- 急性呼吸衰竭的诊断和处理
- GB/T 337.1-2014工业硝酸浓硝酸
- 小学语文课程标准(2023年版)
- GB/T 13738.2-2017红茶第2部分:工夫红茶
- 涉税风险防范课件
- 《小英雄雨来》阅读测试题附答案
- 应用PDCA降低抗生素的使用率及使用强度课件
- DB31T 1238-2020 分布式光伏发电系统运行维护管理规范
- 分包计划范文
- 个人住房质押担保借款合同书范本(3篇)
评论
0/150
提交评论