专题二 降维算法_第1页
专题二 降维算法_第2页
专题二 降维算法_第3页
专题二 降维算法_第4页
专题二 降维算法_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题二降维算法1主成分分析〔PrincipalComponentAnalysis,PCA〕

2线性判别分析(LinearDiscriminantAnalysis,LDA),1内容

研究背景根本知识介绍经典方法介绍总结讨论2研究背景

问题的提出地理系统是多要素的复杂系统。在地理学研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。

因此,人们会很自然地想到,能否在相关分析的根底上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保存原来变量所反映的信息?3研究背景降维的动机原始观察空间中的样本具有极大的信息冗余样本的高维数引发分类器设计的“维数灾难〞数据可视化、特征提取、分类与聚类等任务需求4

特征选择特征约简特征提取依据某一标准选择性质最突出的特征实验数据分析,数据可视化(通常为2维或3维)等也需要维数约简经已有特征的某种变换获取约简特征一般框架5线性降维方法

主成分分析(PCA)[Jolliffe,1986]降维目的:寻找能够保持采样数据方差的最正确投影子空间求解方法:对样本的散度矩阵进行特征值分解,所求子空间为经过样本均值,以最大特征值所对应的特征向量为方向的子空间Principalcomponent8线性降维方法

主成分分析(PCA)[Jolliffe,1986]PCA对于椭球状分布的样本集有很好的效果,学习所得的主方向就是椭球的主轴方向.PCA是一种非监督的算法,能找到很好地代表所有样本的方向,但这个方向对于分类未必是最有利的9线性降维方法

线性判别分析(LDA)[Fukunaga,1991]降维目的:寻找最能把两类样本分开的投影直线,使投影后两类样本的均值之差与投影样本的总类散度的比值最大求解方法:经过推导把原问题转化为关于样本集总类内散度矩阵和总类间散度矩阵的广义特征值问题Bestprojectiondirectionforclassification10

11线性降维方法比较主成分分析(PCA)[Jolliffe,1986]线性判别分析(LDA)[Fukunaga,1991]PCALDA11

线性降维方法的缺乏1-DHelix曲线流形原始数据无法表示为特征的简单线性组合比方:PCA无法表达Helix曲线流形12一、主成分分析的根本原理假定有n个地理样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵13主成分分析的根本原理当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。14

定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm〔m≤p〕为新变量指标系数lij确实定原那么:①zi与zj〔i≠j;i,j=1,2,…,m〕相互无关;15

②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;……zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。

那么新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m主成分。

16

从以上的分析可以看出,主成分分析的实质就是确定原来变量xj〔j=1,2,…,p〕在诸主成分zi〔i=1,2,…,m〕上的荷载lij〔i=1,2,…,m;j=1,2,…,p〕。从数学上容易知道,从数学上可以证明,它们分别是的相关矩阵的m个较大的特征值所对应的特征向量。1718

二、计算步骤

〔一〕计算相关系数矩阵

rij〔i,j=1,2,…,p〕为原变量xi与xj的相关系数,rij=rji,其计算公式为:19

〔二〕计算特征值与特征向量:①解特征方程,常用雅可比法〔Jacobi〕求出特征值,并使其按大小顺序排列;

②分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量。20

③计算主成分奉献率及累计奉献率▲奉献率:▲累计奉献率:一般取累计奉献率达85—95%的特征值所对应的第一、第二、…、第m〔m≤p〕个主成分。21

④计算主成分载荷

⑤各主成分的得分:

22

主成分分析方法应用实例

下面,我们根据下表给出的数据,对某农业生态经济系统做主成分分析,

某农业生态经济系统各区域单元的有关数据

23

24

步骤如下:〔1〕将表3.4.5中的数据作标准差标准化处理,然后将它们代入公式计算相关系数矩阵表3.5.1相关系数矩阵25

特征值及主成分奉献率26

〔2〕由相关系数矩阵计算特征值,以及各个主成分的奉献率与累计奉献率〔见表〕。由表可知,第一,第二,第三主成分的累计奉献率已高达86.596%〔大于85%〕,故只需要求出第一、第二、第三主成分z1,z2,z3即可。27

①第一主成分z1与x1,x5,x6,x7,x9呈显出较强的正相关,与x3呈显出较强的负相关,而这几个变量那么综合反映了生态经济结构状况,因此可以认为第一主成分z1是生态经济结构的代表。②第二主成分z2与x2,x4,x5呈显出较强的正相关,与x1呈显出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第二主成分z2代表了人均资源量。

分析:28

显然,用三个主成分z1、z2、z3代替原来9个变量〔x1,x2,…,x9〕,描述农业生态经济系统,可以使问题更进一步简化、明了。③第三主成分z3,与x8呈显出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构。④另外,表3.5.3中最后一列〔占方差的百分数〕,在一定程度反映了三个主成分z1、z2、z3包含原变量〔x1,x2,…,x9〕的信息量多少。29线性判别分析线性判别分析(Linear

Discriminant

Analysis,

LDA),有时也称Fisher线性判别(Fisher

Linear

Discriminant

,FLD),

这种算法是Ronald

Fisher

1936年创造的,是模式识别的经典算法。在1996年由Belhumeur引入模式识别和人工智能领域的。根本思想是将高维的模式样本投影到最正确鉴别矢量空间,以到达抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最正确的可别离性。因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵最小。就是说,它能够保证投影后模式样本在新的空间中有最小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论