主成分分析方法及matlab运用解释_第1页
主成分分析方法及matlab运用解释_第2页
主成分分析方法及matlab运用解释_第3页
主成分分析方法及matlab运用解释_第4页
主成分分析方法及matlab运用解释_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本文格式为Word版,下载可任意编辑 主成分分析方法及matlab运用解释 主成分分析方法 在大量实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保存原来较多的变量所反映的信息事实上,这种想法是可以实现的,这里介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。 一、主成分分析的基本原理 主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n 个地理样本,每个样本共有p 个变量描述,这样就构成了一

2、个np 阶的地理数据矩阵: 111212122212p p n n np x x x x x x X x x x ?=?(1) 如何从这么多变量的数据中抓住地理事物的内在规律性呢要解决这一问题,自然要在p 维空间中加以考察,这是对比麻烦的。为了战胜这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。 假如记原来的变量指标为x 1

3、,x 2,x p ,它们的综合指标新变量指标为z 1,z 2,zm (mp)。则 11111221221122221122, ,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+?=+?=+?(2) 在(2)式中,系数l ij 由以下原则来决定: (1)z i 与z j (ij;i ,j=1,2,m)相互无关; (2)z 1是x 1,x 2,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,x p 的所有线性组合中方差最大者;z m 是与z 1,z 2,z m-1都不相关的x 1,x 2,x

4、p 的所有线性组合中方差最大者。 这样决定的新变量指标z 1,z 2,zm 分别称为原变量指标x 1,x 2,x p 的第一,其次,第m 主成分。其中,z 1在总方差中占的比例最大,z 2,z 3,z m 的方差依次递减。在实际问题的分析中,常挑拣前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。 从以上分析可以看出,找主成分就是确定原来变量x j (j=1,2,p)在诸主成分z i (i=1,2,m)上的载荷l ij (i=1,2,m ;j=1,2,p),从数学上简单知道,它们分别是x 1,x 2,x p 的相关矩阵的m 个较大的特征值所对应的特征向量。 二

5、、主成分分析的计算步骤 通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下: (1) 计算相关系数矩阵 11 121212221 2 p p p p pp r r r r r r R r r r ?=? ?(3) 在公式(3)中,r ij (i ,j=1,2,p)为原来变量x i 与x j 的相关系数,其计算公式为 由于R 是实对称矩阵(即r ij =r ji ),所以只需计算其上三角元素或下三角元素即可。 (2)计算特征值与特征向量 首先解特征方程I -R =0求出特征值i (i=1,2,p),并使其按大小 顺序排列,即12,p 0;然后分别求出对应于特征值i 的特征向

6、量e i (i=1,2,p)。 (2) 计算主成分贡献率及累计贡献率 主成分i z 贡献率:1/(1,2,)p i k k r i p =,累计贡献率:11/p m k k k k =。 一般取累计贡献率达85-95的特征值1,2,m 所对应的第一,其次, 第m (mp)个主成分。 (3) 计算主成分载荷 (,)(,1,2, ,)k i ki p z x i k p =(5) 由此可以进一步计算主成分得分: 1112121 22212m m n n nm z z z z z z Z z z z ?=?(6) matlab:princomp 解释 主成分分析函数: coeff,score,let

7、ent=princomp(x); 供献率:每一维数据对于区分全部数据的供献,供献率最大的显然是主成分,其次大的是次主成分 coef ,score ,latent ,t2 = princomp (x ); x :为要输入的n 维原始数据。带入这个matlab 自带函数,将会生成新的n 维加工后的数据(即score )。此数据与之前的n 维原始数据一一对应。 score:生成的n维加工后的数据存在score里。它是对原始数据进行的解析,进而在新的坐标系下获得的数据。他将这n维数据按供献率由大到小分列。(即在改变坐标系的景象下,又对n维数据排序) latent:是一维列向量,每一个数据是对应score里响应维的供献率,由于数占领n维所以列向量有n个数据。由大到小分列(由于score也是按供献率由大到小分列)。 coef:是系数矩阵。经由过程cofe可以知道x是如何转换成score的。但这个转换不是单纯的转换,务必使用以下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论