计量地理学-35-主成分分析_第1页
计量地理学-35-主成分分析_第2页
计量地理学-35-主成分分析_第3页
计量地理学-35-主成分分析_第4页
计量地理学-35-主成分分析_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析的基本原理主成分分析的计算步骤主成分分析方法应用实例主成分分析问题的提出地理系统是多变量要素的复杂系统。在地理学研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力的工具。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。主成分分析的基本原理在某多要素地理系统中,假定有n个样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵:地理数据样本数n,自然是越大越好,也即数据矩阵的行数n越大越好。地理系统的变量数p值较大时,一方面在p维空间中考察问题较为麻烦,另一方面大量变量之间可能有相关性的重复。为了克服这一困难,就需要进行降维处理。地理系统的变量数p值应该是少而精。主成分分析是用较少几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新的综合变量指标,则考虑每个新变量都是由原所有变量的线性加权总和所构成:lij如何确定这些系数lij?系数lij的确定原则:①

zi与zj(i≠j;i,j=1,2,…,m)相互无关;②

z1是x1,x2,…,xP的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;…

……………………………zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP的所有线性组合中方差最大者。保证新变量之间彼此独立没有相关性新变量依次分别降序排列地保留原变量所包含的信息这样得到的新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分。从数学上可以证明,载荷系数lij分别是原变量相关系数矩阵的m个较大特征根所对应的特征向量。从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,

p)在诸主成分变量zi(i=1,2,…,m)上的荷载

lij(

i=1,2,…,m;

j=1,2,…,p)。载荷系数lij的确定遵循两个原则主成分分析的计算步骤①计算相关系数矩阵②计算特征值与特征向量③计算主成分贡献率及累计贡献率④计算主成分载荷⑤各主成分的得分数据基础求解出待定的系数lij确定主成分变量个数求解主成分变量载荷系数lij确定主成分变量的数据内容及贡献程度①计算相关系数矩阵rij(i,j=1,2,…,p)为原变量xi与xj的单相关系数,rij=rji,其计算公式为:②计算特征值与特征向量求解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;相关系数矩阵特征根个数与相关系数矩阵的阶数一致,即原变量有p个,特征根也有p个。然后再分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量。p个特征根对应于p个主成分变量,与原变量个数相同,没有达到数据降维要求?③计算主成分贡献率及累计贡献率主成分贡献率:主成分累计贡献率:一般取累计贡献率达85%~95%的特征值所对应的第1、第2、…、第m(m≤p)个主成分。一方面新的主成分变量保留了超过85%的原变量信息内容;另一方面主成分个数m少于原变量个数p,达到了数据降维效果。④计算主成分载荷系数第i个主成分的载荷系数lij的求解:第i个特征根第i个特征根所对应的特征向量的第j个分量⑤计算各主成分的得分Z1Z2Zm主成分分析方法应用实例对下表的某农业生态经济系统的统计数据进行主成分分析:解:(1)将原数据表中的变量统计数据作标准差标准化处理,然后将它们代入公式单相关系数公式中来计算,得出9个变量的9×9相关系数矩阵:(2)由相关系数矩阵R构成的特征方程,计算其对应的特征值,按照特征根的数值大小进行降序排序,在此基础上计算各个主成分的贡献率与累计贡献率:第3主成分的累计贡献率已高达86.596%(大于85%),即第1、2、3主成分已可代表原变量的86.596%的信息内容。因此,只需要求出第1、第2、第3主成分z1,z2,z3即可。

(3)对于选择的3个主成分的3个特征值λ1=4.6610,λ2=2.0890,λ3=1.0430,分别求出其特征向量e1,e2,e3,再用公式计算各变量x1,x2,…,x9在主成分z1,z2,z3上的载荷lij:第1主成分z1与x1,x5,x6,x7,x9呈现出较强的正相关,与x3呈现出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第1主成分z1是生态经济结构的代表。第2主成分z2与x2,x4,x5呈现出较强的正相关,与x1呈现出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第2主成分z2代表了人均资源量。第3主成分z3与x8呈现出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第3主成分z3在一定程度上代表了农业经济结构。另外,表中最后一列(占方差的百分数)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论