主成分分析 第二讲_第1页
主成分分析 第二讲_第2页
主成分分析 第二讲_第3页
主成分分析 第二讲_第4页
主成分分析 第二讲_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章主成分分析二、由相关矩阵求解主成分

当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。

量纲对于主成分分析的影响及消除方法——对数据进行标准化处理,以使每一个变量的均值为0,方差为1。

数据标准化后,总体的协方差矩阵与总体的相关系数相等.主成分与原始变量的关系式为:例:企业经济效益综合分析。用5个经济指标进行考核。用相关系数矩阵法求解主成分。其中计算出的相关系数矩阵为:(1)计算其特征值:(2)各特征值的累计方差贡献率为:(3)从以上方差贡献率看,k=2时主成分个数较为合适。对应的特征向量为:(4)建立第一和第二主成分:从相关系数矩阵出发求解主成分的步骤:1、标准化各观测变量数据。2、求解标准化各观测变量的相关系数矩阵。3、求解相关系数矩阵的特征根。4、求解各特征根对应的特征向量。三、主成分性质1,主成分的协方差阵为对角阵2、P个随机变量的总方差为协方差矩阵的所有特征根之和

说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。当进行相关系数矩阵求解主成分,各变量标准化后,则p个主成分总的方差之和等于p。

3、贡献率:

第i个主成分的方差在全部方差中所占比重,称为贡献率,反映了原来P个指标多大的信息,有多大的综合能力。

4、累积贡献率:

前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。

5.原始变量与主成分之间的相关系数(因子负荷量)

和的相关密切程度与对应线性组合系数向量成正比,与主成分标准差成正比,与原始变量的标准差成反比。当原始变量标准化后,标准化变量与主成分的相关关系:样本主成分求解变量X样本协方差为总体协方差的无偏估计相关矩阵R为总体相关矩阵的估计若X已标准化,则可用相关矩阵代替协方差矩阵λ为相关矩阵的特征值将R的特征根依大小顺序排列其对应的特征向量记为U1,U2,…,Up说明y1有最大方差,y2有次大方差。。。说明新的综合指标即主成分彼此不相关样本主成分的性质:1、第K个主成分yk的系数向量是第K个特征根λk所对应的标准化特征向量。2、第K个主成分的方差为第K个特征根λk,且任意两个主成分都是不相关的,也就是y1,y2,…,yp的样本协方差矩阵是对角矩阵3、样本主成分的总方差等于原变量样本的总方差,为p4、第K个样本主成分与第j个变量样本之间的相关系数为:(因子载荷量)主成分个数的确定以及主成分分析的实现一、主成分个数的选取

1.累积贡献率达到85%以上2.根据特征根的变化来确定数据标准化情况下:

3.作碎石图描述特征值的贡献三、主成分分析的步骤1、根据研究问题选取初始分析变量;2、根据初始变量特性判断用协方差矩阵求主成分还是用相关矩阵求主成分;(量纲不一致则将原始数据进行标准化处理用相关矩阵求主成分)3、求协方差矩阵或相关矩阵的特征根与相应的特征向量;4、判断是否存在明显的多重共线性,若存在,返回至第1步;5、得到主成分表达式并确定主成分个数,依据方差贡献率选取主成分;6、对主成分作出合理解释,并结合其他研究法对研究问题进行深入分析。例3.

城市环境生态化是城市发展的必然趁势,表现为社会、经济、环境与生态全方位的现代化水平,一个符合生态规律的生态城市应该是结构合理、功能高效和关系协调的城市生态系统。所谓结构合理是指适度的人口密度,合理的土地利用,良好的环境质量,充足的绿地系统,完善的基础设施,有效的自然保护;功能高效是指资源的优化配置、物力的经济投入、人力的充分发挥、物流的畅通有序、信息流的快捷;关系协调是指人和自然协调、社会关系协调、城乡协调、资源利用和更新协调。一个城市要实现生态城市的发展目标,关键是在市场经济的体制下逐步改善城市的生态环境质量,防止生态环境质量恶化,因此,对城市的生态环境水平调查评价很有必要。

我们对江苏省十个城市的生态环境状况进行了调查,得到生态环境指标的指数值,见表1。现对生态环境水平分析和评价。利用Matlab中的princomp命令实现。具体程序如下X=[0.78830.73910.81110.65870.65430.82590.84860.68340.84950.78460.76330.72870.76290.85520.75640.74550.78000.94900.89180.89540.47450.51260.88100.89030.82880.78500.80320.88620.39870.39700.82460.76030.68880.89770.79260.78560.65090.89020.67990.98770.87910.87360.81830.94460.92020.92630.91850.95050.86200.88730.95380.92570.92850.94340.91540.88710.93570.87600.95790.97410.87850.85420.85370.90270.87290.84850.84730.90440.88660.90350.63050.61870.63130.74150.63980.61420.57340.89800.61860.73820.89280.78310.56080.84190.84640.76160.82340.63840.96040.8514];这样,前三个主成分为

第一主成分贡献率为43.12%,第二主成分贡献率为29.34%,第三主成分贡献率为11.97%,前三个主成分累计贡献率达84.24%。如果按80%以上的信息量选取新因子,则可以选取前三个新因子。第一新因子z1包含的信息量最大为43.12%,它的主要代表变量为X8(城市文明)、X7(生产效率)、X4(城市绿化),其权重系数分别为0.4815、0.4236、0.4048,反映了这三个变量与生态环境水平密切相关,第二新因子Z2

包含的信息量次之为29.34%,它的主要代表变量为X3(地理结构)、X6(资源配置)、X9(可持续性),其权重系数分别为0.5299、0.5273、0.4589,第三新因子Z3包含的信息量为11.97%,代表总量为X9(可持续性)、X5(物质还原),权重系数分别为0.5933、0.5664。这些代表变量反映了各自对该新因子作用的大小,它们是生态环境系统中最重要的影响因素。根据前三个主成分得分,用其贡献率加权,即得十个城市各自的总得分根据总得分排序,结果见表1。

2.主成分回归考察进口总额Y与三个自变量:国内总产值x1,存储量x2,总消费量x3之间的关系,现收集数据如下,试用主成分回归分析方法求进口总额与总产值、存储量和总消费量的定量关系式.序号

x1

x2

x3

Y1234567891011149.3161.2171.5175.5180.8190.7202.1212.4226.1231.9239.04.24.13.13.11.12.22.15.65.05.10.7108.1114.8123.2126.9132.1137.7146.0154.1162.3164.3167.615.916.419.019.118.820.422.726.528.127.626.3

分析:本题目可先尝试一般

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论