第十讲主分量(主成分)分析_第1页
第十讲主分量(主成分)分析_第2页
第十讲主分量(主成分)分析_第3页
第十讲主分量(主成分)分析_第4页
第十讲主分量(主成分)分析_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章主分量(主成分)分析概述主分量分析的基本原理主分量分析的计算步骤主分量分析主要的作用使用PRINCOMP过程进行主成分分析主分量分析方法应用实例

一般情况下,系统是由多要素构成的复杂结构,多变量问题是经常会遇到的.变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的.因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?

一、概述

如何利用指标对每一儿童的生长发育作出正确评价?仅用单一指标:结论片面;没有充分利用原有数据信息.利用所有指标:各指标评价的结论可能不一致,使综合评价困难,

工作量大.找出几个综合指标(长度、围度、特体),这些综合指标是由原始指标的线性组合而来,既保留了原始指标的信息,且相互独立.衡量一个指标的好坏除了正确性与精确性外,还必须能充分反映个体间的变异,即指标能提供显著的个体区分度,一项指标在个体间的变异越大,提供的“信息量”就越多.各综合指标提供的“信息量”大小用其方差来衡量.

事实上,这种想法是可以实现的,主分量(主成分)分析方法就是综合处理这种问题的一种强有力的工具.主分量(主成分)分析是把原来多个变量划为少数几个综合指标的一种统计分析方法.从数学角度来看,这是一种降维处理技术.

主成分概念首先由KarlParson在1901年首先提出,当时只是对非随机变量来讨论的.1933年Hotelling将这个概念推广到随机变量,作了进一步发展.把从混合信号中求出主分量(能量最大的成份)的方法称为主分量分析.(principalcomponents

analysis,PCA)

定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标(1.2.1)

系数lij的确定原则:①zi与zj(i≠j;i,j=1,2,…,m)相互无关;二、主分量分析的基本原理

②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者

;…;zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者.则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分.

从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的系数lij(i=1,2,…,m;j=1,2,…,p).从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量.

三、主分量分析的计算步骤

(一)计算相关系数矩阵(假设该矩阵为正定阵)

rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为(1.3.1)(1.3.2)(二)计算特征值与特征向量①解特征方程,常用雅可比法(Jacobi)

求出特征值,并使其按大小顺序排列

②分别求出对应于特征值的特征向量

要求=1,即,其中表示向量的第j个

分量.③计算主成分贡献率及累计贡献率

贡献率:第i个主成分的方差在全部方差中所占比重

反映了原来P个指标多大的信息,有多大的综合能力.

累计贡献率

前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率.

在实际工作中,主成分个数的多少取决于能够反映原来变量85%以上的信息量为依据,即当累积贡献率≥85%时的主成分的个数就足够了.最常见的情况是主成分为2到3个.四、主分量分析主要作用

1.对原始指标进行综合

以互不相关的较少个综合指标反应众多原始指标提供的信息.2.进行综合评价

3.进行探索性分析

利用因子载荷阵,找出影响各综合指标的主要原始指标.4.对样品进行分类

利用主成分得分对样品进行分类.

五、使用PRINCOMP过程进行主成分分析1.PRINCOMP过程的功能简介1)

PRINCOMP过程计算结果有:简单统计量,相关阵或协方差阵,从大到小排序的特征值和相应特征向量,每个主成分解释的方差比例,累计比例等.由特征向量得出相应的主成分,用少数几个主成分代替原始变量,并计算主成分得分.

2)主成分的个数可以由用户自己确定,主成分的名字可以用户自己规定.

3)输入数据集可以是原始数据集、相关阵、协方差阵等.输入为原始数据时,还可以规定从协方差阵出发还是从相关阵出发进行分析,由协方差阵出发时方差大的变量在分析中起到更大的作用.

4)该过程还可生成两个输出数据集:一个包含原始数据及主成分得分,它可作为主成分回归和聚类分析的输入数据集;另一个包含有关统计量,类型为TYPE=CORR或COV的输出集,它也可作为其他过程的输入SAS集.2.

PRINCOMP过程的格式

PRINCOMP过程的常用格式如下:PROC

PRINCOMP

<选项列表>;VAR变量列表;RUN;其中:

1)PROCPRINCOMP语句用来规定输入输出和一些运行选项,其选项及功能见表7-1.

表7-1

PROCPRINCOMP语句的选项

2)VAR语句指定用于主成分分析的变量,变量必须为数值型(区间型)变量.缺省使用DATA=输入数据集中所有数值型变量进行主成分分析.

例1对全国30个省市自治区经济发展基本情况的八项指标作

主成分分析,原始数据如表7-2.

表7-2全国30个省市自治区经济发展基本情况六、主分量分析方法应用实例(1)数据集

假定上述数据已经存放在数据集li7_1中.(2)执行主成分分析的PRINCOMP过程

对数据集li7_1执行主成分分析的PRINCOMP过程代码

如下:

procprincompdata=li7_1n=4out=w1

outstat=w2;

varx1-x8;

run;(3)结果分析

在各变量之间的相关系数矩阵中可以看出,有较强相关性

的变量依次为:

GDP(x1)与固定资产投资(x3)之间的相关系数为0.9506;

GDP(x1)与工业总产值(x8)之间的相关系数为0.8737;

固定资产投资(x3)与工业总产值(x8)之间的相关系数0.7919;

居民消费价格指数(x6)与商品零售价格指数(x7)之间的相关

系数为0.7628;

货物周转量(x5)与工业总产值(x8)之间的相关系数为0.6586

等等.

下图给出相关系数矩阵的特征值、上下特征值之差、各主成分对方差的贡献率以及累积的贡献率.

相关系数矩阵的特征值即各主成分的方差,可以看出,第一主成分对方差的贡献率为46.94%,第二主成分对方差的贡献率为27.46%,第三主成分对方差的贡献率为15.19%,之后的主成分的贡献率为0.05.前三个主成分的累积贡献率为89.58%,因此,对第四主成分以后的主成分完全可以忽略不计,用前三个主成分就可以很好地概括这组数据.

图7-1原始变量对于各个特征值对应的特征向量

上图给出相关系数矩阵前4大特征值对应的特征向量,此可以写出

前三个主成分的表达式:

Prin1=0.46x1+0.31x2+0.47x3+0.24x4+0.25x5–0.26x6

–0.32x7+0.42x8

Prin2=0.26x1–0.40x2+0.11x3–0.49x4+0.50x5+0.17x6

+0.40x7+0.29x8

Prin3=0.11x1+0.25x2+0.19x3+0.33x4–0.25x5+0.72x6

+0.40x7+0.19x8(4)主成分的散点图

按第一主成分和第二主成分的得分作图,代码如下:procgplotdata=w1vpct=80;plotprin1*prin2$diqu='*'/haxis=-3.5to3by0.5HREF=-2,0,2vaxis=-3to4.5by1.5VREF=-2,0,2;run;

如右图所示.

广东、江苏、上海、山东的第一主成分取值较高,说明这些省市的经济发展水平较高,其次是浙江、辽宁、河北、河南、北京、天津等.

由于在第二主成分中职工平均工资与居民消费水平具有负的载荷量,因此处于右半图中的河北、河南、山东等地的职工平均工资与居民消费水平较低,商品零售价格指数较高;而左半图中上海、天津、海南、北京等地的职工平均工资与居民消费水平较高,商品零售价格指数较低.

可见,第一主成分中x3、x1、x8的系数最大;第二主成分中x5、x7具有较大的正系数,x4、x2则具有较大的负系数;第三主成分中x6的系数最大,远远超过其他指标的影响.因此,可以把第一主成分看成是由固定资产投资(x3)、GDP(x1)、工业总产值(x8)所刻画的反映经济发展水平的综合指标;把第二主成分看成是由货物周转量(x5)、职工平均工资(x4)、居民消费水平(x2)、商品零售价格指数(x7)所刻画的与人民生活水平有关的综合指标;把第三主成分单独看成是居民消费价格指数(x6)的影响指标.

最后输出的是数据集w1,其中包含前4个主成分Prin1~Prin4的得分.

例2(P264)

学生身体四项指标的主分量分析随机抽取30名某年级中学生,测量其身高(X1)、体重(X2)、胸围(X3)和坐高(X4),试用编程对中学生身体指标数据做主分量(主成分)分析.

datali7_2;

inputnumberx1-x4@@;cards;1148417278

2139347176

31604977864149366779

5

159458086

61423166767153437683

8150437779

915142778010139316874

111402964741216147788413158497883141403367771513731667316152357379

17149478279181453570771915142748720156447885

2115142738222147387385

23

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论