




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主成分分析Principal Components,本章主要内容,前言 主成分的几何解释 主成分的数学模型 样本主成分的求解及其性质 主成分分析的进一步应用,例子(1),一个人的身材需要用多项指标完整描述:身高、体重、臂长、腿长、肩宽、胸围、腰围、臀围等,但人们购买衣服时一般只用身高和肥瘦两个综合指标就够了,例子(2),一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等等。,在进行主成分分析后,竟以
2、97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:,前言,在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但指标太多,不但会增加计算的复杂性,而且也会给合理分析问题和分析解释问题带来困难。在很多情况下,在某种程度上这些指标存在信息的重叠,具有一定的相关性 在回归分析、聚类分析、判别分析等
3、方法中,经常会有过多指标问题。处理不当的话,会影响最终统计分析的结果。 因而,人们希望对这些变量加以“改造”,用少数的互不相关的新变量反映原始变量所提供的绝大部分信息,通过对新变量的分析解决问题。,前言,主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。 在多指标的数据分析中,压缩指标个数的讨论成为实际工作者关心的问题之一。 主成分分析就是将多个指标转化为少数几个综合指标的一种常用的统计方法,主成分分析的涵义,主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的数据进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得
4、多。 主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标(主成分),从而在不丢掉主要信息的前提下避开了变量间共线性的问题,便于进一步分析。 主成分分析能起到既减少指标个数,又不影响所要达到的统计分析的目的。,要注意的是,主成分分析方法往往是一种手段,它要与其它方法结合起来使用。 常与回归分析、因子分析、聚类分析结合在一起使用,问题的提出,设在一个问题中,有n个个体,对每一个个体测定了p个指标,其观察值组成了一个矩阵,这 p 个指标反映了 n 个个体之间的差异,能否从这p个指标中提取m个综合指标(mp),使这 m 个综合指标仍然能基本保持原有的 p
5、 个指标所提供的个体间的差异?,压缩指标的可能性,1、p个指标之间相互独立,压缩不可能,2、两个指标之间完全相关,保留一个指标,3、一般情况,指标之间既不完全独立也不完全相关,即 0 r 1,指标压缩才可能,主成分分析的几何解释-以两个变量为例,设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl的方差和x2的方差定量地表示。显然,如果只考虑xl和x2中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。,如果我
6、们将xl轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴yl和y2。yl和y2是两个新变量。 根据旋转变换的公式:,旋转变换的目的是为了使得n个样品点在yl轴方向上的离散程度最大,即yl的方差最大。变量yl代表了原始数据的绝大部分信息,在研究某些问题时,即使不考虑变量y2也无损大局。经过上述旋转变换原始数据的大部分信息集中到y1轴上,对数据中包含的信息起到了浓缩作用。,yl,y2除了可以对包含在xl,x2中的信息起着浓缩作用之外,还具有不相关(图形中表现为正交)的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在 yl 轴上,而y2轴上
7、的方差很小。 yl 和 y2 称为原始变量xl和x2的综合变量。 y 简化了系统结构,抓住了主要矛盾。,5维空间在平面上的投影,y1 =l11x1 +l21x2 +l51x5y2 =l21x1 +l22x2 +l52x5,x1,x3,x5,x4,x2,y1,y2,标准化变换,记原始变量为Z,标准化后的变量记为X。作标准化变换:,原指标的相关系数矩阵 R,j =1, 2, , p; k= 1, 2, , n,主成分分析的数学模型,最简单的综合指标是原指标的线性组合,即将原始的 p个变量进行线性组合,作为新的变量,即 选择m个主成分:,对于m个综合指标y1, y2, ym要完成两件事: 1、 将原
8、来p个指标所包含的n个个体的不十分明显的差异集中起来,使n个个体的综合指标值差异尽可能大; 2、 使综合指标的数目尽可能少,还要求各综合指标间互不相关。 综合指标y1, y2, ym称为原指标x1, x2, xp的主成分,样本主成分,从样本出发讨论 p个标准化指标x1, x2, xp的 主成分定义、求法和性质,术 语,x1, x2,xp的任一线性组合,的 n 个个体值分别为:,其均值与样本方差分别为:,x1, x2, xp的两个线性组合,则n个个体的这两个线性组合对应的值为:,其均值与协方差分别为:,定 义,第一主成分 中的 应在 的条件下,使 达到最大,即 使 n 个个体的值的差异尽可能大。
9、,第二主成分 中的 应在 的条件下,使 达到最大,等价于各综合指标间互不相关,第三主成分 中的 应在, 的条件下,使 达到最大。,主成分定义,称线性组合,为 x1, x2, xp 的第 j 个主成分,1、正则条件:,2、正交条件:,4、主成分的方差依次递减:,由定义可知,要确定 m 个主成分实际上就是要确定 m 个 p 维向量,引 理,设A是n 阶对称阵, 其特征根为 , 对应的单位化特征向量为 则 且当 时,二次型 达到上确界。,求 法,由引理可知,求主成分便是求相关系数矩阵 R 的特征根及对应的单位化特征向量。,主成分在几何图形中的方向就是 R 的特征向量的方向,问 题,引入主成分的目的是
10、为了减少指标的个数,那么 m 取多大?,样本主成分y1, y2, yp的协方差阵为,性质1,性质2,由性质1和性质2可知, p个主成分所反映的数据总差异等于原指标所反映的数据总差异。,协方差矩阵的对角线上的元素之和等于特征根之和,贡献率和累计贡献率,为第 j 个主成分 yj 的贡献率,为前m个主成分y1 , y2,ym的累计贡献率,选取m的标准: 根据问题的性质和要求,可选取 m 使累计贡献率达到70%90%。即只要用前 m 个主成分就可以基本反映个体间的差异,从而达到减少指标的目的。,主成分的表述形式,若从原p个指标提取了m个主成分,则,如何对主成分作出解释?,这里借助于原指标 xj 关于主
11、成分y1, y2, ym 的回归作某些解释。 xj 关于y1, y2, ym 的回归方程,性质3,回归系数 回归平方和 残差平方和 复相关系数,贡献率和负荷量,m 个主成分y1, y2,ym对指标 xj 的贡献率。 反映了 m 个主成分所能反映指标 xj 差异的比例。,贡献率:,负荷量:,在主成分 yi 上指标 xj 的负荷量; 原指标 xj 与主成分yi 的相关系数; 反映了原指标 xj 与主成分 yi 的关系的密切程度,它为对主成分的解释提供了一定的依据。,主成分分析需要注意的主要问题,原始数据大部分变量的相关系数较大,主成分分析会取得较好效果 基于相关系数矩阵还是基于协方差矩阵做主成分分
12、析 没有定论,建议都试一下,分析结果的差别及发生明显差异的原因何在 一般而言,当分析中所选择的变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。否则,基于协方差阵做主成分分析效果更好。 选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。 如何解释主成分所包含的经济意义。,应 用,聚类分析 判别分析 回归分析,先根据累计贡献率选择主成分的个数,进行主成分分析,得 到因子得分,即得到每个样品的主成分值,然后再做相应的 统计分析,主成分回归,所谓主成分回归是根据累计贡献率的要求,选p个自变量的m个主成分,然后建立因变量y关于这m个主成分的回归方程。,例9.1 数据(法国的进口总额的相关数据),主成分回归的主要步骤,计算相关阵:Correlate-Bivariate 观察是否存在多重共线性现象(变量之间相关系数较高),若存在,则进行主成分分析 根据累计贡献率选择主成分的个数(本例选为2) 通过Varimax旋转方法得到旋转后的主成分值 在“Rotation”对话框选中“Varimax”,再在“Scores”对话框选中“Save as variables”,则在原数据文件中生成两个新的变量:factor1_1, factor2_1 对数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年统计学考试兴趣培养试题及答案
- 2024年小自考汉语言文学真题及答案
- 计算机基础知识考察思路试题及答案2024年
- 2024年视觉传播设计自考学习试题及答案
- 蕲春一中2025年三月高一月考历史试题
- 2021-2022学年山西省太原市万柏林区五年级上册期中考试科学试卷(原卷版)
- 人际关系调查的统计特征试题及答案
- 小学六年级语文分项能力提升试题及答案
- 食品馈赠与人际关系的影响试题及答案
- 古代文学史挑战性试题及答案
- DG-TJ 08-2002-2020 悬挑式脚手架安全技术标准 高质量清晰版
- DB36T 1532-2021百香果栽培技术规程_(高清版)
- 石化装置及产品英文名称及缩略词
- 第二节欧洲西部
- 浅谈在小学五六年级开展性教育的必要性
- (完整版)二十四山年月日时吉凶定局详解,
- 降落伞拉直阶段轨迹及拉直力计算
- 天猫淘宝店铺运营每日巡店必做的事
- 支撑掩护式液压支架总体方案及底座设计
- 阀门螺栓使用对照表
- 光驱的读取偏移值度矫正数据
评论
0/150
提交评论