版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章
主成分分析
第一节什么是主成分分析及基本思想
主成分分析(PrincipalComponentsAnalysis)也称主分量分析
是将多项指标,化为少数几个不相关的综合指标的一种统计方法。
在经济问题研究中,为了全面、系统地分析问题,我们必须考虑众多对某经济过程有影响的因素,这些因素也叫指标,在多元统计分析中也称为变量。每个指标都在不同程度上反映了所研究问题的某些信息。但是1、指标之间彼此有一定的相关性,使得相应的统计数据在一定程度上反映的信息有重叠。主成分分析可将相关的指标化成一些不相关的指标,避免了信息重叠带来的虚假性。2、在用统计方法研究多变量问题时,变量太多会增大计算量和增加分析问题的复杂性,人们自然希望在进行定量分析的过程中所涉及的变量要少,而得到的信息量又要多。主成分分析是解决这些问题的理想工具。在综合评价工业企业的经济效益中,考核指标有:1每百元固定资产原值实现产值、2每百元固定资产原值实现利税、3每百元资金实现利税、4每百元工业总产值实现利税、5每百元销售收入实现利税、6每吨标准煤实现工业产值、7每千瓦电力实现工业产值、8全员劳动生产率、9每百元流动资金实现的产值指标间信息有重叠,指标数量又多。经过主成分分析计算,最后确定选择了2个主成分作为综合评价工业企业经济效益的依据,变量数由9个减少到2个,这两个主成分代表的信息达91.6%,使所研究的问题简化。所谓主成分就是原指标的线性组合。主成分可以有很多个,反应原指标信息最多的称为第一主成分,其次是第二主成分,…等等。所谓反应原指标的信息多就是其方差大,方差越大,它反应的信息就越多,因此选方差最大的作为第一主成分,…。
一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。选择17个反映国民收入与支出的变量因素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等,他利用美国1929一1938年各年的数据。
在进行主成分分析后,竟以97.4%的精度,用3个新变量取代了原17个变量。根据经济学知识,斯通给这3个新变量分别命名为
总收入F1、总收入变化率F2经济发展或衰退的趋势F3
第二节主成分分析的
数学模型与几何解释X1X2
一、几何解释(几何意义):为了直观,先在二维空间中讨论主成分的几何意义。设对每个样品观测两个变量X1和X2的数据如下X1123456X2246810
12
样品点完全在同一条直线上,这条直线的方程是:X2=2X1X1X2其散点图如下θX1F2
X2F1
因为样品点都在F1轴上,F1方向有离散性,F2方向无离散性,也就无区别。可以用F1来描述这些样品点,,因此在新坐标系中只需用F1一个变量就可以描述原来需用两个变量X1和X2描述的样品。那么F1包含了原来变量X1和X2的100%的信息。在实际问题中,这样的情况是很少见的。一般情况下,例如有n个样品,每个样品有两个变量值X1和X2,则n个样品的散点图如带状.由图可见这n个样品点无论是沿着X1轴方向或X2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量X1的方差和X2的方差定量地表示。X1X1
θ
X2F2
F1
X1
同样我们将X1轴和X2轴同时按逆时针方向旋转θ角度,得到新坐标轴F1和F2
。F1和F2是两个新变量。根据解析几何中的坐标旋转变换公式:新变量Fl和F2是原变量X1和X2的线性组合,用矩阵表示为:其中由线性代数我们知道:U是正交矩阵U的列向量都是单位向量且两两正交。U的列向量都是单位向量两两正交说明Fl与F2不相关。相关系数为零。旋转变换的目的是为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。
Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的样品点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。由于n个样品点在Fl轴上的方差最大,因而将二维空间的点的描述用Fl这个综合变量来代替,所损失的信息最小,由此称Fl为第一主成分,F2为第二主成分。那么在经济问题研究中我们可以只考虑F1方向上的信息,忽略F2方向上的信息,损失信息很少。这样二维空间可以降为一维空间了。只取综合变量F1,简化了系统结构,抓住了主要矛盾。二、数学模型:
假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,…,Xp
主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题
主成分分析通常的做法是,寻求原指标的线性组合Fi。用矩阵表示
用矩阵表示
并且满足:
(i=1,2,…P)*F=
其中aij由下列原则来确定:1、不相关性,Fi与Fj不相关。即(a1i,a2i,…,api)与(a1j,a2j,…,apj)正交,也即ai与aj正交,2、方差极大条件,Fl是Xl,X2,…,Xp的一切线性组合(系数满足*式)中方差最大者;F2是与Fl不相关的Xl,X2,…,Xp的一切线性组合(系数满足*式)中方差最大者;…;Fp是与Fl,F2,…,Fp-1都不相关的Xl,X2,…,Xp的一切线性组合(系数满足*式)中方差最大者。
如此决定的综合变量Fl,F2,…,Fp分别称为原变量的第一主成分,第二主成分,第P主成分。其中Fl在总方差中占的比重最大,其余F2,…,Fp的方差依次递减。主成分分析通常的做法是,寻求原指标的线性组合Fi。并且满足:1(i=1,2,…P)*2不相关性,Fi与Fj不相关。即ai与aj正交,3方差极大条件,第三节主成分的推导及性质定理1若A是p阶实对称阵,则一定可以找到正交阵U,使其中是A的特征根。
定理2、若上述矩阵A的特征根所对应的单位特征向量为
则实对称阵属于不同特征根所对应的特征向量是正交的,即有令1主成分的推导设F=为正交矩阵由协方差阵的性质,有D(AX)=AD(X)Aˊ这里D(F)=D()=UˊD(X)U或(1)又因为是实对称矩阵,则存在正交矩阵U使
(2)因此可知U可由实对称矩阵的单位特征向量构成,即U可由|-λI|=0及(-λI)Y=0求出。这样求出的F是否满足条件?前两条已满足,因U是标准正交特征向量,下面看第三条是否满足由(1)(2)可知而主对角线上的元素为Var(Fi)Var(Fi)=λi因为
所以在实际问题中的协方差阵通常未知,需要通过样本协方差阵来估计。设有n个样品,每个样品测得p个指标,于是得到原始资料矩阵
是样本协方差阵,作为总体协方差阵的无偏估计,则由的单位特征向量构成U,即由|-λI|=0求出λ然后代入(-λI)Y=0求出单位特征向量,构成U主成分
(i=1,2,…P)F=是的特征根构成的对角阵,ai是的特征根λi对应的标准正交特征向量在实际问题中,利用主成分的目的是为了减少变量的个数,所以一般不用P个主成分,而是根据如下方法选取前K个主成分。定义为第i主成分Fi的方差贡献率。这个值越大,说明这个主成分Fi综合原指标信息的能力越强。定义(K≤P)为主成分Fl,F2,…,Fk的累积方差贡献率。当前K个主成分的累积方差贡献率达到85%以上时,就取K个主成分。这样K个主成分基本反映了原指标的信息,指标数目由P个减少到K个。这种由讨论多个指标降为少数几个综合指标的过程在数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 现场人员仓储合同范例
- 电商家具物流合同范例
- 土地大棚租赁合同
- 全新雇佣协议书合同
- 秸秆离田作业合同
- 维修设备租赁合同模板
- 二零二四年度影视器材租赁合同2篇
- 窗台护栏维修合同范例
- 商标共同拥有权合同范本
- 空房简易改造合同范例
- Target -样衣要求和试身流程
- 孕产妇艾梅乙健康宣教
- 农业合作社全套报表(已设公式)-资产负债表-盈余及盈余分配表-成员权益变动表-现金流量表
- 天气、温度、自然灾害记录表
- 内镜室QCCppt课件
- 关于爱的排比句11篇
- 企业文化现状评估问卷(CI版)
- 监理实测实量记录(土建)
- 姓名大全[共29页]
- 太上玄门晚坛功课经
- 【计量标准】JJF 1190-2019 尘埃粒子计数器校准规范
评论
0/150
提交评论