版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析法定义:主成分分析法:principalcomponentanalysis(PCA)。也称主分量分析,是揭示大样本、多变量数据或样本之间内在关系的一种方法,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。主成分分析法是一种数学变换以简化数据的方法,它把给定的一组相关变量通过线性变换转成另一组相互独立或不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。每个主成分都是原始变量的线性组合,且各个主成分之间互不相关。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。(实际问题中遇到指标较多且各指标相关关系较大时,人们常考虑应用主成分分析的方法)。注意几点:(1)先判断该数据降维的条件是否成立;(2)主成分系数的平方和为1。(3)选取的主成分对原始变量要有代表性.从数学上对主成分分析法进行解释:设有p个原始指标:叫,x2,…,Xp,用来对n个单位进行评价,则共有np个数据。主成分分析的目的是要将这些原始指标组合成新的相互独立的综合指标:主成分分析的主要作用1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(mVp),而低维的Y空间代替高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即m=1)时,这个Y1仍是使用全部X变量(p个)得到的。例如要计算Y1的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。多维数据的一种图形表示方法。当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布情况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。主成分分析法的一般步骤:(待细看)1,首先需要判断待分析的原始变量是否适合做主成分分析,同样的,需要判定指标之间的相关性,可以使用SPSS中的“CorrelationMatrix(相关系数矩阵)”判定。2,规范原始指标数据如果指标的单位不同,则需要消除指标间不同量纲的影响,即对原始数据进行标准化处理,将原始数据处理成均值为0、方差为1的归一化分析数据。p维随机向量x=(X],X2,…,xp)T n个样品Xj=(Xi-i,Xi-2,,,.,X/p)T,i=l,2,…,,nx表示第i个样本的第j个指标值,用Z-score法对样本阵元进行如下标准化变换:3、计算标准化数据的协方差矩阵,求相关系数矩阵其中打尢表示指标j与指标k的相关系数。
由于Z中的变量己是标准化的变量,此时Z的列变量的协方差矩阵就是相关系数矩阵。4、计算R的特征根和特征向量对于标准化后的数据,从相关系数矩阵出发,求得特征值与对应的特征向量;而对同度量或是取值范围在同量级而不需要标准化的数据,则直接从协方差矩阵求特征值与特征向量。解样本相关矩阵R的特征方程入f=。得p个从大到小排列的特征根:X1>X2>...>Xp>0由特征多项式Ra= •得相应的单位特征向量a乙J如=%厲1_4、将标准化后的指标变量转换为主成分以特征向量的分量值为权数,将标准化的指标进行加权就得到第i个主成分。F=aZ+a不..+a,Z=1,2,..p,i 1i1 i22 ipp凤称为第一主成分,F称为第二主成分,…,F称为第p主成分。2P5计算贡献率和累计贡献率,据以确定主成分的个数m。每个主成分F的贡献率等于它的特征值久I除以原始指标个数p,累计贡献率等于各主i成分贡献率顺序相加。F主成分:的方差贡献率为:前K个主成分的累计方差贡献率为:说明:在解决实际问题时,一般不是取戸个主成分,比较通行的确定主成分个数方法的原则有以下几种:>0.85准则>0.85准则。(a(m)即前m个主成分保留原观测变量信息的比重)。根据国内外用主成分分析进行多指标综合评价的实践来看,a(m)>85%表明取前m个主成分基本包含了全部测量指标所具有的信息,通常可以保证样本排序的稳定。2)入g>入准则。先计算特征根入g的均值入然后将之与入g比较,选取入g>入的前m个成分作为主成分。因为由标准化数据的相关矩阵R求得的入=1,因此只要取入g>1的前m个主成分即可。(3)选取第一主成分用于综合评价。主成分分析法作为数据降维方法,其每一个主成分均有特定经济含义,可以用于揭示原始样本中的基本性质。第一主成分说明了原始数据变动的总规模,而其余各主成分则说明样本内部的各方面的些桂、、…、、咼^ 、、、 …、—特征。弟一主成分的贝献率为心/ ,这个值越大,表明弟一主成分综合1,…,G信息的能力越强。6、对m个主成分进行综合评价每一个主成分表示了分析对象在某一方面的表现。选取的J??个主成分代表了分析对象的绝大部分信息,对主成分进行综合分析就是相当于对分析对象的全部进行综合分析。1.作为权数构造一个综合评价函数:y=if+...+/Fi11mm1.作为权数构造一个综合评价函数:y=if+...+/Fi11mm评估指数,依据对每个系统计算出的卩值大小进行排序、比较或分类划级。这种方法的局限是,当产生主成分的特征向量的各分量符号不一致时就很难进行排序评估。第二种方法是第一种方法的改进,只用第一个主成分作评估指数即『二爲,理由是:工 x第一主成分与原始变量1,…,F综合相关度最强,即 。如果想以一个综合变量来代替原来所有原始变量,则最佳选择应该是热,另一方面由于第一主成分环对应于数据变异最大的方向也就是使数据信息损失最小,精度最高的一维综合变量。注意:使用这种方法是有前提条件的,即要求所有评估指标变量都是正相关的。
J主成分分析计算步骤先利用指标体柔建立数据库得到原始数据矩阵根据标准化的要求将原始数据标准化得到标准数据矩阵X。由标准化数据矩X计算相关矩阵丘口解特征方程丨R-&E1丸,计算出相关矩阵R怖特征值兀,按照石氓活…2排序,列出关于特征值人的特征向量》计算累计贡献率--般杞据累计贡献率^85%(80%)的原则确定主成份个数,并为主成份命名口3.1.5主成分模型中各统计量的含义⑴特征值(Eigenvalue):它叮以用于确宦屯成分数目及解释+成分影响力度的指柄,址原始变量的證方葢在各个成分一苗新分配夕吉果"•般臥取待彳王根犬}'■1为标准。⑵主成分舀的方差贡献珮:其计算公式为入氏"表明各成分舀的方差所包舎沟信息人全部方建总信息的存分LJ用血成分的方養来衡危变港所赳含的信息阳这个值越衣”烧明该上成分二、综合朗包含的尤,*「…兀伯思能旳越强.⑶累计贡⑶累计贡献率:前女个i:成分的累计贡献率定文衣木诃k个-左成分累计提取了•…七多少信息.通常累L方遽贡献率取大于等于SO%,这样既减少r变最牛数又便丁対实际问题分析和硏究詡°说明:主成分的性质:主成分门,….有如下几牛性质:(1)主我分间互不柑关.即对任部刑"G和御村关系數q=o//(J)幼台紊離心 甌菽榆成的向童光单位向童⑶各主成分的方差是梅.抚递減的.即临心凋询心谑…王呦心》(4)总方差不增不减.即陽托斗由k<ry>+...斗箱心诂=囱(,切+嗨(础斗...+旳?CM=p这-性航说牺,匕成弁绘原变量的紡性组合,绘对原变童信息的…种改组「j殳廿不巒加总営息量,也不滅少总管息量.(5)主成分刑原变童的村关系數eg口严年◎沁 町的相黄矩阵为冲.宙川哦•….灯则是相关矩阵砒I第冷特征向意⑷g^VBCtO^而且,特缸僅血绘第注成孑的方差,即m^=4Jl;'l'炒州咲体阵虛的第汁特汕fl'[(eigenvalue)A>^>-.>^0主成分分析法的优点:(1)主成分分析的降维处理技术能较好地解决多指标评价的要求,它消除了评价指标间的相关影响。另外,主成分分析用于多指标综合评价是对彼此独立的分量进行合成,正适于采用加权线性相合成方法,不必在合成方法选择上多做工作。(2)减少了指标选择的工作量。在主成分分析中由于可以消除评价指标间的相关影响,因而在指标选择上相对容易些。但主成分分析法确定评价指标的原则是宁多勿少,尽可能地全面。主成分分析可以保留原始评价指标的大部分信息。如果指标选择不够全面,就会先天不足,再好的分析方法也会失去效用。(3)运用主成分分析法进行多指标综合评价的权数处理时的权数是从信息量和系统效应角度来确定的,是伴随数学变换过程生成的,可以避免很多人为的因素,使评价结果更为科学。因此主成分分析法成为综合评价问题中较为科学有效的方法之一。(4)使用主成分分析可以按照事物的相似性区分产品,结果可用一维、二维或三维平面坐标图标示,特别直观。(5)此外,随着电子计算机技术的发展,SAS、SPSS等商品化统计分析软件的推广与应用,使得主成分分析在各类综合评价实践中的广泛应用成为现实。主成分分析法的实现:随着现代科技的发展,主成分分析采用SPSS统计分析软件中的主成分分析模块进行综合评价。SPSS是社会科学统计软件。它集数据整理、分析过程、结果输出等功能于一身,是世界著名的统计分析软件之一。因此,我们可以利用SPSS中的主成分分析模块进行评价。具体做法是:将参评指标的数据导入软件后,在分析模块上选择主成分法进行分析。在矩阵旋转方面,取“方差最大旋转”。它是一种正交旋转方法。它使每个因子上的具有最高载荷的变量数最小,可以简化对因子的解释。其余的都可按系统默认值确定。最后我
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度新能源汽车制造与合作合同
- 2024年度公共交通车辆电梯设备采购合同
- 2024年度品牌加盟品牌使用权合同
- 2024年度中秋月饼采购合同格式
- 运货车市场需求与消费特点分析
- 竹笛市场环境与对策分析
- 2024年度环保监测系统建设与维护合同
- 2024年度版权许可合同授权范围界定
- 2024年度某机场航站楼改扩建工程施工合同
- 2024年度智能语音助手定制开发与授权合同
- 中国历代化妆史课件
- 初中英语语法-介词课件(23张)
- 《圆的面积》优秀课件
- 电磁屏蔽室屏蔽机房测试方案
- DB11-T 971-2013重点建设工程施工现场治安防范系统规范-(高清有效)
- 黑龙江大学校园信息门户登录
- 2022年哲学通论孙正聿笔记
- 大学教师教学任务书
- 城管心理知识竞赛试题及参考答案
- 用理正岩土计算边坡稳定性
- 政府机关办公楼物业管理服务方案专业完整版
评论
0/150
提交评论