版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上主成分分析法什么事主成分分析法:主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法主成分分析也称主分量分析,旨在利用降维的思想,把多转化为少数几个。在中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对贡献最大的特征。这是通过保留低阶主
2、成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。主成分分析的基本思想:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的反映的信息在一定程度上有重叠。在用研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行的过程中,涉及的变量较少,得到的较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。同样,在科普效果评估的过程中也存在着这样的
3、问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关内部结构 的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。 上述想法可进一步概述为:设某科普效果评估要素涉及
4、个指标,这指标构成的维随机向量为。对作正交变换,令其中为正交阵的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。例如,在对科普产品开发和
5、利用这一要素的评估中,涉及科普创作人数百万人、科 普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。主成分分析法的基本原理:主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统
6、,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的线性组合中
7、选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,第P个主成分。主成分分析的主要作用:概括起来说,主成分分析主要由以下几个方面的作用。1主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(mp),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要
8、计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。2有时可通过因子负荷aij的结论,弄清X变量间的某些关系。3多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。4由主成分分析法构
9、造回归模型。即把各主成分作为新自变量代替原来自变量x做。5用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。主成分分析法的计算步骤:1、原始指标数据的采集p 维随机向量x = (x1,X2,.,Xp)T)n 个样品xi = (xi1,xi2,.,xip)T ,i=1,2,n,np,构造样本阵,对样本阵元进行如下标准化变换:其中,得标准化阵Z。2、对标准化阵Z 求矩阵其中,
10、60;。3、解样本相关矩阵R 的特征方程得p 个特征根,确定主成分按 确定m 值,使信息的利用率达85%以上,对每个j, j=1,2,.,m, 解方程组Rb = jb得单位特征向量 。4、将标准化后的指标变量转换为主成分U1称为第一主成分,U2 称为第二主成分,Up 称为第p 主成分。5 、对m 个主成分进行综合评价对m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。主成分分析法的优缺点:优点:可消除评估指标之间的相关影响。因为主成分分析法在对原始数据指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度
11、越高,主成分分析效果越好。可减少指标选择的工作量,对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析法由于可以消除这种相关影响,所以在指标选择上相对容易些。主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的几个主成分来代表原变量,从而减少了计算工作量。用主成分分析法作综合评估时,由于选择的原则是累计贡献率85%,不至于因为节省了工作量却把关键指标漏掉而影响评估结果。缺点:在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 4345:2025 EN Steel wire ropes - Fibre main cores - Specifications
- 感恩节幼儿讲话稿15篇
- 微观世界纪录片观后感
- 解决方案企业突发环境事件应急预案管理d
- 2016河北道法试卷+答案+解析
- 初级会计实务-2021年5月16日下午初级会计职称考试《初级会计实务》真题
- 初级会计经济法基础-初级会计《经济法基础》模拟试卷33
- 2024年中国智慧工厂行业市场集中度、竞争格局及投融资动态分析报告(智研咨询)
- 二零二五年度企业应收账款债权转让及资金周转协议4篇
- 二零二五年度高端个人咨询服务合同2篇
- 福建省泉州市晋江市2024-2025学年七年级上学期期末生物学试题(含答案)
- 2025年春新人教版物理八年级下册课件 第十章 浮力 第4节 跨学科实践:制作微型密度计
- 三年级上册体育课教案
- 2024年全国统一高考英语试卷(新课标Ⅰ卷)含答案
- 提高数学教师命题能力培训
- 猎聘网在线人才测评题库
- 《社区康复》课件-第八章 视力障碍患者的社区康复实践
- 前置审方合理用药系统建设方案
- 国寿增员长廊讲解学习及演练课件
- 新疆维吾尔自治区乌鲁木齐市初中语文九年级期末模考试题详细答案和解析
- 同等学力申硕英语考试高频词汇速记汇总
评论
0/150
提交评论