主成分分析计算方法和步骤_第1页
主成分分析计算方法和步骤_第2页
主成分分析计算方法和步骤_第3页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主成分分析计算方法和步骤:在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的 差异,研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但 由于各指标都 是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性 因此,在多指标的数 据分析中,如何压缩指标个数、压缩后的指标能否充分 反映 个体之间的差异,成为研究 者关心的问题。而主成分分析法可以很好地解决这一 问题。主成分分析的应用目 的可以简单地归结为:数据的压缩、数据的解释。它 常被用来寻 找和判断某种事物或现象的综合指标,并 且对综合指标所包含的信 息给予适当的解释,从而更加深刻地揭示事物的内在规律。主成分分析

2、的基本步骤分为:对原始指标进行标准化,以消除变量在数量 极或量纲上的影响;根据标准化后的数据矩阵求出相关系数矩阵 R;求出 R矩阵的特征 根和特征向量;确定主成分,结合专 业知识对各主成分所蕴含 的信息给予适当的解释;合成主成分,得到综合评价值。结合数据进行分析本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效, 而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。女口:招 生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较 强的相关性,教工人数与本科院校数之间的相关系数最

3、高,到达了,而各组成成 分之间的相关性都很高,这也充分说明了主成分分析的必要性。表5-6相关系数矩阵本科 院校数招生人数教育经费投入相关性师生比重点咼 校数教工人 数本科院 校数招生人 数教育经费投入师生比重点咼校数教工人数相关性师生比重点咼 校数教工人数本科院 校数招生人 数教育经费投入(元)表5-7给出的是各主成分的方差贡献率和累计贡献率, 我们选取主成分的标 准有两个:第一,特征根大于 1因为,如果特征根小于1,说明该主成分的解 释力度太弱,还比不上直接引入一个原始变量的平均解释力度大;第二,方差贡献率大于85%如果这两个标准不能同时符合要求,则往往是因为选择的指标不 合理或者样本容量太

4、小,应继续调整。表5-7还显示,只有前2个特征根大于1, 因此SPSS只提取了前两个主成分,而这两个主成分的方差贡献率达到了 %因此 选取前两个主成分已经能够很好地描述我国高等教育地区现状。表5-7方差贡献率以及累计贡献率件起始特征值提取平方和载入元合计方差 的贡献率%累加贡 献率%合计方差的 贡献率%累加贡献率%12345、6571140052012表5-8为输出的主成分系数矩阵,可以说明各主成分在各变量上的载荷。由表5-8可以看出,标准化后的第一主成分(简称Fi)对所有变量都有载荷,且载荷绝对值几乎都在以上,因此可以说第一主成分是对人口结构的度量,代表了一个 地区人口结构状况,可以称之为“

5、综合因子”。在综合因子中,平均每户人口,农 业与非农业人口比例, 人口的自然增长率比重即 人口自然增长各指标具有较强 的作用,人与经济等其他指标所起的作用次之,男女比例也起一定作用。第二主成 分(简称F2)对重点高校数和教工人数具有负载荷,其他变量具有正载荷,并且除 师生比和重点高校数载荷绝对值均小于,有的甚至 接近于。因此,第二个 主成分只是汇集了第一主成分遗漏的部分信息,我们称之为“辅助因子”。表5-8主成分矩阵成分FlF2师生比重点高 校数教工人 数本科院 校数招生人 数教育经费投入表5-9主成分评分系数矩阵成分FlF2师生比重点高 校数教工人数本科院 校数招生人数教育经费投入.079.

6、099.247.244.242.236.643.004.106.009根据表5-9可以得到各主成分的表达式F| =0.079x1 0.099x2 0.247x3 0.244x4 0.242x5 0.236x6F20.643x1 0.612x2 0.077x3 0.004x4 0.106x5 0.009x6把变量分别代入以上表达式,可以得出F1和F2两个主成分得分,但单独一个主成分不能很好地评价十个地区人口结构的情况,因此需要按照各主成分对应的方差贡献率为权数计算综合统计F,( F °.6639Fl °.2°69们2)0.87081主成分分析法的优点:1、可消除评价

7、指标之间的相关影响因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标之间相关程度越高, 主成分分析效果越好。2、可减少指标选择的工作量对于其它评价方法,由于难以消除评价指标间的相关影响,所以选择指标时要花费不少精力,而主成分 分析由于可以消除这种相关影响,所以在指标选择上相对容易些。3、当评级指标较多时还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指 标进行分析 主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前后方差较大的几个主成分来代表原变量,从而减少了计算工作量。4、在综合评价函数中,各主成分的权数为其贡献率, 它反映了该主成分包含原始数据的信 息量占全部信息量的比重,这样确定权数 是客观的、合理的,它克服了某些评价方法中认为确定权数的缺陷。5、这种方法的计算比较规范,便于在计算机上实现,还可以利用专门的软件主成分分析法的缺点:1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。2、主成分的解释

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论