版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章主成分分析
【教学目的】通过本章的教学应使学生了解主成分分析的基本原理及其作用,掌握主成分分析的方法,能够应用这一方法分析数据,解决实际问题。【教学重点】主成分分析的作用及其应用,贡献率,累计贡献率的意义及其在实际应用中的作用。主成分的定义
在实证研究中,为了全面、系统地分析问题,都尽可能完整地搜集信息,对每个观测往往测量很多指标,这些指标在不同程度上反映了所研究问题的某些信息,并且指标之间避免不了有一定的相关性,因而所得的统计资料反映的信息在一定程度上有重叠。在研究问题时,变量太多会增大计算量和增加分析问题的复杂性,为了使问题简化,人们自然希望在进行定量分析的过程中涉及的变量较少,而得到的信息量又较多,主成分分析是解决这一问题的理想工具。主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。它是研究如何通过少数几个主成分来解释多变量的方差—协方差结构,其功能在于简化原有的变量群。具体地说,就是设法将原来多个指标重新组合成一组新的相互无关的综合指标,来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。这些综合指标是原来指标的线性组合,我们称之为主成分。主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻的揭示事物内在的规律。通过这种方法可以降低数据维数,消除原始变量之间的相关性以便进一步利用其他方法对数据进行分析。主成分分析的基本思想
各指标间既然有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵内部结构关系的研究,找出影响某一过程的几个综合指标,使综合指标为原来变量的线性组合,并使其尽可能多的反映原来指标的信息,综合指标反映的信息量用其方差来表达,即综合指标的方差越大,表示其包含的信息越多。在所有的线性组合中方差最大的称为第一主成分,如果第一主成分不足以代表原来P个指标的信息,再选取第二个线性组合作为第二主成分,第一主成分已有的信息就不需要再出现在第二主成分中,依次可造出P个主成分。这些主成分之间不仅不相关,而且它们的方差依次递减。在解决实际问题时,一般不是取P个主成分,而是根据累计贡献率的大小取前几个最大主成分,既保留了原指标大部分的信息,又达到降维的目的。主成分分析的数学模型设原始变量为x1,x2,…,xp,考虑它们的线性变换yi
=a1ix1+a2ix2+…+apixp(i=1,2,…,p)其中y1,y2,…,yp满足以下条件:(1)cov(yi,yj)=0,(i≠j);(2)D(y1)≥D(y2)≥…≥D(yp),即y1是x1,x2,…,xp的一切线性组合中方差最大者,y2是方差次大者,依此类推,称y1为x1,x2,…xp的第一主成分,y2为第二主成分,…,yp为第p个主成分。主成分的表达式及其相互关系(用Z表示主成分)Z1=b11x1+b12x2+…+b1mxmZ2=b21x1+b22x2+…+b2mxm………………Zm=bm1x1+bm2x2+…+bmmxm式中Xi为标准化变量,此表达式由标准化变量的协方差矩阵(即相关矩阵)求特征值及其对应的特征向量,SAS中直接给出的因子负荷量与此表达式相对应。Z1=c11x1+c12x2+…+c1mxmZ2=c21x1+c22x2+…+c2mxm……………..Zm=cm1x1+cm2x2+…+cmmxm式中Xi为标准化变量,此表达式的系数在上式系数的基础上,乘以相应主成分的特征值之平方根。在结合具体问题解释各主成分时,此表达式优于上式,因为因子载荷量就是主成分与变量间的相关系数,此时,因子载荷量的大小和它前面的正负号直接反映了主成分与相应变量之间关系的密切程度和方向。SPSS中给出的因子载荷量与此表达式相对应。主成分的推导
主成分其实就是原来指标的一些特殊的线性组合,这些线性组合的系数就是原指标协方差矩阵特征值所对应的特征向量。设相关矩阵为R以及与之同阶的单位矩阵为I,原始变量的个数为P,特征值为λ,求各特征值的过程就是求解特征方程:|R-λI|=0,此方程的左边展开后实际上是一个λ的P阶多项式,其解由大到小依次排列为λ1≥λ2≥…≥λp>0。各特征值对应的特征向量即为线性组合的系数。在几何上这些线性组合正是把原指标构成的坐标系旋转后产生的新坐标系,新坐标轴代表了具有最大变差的方向,同时提供了协方差矩阵的简洁表示,主成分分析从几何上看是寻找p维空间中椭球体的主轴问题。主成分的性质
1.主成分的协方差矩阵为对角阵
2.全部主成分反映原变量的总信息,信息量的多少,用变量的方差来度量,变量标准化后,每一变量的方差均为1,故方差之和为P。3.主成分与变量间的相关系数就是相关矩阵特征值对应的特征向量与该特征值的平方根的乘积,即表达式(3)中的cij。主成分分析的步骤
1.将原始数据标准化;2.根据标准化变量求出协方差矩阵(标准化后协方差矩阵与相关矩阵完全一样);3.求出相关矩阵的特征值及其对应的特征向量;4.确定主成分,结合专业知识给各主成分所蕴藏的信息以恰当的解释,并利用它们来判断样品的特性。主成分的应用
求出了主成分,并结合专业知识给各主成分所蕴涵的信息以恰当的解释,还可利用其判断样品的特性,并与聚类分析及判别分析结合运用。主成分分析的微机实现
1主成分分析在SPSS中的实现在SPSS主菜单中选择Analyze→DataReduction→Factor,可借用因子分析过程实现主成分分析。2主成分分析在SAS中的实现在SAS主菜单中选择Solutions→ASSIST→DataAnalysis→Multivariate→PrincipalComponents,可实现主成分分析。SPSS中主成分分析部分结果解释
主成分对原变量的贡献率即原变量与各主成分的全相关系数的平方和,表达了某个变量被提取了多少信息。主成分Zk的方差贡献率即λk在各特征值总和中所占的比重,此值越大,表明主成分Zk综合原指标信息的能力越强。主成分Z1,Z2,…,Zm的累计贡献率即前m个特征值在特征值总和中所占的比重。累计贡献率表示m个主成分提取了原指标的多少信息。在应用时,一般取累计贡献率为70%-85%或以上所对应的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年版道路桥梁建设项目招标合同版B版
- 2024年智能交通管理系统开发与应用协议
- 2024年土地置换与乡村旅游资源开发合同3篇
- 五年级上册第五单元综合性学习课件
- 2025年柳州货运从业资格证怎么考试
- 2025年广州货运从业资格证模拟考试试题
- 2025年鹤岗货运从业资格证模拟考
- 2025年陕西从业资格货运资格考试题库及答案
- 2025年南宁年货运资格证考试题
- 2025年十堰货运从业资格证模拟考试题库下载
- 2024年北京房屋租赁合同电子版(3篇)
- 2024中国电信安徽公司县分公司定向招聘60人(应届和非应届)重点基础提升难、易点模拟试题(共500题)附带答案详解
- 2024年深圳市中考数学模拟题汇编:反比例函数(附答案解析)
- 海口市国土空间总体规划(2020-2035)(公众版)
- (正式版)JTT 1495-2024 公路水运危险性较大工程安全专项施工方案审查规程
- 教科版小学二年级上册科学期末测试卷及参考答案(满分必刷)
- 初中数学说题比赛1
- 中考道法一轮复习讲练测七年级下册(综合测试)(原卷版)
- 电梯维护保养规则(TSG T5002-2017)
- 水准测量记录表自动计算(转点)
- 水痘与手足口病的鉴别
评论
0/150
提交评论