版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析几何意义与R操作1.主成分分析的原理与几何意义主成分分析的原理:主成份分析的目的是通过线性变换将多项评价指标综合,形成少数几个能充分反映总体信息的主成份,并以其贡献率为权重构造综合指标,从而在可能互为关联的许多因子中,找出能反映它们内在联系、并起主导作用的几个新因子。主成分分析几何意义:通过不同变量在不同纬度上的分布特征,计算变量与变量之间(即维度与维度之间)的相关性,利用线性组合的思想,将较高相关性变量投影在新的维度空间中,从而将它们合并成新的综合指标的过程,进而实现降维的目的。以下将通过步骤分解阐述几何过程。第一步,数据标准化处理。通过无量纲的数据标准化,消除单位与量纲带来的影响,从而压缩样本,使样本在空间上的分布大致符合正态分布特征。原始变量空间分布由较为随机的分布压缩为大致分布于椭圆内的正态分布。原始变量空间分布特征标准化后的空间分布特征2.主成分分析的步骤,以二维空间进行说明第二步,通过变量之间的协方差计算相关系数矩阵R。意义在于通过相关系数矩阵计算变量x1与变量x2之间的相关程度,从而找到它们的共同主导方向,即主成分F1。该过程主要通过坐标轴的平移和坐标系的旋转完成。·M坐标轴平移坐标系旋转M第三步,计算主成分的贡献率和累计贡献率。通过贡献率和累计贡献率可确定最终主成分的个数。主要由求解相关系数矩阵R的特征方程得到相应的特征值与特征向量实现该步骤。几何意义在于样本点在主导方向上的投影,以此确定数量关系。••••••第四步,通过特征值与特征向量得到主成分F1上的载荷。根据方差最大原理,将变量x1与x2投影到表征最为主导方向的新空间维度F1上(一维空间),从而找到了变量x1与x2共同的主成分;将投影在F1上的数据点进行线性组合,从而明确了x1与x2各自在主成分F1上的权重,实现主成分载荷的计算,进而计算主成分得分。变量的投影与线性组合实现过程第一步,由以下原始数据矩阵观察分布特征,并进行标准化处理。第二步,以协方差为依据,计算相关系数矩阵。3.扩展至高维空间的主成分分析步骤标准化相关系数矩阵第三步,计算主成分贡献率和累计贡献率。实现过程:求解相关系数矩阵的特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列然后,分别求出对应于特征值的特征向量通过得到的特征值特征向量计算贡献率和累计贡献率。
贡献率公式累计贡献率公式第四步,计算主成分载荷与得分。主成分载荷:主成分得分矩阵:4.R的主成分分析操作R软件实现主成分分析的函数为p(formula,cor=TRUE)显示结果用summary(object,loadings=TRUE)作线性预测结果用predict(object)画主成分的碎石图用screeplot(object,type=‘lines’)画样本由主成分1和主成分2撑起来的空间分布图和变量分布图用biplot(object,choices=1:2)下面以一个实例介绍函数的使用方法例(中学生身体4项指标的主成分分析)某中学随机抽取某年级30名学生,测量其身高(X1),体重(X2),胸围(X3)和坐高(X4),数据如下表。试对这30名中学生身体4项指标数据作主成分分析。序号X1X2X3X4114841747921393575773160487885414937698051504281866140326477715245748481504375799152447681101413268741114029637412162487484131574576821413935687615138306474161523774811714848837918147367178191614874862015745788521152457583221454075782315439688124144316575251584781882615135748127143356977281423168762913832687330149377179###第一步,以数据框形式输入数据>student<-data.frame(X1=c(148,139,160,149,159,142,153,150,151,139,140,161,158,140,137,152,149,145,160,156,151,147,157,147,157,151,144,141,139,148),X2=c(41,34,49,36,45,31,43,43,42,31,29,47,49,33,31,35,47,35,47,44,42,38,39,30,48,36,36,30,32,38),X3=c(72,71,77,67,80,66,76,77,77,68,64,78,78,67,66,73,82,70,74,78,73,73,68,65,80,74,68,67,68,70),X4=c(78,76,86,79,86,76,83,79,80,74,74,84,83,77,73,79,79,77,87,85,82,78,80,75,88,80,76,76,73,78))###第二步,调用函数作主成分分析,并显示分析结果>student.pr<p(student,cor=TRUE)>summary(student.pr,loadings=TRUE)从各因子在主成分上的载荷可看出,第一主成分为大小因子,表示身材魁梧程度;第二主成分为体形因子,反映高度与围度的差。由贡献率和累计贡献率可知,只保留前两个主成分从右图看出,在第1主成分的分布看,样本3,5,25的值较小,说明这几个学生身材魁梧;而样本11,15,29的值较大,说明这几个学生身材瘦小。第2主成分中,样本4,19,23具有较大的值,说明这几个学生属于“细高”;而样本2,8,17的值较小,说明这几个学生身材属于“矮胖”型。###第三步,作预测(观察各样本在主成分的值)>predict(student.pr)###第四步,画出主成分的碎石图>screeplot(student.pr)>screeplot(student.pr,type="lines")###第五步,画主成分1和主成分2撑起来的空间分布图和变量分布图>biplot(student.pr)从右图看出,由第1主成分和第2主成分撑起来的空间可发现每个样本的位置分布(数字所代表的就是样本);通过变量x1,x2,x3,x4在主成分1的分布可知其符号相同且为负;而变量x1,x4在主成分2的符号则是正的;###第六步,当主成分的个数超过2个以后,可使用以下命令:>pairs(student.pr$scores[,1:3])从右图看出,可将3个主成分在二维空间中进行显示;样本在不同主成分上的分布情况也可清楚看出来。如第一行表征第一主成分是横坐标,然后2,3主成分是纵坐标。Comp.1Comp.1Comp.2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论