


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
R语⾔与主成分分析主成分分析实例例9.1(中学⽣⾝体四项指标的主成分分析)在某中学随机抽取某个年纪30名学⽣,测量其⾝⾼(X1)、体重(X2)、胸围(X3)和坐⾼(X4),数据如表9.1所⽰。试对这30名中学⽣⾝体四项指标数据做主成分分析。解析:⽤数据框的形式输⼊数据。⽤princomp()作主成分分析,由前⾯的分析,选择相关矩阵做主成分分析更合理。因此,这⾥选择的参数为cor=TRUE。最后⽤summary()列出主成分分析的值,这⾥选择loadings=TRUE。以下是相应的程序。⽤数据框形式输⼊数据,做主成分分析,并显⽰分析结果:summary()函数列出了主成分分析的重要信息:Standarddeviation:表⽰主成分的标准差,即主成分的⽅差的开⽅,也就是相应的特征值的开⽅ProportionofVariance:表⽰的是⽅差的贡献率CumulativeProportion:表⽰的是⽅差的累计贡献率由于在summary函数的参数中选取了loadings=TRUE,因此列出了loadings(载荷)的内容,它实际上是主成分对应于原始变量X1,X2,X3,X4的系数,即前⾯介绍的矩阵Q。因此得到:由于前⾯两个主成分的累计贡献率已达到96%,另外两个主成分可以舍去,达到降维的⽬的。第⼀主成分对应系数的符号都相同,其值在0.5左右,它反映了中学⽣⾝材魁梧程度:⾝材⾼⼤是学⽣,他的四个部分的尺⼨都⽐较⼤,因此,第⼀主成分的值就⽐较⼩(因为系数均为负数);⽽⾝材矮⼩是学⽣,他的四个部分的尺⼨都⽐较⼩,因此,第⼀主成分的绝对值就较⼤。我们成第⼀主成分为⼤⼩因⼦。第⼆主成分是⾼度和围度的差,第⼆主成分值⼤的学⽣表明该学⽣“细⾼”,⽽第⼆主成分值越⼩的学⽣表明该学⽣“矮胖”,因此第⼆主成分为体型因⼦。我们看⼀下各样本的主成分的值(⽤predict()函数):从第⼀主成分来看,较⼩的⼏个值是25号样本、3号样本和5号样本,因此说明这个⼏个学⽣⾝材魁梧。⽽11号样本、15号样本和29号样本的值较⼤,说明这⼏个学⽣的⾝材瘦⼩。从第⼆主成分来看,较⼤的⼏个值是23号样本、19号样本和4号样本,因此说明这⼏个学⽣属于“细⾼”型;⽽17号样本、8号样本和2号样本的值较⼩,说明这⼏个学⽣的⾝材属于“矮胖”型。画出主成分的碎⽯图:还可以画出关于第⼀主成分和第⼆主成分样本的散点图,其图形如下所⽰:问题:中间的四条箭头的线的作⽤是什么主成分分析的应⽤1.主成分分类例9.2对128个成年男⼦的⾝材进⾏测量,每⼈各测得16项指标:⾝⾼(X1),坐⾼(X2),胸围(X3),头⾼(X4),裤长(X5),下档(X6),⼿长(X7),领围(X8),前胸(X9),后背(X10),肩厚(X11),肩宽(X12),袖长(X13),肋围(X14),腰围(X15)和腿肚(X16)。16项指标的相关矩阵R如表9.2所⽰(由于相关矩阵是对称的,只给出下三⾓部分)。试从相关矩阵R出发进⾏主成分分析,对16项指标进⾏分类。解析:⾸先输⼊相关矩阵,再⽤princomp()对相关矩阵做主成分分析,最后画出各变量在第⼀、第⼆主成分下的散点图。输⼊数据,按下三⾓输⼊,构成向量做主成分分析,并绘制散点图:由上图中得到:左上⾓的点看成⼀类,它们是“长”类:即⾝⾼(X1),坐⾼(X2),头⾼(X4),裤长(X5),下档(X6),⼿长(X7),袖长(X13)右下⾓的点看成⼀类,它们是“围”类,即⾝胸围(X3),领围(X8),肩厚(X11),肋围(X14),腰围(X15),腿肚(X16)中间的点看成⼀类,为体形特征指标:即前胸(X9),后背(X10),肩宽(X12)2.主成分回归在回归分析的章节中,曾经讲过,当⾃变量出现多重共线性时,经典回归⽅法回归系数的最⼩⼆乘估计,⼀般效果会较差,⽽采⽤主成分回归能够克服直接回归的不⾜。下⾯⽤⼀个例⼦来说明如果做主成分回归,并且是如何克服经典回归的不⾜。例9.3(法国经济分析数据)考虑进⼝总额Y与三个⾃变量:国内总产值X1,储存量X2,总消费量X3(单位为10亿法郎)之间的关系。现收集了1949年⾄1959年共11年有效数据,如表9.3所⽰。试对此数据做经典回归分析和主成分回归分析。解析:输⼊数据(采⽤数据框形式),再⽤⼀般线性回归⽅法做回归分析从计算结果可以看出,按三个变量得到回归⽅程:分析该⽅程,可以发现它并不合理。回到问题本⾝,Y为进⼝量,X1是国内总产值,⽽对应系数的符号却是负,也就说,国内总产值越⾼,其进⼝量却越少,这与实际情况并不相符。问其原因,三个变量存在着多重共线性(后⾯我们将会看到最下特征值接近于0)Analysisofmyself:绘制岭迹图为了进⼀步可以看出变量间是否存在多重共线性,可以通过绘制岭迹图进⾏观察:可见,在岭迹图中呈现出了“喇叭形”,因此很有可能在变量间存在多重共线性。为了克服多重共线性的影响,对变量做主成分分析回归,先做主成分分析:从结果中可以看出,前两个主成分已达到99%的贡献率,因此第三主成分可以舍去。下⾯做主成分回归,⾸先计算样本的主成分的预测值,并将第⼀主成分的预测值和第⼆主成分的预测值存放在数据框conomy中,然后再对主成分做回归分析:回归系数和回归⽅程通过检验,⽽且效果显著,即得到回归⽅程;上述⽅程得到的是响应变量与主成分的关系,但应⽤起来并不是很⽅便,还是希望得到相应变量与原变量之间的关系。由于:以下通过变换,得到原坐标下的关系表达式:在程序中,coef函数是提取回归系数,loadings为提取主成分对应的特征向
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 药剂学科研伦理与合规性试题及答案
- 未来趋势健康管理师考试试题及答案
- 药理作用机制考题及答案
- 生字闯关考试题及答案
- 肺结核分型试题及答案
- 卫生管理考试成功的要素试题及答案
- 病理技术面试题及答案
- 育婴师职业生涯规划试题及答案
- 病理学试题及答案
- 激光技术在新能源领域的应用试题及答案
- 期中(试题)-2024-2025学年人教精通版(2024)英语三年级下册
- 2025-2030中国煤焦油杂酚油行业市场发展趋势与前景展望战略研究报告
- 新版食品安全法培训课件
- 2025年高考物理专项复习:电磁感应综合题
- 第13课 亚非拉民族独立运动 课件(共26张)2024-2025学年统编版高中历史(必修)中外历史纲要(下)
- 2020-2025年中国辽宁省风力发电行业发展潜力分析及投资方向研究报告
- 东湖高新区2023-2024学年下学期期中七年级数学试题(含答案)
- 劳务派遣劳务外包项目方案投标文件(技术方案)
- 定额〔2025〕1号文-关于发布2018版电力建设工程概预算定额2024年度价格水平调整的通知
- 《思想政治教育方法论》考研(第3版)郑永廷配套考试题库及答案【含名校真题、典型题】
- 一种基于STM32的智能门锁系统的设计-毕业论文
评论
0/150
提交评论