第12章主成分分析_第1页
第12章主成分分析_第2页
第12章主成分分析_第3页
第12章主成分分析_第4页
第12章主成分分析_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第12章主成分分析本章主要内容1 概述2 PrinComp过程3 主成分分析2概述科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。主成分分析(Principal Component Analysis)方法,1901年Pearson最早提出,1933年,Hotelling做了进一步研究。3概述何为主成分?简而言之,主成分实际上就是由原变量x1xm线性组合出来的个互不相关、且未丢失任何信息的新变量,也称为综合变量。多指标的主成分分析常被用来

2、寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。4概述适合作主成分分析的资料,也适合作因子分析、对应分析、聚类分析,何时应选择什么方主要取决于研究目的和对结果的要求。5PrinComp过程6PrinComp过程SAS的princomp过程计算相关阵或协方差阵的特征值和特征向量,当特征值按从大到小的顺序排列时,则相应的特征向量可得到第1主成分、第2主成分等。用少数几个主成分代替原始变量,并计算主成分得分。该过程可产生的计算结果有:简单统计量(均数和标准差);相关阵和协方差阵;从大到小排列的特征根和相应的特征向量等。7PrinComp过程Pri

3、ncomp过程的选项(部分)选项功能和用法Cov从协方差矩阵计算主成分。如果省略此选项,则使用相关矩阵。使用cov可以使方差较大的变量与具有较大特征值的主成分相关更为密切。N指定需要计算主成分的个数。程序的默认值是变量的个数。Prefix=为主成分命名。Std(standard)要求输出数据集中包含标准化的主成分值。如省略此项,则输出数据集中含未经标准化的主成分值。Noint主成分分析不包括截距。8主成分分析示例12a01:某医学院测得20例肝病患者的项肝功能指标SGPT(转氨酶)、肝大指数、ZnT(硫酸锌浊度)和AFP(胎甲球),依次用X1至X4表示,观测数据列入数据文件。试进行主成分分析。

4、数据文件9主成分分析/* SasProg12a01.Sas */data d12a01; INFILE e:sassasdatasasdata12a01.txt; INPUT x1-x4;Proc princomp OUT=d12a02 PREFIX=z; VAR x1-x4;run;data d12a02; SET d12a01; maxz=MAX(OF z1-z4);Proc print;run;OUT=d12a02表示要产生个数据集d12a02 ,它包括原始数据以及与各观测值对应的个主成分值;PREFIX=Z要求用Z1Z4分别表示4个主成分变量; 若此项缺省,则SAS系统自动用PRIN1

5、PRIN4表示4个主成分变量。10主成分分析结果解释:第一部分(Number of Observations, Variables and Partial Variables):观测数和变量。第二部分(Simple Statistics):变量的均数和标准差。第三部分(Correlation Matrix):相关系数矩阵。第四部分(Eigenvalues of the Correlation Matrix):相关系数阵的特征值。特征值越大,对应的主成分变量包含的信息就越多。第1个至第4个主成分的贡献率分别为42.9563%、27.3384%、24.5337%和5.1716%,最后1列为累计贡献

6、率,由此列数值可知:前3个主成分就包含了原来4个指标94.828%的信息。11主成分分析结果解释:第五部分(Eigenvectors):特征向量。据此可以写出由标准化变量所表达的各主成分的关系式。Z1Z2Z3Z412主成分分析结果解释:在各主成分的表达式中,各标准化指标xi前的系数与该主成分所对应的特征值之平方根的乘积是该主成分与该指标之间的相关系数,如r(Z1,;r(Z2,;系数的绝对值越大,说明该主成分受该指标的影响也就越大。因此,决定第1主成分Z1大小的主要为X1和X2,即SGPT和肝大指数;决定第2主成分Z2大小的主要为X3,即ZnT;决定第3主成分Z3大小的主要为X4,即AFP;决定

7、第4主成分大小的主要为X1和X2,但作用相反。13主成分分析示例12b01(裴鑫德编著. 多元统计分析及其应用. 北京:北京农业大学出版社. 1991,10 第1版):对30个小麦品种观测了10项指标,得到数据文件。试由样本协差阵和样本相关阵进行主成分分析。X1抽穗期X6穗下节长(cm)X2株高 (cm)X7主穗小穗数X3单株穗数X8每小穗粒数X4主穗长(cm)X9单株粒重(g)x5主穗粒数x10百粒重(g)14主成分分析/* SasProg12b01.Sas */data d12b01; infile e:sassasdatasasdata12b01.txt;input x1-x10;pro

8、c princomp prefix=y; var x1-x10;run;proc princomp cov prefix=y; var x1-x10;run;由相关阵R出发的主成分分析称为R型分析;由协差阵S出发的主成分分析称为S型分析。求出使累积率达85%以上的前k个主成分。15主成分分析结果解释由协方差阵的特征值(Eigenvalues of the Covariance Matrix)可知,前三个主成分的累积贡献率已达,表达式为:16主成分分析结果解释由第1主成分y1看,它是变量x1-x10的线性函数,且x2(株高)、x6(穗下节长)的系数最大;其次x1、x4、x1、x3系数也较大,这表

9、示第1主成分大时,反映植株较高、穗下节较长、单株粒重较大、主穗长较长、单株穗数较多、抽穗期较晚。第1主成分主要反映了植株高度,因此可以称为植株高度因子。第2主成分主要反映了穗部性状因子;第3主成分主要反映了植株群体大小因子。17主成分分析结果解释由相关阵的特征值(Eigenvalues of the Correlation Matrix)可知,前五个主成分的累积贡献率已达,表达式为:y1= 0.261839 x1 +0.478942 x2 +0.219693 x3 +0.403641 x4 -.175722 x5 +0.512654 x6 -.036207 x7 -.185702 x8 +0.

10、398313 x9 -.052176 x10y2= 0.251823 x1 +0.029450 x2 -.079521 x3 +0.230171 x4 +0.597503 x5 +0.009700 x6 +0.463309 x7 +0.495711 x8 +0.158125 x9 +0.184185 x10y3= 0.153333 x1 -.207673 x2 +0.638507 x3 -.276764 x4 +0.119603 x5 -.158753 x6 -.135651 x7 +0.210237 x8 +0.358787 x9 -.467156 x10 y4= -.519780 x1 +

11、0.052873 x2 +0.192137 x3 +0.116774 x4 +0.129460 x5 +0.158279 x6 -.546393 x7 +0.408960 x8 +0.100397 x9 +0.398491 x10 y5= 0.393837 x1 -.373731 x2 +0.045647 x3 +0.028699 x4 -.189090 x5 -.269972 x6 -.124743 x7 -.189863 x8 +0.382802 x9 +0.628907 x10 18主成分分析结果解释第1主成分为植株高度因子;第2主成分主要反映了穗部性状因子;第3主成分主要反映了植株群体

12、大小因子;第4主成分为熟期早晚因子;第5主成分是粒重因子。一般来说,R型分析累积方差贡献率达85%以上时,一般主成分的的个数k要比S型分析所取得的主成分的个数k要大,因而主成分实际意义的解释范围就更广一些。此外,R型分析还有消除指标量纲影响的作用,因而在实际问题中R型分析用的比较多。19主成分分析示例12c01(黑龙江农垦总局课题. 大学生体形和身体素质综合评价的研究. 2002,8):对50名女大学生测定6项体型指标:x1:身高(cm);x2:体重(kg);x3:胸围(cm);x4:坐高(cm);x5:肩宽(cm);x6:骨盆宽(cm)。 对50名女大学生测定5项身体素质指标: x1:50m

13、跑(秒);x2:800m跑(秒);x3:立定跳远(m);x4:铅球(m);x5:仰卧起坐(个/分)。 对50名男大学生测定5项身体素质指标: x1:50m跑(秒);x2:1000m跑(秒);x3:立定跳远(m);x4:铅球(m);x5:引体向上(个)。 20主成分分析/* Sasprog12c01.Sas */data d12c01; infile e:sassasdatasasdata12c01.txt; input name $ x1-x6;proc princomp prefix=z; var x1-x6;run;21主成分分析结果分析:前2个主成分的累积贡献率已达85.16%。前2个主

14、成分的表达式分别为: Z1 x1x2x3x4x5x6 Z2 x1x2x3x4x5x6从第一主成分看,身高x1、坐高x4、肩宽x5、骨盆宽x6的系数比较大,因此,当大学生的6个指标值代入第一主成分表达式所得第一主成分值较大时,必有身高较高、坐高较高、肩宽较宽、骨盆较宽等趋势,因此我们可以认为第一主成分为健壮因子。第二主成分中,胸围x3的系数最大,体重x2的系数也较大,说明第二主成分主要反映肥胖程度,因此可称第二主成分为丰满因子。于是,根据以上2个主成分就可判断女同学的体形情况。将测定的指标代入上面2个主成分表达式中,若Z1较大,则为健壮型的;若Z2较大,则为丰满型的。22主成分分析/* Sasp

15、rog12c02.Sas */data d12c02; infile e:sassasdatasasdata12c02.txt; input name $ x1-x5;proc princomp prefix=z; var x1-x5;run;23主成分分析结果分析:前4个主成分累积贡献率达到93.69%。表达式分别为: Z1 = 0.5272x1+0.4986x2+0.4453x3+0.4985x4 - 0.1634x5 24主成分分析结果分析:从第一主成分看,50m跑x1系数最大,因此,当大学生的5项身体素质指标值代入第一主成分表达式所得第一主成分值较大时,首先是短跑较快的学生,因此我们可

16、以认为第一主成分为爆发力因子。从表达式系数可以看出,800m跑x2 、铅球x4 、立定跳远x3的系均也比较大,说明第一主成分与耐力、力量等也有较大相关性。第二主成分中,仰卧起坐x5的系数最大,说明第二主成分主要反映了腰腹的强健程度。第三主成分中,立定跳远x3的系数最大,说明第四主成分是反映学生弹跳力的因子。第四主成分中,铅球x4的系数最大,说明第四主成分是反映学生力量的因子。25主成分分析/* Sasprog12c02.Sas */data d12c02; infile e:sassasdatasasdata12c02.txt; input name $ x1-x5;proc princomp

17、 prefix=z; var x1-x5;run;26主成分分析结果分析:需要前4个主成分累积贡献率达94.14%。表达式分别为: Z1 = 0.5389x1 + 0.4808x2 + 0.4903x3 + 0.4762x4 + 0.1063x5 27主成分分析结果分析:从第一主成分看,50m跑x1系数最大,因此,当大学生的5项身体素质指标值代入第一主成分表达式所得第一主成分值较大时,首先是短跑较快的同学,因此我们可以认为第一主成分为爆发力因子。从表达式系数可以看出,1000m跑x2 、铅球x4 、立定跳远x3的系均也比较大,说明第一主成分与耐力、力量等也有较大相关性。第二主成分中,引体向上x

18、5的系数最大,说明第二主成分主要反映了臂膀的强健程度。第三主成分中,铅球x4系数较大,说明男同学身体素质好要有一定的力量基础。该主成分中1000米跑x2的系数数值很大,但呈负相关关系,与女同学的情况刚好相反。第四主成分中,立定跳远x3的系数最大,说明第四主成分是反映同学弹跳力的因子。28主成分分析示例12d01(李方敏,艾天成,周治安等. 用主成分分析法评价渍害土壤肥力. 地域研究与开发. 2001, 20(4):65-67,80):选取具有湖北省四湖地区典型盆碟状地貌特征的潜江市国营高场农场不同渍害程度的17个样点的水稻土作为研究对象。测定和调查10项指标:土壤有机质(t1)、易氧化有机质(t2)、土壤有机质氧化稳定性(Kos值)(t3)、碱解氮(t4)、速效磷(t5)、速效钾(t6)、阳离子代换量(CEC)(t7)、20m粒径含量(t8)、20m含量比(t9)、地下水埋深(t10)。数据文件29主成分分析/* Sasprog12d01.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论