第2讲 主成分分析_第1页
第2讲 主成分分析_第2页
第2讲 主成分分析_第3页
第2讲 主成分分析_第4页
第2讲 主成分分析_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、12022-5-24主成分分析主成分分析 2学时学时2PrincompPrincomp AnalysisA22022-5-24你想过下面的问题吗?v 如何根据抽样数据研究学生的学习成绩?如何根据抽样数据研究学生的学习成绩?v 可用各科成绩总和作为综合指标可用各科成绩总和作为综合指标, ,比较成比较成绩差异?绩差异?v 根据各科成绩相近程度对学生进行分类;根据各科成绩相近程度对学生进行分类;v 研究文科成绩与理科成绩的关系研究文科成绩与理科成绩的关系. .数据矩阵npnnppxxxxxxxxx212222111211X100名学生名学生 6门课程期末考试成绩:门课程期末考试成绩:统计分析是以各变

2、量统计分析是以各变量的的n次观测次观测数据数据所组所组成的数据矩阵为依据成的数据矩阵为依据,根据实际问题的需要,根据实际问题的需要,给出种种方法给出种种方法32022-5-242.1 2.1 主成分的基本思想主成分的基本思想42022-5-24本例可能提出的问题v 能否把能否把6个变量个变量X1,X2,X6(数学、物理等数学、物理等6科成绩科成绩),用一两个用一两个综合变量综合变量Y1,Y2来表示?来表示?v Y1,Y2包含有多少原来的信息呢?包含有多少原来的信息呢?v 能否用能否用综合变量综合变量对成绩排序或进行其他分析?对成绩排序或进行其他分析?v 例中每个观测值是例中每个观测值是6维空间

3、维空间(X1,X2,X6)中的点中的点, 共共100个。希望把个。希望把6维空间用低维空间维空间用低维空间(Y1,Y2)表示。表示。52022-5-242.2 2.2 主成分的几何意义主成分的几何意义),(62022-5-72022-5-242.3 2.3 总体主成分总体主成分82022-5-24二二. . 总体主成分步骤总体主成分步骤92022-5-24三三. .总体主成分的性质总体主成分的性质102022-5-24三三. .总体主成分的性质总体主成分的性质贡献率大则表贡献率大则表达信息多;达信息多;一般一般80%以上以上 112022-5-24四四. .主成分分析主成分分析PROC PRI

4、NCOMPPROC PRINCOMP过程过程 v 基本语句形式:基本语句形式:v PROC PRINCOMP ; /* 指出要进行分析的SAS集名称、输出集等 */v VAR 变量名称;变量名称; /* VAR后面列出数据集中参与主成分分析的变量名称,若省略此句,则数据集中所有数值变量均参与分析*/v RUN;122022-5-132022-5-24(2)求正交单位化的特征向量)求正交单位化的特征向量142022-5-24(3)求主成分及贡献率)求主成分及贡献率152022-5-24例例2.1 设设 协方差阵协方差阵 ,求主成分,求主成分 v 解:法二:程序实现:解:法二:程序实现:v dat

5、a examp2_1 (type=cov); /* 数据集为协方差矩阵要加上(type=cov) */v _type_=cov; /* 输入数据集为协方差矩阵要加上_type_=cov */v input _name_ $ x1-x3; /* 输入变量加上_name_ $,取值可指定为输入变量名 */v cards;v x1 1 -2 0v x2 -2 5 0v x3 0 0 2v ;v run;v proc princomp data=examp2_1 cov outstat=bb; /* 调用princomp过程,从协方差阵协方差阵出发做主成分分析,命令一个含变量均值、协方差阵、特征值、特

6、征向量的输出集输出集bb */v var x1-x3; /* 参与分析变量为x1-x3 */v run;v proc print data=bb; /* */v run; TXXX),(321X162022-5-172022-5-24 输出数据集输出数据集 含各变量均值、观测数据个数含各变量均值、观测数据个数1000、协方、协方差阵、特征值和特征向量等差阵、特征值和特征向量等182022-5-24结果分析结果分析192022-5-24五基于相关系数矩阵的主成分分析五基于相关系数矩阵的主成分分析 -标准化变量的主成分标准化变量的主成分 202022-5-24v data examp2_2 (ty

7、pe=cov); /* 数据集为协方差矩阵要加上(type=cov) */v _type_=cov; /* 输入数据集为协方差矩阵要加上_type_=cov */v input _name_ $ x1-x3; /* 输入变量加上_name_ $,取值可指定为输入变量名 */v cards;v x1 1 -2 0v x2 -2 5 0v x3 0 0 2v ;v run;v proc princomp data=examp2_2 outstat=bb; /* 从相关系数(系统默认)相关系数(系统默认)矩阵出发进行主成分分析*/v var x1 x2 X3;v run;212022-5-22202

8、2-5-242.4 2.4 样本主成分样本主成分232022-5-24基于样本协方差矩阵的主成分分析步骤:基于样本协方差矩阵的主成分分析步骤:242022-5-24二二. .基于样本相关系数矩阵的主成分分析基于样本相关系数矩阵的主成分分析252022-5-24基于样本相关系数矩阵基于样本相关系数矩阵R的主成分分析步骤的主成分分析步骤262022-5-272022-5-24例例2.3 为全面了解我国西北某省的十家上市公司的获利能为全面了解我国西北某省的十家上市公司的获利能力和经营发展能力,特选取公司如下六个指标进行分析:力和经营发展能力,特选取公司如下六个指标进行分析:282022-5-24 表

9、表2.2 102.2 10家上市公司的获利和发展能力数据家上市公司的获利和发展能力数据 公司编号公司编号 X1 X2 X3 X4 X5 X6 1 0.021 26.806 57.311 -39.819 -39.819 8.819 2 -0.142 -7.179 16.335 -11.359 -4.766 -4.626 3 -0.737 -62.417低 7.359 -18.378 -19.165 12.289 4 0.320 7.276 17.372 39.506 19.858 41.939 5 0.160 4.820 38.323 37.113 23.744 34.063 6 0.351 1

10、1.842 23.118 14.725 11.616 9.516 7 0.243 5.173 17.515 14.435 123.101高 79.489 8 -0.190 -10.912 8.236 -2.746 -7.439 -10.502 9 0.173 7.543 23.978 17.122 21.318 25.70110 0.367 9.352 16.048 55.621 27.861 18.918 X1X1:每股净收益;:每股净收益;X2X2:净资产收益率;:净资产收益率; X3X3:主营业务收益率;:主营业务收益率; X4X4:主营业务增长率;:主营业务增长率;X5X5:净资产增长

11、率;:净资产增长率;X6 X6 :总资产增长率:总资产增长率 谁强谁强?谁弱谁弱?排名排名?292022-5-24十家上市公司综合能力主成分分析程序十家上市公司综合能力主成分分析程序data examp2_3;input id x1-x6;cards;1 0.021 26.806 57.311 -39.819 -39.819 8.8192 -0.142 -7.179 16.335 -11.359 -4.766 4.6269 0.173 7.543 23.978 17.122 21.318 25.70110 0.367 9.352 16.048 55.621 27.861 18.918;run;

12、proc corr cov nosimple data=examp2_3; /* 调用协方差分析corr过程,计算协方差矩计算协方差矩阵阵,不输出不输出每个变量的简单统计量值简单统计量值*/var x1-x6;run;proc princomp data=examp2_3 out=bb; /* 调用princomp过程,从相关系数矩阵出发进行主成分分析,输出集bb */var x1-x6;run; /*对各公司按第一主成分进行排名*/data score1; /* 建立新数据集score1 */set bb; /* 调用数据集bb */keep id prin1; /* 保留id、print1

13、(第一主成分得分)*/proc sort data=score1; /* 调用sort过程,对集score1按prin1(第一主成分第一主成分)降序排序 */by descending prin1; run;proc print data=score1; run;302022-5-24 CORR 过程过程v 6 变量:变量: x1 x2 x3 x4 x5 x6v 样本协方差矩阵样本协方差矩阵S,自由度,自由度 = 9v x1 x2 x3 x4 x5 x6x1 0.115856 7.038086 1.469550 6.606916 7.176540 3.832540 x2 7.038086 57

14、4.072521 227.762290 181.962655 202.129706 127.455392x3 1.469550 227.762290 225.355308 -112.974155 -161.181280 15.099194x4 6.606916 181.962655 -112.974155 853.528265 653.378961 323.896329x5 7.176540 202.129706 -161.181280 653.378961 1896.138991 972.852413x6 3.832540 127.455392 15.099194 323.896329 97

15、2.852413 673.171848v 由由S看出看出,各指标样本方差差异很大各指标样本方差差异很大,因此选择用样本相关系数矩阵因此选择用样本相关系数矩阵R进行主成进行主成 分分析分分析(即求标准化的样本主成分即求标准化的样本主成分)由由printcomp 过程得过程得R:(1)corr过程,计算协方差矩阵及相关系数矩阵过程,计算协方差矩阵及相关系数矩阵312022-5-24Pearson 样本相关系数矩阵样本相关系数矩阵R及检验对应的两个变量是否相关的检验及检验对应的两个变量是否相关的检验p值值322022-5-24(2)princomp过程,相关系数矩阵过程,相关系数矩阵R做主成分分析,

16、输出集做主成分分析,输出集bbv The PRINCOMP Procedurev Observations 10v Variables 6v Simple Statistics(简单统计量(简单统计量 均值、标准差)均值、标准差)v x1 x2 x3 x4 x5 x6Mean 0.05660 -0.76960 22.55950 10.62200 15.63090 21.56060StD 0.34037 23.95981 15.01183 29.21520 43.54467 25.94555 v Correlation Matrix(样本相关系数矩阵(样本相关系数矩阵R)v x1 x2 x3 x

17、4 x5 x6v x1 1.0000 0.8630 0.2876 0.6644 0.4842 0.4340v x2 0.8630 1.0000 0.6332 0.2600 0.1937 0.2050v x3 0.2876 0.6332 1.0000 -.2576 -.2466 0.0388v x4 0.6644 0.2600 -.2576 1.0000 0.5136 0.4273v x5 0.4842 0.1937 -.2466 0.5136 1.0000 0.8611v x6 0.4340 0.2050 0.0388 0.4273 0.8611 332022-5-342022-5-35202

18、2-5-24(3)按第一主成分对各公司进行排序)按第一主成分对各公司进行排序362022-5-24 输出主成分及原始变量,并按照第一主成分进行排序,画输出主成分及原始变量,并按照第一主成分进行排序,画出第一、第二主成分散点图出第一、第二主成分散点图data examp2_3;input id x1-x6;cards;1 0.021 26.806 57.311 -39.819 -39.819 8.8192 -0.142 -7.179 16.335 -11.359 -4.766 -4.6269 0.173 7.543 23.978 17.122 21.318 25.70110 0.367 9.352 16.048 55.621 27.861 18.918;run;vproc princomp data=examp2_3 prefix=y out=bb; /*v从相关系数矩阵出发进行主成分分析,主成分名称y,输出集bb */vvar x1-x6;vproc plot data=bb;vplot y2*y1 $ id=*; /* 画第一、第二主成分散点图,* 为散点符号*/vproc sort data=bb; /* 对数据集bb按照y1降序排列 */vby descending y1; vrun;vproc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论