版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、. .一组空气污染数据的主成分分析【说明】下面的多元统计分析练习题摘自 R.A. Johnson 等编写的应用多元统计分析(第五版),原书为: Richard A. Johnson and Dean W. Wichern. Applied MultivariateStatistical Analysis (5th Ed). Pearson Education, Inc. 2003 。我看的是中国统计出版社(China Statistics Press )2003 年发行的影印本。第一题为原书第 1.6 题,即第 1 章的第 6 题,第二题为原书第 8.12 题,即第 8 章的第12 题。第二题
2、用的是第一题的数据。1 习题1.6. The data in Table 1.5 are 42 measurements on air-pollution variables recordedat 12:00 noon in the Los Angeles area on different days.(a) Plot the marginal dot diagrams for all the variables.(b) Construct the x , Sn, and Rarrays, and interpret the entries in R.TABLE 1.5 AIR-POLLUTI
3、ON DATASolarradiationWind ( x1) ( x2) CO (x3) NO (x4) N O2 ( x5) O3 ( x6 ) HC ( x7)8 98 7 2 12 8 27 107 4 3 9 5 37 103 4 3 5 6 310 88 5 2 8 15 46 91 4 2 8 10 38 90 5 2 12 12 49 84 7 4 12 15 55 72 6 4 21 14 47 82 5 1 11 11 38 64 5 2 13 9 46 71 5 4 10 3 36 91 4 2 12 7 37 72 7 4 18 10 310 70 4 2 11 7 3
4、10 72 4 1 8 10 39 77 4 1 9 10 38 76 4 1 7 7 38 71 5 3 16 4 49 67 4 2 13 2 39 69 3 3 9 5 3Word 格式. .10 62 5 3 14 4 49 88 4 2 7 6 38 80 4 2 13 11 45 30 3 3 5 2 36 83 5 1 10 23 48 84 3 2 7 6 36 78 4 2 11 11 38 79 2 1 7 10 36 62 4 3 9 8 310 37 3 1 7 2 38 71 4 1 10 7 37 52 4 1 12 8 45 48 6 5 8 4 36 75 4
5、1 10 24 310 35 4 1 6 9 28 85 4 1 9 10 25 86 3 1 6 12 25 86 7 2 13 18 27 79 7 4 9 25 37 79 5 2 8 6 26 68 6 2 11 14 38 40 4 3 6 5 2Source : Data courtesy of Professor G.C. Tiao.8.12. Consider the air-pollution data listed in Table 1.5. Your job is to summarizethese data in fewer than p=7 dimensions if
6、 possible. Conduct a principal componentanalysis of the data using both the covariance matrix S and the correlation matrixR. What have you learned? Does it make any difference which matrix is chosen foranalysis? Can the data be summarized in three or fewer dimensions? Can you interpretthe principal
7、components?2 部分解答2.1 部分统计参数利用 Excel 计算的平均值( x )和标准差Wind Solar radiation CO NO N O2 O3 HCAverage 7.5 73.857143 4.547619 2.1904762 10.047619 9.4047619 3.0952381Stdev 1.5811388 17.335388 1.2337209 1.0873574 3.3709837 5.5658345 0.6917466Excel 给出的协方差矩阵 SWord 格式. .SolarWind radiation CO NO N O2 O3 HCWind
8、2.4404762Solarradiation -2.714286 293.36054CO -0.369048 3.8163265 1.4858277NO -0.452381 -1.353741 0.6575964 1.154195NO2 -0.571429 6.6020408 2.2596372 1.0623583 11.092971O3 -2.178571 30.057823 2.7545351 -0.791383 3.0521542 30.24093HC 0.1666667 0.6088435 0.138322 0.1723356 1.0192744 0.5804989 0.467120
9、2Excel 给出相关系数矩阵 RSolarWind radiation CO NO N O2 O3 HCWind 1Solarradiation -0.101442 1CO -0.193803 0.1827934 1NO -0.269543 -0.073569 0.5021525 1NO2 -0.109825 0.115732 0.5565838 0.2968981 1O3 -0.253593 0.3191237 0.4109288 -0.133952 0.1666422 1HC 0.1560979 0.0520104 0.1660323 0.2347043 0.4477678 0.1544
10、506 1从相关系数矩阵可以看出, CO与 N O、N O2 相关性明显, O3 与 Solar radiation 、CO相关性明显。后面的主成分分析将 CO与 N O、N O2 归并到一个主成分,将 O3 与 Solar radiation归并到一个主成分,将 H C、Wind 归并到一个主成分。 HC与 Wind 的相关系数并不高,但从正相关的角度看,二者的数值倒是最高的。方差极大正交旋转之后, HC与 C O、N O、N O2 归并到一个因子,因为 HC与 N O2 的相关系数较高,与 C O、NO的相关系数高于其他变量。2.2 主成分分析之一数据未经标准化下面是从相关矩阵 R 出发,
11、 SPSS给出的结果。原始数据未经标准化。所谓从 R 出发,就是在 SPSS的 Factor Analysis: Extraction Analysis 选项中选中 Correlation Matrix 。SPSS给出的相关系数矩阵( Correlation Matrix ),与 Excel 计算的结果一样。Word 格式. .Correlation MatrixWIND Solar radiation CO NO NO2 O3 HC WIND1.0 -.101 -.194 -.270 -.110 -.254 .156Solar radiation -.101 1.000 .183 -.074
12、 .116 .319 .052CO-.194 .183 1.000 .502 .557 .411 .166NO -.270 -.074 .502 1.000 .297 -.134 .235NO2-.110 .116 .557 .297 1.000 .167 .448O3 -.254 .319 .411 -.134 .167 1.000 .154HC.156 .052 .166 .235 .448 .154 1.000公因子方差 (Communalities )表如下。公因子方差变化于 0.544 0.795 之间,相差不是很大。 但是, 公因子方差值没有达到 0.8 以上的, 可见每一个变量体
13、现在三个主成分中的信息都不超过 80%。Com munalitiesInitial Ex tractionWIND 1.000 .737Solar radiation 1.000 .544CO 1.000 .725NO 1.000 .795NO2 1.000 .681O3 1.000 .722HC 1.000 .722Ex traction Method: Principal Component Analysis.特征根与方差贡献( Total Variance Explained )如下表。可见提取三个主成分可以解释原来 7 格变量的 70.384%。Total Variance Expla
14、inedInitial Eigenvalues Extraction Sums of Squared LoadingsComponent Total % of Variance Cumulative % Total % of Variance Cumulative %12.337 33.383 33.383 2.337 33.383 33.3832 1.386 19.800 53.183 1.386 19.800 53.18331.204 17.201 70.384 1.204 17.201 70.3844 .727 10.387 80.7715 .653 9.335 90.1066 .537
15、 7.667 97.7737 .156 2.227 100.000Extraction Method: Principal Component Analysis.Word 格式. .Scree Plot2.52.01.51.0eulavnegiE.50.01 2 3 4 5 6 7Component Number主成分载荷矩阵( Component Matrix )见下表。Com ponent Mat rixaComponent1 2 3WIND -.362 .328 .706Solar radiation .314 -.620 .246CO .842 -8.03E-03 -.125NO .5
16、77 .512 -.447NO2 .761 .235 .216O3 .496 -.667 .175HC .488 .362 .594Extraction Method: Principal Component Analysis.a.3 com ponents extracted.将上表从 SPSS中复制到 Excel 中,进行涂色分类,结果如下表所示。Component1 2 3WIND -0.36202 0.327809 0.706084Solar radiation 0.31424 -0.61997 0.24631CO 0.842417 -0.00803 -0.12466NO 0.5772
17、43 0.511736 -0.44671N O2 0.761294 0.235183 0.215682O3 0.496126 -0.66749 0.175399HC 0.488257 0.362466 0.593692主成分分类如下:Word 格式. .第一主成分的主要相关变量: C O、N O、N O2。第二主成分的主要相关变量: Solar radiation 、O3。第三主成分的主要相关变量: Wind、H C。在主成分载荷图( Component Plot )中,三个变量分别落入三个不同的主成分代表的区域。主成分得分表如下。 最后一栏对几个典型的样本给出了简单的解释。 注意解释的时候看
18、清主成分载荷矩阵中载荷值的正负号。Cases f1 f2 f3 典型的说明S1 0.61591 -0.8186 -0.38418S2 0.03194 -0.36015 -0.26343S3 -0.34752 -0.54481 -0.49701S4 0.2425 -0.30293 1.80367 样本 4 代表的区域 Wind、HC污染严重S5 -0.12729 -0.91941 -0.4042S6 0.72612 -0.19278 1.21954S7 2.03686 0.89982 1.4607 样本 7 和 8 代表的区域与 C O、N O、N O2 污染有明显S8 2.57309 0.77
19、732 -0.34124的关系S9 0.09802 -0.81736 0.30334S10 0.50664 0.78803 0.88735S11 0.3904 0.97744 -1.48345S12 0.14485 -0.45848 -0.27016S13 1.92477 0.88883 -0.66029S14 -0.50662 0.63139 0.91242S15 -0.89378 -0.17036 1.19632S16 -0.66037 -0.39862 0.93758Word 格式. .S17 -0.87787 -0.3635 0.3701S18 0.88733 1.5306 0.657
20、31S19 -0.42935 1.09253 0.48155S20 -0.751 0.92424 0.11384S21 样本 21 代表的区域 Solar radiation 、O3 污染较0.1 1.96133 1.18659小S22 -0.69373 -0.09747 0.51522S23 0.41484 0.20681 1.21242S24 -1.16263 1.39047 -2.12097S25 0.86691 -1.70335 0.91799S26 -0.91899 -0.13915 0.18106S27 0.09994 -0.51948 -0.37202S28 -1.32458 -
21、0.6911 0.65186S29 -0.10472 0.39184 -1.08681S30 -1.8593 1.37933 0.6047S31 -0.62672 -0.08347 0.47051S32 -0.14264 0.64941 0.72066S33 0.67421 1.56899 -2.63096 样本 33 代表的区域 Wind、HC污染较小S34 0.24874 -1.95681 0.22088S35 -1.71429 0.39216 -0.08554S36 -0.80238 -1.13269 -0.0517S37 -1.00653 -1.92662 -1.17569 样本 37
22、 和 38 代表的区域 Solar radiation 、O3S38 1.29486 -1.77265 -1.32357污染严重S39 1.68145 -1.04272 -0.66334S40 -0.48079 -0.49683 -1.07633S41 0.72122 -0.53042 -0.57934S42 -1.17776 0.98919 -1.555382.3 主成分分析之二数据未经标准化下面是从协方差矩阵 S 出发,SPSS给出的结果。原始数据未经标准化。所谓从 S 出发,就是在 SPSS的 Factor Analysis: Extraction Analysis 选项中选中 Cova
23、riance Matrix 。公因子方差 (Communalities )表如下。 在未经处理的 (Raw)公因子方差一栏, 其 Initial数值都是原始数据的方差。不过与前面 Excel 给出的协方差矩阵有所不同, Excel 给出的是总体方差,SPSS给出的是抽样方差。 例如以 Wind 的 Initial 值为例,2.4404762 ×42/41=2.5 ,或者 2.5 ×41/42=2.4404762 (对照前面的协方差矩阵) 。重标的( Rescaled )结果是 Extraction 值与 Initial 值之比。Word 格式. .Communalities
24、Raw RescaledInitial Extraction Initial Extraction WIND 2.500 3.067E-02 1.000 1.227E-02Solar radiation 300.516 300.134 1.000 .999CO 1.522 6.017E-02 1.000 3.953E-02NO 1.182 6.750E-03 1.000 5.709E-03NO2 11.364 .179 1.000 1.575E-02O3 30.979 3.846 1.000 .124HC .479 1.667E-03 1.000 3.484E-03Extraction Met
25、hod: Principal Component Analysis.公因子方差的合计结果如下:Raw RescaledInitial Extraction Initial ExtractionWIND 2.5 0.0306651 1 0.012266Solarradiation 300.51568 300.13367 1 0.9987288CO 1.5220674 0.0601666 1 0.0395295NO 1.1823461 0.0067502 1 0.0057091NO2 11.363531 0.1790059 1 0.0157527O3 30.978513 3.8459428 1 0
26、.1241487HC 0.4785134 0.0016671 1 0.0034839合计 348.54065 304.25786 7 1.1996188特征根与方差贡献( Total Variance Explained )如下表。在 Raw一栏中显示,提取一个主成分似乎可以解释原来 7 格变量的 87.295%。但重标之后显示的数值却是 17.137%。根据公因子方差表和合计结果,重标之前,全部的方差解释为304.25786 /348.54065*100=87.295% ;重标之后,全部的方差解释为1.1 /7*100 17.137%。Word 格式. .Total Variance Exp
27、lained a Extraction Sums of Squared LoadingsInitial Eigenvalues Component Total % of Variance Cumulative % Total % of Variance Cumulative %Raw 1 304.258 87.295 87.295 304.258 87.295 87.2952 28.276 8.113 95.4083 11.464 3.289 98.6974 2.524 .724 99.4215 1.280 .367 99.7886 .529 .152 99.9407 .210 6.014E-
28、02 100.000Rescaled 1 304.258 87.295 87.295 1.200 17.137 17.1372 28.276 8.113 95.4083 11.464 3.289 98.6974 2.524 .724 99.4215 1.280 .367 99.7886.529 .152 99.9407.210 6.014E-02 100.000Extraction Method: Principal Component Analysis.a. When analyzing a covariance matrix, the initial eigenvalues are the
29、 same across the raw and rescaled solution.Scree Plot400300200eulavnegiE10001 2 3 4 5 6 7Component Number主成分载荷矩阵( Component Matrix )见下表。可以看来,由于变量 Solar radiation的方差很大,它绝对地控制了第一主成分。Word 格式. .aComponent Matrix Raw RescaledCompone Compone nt nt1 1 WIND-.175 -.111Solar radiation 17.324 .999CO .245 .199N
30、O -.082 -.076NO2 .423 .126O3 1.961 .352HC .041 .059Extraction Method: Principal Component Analysis.a.1 com ponents extracted.2.4 主成分分析之三数据经过标准化下面是从协方差矩阵 S 出发, SPSS给出的结果。原始数据经过标准化。可以看到所有的结果重标前后一样,并且与从相关矩阵 R出发计算的结果一样。公因子方差( Communalities )表如下,重标前后的结果一样。CommunalitiesRaw RescaledInitial Extraction Initi
31、al ExtractionWIND 1.000 .737 1.000 .737Solar radiation 1.000 .544 1.000 .544CO 1.000 .725 1.000 .725NO 1.000 .795 1.000 .795NO2 1.000 .681 1.000 .681O3 1.000 .722 1.000 .722HC 1.000 .722 1.000 .722Extraction Method: Principal Component Analysis.特征根与方差贡献( Total Variance Explained )如下表。重标前后结果一样。Word 格
32、式. .Total Variance Explained a Extraction Sums of Squared LoadingsInitial Eigenvalues Component Total % of Variance Cumulative % Total % of Variance Cumulative %Raw 1 2.337 33.383 33.383 2.337 33.383 33.3832 1.386 19.800 53.183 1.386 19.800 53.1833 1.204 17.201 70.384 1.204 17.201 70.3844 .727 10.38
33、7 80.7715 .653 9.335 90.1066 .537 7.667 97.7737 .156 2.227 100.000Rescaled 1 2.337 33.383 33.383 2.337 33.383 33.3832 1.386 19.800 53.183 1.386 19.800 53.1833 1.204 17.201 70.384 1.204 17.201 70.3844 .727 10.387 80.7715 .653 9.335 90.1066.537 7.667 97.7737.156 2.227 100.000Extraction Method: Princip
34、al Component Analysis.a. When analyzing a covariance matrix, the initial eigenvalues are the same across the raw and rescaled solution.Scree Plot2.52.01.51.0eulavnegiE.50.01 2 3 4 5 6 7Component Number主成分载荷矩阵( ComponentMatrix )见下表,重标前后一样。可以看到,第一主成分的相对重要性受到标准化的极大影响。 结论自然是: 如果在极其不同的范围内测量变量, 或者测量单位的量纲不
35、同, 变量必须经过标准化。 否则, 应该从相关系数矩阵出发开展主成分分析。Word 格式. .Component Matrix aRaw RescaledComponent Component1 2 3 1 2 3 WIND -.362 .328 .706 -.362 .328 .706Solar radiation .314 -.620 .246 .314 -.620 .246CO.842 -.008 -.125 .842 -.008 -.125NO .577 .512 -.447 .577 .512 -.447NO2.761 .235 .216 .761 .235 .216O3 .496
36、-.667 .175 .496 -.667 .175HC.488 .362 .594 .488 .362 .594Extraction Method: Principal Component Analysis.a. 3 components extracted.Component Plot1.0 hcnono2 wind.5coComponent 20.0-.5solar radiationo31.0 1.0 .5 .5 0.0 0.0-.5 -.5Component 1 Component 32.5 因子分析方差极大旋转数据经过标准化,从任意矩阵出发, 在因子分析中进行方差极大旋转( Varimax ),载荷矩阵如下。Word 格式. .aRot ated Com ponent MatrixComponent1 2 3WIND -2.84E-02 -.174 .840Solar radiation 4.302E-02 .736 -1.67E-02CO .705 .275 -.390NO.645 -.383 -.482NO2 .811 .152 3.797E-03O3 .166 .820 -.152HC .705 7.125E-02 .4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乳酸菌饮料市场分析报告
- 教案 冷热不均引起大气运动
- 测距仪账务处理实例-记账实操
- 房地产 -中建大商务管理低成本运营
- 2024年直联式真空泵项目评估分析报告
- 消防栓使用方法介绍
- 2019湘美版 高中美术 选择性必修1 绘画《第三单元 主题性表现》大单元整体教学设计2020课标
- 2024届贵州省罗甸县第一中学高三年级第六次月考数学试题
- 参赛选手合同范本
- 槟榔租赁合同
- 空乘人员职业路径规划
- 公交公司冬季安全行车培训
- 波形护栏施工安全施工方案
- 南京市玄武区2023-2024学年八年级上学期期末历史试卷(含答案解析)
- 我的阿勒泰读书报告
- 中职学校人才培养模式
- 小学美术-点彩游戏-苏少版
- 冬奥会饮食健康知识讲座
- 《收音机的组装》课件
- 六年级【科学(湘科版)】保持生态平衡-教学课件
- 热塑性树脂课件
评论
0/150
提交评论