一组空气污染大数据地主成分分析报告_第1页
一组空气污染大数据地主成分分析报告_第2页
一组空气污染大数据地主成分分析报告_第3页
一组空气污染大数据地主成分分析报告_第4页
一组空气污染大数据地主成分分析报告_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实用文档一组空气污染数据的主成分分析【说明】下面的多元统计分析练习题摘自 R.A.Johnson 等编写的《应用多元统计分析(第五版)》,原书为:RichardA.JohnsonandDeanW.Wichern. AppliedMultivariateStatisticalAnalysis (5thEd).PearsonEducation,Inc.2003 。我看的是中国统计出版社(ChinaStatisticsPress )2003年发行的影印本。第一题为原书第 1.6题,即第 1章的第6题,第二题为原书第 8.12题,即第 8章的第题。第二题用的是第一题的数据。习题1.6.ThedatainTable1.5are42measurementsonair-pollutionvariablesrecordedat12:00noonintheLosAngelesareaondifferentdays.(a)Plotthemarginaldotdiagramsforallthevariables.(b)Constructthex,Sn,andRarrays,andinterprettheentriesinR.TABLE1.5AIR-POLLUTIONDATASolarradiationWind(x1)(x2)CO(x3)NO(x4)NO2(x5)O3(x6)HC(7)x898721282710743953710343563108852815469142810389052121249847412155572642114478251111138645213946715410336914212737727418103107042117310724181039774191038764177387153164496742132396933953文案大全实用文档106253144498842763880421311453033523683511023488432763678421111387921710366243983103731723871411073752411284548658436754110243103541692885419102586316122586721318277974925377952862668621114384043652Source:DatacourtesyofProfessorG.C.Tiao.8.12.Considertheair-pollutiondatalistedinTable1.5.Yourjobistosummarizethesedatainfewerthanp=7dimensionsifpossible.ConductaprincipalcomponentanalysisofthedatausingboththecovariancematrixSandthecorrelationmatrixR.Whathaveyoulearned?Doesitmakeanydifferencewhichmatrixischosenforanalysis?Canthedatabesummarizedinthreeorfewerdimensions?Canyouinterprettheprincipalcomponents?部分解答2.1 部分统计参数利用Excel计算的平均值( x)和标准差SolarWind radiation CO NO NO2 O3 HCAverage 7.5 73.857143 4.5476192.190476210.0476199.40476193.0952381Stdev1.5811388 17.3353881.23372091.08735743.37098375.56583450.6917466文案大全实用文档Excel给出的协方差矩阵 SSolarWindradiationCONONOOHC23Wind2.4404762Solarradiation-2.714286293.36054CO-0.3690483.81632651.4858277NO-0.452381-1.3537410.65759641.154195NO-0.5714296.60204082.25963721.062358311.0929712O-2.17857130.0578232.7545351-0.7913833.052154230.240933HC0.16666670.60884350.1383220.17233561.01927440.58049890.4671202Excel给出相关系数矩阵 RSolarWindradiationCONONO2O3HCWind1Solarradiation-0.1014421CO-0.1938030.18279341NO-0.269543-0.0735690.50215251NO-0.1098250.1157320.55658380.296898112O3-0.2535930.31912370.4109288-0.1339520.16664221HC0.15609790.05201040.16603230.23470430.44776780.15445061从相关系数矩阵可以看出, CO与NO、NO2相关性明显, O3与Solar radiation 、CO相关性明显。后面的主成分分析将 CO与NO、NO2归并到一个主成分,将 O3与Solarradiation归并到一个主成分,将 HC、Wind归并到一个主成分。 HC与Wind的相关系数并不高,但从正相关的角度看,二者的数值倒是最高的。方差极大正交旋转之后, HC与CO、NO、NO2归并到一个因子,因为 HC与NO2的相关系数较高,与 CO、NO的相关系数高于其他变量。2.2 主成分分析之一——数据未经标准化下面是从相关矩阵 R出发,SPSS给出的结果。原始数据未经标准化。所谓从 R出发,就是在SPSS的Factor Analysis: Extraction —Analysis 选项中选中 Correlation Matrix。SPSS给出的相关系数矩阵( CorrelationMatrix ),与Excel计算的结果一样。文案大全实用文档CorrelationMatrixWINDSolarradiationCONONO2O3HCWIND1.000-.101-.194-.270-.110-.254.156Solarradiation-.1011.000.183-.074.116.319.052CO-.194.1831.000.502.557.411.166NO-.270-.074.5021.000.297-.134.235NO2-.110.116.557.2971.000.167.448O3-.254.319.411-.134.1671.000.154HC.156.048.1541.000公因子方差(Communalities)表如下。公因子方差变化于0.544~0.795之间,相差不是很大。但是,公因子方差值没有达到0.8以上的,可见每一个变量体现在三个主成分中的信息都不超过80%。CommunalitiesInitialExtractionWIND1.000.737Solarradiation1.000.544CO1.000.725NO1.000.795NO21.000.681O31.000.722HC1.000.722ExtractionMethod:PrincipalComponentAnalysis.特征根与方差贡献(TotalVarianceExplained)如下表。可见提取三个主成分可以解释原来7格变量的70.384%。TotalVarianceExplainedInitialEigenvaluesExtractionSumsofSquaredLoadingsComponentTotal%ofVarianceCumulative%Total%ofVarianceCumulative%12.33733.38333.3832.33733.38333.38321.38619.80053.1831.38619.80053.18331.20417.20170.3841.20417.20170.3844.72710.38780.7715.6539.33590.1066.5377.66797.7737.1562.227100.000ExtractionMethod:PrincipalComponentAnalysis.文案大全eulavnegiE

实用文档ScreePlot2.52.00.01 2 3 4 5 6 7ComponentNumber主成分载荷矩阵( ComponentMatrix )见下表。ComponentMat rixaWINDSolarradiationCONONO2O3HC

Component123-.362.328.706.314-.620.246.842-8.03E-03-.125.577.512-.447.796-.667.175.488.362.594ExtractionMethod:PrincipalComponentAnalysis.a.3componentsextracted.将上表从SPSS中复制到 Excel中,进行涂色分类,结果如下表所示。Component123WIND-0.362020.3278090.706084Solarradiation0.31424-0.619970.24631CO0.842417-0.00803-0.12466NO0.5772430.511736-0.44671NO0.7612940.2351830.2156822O30.496126-0.667490.175399HC0.4882570.3624660.593692主成分分类如下:文案大全实用文档第一主成分的主要相关变量: CO、NO、NO2。第二主成分的主要相关变量: Solarradiation 、O3。第三主成分的主要相关变量: Wind、HC。在主成分载荷图( ComponentPlot)中,三个变量分别落入三个不同的主成分代表的区域。主成分得分表如下。最后一栏对几个典型的样本给出了简单的解释。注意解释的时候看清主成分载荷矩阵中载荷值的正负号。Casesf1f2f3典型的说明S10.61591-0.8186-0.38418S20.03194-0.36015-0.26343S3-0.34752-0.54481-0.49701S40.2425-0.302931.80367样本4代表的区域Wind、HC污染严重S5-0.12729-0.91941-0.4042S60.72612-0.192781.21954S72.036860.899821.4607样本7和8代表的区域与CO、NO、NO污染有明显2S82.573090.77732-0.34124的关系S90.09802-0.817360.30334S100.506640.788030.88735S110.39040.97744-1.48345S120.14485-0.45848-0.27016S131.924770.88883-0.66029S14-0.506620.631390.91242S15-0.89378-0.170361.19632S16-0.66037-0.398620.93758文案大全实用文档S17-0.87787-0.36350.3701S180.887331.53060.65731S19-0.429351.092530.48155S20-0.7510.924240.11384S21样本21代表的区域Solarradiation、O污染较30.428261.961331.18659小S22-0.69373-0.097470.51522S230.414840.206811.21242S24-1.162631.39047-2.12097S250.86691-1.703350.91799S26-0.91899-0.139150.18106S270.09994-0.51948-0.37202S28-1.32458-0.69110.65186S29-0.104720.39184-1.08681S30-1.85931.379330.6047S31-0.62672-0.083470.47051S32-0.142640.649410.72066S330.674211.56899-2.63096样本33代表的区域Wind、HC污染较小S340.24874-1.956810.22088S35-1.714290.39216-0.08554S36-0.80238-1.13269-0.0517S37-1.00653-1.92662-1.17569样本37和38代表的区域Solarradiation、O3S381.29486-1.77265-1.32357污染严重S391.68145-1.04272-0.66334S40-0.48079-0.49683-1.07633S410.72122-0.53042-0.57934S42-1.177760.98919-1.555382.3 主成分分析之二——数据未经标准化下面是从协方差矩阵 S出发,SPSS给出的结果。原始数据未经标准化。所谓从 S出发,就是在SPSS的FactorAnalysis:Extraction —Analysis 选项中选中 CovarianceMatrix 。公因子方差(Communalities)表如下。在未经处理的(Raw)公因子方差一栏,其Initial数值都是原始数据的方差。不过与前面 Excel给出的协方差矩阵有所不同, Excel给出的是总体方差,SPSS给出的是抽样方差。例如以Wind的Initial 值为例,2.4404762×42/41=2.5,或者2.5×41/42=2.4404762(对照前面的协方差矩阵) 。重标的(Rescaled)结果是 Extraction 值与Initial 值之比。文案大全实用文档CommunalitiesRawRescaledInitialExtractionInitialExtractionWIND2.5003.067E-021.0001.227E-02Solarradiation300.516300.1341.000.999CO1.5226.017E-021.0003.953E-02NO1.1826.750E-031.0005.709E-03NO211.364.1791.0001.575E-02O330.9793.8461.000.124HC.4791.667E-031.0003.484E-03ExtractionMethod:PrincipalComponentAnalysis.公因子方差的合计结果如下:RawRescaledInitialExtractionInitialExtractionWIND2.50.030665110.012266Solarradiation300.51568300.1336710.9987288CO1.52206740.060166610.0395295NO1.18234610.006750210.0057091NO211.3635310.179005910.0157527O330.9785133.845942810.1241487HC0.47851340.001667110.0034839合计348.54065304.2578671.1996188特征根与方差贡献(TotalVarianceExplained)如下表。在Raw一栏中显示,提取一个主成分似乎可以解释原来7格变量的87.295%。但重标之后显示的数值却是17.137%。根据公因子方差表和合计结果,重标之前,全部的方差解释为304.25786/348.54065*100=87.295% ;重标之后,全部的方差解释为1.1996188/7*100 =17.137%。文案大全实用文档TotalVarianceExplainedaExtractionSumsofSquaredLoadingsInitialEigenvaluesComponentTotal%ofVarianceCumulative%Total%ofVarianceCumulative%Raw1304.25887.29587.295304.25887.29587.295228.2768.11395.408311.4643.28998.69742.524.72499.42151.280.36799.7886.529.15299.9407.2106.014E-02100.000Rescaled1304.25887.29587.2951.20017.13717.137228.2768.11395.408311.4643.28998.69742.524.72499.42151.280.36799.7886.529.15299.9407.2106.014E-02100.000ExtractionMethod:PrincipalComponentAnalysis.a.Whenanalyzingacovariancematrix,theinitialeigenvaluesarethesameacrosstherawandrescaledsolution.ScreePloteulavnegiE

40030020010001 2 3 4 5 6 7ComponentNumber主成分载荷矩阵( ComponentMatrix )见下表。可以看来,由于变量 Solarradiation的方差很大,它绝对地控制了第一主成分。文案大全实用文档ComponentMatrix

aWINDSolarradiationCONONO2O3HC

RawRescaledComponeComponentnt11-.175-.11117.324.999.245.199-.082-.076.423.1261.961.352.041.059ExtractionMethod:PrincipalComponentAnalysis.a.1componentsextracted.2.4 主成分分析之三——数据经过标准化下面是从协方差矩阵 S出发,SPSS给出的结果。原始数据经过标准化。可以看到所有的结果重标前后一样,并且与从相关矩阵 R出发计算的结果一样。公因子方差( Communalities)表如下,重标前后的结果一样。CommunalitiesRawRescaledInitialExtractionInitialExtractionWIND1.000.7371.000.737Solarradiation1.000.5441.000.544CO1.000.7251.000.725NO1.000.7951.000.795NO21.000.6811.000.681O31.000.7221.000.722HC1.000.7221.000.722ExtractionMethod:PrincipalComponentAnalysis.特征根与方差贡献( TotalVarianceExplained )如下表。重标前后结果一样。文案大全eulavnegiE

实用文档TotalVarianceExplainedaExtractionSumsofSquaredLoadingsInitialEigenvaluesComponentTotal%ofVarianceCumulative%Total%ofVarianceCumulative%Raw12.33733.38333.3832.33733.38333.38321.38619.80053.1831.38619.80053.18331.20417.20170.3841.20417.20170.3844.72710.38780.7715.6539.33590.1066.5377.66797.7737.1562.227100.000Rescaled12.33733.38333.3832.33733.38333.38321.38619.80053.1831.38619.80053.18331.20417.20170.3841.20417.20170.3844.72710.38780.7715.6539.33590.1066.5377.66797.7737.1562.227100.000ExtractionMethod:PrincipalComponentAnalysis.a.Whenanalyzingacovariancematrix,theinitialeigenvaluesarethesameacrosstherawandrescaledsolution.ScreePlot2.52.00.01 2 3 4 5 6 7ComponentNumber主成分载荷矩阵( ComponentMatrix)见下表,重标前后一样。可以看到,第一主成分的相对重要性受到标准化的极大影响。 结论自然是:如果在极其不同的范围内测量变量, 或者测量单位的量纲不同,变量必须经过标准化。否则,应该从相关系数矩阵出发开展主成分分析。文案大全实用文档ComponentMatrixaRawRescaledComponentComponent123123WIND-.362.328.706-.362.328.706Solarradiation.314-.620.246.314-.620.246CO.842-.008-.125.842-.008-.125NO.577.512-.447.577.512-.447NO2.761.235.216O3.496-.667.175.496-.667.175HC.488.362.594.488.362.594ExtractionMethod:PrincipalComponentAnalysis.a.3componentsextracted.ComponentPlot1.0no hcno2 wind.5coComponent20.0solaro3radiation-.51.00.00.0-.5-.5Component1Component32

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论