空气污染研究报告的主成分分析_第1页
空气污染研究报告的主成分分析_第2页
空气污染研究报告的主成分分析_第3页
空气污染研究报告的主成分分析_第4页
空气污染研究报告的主成分分析_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

空气污染研究的主成分分析一、提出问题本文对于给定的*城市42天中午12点的空气污染数据进展主成分分析,主要解决以下几个问题:分别用样本协方差矩阵和样本相关矩阵作主成分分析,比照二者的结果差异;对原始数据的变化选取三个或者更少的主成分反映,并对所选的主成分做出解释。二、分析问题主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了系统、全面地分析问题,我们必须考虑众多影响因素。因为每个因素都在不同程度上反映了所研究问题的*些信息,并且指标之间有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。本文中所研究的问题变量较多,因此利用主成分分析法研究本问题,减少计算量和降低分析问题的复杂性。针对问题一,首先将数据标准化,计算样本协方差矩阵和相关矩阵,然后分别计算样本协方差矩阵和相关矩阵的特征值和特征向量,奉献率和累计奉献率,确定选取成分个数,列出主成分方程并解释主成分意义。针对问题二,考虑主成分的奉献率,只要主成分的累计奉献率到达80%,就可以反映原始数据的变化,并且对所选取的主成分做出解释。三、模型假设1、影响污染程度的变量只有本文中所提到的变量;2、随机选取的42天;3、题目中所提到的城市是平衡开展,政府对环境治理干预较小,即此城市的环境不会出现强烈波动;4、题目中所给的污染浓度及气象参数有效,数据都准确可靠,同时不考虑人为因素、检测仪器准确度不同等影响。四、符号说明符号符号含义样本方差原始变量样本主成分样本协方差样本相关矩阵样本平均值协方差矩阵特征向量矩阵矩阵的特征值矩阵的特征向量信息提取率五、问题求解5.1协方差矩阵主成分分析设是的协方差矩阵,的特征值与正交化特征向量分别为及,且的第个主成分为 (1)根据已有数据计算得样本的均值向量为根据协方差矩阵计算公式(2)代入数据可求得随机变量相应的样本协方差矩阵为利用特征值计算公式代入数据可求得的特征值与对应单位正交化特征向量分别为,,,,,,,利用第个主成分的奉献率(3)及前个主成分的累计奉献率(4)代入数据计算得的各标准化主成分的奉献率及累计奉献率〔如表1所示〕,可以看出,前三个标准化样本的累计奉献率已经到达98.6968%,故只需提取前三个主成分即可:表1的各标准化主成分的奉献率及累计奉献率奉献率(%)累计奉献率〔%〕1304.257987.294887.2948228.27618.112795.4075311.46453.289398.696842.52430.724299.421051.27950.367199.788160.52870.151799.939870.20960.0601100.0000记主成分向量为由,知的前三个主成分分别为因此,用前三个主成分代替原来7个变量,信息损失量较小。进一步由与的相关系数(5)计算出前三个主成分与各原始变量的相关系数如下表:主成分相主成分相关系数原变量0.10870.2576-0.0672-0.99940.0357-0.0014-0.1937-0.41810.46750.07400.06260.4111-0.1274-0.23690.9585-0.3521-0.9299-0.1041-0.0613-0.18240.4168由表可看出,与相关度较高,而由相关矩阵的主成分权重系数〔即特征向量中的各个值〕知,太阳辐射对空气污染的影响最大;与相关度较高,由相关矩阵的主成分权重系数〔即特征向量中的各个值〕知,对空气污染的影响较大;与相关度较高,同理,由相关矩阵的主成分权重系数〔即特征向量中的各个值〕知,对空气污染的影响较大。考虑前三个主成分的奉献率依次降低,得出结论:影响空气污染的最重要因素为太阳辐射。由于的方差较大,第一主成分主要由变量控制,所以所得结论与实际不符。5.2样本相关矩阵主成分分析利用标准化公式对原数据进展标准化处理得到一组新的数据:即令(6)其中为的平均值,为的方差。此时,由于的协方差矩阵即为的相关矩阵其中(7)为的协方差。代入数据计算得到样本相关矩阵为利用特征值计算公式代入数据可求得的特征值与单位正交化特征向量分别为利用第个主成分的奉献率(8)及前个主成分的累计奉献率(9)其中。计算的各标准化主成分的奉献率及累计奉献率〔如表3所示〕。表3的各标准化主成分的奉献率及累计奉献率奉献率(%)累计奉献率〔%〕12.336833.382433.382421.386019.799753.182131.204117.201270.383340.727110.387080.770350.65359.335690.105960.53677.667097.772970.15592.2271100.00可以看出,当特征值大于1时,提取前三个标准化样本的累计奉献率为70.3833%。记主成分向量为由,则的前三个主成分分别为由与的相关系数(10)计算出前三个主成分与各原始变量的相关系数如表:主成分相主成分相关系数原变量-0.36810.32550.69360.3145-0.62020.25020.8307-0.0046-0.14670.59270.5123-0.43730.74520.23050.23500.4922-0.67140.17450.48840.35530.6072由表4可看出,与、相关度较高,近似是7个变量的等权重之和,反映了空气质量的综合指标,值越大,空气质量越差。与相关度较低,由相关矩阵的主成分权重系数〔即特征向量中的各个值〕知,CO对空气污染指标y2的影响较小;与、相关度较高,同理,由相关矩阵的主成分权重系数〔即特征向量中的各个值〕知,风速和HC对空气污染的影响较大。考虑前三个主成分的奉献率之和到达70.3833%,因此综合考虑来,和来评判影响空气污染的重要指标。5.3差异性从协方差矩阵出发,对所有变量进展主成分分析,何从相关矩阵出发做主成分分析,两个方向得出的结果显示,原变量在第一主成分和第二主成分中的相对重要性,由于标准化而有很大变化。从协方差矩阵的角度进展主成分分析,所得第一主成分中,权重系数分别为-0.01、0.9922、0.941、-0.0047、0.0243、0.1124、0.0023,二重相对矩阵的角度进展主成分分析,所得的第一主成分分析,权重系数为-0.238、0.2056、0.5511、0.3776、0.4980、0.3246、0.3194。两者差距很大,并且在第二主成分中的两个系数相差更远。因此,由协方差矩阵和相关矩阵所得的主成分一般是不同的。为了满足样本主成分累计奉献率到达80%以上,从相关矩阵出发做的主成分分析应保存4个主成分,而从协方差矩阵来看,只保存1个主成分即可。由此可知,用协方差矩阵进展主成分分析更能简化运算。本文中,由于设计的各变量的变化*围差异不大,因此应从先关矩阵出发求主成分比拟合理。近似是7个变量的等权重之和,反映了空气质量的综合指标,值越大,空气质量越差。综合考虑来,和来评判影响空气污染的重要指标。六、模型评价模型优点:用主成分分析方法能够较好地提醒污染物于污染程度之间的关系;该模型所用工具较易操作;主成分分析法是从定量的角度出发,充分利用全部数据当中所包含的信息。所确定的指标权数是基于数据分析而得到的指标间的内在构造关系,具有较好的客观性;能有效消除不相关指标的影响,从而可进展有针对性的定量化评价;得到的综合指标之间相互独立,不仅简化了评价系统,还减少了信息的穿插和冗余。方法计算简便,数学物理意义明确,有较强的可操作性和一定的推广应用。模型缺点:尚未考虑到其他变量的影响,存在预测误差;该模型未给出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论