多元统计分析报告课程设计_第1页
多元统计分析报告课程设计_第2页
多元统计分析报告课程设计_第3页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元统计分析课程设计题目:因子分析在环境污染方面的应用某某:王厅厅专业班级:统计学 2014级2班学院:数学与系统科学学院时间:2016年1月3日目录1摘要:12引言:1背景1问题的研究意义1方法介绍23实证分析10指标10原始数据10数据来源13分析过程:134结论与建议255参考文献261摘要:中国的环境问题,由于中国政府对环境问题的关注,环境 法律日趋完善,执法力度加大,对环境污染治理的投人逐年有 较大幅度的增加,中国环境问题已朝着好的方面开展。但是, 仍存在着环境问题,主要表现在环境污染问题,其中主要为水 污染和大气污染。关键词:环境污染水污染 大气污染因子分析我国的环境保护取得了明显

2、的成就,局部地区环境质量有所改 善。但是,从整体上看,我国的环境污染仍在加剧,环境质量还在恶 化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污 染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科 学院公布的一项报告明确:中国环境污染的规模居世界前列。的研究意义:为分析比拟各地环境污染特点,利用因子分析对环境污染的各个指标进展降维处理并得到影响环境的内在因素,进一步对环境污染原因与治理措施进展分析,让更多的人认识到环境的重要性, 准确把 握各地区环境治理方法以与针对不同地区制定不同的政策改善环境 问题,这对综合治理环境问题具有重要意义。方法介绍 因子分析的意义:变量间的信息

3、的高度重叠和高度相关会给统计方法 的应用设置许多障碍。为解决此问题,最简单和最直接的解决方案是 削减变量个数,但这必然会导致信息丢失和 信息不完全等问题的产生。为此人们希望探索一种更有效地解决方 法,它既能大幅减少参与数据建模的变量个数, 同时也不会造成信息 的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方 法。因子分析的步骤:-因子分析的前提条件:要求原有变量之间存在较强的相关关系。因子提取:将原有变量综合成少数几个因子是因子分析的核心内容。假如存在随机向量F(Fi, ,Fq)(q p)与(i,p),使Xia11aiqF1a piapq Fq简记为X AF ,且1E(F) 0,D

4、(F) lq标准化;E( )0,D()22p 中心化;3Cov( ,F)0不相关。那么,称指标向量X具有正交因子结构所有因子相互正交,即E(FiFj) 0,i,j 1,,q,i j;称此模型为正交因子模型;称Fi,Fq为公共因子对整个X有影响的公共因素;称1,p为特殊因子只 对X的各对应分量有影响的特殊因素;称A佝)pq为因子载荷矩阵, aij为第i个指标在第j个公共因子上的载荷。因子载荷矩阵的建立因子分析的最根本任务之一就是建立因子载荷矩阵A。对于正交因子模型,有D(X) AA D()假如X已标准化,如此R(X) AA D()在绝大多数实际问题中,D()往往都是未知的,由此求出a是不可能 的

5、,这时可以通过主成分分析给出一组公共因子与其因子载荷矩阵。具体方法如下:(1)求出R的特征根1 p 0,以与相应的单位特征向量U(i) (Uii,Uip) (i 1, p)2建立主成分Yiu(i)X,Y U XU (u。),u(p)是正交矩阵。1E(Y) U E(X) 0, D(Y) U R(X)Up3构造公共因子,并建立因子载荷矩阵1 1X UY U 22Y 逆问题令1uppF2Y1U11A U 2U1pf1 u11/1 u1p容易验证:E(F) 0,D(F) IpX具有如下正交因子结构:X AF A U, F Y ?:完全忽略了特殊因子的影响。Xi. iUii Fiq Uqi Fqq 1

6、U(q i)i Fq 1pu piF p i 1, p1)i Fq ipiFpq i u(qXi假如只取前q个主成分,且令q Uqiq uqpF (Fi, ,Fq)( 1, , p)如此有X AF其中 E(F) 0,D(F) Iq,E( ) 0,Cov( ,F)0,D() R AA忽略了不重要的公共因子,由特殊因子解析。换句话说,用主成分法获得了 X的正交因子分解近似中的A,F 这里的主要问题是如何确定因子数 k方法一:根据特征值确定因子数。观察各个特征值,一般取特征值大于 1的。方法二:根据因子的累计方差贡献率确定因子数。通常选取累计方差贡献率大于的特征值个数为因子个数 k。使因子具有命名解

7、释性实际分析工作中人们总是希望对因子的实际含义有比拟清楚的认识。 未解决这个问题,可通过因子旋转的方法使一个变量只在尽可能少的 几个因子上有比拟高的载荷。最理想状态下,使某个变量在某个因子 上的载荷趋于1,在其他的因子上的载荷趋于0。这样,一个因子就 能够成为某个变量的典型代表,于是因子的实际含义也就清楚了。因子正交旋转当指标向量X具有正交因子结构时,其公共因子向量、因子载荷矩阵 与正交因子分解均不唯一确定。X AF对任一q阶正交矩阵t,有X ATT F令F T F, A AT如此X A FE(F )0,D(F ) TD(F)T TT ICov(F , ) E(F ) TE(F )0(A (A

8、 ) AA ,(hi )2 h:,说明的问题)利用正交因子分解的这一性质,在因子分析正交因子模型中,常 常在建立了初始因子载荷矩阵之后, 再对其作适当的正交变换几何 解释:因子轴旋转,以使得因子载荷矩阵 A AT具有更简洁、更 理想近乎分块对角矩阵形式的结构,公共因子向量F TF具有更明显、更直观的实际意义,正交因子分解X A F更合理、更能反映客观实际。目前,已经提出了各种因子旋转的方法。比拟常用的一种是 方差极大 因子轴正交旋转法,简称方差极大法。先考虑两个公共因子的平面正交旋转a1 cosa12 sina11 sina2 cosATa p1 cosap2 sinap1 sina p2 c

9、osb11b12bpibp2a11a12cossinA,Tsincosa p1a p2具有更理想、更简化的结构,即使其各列的因子载荷值尽可能地两极 分化,大者尽可能大,小者尽可能小。各载荷值可正可负,Xi的依赖程度h:也不同,消除其影响:2 2bj bj /hi 0,1 (i 1, p; j 1,2)规格化V(j) (bj b(j)2 4 j 1,2p i 1正交旋转的目的就是要使新因子载荷矩阵的各列方差之和总方差V V(1)V(2)达到最大。ijhii 1,p; j 1,22i12 i1 i2 i1,i2),p2ii 1如此可由下式确定:4tg且 的符号可由e的符号确定:e 0(0,);e

10、04当公共因子数q 2时,需要对因子载荷矩阵中的q列因子载荷向量配C2 q(q 1)两两对旋转,共旋转q 2 次。s,t列。先确定,后旋转。11cossinsTstsincost11仅和列元素改变。全部列两两配对旋转完毕后,就完成了第一轮旋转。如果因子载荷矩 阵还不能达到要求,那么进展第二轮旋转,如此进展下去,直到满足 要求为止。每经一轮旋转,都可算出因子载荷矩阵的总方差。A(0) a aA(2);V(0) V V(2)A A(0)T121) 哺爲 AT1,A A tF 毗2爲 A T? AT1T2,V(0),V,V? 是一非降序列,且有上界为4q,故必收敛于某一极 限值V , V即为最大总方

11、差。实际中,通常旋转到总方差改良不大,即V (k) V (k 1)给定精度时,旋转停止最后,取AA(k)ATk AT作为最终因子载荷矩阵。计算因子得分因子得分是因子分析的最终表现。在因子分析的实际应用中,当因子确定以后,便可计算各因子在每个样本观测上的具体数值,这些数值称为因子得分,形成的变量称为因子得分变量。于是,在以后的分析 中就可以因子得分变量代替原有变量进展数据建模,或利用因子得分变量对样本进展分类或评价等研究,进而实现降维和简化问题的目 的。1 1(Fl, ,Fq,Fqi, ,Fp)2Y,(F,Fqi, ,Fp)2Y1 1F TF (T,O)(F,Fq1, ,Fp) (T ,0) (

12、T ,0)( U U 1)(U X)1 1(T ,0)( 2U )(U1 U )X (T ,0)( U )R 1X一1 0 u(1)(T ,0)、q0U(q) R 1X0V q 1u(q 1)f0. p u(p)A iii(T ,0) 0 R 1X (AT) R 1X (A ) R 1XATX A F(A)R1X (A)R1AFR 1 U 1U A1 I2 q q1lq qO(pq) q (A ) R A3实证分析废水排放总量、需氧量排放总量、氨氮排放总量、二氧化硫排放总量、 氮氧化物排放总量、烟尘灰尘排放总量地区废水排放总量化学需氧量排放总量氨氮排放总量二氧化硫排放总量氮氧化物排放总量烟尘灰

13、尘排放总量某某某某某某某某某某某某某某某某某某110某某某某某某某某某某某某某某某某31某某某某某某某某某某某某某某某某某某某某某某某某某某数据来源:中国环境年鉴分析过程:利用SPS嗽件进展分析,首先录入数据,然后一次进展如下处理 :一、考察原有变量是否适合进展因子分析首先考察收集到的原有变量之间是否存在一定的线性关系,是否适合采用因子分析。这里借助变量的相关系数矩阵进展分析。 表一是原有变量的相关系数矩阵。可以看到:大局部的相关系数都较高,各变量 呈较强的线性关系,能够从中提取公共因子,适合进展因子分析。相關性矩陣废水排放总量单位:亿吨化学需氧量排放总量单位:万吨氨氮排放总量单位:万吨二氧化

14、硫排放总量单位:万吨氮氧化物排放总量单位:万吨烟尘灰尘排放总量单位:万吨相關废水排放总量单位:亿吨.762.913.424.612.277化学需氧量排放总量单位:万吨.762.906.647.773.592氨氮排放总量单位:万吨.913.906.519.650.394二氧化硫排放总量单位:万吨.424.647.519.903.842氮氧化物排放总量单位:万吨.612.773.650.903.864烟尘灰尘排放总量单位:万吨.277.592.394.842.864、提取因子这里首先进展尝试性分析:根据原有变量的相关系数矩阵,采用主成分分析提取因子并选取大于1的特征值,分析结果如表2所示表二mun

15、alities起始擷取废水排放总量单位:亿吨.923化学需氧量排放总量单位:万吨.892氨氮排放总量单位:万吨.971二氧化硫排放总量单位:万吨.908氮氧化物排放总量单位:万吨.953烟尘灰尘排放总量单位:万吨.931擷取方法:主體元件分析。表二显示了在指定提取2个变量共同度数据。第一列数据是因 子分析初始解下的变量共同度,它明确:如果对原有7个变量采用主 成分分析方法提取所有特征值,那么原有变量的所有方差都可被解 释,变量的共同度均1事实上,因子个数小于原有变量的个数才是因 子分析的目标,所以不可能提取全部特征值。第二列数据是在按指定 提取条件提取特征值时的变量共同度。可以看到所有变量的绝

16、大局部 信息可被因子解释,信息丢失少。因此,本次因子提取的总体效果比 拟理想。表三說明的變異數總計元件起始特徵值擷取平方和載入循環平方和載入總計變異的%累加%總計變異的%累加%總計變異的%累加%123.2074.1345.0626.018.306擷取方法:主體元件分析表二中,第一列是因子编号,以后二列组成一组,每组中数据 项的含义依次是特征值、方差贡献率和累计方差贡献率。前两个因子解释原有变量总方差的 93%,总体上,原有变量的 信息丢失较少,因子分析效果较理想。表四元FI號码表四中,横坐标为因子数目,纵坐标是特征值。可以看到:第 一个因子特征值很高,对解释原有变量的贡献最大 ;第二个以后的因

17、 子特征值都较小,对解释原有变量的贡献很小,因此提取两个因子是 适宜的。表五元件矩陣元件12氮氧化物排放总量单位:万吨 化学需氧量排放总量单位:万吨 氨氮排放总量单位:万吨二氧化硫排放总量单位:万吨 废水排放总量单位:亿吨.939.917.856.848.778.226.487.564烟尘灰尘排放总量单位:万吨.775擷取方法:主體元件分析a.擷取2個元件。表五显示了因子载荷矩阵,是因子分析的核心内容。根据该表 可以写出因子分析模型:氮氧化物排放总量=0.939* 0.266* f?化学需氧量排放总量=0.917* fi +0.226* f?氨氮排放总量=0.856* fi+0.487* f?

18、二氧化硫排放总量=0.848* fi-0.434* f?废水排放总量=0.778* fi+0.564* f?烟尘灰尘排放总量=0.775* fi-0.575* f?由表五可知,六个变量在第一个因子上的载荷都很高,意味着 他们与第一个因子的相关程度高,第一个因子很重要。第二个因子与原有变量的相关性均较小,它对原有不安量的解释不显著三、因子的命名解释采用方差极大法对因子载荷矩阵进展正交旋转以使因子具有命 名解释性。得到旋转后的因子载荷矩阵如图六所示。图六旋轉元件矩陣a元件12烟尘灰尘排放总量单位:万吨.955.136二氧化硫排放总量单位:万吨.909.287氮氧化物排放总量单位:万吨.855.47

19、1氨氮排放总量单位:万吨.268.948废水排放总量单位:亿吨.157.948化学需氧量排放总量单位:万吨.494.805擷取方法:主體元件分析。轉軸方法:具有Kaiser正規化的最大變異法。a.在3疊代中收斂循環。由表六可知,烟尘灰尘排放总量、二氧化硫排放总量、氮氧化物排放总量在第一个因子上有较高的载荷,第一个因子可以解释为大 气污染物排放总量。氨氮排放总量、废水排放总量、化学需氧量排放 总量在第二个因子上有较高的载荷,第二个因子可以解释为水污染物 排放总量。与旋转前相比,因子含义较清晰。表七元件評分共變異數矩陣元件121.0002.000擷取方法:主體元件分析。轉軸方法:具有Kaiser正

20、規化的最大變異法。元件評分。表七显示了两因子的协方差矩阵。两因子没有线性相关关系, 实现了因子分析的设计目标。四、计算因子得分采用回归法估计因子得分系数,并输出因子得分系数。表八元件評分係數矩陣元件12废水排放总量单位:亿吨化学需氧量排放总量单位:万吨 氨氮排放总量单位:万吨 二氧化硫排放总量单位:万吨 氮氧化物排放总量单位:万吨.016.393.309.461.282.427烟尘灰尘排放总量单位:万吨.463擷取方法:主體元件分析。轉軸方法:具有Kaiser正規化的最大變異法。元件評分。根据表八可写出以下因子得分函数:Fi =-0.205*废水排放总量+0.016*化学需氧量排放总量-0.1

21、47*氨氮排放总量+0.393*二氧化硫排放总量+0.309*氮氧化物排放总量+0.463*烟尘灰尘排放总量F2=0.461*废水排放总量+0.282*化学需氧量排放总量0.427*氨氮排放总量-0.122*二氧化硫排放总量-0.007*氮氧化物排放总量-0.218*烟尘灰尘排放总量另外,因子得分的均值为0,标准差为1。正值表示高于平均水 平,负值表示低于平均水平。地区因子得分1因子得分2地区因子得分1因子得分2某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某五、各地区的综合评价可利用因子得分变量对地区进展比照研究。首先,

22、绘制两因子得分变量的散点图,如图九所示图九HXiago- coin -.aoaoojoooio?20KMX)q.cfijju-* 匡囲 rlN!Jfe 南骼需回葷 Mt4.rilaJ*hl洋MHA 广广卅揖科MIETSM占H儿IL-Er*山山匮1JI9用前is77肿国 o o o oo ooo码.aooao qooooi.cooco 沏 kmqREQR Ficter tear* 1 for analysis 1U北C1O QU首先,可以观察到某某的第二因子得分很高,说明了某某的水污染比拟严重。某某的大气污染很严重,总的污染程度更是居全国之首。其次,对各地区污染物排放总量进展综合评价。 采用计算因子加权总 分的方法,计算公式为:F=0.73/0.93*F1+0.2/0.93* F2得到各地区的污染物排放总量,并按其进展降序排序地区污染物排放总量某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某某污染物排放总量较高的地区有某某、某某、某某、某某、某

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论