多元统计分析 课程设计_第1页
多元统计分析 课程设计_第2页
多元统计分析 课程设计_第3页
多元统计分析 课程设计_第4页
多元统计分析 课程设计_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析课程设计题目:《因子分析在环境污染方面的应用》姓名:专业班级:统计学2014级2班学院:数学与系统科学学院时间:2016年1月3日目录TOC\o"1-5"\h\z1.摘要:12.引言:12.1背景12.2问题的研究意义12.3方法介绍23.实证分析103.1指标103.2原始数据103.3数据来源133.4分析过程:134.结论及建议255.参考文献261.摘要:中国的环境问题,由于中国政府对环境问题的关注,环境法律日趋完善,执法力度加大,对环境污染治理的投人逐年有较大幅度的增加,中国环境问题已朝着好的方面发展。但是,仍存在着环境问题,主要体现在环境污染问题,其中主要为水污染和大气污染。关键词:环境污染水污染大气污染因子分析2.引言:背景:我国的环境保护取得了明显的成就,部分地区环境质量有所改善。但是,从整体上看,我国的环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布的一项报告表明:中国环境污染的规模居世界前列。问题的研究意义:为分析比较各地环境污染特点,利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素,进一步对环境污染原因及治理措施进行分析,让更多的人认识到环境的重要性,准确把握各地区环境治理方法以及针对不同地区制定不同的政策改善环境问题,这对综合治理环境问题具有重要意义。方法介绍因子分析的意义:变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题,最简单和最直接的解决方案是削减变量个数,但这必然会导致信息丢失和信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。因子分析的步骤:•因子分析的前提条件:要求原有变量之间存在较强的相关关系。•因子提取:将原有变量综合成少数几个因子是因子分析的核心内容。若存在随机向量F二(F1,…,J)'(q-P)及“(S1,…,8p)',使_X一.1=aii…a1q_F一i+81Xa…aF8pp1pqqp简记为X=AF+£,且E(e)=0,D(£)=LQ訂(中心化);Cov(e,F)二0(不相关)。那么,称指标向量X具有正交因子结构(所有因子相互正交,即E(FFj)=0,匚j二1,…,q,i丰j);称此模型为正交因子模型;称J…,Fq为公共因子(对整个X有影响的公共因素);称e1,…,ep为特殊因子(只对X的各对应分量有影响的特殊因素);称A二("j)pXq为因子载荷矩阵,aj为第i个指标在第j个公共因子上的载荷。因子载荷矩阵的建立因子分析的最基本任务之一就是建立因子载荷矩阵A。对于正交因子模型,有D(X)二AAr+D(e)若X已标准化,则R(X)二AA'+D(e)在绝大多数实际问题中,D(e)往往都是未知的,由此求出A是不可能的,这时可以通过主成分分析给出一组公共因子及其因子载荷矩阵。具体方法如下:

⑴求出R的特征根九1-…p>0,以及相应的单位特征向量u二(u⑴求出R的特征根九1-…p>0,以及相应的单位特征向量u二(u,…,u),(i二1,…,p)(i)i1ip2)建立主成分。U=(u⑴,…,u(p))是正交矩阵。九1E(Y)二UE(X)二0,D(Y)二UR(X)U二3)构造公共因子,并建立因子载荷矩阵。X二UY二Ua2A-2Y(逆问题)丄F=A-2Yu11u!L;xplII1u1pupp迅u11入upp1pp容易验证:E(F)=0,D(F)=Ip

X具有如下正交因子结构:X=AF(A__U,F__Y?)完全忽略了特殊因子的影响。X=TuF+…+」厂F+厂厂uF+•••+「厂uFi=1,…,pi11i1'qqiqq+1(q+1)iq+1'ppip=、'入uF+-XuFq+1(q+1)iq+1ppipX=.-'TuF+…+J厂uF+8i11i1"qqiqi若只取前q个主成分,且令1111i'TuF=(F,…,F)'8=(8,…,8))'qqp」'1q'1p则有X=AF+8其中E(F)=0,D(F)=Iq,E(8)=0,Cov(8,F)=0,D(8)=R-AA'。忽略了不重要的公共因子,由特殊因子解析。换句话说,用主成分法获得了X的正交因子分解(近似)中的A,F。这里的主要问题是如何确定因子数k方法一:根据特征值确定因子数。观察各个特征值,一般取特征值大于1的。方法二:根据因子的累计方差贡献率确定因子数。通常选取累计方差贡献率大于0.85时的特征值个数为因子个数k。•使因子具有命名解释性实际分析工作中人们总是希望对因子的实际含义有比较清楚的认识。未解决这个问题,可通过因子旋转的方法使一个变量只在尽可能少的几个因子上有比较高的载荷。最理想状态下,使某个变量在某个因子上的载荷趋于1,在其他的因子上的载荷趋于0。这样,一个因子就能够成为某个变量的典型代表,于是因子的实际含义也就清楚了。因子正交旋转当指标向量X具有正交因子结构时,其公共因子向量、因子载荷矩阵及正交因子分解均不唯一确定。X=AF+£对任一q阶正交矩阵t,有X=ATTF+£令F*二TF,A*二AT则X—A*F*+£E(F*)—0,D(F*)—TD(F)T—TT—ICov(F*,£)—E(F心)—TE(F£)—0(A*(A*)'—AA',(h*)2—h2,说明的问题)ii

利用正交因子分解的这一性质,在因子分析(正交因子模型)中,常常在建立了初始因子载荷矩阵之后,再对其作适当的正交变换(几何解释:因子轴旋转),以使得因子载荷矩阵A*=AT具有更简洁、更理想(近乎分块对角矩阵形式)的结构,公共因子向量F*=TF具有更明显、更直观的实际意义,正交因子分解X二A*F*+£更合理、更能反映客观实际。目前,已经提出了各种因子旋转的方法。比较常用的一种是方差极大因子轴正交旋转法,简称方差极大法。先考虑两个公共因子的平面正交旋转。a11ap1a12a11ap1a12a-sin0COs0acos0+asin0—asin0+acos0bb11121112=1112acos0+asin0—asin0+acos0bbp1p2p1p2-p1p2p2具有更理想、更简化的结构,即使其各列的因子载荷值尽可能地两极分化,大者尽可能大,小者尽可能小。各载荷值可正可负,Xi的依赖程度hi2也不同,消除其影响:b*=b*=b2/h2gijijib,ili=1,…p;j=1,2)规格化)1T一V=—乞(b*—b*)2<4j=1,2(j)pij(j)i=1正交旋转的目的就是要使新因子载荷矩阵的各列方差之和(总方差)=V=V+V(1)(2)1111达到最大。记aa二严i二1,...,p;j二1,2ijhia=a2-a2,B=2aai=1,…,pii1i2ii1i2=^a,p=Xp,丫iii=1i=1Y(a2-ii=1P2),8=2另apiiii=1则e可由下式确定:祁—p8-2ap=etgpY-(a2-卩2)g且*的符号可由e的符号确定:e>0n*g(0,—);e<0n*g(-—,0)44当公共因子数q>2时,需要对因子载荷矩阵中的q列因子载荷向量配两两对旋转,共旋转C="V2次。s,t列。先确定e,后旋转。st1cos*…-sin*sin*…cos*仅s,t列元素改变。全部列两两配对旋转完毕后,就完成了第一轮旋转。如果因子载荷矩阵还不能达到要求,那么进行第二轮旋转,如此进行下去,直到满足要求为止。每经一轮旋转,都可算出因子载荷矩阵的总方差。A(0)=ATA⑴TA(2)T…;V(0)TV(1)TV(2)T…A(i)=A(o)T⑴…T⑴=AT,A(2)=A⑴T⑵…T⑵=A⑴T=ATT,…12(q-1)q112(q-1)q212V(0),V(1),V⑵,…是一非降序列,且有上界(为4q),故必收敛于某一极限值V*,V*即为最大总方差。实际中,通常旋转到总方差改进不大,即V(k)-V(k-BU(给定精度)时,旋转停止。最后,取A*=A(k)=人-…—AT作为最终因子载荷矩阵。•计算因子得分因子得分是因子分析的最终体现。在因子分析的实际应用中,当因子确定以后,便可计算各因子在每个样本观测上的具体数值,这些数值称为因子得分,形成的变量称为因子得分变量。于是,在以后的分析中就可以因子得分变量代替原有变量进行数据建模,或利用因子得分变量对样本进行分类或评价等研究,进而实现降维和简化问题的目的。

11(F,…,F,F,…,F)=a~2Y,(FF,…,F)'=人一2Y1qq+1pq+1p11F*=TF二(T',0)(F',F,…,F)=(T',0)22Y二(T',0)(人2UUa-i)(UX)q+1p11二(T',O)(a2U')(Ua-1U')X二(T',O)(a2U')R-1X(T',0)厂q0+「0-0Pq+1.1f~uV)u'(q)u'(q+1)R-1X0uVLLwp」丿(p)二(T',0)AR-1X二(AT)R-1X二(A*)'R-1XX沁A*F*,(A*)'R-1X沁(A*)'R-1A*F*,r-1二ua-1U',A*=ATqxqqxq0(p-q)xq」,(A*)'R-1A*=…qxq3.实证分析3.1指标:废水排放总量、需氧量排放总量、氨氮排放总量、二氧化硫排放总量、氮氧化物排放总量、烟尘灰尘排放总量3.2原始数据:

地区废水排放总量化学需氧量排放总量氨氮排放总量二氧化硫排放总量氮氧化物排放总量烟尘灰尘排放总量北京15.0716.881.97.8915.15.74天津8.9421.432.4520.9228.2313.95河北30.98126.8510.27118.99151.25179.77山西14.544.135.37120.82106.99150.68内家古11.1984.774.93131.24125.83102.15辽宁26.29121.710.0199.4690.2112.07吉林12.2274.35.3137.2354.9247.51黑龙江14.96142.398.4947.2273.0679.35上海22.1222.444.4618.8133.2814.17江苏60.1211014.2590.47123.2676.37浙江41.8372.5410.3257.468.7937.97安徽27.2388.5610.0549.380.7365.28福建26.0662.988.9335.641.1736.79江西20.8372.018.653.4454.0146.23

山东51.44178.0415.5159.02159.33120.81河南42.28131.8713.9119.82142.288.21湖北30.17103.3112.0458.3858.0250.4湖南31122.915.4462.3755.2849.62广东90.51167.0620.8273.01112.2144.95广西21.9374.47.9346.6644.2440.29海南3.9419.62.293.269.52.32重庆14.5838.645.1352.6935.522.61四川33.13121.6313.4779.6458.5442.86贵州11.0932.673.892.5849.1137.79云南15.7553.385.6563.6749.8936.68西藏0.542.790.340.424.831.39陕西14.5850.495.8278.170.5870.91甘肃6.637.323.8157.5641.8434.58青海2.310.50.9815.4313.4523.99宁夏3.7321.981.6637.7140.423.92新疆10.2767.024.5985.386.2881.393.33.3数据来源:中国环境年鉴》3.33.3数据来源:中国环境年鉴》3.4分析过程:利用SPSS软件进行分析,首先录入数据,然后一次进行如下处理:一、考察原有变量是否适合进行因子分析首先考察收集到的原有变量之间是否存在一定的线性关系,是否适合采用因子分析。这里借助变量的相关系数矩阵进行分析。表一是原有变量的相关系数矩阵。可以看到:大部分的相关系数都较高,各变量呈较强的线性关系,能够从中提取公共因子,适合进行因子分析。表一相關性矩陣废水排放总量单位:亿吨化学需氧量排放总量单位:万吨氨氮排放总量单位:万吨二氧化硫排放总量单位:万吨氮氧化物排放总量单位:万吨烟尘灰尘排放总量单位:万吨相關废水排放总量单位:亿吨1.000.762.913.424.612.277說明的變異數總計說明的變異數總計化学需氧量排放总量单位:万吨.7621.000.906.647.773.592氨氮排放总量单位:万吨.913.9061.000.519.650.394二氧化硫排放总量单位:万吨.424.647.5191.000.903.842氮氧化物排放总量单位:万吨.612.773.650.9031.000.864烟尘灰尘排放总量单位:万吨.277.592.394.842.8641.000二、提取因子这里首先进行尝试性分析:根据原有变量的相关系数矩阵,采用主成分分析提取因子并选取大于1的特征值,分析结果如表2所Z示O表二Communalities

起始擷取废水排放总量单位:亿吨化学需氧量排放总量单位:万吨氨氮排放总量单位:万吨二氧化硫排放总量单位:万吨氮氧化物排放总量单位:万吨烟尘灰尘排放总量单位:万吨1.0001.0001.0001.0001.0001.000.923.892.971.908.953.931擷取方法:主體元件分析。表二显示了在指定提取2个变量共同度数据。第一列数据是因子分析初始解下的变量共同度,它表明:如果对原有7个变量采用主成分分析方法提取所有特征值,那么原有变量的所有方差都可被解释,变量的共同度均1.事实上,因子个数小于原有变量的个数才是因子分析的目标,所以不可能提取全部特征值。第二列数据是在按指定提取条件提取特征值时的变量共同度。可以看到所有变量的绝大部分信息可被因子解释,信息丢失少。因此,本次因子提取的总体效果比较理想。表三

元件起始特徵值擷取平方和載入循環平方和載入總計變異的%累加%總計變異的%累加%總計變異的%累加%14.38273.04073.0404.38273.04073.0402.81046.83146.83121.19619.93292.9721.19619.93292.9722.76846.14192.9723.2073.44496.4164.1342.24198.6565.0621.03799.6946.018.306100.000擷取方法:主體元件分析。表三中,第一列是因子编号,以后三列组成一组,每组中数据项的含义依次是特征值、方差贡献率和累计方差贡献率。前两个因子解释原有变量总方差的93%,总体上,原有变量的信息丢失较少,因子分析效果较理想。表四表四中,横坐标为因子数目,纵坐标是特征值。可以看到:第一个因子特征值很高,对解释原有变量的贡献最大;第二个以后的因子特征值都较小,对解释原有变量的贡献很小,因此提取两个因子是合适的。表五元件矩陣a元件12氮氧化物排放总量单位:万吨.939-.266化学需氧量排放总量单位:万吨.917.226氨氮排放总量单位:万吨.856.487

二氧化硫排放总量单位:万吨废水排放总量单位:亿吨烟尘灰尘排放总量单位:万吨.848二氧化硫排放总量单位:万吨废水排放总量单位:亿吨烟尘灰尘排放总量单位:万吨.848.778-.434.564.775-.575擷取方法:主體元件分析。a.擷取2個元件。表五显示了因子载荷矩阵,是因子分析的核心内容。根据该表可以写出因子分析模型:氮氧化物排放总量=0.939*f-0.266*f化学需氧量排放总量=0.917*f+0.226*f氨氮排放总量=0.856*f+0.487*f二氧化硫排放总量=0.848*二氧化硫排放总量=0.848*f-0.434*f废水排放总量=0.778*f+0.564*f烟尘灰尘排放总量=0.775*f-0.575*f由表五可知,六个变量在第一个因子上的载荷都很高,意味着他们与第一个因子的相关程度高,第一个因子很重要。第二个因子与原有变量的相关性均较小,它对原有不安量的解释不显著。a.a.在3疊代中收斂循環。a.a.在3疊代中收斂循環。三、因子的命名解释采用方差极大法对因子载荷矩阵进行正交旋转以使因子具有命名解释性。得到旋转后的因子载荷矩阵如图六所示。图六旋轉元件矩陣a元件12烟尘灰尘排放总量单位:万吨.955.136二氧化硫排放总量单位:万吨.909.287氮氧化物排放总量单位:万吨.855.471氨氮排放总量单位:万吨.268.948废水排放总量单位:亿吨.157.948化学需氧量排放总量单位:万吨.494.805擷取方法:主體元件分析。轉軸方法:具有Kaiser正規化的最大變異法。由表六可知,烟尘灰尘排放总量、二氧化硫排放总量、氮氧化物排放总量在第一个因子上有较高的载荷,第一个因子可以解释为大气污染物排放总量。氨氮排放总量、废水排放总量、化学需氧量排放总量在第二个因子上有较高的载荷,第二个因子可以解释为水污染物排放总量。与旋转前相比,因子含义较清晰。表七元件評分共變異數矩陣元件12121.000.000.0001.000擷取方法:主體元件分析。轉軸方法:具有Kaiser正規化的最大變異法。元件評分。表七显示了两因子的协方差矩阵。两因子没有线性相关关系实现了因子分析的设计目标。四、计算因子得分采用回归法估计因子得分系数,并输出因子得分系数。

表八元件評分係數矩陣元件12废水排放总量单位:亿吨-.205.461化学需氧量排放总量万吨单位:.016.282氨氮排放总量单位:万吨-.147.427二氧化硫排放总量吨单位:万.393-.122氮氧化物排放总量吨单位:万.309-.007烟尘灰尘排放总量单位:万吨.463-.218擷取方法:主體元件分析。轉軸方法:具有Kaiser正規化的最大變異法。元件評分。根据表八可写出以下因子得分函数:F=-0.205*废水排放总量+0.016*化学需氧量排放总量-0.147*氨氮排1放总量+0.393*二氧化硫排放总量+0.309*氮氧化物排放总量+0.463*烟尘灰尘排放总量

F=0.461*废水排放总量+0.282*化学需氧量排放总量0.427*氨氮排放2总量-0.122*二氧化硫排放总量-0.007*氮氧化物排放总量-0.218*烟尘灰尘排放总量另外,因子得分的均值为0,标准差为1。正值表示高于平均水平,负值表示低于平均水平。地区因子得分1因子得分2地区因子得分1因子得分2北京-1.24699-0.57979河南1.089550.97693天津-0.88044-0.73934湖北-0.374430.75745河北2.36983-0.09971湖南-0.464941.17204山西2.03859-1.24591广东-0.774943.30542内蒙古1.81446-0.91302广西-0.503040.13154辽宁1.047180.15182海南-1.26173-0.76721吉林-0.25843-0.33525重庆-0.55114-0.41907黑龙江0.220970.20172四川-0.309471.03004上海-1.06205-0.24016贵州0.18358-0.85403江苏0.320921.46441云南-0.20629-0.36888浙江-0.526020.77841西藏-1.24652-1.09844安徽-0.050730.37961陕西0.46793-0.62279福建-0.75070.30179甘肃-0.20203-0.80876江西-0.307840.09465青海-0.82359-1.11995山东1.82861.31332宁夏-0.43681-1.03388新疆0.85653-0.81297五、各地区的综合评价可利用因子得分变量对地区进行对比研究。首先,绘制两因子得分变量的散点图,如图九所示斗noaoa-3ooaoa^20Cfl(H-1JQKIKrOtMtM--1jooooa-jEoaoa-.OMO

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论