环境污染情况聚类分析_第1页
环境污染情况聚类分析_第2页
环境污染情况聚类分析_第3页
环境污染情况聚类分析_第4页
环境污染情况聚类分析_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、使用SAS、SPSS软件对中国几个城市的环境污染情况进行聚类分析摘要:随着社会的发展与进步,环境污染也变得日益严重起来,随着全国范围内大面积大雾不消现象的发生,人们对环境污染情况也更关注了。这篇论文就是通过使用SPSS和SAS软件,对中国的几个大城市进行环境污染方面的聚类分析。关键词:聚类分析,SPSS,SAS,环境污染,离差平方和法聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术

2、方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析具有很多不同的方法,现使用离差平方和法,重心法,最短距离法,最长距离法这四种方法对这32座城市进行分类,以下是这32座城市污染情况的表格:城市AQIPM2.5PM10CONO2O3SO2北京1171631573.1764186上海7032400.7148517广州4427471.01534110深圳5358781.5525476杭州5919440.5628474天津2411751991.26676916成都14625660.53312379南京9216240.6434737西安93297013112320武汉4

3、817360.7429956南京9216240.6434737昆明4818540.81295115海口298410.52252313福州4517370.7630306南宁3122280.8420418贵阳54631090.8349521长春7839800.68341054南昌5529641.27245312大连5432490.528562长沙5655770.82236610武汉4817360.7429956温州4810601.07396110青岛8519460.94187218乌鲁木齐7540420.423914太原18247891.016412946厦门3443180.6732596郑州94

4、461071.51309321保定1742502901.16228710合肥14318240.520568珠海4841781.3513464重庆4935570.77446620兰州88561080.43366016呼和浩特9834851.24306716拉萨3812251.58186910哈尔滨7320540.9530599SPSS部分:首先对数据进行标准化处理,然后用SPSS软件分别使用最长距离法,重心法和离差平方和法进行分析处理。最长距离法:群集成员案例5 群集4 群集3 群集2 群集1:北京 11112:上海 22223:广州 22224:深圳 22225:杭州 22226:天津 311

5、17:成都 43328:南京 22229:西安 222210:武汉 222211:南京 222212:昆明 222213:海口 222214:福州 222215:南宁 222216:贵阳 222217:长春 222218:南昌 222219:大连 222220:长沙 222221:武汉 222222:温州 222223:青岛 222224:乌鲁木齐222225:太原 433226:厦门 222227:郑州 222228:保定 541129:合肥 222230:珠海 222231:重庆 222232:兰州 222233:呼和浩特222234:拉萨 222235:哈尔滨 2222重心法:群集成员案

6、例5 群集4 群集3 群集2 群集1:北京 11112:上海 22223:广州 22224:深圳 22225:杭州 22226:天津 31117:成都 43328:南京 22229:西安 222210:武汉 222211:南京 222212:昆明 222213:海口 222214:福州 222215:南宁 222216:贵阳 222217:长春 222218:南昌 222219:大连 222220:长沙 222221:武汉 222222:温州 222223:青岛 222224:乌鲁木齐222225:太原 433226:厦门 222227:郑州 222228:保定 541129:合肥 22223

7、0:珠海 222231:重庆 222232:兰州 222233:呼和浩特222234:拉萨 222235:哈尔滨 2222离差平方和法:群集成员案例5 群集4 群集3 群集2 群集1:北京 11112:上海 22223:广州 22224:深圳 22225:杭州 22226:天津 11117:成都 33328:南京 22229:西安 442210:武汉 222211:南京 222212:昆明 222213:海口 222214:福州 222215:南宁 222216:贵阳 442217:长春 442218:南昌 222219:大连 222220:长沙 222221:武汉 222222:温州 222

8、223:青岛 222224:乌鲁木齐222225:太原 333226:厦门 222227:郑州 442228:保定 511129:合肥 222230:珠海 222231:重庆 222232:兰州 442233:呼和浩特442234:拉萨 222235:哈尔滨 2222从三种方法的树状图可以看出,离差平方和法的聚类效果最好综合以上各统计量反映的聚类效果,我们认为分为3类是效果最好的。分为3类的结果:第一类:北京、天津、保定第二类:上海、广州、深圳、杭州、南京、西安、武汉、昆明、海口、福州、南宁、贵阳、长春、大连、南昌、长沙、武汉、温州、青岛、乌鲁木齐、厦门、郑州、合肥、珠海、重庆、兰州、呼和浩特

9、、拉萨、哈尔滨第三类:成都、太原SAS部分:接下来,我们再使用SAS软件分别使用最短距离法,重心法和离差平方和法进行分析处理。SAS程序输入:proc cluster data=sasuser.k method=sin pseudo; id region;proc tree horizontal; id region;proc cluster data=sasuser.k method=cen pseudo; id region;proc tree horizontal; id region;proc cluster data=sasuser.k method=war notie pseudo

10、; id region;proc tree horizontal; id region;run;最短距离法:重心法:离差平方和法:从三种方法的树状图可以看出,离差平方和法的聚类效果最好,符合聚类分析的类内距离小,类间距离大。就离差平方和法的聚类结果进行分析。可以看出,系统聚类共进行了32步,在每一步都合并了两个类。查看图中统计量(RSQ),发现统计量随着分类个数的减少而减少,并且在由3类合并为2类时统计量减少得较快(从0.704减少为0.554)。因此,从统计量来看分为3类比较合适。接下来分析半偏统计量(SPRSQ),发现NCL=1时半偏统计量最大(值为0.5544),当NCL=2时半偏统计量

11、次大(值为0.1497),说明这两步合并效果不好,应该采取上一步的分类。因此,从半偏统计量来看分为2类或3类比较合适。再分析伪F统计量(PSF),发现随着分类个数的减少伪F统计量也基本上呈现减少的趋势 。但当NCL=5、4、3和2时,伪F统计量出现了在局部增大的情况。因此,根据伪F统计量的准则认为分成6类、5类、4类和3类是比较合适的。最后看伪统计量(PST2),发现当NCL=1时伪统计量最大(值为38.6),当NCL=2时伪统计量次大(值为19.4),NCL=3时伪统计量(值为13.7),这说明这三步合并效果并不好,应该采取上一步的分类。因此,从伪统计量来看,我们认为分为2类、3类和4类比较合适。综合以上各统计量反映的聚类效果,我们认为分为3类是效果最好的。分为3类的结果:第一类:北京、天津、保定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论