R语言学习之深圳市空气质量分析_第1页
R语言学习之深圳市空气质量分析_第2页
R语言学习之深圳市空气质量分析_第3页
R语言学习之深圳市空气质量分析_第4页
R语言学习之深圳市空气质量分析_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

R语⾔学习之深圳市空⽓质量分析⼀、简介略⼆、研究背景略。三、数据来源此次实验共使⽤数据集两份,分别为中国⽓象检测⽹爬取的深圳2015年⾄2020年空⽓监测数据与深圳市数据开放平台公开空⽓质量⽇报数据。1.数据⼀:空⽓监测数据来源2015年-2020年空⽓监测数据由于⽹站禁⽌使⽤右键,因此R语⾔数据采集程序运⾏失败,Python爬⾍程序找不到对应数据所在⽬录,因此采⽤后裔采集器软件爬取数据,最终爬取成功,数据集共95条数⽬集,11列属性值。表2‑12015年⾄2020年空⽓监测数据,,为数据集节选。2‑12015年⾄2020年空⽓监测数据monthWebAQIarelevalPM2.5PM10COSO2NO2O313-Dechttps:/1032156021~17335511.4334714-Janhttps:/82104646543~130119321.2481514-Febhttps:/4745124920~66110901.1576014-Marhttps:/567712927~902980.9191514-Aprhttps:/521839229~715750.9210014-Mayhttps:/3470772022~5127100.87411114-Junhttps:/4210997823~8215920.9437014-Julhttps:/4484246126~10519531.0971614-Aughttps:/3642756424~73113630.9292414-Sephttps:/5211139727~12530371.135114-Octhttps:/7314811752~11658571.21311114-Novhttps:/629877738~936941.18710014-Dechttps:/7011229726~9912781.223102Dec15-Janhttps:/7079471730~1311171181.2261815-Febhttps:/6718411225~13134671.0821015-Marhttps:/49881164432~7019540.9773515-Aprhttps:/5210695525~9540250.8532515-Mayhttps:/365879524~76119250.82910315-Junhttps:/2867689923~3791880.7431142.数据⼆:空⽓质量⽇报数据2015年国务院印发促进⼤数据发展⾏动纲要的通知中明确指出,⼤数据时代数据理应公开化在此基础上各个省、市直属单位建⽴开放数据平台,提供开放数据接⼝。在深圳市数据开放平台获取到空⽓质量⽇报数据⽤于此次研究报告。数据集共90000条⽬,9项属性值。表2‑2深圳市空⽓质量⽇报为数据集节选。2‑2深圳市空⽓质量⽇报序号检测时间监测点名称指数类别空⽓污染指数(AQI)指数级别指数颜⾊⾸要污染物00f60ce3-db7c-414e-80e0-8b24611e747d2019/2/140:00华侨城优39⼀级绿⾊-00ffda7b-8094-464c-ae73-9659db468def2017/3/280:00葵涌良88⼆级黄⾊臭氧0100f95a-f6dd-44cf-a1b8-91e65cadf62d2017/2/60:00盐⽥优50⼀级绿⾊-0111a697-b8d4-453d-bbe0-b280069e5d512019/4/140:00葵涌优42⼀级绿⾊-0111eae0-d8df-4573-aed9-0be536ad69ed2015/2/180:00观澜良79⼆级黄⾊臭氧0125ca90-c48d-4424-b5bf-d9b6a1842cde2019/3/290:00西乡优37⼀级绿⾊-四、相关技术概述1.后裔采集器后羿采集器是由前⾕歌搜索技术团队基于⼈⼯智能技术研发的新⼀代⽹页采集软件。该软件功能强⼤,操作简单,是为⼴⼤⽆编程基础的产品、运营、销售、⾦融、新闻、电商和数据分析从业者,以及政府机关和学术研究等⽤户量⾝打造的⼀款产品。后羿采集器不仅能够进⾏数据的⾃动化采集,⽽且在采集过程中还可以对数据进⾏清洗。在数据源头即可实现多种内容的过滤。通过使⽤后羿采集器,⽤户能够快速、准确地获取海量⽹页数据,从⽽彻底解决了⼈⼯收集数据所⾯临的各种难题,降低了获取信息的成本,提⾼了⼯作效率。2.R语⾔R语⾔作为统计领域⼴泛应⽤的S语⾔的分⽀,是⼀种集统计分析与图形显⽰于⼀体的,⽤来进⾏数据探索、统计分析和作图的解释型语⾔。其作为⼀个开放的统计编程环境,语法通俗易懂,。⼤多数最新的统计⽅法和技术都可以在R中直接得到,在R语⾔中有着多种可供数据分析与数据可视化的包可供下载与使⽤,⽅便学者研究。⽽学习R语⾔具备免费开源、功能强⼤、⽅便易学等优点[2]。在2021年TIOBE排⾏版中,R语⾔位居第14的位置也说明其使⽤的⼴泛性普遍性。3.相关性分析略五、数据探索1.数据预处理由于后裔采集器爬取的数据为完整可⽤数据集,因此数据集⼀不进⾏数据预处理步骤。着重针对深圳市空⽓质量⽇报进⾏数据预处理a)缺失值处理读取数据集后,将检测时间转换为Date格式后排序,形成初始数据集,⾸先对数据集进⾏缺失值统计,运⽤R语⾔本⾝函数库清理表层缺失值27条。通过观察可得出在数据中“-”同样为缺失数据。由于其本⾝为字符串R语⾔⽆法识别其为⽆内容含义,因此⽆法统⼀使⽤缺失值清除函数。通过删除函数统⼀删除带有“-”字符串条⽬最终实现缺失值处理完全。代码实现与解释如图4‑1。4‑1源码展⽰b)异常值处理使⽤R语⾔基本箱线图绘制函数检测离群点,通过观察data2数据集中离群点检测结果如图4‑2,判断data2数据集中离群点不属于影响离群点。⽽在data数据集中AQI属性离群点较为明显,如图4‑3,明显可以通过各个属性箱线图对⽐发现AQI属性中确实存在缺失值。4‑3data数据集离群点检测到异常值需要处理,少量异常值处理选⽤删除异常值所在⾏数据条⽬,因此将data数据集中AQI属性异常值通过异常值返回函数找到其数值,在原数据集中删除其所在数据条⽬,删除成功后绘图验证异常值是否处理成功。最终处理成功。代码实现与解释如下图4‑4。将异常值处理完毕后,⾃此数据预处理步骤完成。对⽐python数据预处理,R语⾔数据预处理明显可供选择的⾃带函数更多,实现的简易性更⾼,使⽤R语⾔进⾏数据预处理研究效率整体⽐python效率更具有优越性。4‑4代码展⽰2.数据描述性分析针对数据集data2进⾏数据探索,观察各指数级别占⽐与⾸要污染物占⽐图4‑5,发现在各指数级别中,⼆级指数级别以73%的份额遥遥领先占据榜⾸,查阅资料可知,空⽓污染指数为51-100,空⽓质量级别为⼆级,空⽓质量状况属于良。此时空⽓质量可接受,但某些污染物可能对极少数异常敏感⼈群健康有较弱影响,建议极少数异常敏感⼈群应减少户外活动。符合居住区,办公区,⼀般⼯业区等公共场所及⽤地的标准,因此⼆级指数级别占据榜⾸初步可以说明深圳空⽓质量处于良好及以上的位置[4]。⽽在深圳市,⾸要污染物中单独臭氧作为⾸要污染物已经占据了37%份额,另还有与其他污染物捆绑形成当天⾸要污染物份额,因此在深圳市,⾸要污染物为臭氧。查阅资料可知近地⾯臭氧的⽣成主要受⽓象条件的影响,⽽⽓象条件⼜因地⽽异。研究表明,臭氧的产⽣主要受⾼压天⽓的控制。由于云可以削减到达地⾯的太阳辐射,⽽紫外辐射是产⽣臭氧的⼀个重要的原因,因此晴天少云天⽓时臭氧浓度明显⾼于阴⾬天。⽓温较⾼也有利于臭氧的⽣成,主要是由于⾼温可促进光化学反应的进⾏[5]。此外,相对湿度、风速和风向均可影响近地⾯臭氧的浓度。4‑5各指数级别占⽐六、数据分析1.数据集data分析a)相关性显著检验此次数据集data研究主要⽬的是分析深圳市空⽓指数与污染物关联度,找出最影响空⽓质量的污染物,采⽤相关分析⽅式。众所周知,PM2.5与空⽓指数有明确相关性已经是盖棺定论的事情,因此此次研究先提出猜想,空⽓指数与PM2.5显著相关性,以下对⼆者进⾏相关性显著检验,使⽤R语⾔包cor.test进⾏参数相关性显著检验[6],图5‑1,最终得出结果P值为0.9143,得到的0.913数值显然⽆法说明空⽓指数与PM2.5有相关性,此时则有两种解释可能,第⼀,数据量太少不⾜以检验出PM2.5与空⽓指数的相关性,第⼆,单独对于深圳市来说深圳市的空⽓指数并未与PM2.5值有相关性,可能与其他污染物质有着显著相关性,接着就有了下⽂的相关性探索。5‑1相关性探索结果b)相关性探索⾸先要明确在data数据中PM10属性值为⼀个范围,并不是具体的数值型数据,因此在做统⼀相关性探索时,将PM10属性值去掉后的数据集统⼀进⾏相关性探索,对每个属性值进⾏相关性计算,查看空⽓指数与其他污染物质的相关性。以下为表5‑1相关性⼀览表。5‑1相关性⼀览表AQIarelevalPM2.5COSO2NO2O3AQI10.101389-0.019030.0777850.0113060.054240.4038150.025141are0.10138910.030002-0.04868-0.00270.1088570.1020390.040068leval-0.019030.0300021-0.086780.0388880.046548-0.15737-0.17568PM2.50.077785-0.04868-0.086781-0.14133-0.002290.0650420.218597CO0.011306-0.00270.038888-0.141331-0.09254-0.05701-0.20677SO20.054240.1088570.046548-0.00229-0.092541-0.035710.141511NO20.4038150.102039-0.157370.065042-0.05701-0.035711-0.0282O30.0251410.040068-0.175680.218597-0.206770.141511-0.02821由上表可见AQI空⽓指数与NO2相关系数最⼤且为正相关,其次则是O3,将上述图标进⾏数据可视化后有如下图5‑2,使⽤R语⾔中的画图包可以清晰明了的将上述图表绘制成美观的相关性可视化图⽚,⾮常清晰且直观的看出空⽓指数与NO2的相关性。再使⽤corr.test相关性显著检验,检验得出的NO2与空⽓指数相关结果。P值为5.972e-05,结论验证成功。5‑2相关性可视化2.数据集data2分析数据集data2本⾝是⼀个对深圳市2015年⾄2020年空⽓质量监测的⽇报数据集,因此可以对data2数据按照⽇期格式排序,排序后绘制出近六年每年空⽓质量曲线图。图5‑3为深圳六年空⽓质量指数密度图。可以很直观的看见2020年的曲线已经不再与2015年⾄2019年重合,查阅政策⽂件得知,2018年深圳出台《深圳市⼤⽓环境质量提升补贴办法(2018-2020年)》[7],在2020年如期完成,从数据中直观看出深圳空⽓质量提升取得了卓越超前的成效。5‑3空⽓污染指数年份密度图七、结论1.关于深圳市空⽓质量研究研究中可以发现对于深圳市来说,PM2.5反⽽并不是影响空⽓质量最⼤的原因,查阅资料得知PM2.5的形成有两个源头,⾃然源与⼈为源,其中⼈为源包括固定源和流动源。固定源包括各种燃料燃烧源,如发电、冶⾦、⽯油、化学、纺织印染等各种⼯业过程、供热、烹调过程中燃煤与燃⽓或燃油排放的烟尘。流动源主要是各类交通⼯具在运⾏过程中使⽤燃料时向⼤⽓中排放的尾⽓。⽽对于地理位置⾝处南⽅沿海的深圳市,其核⼼产业链并⾮上述⼯业⽽后⾼新科技产业,并且有研究指出在深圳臭氧含量颇⾼的成因[5],NO2与O3反⽽代替PM2.5成为了影响深圳市空⽓质量的⾸要污染物质。作为经济发展特区,深圳市的⼀举⼀动在全国甚⾄全球的瞩⽬下,深圳空⽓质量在近35年来呈现出倒U型,集体来说可划分为萌芽期,上升期,波动期,跃升期和稳定期五个阶段[6],对于深圳来说哟,深圳的产业结构调整是影响空⽓质量的重要因素,不同阶段的经济发展与产业结构则形成了不同时期的阶段性空⽓质量。本⽂主要研究的时期从上述图中也可以观察出,是出于稳定期的空⽓质量,2015年⾄2019年的空⽓质量密度曲线近乎重合就可以反映出此时的空⽓质量阶段为稳定的不易改变的。然⽽随着深圳市出台的《深圳市⼤⽓环境质量提升补贴办法(2018-2020年)》,在2020年截⾄年份,深圳市完成了跃进式的空⽓质量⾰新,在密度曲线背后所投射出来的不仅仅是⼀个政策的正确性,同时反映出政策背后的践⾏者的付出与努⼒,深圳政府、基层与深圳市民改进深圳市空⽓质量的决⼼。2.此次研究使⽤的编程语⾔通过此次完整的基于R语⾔下针对深圳市空⽓质量数据研究,对R语⾔的认知更为清晰明了,采⽤R语⾔进⾏数据研究在以下⼏个⽅⾯都具有优越性。a)R语⾔进⾏数据预处理的优越例如在此次实验中,对于数据的缺失值异常值处理,R语⾔只需要使⽤其⾃带的缺失值函数与箱线图可视化查看异常值,返回异常值等等,⼏⾏调⽤函数简单代码就解决数据预处理庞⼤⼯程。b)R语⾔进⾏数据分析的优越在此次实验中,相关性有着多种数据分析的⽅式,可以做相关性显著检验,可以对数据集进⾏各属性值相关性计算,也可以⽤summy初步查看数据信息等等,这些函数在其他语⾔中甚⾄需要⼈为编译,⽽在R语⾔中都可以通过函数调⽤实现。c)R语⾔进⾏数据可视化的优越相较于python,R数据科学⽣态系统如何具有许多较⼩的绘图程序包,有许多⽀持不同的做事⽅法的程序包,⽽对于pyth

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论