基于时间序列模型的PM2.5的预测与可视化分析_第1页
基于时间序列模型的PM2.5的预测与可视化分析_第2页
基于时间序列模型的PM2.5的预测与可视化分析_第3页
基于时间序列模型的PM2.5的预测与可视化分析_第4页
基于时间序列模型的PM2.5的预测与可视化分析_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[15]学者(2024)使用ConvGRU模型预测了珠海市PM2.5小时浓度,结果表明:ConvGRU模型预测PM2.5浓度与实际PM2.5浓度之间的相关系数高达0.83。以上为通过回归分析和时间序列分析方法对PM2.5预测的国内外研究现状,本章将利用时间序列LSTM模型的优点,对PM2.5进行进一步研究。1.3论文结构论文第一章主要介绍研究pm2.5的研究意义和背景及其国内外研究现状,以及本实验所用虚拟环境的Kears框架和Sklearnex加速补丁的介绍;第二章主要介绍模型构建前的相关工作,如数据预处理、模型介绍;第三章主要搭建神经网络模型及其参数调优;第四章对实验结果进行可视化与分析;第五章介绍本模型优点与缺点。理论方法概述2.1Keras框架2.1.1Keras简介Kears作为Python的开源机器学习库,其基于matplotlib、Numpy和Scipy等强大的开源库,Kears支持分类、回归、聚类和降维等各种机器学习模型。在使用数据前,可以使用Kears库具备的数据预处理和分析方法,以及最后对模型进行评估等工具,其不仅能具有强大的机器学习功能还能使初学者尽快入门。数据处理方面:Kears不仅具有数据预处理、数据清洗以及编码与数据标准化的方法,在特征选择和提取方面也有独特的处理方式。模型训练方面:Kears具有各种常用的机器学习算法,包括回归、分类、聚类、降维等。且能够使用GridSearchCV工具用在参数网格中选择最优参数。模型评估方面:使用Kears自带的模型评估工具;其中包括网格搜索、交叉验证等多种评估指标。模型可视化方面:Kears可以所用库中learning_curve方法绘制模型学习曲线,此外,Sklearn可与其他Python开源绘图库适配。例如本实验所用matplotlib库。2.1.2引用核心函数以下为模型搭建所用核心函数:model

=

Sequential()#建立时序模型model.add()#添加层pile()#配置训练方法model.fit()#模型拟合第一步使用Sequential方法创建实例,利用add方法添加LSTM神经网络模型,初步搭建长短期记忆模型,再利用compile函数为模型配置训练优化器,最后使用对模型进行拟合。后续将为具体参数选择进行实验。2.2Sklearnex加速补丁介绍scikit-learn作为经典的机器学习框架,其运算速度一直广受诟病。Sklearn库中自带joblib库的加速效果比较有限,无法完全发挥计算机硬件潜力。sklearnex这个加速补丁,就可以帮助我们在拥有Intel处理器的设备上,获得大幅度的运算效率提升。#导入加速补丁#fromsklearneximportunpatch_sklearn,patch_sklearn2.3多变量时序建模2.3.1时间序列介绍时间序列表示基于时间顺序的一系列数据。它可以是秒、分钟、小时、天、周、月、年。未来的数据将取决于它以前的值。在多元时间序列数据的情况下,将有不同类型的特征值并且目标数据将依赖于这些特征。正如表2-2中所示,在多元变量中将有多个列来对目标值PM2.5进行预测。在上面的数据中,PM2.5不仅取决于它以前的值,还取决于其他特征。因此,要预测即将到来的PM2.5数值,我们必须考虑包括目标列在内的所有列来对目标值进行预测。在执行多元时间序列分析时需要使用多个特征预测当前的目标,如果我们使用5列[pm2.5,dewp,temp,press,cbwd,lws]特征值来训练模型,则需要为即将到来的预测日提供4列[dewp,temp.press,cbwd,lws]特征值。2.3.2LSTM模型介绍长短期记忆(LSTM)是基于RNN神经网络模型的一种衍生,其特点为相比普通的神经网络模型能够在更久远的数据训练中有更好的表现。LSTM旨在解决一般递归神经网络中常见的长期依赖性问题,使用LSTM可以有效地以长期序列传输和表达信息,而不会长时间忘记有用的信息。该模型也有一种类似门机制来应付梯度消失的问题,因为具有记忆单元的特点使其能够对很久远的数据也能够使用,因此也称之为长短型记忆模型,在模型训练中,通过不断更新LSTM模型的参数来提高模型性能。(a)LSTM内部结构:xt为当前状态下数据的输入,ℎt−1表示接收到的上一个节点的输入。yt忘记阶段。这个阶段主要是对上一个时刻传进来的输入进行选择性忽略。总的来说就是“忽略不重要的,留下有意义的”。具体来说是通过计算得到的zf(f表示遗忘)来作为遗忘门控,来控制上一个时刻的ct−1选择记忆阶段。这个阶段将输入有选择性的进行“记忆”。主要是对输入xt−1进行选择性保留。将重要的保留下来,不重要的进行忽略。当前时刻的输入由之前时刻的计算得到的z表示。而选择的门控信号则是由z将上面两个阶段得到的结果相加,即为到传输给next时刻的ct输出阶段。这个阶段将决定哪些将会被作为当前时刻的输出。主要是通过z0来进行控制的。并且还对上一阶段得到的c输出yt最终也是经过ℎ以上阶段可用公式表示为:ct2.4模型评估方法介绍2.4.1RMSE均方根误差均方根误差是从真实值的预测值与观测值数n之比的偏差的平方根。即:RMSE因为使用RMSE测量的预测值与实际值之间的差异将对数据中的异常值更为敏感。2.4.2决定系数R2(R-Square)公式中分子部分表示真实值和预测值的平方差之和,类似于均方根差(MSE),分母部分表示真实值和均值的平方差之和,类似于方差Var。因此模型的值范围为[0,1]:R2=1−结果接近于0时说明模型下性能很差;若结果接近1则表示模型性能很好。故训练出的模型其值越接近1越说明模型越好。2.5总体实验流程图(b)总体实验流程图本次实验首先将原始数据进行预处理后,通过对数据集进行划分,分别用于训练和测试模型;利用参数调优方法对寻找最优参数使模型性能最佳,并绘制学习曲线得到训练集与测试集的随迭代次数大小的损失情况。最后得出结论。模型搭建3.1数据及预处理3.1.1数据来源本实验所用数据集来自UCI官方公布数据集,数据下载地址为Datasets-UCIMachineLearningRepository,测量地区为上海,每条数据为每小时天气情况与空气质量指数,数据时期为2015年至2020年。数据集特征包括年月日、PM2.5浓度、露点、温度、风向、风速、每小时的积雪量和每小时积雨量。部分数据如下:表3-1数据集展示数据特征信息如下:表3-2数据特征表PM2.5PM2.5浓度DEWP露点TEMP温度PRES大气压Cbwd风向Lws风速Ls累积雪量Lr累积雨量3.1.2数据预处理由于定期机器维护、停电等非不可抗力因素使部分数据缺失,其中数据缺失分布相对均匀。模型训练应用日期作为索引,因此将原本索引更换,并合并年月日日期作为新索引。以下为数据进行四步预处理:对数据中出现的空缺值进行填充处理,填充方法使用fillna()函数;将年、月、日、时刻日期数据合并;对于部分值为NA的数据进行删除;对于数据中第一列NO列删除,改用合并日期作为索引;处理后数据如下:表3-3数据预处理后展示3.1.3数据归一化处理在模型使用数据前还需要对数据进一步处理,由于数据中风速特征值均为方向,因此使用one-hot编码方式对其进行处理;为了消除各个特征之间的数量级的影响,将所有特征进行标准化处理。本实验所用归一化方法为极差标准化,将数据值范围限制在[0,1]内,所用公式如下:X其中,Xmax和X3.2神经网络模型参数调优使用Kears框架下的Sequential方法搭建神经网络模型,使用LSTM长短模型时间序列作为内核,units为隐藏层数量,损失函数为“mae”。模型参数使用GridSearchCV库方法进行参数调优有助于尽快找到最佳参数,使模型预测效果更好。GridSearchCV搜索原理:先设置param_grid参数网格,参数网格内有提前设置好模型参数的取值范围,之后在模型训练时遍历此网格,每测试一种组合,都会返回其组合下的模型评价指标得分,最后返回分数最高的参数组合作为最优值。#定义参数网格param_grid={'units':[25,50,75,100],'optimizer':['adam','rmsprop','adadelta']}#用GridSearchCV搜索最佳参数grid=GridSearchCV(estimator=model,param_grid=param_grid,n_jobs=-1)输出参数调优结果:由运行结果可得,输出最佳参数组合,其中隐藏层数量设置为25最佳,优化器使用adam方法最佳。3.3模型拟合使用Kears框架中model.fit()函数进行模型拟合,通过设置拟合模型参数达到最佳拟合效果。model.fit(x,y,batch_size=32,epochs=10,verbose=1,validation_data=(x_val,y_val))函数主要参数:x:训练数据;y:标签batch_size:每次迭代所训练的数据集大小;Defult=32;batch_size参数越小则模型拟合更快但可能导致模型过拟合。batch_size参数值过大可能导致训练速度减慢,而且内存负担,容易导致内存溢出。epochs:代表训练集迭代次数。一个epoch过程代表模型训练了一次。通过增加epochs的方法可能增加模型的性能,但也可能导致过拟合。verbose:显示每次epochs迭代的记录。validation_data:记录训练集与测试集的损失信息,后续用于损失图的绘制。3.4本章小结 本章第一部分主要介绍在数据使用前对数据进行编码和标准化处理,第二部分主要介绍模型参数调优的方法,通过使用GridSearchCV类帮助模型寻找最佳参数。第三部分主要介绍模型拟合函数及其主要参数对模型性能的影响,通过调整参数达到优化模型的目的。第四章实验结果与分析4.1模型训练过程可视化展示分别使用训练集、测试集利用损失函数绘制学习曲线(c)无sklearnex加速的模型训练曲线(d)使用sklearnex加速的模型训练曲线如上图所示,黄色曲线代表测试集,蓝色曲线代表训练集,横坐标代表epochs迭代次数,纵坐标代表损失值。如图所示随着迭代次数的增加,模型性能越来越高,误差越来越小。在第20次迭代时,模型性能趋于稳定,训练集和测试集的曲线交叉。同时当训练集或测试集增加时,模型的误差越来越小,模型拟合结果不错,并且随着训练次数的增加,模型拟合度和预测精确度越来越高。左侧图像为未启用Sklearnex加速的损失曲线图,右侧图像为启用Sklearnex加速的损失曲线图;启用加速的模型比未启用加速的模型更早的使精确值趋于稳定,并且加速后的模型损失值相对于未加速的模型其损失值更低,模型也更早拟合。绘制除风速外特征周期图:(e)特征周期图上图所示为2015年到2020年40000多小时的特征值图像,由上图可知,除风速外所有特征都具有周期性,且峰值与低谷情况几乎在同一阶段发生,当温度与露点处于低谷阶段时,PM2.5此时的浓度比往常更高;但当大气压强处于峰值时,PM2.5浓度比平时较低。因此可推断,PM2.5的峰值与低谷情况与其他特征的峰值与低谷具有相关性且具有季节性特征。这将对接下来PM2.5预测结果分析具有辅助作用。4.2模型评估结果展示(d)模型评估结果上图第一个为未使用Sklearnex加速效果,第二个为使用Sklearnex加速效果,由此可见,利用Sklearnex加速后的模型其精确度略微增加,但其运行时间大幅缩短,因此Sklearnex对模型训练的效果还是比较明显的。RMSE均方根误差大小为27,虽然远小于PM2.5的峰值,但在大多数时期,此值显得较大,因为PM2.5的周期性影响,使用RMSE均方根误差不能体现模型的预测效果。决定系数体现为模型的准确度,其值越接近1模型性能更好好。4.3模型预测与检验为了检测模型训练结果,利用训练好的模型预测下一个月的PM2.5趋势,并用实际值作为验证。下图所示为下一个月PM2.5的预测值,预测时间为2021年1月份。(f)预测值与实际值曲线如图所示,这张图显示了不同日期(从第0天到第30天)的PM2.5浓度数据,分为两种情况:一种是使用LSTM模型预测的结果,另一种是实际测量的数据。红色线代表实际测量的数据,蓝色线代表LSTM模型预测的结果。可以看到,实际测量的数据在某些日期波动较大,而LSTM模型预测的结果则相对稳定,模型预测值曲线与实际值几乎重合,并且符合PM2.5周期趋势。结果分析:由图f可以看到一月份的第20-30天的浓度相对较高,可以猜测此时上海市露点温度可能较低,因为气温较低,空气中的水蒸气凝结成露或霜的可能性增大。一月份上海市的温度较低,这会影响空气的流动和混合,从而影响PM2.5的扩散和分布。此时,如果风速较小且风向不利于污染物扩散,PM2.5浓度可能会进一步升高。一月份上海市可能会有降雪或降雨,这有助于清洗空气中的颗粒物,从而降低PM2.5的浓度。但是,如果降雪或降雨后气温较低,湿度较大,也可能导致PM2.5的再次聚集和浓度的升高。下图所示为未来5个时刻的预测值,以2021年一月份的某时刻为例,由周期性可知此时的PM2.5较低。4.4应对策略针对以上情况,应对策略如下:温度较低时,由于采暖等原因,排放物增加,鼓励市民加强设备维护,定期清理和维护采暖设备,确保其正常运行,减少污染物排放。推广集中供热,通过集中供热,减少分散的小锅炉,降低污染物排放总量。优化能源结构,减少化石能源的使用,推广清洁能源,降低污染物排放。加强交通管理,推广公共交通,减少私家车出行,降低机动车尾气排放。在气象条件不利于污染物扩散时,采取应急措施,如限制高污染企业的生产、增加道路清扫频次等。加强空气质量监测和预警,及时发布空气质量指数和健康提示,引导公众做好防护措施。4.5实验结果分析由上述实验过程可知,模型训练随着迭代次数的增加,模型性能越来越高,误差越来越小。在第20次迭代时,模型性能趋于稳定,训练集和测试集的曲线交叉。且启用加速的模型比未启用加速的模型更早的使精确值趋于稳定,并且加速后的模型损失值相对于未加速的模型其损失值更低,模型也更早拟合。除风速外所有特征都具有周期性,且峰值与低谷情况几乎在同一阶段发生,当温度与露点处于低谷阶段时,PM2.5此时的浓度比往常更高;但当大气压强处于峰值时,PM2.5浓度比平时较低。因此可推断,PM2.5的峰值与低谷情况与其他特征的峰值与低谷具有相关性。这将对接下来PM2.5预测结果分析具有辅助作用。利用Sklearnex加速后的模型其精确度与模型性能都有略微增加。其模型训练时间更短,RMSE均方根误差大小为27,虽远小于PM2.5的峰值,但在大多数时期,此值显得较大,因为PM2.5的周期性影响,因此RMSE均方根误差不能体现模型的预测效果。决定系数的值接近于在0.92左右,因此该模型具有较好的性能。最后利用训练好的模型对接下来一个月进行预测,其预测值与真实值曲线近乎重合。因此可得该模型具有很好的预测性能。4.6本章小结本章第一部分比较了在Sklearnex加速下模型拟合效果;第二部分介绍了数据各个特征的周期性,以及未来5个时刻的PM2.5的值;第三部分介绍了模型评估结果,以及Sklearnex对模型评估效果的影响;第四部分针对预测结果给出了部分建议;第五部分对模型训练进行了实验分析。总结与展望5.1优势分析1.LSTM网络是一种循环神经网络的改进版本,具有长期记忆能力和强大的序列建模能力,能更好地处理非线性关系和时序数据。2.使用LSTM模型可以有效的传递和表达长时间序列中的信息并且不会导致长时间前的有用信息被忽略(遗忘)3.本实验通过使用GridSearchCV库进行参数调优,为模型选择最佳参数,极大缩短模型训练时间。4.通过绘制周期图,我们可以直观地识别出时间序列数据中可能存在的周期性模式,了解PM2.5浓度的周期性变化有助于政府和环保机构制定针对性的空气质量改善策略。5.2劣势分析1.因为PM2.5的大小具有周期性,因此使用RMSE均方根误差不能体现模型预测效果。2.由于LSTM的内部结构相对复杂,当LSTM的时间跨度很大且网络很深时,计算量会非常大,导致训练过程非常耗时。3.训练所用的数据集中的空缺值会导致模型训练缺少连续性,从而降低LSTM模型的预测效果。5.3工作展望1.PM2.5预测问题为多元非线性问题,若将随机森林与LSTM的非线性特性结合,可能进一步提高预测精度。2.除了PM2.5浓度数据,还可以考虑整合气象、交通、工业排放等多源数据,为预测提供更丰富的信息。3.优化对空缺值填补的方法,可以使提高模型训练的连续性,以提高模型性能。总之,基于时间序列预测的PM2.5浓度预测与可视化分析在未来仍有很大的发展空间。通过不断的研究和实践,我们可以期待更准确、更实用的预测方法和系统。参考文献柳建菲.基于时间序列分解的PM2.5浓度预测[D].兰州大学,2021.刘怡伟.基于深度神经网络的几类时间序列预测模型研究[D].大连海事大学,2020.杨海民,潘志松,白玮.时间序列预测方法综述[J].计算机科学,2019,46(1):21-28.杜续,冯景瑜,吕少卿,石薇.基于随机森林回归分析的PM2.5浓度预测模型[J].电信科学,2017,33(7):66-75.PatricioPérez,TrierA,ReyesJ.PredictionofPM2.5concentrationsseveralhoursinadvanceusingneuralnetworksinSantiago,Chile[J].AtmosphericEnvironment,2000,34(8):1189-1196.施小明.大气PM2.5及其成分对人群急性健康影响的流行病学研究进展[J].山东大学学报(医学版),2018,56(11):1-11.石友山.支持向量机在PM2.5预测研究中的应用[J].合作经济与科技,2022(5):48-50范剑辉,杨震,王海波,等.基于不同的神经网络模型PM2.5浓度预测对比[J].青海环境,2018,28(01):39-44.PerezP,SaliniG.PM2.5forecastinginalargecity:Comparisonofthreemethods[J].AtmosphericEnvironment,2008,42(35):8219-8224.曲悦,钱旭,宋洪庆,何杰,李剑辉,修昊.基于机器学习的北京市PM2.5浓度预测模型及模拟分析[J].工程科学学报,2019,41(3):401-407.DOI:10.13374/j.issn2095-938

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论