【基于机器学习的能见度预测方法探究11000字(论文)】_第1页
【基于机器学习的能见度预测方法探究11000字(论文)】_第2页
【基于机器学习的能见度预测方法探究11000字(论文)】_第3页
【基于机器学习的能见度预测方法探究11000字(论文)】_第4页
【基于机器学习的能见度预测方法探究11000字(论文)】_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于机器学习的能见度预测方法研究目录1.绪论 1.1能见度影响因子与变化特征研究背景 1.1.1能见度定义 1.1.2国内研究背景 1.2.1现有能见度预报方法 (1)环境气象数值预报法 (2)基于统计学原理的机器学习预报方法 1.2.2两种预报方法的研究背景 2.资料与方法 2.1试验基地概况 2.2资料来源 2.3资料缺失值处理方法 2.4数据异常值的处理 3.能见度预测模型简介 3.1KNN算法的相关理论 3.2WKNN算法 3.3DWKNN算法 3.4改进的KNN算法 4.实验设计与结果分析 4.1评价指标体系的建立 4.2不同评价指标的变化趋势分析 4.2.2查全率变化趋势分析 4.2.3查准率变化趋势分析 4.2.4F1测量值变化趋势分析 4.3分类性能对比分析 5.结论与讨论 参考文献: 摘要:为了选用合适的方法研究能见度时空变化特征并提高能见度预报的准确率,本文选用了常州金坛市作为研究区域,利用金坛交通气象试验基地数据分析了该地区从2018年11月30日至2019年2月28日的大气能见度的日变化特征以及空间分布特征,并在此基础上归纳总结国内外现有能见度预测研究的方法,提出了KNN算法、WKNN算法和DWKNN算法的原理和公式,将三个月来金坛市气象站所测得的温度、湿度、能见度、风向风速等数据按照2:1的比例划分为训练集和测试集来进行预测研究,汲取其他领域研究方法的优势,构建能见度预测模型。研究结果表明:(1)选用相对湿度、温度等气象因子建立算法模型,按照比例分为训练集和测试集去建立模型算法时发现KNN算法易于实现,但是也不可避免的存在着如何确定合适的k值、对于有些特殊分布的数据处理效果不理想等问题。(2)为了克服关于k值选取带来的影响,利用WKNN算法、DWKNN算法以及改进的KNN算法并将四种算法在分类准确度、查全率、查准率和F1值上进行对比后发现:当k值取不同的值时,所提出改进的KNN算法关于能见度的预测精度总体都是要比前三个算法精度高。关键词:能见度;KNN算法;WKNN算法;DWKNN算法;、KNN的改进算法绪论1.1能见度影响因子与变化特征研究背景1.1.1能见度定义盛裴轩[1]指出:能见度是指一个正常视力的人,在当时的天气条件下,白天能从天空背景中看到和辨认出大小适度的黑色目标物的最大距离。同时大气能见度是空气污染程度的最直观的表现形式之一,当空气污染程度低时,大气能见度就高,反之,大气能见度就低。因此,大气能见度体现了大气的浑浊度,是衡量大气污染的重要物理量之一。大气中各类化学物质吸收散射可见光过程造成的消光作用是影响能见度的因素。同时不同湿度环境下的气溶胶的吸湿增长作用以及气压、风向风速、降雨等气象因素共同决定的污染物扩散条件也会直接或间接地影响能见度。此外,高速公路沿线的地形、水系、植被覆盖等因素也会影响能见度。总之,能见度是较为复杂的交通气象变量。以往研究将能见度划分为以下9个等级。0级:小于等于50m;1级:51~200m;2级;201~500m;3级;501~1000m;4级;1001~2000m;5级;2001~4000m;6级:4001~10000m;7级:10001~20000m;8级:20001~50000m;9级:大于50000m。1.1.2国内研究背景目前,已经有很多国内外学者对大气能见度的时空变化特征和影响因子进行了研究,在国内,黄楚惠和牛金龙[2]结合了低能见度和地面气象要素的关系对四川盆地低能见度时空分布特征研究时发现,盆地的能见度明显要比高原的低且秋冬季节盆地低能见度的分布范围明显要大于夏季。朱国栋等[3]结合民航气象观测和机场运行对能见度的需求,通过图表探讨乌鲁木齐低能见度的日变化特征及低能见度情况下温度、相对湿度、风向风速的特征时,发现低空1600m以下有明显的逆温分布,同时随高度增加相对湿度迅速减小。邓拓[4]利用北京气象站2016年至2017年的每小时气象观测数据建立了引入加权函数的LSTM神经网络能见度预测模型后发现,长短期记忆模型在总体趋势和精度上都有较好的表现,且随着神经网络层数的增多,不仅不能达到改善预测的效果,而且会提高整体的误差。王志宇[5]通过对上海3个研究区域的各3个时间段建立9个基于LightGBM算法的大气能见度预报订正模型时,发现该模型能显著提升原始WRF模式的预报精度。王勇[6]基于对已有能见度研究的总结,结合实际所测的数据、WRF数值预报模式输出数据和EC-thin高空预报数据,将每个特征与其对应的特征贡献使用多项式拟合,生成特征贡献随特征值的变化曲线,并计算这两者之间的关系。范引琪等[7]通过积累百分率分析等方法研究河北省能见度变化特征时发现,河北省的能见度整体呈下降趋势,且夏季的能见度下降趋势最为明显。崔健[8]采用统计方法对江苏省能见度的时空分布进行了研究,结果表明能见度受海陆分布、地形等影响,空间上呈东高西低的特征,时间上夏季最高、冬季最低,且能见度与气溶胶光学厚度和相对湿度呈负相关,与风速呈正相关。崔驰潇[9]分析2012-2014年江苏省沿海高速公路交通气象实时监测数据显示,江苏省沿海高速公路的能见度具有明显的季节和日变化特征,在空间上也具有明显的地段性差异。童彬,等[10]通过对从化区的能见度观测数据进行变化特征和影响因子分析后,发现从化区能见度时间变化特征明显,在日变化周期上早晚能见度低,中午能见度高;在季节变化周期上冬春季能见度低,夏秋季能见度高。姜江等[11]综合多源气象观测数据对北京2007-2015年间能见度变化与影响因子进行了分析,发现北京西北地区的能见度明显高于其他地区,小时能见度呈周期性变化,相对湿度、细颗粒物浓度、风速是对能见度变化最重要的三种影响因子。周开鹏[12]利用环渤海地区2015-2017年226个站点气象观测资料与预报资料进行研究,发现海滨城市夏季比其他季节的平均能见度低,能见度与相对湿度、云量、风向相关。周扬[13]利用上海市气象要素实测数据和WRF模式数值预报数据进行分析,发现了上海市能见度具有明显的年际、月季和日变化特征,春秋季平均能见度呈现从西北至东南方向的递增,夏季呈现从西南向东北向的递减,相对湿度和PM2.5浓度是主要影响因子。1.1.3国外研究背景在国外,20世纪60年代就已经开始着手能见度的研究,80年代后,能见度的研究侧重于大气污染物及对气象条件的细化,取得了一些有益的成功经验。Craig14]将Ridit分析方法运用于美国俄勒冈谷地能见度分析中,结果表明Ridit分析法能统计数据变化的特点。Slone[15]应用Ridit分析法与累计百分率法研究了美国能见度的季节和年际变化特征,讨论了大气污染中的SO2和硫酸盐对大气能见度的影响,并认为气象要素对能见度的影响是呈阶段性的。Doyleetal.[16]使用Ridit分析法分析比较了英国气象局8个地面观测站从1950年至1997年共47年的能见度资料,发现随着大气污染物的减少,能见度逐渐提高。Naegeleetal.[17]对1985-1979年美国18个城市机场的能见度进行趋势分析,发现SO2与能见度呈正相关。Leeetal.[18]根据2015-2016年首尔和春川的检测数据,发现能见度与PM2.5浓度和相对湿度呈正相关;Amanetal.[19]研究分析了泰国东部能见度观测数据,发现能见度呈明显的季节性,在旱季能见度下降明显,同时能见度与PM10和相对湿度呈负相关,与风向具有较强的关系。综合国内外研究发现:能见度变化在年际、月际和日变化上均存在显著的周期性变化和空间变化特征。同时,能见度与大气污染物、相对湿度、干湿球温度、气压、风向风速、降雨等气象要素关系密切。1.2.能见度预报方法的研究进展1.2.1现有能见度预报方法按照以往将对能见度的预测的方法分为两种:一种是基于大气物理化学传输机理的环境气象数值预报方法,另一种是基于统计学原理的机器学习方法[20]。(1)环境气象数值预报法环境气象数值预报的基本思想是将天气模式和大气化学模式耦合,首先要求建立一个较好的能反映预报量变化特征的短期或长期数值预报模型,其误差要小、计算要稳定且相对运算要快的计算方法;其次有能利用各种各样的、时空分辨率高的气象资料和大气环境监测数据。经过三十多年的发展,已经发展到第三代空气质量模型和化学-动力耦合模式,应用比较广泛的有美国环境保护局研制的多尺度空气质量模式Models-3/CMAQ和美国国家大气研究中心、国家海洋大气管理局大气环境预报中心等气象界多所科研机构共同开发的气象化学耦合模式WRF-Chem[21-25]。邢楠等[26]基于2016年冬季北京地区包括温度、相对湿度、动力因素等十个因素在能见度成因分析的基础上利用数值模式、数理统计方法、主客观结合方法建立多元动态逐步回归方法进行能见度的预报。(2)基于统计学原理的机器学习预报方法随着大数据人工智能时代的到来,神经网络、随机森林、决策树等机器学习算法也在不断的发展改进,同时以上机器学习算法应用在大数据处理方面时具有优越性。机器学习算法不仅仅应用在计算机视觉、金融预测、自然语言处理等领域,同时机器学习算法也被用于气象预测领域,为气象研究提供了新的解决思路。因此,越来越多的研究人员开始将机器学习方法应用到各类气象要素预测问题中,尤其是在雷电大风的预测和识别任务中,这是因为机器学习方法具有较强的泛化能力,使其在面对未知气象因素预测时能提高准确度并提高预测工作的效率。同时多数学者是将机器学习算法和气象数据分析得出的影响因子特征相结合后,量化建立相应的预测模型。1.2.2两种预报方法的研究背景在国内,朱国梁[27]基于MLP神经网络利用乌鲁木齐机场2007-2016年的气象观测资料建立了能见度回归预测模型,结果表明该模型能较好的预测出能见度变化趋势,平均绝对误差最低达到了706m。邓拓[28]利用北京气象站2016-2017年的逐小时气象观测数据建立了引入加权损失函数的LSTM神经网络能见度预测模型,结果表明,该模型预测效果优于随机森林和多层感知器,最低平均绝对误差为440m。翟晓芳等[29]选取武汉气象站2013-2014年逐日气象观测资料及空气污染数据作为影响因子,使用支持向量机模型对低能见度天气进行了短期预报,研究发现该方法将平均绝对误差控制在1km内,效果明显优于逐步回归模型且模型性能较稳定。王志宇[30]通过GBDT特征贡献度方法确定输入特征,对上海市大气能见度数值预报产品分时段分区域建立基于LightGBM框架的能见度订正模型,有效提高了WRF数值预报产品的预测效果。王恺等[31]以天津市多种气象要素和空气污染物为影响因子,构建了基于风险神经网络的单站能见度预测模型,实验证明该模型预测效果优于线性回归模型和普通神经网络方法。李昕蓓等[32]基于循环神经网络方法,使用福州地面气象观测资料建立了福州单站能见度未来1小时、3小时、6小时预测模型,相比BP神经网络,该方法具有更精确的预测能力。在国外,Dietzetal.[33]基于树集成学习方法对机场高分辨率观测数据建立预报模型,该方法计算时间极短,能够在短时间内获得高精度的能见度预报值。Herman和Schumacher[34]使用多种机器学习算法对美国四个主要机场开发了能见度统计预测模型,并通过参数交叉验证提升模型性能,在沿海和近海的预测效果较好。Bremnes和Michaelides[35]扩展了标准神经网络方法,使用确定性神经网络为概率神经网络输入变量参数来改进能见度预测模型,并在两个场址上进行了大量测试,结果均好于原有标准方法。Marzban和Leyton[36]使用逐小时地面气象观测数据和中尺度气象模型数据对美国西北部39个机场研发了基于神经网络方法的能见度预测模型,并与逻辑回归和MOS方法进行了效果对比,结果表明神经网络方法优于其他两种方法。Bari[37]使用机器学习技术开发了摩洛哥能见度预测模型,并根据37个气象站真实数据评估其表现,分析表明该模型对白天和夜间能见度区分能力较强,均方根误差达2150m。Ortega和Otero[38]使用机器学习算法基于历史天气数据将能见度分为三类:低能见度、中等能见度和高能见度,尽管取得了较好的结果,但没有提供定量结果,也没有包括时间因素。ZhuLetal.[39]使用来自机场的天气数据的深度学习模型进行能见度预测,其预测范围是0-5km,预测误差为705m。但是WangKetal.[40]在文章中没有提供模型结构的细节,仅仅提供了其使用的神经网络类型:多层感知器(MLP)。同时该文献中的训练样本和测试样本是随机分割的,在处理时间序列数据预测时被认为是不正确的。研究人员还提出了神经网络在能见度估计方面是否优于传统统计工具(如线性和逻辑回归)的问题,得出结论认为神经网络能够产生更好的能见度估计。Ortega[41]使用佛罗里达地面气象站的时间序列数据对比了五种预测能见度的机器学习模型。这些模型分别为:多层感知器(MLP)、传统卷积神经网络(TCNN)、全卷积神经网络(FCNN)、多输入卷积神经网络(MICNN)、长短期记忆网络(LSTM)。其中有三种不同的基于CNN架构建立的模型,这些模型是为了从原始输入数据中提取特征。尽管序列数据的LSTM模型取得了成功,但部分文献[42]表明,在输出最近预报量的时间序列上存在问题,在能见度预报问题上并未被证明是有效的。LSTM模型被构建为一步预测模型,并预测下一小时(t+1)的能见度值。同时考虑了三种情况作为前期步骤输入:3小时输入数据、6小时输入数据和9小时输入数据。数值结果表明,当预测数据采集站当地的能见度时,MICNN模型对于3小时输入数据和9个6小时输入数据获得最佳平均结果,而FCNN对于6小时输入数据获得部分最佳结果;但对于相近地点,LSTM获得了3小时输入数据的最佳结果,MLP获得了6小时输入数据的最佳结果,而MICNN获得了9小时输入数据的最佳结果。2.资料与方法2.1研究区概况金坛市隶属于江苏省常州市,地处江苏省南部,东与常州市武进区相连;西界茅山,与句容市接壤;南濒洮湖,与溧阳、宜兴市依水相望;北与丹阳市、镇江丹徒区毗邻。京沪铁路、沪宁高速公路、常州港、镇江港、常州奔牛国际机场临近金坛区北侧。金坛市全市总面积975.46km2,其中陆地面积781.27km2,水域面积194.22m2。它属于北亚热带季风区,四季分明;雨量充沛,日照充足。地势自西向东倾斜,西部为丘陵山区,最高山峰茅山大茅峰海拨372.5m,东部为地势低平的平原。金坛有丰富的土地资源和水资源,山丘、水面、平原齐全,条件优越,为农、林、牧、副、渔和工业、交通、旅游等的全面发展提供了有利条件[43]。2.2资料来源本文数据选用了自2019年12月1日至2019年2月28日金坛市交通气象试验基地每隔一分钟所测得的温度、相对湿度、能见度、风向风速等数据,本研究所使用的数据是按照2:1的比例来划分,即前两个月的数据作为训练集,最后一个月的数据作为测试数据。2.3资料缺失值处理方法缺失值从缺失的分布来讲可以分为完全随机缺失、随机缺失和完全非随机缺失。缺失值的处理方法从总体上分为删除存在缺失值的个案和缺失值插补。对于主观数据,人为影响数据的真实性,存在缺失值的样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据一般不推荐插补的方法。插补主要是针对客观数据,它的可靠性有保证。本文选用的是K最近邻算法(K-NearestNeighbor,KNN),其思路是考虑相邻样本数据之间的距离,选取最接近的几个观测的平均值或距离加权作为有缺失的样本的填补值,一般采用欧几里德距离进行计算。本文选取该方法进行数据缺失值填补。其中计算N维特征空间中X=x1,x2,…,xn−1distanceX,Y=i=1nx2.4数据异常值的处理异常值的存在会对分析结果(平均值与标准差)产生重要的影响,异常值的检验与正确处理是保证原始数据可靠性、平均值与标准差计算准确性的前提。本文选用金坛基地的数据都是用3倍滑动标准差来进行质量控制的即3δ原则。3δ原则[44]是在数据整体上符合正态分布的前提下,正态分布是99.7%的数据均落在3倍标准差中,因此当数据落在3倍标准差外,则可将其视为异常值。若不服从正态分布时,可以通过计算其与平均值的标准差的倍数来确定,在检测异常值后,将其删除后作为缺失值进行后续数据预处理。3.能见度预测模型简介3.1KNN算法的相关理论 数据预处理是数据挖掘里一项重要的任务。在大数据时代,无论是什么领域都需要在海量的数据中寻找有价值的信息,而预处理成为其中一个必不可少的环节。KNN算法是数据挖掘最经典的算法之一,作为数据分析领域最重要的分支之一它自然成为了预处理大家庭中的重要成员。KNN算法(K-nearestneighbor)是一种广泛使用的回归方法,是一种非参的,惰性的算法模型。非参的意思并不是说这个算法不需要参数,而是意味着这个模型不会对数据做出任何的假设,与之相对的是线性回归(我们总会假设线性回归是一条直线)。也就是说KNN建立的模型结构是根据数据来决定的,这也比较符合现实的情况,毕竟在现实中的情况往往与理论上的假设是不相符的。惰性是指逻辑回归需要先对数据进行大量训练(tranning),最后才会得到一个算法模型。而KNN算法却不需要,它没有明确的训练数据的过程,或者说这个过程很快。 KNN算法根据参数和数据的相似程度,从给出的历史数据中寻找到与当前状态最为接近的近邻值用于预测。它的主要内容是:在特征空间里,若与还未分类的样本相似度最高的k个样品中大多数都属于同一种类型,那么还未分类的样本同样也属于这一类型,即KNN分类算法是按照k个最近邻样本的类别来判断分类的样本所属类别。 在分类过程中,令T=xn∈Rdn=1N (1)对还未分类的样本x:从集合T中找到k个最近邻,并用T=xiNN,ciNNi=1dx,xi (2)x的类标签是通过其邻居的多数投票来预测,c代表类标签,ciNN表示x的k个近邻中的第i个近邻的类标签,δc=ciNN表示一个指示函数,当近邻的类标签xc'=⁡argmaxc3.2WKNN算法 KNN算法易于实现,但是也不可避免的存在着一些问题[45],例如如何确定合适的k值、对于有些特殊分布的数据处理效果不理想以及尽管使用了赋权方法尽可能还原数据的客观关系,但当数据不平衡的时候,算法依然会产生不太理想的结果等等,而为了克服这些缺点,研究者们提出了很多具有针对性的改进算法。 Dudani[46]提出了一种加权投票的方法,也称为距离加权k最近邻(WKNN),它是一种关于距离的投票加权方案,WKNN算法的原理是根据k个近邻与待分类的样本之间距离为近邻分配权重,最远的邻居权重是0,最近的邻居权重是1,其他邻居的权重通过线性映射进行缩放。它的加权函数公式(3-3)如下(xiNN表示待分类x总体k个最近邻中的第i个,根据k个最近邻与x之间的欧式距离按照递增顺序排序。)wi=dk因此,通过多数加权投票来做出待分类样本的分类结果公式(3-4)如下:c'=⁡argmaxc3.3DWKNN算法 为了进一步克服关于k值选取带来的影响,J.Guoetal.[47]提出了双重加权k最近邻算法(DWKNN),这个算法拓展了之前Dudani提出的加权投票算法的线形映射,其中最近和最远的邻居它们的加权方式与线性映射相同,但是能给它们之间的邻居分配的权值就比较小。根据k个最近邻到待分类样本x之间的距离分配权重,离x最近的邻居具有最大的权值。DWKNN算法的加权函数公式(3-5)如下: wi=dk−di 因此,我们用k个最近邻的多数加权投票对待分类样本x进行分类公式(3-6)如下: c'=⁡argmaxc3.4改进的KNN算法 虽然之前介绍的WKNN算法和DWKNN算法相比于KNN算法表现更好,但是他们仍然对k值非常敏感以至于分类性能也受其影响。由于分类性能除了受k值影响也受距离指数的影响,本文对应提出了一种改进版的KNN算法。假设训练集T=xn∈(1)在训练集T里找到x的k个最近邻,令T=xjNN,cjNNwj=exp⁡d(2)通过对待分类样本x的k个近邻进行多数加权投票,将x划分为类,公式(3-8)如下:c'=⁡argmaxc 以上可以分析出,当k取1时,不管是改进的KNN算法还是WKNN算法和DWKNN算法结果都相同,因为这时最近邻的权重是1。 4.实验设计与结果分析4.1评价指标体系的建立为了比较在不同算法的分类效能,需要有能够具体评价的指标。对于分类效果的评价既要能够体现对于类别平均的比较,又要注重对样本平均的评价。即宏观上和微观上都要有所评价。因此,利用以下四个指标构成的评价体系来比较:(1)精确度(C)衡量分类的精确度比较常用的方式是分类正确的样本数的占比,即公式(4-1)如下:C=(4-1)其中A表示所有样本中分类正确的数量,B表示所有样本的数量。(2)查全率(R)查全率是微观上的评价,在求得对于某一个具体的类,在该类中分类正确的样本占比之后,对所有的类做一个综合,即公式(4-2)如下:(4-2)其中,,表示对于具体的类m,在该类中分类正确的数量,表示该具体类中所有样本的数量。(3)查准率(P)查准率同样也是微观上的评价,在求得对于某一个具体的类,在该类中准确预测的样本占比。即公式(4-3)如下:(4-3)其中,,表示对于具体的类,在该类中准确预测的数量,表示在该具体类中所有样本的数量。(4)F1度量值F1的度量值的计算公式(4-4)为:(4-4)R为查全率,P为查准率。4.2不同评价指标的变化趋势分析对于K近邻及其改进算法,显然,K的取值大小是影响分类性能的其中一个关键因素,因此,研究分类效果并不能将K的取值割裂开,在将不同算法进行比较之前,分析不同评价指标随着K的取值变化而变化的趋势。4.2.1分类精度变化趋势分析由图4-1可知,KNN算法是最不稳定的,波动起伏比较大,而EWKNN算法(即改进的KNN算法)是最稳定的,分类精度一直维持在最高的水平几乎没有波动。WKNN和DWKNN算法比较稳定,在K的取值到达一个值之后分类精度急剧下降并重新稳定在某一个水平上。综合看,四种算法的分类精度都是在K的取值较小时候分类精度较高,K的取值较大时候分类精度较低,说明,在KNN算法和KNN改进算法中,K的取值都不能过大,应该维持在小于11的范围里。根据KNN算法的分类精度随着K的取值变化趋势可以看出,在K小于11的范围里,并不是K越小越好,K取值为4的分类精度小于K取值大于4小于11的分类精度。图4-1精度变化趋势图4.2.2查全率变化趋势分析由图4-2可以看出,KNN算法是最不稳定的,起伏波动很大,但是在K的取值为5到10的时候,它是稳定的,维持在固定值的水平上,但是在K取11的时候,剧烈下降,而后重新稳定在固定值水平但是低于剧烈变化前的水平。而其他三种算法都是比较稳定的,并没有剧烈变化,其中EWKNN算法最稳定,并且查全率最高,其他两种算法次之。综合观之,K的取值相对较小的时候,查全率较高,取值较大时候,查全率会有所降低,但是对于KNN算法虽然有此趋势,并不是一直有此变化趋势,比如在从11到12的时候,虽然K的取值变大了,但是查全率是变高的。图4-2查全率变化趋势图4.2.3查准率变化趋势分析从图4-3可以看出,KNN算法的查准率随着K的取值变化是最不稳定的,但是取值在5到10的时候是非常稳定的,K的取值11之后查准率便开始下降并在12的时候稳定在一个固定值水平。相比较而言其他三种算法是比较稳定的,其中EWKNN算法是最稳定的,一直保持在一个固定大小的水平上,并且查准率一直保持在最高的水平,其他两种算法的查准率在K的取值小于某个值的时候,也是最高的,和EWKNN算法同等大小,但是大于这个值的时候,EWKNN继续维持最高水平,而其他两种水平急剧下降并且重新稳定。综合而言,K的取值比较大的时候,查准率较高,K的取值比较小的时候,查准率较低。但是KNN算法的查准率比较特殊,虽然综合来说是该趋势然而并不稳定。图4-3查准率变化趋势图4.2.4F1测量值变化趋势分析由图4-4可知,对于F1测量值,KNN算法是最不稳定的,起伏波动很大,但是在K的取值在5到10之间和12到14之间是稳定的,然而总体而言还是不稳定的。其他三种算法都是比较稳定的,并没有急剧变化情况,其中EWKNN算法是最稳定的并且一直保持最高水平,其他两种算法在K的取值到达某一个值之后开始下降并且重新稳定在一个稳定值的水平。综合而言,K的取值较大时候,F1测量值较大,K的取值较小时候,F1的测量值较小,但是对于KNN算法虽然有该趋势却不是绝对的。图4-4F1测量值变化趋势图4.3分类性能对比分析根据以上分析可知,不同的K取值评价指标的值是不一样的,因此,欲通过评价指标体系比较不同算法的分类性能必须固定K的取值。在本节中,固定K的取值为11,对比它们的分类性能。根据上一节的分析可知,虽然不同算法的随着K的取值的变化趋势各不相同,但是每一个取值都有代表性。因此本节所做的对比分析是有说服力的。表4-1K=11时各类评价指标对比表指标算法KNNWKNNDWKNNEWKNN分类精度(C)82.3188.2988.2390.25查全率(R)71.7880.3180.3683.88查准率(P)85.1088.3288.3387.27F1测量值77.8984.1184.1285.54由表4-1可知,对于分类精度、查全率、查准率和F1测量值,EWKNN算法比KNN算法分别增加了7.94%、12.1%、2.17%、7.65%,除了查准率增加幅度都是KNN改进算法中在四种算法中最大的外,对于查准率,WKNN和DWKNN两种算法增加幅度相差不大,分别为3.22%和3.23%,说明对于查准率,这两种算法的效果是几近相同的,且优于另外两种算法KNN和EWKNN。综合而言,KNN改进算法中EWKNN是分类性能最好的,性能远优于KNN算法。5.结论与讨论通过利用基于机器学习的四种算法对金坛国家交通气象观测基地大气能见度预报的训练和测试研究,得到以下结论:(1)从试验的过程和结果来看,KNN、WKNN、DWKNN这三种算法基本都能达到预测能见度的要求。但是当某地区温度、相对湿度、风向、风速等天气条件较为复杂时,即样本分布不均匀的时候,这三种算法在针对样本分类问题上会有相对较大的误差,而本文提出的改进的KNN算法考虑到了利用基于新的权值函数作为不同的近邻而分配不同的权值,在分类性能上面对选择不同k值的敏感性具有鲁棒性,即就算样本类别分布不均、气象条件较为复杂时分类性能也能保持在较高的水准。(2)由于本文所选用的关于能见度预测方面的数据有限,仅仅选用了自2019年12月1日至2019年2月28日三个月以来金坛市交通气象试验基地所测得的数据,其代表性不够。未来随着发现影响能见度因子的增加,可以进行更全面、更深入的分析,加入更多的预测因子以提高不同气象条件下能见度预测的精确性。本文基于改进的KNN算法提高了能见度预测的分类精度及其稳定性,但是此算法的时间复杂度还有很大的提升空间,今后可以在算法效率上进一步优化。参考文献:盛裴轩.大气物理学[M].北京大学出版社,2013.黄楚惠,牛金龙,陈朝平,等.高原山地气象研究[J].2019,39(4),67-73.朱国栋,朱蕾,王照刚.乌鲁木齐机场低能见度天气的特征分析[J].中国民航飞行学院学报,2020,31(5):65-68+72.邓拓.基于LSTM神经网络的机场能见度预测[D].山东大学,2019.王志宇.基于LightGBM框架的上海市大气能见度预报订正研究[D].华东师范大学,2019.王勇.基于多源数据和XGBoost算法的上海市能见度预测模型研究[D].华东师范大学,2019.范引琪,李二杰,范增禄.河北省1960-2002年城市大气能见度的变化趋势[J].大气科学,2005,36(4):24-33.崔健.江苏省能见度时空分布特征及其影响因子分析[D].南京信息工程大学,2015.崔驰潇.江苏沿海高速公路雾的时空分布特征与数值模拟研究[D].南京信息工程大学,2015.童彬,陈柏富,吕海勇.2016年从化大气能见度变化特征及影响因子分析[J].广东气象,2018,40(5):45-47.姜江,张国平,高金兵.北京大气能见度的主要影响因子[J].应用气象学报,2018,29(2):188-199.周开鹏.环渤海地区能见度特征及预报研究[D].兰州大学,2019.周扬.上海市能见度时空特征及预测研究[D].华东师范大学,2020.CraigCD,FaulkenberryGD.Theapplicationofriditanalysistodetecttrendsinvisibility[J].AtmosphericEnvironment(1967),1979,13(12):1617-1622.SloaneCS.Visibilitytrends—II.MideasternUnitedStates1948—1978[J].AtmosphericEnvironment(1967),1982,16(10):2309-2321.DoyleM,DorlingS.VisibilitytrendsintheUK1950–1997[J].AtmosphericEnvironment,2002,36(19):3161-3172.NaegelePS,SellersWD.AstudyofvisibilityineighteencitiesinthewesternandsouthwesternUnitedStates[J].MonthlyWeatherReview,1981,109(11):2394-2399.LeeYH,KwakKH.UsingvisibilitytoestimatePM2.5concentrationtrendsinSeoulandChuncheonfrom1982to2014[J].JournalofKoreanSocietyforAtmosphericEnvironment,2018,34(1):156-165.AmanN,ManomaiphiboonK,PengchaiP,etal.Long-termobservedvisibilityinEasternThailand:temporalvariation,associationwithairpollutantsandmeteorologicalfactors,andtrends[J].Atmosphere,2019,10(3):122.王勇.民航地面气象观测中的能见度分析[J].科技经济导刊,2020,28(3):72+71.SkamarockWC,KlempJB,DudhiaJ,etal.AdescriptionoftheadvancedresearchWRFversion2[R].Na

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论