智能交通数据预处理算法研究及应用样本_第1页
智能交通数据预处理算法研究及应用样本_第2页
智能交通数据预处理算法研究及应用样本_第3页
智能交通数据预处理算法研究及应用样本_第4页
智能交通数据预处理算法研究及应用样本_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1绪论1.1智能交通研究背景交通可以将人和物之间互相联系起来,在都市建设、发展和寻常运营中起到了重要作用,咱们出行使用交通工具无不处在复杂交通线路中,通过这些线路,咱们可以到达咱们想要前去地点。在技术不断发展和进步中,交通也变得越来越安全、便利、不再昂贵运送成本,每次交通方面进步都会影响到诸多行业发展,带来新就业机会,为都市发展带来利好。公路是都市血管,公路上车辆便是都市血液,都市寻常运作和社会发展离不开公路,得益于国内“入世”后来国民经济腾飞和技术进步,汽车业发展也随着着人民生活水平提高迎来了自己春天,便利交通对经济进一步发展和人民生活便易又提供了新生机,但事物具备两面性,既有道路已经局限性以消化日益增长交通工具,问题正逐渐进入人们视线,拥堵问题、秩序杂乱无章、交通事故频发、尾气排放等是其重要体现形式[1]。在过去几十年中,诸多都市交通问题已经随着都市发展变得越来越严重,既有基本设施已然局限性以消化过多车辆,而糟糕交通又限制了社会经济发展,同步耗费了多余化石燃料,破坏环境。随着人口不断膨胀,车辆保有率不断增长,既有交通状况将变得更加糟糕。深处世界洪流中华人民共和国内也不例外,自上个世纪末起,国内道路拥挤问题已初现端倪,近年来国内国力迅速增强,交通问题更加限制了经济持续发展和人民生活水平进一步提高,公安部官方数据给出,截至年终,全国机动车保有量达2.79亿辆,全年新注册登记汽车2385万辆,保有量净增1781万辆,所有达到历史最高水平。如此天量汽车行驶在全国公路上,势必会导致拥堵,导致经济损失,更为严重者已经严重威胁了人们生命,全球每年超百万人死于交通事故。因此,咱们必要注重交通问题并谋求解决方案。为此,世界各国采用了各自对策,但收效甚微。通过长期摸索与经验积累,人们发现,诸多导致交通拥挤因素中,最为主线因素就是供求两者间不平衡关系,一方面可以新建道路,提高总体容量,但通过调查发现,国内某些大都市在上下班等高峰期,大多数公路都处在拥堵状态,但某些道路使用率依然不高,因此仅仅采用简朴新建道路、扩建道路是不能从主线上解决问题,特别对于发展得比较成熟都市而言,都市早已形成规模,交通系统繁杂,格局不适当变化,可分派用于道路建设土地越来越少,因而不能仅从某一方面(例如道路方面或车辆方面)来解决有关问题,成本过高、污染环境,并且此法对于纾缓交通、提高运送效率作用并不十分明显[2]。由此看来,综合考虑各种因素,要想有效地解决道路问题,就要充分运用既有道路资源、合理分派车流量,就成了当前工作重点,详细就是采用各种高科技手段相配合改造老式运送体系办法便成了最优解,即综合考虑司机、交通工具、环境智能交通系统(ITS)。1.2智能交通和数据预解决有关简介1.2.1智能交通有关简介及国内外发展概述智能交通系统(IntelligentTransportationSystem,即ITS),是将来交通系统发展方向,它是将先进信息技术、数据通讯传播技术、电子传感技术、控制技术及计算机技术等有效地集成运用于整个地面交通管理系统而建立一种在大范畴内、全方位发挥作用,实时、精确、高效综合交通运送管理系统[3]。智能交通目的就是,对交通状况和交通数据感知采集,将各感知终端信息进行整合、转换解决,以支撑分析预警与优化管理应用系统建设,分析预测及优化管理应用重要涉及交通规划、交通监控、智能诱导、智能停车等应用系统。在没有新建道路状况下,充分运用既有资源,减轻道路承担和环境污染,使道路在安全前提下被更充分地运用,由此,各国越来越注重智能交通建设。智能交通分为四个子系统,分别为:车辆控制系统、交通监控系统、车辆管理系统、旅行信息系统。车辆控制系统,指辅助驾驶员驾驶汽车或代替驾驶员自动驾驶汽车系统,可以精确地判断车与障碍物之间距离。交通监控系统类似于机场航空控制器,它将在道路、车辆和驾驶员之间建立迅速通讯联系。车辆管理系统可以实现驾驶员与调度管理中心之间双向通讯,来提供商业车辆、公共汽车和出租汽车运营效率。旅行信息系统专为外出旅行人员及时提供各种交通信息系统。四个子系统如下图。图1-1智能交通子系统[4]Figure1-1Intelligenttransportationsubsystems智能交通系统(ITS)是一种繁杂系统总称,以管理和控制为基本,依托交通信息提供服务,同步着重提高道路使用效率,由此可以缓和道路拥挤,有助于出行,当前此办法受到各国注重和大力推广。它集各种高新科技之大成,需要极强综合性,然而现行某些智能交通系统并没有综合运用各种资源,而是各自为政、自扫门前雪,没有形成信息实时共享,如此这般,信息溃散、高能低效,并没有达到“智能交通”本来目。因此对于智能交通来说,其很重要一方面就是资源、数据共享,在保证尽量全面、实时地收集大量静态和动态数据信息同步还要兼顾各交通资源之间数据整合、输送、融合、分析和运用。这就需要各部门互相协调、分派工作,综合考虑时间、地点、环境,将采集到天量数据进行实时共享,这是非常重要。而实时共享,就需要依托信息技术在各单位之间建立一种统一且规范组织平台,以供信息共享与交流,各部门可充分运用平台中所有数据,综合分析,给出最合理最有效解决方案,此举大大提高智能交通系统综合性能,同步提高出行效率,增长效益,保护环境[5]。智能交通是一种包括了多方面高新技术复杂系统总称,它浮现解决了诸多道路交通问题,当前国际上将ITS项目分为七大类。图1-2智能交通项目分类Figure1-2IntelligentTransportationProjectClassification在智能交通方面走在世界前列是美国、欧洲、日本。她们社会发展相对成熟,更超前,因此较早涉足智能交通领域,且有关研究由国家带头,联合社会各界,各取所长,共同实现了智能交通研发、改进与应用。美国于上世纪六十年代着手开发电子导航系统,并于80年代末期提出了有关战略筹划,投入巨资联合各单位共同参加项目,在智能交通各系统领域获得了长足进展。进入新世纪后,已经建立了智能交通四个系统及众多下属系统行业原则,信息平台建设也越来越完善。早在三十年前,欧洲便开始了对智能交通研究和其信息共享平台建设,两年后,欧洲十国又将研究领域延伸到道路自身和车辆设备,通过不懈努力,到当前,已有很大一某些理论研究被应用到实际当中,并为国家带来了明显经济利益。日本对于智能交通研究稍晚欧美几年,但这并不妨碍日本在有关领域领跑地位,日本持续几年内完毕了系统开发与原则制定,并应用于国家重要公路。日本高效源于政府从始至终参加,使各处力量集中在一起攻坚克难,这样就使日本获得了不俗成绩。国内最初涉足智能交通领驭时间可以上溯到上世纪八十年代,当时,交通部提出分批次对五个交通领域进行研究,并系统地应用于实际。进入新世纪后,国内于依照国内国情构建了智能交通规则系统,后又成立了十个试点都市,并在试点都市中开始了有关工程项目建设,国内智能交通重点之处是信息交流平台建设,随着科技不断进步,各种通信手段日渐成熟,信息采集系统功能不断完善,为国内智能交通进一步建设奠定了夯实基本,但即便如此,当时国内在信息平台建设上还处在初级阶段,多数都市依然依托原始信息系统,或直接进口国外先进软硬件。北京奥运会成功举办也加速了国内智能交通发展,同步借鉴国外成功或失败经验,咱们很有也许“后发制人”[6]。时至今日,国内大都市普遍成立了各种独立交通道路指挥中心,某些中小都市也在积极推动有关项目,由此可知,智能交通在国内发展是历史发展必然选取和趋势。1.2.2数据预解决有关简介数据预解决是指在重要解决此前对数据进行某些解决。众所周知,只有依托精准数据才干做出精确决策,由于电压突变、外界震动、电磁干扰、仪器故障、环境条件等引起了测试仪器测量值异常或被测物品位置相对移动,就会产生异常数据。发现异常数据并剔除或做出恰当修改会对将来对的决策起到核心作用。然而对于一切系统,都没有足够把握让数据完全干净,这将导致数据挖掘自身质量不高。在数据挖掘过程中会由于噪声和冗余导致混乱,导致不精确输出。过多冗余就会在摸索知识途中导致性能减少并导致混乱,此时咱们就通过数据预解决技术提高数据精确性,进而提高后期数据挖掘性能[7]。数据预解决模块是数据挖掘系统完整必要保证,它目是发现任务,用新型模型整顿数据,排除无关属性,使数据更加精准、干净、有更强针对性,通过数据预解决可以提高工作效率。实际应用到数据大某些是不完整,由于脏数据存在,数据挖掘不能直接进行,或得出成果并不令人满意,为了应对这种状况,数据预解决技术就此产生,数据预解决意义就是:为了得到更高质量数据成果,在数据挖掘前要进行数据预解决,由此可以对数据做出调节,使数据更符合需求,更有效并更精确,同步去除无关项,使数据质量更高。通过大量数据解决可以抹去噪音。同步存储已被整合数据,数据变换同理。举个例子,规范化有助于提高某些用于测距挖掘算法有效性和精确性[6]。数据预解决有诸多方式:数据清理、数据集成、数据变换、数据归约等。要在数据挖掘前应用这些技术,由此提高挖掘质量,减少数据挖掘时间。数据清理重要任务是使格式原则,剔除异常数据,改正错误,剔除重复数据,即补充缺失数据、平滑噪声、找出并剔除某些点来解决不一致性。数据集成就是建立数据库,将数据合并在一起。由于普通状况下数据挖掘工作量很大,在某些数据挖掘上耗费较长时间,通过数据归约可以极大地简化工作,同步保证原始数据无损,并可以得到与未归约近乎相似成果[8]。对于某些工程公司(例如汽轮机厂等),客观存在着某些现象,例如,重复设计后零件进入生产,这就导致了零件和文献数量过于庞大,生产过程杂乱无章,抬升了成本,不能准时完毕任务。可以分析该公司产品过往数据并制定特定算法,有助于工作人员理解本公司历史产品、有关零部件和其过去运用状况。在汽车领域,数据预解决同样发挥着其重要作用,公司为顾客提供更细致、更原则服务,就要采集海量数据,车企人员已经开始注重数据采集、分析,但在使用方面依然不能做到完美。国内汽车公司基本较国外较差,有很大改进潜力,在这样大环境下,数据挖掘就会对公司自身发展有很大增进作用,可以在已采集到数据中抽出修理与养护数据,进行数据清理、抽取、转换、加载,并为汽车售后单独建立一种数据库,运用有关规则分析数据,对数据进行解决[9]。1.3本文重要研究内容交通系统重要特性之一就是其变化性,由于它是一种由人类干预、随时变化且繁复系统,数据会随时间地点变化而变化,交通占有率、速度、流量等数据也会随之变化,由此导致相应误差。在发送过程中设备故障、线路故障、交通事故或其她因素干扰下,自然会浮现数据缺失与数据异常,若不经解决,将这些数据直接反馈给交通,就会带来安全隐患。因此,要尽量地保证数据精确、有效。本文重要目就是解决以上问题,本文简朴简介了智能交通研究背景,世界各国发展历程,数据预解决有关办法,重要研究了面对智能交通系统数据预解决办法,涉及缺失数据补偿、异常数据剔除等,运用Matlab编写有关程序,得出仿真,对成果进行分析,针对不同剔除和补偿办法做出对比,并对将来智能交通发展前景做出预测与猜想。2面向智能交通系统数据预解决技术随着传感器技术日益进步,咱们能轻松地在特定环境下采集某些数据,但其自身并不完美,加上外界环境干扰,通过仪器收集到数据不能保证精确,而这些不精确数据势必会影响到接下来对于数据解决,因而在应用前,咱们要对数据进行预解决,重要分为两大某些,对于异常数据就要将不合乎常理数据进行剔除,对于缺失数据就要依托手段来进行补偿。如下简要简介了现阶段比较流行几种数据预解决算法。2.1智能交通数据预解决综合简介信息是智能交通系统核心,系统各项功能都紧扣信息技术,交通信息获取与传播则为实现子系统独立功能和子系统之间联系提供了充分保障。动态交通信息系统浮现更好地解决了这些问题,系统收集占有率、速度、流量等信息通过解决再呈现给驾驶员,其具备实时性,可以迅速采集并发布信息,使交管人员和驾驶员等即时知晓交通现状[10]。而动态指系统可以将不断变化信息之间做出对比、分析,通过成果交管人员和驾驶员就可以懂得道路状态异常[11]。若按照功能分,动态交通信息系统分为三种数据流,规定数据精确、完整、时效。图2-1动态交通信息系统数据流Figure2-1DynamicTrafficInformationSystemdataflow随着各类因素(例如时间、道路)变化,智能交通系统采集到数据也随之变化,其具备高度不拟定性和随机性,由此引起大量噪声与误差,提高数据质量核心之一就是智能交通系统数据预解决,涉及缺失数据补偿、异常数据剔除。由此可见,为从在种种不利状况下收集到智能交通数据中找到其自身法则,便于数据管理与应用,应寻找适当智能交通系统数据预解决办法[12]。总来讲,都市中智能交通要实现四个目的如下图:图2-2都市交通四个目的Figure2-2Fourgoalsofurbantransport2.2进行数据预解决因素、目及意义数据预解决因素是:在现实世界中存在着大量缺失不干净数据,其中某些属性不总是可应用,某些数据由于录入时被以为无关紧要而没有包括在其中。没有记录某些数据也也许是由于理解上偏差或设备浮现故障。除此以外,历史记载或修改数据也许会忽视,也可以提出某些一致性不好数据,并且要推断出缺失数据来[13]。为了使数据质量更高,更加有效、容易地进行数据挖掘从而提高挖掘质量是数据预解决目。数据预解决重要目是清除掉数据中噪声、空缺值、不一致数据等。对于空缺值解决,普通有忽视元组、人工填写空缺值、使用全局常量填充、使用属性平均值填充、使用与给定元组同一类样本平均值填充、使用最也许值填充等办法。需要注意是,在进行数据挖掘之前,需要对前期数据做出整顿[14]。由此可见,数据质量提高和数据预解决是分不开,数据预解决有诸多重要意义[15]:(1)智能交通系统会采集到诸多实时数据,用过去人力来辨认异常数据和缺失数据并作出剔除和补偿不能较好地解决问题;(2)持续不断地工作和错综复杂环境大大提高了各种设备浮现不敏捷、故障、损坏也许性。(3)由于对于数据精度和质量规定原则不同,就需要系统有针对性地给出不同解决方案。由以上可见,对数据进行预解决可以在一定限度上是数据质量更高,提高数据挖掘精度,性能更好。总来说,就是通过数据预解决可以提高数据质量和可用性,进而提高数据融合质量,依托精确信息才干做出对的判断,并有针对性地采用有效办法。2.3智能交通数据预解决惯用办法随着科技发展,传感器也日臻成熟,但其自身不也许是完美,由于自身短处活着所处外在环境影响,经由传感器采集到数据不也许是百分之百精确,而不精确数据会直接影响将来数据分析与解决,并且影响会很大。因此,在应用之前,咱们要对采集到数据进行整顿,对数据进行整顿阶段就叫数据预解决,智能交通数据预解决重要涉及两个某些:异常数据剔除和缺失数据补偿。2.3.1异常数据剔除对于异常数据,是指咱们实际测得不符合常理数据或与合理范畴偏差较大少某些测量值。异常数据是不真实,不总浮现,并且带有随机特性,这会影像数据质量,依托传感器采集数据时,也会产生异常数据,引起异常重要因素就是传感器自身故障,偶尔也会浮现某些不经常发生但影响较强干扰。在智能交通领域,对于异常数据剔除有如下几种办法[1]:=1\*GB3①阈值法:即依照常理及有关规定给出某些交通参数上下限,超过此范畴数据则被认定为异常值。=2\*GB3②交通流机理法:依照交通流机理某些规则,例如流量和占有率关系,流量和速度关系,行程时间和拥挤长度关系等等,如果采集到数据不符合这些规则,则某些数据就是异常。=3\*GB3③置信距离检查法:或者“决策距离”比较。这个办法检测来自某一断面各个传感器相似参数,依照一致性融合,融合互相支持数据,剔除不支持数据,得出最后成果。=4\*GB3④格拉布斯记录法:如果某一组数据服从高斯分布,依照概率论懂得,大某些数据都分布在合理区间内,只有少某些异常值在区间以外,通过这种思想,我就可以将异常值剔除。需要注意是,这种办法最佳应用在传感器较多时,若较少则误差较大。=5\*GB3⑤有序样本聚类:这种办法是将相似数据构成群组,在这一类群组之外数据则为孤立。采用此法把某一时段交通参数提成诸多特性相似时间段,然后依照某些特性在各种时间段里找出异常数据。2.3.2缺失数据补偿在智能交通领域,对于缺失数据补偿有如下几种办法:=1\*GB3①历史均值法:依照历史记录数据直接应用或按一定比例更改数据来代替缺失数据,这种办法操作简朴,但由于其自身特性限制,这种办法合用于交通状况比较稳定期候。=2\*GB3②车道比值法:这种办法原理是根据已记录不同车道流量之比,对缺失车道数据进行预估补偿,这种办法综合考虑了过去和当前各个参数,精确度较高,合用于车流比较大,车道状况稳定状况。=3\*GB3③时间序列法:把各个交通参数当作时间序列,应用不同步间预测办法,例如加权平均、指数平滑、简朴平均等等,以历史数据为根据对缺失数据进行预计补偿,此法操作简朴,容易执行,且具备普适性,是一种普遍应用补偿办法[16]。=4\*GB3④有关分析法:这个办法是在时间序列中测量各个元素之间关系,需要丢失数据时刻先后各一段时间数据为基本来进行预估,在正常状况下此法精度是很高,但交通事故会影响交通正常运营,对成果产生影响,应当在应用迈进行交通事故判断,如有交通事故,则换用她法。=5\*GB3⑤基于遗传算法组合模型:这种办法基本思想是综合应用各种办法对采集到数据进行补偿,通过对不同补偿办法得到成果进行加权平均,历史经验表白,这种办法精确度更高,但其代价就是需要计算各种算法,比较复杂,在普通状况下不建议采用此办法[17]。3本文算法基本理论对于数据预解决中异常数据剔除和缺失数据补偿,本文各简介了三种办法,异常数据剔除,本文重要简介了3𝜎准则法、阈值法、t分布法;缺失数据补偿,本文简介了历史均值法、时间序列法和一种数据补偿新办法-各种补偿办法权重计算下面给出了本文算法理论基本和有关简介。3.1异常数据剔除3.1.13𝜎准则法3𝜎准则又称为拉依达准则,它是先假设一组检测数据只具有随机误差,对其进行计算解决得到原则偏差,按一定概率拟定一种区间,以为凡超过这个区间误差,就不属于随机误差而是粗大误差,具有该误差数据应予以剔除。3𝜎准则在科研、工程等领域惯用于剔除异常数据,但需要注意是,只有数据总量较大时才可使用此办法,至少也要10个数据以上,若数据总量过小,测量成果虽然具有异常值也很难剔除,数据总量不大于10时视为无效。同样,对于智能交通来说,3𝜎原则作为一种数据预解决重要方式可以用于剔除系统采集到异常数据,从而提高整体系统精准度。给出正态分布或者近似正态分布,如果平均值和原则差已知,就可大体预计出它频数分布。正态分布重要特性如下图。图3-1正态分布重要特性Figure3-1Themaincharacteristicsofthenormaldistribution下式为位置参数是𝜇、尺度参数是𝜎随机变量X概率分布,咱们把它记为:X~Nμ⋅σ2它概率密度函数为:fx=1σ在正态分布中,咱们以为位置参数μ是它数学盼望或盼望,可以决定分布位置;尺度参数𝜎为它原则差,即将它方差开平方,可以决定分布幅度。由于它形状呈钟形,因此人们又经常把正态分布概率曲线称为钟形曲线。图3-2钟形曲线Figure3-2Bellcurve咱们懂得某些原则正态分布特性:其本质依然是正态分布,只是它位置参数μ值为0,尺度参数σ2值为1。可以这样理解,在这样一种正态分布中,它概率密度函数均值是𝜇,方差是σ2,即原则差是𝜎,这个正态分布fx=1可由下图看出,红色区域数值距平均值不大于一种原则差,黄色区域数值距平均值不大于两个原则差,蓝色区域数值距平均值不大于三个原则差,在正态分布中,在一种原则差之间数值占所有数值比率68.2%,两个原则差之间数值占所有数值比率为95.4%,三个原则差之间数值占所有数值比率为99.7%。图3-3原则正态分布曲线Figure3-3Standardnormaldistributioncurve在实际应用中,经常考虑具备或近似于正态分布特性数据,如果这种假设精确无误,那么就可以应用以上规则,就是咱们常说“68-95-99.7法则”或“经验法则”。总来说,在以μ为均值,以σ为原则差正态分布中,图像对称轴为x=μ,3𝜎数值分布在区间μ-σ,μ+σ概率为0.6826,数值分布在区间μ-2σ,μ+2σ概率为0.9544,数值分布在区间μ-3咱们近似以为,几乎所有Y取值都在区间μ-3σ,μ+3𝜎原则是一种检查异常数据准则,假若事先已经修正系统误差,使其在原则范畴内,在解决数据时候重要考虑是偶尔误差,如果某一测量偶尔误差服从正态分布,依照正态分布公式可以求出原则偏差𝜎,3𝜎为极限误差,在数据服从正态分布状况下,偶尔误差不在±3𝜎区间概率只有0.27%,若用平均值取代真值,可以鉴定99.73%数据都会在±3𝜎区域中,不在此区间数据,就被认定为异常数据,予以剔除。正如以上以三倍原则差为界限鉴别原则,就是3𝜎原则。3.1.2阈值法“阈”就是某个领域或系统界限或极限数值,是指一种效应可以产生最低值或最高值。简朴地说,在某些不重要场合或对精度规定不高时候,只要将控制对象某些参数限定在某个区间之内,不做精准解决和控制,即便略有溢出规定区间数值也不会对整体导致严重后果。在阈值控制系统中,由于各种因素影响会使被控对象状态发生变化,它某些值经常会超过所规定阈值区间,此时系统就会运用传感器进行检测,在某些值超过规定阈值区间时就会发出信号,再经由执行机构将数据控制在预定区间,在数值刚刚超过上限时,执行机构便启动,但若在数据刚恢复正常范畴时就关闭执行机构,数据又会再次超过范畴,导致执行机构频繁地启动,这样会增长系统能耗、减少系统效率、缩短设备使用寿命。因而咱们要解决这个问题,虽然执行机构持续工作,保证被控对象数值在接近下限时候再关闭执行机构。智能交通中某些参数不可以超过规定界限,仅可以在其规定范畴内上下浮动。例如:占有率Od,其范畴区间为0≤Od≤100%,如果采集到数据不在这个范畴内,则被视为异常数据,应予剔除;速度阈值法有其自身长处,容易计算,合用于在线计算,但另一方面,阈值法也只能作为一种基本剔除办法,它对于异常数据解决能力相称有限,虽然某些数据并不在阈值区间之外,但这些数据也不一定是对的,只能剔除掉错误得很离谱数据,咱们可以先运用阈值法,再应用其她更精准算法,这样可以减少工作量。因此咱们建议做精准解决时不单独使用阈值法,而是结合其她办法,先粗略筛选再作精准解决。3.1.3t分布法对同一信号进行重复测量,多数状况下测量数据符合正态分布[18]。如n个采样值为x1,x2,⋯,xn则样本平均值为:X=1ni=1样本方差为:S2=1依照盼望与方差点预计理论,X是μ无偏预计值;S2是σT=X-μS2对于给定α0<α<1PX-μS2∕n≤tα∕2n-1=1-α通过查t分布表,得tα∕2n-1值,可得μ置信度是X-tα∕2n-1s∕n,X+t对于给定置信度1-α0<α<1P-tα2n-1<T<=-上式中,tα2n-1是tX-tα∕2n-1而μ落在该区间之外概率很小,属于小概率事件,在正常测量过程中不会发生。因而取δ=tα∕2n-1n为临界值,若xiⅈ=1,2,…,71满足:基于该办法剔除环节如下:(1)将n个测量数据按从小到大顺序排列,最小值为xL,最大值x(2)计算出所有测量数据算术平均值X=1ni=1nxi和测量数据方差S2=1n-1i=1nxi则S=1n-1i=1n(3)查t分布表得到tα∕2(4)计算tα∕2n-1S/n,若xi-X3.2缺失数据补偿数据缺失时常发生,其引起因素也有诸多,也许是由于检测设备故障等等。而数据缺失会使最后成果导致偏差,因而对于道路交通数据预解决来说,应当及时对缺失数据进行补偿,一下简介几种简朴可行办法。3.2.1历史均值法根据历史上相应时刻数据按比例采用或直接采用历史数据来代替缺失数据。这种办法比较简朴、以便,并且易于实现。但对于多变交通状况来说,这种办法精度就会大打折扣。由此可见,历史均值法合用于交通状态稳定状况[19]。3.2.2时间序列法这种办法重要思想就是将收集到交通数据作为时间序列,再运用不同步间序列预测法,例如,简朴平均、加权平均、指数平滑等,由过去到当前波动趋势来作为预测根据,但它有一种规定,就是在将来预测目的发展规律不会发生太大变化。数据变化有着规律性,也有其不规律性。每个时期数据,都是由诸多不同因素同步发生作用综合成果。时间序列法简化了预测对象和各种因素之间复杂联系,这种办法在分析当前、过去、将来联系,和将来成果与过去各种因素之间关系时,效果明显。用这种办法进行数据解决时简朴易行,适应性比较强,是一种惯用缺失数据补充算法。但也有其自身局限性,这种办法反映了对象单向和线性联系,合用于预测稳定且需要在时间方面可以稳定持续阶段,若进行长期预测,精确性便会减少[20]。算术平均数法:在被测对象历史数据增长状况稳定短期预测。移动平均预测与算术平均法类似,综合了各种历史实际数据,求得平均值来预测将来值,它有一种前提,就是假设平均值中所有观测值对将来影响是相似,但在实际应用中,观测值对将来数值影响是随着观测值与预测期之间距离减小而增大,这也是这种办法局限性之处,还需要某些办法来修正。加权移动平均预测历史数据是按照时间顺序排列,不同数据对预测将来重要限度不同,所有数据都会被赋予各自权重,可以做到精准预测,可知这种办法思想是以为接近预测时间点变动对将来预测影响较大,可见更为合理,但偶尔会在权重选取上受到影响。加权移动平均预测是要将采集到历史数据按照时间排列,对预测值来说不同数据会有不同重要性,把不同权重分派给所有数据,可以使预测成果更精确,由此可知,这种办法以为越近期数据对将来影响越大,也更为合理,但在权重选取上需要斟酌[21]。指数平滑是加权平均一种特殊形式,其予以待预测数据近期数据更大权值,权重由远到近是指数增长趋势,指数平滑名字也正是由此得来。时间序列法比较合用于缺失交通数据在线补偿,只要有足够历史数据,就可以推测出将来数据,这种算法操作简朴、比较可靠,并且运营速度较快,符合交通数据预解决各方面规定。3.2.3数据补偿新办法-各种补偿办法权重计算前面几种办法都是运用一种算法进行数据补充,而本算法基本思想是:对于同一组数据进行预解决,可以用各种办法,不同办法有其各自优势与劣势,这种办法思想就是将各种办法组合在一起并选取不同权值,可以有效改进不同办法缺陷。大量实践表白,虽然在效果普通模型中,只要将它独立信息和一种适当办法结合在一起,就可以提高成果精度和可靠性。对于各种算法解决,其中一种办法就是将不同办法成果进行加权平均,大量实验表白,通过组合可以提高精确性[22]。由于这种办法需要分别计算不同算法,计算繁琐且使用不以便,因而在规定不高状况下,不建议使用这种办法。本文采用1:1权重计算。3.3补偿效果优劣鉴别鉴定补偿效果优劣办法为:先删除错误数据,进行补偿,运营程序后将所得成果与原数据相比较,通过计算所有数据与原数据均方差,均方差较小比较稳定,补偿效果好。均方差,即为原则差,原则差是离均差平方和平均后方根,用σ表达。原则差在概率记录中最常使用作为记录分布限度上测量。原则差定义是总体各单位原则值与其平均数离差平方算术平均数平方根。原则差可以反映数据集离散限度,原则差越小,阐明数据越稳定;反之原则差越大,数据波动越大[23]。假设有一组数值X₁,X₂,X₃……Xn(皆为实数),其平均值(算术平均值)为μ,均方差公式如下:σ=1Ni=1Nx4智能交通系统数据预解决有关算法设计接下来是本文重点某些,详细简介了所选办法程序、数据成果和办法对比。4.1异常数据剔除数据来自交通道路真实数据,并选用其中五分钟交通数据,如下表:表4-1原始数据Table4-1Rawdata序号序号12345678135536034635834034634532223333282923892254382783142628432772712832792812792814494204603981147255444433271277014365381378384383370382371185316374362271135834924323324326775331491920467354923924311298485308304309312312309307310308937245337474.1.13𝜎准则法用Matlab编程,有关程序如下。X=xlsread('C:\Users\孙显治\Desktop\江西路匹配过车.xlsx','F632:F697');Y=X;disp(Y);outliers=X>=10000;X(outliers)=NaN;ave=mean(X);%计算平均值theta=std(X);%计算原则差outliers=abs(X-ave)>(3*theta);%求出离群值位置X(outliers)=NaN;%去除离群值disp(X);%显示解决后数据xlswrite('C:\Users\孙显治\Desktop\江西路剔除3theta法.xlsx',X);用3𝜎法剔除后数据见下表:表4-23𝜎法剔除后数据Table4-23σmethodprocesseddata序号序号12345678135536034635834034634532223333282923892剔除278剔除28432772712832792812792814494剔除剔除剔除444433271剔除4365381378384383370382371剔除63743622711358剔除32332432677533剔除剔除剔除3924311298剔除83043093123123093073103089剔除剔除4.1.2阈值法由以上可知阈值法算法流程图。图4-1算法流程图Figure4-1Algorithmflowchart用Matlab编程,有关程序如下。X=xlsread('C:\Users\孙显治\Desktop\江西路匹配过车.xlsx','F632:F697');Y=X;disp(Y);ave=mean(X);%计算平均值a=10000;%输入阈值;outliers=abs(X-ave)>a;%求出离群值位置nout=sum(outliers);%计算离群值个数并显示X(outliers)=NaN;%去除离群值disp(X);%显示解决后数据xlswrite('C:\Users\孙显治\Desktop\江西路剔除阈值法.xlsx',X);用阈值法剔除后数据见下表:表4-3阈值法剔除后数据Table4-3Dataafterexcludingthethresholdmethod序号序号12345678135536034635834034634532223333282923892剔除278剔除2843277271283279281279281449420460剔除剔除444433271剔除43653813783843833703823711853163743622711358剔除3233243267753314919剔除剔除3924311298剔除83043093123123093073103089剔除剔除4.1.3t分布法t分布法流程图如下。图4-2算法流程图Figure4-2Algorithmflowchart用Matlab编程,有关程序如下图。X=xlsread('C:\Users\孙显治\Desktop\江西路匹配过车.xlsx','F632:F697');Y=X;disp(Y);alpha=0.00000001;%可进行定义n=length(X);%自由度lambda=tinv(1-alpha/2,n-1);%计算分为点sort(X,'ascend');%数据从小到大排列ave=mean(X);%计算平均值S=std(X);%计算原则差delta=lambda*S/(n^0.5);fori=1:nifabs(X(i)-ave)>delta%判断与否为异常数据X(i)=NaN;%将异常数据赋为缺省值endendoutliers=(isnan(X));%求出缺省值位置X(outliers)=NaN;%将缺省值删除disp(X);%显示解决后数据xlswrite('C:\Users\孙显治\Desktop\江西路剔除t分布.xlsx',X);用t分布法剔除后数据见下表:表4-4t分布法剔除后数据Table4-4tdistributionmethodExcludingdata序号序号12345678135536034635834034634532223333282923892剔除278剔除28432772712832792812792814494剔除剔除剔除444433271剔除4365381378384383370382371剔除63743622711358剔除3233243267753314919剔除剔除3924311298剔除83043093123123093073103089剔除剔除4.2缺失数据补偿基于以上剔除后数据,采用对的数据,随机剔除几种数据,再进行补偿。表4-5待补偿数据Table4-5Unprocesseddata序号序号123456781355360346358缺失3463453222333缺失292278284277缺失2833279281279缺失4494444332714缺失381378384383缺失3823715374362缺失323324326311缺失6304309312312缺失3073103087304缺失265427426431缺失4288271248237缺失397402381365补偿前图形如下:图4-3补偿前图形Figure4-3Patternbeforetreatment4.2.1历史均值法用Matlab编程,有关程序如下。X=xlsread('C:\Users\孙显治\Desktop\江西路\待补偿数据.xlsx','B2:B65');Y=X;disp(Y);outliers1=(isnan(X));%求出缺省值位置outliers2=(outliers1==0);%求出有效值位置ave=mean(X(outliers2));%计算平均值X(outliers1)=ave;%进行数据补偿disp(X);%显示解决后数据xlswrite('C:\Users\孙显治\Desktop\江西路补偿历史均值法.xlsx',X);%把成果导入到新Excel中用历史均值法补偿后数据见下表:表4-6历史均值法补偿后数据Table4-6Historicalaveragemethodcompensationdata序号序号1234567813553603463583403463453222333340292278284277340283327928127934044944443327143403813783843833403823715374362340323324326311340630430931231234030731030873043402654274264313404288271248237340397402381365补偿后仿真图形如下:图4-4历史均值法补偿后图形Figure4-4Historicalaveragemethodcompensationgraphic4.2.2时间序列法用Matlab编程,有关程序如下。X=xlsread('C:\Users\孙显治\Desktop\江西路\待补偿数据.xlsx','B2:B65');outliers1=(isnan(X));%求出缺省值位置outliers2=(outliers1==0);%求出有效值位置time1=find(outliers1==1);%获得有效时间点time2=find(outliers2==1);%获得有效时间点y=X(outliers2);%去除离群值Y=interp1(time2,y,time1);X(outliers1)=Y;%进行数据补偿disp(X);%显示解决后数据xlswrite('C:\Users\孙显治\Desktop\江西路\江西路补偿时间序列法.xlsx',X);%把成果导入到新Excel中用时间序列法补偿后数据见下表:表4-7时间序列法补偿后数据Table4-7Timeseriesdataaftercompensation序号序号1234567813553603463583523463453222333313292278284277280283327928127936444944443327143263813783843833833823715374362343323324326311308630430931231231030731030873042852654274264314304288271248237317397402381365补偿后仿真图形如下:图4-5时间序列法补偿后图形Figure4-5Sequentiallymethodcompensatedgraphics4.2.3数据补偿新办法-各种补偿办法权重计算用Matlab编程,有关程序如下。A=xlsread('C:\Users\孙显治\Desktop\江西路补偿历史均值法.xlsx');B=xlsread('C:\Users\孙显治\Desktop\江西路补偿时间序列法.xlsx');pA=1;pB=1;%输入A、B各自占权重p=pA+pB;C=A*(pA/p)+B*(pB/p);xlswrite('C:\Users\孙显治\Desktop\江西路补偿权重法.xlsx',[A,B,C]);%数据输出第1列为补偿后1;第2列为补偿后2;第3列为加权补偿后;用权重法补偿后数据见下表:表4-8各种补偿办法权重补偿后数据Table4-8Variouscompensationmethodsofweightcompensationdata序号序号1234567813553603463583463463453222333326292278284277310283327928127935244944443327143333813783843833613823715374362341323324326311324630430931231232530731030873043122654274264313854288271248237328397402381365补偿后仿真图形如下:图4-6各种补偿办法权重计算补偿后图形Figure4-6Variouscompensationmethodsofweightcompensationpattern4.3成果分析4.3.1剔

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论