《基于随机森林模型的交通事故预测实证探究》18000字(论文)_第1页
《基于随机森林模型的交通事故预测实证探究》18000字(论文)_第2页
《基于随机森林模型的交通事故预测实证探究》18000字(论文)_第3页
《基于随机森林模型的交通事故预测实证探究》18000字(论文)_第4页
《基于随机森林模型的交通事故预测实证探究》18000字(论文)_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-PAGE21-基于随机森林模型的交通事故预测实证研究摘要:随着我国经济的持续健康发展和机动车持有率的不断增加,交通的管理控制压力逐渐增大,随之而来的交通问题也日趋严峻。频发的交通事故不仅带来巨额的财产生命损失,也加剧了交通的拥堵情况。因此通过交通事故的数据来进行可视化分析和理解交通事故的发生规律,进而提出有效的解决措施,以减少交通事故的发生是本研究的主要目的。首先,分析英国道路发展现状和交通安全整体环境。其次,基于tableau商用软件对英国交通事故数据来分析交通事故发生规律及其事故成因。之后,通过随机森林对英国交通事故数据进行预测并对结果进行评估。最后为减少交通事故提出了4项措施。关键词:交通事故可视化分析事故成因随机森林目录TOC\o"1-2"\h\u1绪论 31.1研究背景 31.2研究目的和意义 51.3文献综述 52研究相关的基本概念和研究方法 72.1交通事故与事故数据 72.2可视化分析简介相关概念 82.3可供选择的数据可视化工具 93交通事故成因分析 103.1数据获得与数据预处理 113.2英国交通总体情况 113.3分析方法及其具体内容 123.4英国2014年交通数据可视化 123.5具体路段可视化分析 153.6深度分析交通事故成因 214交通事故预测 234.1交通事故预测模型介绍 234.2交通事故预测模型选择 264.3随机森林交通事故预测过程 265减少交通事故的措施 295.1实时车辆的监控管理 295.2加强安全宣传教育,提高交通参与人文明守法意识 295.3加大道路交通资金投入,提高交通智能化管理水平 295.4合理规划路网建设,完善交通安全设施 30结论 31参考文献 33附录A 37附表 401绪论1.1研究背景1.1.1交通发展现状 在我国古代交通状况并不便利的情况下,人们为了生存,尽量沿河流生活。于是,最早的交通运输方式——水路运输便跟着当时的现状而生。“伏羲氏刳木为舟,剡木为楫”,说明水上交通早已在中国出现。而在陆上交通方面,以驯服的马匹作为主要交通工具出现的最早,由于古代没有像现在这样先进的可供选择的交通工具,因此交通事故的发生概率也比较低,严重程度也不及现代交通事故。自工业革命以来,各种新式交通工具层出不穷,使得机动船和机车的出现,从此近代运输业逐渐开始发展。1885年第一辆以内燃机为动力的汽车被德国人本茨成功制造出来。1899年,在美国发生了世界范围内第一起交通事故,从此交通事故成为了困扰人类发展的一大难题。城市交通的发展使得我们的出行变得十分便利。但与此同时,城市的交通系统也与古代单一交通模式相比有了巨大的不同,变得更加复杂,车辆也日趋增多,带来了交通堵塞、环境污染和经济损失等许多问题。交通事故如今已经成为全球伤亡的主要原因之一,在世界卫生组织2015年对交通事故的调查中,平均一年有超过125万人死于交通事故,2000万至5000万人受伤,全球每10万居民中有18人死亡。这些致死事故大多数发生在相对落后的国家(大约占16%)和发展中国家(大约占74%),这使得交通事故造成的死亡不仅成为公共卫生问题,还成为阻碍社会经济发展的拦路虎。在我国,尽管近几年来道路人均交通死亡人数与之前相比有所下降,但直到2015年,死亡率和伤害率一直在上升,在每起交通事故死亡的人数也呈缓慢上升趋势,这说明交通事故严重程度仍然在上升,因此开展相关研究既是非常有必要的,也是一种必然的发展趋势。1.1.2交通数据可视化发展 在信息可视化和可视分析飞速发展的当今时代背景下,可视化分析逐渐受到人们关注。人都是视觉动物,与传统的统计分析相比,可视化利用计算机图像处理技术将枯燥无味的数据用图像呈现出来,给人以直观的数据印象。可视化数据有以下重要的作用:直观分析大量视觉信息;检测一般规律和趋势;检测离群和不寻常的图案。可视化分析更能动态分析交通数据之间内在的特征。第一次提出可视化技术是在1987年,后来,可视化技术开始逐渐兴起,越来越多的科学家发现了可视化的价值。于是,在许多研究领域上可视化技术都得到了使用。之后渐渐地发展出了诸如科学计算可视化、数据可视化、信息可视化等研究分支,直到现在衍生出了可视分析。第一次提出可视化分析是在2005年,它是一种融合了信息可视化、数据挖掘、人机交互、认知科学等多方面知识的新型研究方向。交通数据同时具有时间和空间的属性、多元异构性、多维性,这就注定了它与其它类型的数据有许多不同,用可视化分析对交通数据进行处理更能体现其处理数据的优势。最近几年来,可视化分析在智能交通的研究领域中使用愈加广泛,相关的研究成果也运用于解决许多交通问题。在当前的研究成果中,与交通事故可视化相关的成果还比较稀少。这是因为交通事故的相关数据需要大量的数据采集,交通数据是根据每一件真实发生的交通事故形成的日志类型的数据,需要专业人士对交通事故的信息进行手动记录,再将所采集好的数据导入到相应的数据库里,工作过程十分繁琐。因此,目前亟待更多交通可视化相关理论和分析方法的出现来解决这一问题。1.2研究目的和意义近几年来,我国城镇化进程不断地加快,城市经济发展日益繁荣、人口的数量急剧增长,在一定程度上刺激了交通发展。根据统计资料表明,直至2019年上半年我国机动车持有数量已经达到约3.4亿辆,其中66个城市的机动车保有量超过100万辆。上海、北京和广东等11个城市超过300万辆。城市的现代化发展给居民带来出行便利的同时,交通阻塞、环境污染等一系列问题接踵而来。在这当中,交通事故不仅带来了大量人员伤害,让无数家庭遭遇不幸,还严重影响了经济的发展和社会的稳定。交通事故在现代化科技日趋发达的今天,尚未有完全解决交通事故这一大经济社会问题的有效方法。道路交通事故的影响因素不仅包括人、车、路、环境,还包括与之相关的社会政治、经济、文化等方方面面。事故发生可归结为这些因素耦合失调导致的,属于随机性、偶然性事件,很难通过实验去真实反映事故发生过程以及各因素对事故的影响效应。随着大数据技术的飞速发展以及人工智能技术在银行、智慧城市等领域的落地应用,为道路交通大数据生态建设、时空数据挖掘提供了新的思路。交通事故的相关数据与交通事故的发生息息相关,对交通事故数据进行处理并分析理解,以掌握交通事故发生的内在原因,了解交通事故的发生规律,通过分析研究交通事故的成果来帮助道路决策者做出有利于减少交通事故的举措显得尤为关键。1.3文献综述查阅交通事故可视化模型相关的文献,其中文献从知网平台获得。同时以交通事故(Trafficaccident)和可视化模型(Visualizationmodel)两个为关键词,可查询到有关的文献较为稀少,其中知网包含6篇,故基本上难以从前辈研究工作中借鉴。为解决这个问题,我将课题拆开,分为交通事故和可视化模型,再进行查阅,发现两个关键词在知网都有相当丰富的研究成果,说明交通事故和可视化模型研究工作已经十分完备了,接下来我将具体介绍前人的研究成果。DeyuWang等人用病死率(CFR)和人身伤害(HD)来评估每一起交通事故的严重程度,并且从宏观和多方面分析中国道路交通事故的严重性,并阐明几个关键的原因。根据这些分析,提出了降低事故严重性的可能对策。PENGXuan等对公路交通事故大数据可视化分析中存在的问题,结合大数据可视化分析方法,从数据处理、可视化方案及可视化系统实现等方面设计出一条基于大数据环境下的公路交通事故可视化分析技术路线,为提升公路交通事故分析能力以及交通安全措施和政策制定提供参考。YuanLi用地理信息和数据可视化技术对近3年道路交通事故的分析,发现道路工程和交通组织缺陷是引发和造成事故的主要因素,初步得出以下结论:道路照明存在问题;道路渠化存在问题;道路横断面形式存在问题;道路设施存在问题。PlugC等人通过时间、空间和时空的研究方法来分析1999-2008年西澳大利亚不同模式下的交通事故,使用核密度估计分析在三个不同的尺度上分析了车辆碰撞的空间结构,结果表明,不同的事故原因下碰撞差异较为显著,所采用的的分析技术可以有效帮助决策者指定合理战略。Pack等人提出了一种新型的、基于网络可视化的工具ICE,它可以提供对用户友好的数据集,解决用户浏览交通数据集的要求。Gutierrez-OsorioC等人通过计算机技术——机器学习算法和优秀的信息分析技术来预测道路事故的最新进展,并根据数据来源和特点提出一种分类分类方法。ALKHEDERS等人应用三种数据挖掘模型对交通事故严重性的相关风险因素进行综合分析,结果证实,与司机和乘客相比,行人是最脆弱的道路使用者,男性司机和前排乘客更容易受到严重或致命的伤害,同样,老年司机有更高受到严重或致命伤害的几率。GAShafabakhsh等人利用地理信息系统作为事故分析的管理系统,结合空间统计方法,揭示了空间因素对伊朗第二大人口大城市马什哈德市造成的影响。我国交通事故、伤亡人数、日均死亡人数从2005年开始呈现出下降的趋势,但放眼世界,我国的交通状况还是趋于非常严重的状态下。广大学者为减少交通事故的发生展开了各方面的研究,交通事故的可视化模型有助于对交通事故进行分析,分析交通事故发生情况和事故类型之间的关系,来帮助决策者制定有效的交通安全措施,从而达到减少交通事故发生的目的。减少交通事故的发生,进而成为交通安全强国,还需要广大研究者和民众的共同努力。2研究相关的基本概念和研究方法2.1交通事故与事故数据交通事故是指车辆在道路上因过错或者意外造成人身伤亡或者财产损失的事件。交通事故不仅是由不特定的人员违反道路交通安全法规造成的;也可以是由于地震、台风、山洪、雷击等不可抗拒的自然灾害造成。而交通数据则是将每一件真实发生的交通事故,以日志的形式进行记录,这些内容包括了事件发生的坐标、路段、天气状况、路面条件、交通事故严重程度、照明条件等信息,再由交通管理部门的相关工作人员对数据导入至数据库中,形成立体的交通事故数据。2.2可视化分析简介相关概念可视化(Visualization)是将计算机所具备的图像处理和图形转换等功能,将数据转换成让人可以一目了然地看出,并能够进行交互处理的一种非常新颖的理论、方法和技术。而可视化分析是结合了数据分析和人机交互,并联系可视化和决策理论以及融合认知科学等多个研究领域发展下所产生的新的分析方法。可视化分析与传统可视化不同,可视化分析是建立在可视化的基础上,不仅是单纯地将数据展示为图形和表格的形式,还通过可视化和交互将用户引导进数据分析的过程当中,建立了用户与数据沟通对话的桥梁。一般完整的可视化分析运作流程如图2.1所示。从可视分析流程图中不难发现,该模式具有明显的循环特征:从数据出发到知识,再从知识又回到循环。中间有两条不同的途径:一是数据和用户交互的可视化方法;二是自动的数据挖掘方法。这两个途径的中间过程分别是对数据的交互可视化结果和从数据中提炼的数据模型。用户既可以修正所生成的可视化结果,也可以改进参数来完善所使用的模型。从数据中洞悉知识的过程也主要依赖两条主线的互动与协作。图2.2可视分析流程图 2.3可供选择的数据可视化工具计算机科学逐渐兴起和发展,可视化技术也随之得到了发展,相对应可选择的可视化软件种类也越来越多。学习相应软件可以降低专业研究人员亦或是业余研究爱好者的研究难度,使人们可以更加容易地分析和使用数据,接下来将介绍几种典型的可视化软件。ExcelExcel是Microsoft为Windows操作系统的用户所编写的一款免费的电子表格软件,用户可以在了解该软件后轻松使用其功能。它可以在用户导入数据后,按要求对数据进行求和等处理计算,并将数据转化为用户所需的柱状图、扇形图等图表形式。它是一款最基础、最容易上手的数据可视化软件。TableauTableau在可视化的能力相比于其它同类型的可视化软件,优势在于它可视化能力比较突出,可视化效果不华丽但很出色,而且给用户提供了非常自由的图表制作能力,基本可以轻易做出大多数想要做的图表。相比Excel,Tableau具有丰富的数据源支持,灵活的可视化功能和强大的数据图表制作能力。但Tableau作为一款商用软件,需要支付一定的费用才可以使用。FineBIFineBI是帆软软件有限公司制作的软件,虽然是一款商业智能分析工具,其优势在于一旦准备好数据可自助式的随意分析,大数据量的处理性能。支持多数据源接入软件在易用性和功能上做的都很不错。可视化软件并不只局限于以上三种,该类可视化软件都能满足用户对数据处理和分析出图的要求,简单易上手。3交通事故成因分析由于驾驶人员、行人及乘客等交通参与者的交通法制意识及安全意识淡薄,我国的道路交通安全现状仍不容乐观。因此,本章通过分析英国交通事故发生的数据,探讨了导致道路交通事故的主要因素,对交通事故成因进行分析,并提出相应的改善措施,旨在为我国道路交通部门相关管理者制定管理策略时提供一定的借鉴和参考。3.1数据获得与数据预处理由于国内的交通事故数据较难获得,在咨询了导师的意见之后,本章采用英国交通事故数据进行分析,获取的途径为国外数据库Kaggle,包含了本章所需分析英国2014年一整年的交通事故记录,总计146321条,并通过商用软件Tableau对数据进行了可视化处理。交通事故记录含有较多的信息,包含时间、经纬度、天气状况、路面情况、道路类型、夜间光照情况等信息,共有32种。由于本章仅需要对交通数据进行分析进而得出交通事故成因,故不需对数据所有列进行分析。从原始数据筛选出用于之后工作所需数据类型及内容如下表所示:表3.1筛选后用于之后工作的数据类型及内容字段名称数据格式字段描述举例LatitudeLongitudeFloat交通事故发生地点的经纬度51.49343,-0.1691WeatherConditionsVarchar交通事故发生天气状况RainingwithouthighwindsLightConditionsVarchar交通事故发生的光照条件Darkness:StreetlightspresentandlitDayofweekInt交通事故发生在一周的具体一天1RoadSurfaceConditionsVarchar交通事故发生的路面条件Wet3.2英国交通总体情况根据英国交通部2021年发布的消息,截止到2020年底,英国公路里程将达到24.75万英里(约39.6万公里),比2010年增长了0.26万英里,涨幅来到1.1%,其中主要公路里程为3.18万英里,次要公路里程为21.57万英里,占比分别为12.8%、87.2%。公路主要分布在苏格兰境内,为18.97万英里;苏格兰境内公路里程为3.68万英里,占比15%;威尔士境内公路里程为2.1万英里,占比9%。3.3分析方法及其具体内容(1)连续性时间分析为了观察与交通事故发生有关的连续性时间模式,首先按不同的时间跨度(年,季度,月份)对交通事故发生数据量进行统计,统计后交通事故数量的变化表现了交通事故发生情况随时间的趋势。在可视分析系统中,可以配合柱状图或折线图这类表现走势的可视化进行展示。(2)周期性时间特性分析为了观察与交通事故发生有关的周期性时间模式,首先按不同的时间跨度(4个季度,12个月份,一星期中的7天,一天中的24个时段)来对交通事故发生数据量进行周期性地统计,统计后交通事故数量分布聚集性就表现了交通事故发生是否存在一定的周期规律。在可视分析中,可以配合直方图这类时间段分布的可视化进行展示。(3)天气相关性分析为了了解不同天气与交通事故发生情况的关联,从而认识其对交通事故发生的影响程度,对数据从两个角度进行统计:不同天气条件下的交通事故数量,不同路面状况下的交通事故数量从这两个方面综合比较分析,来了解不同天气与交通事故的关联程度。在可视分析系统中,可以使用饼状图这类表现数量占比情况的可视化进行它们之间关联的展示。(4)事故热点区域分析想要观察交通事故的空间分布情况,一般情况可以直接使用经纬度坐标数据将点在地图上标注,结合事故严重度和密度这两个指标,对图中数据进行处理后,配合不同颜色所对应的事故严重程度热力图,即可得到某一路段的事故多发地点以及道路危险程度。这样就可以对事故热点区域作更充分的分析。3.4英国2014年交通数据可视化(1)交通事故时间段分布规律 通过对英国2014年全年146321条交通事故信息进行分析(时间段分布规律见图3.41),一天中的0~6时人们主要处于睡眠状态,道路交通事故案件量较少;7~9时案件量量逐渐提升,并达到一定峰值,这段时间包含早高峰8~9时;9~10时案件量略有下降,因为早高峰的结束,但依旧有较多的案件数;10~15时的案件量相比早高峰略有减少,但数量仍然较多;15~19时交通事故案件量逐渐增多,并在17时达到一天中最高交通事故案件数,在达到一天峰值后数量仍居高不下直至19时,在这期间包含晚高峰17~19时;19时后,案件量一直下降,直到一天结束。英国2014年一天的交通事故发生时间高峰集中在早高峰和晚高峰,这与我国交通规律相符合。图3.41英国2014年交通事故时间段分布直方图(2)不同天气条件下的交通事故分布特征图3.42不同天气状况下的交通事故分布饼状图图3.43不良天气状况下的交通事故分布饼状图如图3.42,对未知天气情况数据进行删除后,该图展现了不同天气条件下交通事故发生的比例,可以看到大多数交通事故都发生在晴好天气,但恶劣天气所占的交通事故发生比例也不能忽视。推测在天气晴好的条件下,驾驶员心态过于放松,车速较快,难以及时反应即将到来的危险,而恶劣天气更有可能导致严重的交通事故。在排除了天气良好情况下和未知天气情况下的交通事故量后,保留了非晴好气象条件下的数据共22631条(气候条件与交通量发生关系图3.43)。在所有事故中,80.1%的事故发生在雨天,2.74%的事故发生在雾天,3.02%的事故发生在雪天,9.34%的事故发生在其他条件下。可见,雨天是不良天气条件下导致交通事故发生的主要因素。(3)不同路面条件下的交通事故分布特征图3.44不良路面条件下的交通事故分布饼状图如图3.44,该图展现了不同路面条件下交通事故发生的比例,可以看到路面干燥情况下发生交通事故的比率最高达到68.84%,推测在路面条件不良时,路上行人和车流量会减少,行驶中的车辆会提高警惕,减速慢行。在排除了地面干燥的交通事故数量后,得到数据共44303条。在所有事故中,94.6%的事故发生在潮湿的路面条件下,3.8%的事故发生在霜冻的路面条件下,其他不良条件下的交通事故发生量均不足1%。可见,潮湿的路面是不良路面条件下导致交通事故发生的主要因素。不同光照条件下的交通事故分布特征图3.45不同光照条件下的交通事故分布如图3.45,该图展现了不同光照条件下交通事故发生的比例,可以看到白天和夜间照明正常工作的情况下,交通事故发生占了绝大多数。首先考虑到白天与夜晚的交通流分布差异(白天较多),这与天气和路面情况原因相似,环境舒适,人车较多,警惕性一下降,交通事故就容易发生。对于路面照明条件良好时发生交通事故比没有照明发生更多这一点,推测英国的基础照明措施比较完善,大部分的路段都已覆盖,光照条件充足也有可能发生交通事故。3.5具体路段可视化分析 上一个小节对英国交通事故数据进行了可视化处理,并稍微对数据进行了直观的分析,接下来本小节将以英国路厄斯罕自治市为例子进行具体分析。(1)道路分析LewishamWay是位于英国伦敦东南部的路厄斯罕自治市附近的一条主要道路,道路走向是东南-西北。LewishamWay是由英国主要道路A2分流而来的,道路限速30英里/小时(约为48千米/小时),是通往路厄斯罕自治市主要路线之一。在2012-2014年共发生了175起交通事故,在路厄斯罕自治市内处于中等水平。从图3.51可以看到,LewishamWay月交通事故总数总体呈震荡分布,每个月发生的交通事故数量差距总体较小,10月为交通事故多发月份,而2月交通事故总体发生量较少。仔细对LewishamWay月发生交通事故数量进行分析,发现交通事故数量随月份变化呈现出一定的规律,1-2月份是全年发生事故较少的两个月,根据实际情况可以推测,路厄斯罕自治市此时正处于冬季,主要气候条件为冰雪气象,车辆难以在道路上通行,车流量就会相对减少,所以此时事故量并不会太多。3-5月事故数量正处于上升期,推测这是因为LewishamWay此时已进入春季,冰雪消融,车流辆逐渐恢复成常规。6-7月交通事故数维持稳定。8-10月来到一年中交通事故发生最多的月份,推测此时正处于夏秋季节,英国属于温带海洋型气候,天气环境较好,且正值旅游度假盛季,车辆行人比6-7月多。图3.51LewishamWay月交通事故折线图从图3.52可以看出2012-2014年年发生交通事故数量相差不大,具有周期性,推测2012-2014年当地政府并未对该条道路进行较大的改变,交通设施也没有较大的翻新。比较2012-2014年交通事故和每月交通事故总数折线图不难看出,时间跨度较小的月折线图更能反映出交通事故发生的规律。图3.52LewishamWay2012-2014年交通事故折线图图3.53为LewishamWay交通事故在道路路线上的分布情况,该路段位于图中东南至西北走向。地图结合所产生的的交通事故分布图与上面几章的分析相比,我们可以更加直观的得知事故发生具体的位置,更利于我们进行空间可视化分析。于是从中选取4个交通事故发生最为密集的点(见3.54),可以看到有三个密集的点位位于交叉口,还有一个密集的点位位于岔路口上,均为事故多发地。观察不良条件时发生交通事故图,如图3.55为不良天气条件下交通事故发生的分布图,黄色代表发生事故时为雨天,绿色代表发生事故时为雨天且有强烈大风,其余不良天气的条件并没有导致当地发生交通事故,图3.55为不同夜间光照条件下交通事故发生的分布图,红色代表夜间照明条件良好,黄色代表夜间照明条件未知,蓝色代表夜间照明没有正常工作。综合图3.53、图3.54和图3.55不难看出,该路段事故多发地为交叉路口和匝道;在环境因素影响交通事故发生方面,雨天是导致LewishamWay发生交通事故的主要原因,夜间照明条件状况的良好时依然发生交通事故,推测主要事故原因是夜间行车司机注意力下降。综上所述,LewishamWay发生交通事故的条件与英国总体发生交通事故的规律相符合,结合地图对道路进行分析,得出更容易在道路的交叉路口与匝道发生交通事故。图3.53LewishamWay地理位置及交通事故分布情况图3.54LewishamWay交通事故分布密集区图3.55LewishamWay不良条件交通事故分布(2)城市分析图3.56路厄斯罕市交通事故分布图主要以路厄斯罕自治市交通事故发生进行分析,交通事故比较集中在城市中心和周边的主要公路上,可以发现有三条主要道路上交通事故的分布较多,其中以西南-东北走向的LewishamHighSt交通事故的分布最为密集,在路厄斯罕自治市的西南部有颇为发达的商业区卡特福德,它是大伦敦地区的主要35个中心之一。在卡特福德商业区和路厄斯罕自治市之间的LewishamHighSt承受着繁华商业区以及市中心的人流客运压力。从图3.57LewishamHighSt星期时间分布图可以看出,发生在周末的交通事故较少,而发生在工作日的交通事故明显数量较多,在比对LewishamWay发生的各种不良条件下所发生的交通事故,结果发生交通事故的规律相近。故可推测,LewishamHighSt交通事故分布密集的主要原因来源于上班族,因为在双休日时就无需出行前往工作单位,大幅减少了道路的交通负荷,所以在工作日发生的交通事故数量比周六日发生的交通多很多。图3.57LewishamHighSt星期时间分布图3.6深度分析交通事故成因以上五节分别对英国2014年交通事故的数据以及LewishamWay和路厄斯罕自治市进行了可视化不利气象因素与路面条件对交通安全的直接影响主要有2点:对驾驶员心理生理的不良影响。在不利的天气条件下,司机精神高度集中,因此可能心理压力较正常天气条件的时候更大,甚至产生恐慌的心理。驾驶员精神高度集中会容易导致精神疲劳,最终导致注意力分散,降低了外界的综合判断能力,通常只能对外界情况作出简单模糊的判断,在紧急情况下,尤其是在短途行驶时,有一些年轻的司机往往会比较冲动,有时甚至是超速行驶,以至于制动刹车时间太长,提升了行车的危险性。同时,久坐会增加司机的疲劳,在司机长时间保持相同的姿势来行驶车辆的情况下,比较容易引起脊椎、大脑和颈部等的不良反应,加重驾驶员的疲劳程度。对能见度以及行车附着系数等道路行车条件的影响。在雾天能见度较低的情况下,驾驶员对周围情况的判断会出现一定偏差,对前车的距离难以把控,因此当驾驶员对前方车辆进行反应时,安全制动反应时间已经被大大缩短了,因此极易发生追尾等严重的交通事故。能见度是保证交通安全行驶,确定最小行车速度的重要指标之一。路面的抗滑性能对道路交通安全更是具有极其重要的影响,通常用路面和轮胎之间的附着系数来加以评价。路面在润滑状态下抗滑性能降低,当路面与轮胎之间形成水膜时,其抗滑行能更低。在积雪地区,冰雪覆盖下的路面的抗滑性能不再由路面与轮胎之间的摩擦特性决定,而完全取决于积冰和积雪的特性。通常冰雪路面的抗滑性能极差,是交通事故多发的主要诱因。雾、雨、雪、路面结冰等不利气象因素对公路交通安全的影响主要是导致能见度降低和路面冻结、湿润造成路面附着系数降低。2)通过分析英国交通事故发生数据,得出每天17时至19时发生的交通事故约占全部事故的1/4。17至19时处于黄昏到夜晚的时间段,光线由阴转暗,有些路段的路灯设置为定时开启,在天气昏暗的情况下不会开启,光照条件不良时司机容易出现视觉障碍,导致判断失误,措施不当。加上经过一天的工作和旅途劳顿后,会出现眼干、喉燥、头晕目眩、打哈欠等一系列疲倦症状。此时如不停车休息,很容易造成交通事故。另外,行人在行走时也由于出现视觉障碍而导致观察不清,躲让过往车辆判断不准,加之回家心切,行走速度快,也极易造成交通事故。3)交通事故主要由人为、车辆、道路和环境等因素影响,其中人为因素是最主要的原因,约占道路交通事故总数的95%。人为因素对象包括驾驶员、乘车人、行人等所有交通参与者者,其中驾驶员超速驾驶、违章驾驶、疲劳驾驶和酒后驾驶等行为在交通事故发生原因中占有较高比例。4)对于英国在夜间不同条件下所出现的路灯亮起反而交通事故较多的情况。我认为有以下两种原因:英国基础设施建造相对完备,即使光照条件较好也有一定的事故发生概率;在良好的光照条件下,相比于不良光照条件下,驾驶员的警惕性容易下降,需要设立警示标志。5)高速公路出口区域上游或下游路段通常还设有高速公路入口,在出、入口附近的路段,驶离、驶入、驶过高速公路的3股不同流向、不同速度的车流交织,形成了车辆间横向干扰,刚驶入的车辆与欲驶离的车辆速度相对较低,与主线正常通行车辆间又形成了纵向干扰。行车环境的复杂性导致高速公路出口区域易发交通事故加之有些驾驶人在匝道处突然变道、停车、倒车等瞬间加剧了行车的危险性。4交通事故预测第三章我们通过已有的交通数据对交通事故的形成原因进行了分析,也能够因此得到了一些有效减少交通事故的措施。不过,为了减少交通事故的发生,光知道了交通事故的成因和减少交通事故的措施还是不够的,交通事故数据是具有一定规律的数据集。通过对将来即将发生的交通事故进行预测,可以对即将的发生的交通事故进行识别并降低交通事故的发生率,帮助相关部门针对性的制定交通预防的政策。还可以根据交通事故数的历史发展规律,预测交通事故的近期发展态势,为制定交通安全管理目标提供依据的同时,也可为交通安全宣传教育提供依据。4.1交通事故预测模型介绍 道路交通事故预测方法主要有:回归分析法、时间序列分析法、神经网络模型法、灰色模型法、随机森林法等。时间序列模型具有不需要大量的数据,快速掌握事故宏观发展趋势等优点。常用的有移动平均模型(ARIMA)、指数预测模型(单指数平滑、Holt指数平滑、Holt-Winters指数平滑以及状态空间指数平滑)。在道路交通事故预测问题上,大部分研究是基于传统预测模型,基于机器学习的非线性时间序列预测的研究较少,特别是在道路交通事故数宏观态势的预测这一方面。因此本文将介绍随机森林法、BP神经网络预测和决策树模型这三种机器学习算法,并采用随机森林模型对英国2005-2007、2009-2014年发生的交通事故的数据进行分析。4.1.1决策树预测模型(1)概念及应用决策树(Decision

Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。(2)工作原理决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉树或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断,如形式为a=ai的逻辑判断,其中a是属性,ai是该属性的所有取值:树的边是逻辑判断的分支结果。多叉树(ID3)的内部结点是属性,边是该属性的所有取值,有几个属性值就有几条边。树的叶子节点都是类别标记。由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因,都会造成产生的决策树过大。因此,简化决策树是一个不可缺少的环节。寻找一棵最优决策树,主要应解决以下3个最优化问题:①生成最少数目的叶子节点;②生成的每个叶子节点的深度最小;③生成的决策树叶子节点最少且每个叶子节点的深度最小。(3)决策树的几个重要参数Criterion:用来衡量分支质量的指标,即衡量不纯度的指标,可使用信息熵(Entropy)或基尼系数(GiniImpurity)。Splitter:用于确定每个节点的分支策略,输入“best”使用最佳分支,或输入“random”使用最佳随机分支。(4)决策树预测模型的优缺点决策树是一种十分常用的分类方法,很容易理解和解释;即使只有很少的数据也有价值。可以基于分析得出的情况生成确定不同方案的最差,最佳和预期值;可以与其他决策技术结合使用;它运用了可视化模型。但它是不稳定的,这意味着数据的微小变化可能导致最优决策树结构的巨大变化;通常相对不准确,许多其他预测模型使用类似数据表现更好;对于包括具有不同级别数的分类变量的数据,决策树中的信息增益偏向于具有更多级别的那些属性;计算可能变得非常复杂,特别是如果许多值不确定和许多结果是相关的。4.1.2BP人工神经网络预测模型(1)概念及应用人工神经网络通过数学建模的方式,能够对不是线性映射的复杂问题提供较为稳定的一种解决方法,而不需要特定的式子来解析,且用建模的方法预测精度高,因此常常适用于复杂的交通事故预测。BP网络作为人工神经网络的一种,常常用于解决实际问题。与其他数学模型相比,BP神经网络应用的较为广泛,且取得了相当好的效果。(2)工作原理人工神经网络无需事先确定输入输出之间映射关系的数学方程,仅通过自身的训练,学习某种规则,在给定输入值时得到最接近期望输出值的结果。作为一种智能信息处理系统,人工神经网络实现其功能的核心是算法。BP神经网络是一种按误差反向传播(简称误差反传)训练的多层前馈网络,其算法称为BP算法,它的基本思想是梯度下降法,利用梯度搜索技术,以期使网络的实际输出值和期望输出值的误差均方差为最小。(3)BP人工神经网络模型优缺点BP神经网络无论在网络理论还是在性能方面已比较成熟。其突出优点就是具有很强的非线性映射能力和柔性的网络结构。网络的中间层数、各层的神经元个数可根据具体情况任意设定,并且随着结构的差异其性能也有所不同。但是BP神经网络也存在以下的一些主要缺陷:学习速度慢,即使是一个简单的问题,一般也需要几百次甚至上千次的学习才能收敛;容易陷入局部极小值;网络层数、神经元个数的选择没有相应的理论指导;网络推广能力有限。4.1.3随机森林预测模型(1)概念及应用 随机森林(Randomforest)是由多棵决策树组成的集成学习算法。对于分类问题,一个测试样本会送到每一棵决策树中进行预测,然后进行投票,得票最多的类为最终分类结果。对于回归问题随机森林的预测输出是所有决策树输出的均值。(2)工作原理输入:训练数据集D={(x1,y2),(x2,y2),…,(xn,yn)},样本子集的个数T输出:最终的的强分类器f(x)从原始样本集中随机的抽取m个样本点,得到一个训练集。用训练集训练一个CART决策树,这里在训练的过程中,对每个节点的切分规则是先从所有特征中随机的选择k个特征,然后在从这k个特征中选择最优的切分点在做左右子树的划分。如果是分类算法,则预测的最终类别为该样本点所到叶节点中投票数最多的类别;如果是回归算法,则最终的类别为该样本点所到叶节点的均值。(3)优缺点随机森林算法训练可以高度并行化,对于大数据时代的大样本训练速度有较大优势;由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效地训练模型,且采用了随机采样,训练出的模型的方差小,泛化能力强;对部分特征缺失不敏感。但是在某些样本中,随机森林算法容易有过拟合的问题;取值划分比较多的特征容易对随机森林的决策产生更大的影响,从而影响拟合的模型的效果。4.2交通事故预测模型选择 决策树模型预测数据较为不稳定,BP人工神经网络学习速度慢。而随机森林模型可以处理大量数据,在样本特征维度较高的时候仍然能高效地训练模型。综合比较后,本文选择随机森林模型来对英国的交通数据进行预测。4.3随机森林交通事故预测过程 本文所选预测模型的数据同样来源于外国数据网站kaggle,选择了2005-2007年、2009-2014年的每月总交通事故数据作为研究对象(数据库网站缺少2008年的数据),具体数据如下表所示:进行了数据准备工作之后,之后的工作就是将数据带入到随机森林预测模型进行预测了。首先读取相应的数据,对数据进行预处理。将年份和月份均作为x,以2005年1月为例,x1为2005,x2为1。将每月交通事故发生总数作为y。之后将2005-2007年和2009-2013年的交通事故数据作为训练集,2014年的交通事故数据作为训练集进行预测。之后导入数据库,调整参数randomstate为2020保证每次结果运行一致不会出现随机性结果。具体程序见附录,得出预测结果数据和折线图,见下图4.3以及表4.3。图4.3随机森林预测值与真实值对比折线图表4.3随机森林预测值与真实值对比数据年月交通事故真实值交通事故预测值2014年1月12086102852014年2月10780100292014年3月11915102882014年4月11008105272014年5月12303114342014年6月12532119692014年7月13026125222014年8月12108120052014年9月11832121872014年10月13450130902014年11月13246131192014年12月1203612313 通过折线图对比可以看到除了前三个月的拟合略微有些偏差以外,后面的拟合情况较为合理,光通过直观图片分析是无法说明结果的。于是本文引入三个参数进行评估。带入模型评估后得到评价见下表4.4:表4.4随机森林预测模型评价指标评级指标评价值平均绝对误差(MAE)0.33608均方根误差(RMSE)0.43085平均绝对误差(MAE)是所有单个观测值与算术平均值的偏差的绝对值的平均。平均绝对误差可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。对于本次的随机森林的预测模型,平均绝对误差的值是0.33608处于较低的水平,满足模型的拟合要求。均方根误差(RMSE)是预测值与真实值偏差的平方与观测次数n比值的平方根。它值越小,说明拟合效果就越好,均方根误差的值是0.43085符合模型的拟合要求。 综上所述,采用随机森林的预测模型对英国2005-2007年、2009年-2014年的交通事故数据预测拟合是十分合理且有效的。5减少交通事故的措施5.1实时车辆的监控管理虽然交通运输主管部门对运输企业的监控与管理对于减少道路交通安全隐患非常重要,但实际运行该方法的过程中往往难以有效率地管理与监控车辆。因此需要要进一步推进车载GPS和车载定位系统安装,严格监管道路交通来往车辆。同时,可以安装摄像头在需要重点管理与监控的道路运输车辆上,通过车载摄像头把当前道路的具体信息反映到道路信息预警系统中,通过系统对当前道路情况的分析,以智能化手段对运输车辆进行实时动态监控,并根据当前预警等级对驾驶员进行通知,实现对运输车辆的“预先警告”。5.2加强安全宣传教育,提高交通参与人文明守法意识近年来随着我国道路交通的发展,司机和行人的数量逐渐增多,但交通参与者的交通安全和守法意识相对薄弱,严格遵守交通规则的参与者并非占大多数,不断有多种不文明交通现象发生,最为人所熟知的就有“中国式过马路”,这其实就是行人对自己的安全重视度不高的表现。当然驾驶人也有许多不文明现象,例如随意开车窗抛洒物品、路边停车和追逐行驶等。因此加强交通安全宣传教育,可以通过利用报刊、互联网、宣传单和新闻媒体等进行交通安全知识的普及,不断提高交通参与者的交通安全意识和法制观念,才能从根本上减少交通事故,使交通安全的意识深入人心。5.3加大道路交通资金投入,提高交通智能化管理水平我国城市道路交通基础设施和道路的承载能力和日益增加的交通需要之间的相互矛盾仍然会长期保持,如果想要寻找一个在有限的资源和空间里容纳更多交通人流的方式,就必须进一步提高道路交通工具设备的科学技术含量,使交通实现高效率、智能化的管理水平。随着互联网技术的进一步发展和应用、大数据技术的普及和发展,其对于车辆安全性的分析、总结等功能都可以被广泛地应用于交通管理当中。例如汇总和分析我国历年的道路交通事故统计资料,找出事故的多发地带和相应的造成交通事故的原因和违法情况,并根据违法情况和原因确定了有重点的、具有针对性的调整。同样我们也可以利用大数据的手段进行分析各个路段主干道的交通量,引导驾驶员选择最佳的路线或错峰地出行。运用移动互联网视频信息处理技术进一步提高了汽车事故保险理赔的工作速度,实现轻微的交通事故现场可由当事人自行停车摄像或者自行拍照视频下载,事故现场短暂的紧急撤离,提高效率且也降低了交通拥堵及次生车辆事故事件的持续发展。每一起重大道路交通事故都可能是偶然,不一定能被准确预测,但长期跟踪追查或者长期跟踪特殊时间地区的重大道路交通安全事故发生原因和统计数据,并把一定的一段时期内某个特殊时间地段的重大交通安全事故发生原因和统计数据综合进行分析加以长期综合性的统计和归类分析,不难看出,事故的频繁发生都可能是由于其本身所含有的各种共性交通安全隐患,这些造成共性交通安全隐患的各种诱因如果加以叠加结合到一起就必然增大了交通事故的频繁发生的概率,随着事故时间的不断流逝而逐渐加以积累,安全隐患也比较多的地理位置必将直接导致更多的大型道路重大交通事故。交通事故的产生具有一定的偶然性、随机性,受多种原因共同影响。统计学分析道路交通事故产生的原因具有重大的意义,能够揭露其中的客观规律及发展趋势,为道路交通法规的研究制订提供了参考和依据,提高道路交通行政管理工作的针对性和效率。但是完全减少交通事故的发生并不太现实,交通事故预防处置是一个系统工程,需要各个部门之间进行协同和共管。建立政府各相关部门的交通联席会议制度,发挥各相关部门职能优势,明确细化责任和分工,形成齐抓共管的长效机制,才能最大限度的预防和减少交通事故的发生,遏制道路交通事故高发、降低交通事故损害依然任重道远。5.4合理规划路网建设,完善交通安全设施目前我国高速公路的建成通车管理与运营已经取得了一定的成就,总运营里程已经处于世界顶尖水平,但是公路交通运输安全管理情况与发达国家的高速公路管理运营情况相比仍然有一段距离。在力求实现民用道路总体规划和民用建筑物的总体设计中,要把安全道路防护放在首位,采用科学有效的防护措施,合理地进行设计和组织施工,并定期地组织进行日常道路安全养护。在加强高速公路交通建设安全方面,我国的道路地形、土壤结构复杂多样,山区上和高原上小型车辆陡坡跌落,以及大型车辆高速撞击高山悬崖等各种可能直接导致行人或者身体局部受伤的重特大道路交通安全事故时有发生,严防这种特殊类型的道路交通事故还需要从许多安全方面措施入手,山区的类型道路减速应该及时增设路边护栏及加强安全防护栏,针对盘山公道路段的急转、陡坡等类型道路减速要求应该增设减速警示牌和增加减速带。尽量减少设置高速公路沿线的狭窄小型交通路口,有必要在该处进行设置的小路口,工作人员们还应当注意提前及时布设交通减速带和设置路口的交通警示牌等标识,并且一定要及时消除该处设置路口上的广告牌和路边树木等遮挡物,使该处设置路口的沿线视野范围变得开阔而不至于沿线有任何死角。根据道路超速而可能导致的道路交通违法事故以及数量都比较多的交通情况,在道路超速容易同时发生,尤其特别是长途车和平直高速道路上还增加了一个区间性的交通测速预警装置,抓拍了不少超速的交通违法行为。在正确建立城市绿化交通城市树林风光路线图的基础同时,要特别注意如何避免城市树林空气污染严重影响绿化城市道路的正常通行和公众视线,注意定期保护更新修剪城市树林以及建立防止树林遮蔽公共交通和道路监控监视装置。结论我国经济快速发展,城镇化建设愈发成熟,机动车的数量持续增加,人们出行变得越来越便利,道路交通在社会进步与发展的过程中扮演着越来越重要的角色。随之而来,道路交通安全问题对社会经济,人身、财产安全也产生了巨大的威胁。本文便针对交通事故的成因展开研究,探讨了不同条件下交通事故发生情况,还通过商业软件tableau对数据和具体路段进行了可视化分析。基于随机森林预测模型对英国2005-2007年、2009-2014年的交通数据进行了交通事故预测。在交通事故分析和交通事故预测后,本文对减少交通事故提了几点建议。本文主要内容有两个方面,分别如下:1.数据收集与可视化研究本文所选择交通数据来源于数据库网站kaggle,包含了本文可视化分析研究所需的路面条件、天气状况、照明条件、事故发生具体时间(年、月、日、星期和时刻)和事故严重程度等。通过tableau可视化分析2014年英国全年发生的交通事故数据可以得知:(1)事故多发于早晚高峰,这与人们的工作生活习性有关。早晚高峰正处于上班族的上下班时间,道路上的车流量明显增高,于是交通事故发生的数量也就随之增加(2)事故多发于晴好的天气状况。除去晴好天气占据较大部分的时间的因素外,晴好的天气反而容易发生交通事故。与晴好天气类似,路面情况、光照条件同样是在条件较好的情况下反而交通事故发生的比例更高,这显然是与常理不符合的。经过分析后,在行驶环境良好的条件下,驾驶员心态可能会过于放松,行驶速度加快,对周围可能发生的情况没有防备,从而导致交通事故的发生。在各种不良条件的分析下得知,路面湿滑、雨天、路面照明情况不佳是导致交通事故发生的主要诱因,恶劣天气给驾驶员判断周围情况带来了麻烦,因此容易发生交通事故。(3)地图结合交通数据可视化分析结果表明,高速公路的匝道以及交叉口是LewishamWay发生交通事故的热点地区。在不同天气条件下所表现的交通事故分布特征也与英国发生事故的特征基本一致。结合交通事故散点图可以发现路厄斯罕市西南-东北走向的道路明显交通事故总量要高于其余两条主要道路,推测是因为临近商业区,承受了来自市中心和繁华商业区的较大的交通压力导致发生交通事故。2.交通事故预测本文采用了数据网站kaggle的数据进行交通事故预测,在多种预测模型的横向对比下,最终选择了随机森林模型对数据进行预测。以2005-2007年、2009-2013年的数据作为训练集,2014年的数据作为测试集进行预测。得到了2014年每月交通事故量预测值,并与真实值进行比对绘制出折线图。最后采用模型评价指标MAE和RMSE对模型进行评价,结果显示,随机森林预测交通量拟合效果良好。3.论文的不足和展望由于本人能力不足,论文有很多可以改善的地方。本文的可视化分析内容仅基于tableau商业化软件所出的成果图。可分析的内容可以考虑增加死亡人数、受伤人数、直接经济损失等事故统计指标。本文的研究主体是基于2005-2014年英国的数据,因其存在时间上的滞后性和地区局限性,无法将预测结论更好地应用到我国交通的实际中,因此,在后续研究中,如果能取得最新和最全面的数据来预测分析,将会更具有实践指导意义。参考文献[1]CaulfieldXC.Spatialandtemporalvisualisationtechniquesforcrashanalysis[J].AccidentAnalysis&Prevention,2011.[2]饶永明,张延孔,谢文军,等.交通事故时空模式可视分析方法[J].计算机科学,2019,046(004):14-21.[3]WongsuphasawatK,PackML,DFilippova,etal.VisualAnalyticsforTransportationIncidentDataSets[J].TransportationResearchRecordJournaloftheTransportationResearchBoard,2009,2138(2138):135-145.[4]WangD,LiuQ,MaL,etal.Roadtrafficaccidentseverityanalysis:Acensus-basedstudyinChina[J].JournalofSafetyResearch,2019,70(Sep.):135-147.[5]RoadtrafficmortalityinChina:analysisofnationalsurveillancedatafrom2006to2016.[J].LancetPublicHealth,2019.[6]ZhangG,YauK,ChenG.RiskfactorsassociatedwithtrafficviolationsandaccidentseverityinChina[J].AccidentAnalysisandPrevention,2013,59:18-25.[7]刘祖德,刘永泰,王淸淸.相关关系和因果关系在事故分析中的应用——研究综述与启示[J].安全与环境学报,2020,v.20;No.115(01):174-182.[8]RusdiR,MazharulH,MohammadS,etal.CrashseverityalongruralmountainoushighwaysinMalaysia:Anapplicationofacombineddecisiontreeandlogisticregressionmodel[J].TrafficInjuryPrevention,2018:1.[9]XuX,ShiY,WuY,etal.ResearchingonTrafficAccidentBasedonRelevanceAnalysis[C]//2019IEEEInternationalConferenceonPower,IntelligentComputingandSystems(ICPICS).IEEE,2019.[10]AlkhederS,AlrukaibiF,AiashA.Riskanalysisoftrafficaccidents'severities:Anapplicationofthreedataminingmodels[J].ISATransactions,2020.[11]于志青.基于大数据架构的智能交通可视化平台设计[J].中州大学学报,2021,38(01):120-123.[12]曹惠茹,成海秀,刘永鑫,陈凤宜,詹锡隆.基于云计算的城市轨道交通数据可视化方法及案例研究[J].计算机应用与软件,2021,38(02):33-36+49.[13]谢燕刚,张毅,刘正寅.基于WebGL技术的轨道交通综合安防系统三维可视化应用研究[J].中小企业管理与科技(上旬刊),2021(02):177-179.[14]吴向平,平力俊,徐董事.结合社交媒体数据的城市交通事件可视分析方法[J/OL].系统仿真学报:1-11[2021-03-28].[15]张昊,张健钦,王家川,石睿轩,陆浩,张安基于云存储的城市交通大数据可视化系统[J]科学技术创新,2021(01):81-82.[16]吴佩洁,孟祥海,曹梦迪.城市交通事故多发点鉴别与时空模式挖掘[J].中国安全科学学报,2020,30(11):127-133.[17]朱楠,刘晶.基于出租车GPS数据下的交通可视化研究[J].黑龙江交通科技,2020,43(11):158-160.[18]曾春海.交通流量数据可视化平台应用分析[J].交通与运输,2020,33(S1):200-204.[19]张博中.基于船舶大数据的交通状态识别及可视化技术研究[D].大连海事大学,2020.[20]李潇.基于轨迹数据的城市交通模式提取与可视分析[D].浙江工业大学,2020.[21]吴培宁.基于GIS的三维交通噪声屏障路段环评可视化技术研究与实践[J].计算机应用与软件,2020,037(005):82-89,107.[22]李杰,曾砜,李平,姜晨明.道路交通安全文献的知识可视化综述[J].交通信息与安全,2020,38(01):13-19+26.[23]刘芳芳,张锦涛,黄杰.基于大数据的城市交通可视化技术研究[J].数字技术与应用,2019,37(05):92+94.[24]刘学军,孙文高.城市轨道交通及传统公交网络可视化研究[J].今日财富(中国知识产权),2019(05):211.[25]CharlottePlug,Jianhong(Cecilia)Xia,CraigCaulfield.Spatialandtemporalvisualisationtechniquesforcrashanalysis[J].AccidentAnalysisandPrevention,2011,43(6).[26]袁力.基于地理信息和数据可视化的道路交通事故调研分析与对策建议[J].汽车与安全,2018(07):90-95.

!附录A随机森林预测模型importpandasaspdimportnumpyasnpfromsklearn.metricsimportmean_absolute_error,mean_squared_error,r2_scorefromsklearn.preprocessingimportStandardScalerfromsklearn.model_selectionimporttrain_test_split,KFold,cross_val_score,RandomizedSearchCV,GridSearchCVfromsklearn.ensembleimportRandomForestRegressorfromsklearn.svmimportSVRdata_1=pd.read_csv('accidents_2005_to_2007.csv')data_2=pd.read_csv('accidents_2009_to_2011.csv')data_3=pd.read_csv('accidents_2012_to_20141.csv',encoding='gbk')data_3=data_3.drop(['事故数'],axis=1)data=pd.concat((data_1,data_2,data_3),axis=0)print(data.shape)date=data.Date.valuesdiction={}years_month_collection=[]#以下是做数据集处理的,用的字典的方式,把每月的事故数统计起来forsingle_dateindate:line=single_date.split('/')years_month_string=line[2]+'/'+line[1]years_month_collection.append(years_month_string)forsingle_years_monthinyears_month_collection:ifsingle_years_monthnotindiction.keys():diction[single_years_month]=1else:values=diction[single_years_month]values+=1diction[single_years_month]=valuesdata=np.array(list(diction.keys()))dataset=[]forsingle_dataindata:data_set=[]years,month=single_data.split('/')data_set.append(years)data_set.append(month)dataset.append(data_set)label=np.array(list(diction.values()))all_data=np.concatenate((dataset,label.reshape(-1,1)),axis=1)all_data=pd.DataFrame(all_data,columns=['years','month','count'])all_data.to_csv('123.csv')print(dataset[0],

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论