版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目录摘 要IABSTRACT II1 绪 论11.1 本课题研究背景 11.2 本课题研究意义 21.3 国内外研究现状 31.4 本课题研究内容 42 交通流特性的相关研究62.1 交通流的概念 62.2 交通流的基本参数 62.2.1 交通流量 62.2.2 平均速度 72.2.3 密集度 82.3 交通流特性 82.3.1 速度密度(u-k )模型 92.3.2 速度流量(u-q )模型 102.3.3 流量密度(q-k)模型 112.4 数据模型概述 132.4.1 数据流研究背景132.4.2不确定数据研究背景 153 交通流数据质量检测算法研究 173.1 交通流数据质量检测理论
2、173.1.1 交通流数据常见问题 173.1.2 交通数据故障识别方法 183.1.3 数据问题的处理方法 203.2 故障数据检测算法 253.2.1 故障数据检测步骤 273.2.2 故障数据检测 293.3 特长高速公路隧道交通流故障数据检测 303.4 本章小结 304 全文总结与展望31致 谢 32参考文献 33摘要随着特长高速公路隧道交通安全研究的深入, 特长高速公路隧道实时交通流数据质量逐渐受到重视和关注, 对特长高速公路隧道交通流数据进行故障数据检测是提高数据质量的关键。在智能交通系统( ITS, intelligent transportationsystem )的大背景下
3、,如何利用丰富的交通检测数据,对现在的交通流状态,特别是在城市中处于重要地位的快速路的交通状态进行检测, 对于提高交通运输效率,特别是物流企业的效率具有重要的理论意义和实用价值。智能交通系统( ITS, intelligent transportation system )运行的基础是ITS数据。当路上采集到的 ITS 数据源源不断地传输到交通指挥中心后,中心会对数据进行相应的处理和应用,如集成、抽样、压缩、存储、发布等。由于传输设备故障、路面交通状况和环境因素的异常以及ITS 设备的连续性工作特点所引发的间歇性工作故障, 都会使所采集的数据出现错误、 丢失及不精确的情况, 若直接采用包含有质
4、量问题的数据提供给道路交通应用, 必将给应用带来不稳定和不安全隐患的后果。因此,有必要对ITS 数据进行质量检测,降低问题数据对整体数据精确度的影响,保证对ITS 数据的成功处理和安全应用。就ITS 数据而言, 质量检测意味着用一定的方法产生高质量的数据信息来满足数据用户的需求, ITS 数据质量检测技术旨在对错误、 丢失和不精确等问题数据进行判别并且给予修正,最终得到更为准确的数据。本文在综合学习相关学者关于交通流故障数据研究成果基础上, 针对特长高速公路隧道交通特点, 综合考虑特长高速公路隧道交通流特性, 对特长高速公路隧道历史交通流数据质量进行检测。关 键 字 : 智能交通系统、数据错误
5、、交通流数据质量、故障数据检测AbstractWith the deepening of specialty highway tunnel traffic safety research, real-time traffic flow data quality expertise highway tunnel gradually more attention and concern, the specialty highway tunnel traffic flow data for fault data detection is the key to improving data quali
6、ty. Context of intelligent transportation system (the ITS, intelligent transportation system), how to use the wealth of data on traffic detection, traffic flow state, especially in an important position in the highway traffic in the city state for testing, for improving the transportation efficiency
7、, especially the efficiency of logistics enterprises has important theoretical significance and practical value.Intelligent transportation system (the ITS, intelligent transportation system) running on the basis of ITS data. Way acquisition to the ITS data are continuously transmitted to the traffic
8、 control center, the center will data processing and applications such as integrated sampling, compression, storage, release. Intermittent failures caused due to the continuity of the work characteristics of the transmission equipment failure, road traffic conditions and environmental factors, abnor
9、mal and ITS equipment will make the data collected by an error, missing and inaccurate, if used directly contains the quality of the data available to road traffic applications, bound to the application of the consequences of the hidden dangers of instability and insecurity. Therefore, it is necessa
10、ry for the ITS data quality testing to reduce the impact of the problem data on the overall data accuracy, and to ensure the success of the ITS data processing and security applications. ITS data quality testing means that a certain way to produce high-quality data to meet the needs of data users, t
11、he ITS data quality detectiontechnology is designed to distinguish and give the correct error, missing and inaccurate data, and ultimately get more accurate data.Integrated learning and scholars on the basis of the results of the fault data traffic flow on specialty highway tunnel traffic characteri
12、stics, considering the expertise highway tunnel traffic flow characteristics, the historical traffic flow data quality expertise highway tunnel detection.Keywords:Intelligent transportation systems, data errors, the qualityof traffic flow data, fault data detection1 绪论1.1 本课题研究背景解决交通问题的传统方法是修建道路, 但无
13、论是哪个国家, 对于越来越复杂的交通大系统, 单独从车辆或道路方面考虑, 都很难完美地解决交通问题。 另一方面, 信息技术的飞速进步为综合解决交通问题带来了机遇。 在此背景下, 把车辆、 道路及环境综合起来, 系统地解决交通问题的思想便产生了, 这就是智能交通系统( ITS )。智能交通系统中采集的交通流数据中承载着众多交通信息,通过对交通流数据进行分析, 发掘数据中存在的有用信息。 面对智能交通系统海量的交通流数据,在数据采集或数据传输中由于技术原因或设备原因造成数据故障, 使得数据质量下降、 可信度降低, 因此需要对智能交通系统交通流数据质量展开研究,通过数据检测和修正,提高智能交通系统交
14、通流数据质量。随着特长高速公路隧道交通安全研究的深入, 特长高速公路隧道实时交通流数据质量逐渐受到重视和关注, 对特长高速公路隧道交通流数据进行故障数据检测是提高数据质量的关键。 并且随着数据采集技术的提高, 目前交通流数据采集设备采样周期越来越短, 并且智能交通安全管理系统对交通流数据更新时间也越来越精确。在实际交通管理过程中,采集到的原始交通流数据利用率欠佳,美国得克萨斯州的每 5 分钟时间间隔交通流采样数据样本中将近约 20% 的实时交通数据不能得到有效归档利用。 实时的交通流数据信息为交通安全管理与控制提供正确的 交通信息, 并为下一个采样周期内交通安全控制策略提供可靠依据, 正确的高
15、效 的智能交通安全控制策略又为实时交通提供准确及时的诱导方案。1.2 本课题研究意义智能交通系统在欧洲也称道路交通信息通讯系统,是基于系统工程、电子、通信、信息等多种高新技术, 并已渗透到航空、水运、铁路交通领域的新型交通系统 . ITS 的建立可以提高路网通行能力和服务水平,改善环保质量,提高能源利用率 . “国家中长期科学与技术发展规划纲要(2006-2020) ”中明确提出“发展一个系统,解决三个热点问题” 。其中,一个系统就是综合运输系统,三个热点问题就是交通能源和环境、交通安全和大城市交通拥堵问题。随着智能交通系统交通流数据应用研究的深入, 采集的交通流数据的质量逐渐受到重视和关注,
16、对智能交通系统交通流数据进行质量检测是提高交通流数据质量和数据可信度的关键,因此针对智能交通系统交通流数据质量检测算法展开相应研究有利于提高智能交通系统的服务效率和服务水平。智能交通系统(ITS)是交通发展的必然趋势,利用交通检测器获取海量信息,经过有效处理进行信息发布。但在智能交通系统(ITS) 交通流数据采集或数据传输中,由于技术原因或设备原因造成的丢失数据、故障数据或时间点不规则等数据质量问题,若直接采用具有质量问题的交通流数据进行交通研究,将会为应用带来不稳定或不安全的隐患。通过研究智能交通系统交通流数据质量检测算法, 促使交通流数据质量得到有效控制, 可以为智能公共信息平台所提供的交
17、通数据查询子系统提供高质量的数据支持服务, 可以提高智能交通系统交通信息服务平台发布数据的精度, 可以 为用户提供高质量的实时交通流数据从而提供快速高效的交通决策等。 因此关于 智能交通系统交通流数据质量检测算法研究预期成果的应用前景良好, 交通流数 据质量控制可以给智能交通系统提供有力的数据质量保障和较高的数据运行效率, 预期成果所带来的效益表现为提高道路通行能力和道路服务水平, 有利于缓解城市交通拥堵和促进道路交通安全。1.3 国内外研究现状对动态交通系统所采集到的数据进行研究之前,首先要对数据进行记录检查, 找出负值或缺损数据, 然后除去这些记录。 宏观交通数据的筛选主要分为两类: 阈值
18、检查和基于交通流理论的检查, 以保证数据的有效性完备性等质量指标。目前应用最普遍的检查就是通过阈值确定数据的有效性, 另外, 通过应用交通流理论中交通流参数之间的关系,可以进行进一步更复杂、更深入的数据筛选。国外自从 Hawkins D 给异常数据本质定义之后,数据检测算法研究慢慢受到关注, 先后由 Rousseeuw 和 Ruts 提出了基于深度算法、 Clifford 和 Berndt提出了基于统计算法、 Ng 和 Knorr 进行了基于距离算法研究、 Kriegel 和Breuning 基于密度算法研究还有Aggarwal 和 Yu 提出对于高维数据进行降低维数异常检测思路等。 Clif
19、ford J 和 Berndt J.D 将统计学运用到数据异常数据检测; Ruts 和 Rousseeuw 将空间映射运用到层次划分从而提出了基于深度的数据检测算法; Breuning 和 Kriegel 将数据聚类算法与数据检测算法相结合,对基于距离检测算法进行改进, 赋予了每个数据相应局部异常因子来反映数据异常程度,提出了基于密度检测算法; Knorr 和 Ng 应用聚类划分提出了基于距离的数据检测算法, 采用设定阈值对数据进行检测, 通过各个数据点对应相应聚类中心距离来实现数据检测功能; Aggarwal 和 Yu 提出了针对高维数据进行降低维数处理,通过降低维数来实现数据检测算法。将高
20、维数据映射到低维子空间,并根据子空间的映射数据稀疏程序来判断是否存在异常数据。我国在 ITS 领域的研究起步较晚,但随着全球范围智能交通系统研究的兴起,进入20 世纪90 年代, 我国明显加快了对智能交通技术研究的步伐。 70 年代中期至80 年代初,理论研究重点围绕交通流理论、交通工程学、城市路口自动控制数学模型等工作展开,技术开发包括点、线、面控计算机软件、北京前三门交通控制试验系统、天津线控、面控试验系统、信号机、检测器的开发等。80 年代中期至90 年代初,公路系统的 ITS 理论研究主要有高速公路监控系统数据模型、交通堵塞自动判断模型、标志和标线视认性研究,驾驶心理研究等;开发应用包
21、括天津疏港公路交通工程技术研究(通信、监控、安全设施),可变情报板、可变限速标志、通信适配器、通信控制器、紧急电话的研制,广佛高速公路监控系统、 交通和气象数据采集设备的研制、 电子收费系统和不停车收费的试验,以及交通工程CAD 等。1.4 本课题研究内容随着智能交通系统交通流数据应用研究的深入, 交通流数据质量逐渐受到重视和关注, 对交通流数据进行故障数据检测是提高数据质量的关键。 尤其是交通流各指标值违背交通流指标特性关系而造成的不合理的错误数据, 得不到充分检测。 本课题在综合学习相关学者关于交通流数据质量检测研究成果基础上, 针对智能交通系统交通流特性,综合考虑交通流特性,对历史交通流
22、数据进行聚类,并根据聚类结果进行运算,通过交通流量-速度- 时间占有率曲线拟合,实现智能 交通系统交通流数据检测。对于实时交通流数据进行质量检测, 包括不规则时间点、 丢失数据和故障数 据 .针对不规则时间点检测,采用原始交通流数据样本中的时间值与正常情况下的采集时间点相对比, 通过比较容许时间偏差范围进行不规则时间点检测; 针对丢失数据检测, 采用交通流数据指标进行判断, 通过比较交通流数据各指标参数阈值范围, 进行交通流丢失数据检测; 故障数据检测, 指针对各项指标均在阈值范围内, 但不符合交通流数据特性的故障数据, 综合考虑交通流特性, 对历史交通流数据按照聚类结果进行交通流量-速度 -
23、 时间占有率曲线拟合; 确定不规则时间点检测算法和丢失数据检测算法; 提出故障数据检测算法; 提高智能交通系统实时交通流数据质量。2交通流特性的相关研究2.1 交通流的概念交通流是指道路上的人、车、货从甲地到乙地的流动形态,其分类如图2 1所示。没有特指的交通流一股指机动车流。图2交通淹分类关系图团2.2 交通流的基本参数交通流运行状态的定性、定量特征称为交通流特性,用以描述交通流特性的 一些物理量称为交通流参数,参数的变化反映了交通流的基本性质。表征交通流 特性的三个基本参数分别是:交通流量、速度和密集度。2.2.1 交通流量交通流量是指在单位时间内,通过道路某一点、某一断面或某一条车道的交
24、 通实体数a寸于机动车而言就是车辆数)。流量可以通过调查车头时距获得。车头时距H:指同一地点车辆经过的时间问距。如图 2-2所示,交通量q可以表示为平均车头时距万的倒数:q =(2-1)H固定时间L(时间£图2-2车辆行驶轨迹的时空图2.2.2 平均速度般分为地点速度和平均速度。地点速度就是平常所说的瞬时速度,即速度仪表上某时刻的显示速度。在交通分析中,一般采用的平均速度Vt,即观测时间内通过道路某断面的所有车辆速度的算术平均值(2-2)1 NVt = Nii2.2.3 密集度密集度, 包括占有率和密度两种含义。 密度是表示交通流拥挤状态的恰当指标, 它是指一定长度的车道内拥有的车辆
25、数, 因此观测困难, 在交通控制与管理中,多采用时间占有率作为参数。2.3 交通流特性通过特长高速公路隧道各段的数据采集设备获得通过该检测点某个采集时间间隔内的交通流量、交通速度、交通密度、车头时距、以及时间占有率等特征指标, 在进行交通流特性分析时, 采用交通流量、 交通速度以及交通密度三项指标进行分析。 由于交通系统中的主要元素车辆和人到达的随机性, 这些变量组成的交通流必然也是随机的, 也就是说交通量、 速度、 占有率三大参数也是随机变量。当道路通畅,交通流平稳均匀时,由交通流量q-交通密度 -交通速度vsm项指标得到交通流基本模型,如式(2-3) 所示。q /vs(2-3)取某特长高速
26、公路隧道交通流实测数据样本,共816 组,密度采用实测时间占有率。代替,速度v-时间占有率。-交通流量q实际交通流数据分布如图2-3 所示 。10700Traffic volume(veh/h)Traffic speed(km/h)图2-3 实测交通流v-o-q分布2.3.1 速度-密度(u-k )模型在u-k模型中,每个密度值都对应唯一白速度伯:,多用于理论研究。q-k模型和q-u模型则不是。由于流量与密度、速度之间存在密切的相互影响关系, 一旦知道了密度和速度,就可以计算出流量。1934年,Greenshields 从航拍照片中获得了速度和密度的数据,据此提出了第一个线性模型;而后,Gre
27、enberg认为非线性模型更适合描述交通流的关系,于1959年提出了对数模型,Underwood 关注畅通状态的交通流,提出了指数模型,分别描述了大密度和小密度状态下的速度-密度关系;后来,有关研究者提出了 u-k关系的S型曲线模型,用一组单段式曲线族来描述u-k关系,Drew 在Greenshields 模型的基础上引入了另外一个参数,得到了一个通用模型;Pipes-Munjal 提出了与Drew 类似但是更加一般化的通用模型;Edie和Dick则考虑在不同流量下各模型的适用性的基础上,提出多段式组合 模型。具体模型见图2-4所示。Greeuslu tlds modelGrtenburg m
28、odelUnderwood mo delh =勺 exp(-fr)即(-印7)图2-4速度一密度关系图由于密度数据很难直接采集,而本文主要数据来源于快速路路面铺设环形线圈,可以直接得到占有率的数据。占有率直接反映了交通密度的高低, 更能表明道路被实际占用的情况,因此多通过占有率来反映密度特征,同时本文研究u-o模型来替代u-k模型根据对NX03检测断面的检测数据进行统计分析,并尽量用一个函数来描述其关系。u-o散点关系图和拟合曲线见图 2-5(力提皮-上疔主理设回归G速度-占有率指轼撰曼'c* 乳- Q indK modl(由沌理-占有聿二次3疗人回心候吧(d) 11 一 0 quad
29、rate pclynomial rrsrcssicn mod图2-5速度一占有率散点关系图及拟合曲线曲线拟合的具体结果见表 2-1。从图2-5和表2-1中的具体拟合判决系数2R来看,曲线的拟合程度还是比较高的,而且 2R除了对数拟合模型之外,都 达到了 0.95左右,而对数模型也达到了 0.85以上。表21速度一占有率关系的模型回归模型类型模型的函数形式战性模型y- 14534冗 + 跖 03对数模型V = -12.887Ln(x +94.419指数模型y-87.80Sexp(-0.0223x)判决系数(R"00 K6560 94号:次多项式模型y- -0.0052x2 1.3127
30、x + S5.530 95182.3.2 速度流量(u-q )模型速度和流量数据容易直接采集,因此国内外对速度一流量关系的研究也比较多。速度-流量模型通常用于评价交通运行状况、估算服务水平。最早且经典的速度流量模型是 Greenshields 的抛物线模型,具表达式为:。它是在u-k 线性模型的基础上得到的,基本反映了速度和流量的变化趋势,多年来一直被广 泛采用。然而 H.B.James、F.L.Ha和H.C.Chin的研究结果表明:根据实际 数据来研究u-q关系,u-q曲线应该分为三段:第一段表示畅通状况,第二段表 示排队后消散过程,第三段表示拥堵(伴随有排队)状况;交通流在畅通状态和 拥挤
31、状态之间过渡时并不一定要经过通行能力,交通状态可以从畅通直接跳到拥 挤的状态。给出的u-q关系如图2-6所示,这种曲线并不是某一种函数式,而 是从大量的实测数据中分析出的结果。图2-6 速度一流量曲线模考察研究对象NX03断面的实际数据,与速度-密度关系的分析方法类似的,对速度-流量散点图进行拟合。由于速度-流量关系种没有密度参数, 本文采取小密度状态,即自由流中的最大流量来划分速度一流量数据群,自由流的速度为89.42km/h, 如图 2-7 所示:图2-7速度一流量散点图及其二次多项式回归从图2-7中,可以看到速度一流量关系的曲线拟合程度还是相当高的,判 决系数2R达到了 0.8854。从
32、散点图来看,可以对交通流状态进行一个初步判 断:速度-流量数据大多主要集中在等待部分, 即阻塞状态;在自由流状态的数 据相对较少,主要集中在小密度状态下;而阻塞与自由流之间的过渡过程,即等 待队列消散的过程的数据最少。2.3.3 流量密度(q-k)模型早期的通行能力研究,主要遵循两个途径:一是探讨交通密度小时的速度一流量关系式;二是探讨交通密度大时的车头时距规律。流流量一密度模型把这 两种途径同一起来。并且流量一密度模型在交通控制中也有重要的作用, 常把密 度作为控制参数,流量作为目标函数对快速路进行控制, 所以经常把q-k曲线称 为“交通基本图表" 。Greenshields、Gr
33、eenburg、Underwood 根据基本的 u-k模型推导了各自的q-k模型;止匕外,Koshi提出了反入模型,Hall提出了 倒V模型。止匕外,与多段式 u-k模型对应,一些学者还提出了不连续的 q-k 曲线模型如图2-8所示:图2-8流量一密度关系模由于密度数据难以获得,Aothl (1965 )建议使用q-o关系确定拥挤的发生。 根据实地采集的数据所作的 q-o散点图以及拟合曲线如图 2-9 ,可以看到,流 量一占有率的二次多项式拟合曲线的判决系数 2R高达0.9864,拟合程度相当 高。图2-9流量一占有率散点图及二次多项式回归拟2.4 数据模型概述近些年来,随着科学技术的不断进步
34、,人们收集处理数据的方式发生了巨大的变化。一方面,在很多应用中出现了数据流,其广泛存在于网络监控、日志分 析、传感器网络、金融预测等领域中,数据流数据规模庞大、到达速率极快、且 每个数据只能够被访问一次,这些与传统数据模型截然不同的特征给数据的查询 和管理工作提出了新的要求;另一方面,随着数据采集技术的进步,人们对数据 不确定性的认识也逐步深入,在诸如经济、军事、物流、金融、电信等领域的具 体应用中,数据的不确定性普遍存在,不确定性数据的表现形式多种多样, 它们 以关系型数据、半结构化数据、流数据或移动对象数据等形式出现,这同样给数 据的进一步处理工作带来了新的挑战。2.4.1 数据流研究背景
35、有关数据流(data Stream)的聚类分析与异常检测是目前国际数据库领域自上个世纪末以来, 随着计算机技术在诸如网络流量监控、 金融信息处理、 Web 访问和传感器网络等领域应用的普及和深入, 传统数据库技术面临新的挑战。数据流应用场景中所处理的数据通常具有如下特点 :1. 数据都是实时到达的。2. 数据到达的次序往往是独立的,不受系统所控制。3. 数据流的速度和规模大小不是预知的,也就是说往往不能够对其速度和规模进行预定义。4. 数据一经处理,除非特意保存,否则不能够被再次取出处理,或者再次提取数据代价昂贵。尽管主要的数据流处理模型与传统数据库技术息息相关, 但是两者仍然存在诸多差异。
36、例如, 如果利用传统技术进行数据处理, 必须将数据全部存储到介质(如关系数据库)中,然后通过相应的算法来寻求挖掘结果。但是,当数据规模宏大且到达速度很快时,因执行查询操作需要大量的 I/O 交换,效率低下,往往难以满足实时性要求。此时,数据流处理技术的解决策略是: 不保存整个数据集,仅维护一个远小于其规模的概要数据结构, 该概要数据结构能够常驻内存。 此时数据流挖掘算法将包含两部分:一部分监控流中的数据,实时更新概要数据结构 ;另一部分响应用户查询或挖掘处理请求,返回近似查询结果。一般来说,想直接应用传统的 OLAP 或数据挖掘算法到高速,大流量的数据流场景中往往是行不通的,其主要原因表现在如
37、下几个方面:1. 数据流中的数据是海量的,无法通过内存,甚至硬盘来存储整个流数据。2. 由于数据量巨大, 无法全部存储的特点使传统的多遍扫描数据的挖掘方法变得不可行,因此对数据流的挖掘算法应该是一个单遍扫描过程(one-passsean)如关系数3. 数据流是时序的, 对流中的数据元素只能按其流入顺序依次读取,据库那种的随机访问是不现实的。4. 数据流应用要求较快的响应时间, 挖掘过程应该是一个连续的过程, 而不是偶然进行一次。5. 数据流往往天生就是高维的 (High-Dimensional) ,有时会带来严重的“维度灾难” 。2.4.2 不确定数据研究背景在数据流技术研究方兴未艾之时,一种
38、更加广泛存在于数据本身中的问题一不确定性(uncertainty) , 近些年来也逐步引起学术界的关注。 在此之前,确定性数据(deterministic data) 管理与挖掘技术得到了充分的发展,在确定性数据应用中,数据的存在性和精确性均确凿无疑。然而,近几年来,不确定性数据(uncertain data) 在越来越多的应用中扮演关键角色, 例如经济、军事、物流、金融、电信等,而传统数据管理技术无法有效处理这类新问题,堕需开发新型数据管理技术。不确定性数据的产生原因复杂,例如原始数据不准确、使用粗粒度数据集合、满足特殊应用目的、处理缺失值、数据集成等。1. 原始数据不准确。 这是产生不确定
39、性数据最直接的原因。 首先, 物理仪器所采集数据的准确度受仪器的精度制约。其次,在网络传输过程(特别是无线网络传输)中,数据的准确性受到带宽、传输延时、能量等因素影响。最后,在传感器网络应用睁s 与 RFID 应用中,周围环境也将影响原始数据的准确度。2. 使用粗粒度数据集合。 从粗粒度数据集合转换到细粒度数据集合的过程会引入不确定性。 例如, 假设某人口分布数据库记录了全国各乡的总人口数,而某应用要求查询以村为基础单位的人口数量,查询结果就存在不确定性。3. 满足特殊应用目的。 出于隐私保护等特殊目的, 某些应用无法获取原始的精确数据,而仅能够得到变换之后的不精确数据。4. 处理缺失值。缺失
40、值的产生原因很多,例如装备故障、无法获取、与其他字段不一致、 历史原因等。一种典型的处理方法是插值,插值之后的数据可看作服从特定概率分布。 另外,也可以删除所有含缺失值的记录,但是这个操作也从侧面变动了原始数据的分布特性。与以上的单一不确定性产生原因相比, 某些应用中的不确定性数据往往是多种因素共同作用产生的。例如,基于位置的服务(Location 一BasedService , LBS) 是移动计算领域的核心问题,在军事、通信、交通、服务业等中有着广泛的应用。 LBS 应用获取各移动对象的位置,为用户提供定制服务,该过程存在若干不确定性。首先,受技术手段(例如GPS技术)限制,移动对象的位置
41、信息存在一定误差。其次,某些查询要求保护用户的隐私信息,必须采用“位置隐私”等方式处理查询。实际上,针对不确定数据的研究工作已经有几十年历史了。从二十世纪八十年代末开始,针对概率数据库 (Probabilisti 。 database) 的研究工作就从未间断, 这类研究工作将不确定性引入到关系数据模型中去,取得较大成果。近年来,针对不确定性数据的研究工作则在更广的范围内取得了更大的进展,即在更丰富的数据类型上处理更多种类的查询任务。3 交通流数据质量检测算法研究3.1 交通流数据质量检测理论3.1.1 交通流数据常见问题交通流数据常见问题分为数据缺失、 数据失真和数据时间点 3类问题, 针对这
42、些问题,提出了一种交通流数据质量检验方法。(1)数据缺失由于设备老化、 线路故障等原因, 交通流数据中偶尔会发生数据点缺失的现象, 属于比较常见的问题。 通常是丢失一个时间点的一组数据。 虽然丢失的数据不多, 但如果没有及时发现此问题, 对于间隔固定行数循环提取数据的交通流分析方法,有着严重的影响。(2)数据无效数据无效指的是获得的交通流数据有数据突变点或不符合交通流三要素相互关系, 主要依据阈值理论和交通流理论判定数据的有效性, 由于无效的概念比较模糊, 相对不易判别。 另一个比较常见的问题是, 在车流量比较少的时候, 常测得不符合实际情况的较高速度,显然是错误数据,需要有针对性地予以处理。
43、(3)数据时间点问题比如理论上一些交通流数据获取频率应为 120s( 秒 )一次,但实际上间隔通常小于 120s ,如 1 19s 、 1 18s 等, 而且因为网络传输问题, 没有明显的规律可循。 经过时间的积累, 会带来比较大的误差。 如6车道一周的数据理论上应为 6 (车道) 30 (次每小时)*24(小时 ) 7 (天)=30240 条, 而实际获得 30462 条, 多了 222条,即 37 组, 74 分钟的数据。此外, 还发现交通流数据记录顺序有时会改变, 如本来各道路记录顺序为:1 、 2、 3、 11 、 12 、 13 , 会突然改变为: 2、 3、 1、 12、 13、
44、11 。这对于不识别路段编号,直接间隔固定的行数、循环提取数据的方法也有很严重的影响。如果各个监测点记录顺序的差异较大, 没有统一的顺序,就造成了对于不同的检测点数据需使用不同的分析程序代码, 也会给科研人员带来了不必要的工作量。3.1.2 交通数据故障识别方法在城市道路交通数据采集过程中,由于存在各种干扰,使采集到的数据信息常出现丢失和偏离真值等情况。 因此要进行交通流数据的质量检测, 首先需要对其中的丢失数据、不精确数据、和错误数据进行判别。( 1 ) 丢失数据故障识别无论是固定检测器, 还是移动检测器都是按照一定的时间间隔来采集数据,但是在实际情况中, 检测器扫描频率不固定, 传输线路出
45、现故障, 车辆过度密集造成检测器无法检测车辆等多种原因都会使采集到的交通数据无法严格按照一定的时间间隔上传, 甚至会有部分数据丢失, 给以后的数据处理和交通预测工作带来不利的影响。 本文设计了一种丢失数据的识别方法, 把在一定时间段内得到的数据定义成某一时段的数据,例如,将采集数据的时间间隔规定为 5min ,则在8:00 到8:05 这个时间段内得到的数据均视为 8:00 的数据,然后对数据的时间段进行扫描, 如果在某一时间段内没有得到数据, 则认为该时段的数据产生了丢失,按照第一类数据故障的修复方法对其进行处理。( 2 ) 失真数据故障识别当交通检测器或传输线路出现故障时, 采集到的数据通
46、常都是错误的, 不能反应真实的交通状况。错误的数据通常表现为 0 ,或是数值超过路段允许的最大流量,将数值等于 0 和超过流量允许最大值的数据定义为第二类异常数据。定义允许的流量最大值为Q = fCT/60(3-1)式中 : f 为修正系数;C 为道路通行能力 (veh/h);T 为检测时间间隔 (min) 。由于车辆的计数是在一个相当短的时间内完成的 (数十秒或数分钟),所以测得的随机流量值可能会大于道路的通行能力,因此,用道路的通行能力C与修正系数f 的乘积来确定流量的最大值。( 3 ) 异常数据故障识别在正常交通状态下,网络交通流的变化是一个平稳的随机过程,流量数据的幅值应该在某一区间内
47、变化, 但是当道路中出现交通事件时, 流量数据与正常情况下的数据之间会出现很大的偏差。本文采用t时段之前n个数据的平均值和方 差来识别此类数据故障。 当时, 认为数据是正常的, 否则认为此时的交通数据为 第三类故障数据。3.1.3 数据问题的处理方法针对以上问题,我们提出了 一种交通流数据检验与修复方法: 为了方便的检测数据点的缺失情况,先把数据的时间点标准化,使所有数据具有相同的记录顺序;然后修复丢失数据和无效数据。本检验程序已使用Matlab 7实现,总体流程如图3-1所示。图3-1交通流数据检验与修复方法总体流程1)数据时间点顺序标准化。统一记录顺序标准为:由外环到内环,路编号由小到大。
48、标准化后,不但有利于下一步准确发现缺失的数据,而且也为编写后期分析程序提供了较大便利。算法的详细流程如下:(1)相关变量初始化。(2)导入交通流数据。(3)初始化交通流数据车道数、编号等特征信息。(4)由特征信息确定一个标准车道编号排序,如1、2、3、11、12、13。(5)从第1条数据开始,将每2 m in内的数据分为1组。(6)将每组内以道路编号为准将数据顺序标准化。(7)如组内的数据值小于应有车道数,将相应的数据缺失情况记录到日志文件。(8)依次处理每组数据,直至结束(9)输出标准化后的数据至文件。现以北京市环路数据为例,详细介绍本文所提算法的数据处理效果。表 3-1所示为未经处理的20
49、06203204 北京市环路交通流原数据的2组(每2min为1组)数据,来自二环路上编号为02023的检测点,地点为左安门桥西800 m处。表3-1 交通流原数据(检测点02023)生|r中仙人数/V酶率/%r/ 1度F I速gh-=Ln hJ=耳e流A略道020232006-03-0418: 48:491536118r020232006-03-04IS: 4S: 491227644002023200ft-0S-044g: 491334476002 02 320。6P3P41*49: 12ll357040020232006-03-0418: 49: I 239529002023200-03-0
50、418: 49: 123304870020232O(JS-O3-D4IS: $0: 49156641720202320064)3-041& 50; 4912365952020232006-03-045<): 491329520202324 昭 P3-D4IK: 51: 0924X5410D020252006-03-04& 51: 093334380由表3-1可以看出,数据库中的数据是按照记录到来的时间先后排序的,并不是按照道路编号的顺序排序。以表3-1所示数据为例,所示数据道路顺序为:1、12、13、11、2、3,而且此顺序还可能会因为线路传输等问题产生变化。这就给数据的
51、使用带来了很多不便,我们通过1.2所述的方法将其标准化为1、2、3、11、12、13的顺序。效果如表3-2所列表3-2顺序标准化后的交通流数据(检测点02023)编号日期时间道路流策 /veh速度/(kin 占仃 率 准大车 数杭 /veh2006-03-0418: 48:491536118为一02023200603-0418: 49: 12395290()20232 006 <13-0418: 49: 123304870C20232006-03-0418: 49; 121135704002023200603-0418: 48:4912276440C20232006-0 3-041 8:
52、 48: 4913344760C20232006-0 3-04IX: 50: 49158641.70202320063-0418; 51:09n4854100020232006-03-0418: 51 09333438仆C20232005-03-0418: 50: 491236595020232006-0 3-0418: 50: 49B296052虽然修正了时间点顺序,但因未检测缺失的数据,这会导致数据读取时造成了 “串行”的现象。需要在下一步进行解决。2)缺失/无效数据的判别与补充将数据时间点标准化后,再判别缺失或无效的数据,并予以补充。通过线性插值法对错误数据和丢失数据进行修正和补齐。若
53、tj对应的数据组是错误数据,ti和 tk分别是与tj最为接近的左邻和右邻正确数据组对应的时间点。则X f .Jf* - ti(3-2)式中:xtj为tj所对应的交通量、速度和占有率修正后的数据值。算法的详细流程 如下:相关变量初始化:导入标准化后的交通流数据:初始化交通流数据 车道数、编号等特征信息; 依据标准数据判断数据是否缺失: 如缺失则依据 线性插值法补充数据: 判断数据的有效性并修正: 依次处理每组数据,直至 结束:输出标准化后的数据至文件。此交通流数据检验与修复方法的整体流程 如图3-2所示。输出报告与排序后的数搪导入已顺序标淹化的交逋流数据保据标准顺序判断教盘相关 变量 初始化图3
54、-2交通流数据检验与修复方法整体流程经过上一节的数据时间点标准化后,再对标准化后的数据进行缺失无效数据的判别与补充,如在表1、表3-2中第2组缺失的11车道数据使用线性插值法得到了补充,如表3-3所列表3-3修复缺失的交通流数据(检测点02023)编号H期时间道路流届速度/(kni ,/辆1占有大军 率数最 A /辆02023200030418: 51: 091136684102023200()03-041X: 50: 4912595020232006030418: 50: 491329605分别打开原始数据与完成修正的数据,可以发现修正数据的时间点已被标准 化,实现了统一的记录顺序,并且之前缺失或无效的数据也得到了补充和修正。处 理后的数据即为最终完成修正的数据,将原始数据与最终完成修正的数据进行比 较,效果分别如图3-3、图3-4所示。时间,实际时刻图3-305: 0009: 00原始数据与修正数据对比时间/实标时刻图3-415: 0019: 00原始数据与修正数据对比3.2 故障数据检测算法利用最小二乘法对历史交通流数据进行离线曲线拟合,对实时交通流数据进行在线故障数据检测,对交通流密度、速度和流量三项指标进行综合检测,即基于交通流量-速度-时间占有率的交通流故障数据检测算法VSO-ADDM (Abnormal Data
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国高级水族灯行业投资前景及策略咨询研究报告
- 2024至2030年中国花面辊筒数据监测研究报告
- 2024至2030年中国皮带双边著色机行业投资前景及策略咨询研究报告
- 2024至2030年中国牛仔衫数据监测研究报告
- 2024至2030年中国木制锅铲数据监测研究报告
- 2024至2030年中国弹力帆布行业投资前景及策略咨询研究报告
- 2024至2030年中国园林雕刻产品行业投资前景及策略咨询研究报告
- 【高中数学课件】等可能时间的概率
- 六年级数学德育工作总结
- 内蒙古呼伦贝尔市(2024年-2025年小学五年级语文)人教版小升初真题((上下)学期)试卷及答案
- 林业工程竣工报告
- 从偏差行为到卓越一生3.0版
- DG-TJ08-2433A-2023 外墙保温一体化系统应用技术标准(预制混凝土反打保温外墙)
- pets5历年真题(口语)
- 通信工程生涯发展规划
- 博雅汉语初级起步1-U11-北京的冬天比较冷
- 屠宰行业PEST分析
- 公交驾驶员心理疏导培训
- 新生儿经皮测黄疸课件
- 《足球-脚内侧传球》教案
- 能源托管可行性方案
评论
0/150
提交评论