基于非参数回归的短时交通流预测模型

上传人：1*** IP属地：广东上传时间：2023-10-18 格式：DOCX 页数：6 大小：42.40KB 积分：12 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于非参数回归的短时交通流预测模型

0在线非参数训练根据研究方法，以前的长期交通流预测算法可分为历史平均值法、回归预测法、神经网络预测法、时间序列法、卡尔曼滤波法、综合预测算法等。其中历史均值法、回归预测法都较为简单,参数可采用最小二乘法估计,计算简便,但它们都未能反映交通流过程的不确定性与非线性,尤其无法克服随机干扰因素的影响。神经网络预测法包括采用BP网络、模糊神经网络和高阶神经网络延时单元神经网络,但总体来说,其参数训练非常复杂,计算时间也太长,不适合在线应用。卡尔曼滤波法和时间序列法是人们提出的精度较高、实时性较强的预测算法,但其初始参数调整太复杂。就拿SARIMA来说,仅调整一个单点的参数(p,d,q,P,D,Q)就需6d,60个点就需一年。另外,所有的上述方法都属于参数模型,都需要复杂的参数估计,而且计算出的这些参数仅仅适合某点,不能移植。所以,研究一种参数估计简单、可移植性的预测算法非常必要。非参数回归是近几年兴起的一种适合不确定性的、非线性的动态系统的非参数建模方法。它本身脱胎于混沌理论。它所应用的场合是:不需先验知识,只需足够的历史数据。它寻找历史数据中与当前点相似的“近邻”,并用那些“近邻”预测下一个时刻的流量。该算法认为系统所有的因素之间的内在联系都蕴涵在历史数据中,因此直接从历史数据中得到信息而不是为历史数据建立一个近似模型。也就是说非参数建模没有将历史数据作平滑处理,因此,特别是在有特殊事件发生时,预测效果要比参数建模精确。1995年SMITH将之应用于单点短时交通流预测,但因其搜索速度太慢和试凑的参数调整方法而没有得到真正实用。随后学者们又提出了很多的改进办法,比如通过重新组织历史数据结构或者采取不精确查找的方法。1在线数据分析预测算法图1是基于K近邻的交通流预测与事件检测综合算法框架。其流程是:首先由历史数据库经数据修正及精简形成样板数据库,即首先完成离线数据准备工作。然后在线采集动态数据,经过“数据过滤”和数据修正后,通过基于K近邻的搜索匹配找到K个近邻,而后采用预测算法预测下一个时刻的交通量。把下一个时刻的交通量与当前预测的交通量相比较,如果距离大于一定范围,则证明有异常情况发生。此算法共有五个关键步骤:历史数据准备及样板数据库的生成、数据过滤;状态向量定义;K近邻搜索;预测算法;事件检测算法。2rtms数据采集现场试验的地点是北京市西三环紫竹桥路段,如图2所示。前后连接北京的几条重要普通干道,交通非常繁忙,这里可以观察到所有交通状况下的交通数据。数据采集方案如图3所示。采用点对点的数据采集方案,即RTMS(远程微波交通传感器)数据输出串口与CDPDModem1连接,然后通过无线专用数据网CDPD将数据传送给远端的另一台CDPDModem2,然后CDPDModem2与远程的数据采集和预处理计算机通过串口相连收集由CDPD无线网传送到的RTMS的数据。RTMS可以同时输出一定统计周期内的平均车速、流量、车辆占有率。设定RTMS的统计周期为5min,从2001年8月到2001年11月连续三个月收集交通数据,共25920组数据。2.1平均生产率通常由于交通传感器硬件故障、噪声干扰和通讯故障所引发错误数据的发生。所以必须对错误数据进行剔除。否则,这些错误数据会大大降低预测的准确度。笔者所采用的方法是:阀值法和基于采用多条规则的判断。错误数据的发生一般是由于硬件故障或噪声干扰所引起,所以往往与正确数据的偏差非常大,基于这个特点,首先采用阀值法去除明显错误的数据。比如:交通流量,5min内4车道其最大车流量为600辆,换算成单车道的流量为1800veh/h,可以采用2000veh/h作为流量的阀值。平均占有率:0~100。显然,如果数据在阀值之内,也未必是正确数据,所以进行下面基于多条规则的判断。判断规则如下:(1)如果平均占有率为0,而流量不为0。(2)如果流量为0,而平均占有率不为0。(3)平均车长判断法:如果采用交通机理公式由流量、速度、占有率得出平均车长,如果所得的车长小于等于5m或者大于等于12m(此时重型车辆占居优势),那么这条记录是正确的。通过数据过滤,得到了正确的历史数据库,但是这个数据库还不能作为样板数据库,因为它是不精简的,在一种交通状况下的同类数据点非常多(这些数据非常的相近,距离小于10),这些点仅仅在浪费存储空间和搜索时间,所以必须把这些数据精简。作为将来进行数据匹配的样板历史数据库,其内含的“样板”一定要足够多而精。所谓多:它应该包含该点在各种环境条件下的交通流数据。这一点可通过长时间全天的采集数据得到保证。所谓精:出于实时性的考虑,历史数据库不能太庞大。所以可以适当精简数据以提高算法的实时性。如何做到数据多而精呢?下面通过定义数据密集度这个指标来评价历史数据库中数据的分布是否可以作为样板数据库。密集度M:对历史数据库中的所有点i的在以距离R为半径的区域内的近邻ni的算术平均。对于边缘的数据点为2ni。即M=(∑i=1Nni)/NΜ=(∑i=1Νni)/Ν,这里的半径R根据需求而定,例如笔者取R=20,则此处的M为半径为20以下的密集度。如果密集度大于10,即任何一点的在R范围内的最近邻不小于10,则认为此历史数据库的数据密集度满足样板数据库的需求了。否则必须继续收集数据,直到密集度达到所需指标。2.2状态向量四部分影响流量的因素非常多,比如:速度、道路占有率、天气情况(温度、湿度、雨、雪、雾),为了计算简单,通常选择与流量最为相关的因素。因此,通过计算其他各个变量与流量的相关系数来选择相关变量,相关系数如表1所示。由上述相关系数,可以选出相关变量:当前流量、速度和占有率。X(t)向量的组成为[v(t),v(t-1),s(t),s(t-1),o(t),o(t-1),w(t),w(t-1),vh(t),vh-1(t),sh(t),sh(t-1),oh(t),oh(t-1)]式中:v(t)、v(t-1)分别为当前时刻和前一时刻的流量值;vh(t)、vh(t-1)分别为历史上这一时刻和前一时刻的流量平均值;s(t)、s(t-1)分别为当前时刻和前一时刻的速度值;sh(t)、sh(t-1)分别为历史上这一时刻和前一时刻的速度平均值;o(t)、o(t-1)分别为当前时刻和前一时刻的平均占有率值;oh(t)、oh(t-1)分别为历史上这一时刻和前一时刻的平均占有率的平均值。可以看出状态向量中包含四部分信息:当前时刻信息、前一时刻的信息、历史上当前时刻的平均值信息、历史上前一时刻的平均值信息。其中历史信息是决定该时刻系统状态大体走势的部分,而当前时刻信息和前一时刻信息是由于系统的随机性而导致的系统波动的成分。即当前点通过基本走势和波动两部分信息在历史数据库中找寻近邻。当然,历史数据库的字段也需要做调整,它包含状态向量中的14个元素。2.3建立严格的数学模型K近邻法则是一种基于数据的非参数回归方法,它并非建立一种数学预测模型,而是寻找与当前变量值相匹配的K个最近邻的数据并以该K个数据对变量下一个时刻的值进行预测。在该方法中,建立严格的数学模型不再必须,因为很显然丰富的数据中已经包含了预测所必须的信息。但究竟K值取多大为最优值?笔者在下面会有详细的解释,取K=5。2.4平均贡献率笔者采用基于相关系数加权的欧式距离。从以上的各个变量与未来流量的相关系数中可以看到各个变量对于未来流量的影响是不同的。当前流量对未来流量的影响最大,而占有率对未来流量的影响最小。所以在利用普通欧式距离寻找匹配点时,就不能反映出各个变量对未来流量所做贡献的差异。因此,笔者采用基于相关系数加权的欧式距离,公式如下d=rvv[v(t)−vi(t)]2+⋯+rvo[o(t−1)−oi(t−1)]2rvv+rvs+rvo−−−−−−−−−−−−−−−−−−−−−−−−√d=rvv[v(t)-vi(t)]2+⋯+rvo[o(t-1)-oi(t-1)]2rvv+rvs+rvo2.5didvit式笔者采用基于匹配距离倒数的加权平均法,用公式表达如下v(t+1)=∑i=1K1didvi(t)v(t+1)=∑i=1Κ1didvi(t)式中:d=∑i=1K1did=∑i=1Κ1di。匹配距离越小的点,也就是越相似的点给予的加权越大。2.6采样值与历史平均值的关系笔者采用先预测后判断的方法。如果预测结果与下一个时刻的交通流实测值相差非常大,那么可以断定有事件发生,事件何时中止?把采样周期缩短,并把采样值与历史平均值相比较,如果差异大于一定值,那么事件继续存在,如果相差小于一定值,那么事件中止。2.7流量系数的计算采集的数据如图4所示,出于便于观察的考虑,用流量与占有率的两维散点图表示。由于错误数据的存在,整个曲线的形状似乎不符合交通规则,所以此时非常重要的工作就是剔出错误数据。由于此处的道路通行能力已知,所以首先根据阀值法剔除错误数据。流量数值的范围(0~2000)剔出错误数据,然后采用规则判断,结果如图5所示。可以看出,经过错误剔出,得到比较理想的数据曲线,它可以作为流量预测的历史数据。2.8预测结果为了试验方便,直接采用了从RTMS输出的原始数据,即30s内断面通过的车辆数。图6中也采用RTMS输出的原始数据。2.9因子参数和平均配比误差计算了在K=5时的平均绝对误差AAE(AverageAbsoluteError)和平均百分比误差APE(AveragePercentError)。AAE=156,APE=7.91%。2.10k的最优值的计算接下来,逐渐增加K值,观察K值的选取对预测精度的影响。当然这是在历史数据库中样本覆盖全范围而且足够丰富的情况下才能做此比较。由图7可知,随着K值的增加,特别是从1增加到5时,预测精度大幅度提高,而后从5到10,预测精度逐渐提高,最终到达最佳预测精度,此时平均绝对误差为142veh/h。图8是K从7到10的选取过程中流量预测曲线。随着K值的增加,其预测精度逐渐下降。从K值的选取中可以看出,交通流量是一个累计量,它不会突变,所以K值不能太大。但是它的确受到人为因素等各种因素的影响,短时波动还是比较大的,所以K值不能太小。但K的最优值究竟由什么因素决定的呢?是样板数据库中的数据!因为非参数回归中所有的历史经验都蕴涵在历史数据中,如何利用这些历史数据呢?也就是如何选择K的大小是保证预测精度的关键,那么历史数据与K的最优值之间又是什么关系呢?通过2.1中定义的密集度来推出它们之间的关系。通过大量的试验,得出如图9所示的曲线。由图9可以看出,K的最优值在[1,12]之间与密集度为线性关系,在此区间内,K=M,而当12<M<20时,K的最优值只有微小的增加,当M>20,K值几乎保持不变。由此得出结论:如果历史数据库的数据密集度M在[1,12],则取K=M,如果12<M<20,则取K=round(12M+6)(12Μ+6)。其中round(·)为取整函数。实际上,当M>20时,因为此数据库中数据过于密集,考虑算法的实时性和计算机资源的问题,这时首先要对该数据库进行精简工作。当数据库中的密集度小于10,也就是密集度太低时,此时的预测精度不高,这时必须通过补充数据或在线学习的方法来提高数据库的密集度。2.11基于散调查和散列函数的创建历史网络结构尽管非参数法实现了尽量少的参数,实现了可移植性,保证了较高的精度,但是距离实用还有一段距离。其实时性需要进一步提高,其参数调整机制需进一步改进。为提高其实时性对该算法做了如下改进:2.11.1基于动态聚类算法的历史数据的分类采用K均值算法的动态聚类算法。将数据分为很多类。然后当前点只需与类的中心相比较,找到最近的聚类中心,然后在这个类中寻找最近邻。2.11.2基于散列表的历史数据优化结构散列表,又称为哈希表,是线性表中一种重要的存储方式和检索方法。在散列表中,可以结点进行快速检索。散列表算法的基本思想是:由结点的关键码值决定结点的存储地址,即以关键码值m为自变量,通过一定的函数关系h(称为散列函数),计算出对应的函数值h(m),将这个值解释为结点的存储地址,将结点存入该地址内,检索时,根据要检索的关键码值,用同样的散列函数计算出地址,然后,到相应的地址中去获取要寻找的结点数据。因此,散列表有一个重要的特征:平均检索的长度不直接依赖于表中元素的个数。将步骤1内的聚类中心的所有的流量字段与存储地址L(L=1,2,…,n)做多元线性回归分析,得到如下的散列函数L=a1v(t)+a2v(t-1)+a3vh(t)+a4vh(t-1)所以现在的历史数据库中数据的组织结构如图

人人文库> 全部分类> 专业文献 > 学术论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于非参数回归的短时交通流预测模型

文档简介

温馨提示

最新文档

评论

基于非参数回归的短时交通流预测模型

文档简介

温馨提示

最新文档

评论

相关文档