本发明主要涉及机器学习、交通流预测等智能交通系统领域,尤其是基于融合的实时极限学习机短时交通流预测方法。
背景技术:
:随着全球经济发展和社会城市化进步,交通运输业的发展变得越来越重要。作为人类社会进步的重要物质基础,交通运输业是整个国民经济发展的命脉。然而近年来,道路车辆逐步增多导致交通运行效率每况愈下,交通堵塞、交通废气排放污染、交通操作繁杂效率低下、交通事故等现象频繁出现,给人们出行等社会活动带来困扰。为了减缓交通问题,智能交通系统(ITS)等一系列先进管理控制系统飞速发展并得到广泛应用,在一定程度上解决部分道路交通问题。交通流预测对于支持交通管理系统的需求预测功能起着重要作用。交通流量数据(也可说交通参数)可直接反映宏观的交通状态,是交通业务的基础数据,同时,交通流量数据也是交通中最易采集的数据,可以通过感应线圈检测、微波检测、视频检测、全球定位系统(GlobalPositionSystem,简称GPS)、社会媒体设备等多种方法获取,包括交通流、交通速度、交通占比、行程时间等信息。交通流预测实质上是对这些交通流基本参数的预测,根据预测周期长度可以将交通流量预测分为两类:短期预测和中长期预测。交通流数据分布呈现出两个峰值两个低谷特征,类似高斯分布,进行峰值预测,以及提高短时交通流预测实时性和高精度不仅可以及时告知驾乘者交通信息,还能设计和实现移动基础设施。短时交通流预测要求实时性,预测难度较大,得益于车载与道路传感设施不断完善以及ITS和交通控制系统的支持,短时交通预测技术也不断发展。早期短时交通流预测方法大多交通流预测方式是在简单平稳均衡交通流数据假设下进行预测的,对于数据集的限制条件比较多,比如等间隔采样、间隔长短适中、历史数据样本数量合适、样本数据无噪声等等,但在现实交通场景中,因设备本身故障或外部因素(如天气恶劣、道路异常等)干扰,交通流数据在采集和传输过程中容易发生缺失、突变;上下班、节假日时期交通流容易激增达到峰值等,这些情况都可导致交通流数据出现非平稳非线性等异质性,这里的异质性值数据分布不均匀和复杂性,再加上设备成本因素的考虑,很多数据监控、采集、处理、传输等设备不可能覆盖全部交通网,更是增加了交通流数据的异质性,所有这给因素都给交通流预测模型建模增加了难度,预测的实时性、准确性、稳定性有待提高。为了加强短时交通流预测方法的可扩展性和鲁棒性,使其在交通流数据非稳定异质情形下仍能达到一定预测实时性和精度要求,扩展已有预测模型的适用性,进行实时异质时序交通流的预测方法研究很有必要。技术实现要素:本发明提出了一种基于融合的实时极限学习机短时交通流预测方法,以提高短时交通流数据的预测精度和可靠性,适用于实时交通流预测。本发明的设计思路为,基于融合的实时极限学习机预测短时交通流,短时交通流数据呈现周期性和实时性、准确性、可靠性特征,随机选取实时交通流数据,将序列学习思想应用于ELM算法并提出了实时序列ELM算法。实时序列ELM算法是在原始ELM算法的基础上,采用在线学习模式而提出的一种新的算法,在该算法中,数据可以一个一个或一块一块地添加到网络中,并且原先的数据学习完成后就会抛弃不再使用。本发明所采用的技术方案为:一种基于融合的实时极限学习机短时交通流预测方法,包括以下步骤:S1、随机选定道路上的探测器,按照预设的时间周期采集短时交通流数据;S2、预处理并归一化获得的交通流数据,判断所处的交通场景是平稳情况还是非平稳情况;S3、如果是非平稳交通场景,初始化短时交通流预测模型;S4、建立短时交通流预测模型的实时序列学习部分;S5、完成短时交通流预测模型中的预测模块;S6、将预测结果进行反归一化处理并进行评估。S7、如果是平稳场景,则可直接按照S3到S4步骤进行预测。进一步的,步骤S3中初始化短时交通流预测模型包括以下步骤:S31、初始数据集为随机分配预测模型的输入参数,包括输入结点和隐结点之间的权向量wi、阈值bi,并随机选取隐结点的输入权值ai和阈值bi,其中i=1,2,…,L;S32、计算隐层输出矩阵H0:S33、计算初始输出权值β(0),为确保极限学习机可以保持同样的学习性能,假设H的秩为有且已证明β=H+T和H+=(HTH)-1HT,则有:β(0)=(H0TH0)-1H0TT0=P0H0TT0;]]>其中P0=(H0TH0)-1,M0=H0TH0=P0-1;S34、设置到达的数据块序列k=0。进一步的,步骤S4中建立短时交通流预测模型的实时序列学习部分包括以下步骤:S41、计算新添加数据的隐层输出矩阵Hk+1:Hk+1=g(w1x(Σj=0kNj)+1+b1)...g(wN~x(Σj=0kNj)+1+bN~).........g(w1xΣj=0k+1Nj+b1)...g(wN~xΣj=0k+1Nj+bN~)Nk+1*N~]]>S42、令Tk+1=[t(Σj=0kNj)+1,...,tΣj=0k+1Nj]Nk+1*mT]]>且则可计算输出权值:β(k+1)=β(k)+Kk+1-1Hk+1T(Tk+1-Hk+1β(k))]]>Pk+1=Pk-PkHk+1T(I+Hk+1PkHk+1T)-1Hk+1Pk;]]>S43、根据公式求得Mk+1-1=(Mk+Hk+1THk+1)-1=Mk-1-Mk-1Hk+1T(I+Hk+1Mk-1Hk+1T)-1Hk+1Mk-1;]]>S44、设置到达数据块序列k=k+1,表示滑动窗口向前移动一个位置,即滑动窗口大小为1,返回步骤S41。进一步的,步骤S5中完成短时交通流预测模型中的预测模块包括以下步骤:S51、每当有新数据块k+1到达时,每个实时序列学习机训练β(k+1)来计算fk+2,其中fk+2表示k+2时刻预测的交通流数值;S52、将fk+2放入测试集来预测下一刻交通流数值;S53、只要还有新的数据块到达,就返回步骤S51;S54、根据公式计算加权平均值,实现加权融合机制;其中,设单个实时极限学习网络个数为L,每个网络有着相同数量的隐层结点和激励函数。进一步的,所述步骤S6的评价指标为:假设观测实际交通流量数据序列为fi或者Yp(t),预测交通流量值结果为ti或者Yr(t)(1)绝对百分比误差APE(%)=|fi-ti|ti*100]]>(2)平均绝对百分比误差MAPE(%)=1nΣi=1n|fi-ti|ti*100]]>(3)均方根误差RMSE=1nΣi=1n|fi-ti|^2]]>(4)平均相对误差MRE=1NΣt|YP(t)-Yr(t)Yr(t)|]]>平均相对误差反映的是交通流量预测值相对于真实值的偏离程度,其值越小表示预测效果越好;(5)平均绝对误差MAE=1NΣt|YP(t)-Yr(t)|]]>平均相对误差反映的是交通流量预测值与真实值之间误差的绝对值大小,其值越小表示预测效果越好;(6)均方误差MSE=Σt(YP(t))-Yr(t))2]]>该指标不仅反映了交通流量预测误差的大小,而且还反映了误差的离散分布情况。其值越小,表示误差离散程度越小,预测效果越好;(7)拟合度EC=1-Σt(YP(t)-Yr(t))2Σt(YP(t))2+Σt(Yr(t))2]]>拟合度从交通流量的几何特征方面反映了交通流量预测曲线是否与实际观测曲线的变化趋势拟合。其值越大,说明交通流量的预测值越接近实际观测值,预测效果越好。与现有技术相比,本发明的优点在于:基于简化的单隐层前馈神经网络结构,能够在交通流峰值期快速的训练历史数据并能增量地更新到达的数据,在保证一定预测精度的同时节省学习时间。此外,采用融合机制保证了短时交通流预测的稳定性和鲁棒性。本发明在数据缺失和波动剧烈时期进行重构,训练阶段时耗短,且预测结果的均方根误差、标准误差百分比均在置信区域内。附图说明图1为本发明所述短时交通流预测流程图;图2为本发明所述基于融合的实时极限学习机预测算法实现流程图;图3为本发明所述实例场景一中探测点US101N处在高峰期5:00AM-10:00AM期间无缺失数据情况下的实际交通流和预测交通流值对比图;图4为本发明所述实例场景一中探测点US101N处在高峰期5:00PM-10:00PM期间无缺失数据情况下的实际交通流和预测交通流值对比图;图5为本发明所述实例场景一中探测点US101N处在两个高峰期间无缺失数据情况下的APE值对比图;图6为本发明所述实例场景二中探测点SR120E处在高峰期5:00AM-10:00AM期间存在缺失数据情况下的实际交通流和预测交通流值对比图;图7为本发明所述实例场景二中探测点SR120E处在高峰期5:00PM-10:00PM期间存在缺失数据情况下的实际交通流和预测交通流值对比图;图8为本发明所述实例场景二中探测点SR120E处在两个高峰期间存在缺失数据情况下的APE值对比图。具体实施方式以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。参照图1、图2所示,基于融合的实时序列极限学习机短时交通流预测方法主要包括如下步骤:步骤1、采集短时交通流数据。本发明通过PeMS系统随机选取了美国加州四个高速公路的探测点来获取交通流历史数据并进行预测分析。并且随机选取了2014-11-24到2014-12-1期间的交通流数据,该数据包括平常工作日和节假日的交通流数据,可以代表平稳和非平稳时期的场景。其中,前7天的数据作为训练集,最后一天的数据作为测试集。采用这些数据分别预测一天内的交通流峰值期5:00-10:00AM和5:00-10:00PM期间的数据完整和数据缺失两种情况下的交通流变化。该发明将采集的数据分为两个部分:场景一,利用采集的数据集,进行学习之后,预测一天当中交通流高峰期的完整数据;场景二,针对交通流数据缺失的情况下,利用改进的实时极限学习机框架进行数据重构预测,加入融合机制并验证,在保证一定预测精度的前提下使得预测结果更加平稳。步骤2、导入采集的短时交通流数据。如果成功,则继续交通场景的判断,如果失败则退出,重新导入数据。步骤3、预处理采集的短时交通流数据。作为短时交通流预测的基础,数据质量对短时预测模型的有效性有重要作用。判断交通流量数据是否异常,需要进行判断:车辆在道路上的行驶满足一定规律,故采集到的交通流数据必属于以下两种情况之一:(1)若车流量flow>0,速度speed>0以及占有率occupancy>0;(2)若flow=0,则speed=0。不满足以上条件中任何一个的交通流数据则被认为是明显异常数据。预处理后再对数据进行归一化处理,归一化是为了加快预测计算速度,减少时间消耗。步骤4、初始化短时交通流预测模型。初始数据集为,随机分配预测模型的输入参数,包括输入结点和隐结点之间的权向量wi、阈值bi,并随机选取隐结点的输入权值ai和阈值bi,其中i=1,2,…,L;步骤5、建立实时序列学习机制。在该算法中,采用滑动窗口,根据已训练、新到达交通流数据的时空关系,动态滑动,原先的数据在学习完成后就会随着滑动窗口的移动而被抛弃不再使用,而新到达的数据可以一个一个或一块一块地添加到网络中。随着第k+1步所添加的数据块不断到达,其中Nk+1表示第k+1步添加数据的个数,计算新添加数据的隐层输出矩阵Hk+1:Hk+1=g(w1x(Σj=0kNj)+1+b1)...g(wN~x(Σj=0kNj)+1+bN~).........g(w1xΣj=0k+1Nj+b1)...g(wN~xΣj=0k+1Nj+bN~)Nk+1*N~]]>再令计算输出权值:β(k+1)=β(k)+Kk+1-1Hk+1T(Tk+1-Hk+1β(k))]]>Pk+1=Pk-PkHk+1T(I+Hk+1PkHk+1T)-1Hk+1Pk]]>设置到达的数据块序列为k=k+1,返回步骤4。步骤6、加入自适应丢弃机制。对于已经训练过的数据,它对新添加的数据影响不大,根据距离目标时间的先后以及数据本身特征分配不同的权值,自适应丢弃部分,再与新训练样本一起进行预测,体现数据异质性的同时保证预测的准确性。步骤7、加入加权平均融合机制。加权平均融合机制是考虑了多个相同结构的实时序列学习机的影响,将多个将多个预测的结果按照下列公式进行加权平均:步骤8、实验结果进行反归一化,再进行评估及分析。为了直观地体现峰值期短时交通流数据的预测值和实际观测值,本发明分别选取探测点US101N和探测点SR120EN两处的在2014年12月1日两个交通流峰值期的观测数据和预测数据,对比不同的预测算法,画出图像如下图3至图8。其中,黑色虚线代表实际观测值,其余分别代表多层感知神经网络预测的交通流、小波神经网络的预测值、极限学习机预测的交通流、融合实时极限学习机预测的交通流。场景一中,探测点US101N处交通流预测值和实际值对比,其预测间隔是5分钟,融合实时极限学习机的预测值最贴近实际观测值趋势。而多层感知神经网络在交通流数据波动较大的时候波动也很明显,预测误差较大。从图3可以看出由ERS-ELM计算出来的预测值是最接近真实的交通流趋势,即使在6:10-7:00AM这段波动比较大的时间段内,所以大部分的APE误差是最小的。极限学习机是第二好的算法,但在6:00-7:05AM期间的误差值仍然很大。在6:00-7:30AM期间,小波神经网络得到的预测值是偏离实际值最远的。而5:00-10:00PM期间的交通流数据波动呈锯齿状,给预测带来了很大的困难。图4表示了由ERS-ELM计算出的预测值是最接近实际的交通流趋势,而其他三个算法得到的预测值都不如ERS-ELM。同样,APE值也是最小的。场景二中交通流高峰期存在损坏的交通流数据。每次运行算法,该算法都需要通过重构的交通流趋势曲线来预测损坏的数据。从实验结果可以看出,提出的算法可以更快地学习历史数据,通过滑动窗口和增量地添加上一刻预测的数据来获得下一刻预测的数据,且预测精度比较好。图中可以看出,在5:20-6:05AM,6:55-7:10PM,8:45-9:00PM这三个时间段存在损坏,为了更好的比较实际交通流数值和预测的交通流数值之间的误差,本文画出了全部的曲线,包括发生损坏而缺失的交通流数据部分。图中采用框图标出来。从图中可以看出,在趋势平稳的时间段,四种预测方法都能很好的匹配,但在损坏阶段,ERS-ELM是匹配交通流趋势匹配得最好的一种算法。比如,在图7中,在6:55-7:10PM,8:45-9:00PM时间段,只有ERS-ELM预测出了一个转角趋势,而其他三种算法都只是简单地追随已有的趋势。ELM的预测性能仅次于ERS-ELM算法,而小波神经网络和多层感知神经网络没有适应波动点。我们还可以得出以下结论,交通流趋势越是平稳,预测精度越高。但数据集并不是影响预测性能的唯一因素。在非平稳场景下,比如存在损坏的数据,算法需要有效的学习历史数据间的关系并分析数据变化趋势。ERS-ELM可以很好地很快地学习历史数据,并且通过可变大小的滑动窗口来保持高预测精度。本发明实施例使用的数据来自开放性能评价系统平台PeMS14.0。上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围的情况下,都可利用上述揭示的技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。当前第1页1 2 3