一种基于时序分析和残差匹配的模型的制作方法

文档序号:24712664发布日期:2021-04-16 13:56阅读:139来源:国知局
一种基于时序分析和残差匹配的模型的制作方法
一种基于时序分析和残差匹配的模型
一、技术领域
1.本发明涉及智能交通领域,尤其涉及短时交通流预测,具体是一种基于时序分析和残差匹配的组合预测模型。
二、

背景技术:

2.一个有效的交通流预测模型对于路线规划、交通控制和智能驾驶等方面十分重要。交通流数据是一种时间序列数据,具有趋势性,周期性和不确定性等特性。其中趋势性和周期性属于交通流规律特性,主要表现为根据时间规律变化的趋势或波动,是交通流可以被预测的前提。而不确定性属于交通流随机特性,非经常性事件(如交通事故、极端天气和大型活动等)会使交通流数据产生随机波动,这是导致交通流难以被准确预测的根本原因。非参数模型在拟合交通流数据中的随机波动上具有一定优势。而在众多的非参数模型之中,模式匹配模型由于其良好的准确性、鲁棒性和泛化能力而被广泛地运用在各种交通流预测场景之中,因此本发明选择模式匹配模型作为优化的对象。
3.模式匹配模型的四个主要步骤分别是构建交通向量、度量向量距离、选择k个相似向量以及输出预测结果。在有关模式匹配模型优化的研究中,分别对距离度量函数、k值选择和预测函数进行了优化。这些研究直接使用原始交通流数据进行建模,在构建交通向量的方式上没有区别,而这种构建方式并没有充分地利用交通流的随机特性。实际上交通流数据可以分解为相对稳定的部分和随机变化的部分,如果能够先分离出交通流数据中随机变化的部分,并针对这部分构建一种新的交通向量,则可以更好地发挥模式匹配模型善于捕获非经常性事件的优势。因此本发明采用分解的思路,提出了基于时序分析和残差匹配的组合预测模型,本模型将原始交通流数据划分为线性部分和残差部分,其中线性部分反映了交通流数据中相对稳定的相似性部分,残差部分则反映了数据中的随机波动。
三、

技术实现要素:

4.本发明的目的是进一步利用交通流的随机特性,从而获得更高的交通流预测精度,通过结合时间序列分析技术和模式匹配算法,从而进一步拟合交通流数据中的随机波动。
5.本发明的目的是这样达到的:
6.针对现有研究没有充分利用交通流随机特性的问题,结合时间序列分析技术和模式匹配算法,首先利用时间序列分析技术计算数据中的线性部分,具体包括时序平稳性分析、时序分析模型确定和线性部分获取等步骤,并对剩余的残差部分进行切分以构建残差向量库。然后使用模式匹配算法对残差向量进行匹配,具体包括距离度量、k值选取、输出预测值和预测值映射等步骤,从而进一步拟合交通流数据中的随机波动。
7.具体做法是:
8.由于原始交通流数据中存在着丢失、异常和冗余等问题,因此需要进行相应的数据预处理,其中包括数据聚合、数据插补和数据筛选等步骤,如图2所示。
9.数据聚合分为时间聚合和空间聚合。在时间维度上,默认的数据采样间隔为30秒,本发明将每10次的流量观测值进行累加,从而得到以5分钟为采样间隔的交通流数据;在空间维度上,由于不同环形线圈传感器节点检测到车道数不尽相同,出于统一性考虑,将传感器节点检测到的多个车道进行汇总,以汇总后的流量作为交通流数据。由于环形线圈传感器长期暴露于室外环境,在遇到环境干扰或是故障检修时无法提供准确的交通流数据,可能会出现数据丢失和数据异常等情况。为了解决数据丢失时造成的非连续性问题,本发明采用相邻节点的线性均值进行填充,并采用3

西格玛原则,将取值在平均值3倍标准差之外的观测值视为异常值并剔除。数据筛选是指为了避免不相关的交通模式对预测结果造成影响,只针对工作日数据进行预测。
10.数据预处理之后需要进行时序平稳性分析。因为时间序列分析技术是建立在时序平稳的基础之上的,因此在对交通流数据进行时序分析之前,首先需要确保交通流数据是平稳的。常用的分析方法有观察法和单位根检验法。观察法是指观察交通流是否具有平稳时间序列的性质,以及交通流数据是否在一个有界的范围内波动;如果交通流表现出明显的趋势性(如逐步递增)或周期性(即规律性的变化),则不属于平稳时间序列。单位根检验法是指检验交通流中是否存在单位根,存在单位根意味着交通流不是平稳时间序列。假设交通流具有单位根(即交通流非平稳),如果能在给定的置信水平上拒绝原假设,则说明交通流是平稳的。本发明先通过观察法初步判定交通流是否平稳,再通过单位根检验法进一步确定观察结果是否正确。如果交通流非平稳,则对其进行差分操作直至平稳为止。
11.在交通流数据已经平稳的基础上可以进行时序分析模型的确定,主要分为定阶和定参两个步骤。
12.时序分析模型arima(p,d,q)首先需要确定p,d,q三个阶数的取值,其中d值指对原始交通流数据进行差分的次数,常用的差分方式有一阶差分法,二阶差分法和周期差分法。
13.p值指模型中使用的历史观测值个数,其大小通过偏自相关函数(partial auto

correlation function,pacf)确定。pacf描述的是剔除中间变量y
t
‑1,y
t
‑2,y
t
‑3,

,y
t

k+1
之后,y
t

k
对y
t
的影响程度。pacf求出的系数称为偏自相关系数计算公式如下:
[0014][0015]
式中:y
t
是在第t个时间间隔内交通量的观测值;corr是相关函数。
[0016]
q值指模型中使用的历史噪声误差项个数,其大小通过自相关函数(auto

correlation function,acf)确定。acf描述的是不同观测值之间的相关性,是两次观测之间的相似程度对于观测时间差的函数。通过acf可求得自相关系数r
k
,计算公式如下:
[0017][0018]
式中:y
t
是在第t个时间间隔内交通量的观测值;n是总体的个数;是总体的均值。
[0019]
最后一步是对已经定阶(即已经确定相关阶数)的模型进行参数估计,常用的参数估计方法有最大似然估计和最小二乘估计。最大似然估计的思想是使所有已知观测值的联合概率最大化,即产生该观测结果的可能性达到最大,从而获得最优参数估计值。最小二乘估计的思想是使误差最小化,即观测值与预测值之间的误差平方之和达到最小,从而找到一组最优的参数值。
[0020]
然后将利用已经确定arima(p,d,q)模型对交通流数据进行线性部分计算。本发明采用观测值迭代多步预测法,即通过新的观测值持续更新交通流数据,但是不更新模型。这种方法在控制计算成本的同时也能达到较高的准确度,该方法的预测过程如下所示:
[0021][0022]
式中:a
t+1
是arima模型预测的第t+1个时间间隔内交通量的线性部分;y
t
是第t个时间间隔内交通量的观测值;p是用于建模的历史观测值个数;z是多步预测的步长。
[0023]
在本模型中,模式匹配的匹配对象并不是交通向量,而是残差向量。本模型对原始交通流数据和由时序分析模型计算得到的线性部分做差求得残差部分,再对残差部分进行切分以建立残差向量库,最后使用残差向量进行匹配,这样可以进一步利用交通流数据中的随机波动,残差向量的表示如下:
[0024]
y=[y
t
,y
t
‑1,y
t
‑2,

y
t

n
]
[0025]
式中:y
t
是第t个时间间隔内交通量的观测值。
[0026]
线性部分表示如下:
[0027]
a=[a
t
,a
t
‑1,a
t
‑2,

a
t

n
]
[0028]
式中:a
t
是arima模型预测的第t个时间间隔内交通量的线性部分。
[0029]
残差部分表示如下:
[0030]
r=y

a=[r
t
,r
t
‑1,r
t
‑2,

r
t

n
]
[0031]
式中:r
t
是第t个时间间隔内交通量的残差部分。
[0032]
通过切片方式依次构造残差向量如下:
[0033][0034]
式中:[r
t

n
,r
t

n
‑1]是第n个残差向量;r
t

n+1
是第n个残差向量对应的状态值。
[0035]
当交通流数据中观测值个数为m且时延为d时,通过切分最多可以构造m

d个残差向量,每一个残差向量代表一种模式。在对预测点进行预测时,需要将输入交通向量转换为输入残差向量,再与残差向量库中的历史残差向量进行匹配。
[0036]
本发明的积极效果是:
[0037]
1、组合预测模型是指由多种技术和模型合成的新型模型,此类模型融合了不同技术和模型的优势,比单一预测模型的预测效果更好,是未来的发展方向。本发明基于残差匹配,构建了一种有效的组合预测模型。
[0038]
2、与其他相关研究不同的是,本模型将原始交通流数据分解为线性部分和残差部分,并利用残差部分构建一种新的交通向量,以此进一步拟合交通流数据中的随机波动。
四、附图说明
[0039]
图1是发明步骤示意图。
[0040]
图2是交通流数据预处理示意图。
五、具体实施方式
[0041]
残差匹配是指使用输入残差向量和历史残差向量进行模式匹配的过程。在模式匹配模型中,首先通过距离度量函数计算两个交通向量之间的距离,然后选出与输入交通向量距离最近的k个历史交通向量,最后利用预测函数对这k个历史交通向量的状态值进行聚合,从而求得最终的预测结果。残差匹配与模式匹配的过程类似,因此在匹配的过程中需要考虑距离度量函数选取、k值选取和预测函数选取等问题。除此之外,由于匹配对象由交通向量变成了残差向量,所以在匹配完成后还需对实际的预测值进行映射。
[0042]
(1)距离度量函数
[0043]
距离度量函数用于度量输入残差向量与历史残差向量之间的接近程度,常用的距离度量函数为欧式距离度量:
[0044][0045]
式中:是输入残差向量;是历史残差向量;d是时延;是输入残差向量中的元素;是历史残差向量中的元素。
[0046]
欧式距离度量没有考虑时间因素对度量结果的影响,研究学者认为观测点在时间上越靠近预测点,对度量结果的影响就越大,所以应该根据残差向量中观测点与预测点之间的远近程度分配不同的权重。研究学者提出使用指数距离度量作为距离度量函数,具体形式如下:
[0047][0048]
式中:是输入残差向量;是历史残差向量;d是时延;w
i
是指数权重系数;是输入残差向量中的元素;是历史残差向量中的元素。
[0049]
(2)k值选取
[0050]
k值是指通过距离度量函数筛选得到的与输入残差向量距离最近的历史残差向量的个数。k值很大程度上与交通流数据有关,不同的数据分布情况会对k值大小产生不同的影响。k值选取是一个不断试验和调优的过程,k值太大或是太小都会影响预测的准确性。本发明采用控制变量法,使k值在1~20之值间变化,然后综合考虑误差评价指标和计算成本以确定最优的k值。
[0051]
(3)预测函数
[0052]
预测函数用于描述如何通过k个历史残差向量进行预测。本发明使用了两种不同的预测函数进行对比,第一种是简单平均预测函数,该函数把历史残差向量对应状态值的均值作为预测结果,具体形式如下:
[0053][0054]
式中:是预测结果;k是选中的历史残差向量的个数;是第i个历史残差向
量对应的状态值。
[0055]
第二种是排名加权预测函数,该函数根据历史残差向量与输入残差向量之间的远近程度分配不同的排名权重系数,具体形式如下:
[0056][0057][0058]
式中:w
i
是排名权重系数;l
i
是第i个历史残差向量的排名(距离越小排名越靠前);k是选中的历史残差向量的个数;z是调节因子(本发明中z=2)。
[0059]
(4)预测值映射
[0060]
由于本模型中的匹配对象由交通向量变成了残差向量,预测函数的输出结果由交通流预测值变成了残差部分预测值,因此需要增加从残差部分预测值到交通流预测值的映射步骤。
[0061]
本发明考虑了两种预测值映射方式,第一种方式先通过残差向量映射得到交通向量,然后以交通向量对应的状态值作为预测函数的输入。实验结果表明该方式的预测精度不高,这可能是由于多次对交通向量进行变换导致的精度损失。另一种是直接以残差向量对应的状态值作为预测函数的输入,再将预测函数的输出和该残差向量对应的线性部分进行累加得到交通流预测值。该方法是对分解操作的复原,且实验效果优于第一种方式,因此本发明采用第二种方式对残差部分预测值进行映射。
[0062]
本发明的用户使用场景举例:
[0063]
一个有效的交通流预测模型对于路线规划、交通控制和智能驾驶等方面十分重要。出行者可以利用流量预测信息判断道路未来拥堵情况,制定更加高效的出行计划。实时的路况预测分析也有助于出行者及时调整前进路线,减少交通拥堵的发生。交通管理者可以利用预测模型监控交通状态,提前对可能发生拥堵的区域采取交通信号控制等措施。在车祸等紧急事件发生时,周边路段的未来交通流变化趋势有助于交通管理者合理分配资源,从而提升疏散和救援的速度。对于智能驾驶和车联网等应用而言,精准的速度预测信息是智能车辆协同系统的基础,也是提升道路通行能力和安全性的重要保障。
[0064]
综上所述,交通流预测研究对改善交通问题和提升出行效率等方面有着不可替代的意义。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1