一种客流预测方法、装置及存储介质

文档序号:30950079发布日期:2022-07-30 07:08阅读:96来源:国知局
一种客流预测方法、装置及存储介质

1.本发明涉及铁路运输技术领域,特别是一种客流预测方法、装置及存储介质。


背景技术:

2.城际高速铁路是指位于人口稠密的都市圈或城市群的高速铁路客运专线,鉴于城际高速铁路的运输组织模式特征,沿线的旅客出行需求也体现出明显的时间分布特征。时变客流的准确性可直接影响列车发车时间的分布与旅客出行需求的匹配程度,进而影响运输产品的市场投放效益。因此,结合旅客的出行需求特征,预测城际高速铁路时变客流具有高必要性。但目前的预测方法存在准确性较低的问题。


技术实现要素:

3.本发明的目的在于至少解决现有技术中存在的技术问题之一,提供一种客流预测方法、装置及存储介质。
4.本发明解决其问题所采用的技术方案是:
5.本发明的第一方面,一种客流预测方法,包括:
6.根据历史售票数据得到客流时间序列,所述客流时间序列用于表征客流需求的时变特征;
7.对所述客流时间序列进行分解,得到若干个平稳的子序列,每个所述子序列在中心频率周围是紧密的;
8.对若干个平稳的子序列进行重构,得到重构客流时间序列;
9.将所述重构客流时间序列输入至训练好的预测模型进行预测,得到预测客流量。
10.根据本发明的第一方面,所述根据历史售票数据得到客流时间序列,包括:
11.将目标时间按天数划分,并将每天的统计时间统一划分为多个时段;
12.根据历史售票数据,统计每天的各个时段的客流需求;
13.根据每天的各个时段的客流需求,得到客流时间序列。
14.根据本发明的第一方面,所述对所述客流时间序列进行分解,得到若干个平稳的子序列,包括:
15.对所述客流时间序列进行频谱变换,得到单侧频谱;
16.将所述单侧频谱转移到基带;
17.对转移后的所述单侧频谱所对应的约束变分模型进行求解,得到若干个平稳的子序列。
18.根据本发明的第一方面,所述重构采用如下方式中的任意一种:
19.将分量相加;
20.将分量加权分均,再相加;
21.将相关性大于相关性阈值的分量和相关性小于相关性阈值的分量分别相加。
22.根据本发明的第一方面,在所述对若干个平稳的子序列进行重构,得到重构客流
时间序列的步骤之后,还包括:
23.对所述重构客流时间序列进行数据归一化和差分处理。
24.根据本发明的第一方面,所述将所述重构客流时间序列输入至训练好的预测模型进行预测,得到预测客流量,包括:
25.将所述重构客流时间序列作为记忆细胞输入至遗忘门,得到遗忘值;
26.将所述重构客流时间序列作为记忆细胞输入至输入门,得到保留值;
27.根据所述遗忘值、所述保留值、所述记忆细胞和候选细胞得到当前细胞,其中所述候选细胞是由所述记忆细胞经过候选函数生成的;
28.根据上一隐藏状态和所述记忆细胞得到输出门,将所述当前细胞输入至所述输出门得到所述预测客流量。
29.根据本发明的第一方面,在所述将所述重构客流时间序列输入至训练好的预测模型进行预测,得到预测客流量的步骤之后,还包括:
30.将所述预测客流量与真实客流量进行比较,得到预测误差。
31.本发明的第二方面,一种客流预测装置,包括:
32.序列获取单元,用于根据历史售票数据得到客流时间序列,所述客流时间序列用于表征客流需求的时变特征;
33.序列分解单元,用于对所述客流时间序列进行分解,得到若干个平稳的子序列,每个所述子序列在中心频率周围是紧密的;
34.重构单元,用于对若干个平稳的子序列进行重构,得到重构客流时间序列;
35.预测单元,用于将所述重构客流时间序列输入至训练好的预测模型进行预测,得到预测客流量。
36.本发明的第三方面,一种客流预测装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明的第一方面所述的客流预测方法。
37.本发明的第四方面,一种存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如本发明的第一方面所述的客流预测方法。
38.上述方案至少具有以下的有益效果:模型的隐藏神经元个数和迭代次数的有效增加可以降低预测误差;提高了预测精度;分布特征整体一致,能够较好的拟合旅客出行需求的时变特征。
39.本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
40.下面结合附图和实例对本发明作进一步说明。
41.图1是本发明实施例一种客流预测方法的流程图;
42.图2是本发明实施例一种客流预测装置的结构图;
43.图3是预测模型的结构图。
具体实施方式
44.本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
45.在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
46.在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
47.本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
48.城际高速铁路是指位于人口稠密的都市圈或城市群的高速铁路客运专线,主要特点是线路距离较短、列车班次公交化运行。鉴于城际高速铁路的运输组织模式特征,沿线的旅客出行需求也体现出明显的时间分布特征。依据历史售票数据可知,一天内不同出发时段的旅客需求体现出波动规律特征,在短时期内,这种规律特征具有一定的稳定性。这种分时段的需求可称为时变客流,体现的规律特征可称为时变特征。
49.目前,铁路客流预测模型可分为三类:参数预测模型、非参数预测模型和混合预测模型。参数预测模型主要包括指数平滑模型、时间序列模型、回归分析、灰色预测模型和自回归综合移动平均模型等。非参数预测模型主要包括支持向量机、随机森林模型和神经网络模型等,其中神经网络模型具有并行分布处理、高度鲁棒性和容错能力和能充分逼近复杂的非线性惯性等优点,应用较为广泛。参数预测模型和非参数预测模型均是单一的预测方法,其预测精度受模型的适用性影响较大,而混合预测模型则是通过组合多种方法进行预测,利用多个模型的优势,达到更高的预测精度。
50.本发明的第一方面的实施例,提供了一种客流预测方法。
51.参照图1,客流预测方法包括但不限于以下步骤:
52.步骤s100、根据历史售票数据得到客流时间序列,客流时间序列用于表征客流需求的时变特征;
53.步骤s200、对客流时间序列进行分解,得到若干个平稳的子序列,每个子序列在中心频率周围是紧密的;
54.步骤s300、对若干个平稳的子序列进行重构,得到重构客流时间序列;
55.步骤s400、将重构客流时间序列输入至训练好的预测模型进行预测,得到预测客流量。
56.在步骤s100之前,对历史售票数据进行预处理,对数据进行重复值、异常值和缺失值进行清洗筛选。
57.对于步骤s100,根据历史售票数据得到客流时间序列,包括但不限于以下步骤:
58.将目标时间按天数划分,并将每天的统计时间统一划分为多个时段;
59.根据历史售票数据,统计每天的各个时段的客流需求;
60.根据每天的各个时段的客流需求,得到客流时间序列。
61.需要说明的是,有规律的波动特征可称为旅客需求的时变特征,对应的旅客需求可称为时变客流。
62.具体地,根据历史售票数据可知,旅客在7点之前和23点之后的需求量均较小,因此,只研究7点至23点之间的旅客需求。将一天的运营时间以小时为间隔划分成时段,例如时间段[7:00,7:59]称为时段1,时间段[8:00,8:59]称为时段2,依次类推,一天内的时间划分为16个时段,即时段1至时段16。
[0063]
即,第n天第m个时段的实际客流量记为预测客流量记为n=1,2
……
n,m=1,2,

,16。鉴于旅客需求的时段分布周期规律特征,对于一个o-d对,采用前14天同时段的客流预测第15天同时段的客流,即由预测
[0064]
铁路客流时间序列具有非平稳性,采用信号分解的方法对客流时间序列分解能有效的分解成平稳时间序列,从而提取铁路客流的波动特征。对于步骤s200,对客流时间序列进行分解,得到若干个平稳的子序列,包括但不限于以下步骤:
[0065]
对客流时间序列进行hilbert频谱变换,得到单侧频谱,hilbert频谱变换表示为:式中,δ(t)表示dirac分布函数即脉冲函数,*表示卷积运算;
[0066]
将变换得到的乘以指数混合解调中心频率将单侧频谱转移到基带,通过式子可以表示为:
[0067]
对转移后的单侧频谱所对应的约束变分模型进行求解,得到若干个平稳的子序列。
[0068]
其中,每个的带宽可以通过解调信号的高斯平滑估计得到,即梯度的l2范数,其中约束变分模型表示为:其中约束变分模型表示为:其中约束变分模型表示为:式中,ωk为每个模态对应的中心频率;k为模态分量的个数;为原客流时间序列;表示求偏导。
[0069]
为了求解中约束变分问题模型的最优解,可以使约束转化为无约束变分问题,因此引入二次罚因子α和拉格朗日算子λ(t),构造如下形式的增广拉格朗日表达式:此引入二次罚因子α和拉格朗日算子λ(t),构造如下形式的增广拉格朗日表达式:为了求解上式,通过交替方向乘子法得到上式的鞍点,并通过更新ωk和λ求约束变分模型的最优解,其更新方法如下:
[0070]
式中,λc分别为ωk,λ的傅里叶变换,ω为随机频率,c为迭代次数,τ为拉格朗日乘子的更新参数。重复更新步骤,循环迭代停止判断条件为:
[0071]
经过分解后,原客流时间序列分解成k个imf分量,即将每个时段分解出来的k个imf分量分别进行重构。
[0072]
步骤s200中,把原客流时间序列分解成k个imf本征模态函数,弱化噪声对预测模型的干扰,提高输入时间序列的稳定性。
[0073]
需要说明的是,对于步骤s300,重构采用如下方式中的任意一种:(1)将分量相加;(2)将分量加权分均,再相加;(3)将相关性大于相关性阈值的分量和相关性小于相关性阈值的分量分别相加。
[0074]
相关性阈值可以根据历史经验人为设定。
[0075]
在本实施例中,采用分量相加的方式进行重构。
[0076]
有重构后的新的客流时间序列为然后把序列作为预测模型的输入。
[0077]
另外,在对若干个平稳的子序列进行重构,得到重构客流时间序列的步骤之后,还包括:对重构客流时间序列进行数据归一化和差分处理。
[0078]
参照图3,预测模型具体采用长短时记忆(lstm)神经网络模型。lstm模型是一种改进的递归神经网络,能够处理长期依赖问题,也避免了梯度消失和梯度爆炸的问题。lstm模型可以存储更多的记忆(数百个时间步长)而且具有更多参数,可以更好地控制记忆的保存。lstm模型有三个门,遗忘门f
t
:控制上一时间的记忆细胞;输入门i
t
:控制当前时间步的输入;输出门o
t
:控制从记忆细胞到隐藏状态。
[0079]
t为时刻,h
t-1
为上一序列的隐藏状态,c
t-1
为上一时刻的细胞状态,c
t
为细胞状态,h
t
为最终输出,为候选细胞,σ和tanh为激活函数。其中,σ(t)函数的输出不考虑先前时刻学到的信息,tanh(t)函数对先前学到的信息进行压缩处理,起到稳定数值的作用。
[0080]
为了准确预测客流时间序列,对于不同o-d对的数据集,在训练时会适当的调整迭代次数、优化器、隐藏神经元和隐藏层数的范围,以便获得较好的预测结果。lstm模型的参数设置:时间步长为14,预测步长为1,迭代次数范围在[6,200],学习率为0.01,损失函数为rmse,优化器为adam优化器,隐藏层数为1。隐藏神经元的个数取值为2i,为正整数。
[0081]
对于步骤s400,将重构客流时间序列输入至训练好的预测模型进行预测,得到预测客流量,包括:
[0082]
步骤s410、将重构客流时间序列作为记忆细胞输入至遗忘门,得到遗忘值;
[0083]
步骤s420、将重构客流时间序列作为记忆细胞输入至输入门,得到保留值;
[0084]
步骤s430、根据遗忘值、保留值、记忆细胞和候选细胞得到当前细胞,其中候选细胞是由记忆细胞经过候选函数生成的;
[0085]
步骤s440、根据上一隐藏状态和记忆细胞得到输出门,将当前细胞输入至输出门得到预测客流量。
[0086]
对于步骤s410,表示当前细胞的输入,遗忘门决定细胞状态中丢弃什么信息。把h
t-1
和拼接起来,传给一个sigmoid函数,该函数输出0到1之间的值,这个值乘到细胞状态c
t-1
上去。sigmoid函数的输出值直接决定了状态信息保留多少。该过程可表示为:其中wf是遗忘门的权重矩阵,bf是偏差。
[0087]
对于步骤s420,输入门可确定将多少当前输入保存到细胞状态c
t
。该过程可表示为:。该过程可表示为:其中wi和bi分别是输入门的权重矩阵和偏置项。
[0088]
对于步骤s430,候选细胞由tanh(t)函数生成,该过程可以表示为:其中,wc和bc为权重矩阵和偏差项。当前细胞更新为:
[0089]
对于步骤s440,上一隐藏状态h
t-1
与记忆细胞经过σ(t)函数获得输出门o
t
,然后当前细胞c
t
经过tanh(t)函数与输出门o
t
相乘得到h
t
。该过程可以表示为:为:h
t
=o
t
*tanh(c
t
);其中wo和bo分别是输出门的权重矩阵和偏置项。
[0090]
步骤s410至步骤s440为预测模型的循环主体,循环迭代次数通常在实验中确定,完成给定循环次数后获得的输出h
t
即为最后预测值
[0091]
另外,在将重构客流时间序列输入至训练好的预测模型进行预测,得到预测客流量的步骤之后,还包括:将预测客流量与真实客流量进行比较,得到预测误差。通过预测误差可以优化预测模型,提高预测模型的预测精度。
[0092]
预测误差的方法可以采用平均绝对误差(mae)、平均绝对百分误差(mape)或均方根误差(rmse)。
[0093]
其中,平均绝对误差表示为平均绝对百分误差表示为均方根误差表示为s为数据集中的样本数。
[0094]
该客流预测方法中使用的模型的隐藏神经元个数和迭代次数的有效增加可以降低预测误差;提高了预测精度;分布特征整体一致,能够较好的拟合旅客出行需求的时变特征。
[0095]
参照图2,本发明的第二方面的实施例,提供了一种客流预测装置。
[0096]
客流预测装置包括序列获取单元10、序列分解单元20、重构单元30和预测单元40。
[0097]
其中,序列获取单元10用于根据历史售票数据得到客流时间序列,客流时间序列用于表征客流需求的时变特征;序列分解单元20用于对客流时间序列进行分解,得到若干个平稳的子序列,每个子序列在中心频率周围是紧密的;重构单元30用于对若干个平稳的子序列进行重构,得到重构客流时间序列;预测单元40用于将重构客流时间序列输入至训练好的预测模型进行预测,得到预测客流量。
[0098]
在该实施例中,模型的隐藏神经元个数和迭代次数的有效增加可以降低预测误差;提高了预测精度;分布特征整体一致,能够较好的拟合旅客出行需求的时变特征。
[0099]
需要说明的是,本发明的第二方面的实施例所采用的客流预测装置的各单元与本发明的第一方面的实施例所采用的客流预测方法的各步骤一一对应,两者具有相同的技术方案,解决相同的技术问题,带来相同的技术效果,因此对客流预测装置不再一一详述。
[0100]
本发明的第三方面的实施例,提供了一种客流预测装置。客流预测装置包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明的第一方面的实施例所述的客流预测方法。
[0101]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0102]
本发明的第四方面的实施例,提供了一种存储介质。存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行如本发明的第一方面的实施例所述的客流预测方法。
[0103]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0104]
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1