本发明涉及城际网约车车辆调度,具体而言,涉及一种基于城际网约车供需长序列预测的调度方法、装置、设备和介质。
背景技术:
1、网约车服务利用先进的在线匹配技术,为乘客与周边空闲车辆搭建起即时的连接桥梁,提供快速响应的交通出行服务。城际网约车专注于提供长距离的跨城市定制客运,展现出显著的周期性需求波动,尤其是在节假日及工作日的交界时期,"返乡"与"返城"的出行需求激增。
2、城际长距离运输的特有属性导致了供需匹配的滞后性,进而引发单侧供需不平衡的问题。例如:在某些时段,城市a的车辆运力可能过剩,而城市b则可能面临运力短缺。这种情况不仅延长了乘客的等待时间,影响了出行效率,也造成了运力资源的浪费,减少了公司的潜在收益。
3、为了有效缓解这一供需不平衡现象,提升用户出行体验,并增强公司的经济效益与服务效率。本发明提出了一种新的解决方案,旨在通过优化订单需求与运力供给的时空匹配,实现更高效、更精准的服务提供。
技术实现思路
1、本发明提供了一种基于城际网约车供需长序列预测的调度方法、装置、设备和介质,以改善上述技术问题中的至少一个。具体的,由于城际长距离行驶导致供需调度存在长滞后性,通过对未来订单需求和可用运力的长序列预测,可以有效的指导车辆调度缓解供需不平衡问题。在车辆调度方面,深度强化学习能够从动态变化的供需中学习最佳的调度策略,同时既考虑短期收益也考虑未来收益,从而实现具有前瞻性的动态网约车调度策略。
2、第一方面、本发明提供了一种基于城际网约车供需长序列预测的调度方法,其包含步骤s1至步骤s4。
3、s1、获取双城的当前订单需求量和当前运力供给量。
4、s2、将所述订单需求量和所述运力供给量分别输入基于改进的informer模型构建的订单需求长序列预测模型和运力供给长序列预测模型,获取预测的未来订单需求量和未来运力供给量。
5、s3、基于所述当前单需求量、所述当前运力供给量、所述未来订单需求量和所述未来运力供给量,计算各个时刻的供需比函数和失衡系数。其中,
6、
7、式中,为失衡系数、为供需比函数、为智能体u在t时刻的订单需求量、为智能体u在t时刻的可用运力供给量。
8、s4、将所述各个时刻的供需比函数和失衡系数输入基于多智能体深度确定性策略算法maddpg构建的多智能体强化学习的城际单侧供需不平衡调度模型进行调度,获取推荐的调度动作。其中,所述调度动作用以作为网约车公司调度运力时参考方案。
9、在一个可选的实施例中,所述改进的informer模型通过变量选择网络替换现有informer模型使用所有特征整合成一个特征向量输入的方式。
10、在一个可选的实施例中,将整个城市的车辆定义为一个智能体。所述多智能体强化学习的城际单侧供需不平衡调度模型的深度强化学习的要素包括:状态空间、动作空间、奖励函数和求解算法。
11、优选的,所述状态空间s表示为:s={s1,s2},式中,s1和s2分别表示a城和b城的状态。由双城的当前失衡系数以及未来预测的m个时间切片的失衡系数来表示智能体的状态。
12、
13、式中,表示a城在t时刻的状态、表示a城在t+m时刻的失衡系数、表示b城在t时刻的状态、表示b城在t+m时刻的失衡系数。
14、优选的,所述动作空间a表示为:a={a1,a2},式中,a1和a2分别表示a城和b城的动作值,动作值a∈[-1,1],表示需要进行调度的车辆比例。则智能体u在t时刻的车辆调度数目为式中,为智能体u在t时刻的可用运力供给量、为智能体u在t时刻需要进行调度的车辆比例。
15、优选的,所述奖励函数r表示为:
16、
17、式中,和表示a城和b城在t时刻的奖励函数、表示a城在t+m时刻的失衡系数、表示b城在t+m时刻的失衡系数、τ为调整参数,通过引入调整参数来调整未来各个时间切片失衡系数的重要性。
18、优选的,所述求解算法为多智能体深度确定性策略算法maddpg。
19、在一个可选的实施例中,步骤s1具体包括步骤s11至步骤s12。
20、s11、获取双城当前的订单集合和车辆集合,将当前未分配的订单与空闲车辆进行匹配,并将分配到订单的车辆状态修改为”已占用”,然后更新订单列表的状态,从订单列表中删除已服务订单。
21、s12、根据未匹配的订单和空闲车辆,获取双城的当前订单需求量和当前运力供给量。其中,订单需求量为出行需求人数。运力供给量为可用座位数。
22、在一个可选的实施例中,订单需求长序列预测模型的训练步骤包括步骤a1至步骤a5。
23、a1、获取城际网约车的历史订单数据集和历史运力数据集。
24、a2、从所述历史订单数据集提取第一预设字段,获取初步订单数据集。优选的,所述第一预设字段包括:乘客iid、下单时间、预约出发时间、订单类型、人数、订单状态、线路id,以及车型。
25、a3、对所述初步订单数据集进行清洗,以清除重复数据、缺失数据和货件数据。然后,根据“预约时刻”字段对清洗后的初步订单数据集进行时间切片,获取订单切片数据集。
26、a4、根据所述订单切片数据集,构建订单需求长序列预测模型的第一输入特征,获取订单需求长序列预测模型的第一数据样本。其中,订单需求长序列预测模型的输出标签为订单需求数。优选的,所述第一输入特征包括:日期、统计时间窗、星期枚举、小时枚举、日期类别枚举,以及订单需求数。
27、a5、根据所述第一数据样本对改进的informer模型进行训练,获取订单需求长序列预测模型。
28、在一个可选的实施例中,运力供给长序列预测模型的训练包括步骤b1至步骤b5。
29、b1、获取历史运力数据集。
30、b2、从所述历史运力数据集提取第二预设字段,获取初步运力数据集。优选的,所述第二预设字段包括日期、统计时间窗、可用座位数,以及可用车辆数。
31、b3、根据“统计时间窗”字段对初步运力数据集进行时间切片,获取运力切片数据集。
32、b4、根据所述运力切片数据集,构建运力供给长序列预测模型的第二输入特征,获取运力供给长序列预测模型的第二样本数据。其中,运力供给长序列预测模型的输出标签为可用运力数。优选的,所述第二输入特征,包括日期、统计时间窗、星期枚举、小时枚举、日期类别枚举、订单需求数,以及可用运力数。
33、b5、根据所述第二数据样本对改进的informer模型进行训练,获取运力供给长序列预测模型。
34、在一个可选的实施例中,多智能体强化学习的城际单侧供需不平衡调度模型的训练步骤包括步骤c1至步骤c3。
35、c1、将所述第一数据样本输入所述订单需求长序列预测模型,获取后续m个时间切片的订单需求量预测值。
36、c2、将所述第二数据样本输入所述运力供给长序列预测模型,获取后续m个时间切片的可用运力供给量预测值。
37、c3、根据所述第一数据样本、所述第二数据样本、所述订单需求量预测值,以及所述可用运力供给量预测值,采用多智能体深度确定性策略算法maddpg训练得到所述多智能体强化学习的城际单侧供需不平衡调度模型。
38、第二方面,本发明提供一种基于城际网约车供需长序列预测的调度装置,其包含初始数据获取模块、长序列预测模块、系数计算模块和调度模块。
39、初始数据获取模块,用于获取双城的当前订单需求量和当前运力供给量。
40、长序列预测模块,用于将所述订单需求量和所述运力供给量分别输入基于改进的informer模型构建的订单需求长序列预测模型和运力供给长序列预测模型,获取预测的未来订单需求量和未来运力供给量。
41、系数计算模块,用于基于所述当前单需求量、所述当前运力供给量、所述未来订单需求量和所述未来运力供给量,计算各个时刻的供需比函数和失衡系数。其中,
42、
43、式中,为失衡系数、为供需比函数、为智能体u在t时刻的订单需求量、为智能体u在t时刻的可用运力供给量。
44、调度模块,用于将所述各个时刻的供需比函数和失衡系数输入基于多智能体深度确定性策略算法maddpg构建的多智能体强化学习的城际单侧供需不平衡调度模型进行调度,获取推荐的调度动作。其中,所述调度动作用以作为网约车公司调度运力时参考方案。
45、第三方面,本发明提供一种基于城际网约车供需长序列预测的调度设备,其包括处理器、存储器,以及存储在所述存储器内的计算机程序。所述计算机程序能够被所述处理器执行,以实现如第一方面任意一段所述的一种基于城际网约车供需长序列预测的调度方法。
46、第四方面,本发明提供一种计算机可读存储介质。所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任意一段所述的一种基于城际网约车供需长序列预测的调度方法。
47、通过采用上述技术方案,本发明可以取得以下技术效果:
48、本发明的一种基于城际网约车供需长序列预测的调度方法能够对未来的订单需求和车辆运力进行长序列预测,通过当前的订单需求量和运力供给量、未来预测的订单需求量和运力供给量构建以供需平衡为目标的奖励函数。利用多智能体强化学习方法最大化累计奖励,使调度模型学习如何提前预知单侧供需不平衡,输出优化后双城的所有可用运力的调度动作,从而提前调度可用运力到未来运力缺口更大的城市以缓解供需不平衡问题。