浮动巴士路径决策方法、系统、电子设备及介质

文档序号:31833486发布日期:2022-10-18 19:57阅读:40来源:国知局
浮动巴士路径决策方法、系统、电子设备及介质

1.本发明涉及智慧交通技术领域,具体涉及一种浮动巴士路径决策方法、系统、电子设备及介质。


背景技术:

2.随着技术的发展和城市建设,城市高速扩张发展与相对滞后的公共交通之间的矛盾愈发凸显,巴士作为公共交通的重要组成部分,每天为大量民众提供移动服务。传统巴士只有固定路线,固定上车点,会出现车辆资源分配不合理、等车时间过长、出行不便的问题。
3.在浮动巴士系统中,浮动巴士的行经路线和停靠站点不是固定的,而是针对客流和虚拟站点实时计算最优路径,快速进行公交运力资源动态调配,提供实时的按需服务。目前,浮动巴士的路径规划大多为先根据人流量确定车辆停靠站点,再告知乘客可以上车的位置,存在用户体验感不佳的问题。


技术实现要素:

4.本发明所要解决的技术问题为:现有的浮动巴士路径规划方法基于人流量确定车辆停靠站点,导致用户体验感不佳。为解决该技术问题,本发明提供了一种浮动巴士路径决策方法、系统、电子设备及介质。
5.本发明解决上述技术问题的技术方案如下:
6.一种浮动巴士路径决策方法,包括:
7.初始化经验回放集,构建马尔可夫决策过程,所述马尔可夫决策过程包括状态空间、动作空间、奖惩函数、状态转移概率和折扣因子五元组,其中,所述状态空间包括乘客上下车地点和车辆位置信息,所述动作空间包括路径选择和车辆可执行动作,所述车辆可执行动作包括车辆匀速行驶、车辆减速行驶、车辆到达乘客上下车地点,所述奖惩函数包括车辆匀速行驶时的奖惩值、车辆减速行驶时的奖惩值和车辆到达乘客上下车地点时的奖惩值,所述状态转移概率为车辆状态变化的概率,所述车辆状态包括车辆动作信息和车辆位置信息,所述折扣因子用于计算累计奖励,所述累计奖励代表车辆动作的长期收益;
8.构建两个dqn神经网络,两个所述dqn神经网络分别为当前值网络和目标值网络;
9.获取训练样本,所述训练样本包括待接送乘客上下车地点和当前车辆状态,根据所述训练样本和所述车辆可执行动作建立状态动作序列;
10.将所述状态动作序列输入所述当前值网络,通过所述当前值网络输出第一值函数,所述第一值函数为所述当前值网络根据所述状态动作序列输出的车辆执行每个可执行动作对应的预测累计奖励值,基于所述车辆执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作,建立经验序列,并将所述经验序列作为网络样本数据存入所述经验回放集中,所述经验序列包括所述状态动作序列、所述车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态;
11.利用所述经验回放集不断训练优化所述当前值网络和所述目标值网络,得到dqn
深度神经网络,以根据获取到的目标待接送乘客的上下车地点,通过所述dqn深度神经网络确定所述目标待接送乘客的上下车地点对应车辆的目标路径,所述dqn深度神经网络包括优化后的当前值网络和优化后的目标值网络。
12.本发明的有益效果是:通过设置状态转移概率为车辆状态变化的概率,使马尔可夫决策过程具有一定的随机性,使得本方法具有探索性;设置折扣因子用于计算车辆在不同动作下的长期收益,以判断车辆执行相应动作对未来的影响,使得本方法具有预测性,能够在开放、动态的环境下进行决策,应对实际中可能出现的极端情况;基于目标待接送乘客的上下车地点和当前车辆状态,根据客流实时计算最优路径,快速进行公交运力资源动态调配,为乘客提供一种实时的按需服务;车辆停车位置由目标待接送乘客的上下车地点决定,相对于传统巴士的路径规划,本方法具有上下车地点灵活、缩短了乘客等待时间、提高了乘客体验感的优点,本方法通过对公交运力资源动态调配,降低了公交车空驶率,提高了公交资源利用率,可有效减轻城市交通运输压力。
13.在上述技术方案的基础上,本发明还可以做如下改进。
14.进一步,所述方法还包括:
15.将所述目标待接送乘客的上下车地点输入所述dqn深度神经网络,得到所述目标待接送乘客的上下车地点对应的目标经验序列,将所述目标经验序列作为网络样本数据存入所述经验回放集中,所述目标经验序列包括所述目标待接送乘客的上下车地点对应的状态动作序列、车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态。
16.采用上述进一步方案的有益效果是:将目标待接送乘客的上下车地点对应的目标经验序列作为网络样本数据存入经验回放集中,通过引入经验回放机制,从经验回放集中随机选取网络样本数据,以不断优化网络参数,从而优化dqn深度神经网络,降低了网络样本数据之间的相关性,为提高决策出最优路径的准确率奠定了基础。
17.进一步,所述将所述目标待接送乘客的上下车地点输入所述dqn深度神经网络,得到所述目标待接送乘客的上下车地点对应的目标经验序列,具体包括:
18.将所述目标待接送乘客的上下车地点输入所述优化后的当前值网络中,通过所述优化后的当前值网络输出第一值函数,所述第一值函数为所述优化后的当前值网络根据所述状态动作序列输出的车辆执行每个可执行动作对应的预测累计奖励值,基于所述车辆执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作,建立所述目标待接送乘客的上下车地点对应的目标经验序列。
19.采用上述进一步方案的有益效果是:通过建立目标待接送乘客的上下车地点对应的目标经验序列,使其作为网络样本数据进行存储,便于降低仅将训练样本对应的经验序列作为网络样本数据以优化dqn深度神经网络,网络样本数据之间存在的相关性,提高目标经验序列的利用率。
20.进一步,所述利用所述经验回放集不断训练优化所述当前值网络和所述目标值网络,得到dqn深度神经网络,具体包括:
21.初始化所述当前值网络的初始权重θ
t
、所述目标值网络的初始权重θ-、固定时间间隔t,确定单位时间间隔和所述当前值网络的损失函数;
22.每隔一个单位时间间隔,从所述经验回收集中采样一个网络样本数据,采用所述
当前值网络的损失函数更新所述当前值网络的当前权重θ
t+1
,得到更新后的当前值网络,其中,所述当前值网络的当前权重θ
t+1
为:
[0023][0024]
其中,为梯度算子,θ
t
表示所述当前值网络的当前权重,θ-表示所述目标值网络的当前权重,α和γ均为常数,γ表示折扣因子,t表示当前时刻,s
t
表示当前时刻车辆状态,a
t
表示当前时刻车辆执行的动作,r
t
表示当前时刻车辆状态的奖惩值,q(s
t
,a
t
;θ
t
)为所述当前值网络输出的第一值函数,表示当前时刻车辆在状态s
t
下执行动作a
t
的预计累计奖励值;t+1表示当前时刻加上所述单位时间间隔之后所得到的时刻,s
t+1
表示t+1时刻可能存在的车辆状态,a
t+1
表示t+1时刻车辆可执行动作,q(s
t+1
,a
t+1
;θ-)为所述目标值网络输出的第二值函数,表示t+1时刻车辆在状态s
t+1
下执行动作a
t+1
的预计累计奖励值;
[0025]
按照所述固定时间间隔t,将所述目标值网络的权重更新为所述当前值网络的当前权重θ
t+1
,得到更新后的目标值网络;
[0026]
根据所述更新后的当前值网络和所述更新后的目标值网络,得到dqn深度神经网络。
[0027]
采用上述进一步方案的有益效果是:通过使用经验回放机制,将网络样本数据储存到一个经验回放集中,抽取网络样本数据对网络进行训练,打破了强化学习采集数据之间的关联性,使训练更加稳定且收敛;通过设计一个每单位时间间隔更新其权重的当前值网络和一个每固定时间间隔的目标值网络,以降低经验回放机制所导致的网络样本数据的高关联性;通过不断优化网络参数,提高了基于优化后的当前值网络决策出最优路径的准确率。
[0028]
进一步,所述从所述经验回收集中采样一个网络样本数据具体包括:在所述经验回收集中进行均匀随机采样,得到一个网络样本数据。
[0029]
采用上述进一步方案的有益效果是:通过均匀随机采样方法获取用于训练、优化网络的网络样本数据,可降低经验回放集中网络样本数据之间的相关性。
[0030]
进一步,所述根据获取到的目标待接送乘客的上下车地点,通过所述dqn深度神经网络确定所述目标待接送乘客的上下车地点对应车辆的目标路径,具体包括:
[0031]
将所述目标待接送乘客上下车地点输入所述dqn深度神经网络中,通过所述dqn深度神经网络计算出车辆在当前时刻的下一时刻对应的目标动作,将所述目标动作对应的路径作为目标路径,以使所述车辆在下一时刻按照所述目标路径行驶;其中,当前时刻与下一时刻之间的时间间隔即为所述单位时间间隔;
[0032]
所述目标动作为所述车辆在下一时刻执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作。
[0033]
采用上述进一步方案的有益效果是:通过dqn深度神经网络计算出车辆在当前时刻的下一时刻对应的目标动作,确定车辆在当前时刻的下一时刻对应的目标路径,使车辆在当前时刻的下一时刻按照最优动作、最优路径进行行驶,实现目标待接送乘客的接送,无需待接送乘客在指定地点上下车,缩短了乘客等待时间、提高了乘客体验感。
[0034]
为解决上述技术问题,本发明还提供了一种浮动巴士路径决策系统,包括:
[0035]
初始化模块,用于初始化经验回放集,构建马尔可夫决策过程,所述马尔可夫决策
过程包括状态空间、动作空间、奖惩函数、状态转移概率和折扣因子五元组,其中,所述状态空间包括乘客上下车地点和车辆位置信息,所述动作空间包括路径选择和车辆可执行动作,所述车辆可执行动作包括车辆匀速行驶、车辆减速行驶、车辆到达乘客上下车地点,所述奖惩函数包括车辆匀速行驶时的奖惩值、车辆减速行驶时的奖惩值和车辆到达乘客上下车地点时的奖惩值,所述状态转移概率为车辆状态变化的概率,所述车辆状态包括车辆动作信息和车辆位置信息,所述折扣因子用于计算累计奖励,所述累计奖励代表车辆动作的长期收益;
[0036]
样本获取模块,用于获取训练样本,所述训练样本包括待接送乘客上下车地点和当前车辆状态,根据所述训练样本和所述车辆可执行动作建立状态动作序列;
[0037]
网络构建模块,构建两个dqn神经网络,两个所述dqn神经网络分别为当前值网络和目标值网络;
[0038]
网络训练模块,用于将所述状态动作序列输入所述当前值网络,通过所述当前值网络输出第一值函数,所述第一值函数为所述当前值网络根据所述状态动作序列输出的车辆执行每个可执行动作对应的预测累计奖励值,基于所述车辆执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作,建立经验序列,并将所述经验序列作为网络样本数据存入所述经验回放集中,所述经验序列包括所述状态动作序列、所述车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态;
[0039]
网络优化模块,用于利用所述经验回放集不断训练优化所述当前值网络和所述目标值网络,得到dqn深度神经网络,所述dqn深度神经网络包括优化后的当前值网络和优化后的目标值网络;
[0040]
路径决策模块,用于根据获取到的目标待接送乘客的上下车地点,通过所述dqn深度神经网络确定所述目标待接送乘客的上下车地点对应车辆的目标路径。
[0041]
进一步,所述系统还包括:
[0042]
增加模块,用于将所述目标待接送乘客的上下车地点输入所述dqn深度神经网络,得到所述目标待接送乘客的上下车地点对应的目标经验序列,将所述目标经验序列作为网络样本数据存入所述经验回放集中,所述目标经验序列包括所述目标待接送乘客的上下车地点对应的状态动作序列、车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态。
[0043]
为解决上述技术问题,本发明还提供了一种电子设备,所述电子设备包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的浮动巴士路径决策方法。
[0044]
为解决上述技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的浮动巴士路径决策方法。
附图说明
[0045]
图1为本发明的方法流程示意图;
[0046]
图2为本发明实施例的浮动巴士路径决策方法中的场景示意图;
[0047]
图3为本发明的方法与现有方法路径决策效果比较示意图;
[0048]
图4为本发明的系统结构示意图;
[0049]
图5为本发明的电子设备结构示意图。
具体实施方式
[0050]
以下对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0051]
实施例一
[0052]
为解决现有技术存在的技术问题,本实施例提供了一种浮动巴士路径决策方法,如图1所示,包括:
[0053]
初始化经验回放集,构建马尔可夫决策过程,所述马尔可夫决策过程包括状态空间、动作空间、奖惩函数、状态转移概率和折扣因子五元组,所述五元组为:
[0054]
g=<s,a,r,p,γ>
[0055]
其中,g表示五元组;
[0056]
s表示状态空间,所述状态空间包括乘客上下车地点和车辆位置信息;
[0057]
a表示动作空间,所述动作空间包括路径选择和车辆可执行动作,所述车辆可执行动作包括车辆匀速行驶、车辆减速行驶、车辆到达乘客上下车地点;
[0058]
r表示奖惩函数,所述奖惩函数包括车辆匀速行驶时的奖惩值、车辆减速行驶时的奖惩值和车辆到达乘客上下车地点时的奖惩值,所述车辆匀速行驶时的奖惩值、所述车辆减速行驶时的奖惩值、所述车辆到达乘客上下车地点时的奖惩值均为常数,其中,所述奖惩值的大小表征车辆执行动作的期待度,奖惩值越大,表明期待度越高;例如,设定车辆减速行驶时的奖惩值为-5、车辆到达乘客上下车地点时的奖惩值为10,表明希望车辆在尽可能少减速的情况下到达更多的乘客上下车地点,以获得更多的奖励。
[0059]
p表示状态转移概率,所述状态转移概率为车辆状态变化的概率,所述车辆状态包括车辆动作信息和车辆位置信息,则状态转移概率可表示车辆动作变化的概率和车辆位置变化的概率;
[0060]
γ表示折扣因子,所述折扣因子用于计算累计奖励,所述累计奖励代表车辆动作的长期收益,所述折扣因子为超参数,所述折扣因子的取值表征车辆未来动作对车辆路径决策的影响程度,折扣因子的取值越大,表明决策车辆路径时,将考虑车辆未来长期的动作;折扣因子的取值越小,表明决策车辆路径时,将考虑车辆未来近期的动作;所述折扣因子的取值范围为(0,1],本实施例中,所述折扣因子的取值为0.9。
[0061]
构建两个dqn神经网络,两个所述dqn神经网络分别为当前值网络和目标值网络。
[0062]
获取训练样本,所述训练样本包括待接送乘客上下车地点和当前车辆状态,根据所述训练样本和所述车辆可执行动作建立状态动作序列。
[0063]
将所述状态动作序列输入所述当前值网络,通过所述当前值网络输出第一值函数,所述第一值函数为所述当前值网络根据所述状态动作序列输出的车辆执行每个可执行动作对应的预测累计奖励值,基于所述车辆执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作,建立经验序列,并将所述经验序列作为网络样本数据存入所述经验回放集中;所述经验序列包括所述状态动作序列、所述车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态。
[0064]
利用所述经验回放集不断训练优化所述当前值网络和所述目标值网络,得到dqn深度神经网络,以根据获取到的目标待接送乘客的上下车地点,通过所述dqn深度神经网络确定所述目标待接送乘客的上下车地点对应车辆的目标路径,所述dqn深度神经网络包括优化后的当前值网络和优化后的目标值网络。
[0065]
其中,所述利用所述经验回放集不断训练优化所述当前值网络和所述目标值网络,得到dqn深度神经网络,具体包括:
[0066]
初始化所述当前值网络的初始权重θ
t
、所述目标值网络的初始权重θ-、固定时间间隔t,确定单位时间间隔和所述当前值网络的损失函数;
[0067]
每隔一个单位时间间隔,从所述经验回收集中均匀随机采样一个网络样本数据,采用所述当前值网络的损失函数更新所述当前值网络的当前权重θ
t+1
,得到更新后的当前值网络,其中,所述当前值网络的当前权重θ
t+1
为:
[0068][0069]
其中,为梯度算子,θ
t
表示所述当前值网络的当前权重,θ-表示所述目标值网络的当前权重,α和γ均为常数,γ表示折扣因子,t表示当前时刻,s
t
表示当前时刻车辆状态,a
t
表示当前时刻车辆执行的动作,a
t
∈a,r
t
表示当前时刻车辆状态的奖惩值,q(s
t
,a
t
;θ
t
)为所述当前值网络输出的第一值函数,表示当前时刻车辆在状态s
t
下执行动作a
t
的预计累计奖励值;t+1表示当前时刻加上所述单位时间间隔之后所得到的时刻,s
t+1
表示t+1时刻可能存在的车辆状态,a
t+1
表示t+1时刻车辆可执行动作,a
t+1
∈a,q(s
t+1
,a
t+1
;θ-)为所述目标值网络输出的第二值函数,表示t+1时刻车辆在状态s
t+1
下执行动作a
t+1
的预计累计奖励值;
[0070]
按照所述固定时间间隔t,将所述目标值网络的权重更新为所述当前值网络的当前权重θ
t+1
,得到更新后的目标值网络;其中,所述固定时间间隔t大于所述单位时间间隔,所述固定时间间隔t的数值为所述单位时间间隔的正整数倍,每隔一个单位时间间隔更新一次所述当前值网络的当前权重,每隔一个固定时间间隔t更新一次所述目标值网络的当前权重;本实施例中,单位时间间隔的取值为1s,固定时间间隔t的取值为10s;
[0071]
根据所述更新后的当前值网络和所述更新后的目标值网络,得到dqn深度神经网络。
[0072]
所述根据获取到的目标待接送乘客的上下车地点,通过所述dqn深度神经网络确定所述目标待接送乘客的上下车地点对应车辆的目标路径,具体包括:
[0073]
将所述目标待接送乘客上下车地点输入所述dqn深度神经网络中,通过所述dqn深度神经网络计算出车辆在当前时刻的下一时刻对应的目标动作,将所述目标动作对应的路径作为目标路径,以使所述车辆在下一时刻按照所述目标路径行驶;其中,当前时刻与下一时刻之间的时间间隔即为所述单位时间间隔;
[0074]
所述目标动作为所述车辆在下一时刻执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作。
[0075]
下面结合仿真实验对本发明的效果做进一步的描述。
[0076]
1.仿真实验条件:
[0077]
本实施例的仿真实验的硬件/软件平台为:rtx3060ti计算机、sumo仿真平台。
[0078]
2.仿真内容及结果:
[0079]
在如图2所示的场景中,随机生成目标待接送乘客的上下车地点,获取巴士状态,所述巴士状态包括巴士动作信息和巴士位置信息(巴士状态即前文所述的车辆状态,巴士动作信息对应所述车辆状态包含的车辆动作信息,巴士位置信息对应所述车辆状态包含的车辆位置信息),再结合巴士可执行动作(包括巴士匀速行驶、巴士减速行驶、巴士到达乘客上下车地点),构建各个目标待接送乘客的上下车地点所对应的状态动作序列,将构建得到的状态动作序列输入dqn深度神经网络中,通过dqn深度神经网络确定巴士目标路径。本实施例中,巴士匀速行驶时的奖惩值为-1,巴士减速行驶时的奖惩值为-5,巴士到达乘客上下车地点时的奖惩值为10。
[0080]
在图2所示的场景下,采用相同的训练样本,根据强化学习评估指标—每步平均报酬(average reward step),对本方法(简称dqn)与现有的帕累托分析法(简称pareto)、强化学习方法q-learning实现路径决策进行评估,本方法与pareto、q-learning的路径决策效果比较如图3所示,根据图3可以看出,pareto在10min后开始收敛,q-learning无法收敛得到可选的路径决策策略,而本方法在8min后就开始收敛,可见,随着时间的增加,本方法的收敛速度最快,表明本方法的决策时间短;本方法每步平均报酬对应的值最大,表明根据本方法执行动作得到的奖励高,路径更优,因此,本方法可有效减少乘客的等待时间。
[0081]
可选的,该方法还包括:
[0082]
将所述目标待接送乘客的上下车地点输入所述dqn深度神经网络,得到所述目标待接送乘客的上下车地点对应的目标经验序列,将所述目标经验序列作为网络样本数据存入所述经验回放集中,所述目标经验序列包括所述目标待接送乘客的上下车地点对应的状态动作序列、车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态。
[0083]
所述将所述目标待接送乘客的上下车地点输入所述dqn深度神经网络,得到所述目标待接送乘客的上下车地点对应的目标经验序列,具体包括:
[0084]
将所述目标待接送乘客的上下车地点输入所述优化后的当前值网络中,通过所述优化后的当前值网络输出第一值函数,所述第一值函数为所述优化后的当前值网络根据所述状态动作序列输出的车辆执行每个可执行动作对应的预测累计奖励值,基于所述车辆执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作,建立所述目标待接送乘客的上下车地点对应的目标经验序列。
[0085]
实施例二
[0086]
为解决现有技术存在的技术问题,本实施例提供了一种浮动巴士路径决策系统,如图4所示,包括:
[0087]
初始化模块,用于初始化经验回放集,构建马尔可夫决策过程,所述马尔可夫决策过程包括状态空间、动作空间、奖惩函数、状态转移概率和折扣因子五元组,其中,所述状态空间包括乘客上下车地点和车辆位置信息,所述动作空间包括路径选择和车辆可执行动作,所述车辆可执行动作包括车辆匀速行驶、车辆减速行驶、车辆到达乘客上下车地点,所述奖惩函数包括车辆匀速行驶时的奖惩值、车辆减速行驶时的奖惩值和车辆到达乘客上下车地点时的奖惩值,所述状态转移概率为车辆状态变化的概率,所述车辆状态包括车辆动作信息和车辆位置信息,所述折扣因子用于计算累计奖励,所述累计奖励代表车辆动作的长期收益;
[0088]
样本获取模块,用于获取训练样本,所述训练样本包括待接送乘客上下车地点和当前车辆状态,根据所述训练样本和所述车辆可执行动作建立状态动作序列;
[0089]
网络构建模块,构建两个dqn神经网络,两个所述dqn神经网络分别为当前值网络和目标值网络;
[0090]
网络训练模块,用于将所述状态动作序列输入所述当前值网络,通过所述当前值网络输出第一值函数,所述第一值函数为所述当前值网络根据所述状态动作序列输出的车辆执行每个可执行动作对应的预测累计奖励值,基于所述车辆执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作,建立经验序列,并将所述经验序列作为网络样本数据存入所述经验回放集中,所述经验序列包括所述状态动作序列、所述车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态;
[0091]
网络优化模块,用于利用所述经验回放集不断训练优化所述当前值网络和所述目标值网络,得到dqn深度神经网络,所述dqn深度神经网络包括优化后的当前值网络和优化后的目标值网络;
[0092]
路径决策模块,用于根据获取到的目标待接送乘客的上下车地点,通过所述dqn深度神经网络确定所述目标待接送乘客的上下车地点对应车辆的目标路径。
[0093]
可选的,所述系统还包括:
[0094]
增加模块,用于将所述目标待接送乘客的上下车地点输入所述dqn深度神经网络,得到所述目标待接送乘客的上下车地点对应的目标经验序列,将所述目标经验序列作为网络样本数据存入所述经验回放集中,所述目标经验序列包括所述目标待接送乘客的上下车地点对应的状态动作序列、车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态。
[0095]
实施例三
[0096]
为解决现有技术存在的技术问题,本实施例提供了一种浮动巴士路径决策系统,如图5所示,包括:
[0097]
为解决上述技术问题,本发明还提供了一种电子设备,所述电子设备包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如实施例一所述的浮动巴士路径决策方法。
[0098]
实施例四
[0099]
为解决现有技术存在的技术问题,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述的浮动巴士路径决策方法。
[0100]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1