基于深度强化学习的重载铁路优化调度方法和装置

文档序号:39461772发布日期:2024-09-24 20:04阅读:28来源:国知局
基于深度强化学习的重载铁路优化调度方法和装置

本公开涉及轨道运输领域,尤其涉及一种基于深度强化学习的重载铁路优化调度方法和装置。


背景技术:

1、重载铁路适合大宗货物及中长距离货物运输,是矿物、煤炭等运输系统的支柱。随着重载铁路运输需求的快速增加,提高重载货运系统的运输能力具有迫切的现实需要。重载铁路货运系统的运输能力是在一定行车组织方法的条件下衡量和评估的,随着可调度列车数量的增加,调度方案的制定对运能的提升具有越来越重要的意义。


技术实现思路

1、有鉴于此,本公开提出了一种基于深度强化学习的重载铁路优化调度方法和装置,旨在自动生成重载铁路货运系统的调度方案。

2、根据本公开的第一方面,提供了一种基于深度强化学习的重载铁路优化调度方法,所述方法包括:

3、获取包括至少一个列车的列车集合,以及至少一个铁路轨道股道段的股道段集合;

4、确定预设的作业类型集合以及调度约束条件;

5、通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题,并基于强化学习方法解决所述序贯决策问题得到铁路调度方案,所述铁路调度方案中包括所述列车集合中每个所述列车的调度策略。

6、在一种可能的实现方式中,所述通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题,并基于强化学习方法解决所述序贯决策问题得到铁路调度方案,包括:

7、确定所述列车集合中每个所述列车初始的动作空间;

8、根据预设步长由每个所述列车初始的动作空间开始,依次基于强化学习方法根据所述股道段集合、作业类型集合和所述调度约束条件确定每个所述列车对应的多个具有顺序的动作空间,所述动作空间中包括对应的股道段和作业类型;

9、根据每个所述列车对应的多个具有顺序的动作空间确定对应的调度策略,得到铁路调度方案。

10、在一种可能的实现方式中,所述根据预设步长由每个所述列车初始的动作空间开始,依次基于强化学习方法根据所述股道段集合、作业类型集合和所述调度约束条件确定每个所述列车对应的多个具有顺序的动作空间,包括:

11、确定当前仿真步,所述仿真步为长度为一个所述预设步长的时间区间;

12、响应于所述动作空间符合所述调度约束条件,根据所述动作空间确定每个所述列车对应的观测空间,所述观测空间用于表征对应列车的状态;

13、根据所述列车对应的观测空间确定列车的工作状态;

14、响应于所述列车的工作状态为未完成工作,根据当前仿真步的观测空间基于强化学习方法根据所述股道段集合和所述作业类型集合确定下一仿真步对应的动作空间;

15、响应于所述列车的工作状态为完成工作,停止确定所述列车动作空间的过程。

16、在一种可能的实现方式中,所述根据当前仿真步的观测空间基于强化学习方法根据所述股道段集合和所述作业类型集合确定下一仿真步对应的动作空间,包括:

17、将据当前仿真步的观测空间输入基于强化学习方法训练得到的动作预测模型,通过所述动作预测模型根据输入的观测空间在所述股道段集合和所述作业类型集合分别选择下一仿真步需要的股道段和作业类型,输出下一仿真步对应的动作空间。

18、在一种可能的实现方式中,所述观测空间包括实际观测空间和辅助掩码空间,所述实际观测空间包括列车位置和列车装载情况,所述辅助掩码空间包括所述列车在下一仿真步不可行的股道段和所述列车在下一仿真步不可选的作业类型。

19、在一种可能的实现方式中,所述根据所述动作空间确定每个所述列车对应的观测空间,包括:

20、根据当前仿真步内所述列车的工作状态和所在的股道段确定对应的实际观测空间;

21、根据所述实际观测空间更新所述辅助掩码空间。

22、在一种可能的实现方式中,所述铁路调度方案中还包括每个所述列车对应的货物周转量;

23、所述通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题,并基于强化学习方法解决所述序贯决策问题得到铁路调度方案,还包括:

24、对于每个所述列车,确定每个所述动作空间对应的周转量;

25、计算每个所述周转量的和得到总的货物周转量。

26、在一种可能的实现方式中,每个所述动作空间对应的货物周转量根据所述列车对应的运输距离和货物量确定,所述运输距离根据所述动作空间确定。

27、在一种可能的实现方式中,所述股道段集合中包括所述列车集合中每个所述列车能够行驶的股道段的标识,所述作业类型集合中包括通过作业、接车作业、发车作业、装车作业和卸车作业。

28、根据本公开的第二方面,提供了一种基于深度强化学习的重载铁路优化调度装置,所述装置包括:

29、信息确定模块,用于获取包括至少一个列车的列车集合,以及至少一个铁路轨道股道段的股道段集合;

30、约束条件确定模块,用于确定预设的作业类型集合以及调度约束条件;

31、方案生成模块,用于通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题,并基于强化学习方法解决所述序贯决策问题得到铁路调度方案,所述铁路调度方案中包括所述列车集合中每个所述列车的调度策略。

32、在一种可能的实现方式中,所述方案生成模块,进一步用于:

33、确定所述列车集合中每个所述列车初始的动作空间;

34、根据预设步长由每个所述列车初始的动作空间开始,依次基于强化学习方法根据所述股道段集合、作业类型集合和所述调度约束条件确定每个所述列车对应的多个具有顺序的动作空间,所述动作空间中包括对应的股道段和作业类型;

35、根据每个所述列车对应的多个具有顺序的动作空间确定对应的调度策略,得到铁路调度方案。

36、在一种可能的实现方式中,所述方案生成模块,进一步用于:

37、确定当前仿真步,所述仿真步为长度为一个所述预设步长的时间区间;

38、响应于所述动作空间符合所述调度约束条件,根据所述动作空间确定每个所述列车对应的观测空间,所述观测空间用于表征对应列车的状态;

39、根据所述列车对应的观测空间确定列车的工作状态;

40、响应于所述列车的工作状态为未完成工作,根据当前仿真步的观测空间基于强化学习方法根据所述股道段集合和所述作业类型集合确定下一仿真步对应的动作空间;

41、响应于所述列车的工作状态为完成工作,停止确定所述列车动作空间的过程。

42、在一种可能的实现方式中,所述方案生成模块,进一步用于:

43、将据当前仿真步的观测空间输入基于强化学习方法训练得到的动作预测模型,通过所述动作预测模型根据输入的观测空间在所述股道段集合和所述作业类型集合分别选择下一仿真步需要的股道段和作业类型,输出下一仿真步对应的动作空间。

44、在一种可能的实现方式中,所述观测空间包括实际观测空间和辅助掩码空间,所述实际观测空间包括列车位置和列车装载情况,所述辅助掩码空间包括所述列车在下一仿真步不可行的股道段和所述列车在下一仿真步不可选的作业类型。

45、在一种可能的实现方式中,所述方案生成模块,进一步用于:

46、根据当前仿真步内所述列车的工作状态和所在的股道段确定对应的实际观测空间;

47、根据所述实际观测空间更新所述辅助掩码空间。

48、在一种可能的实现方式中,所述铁路调度方案中还包括每个所述列车对应的货物周转量;

49、所述方案生成模块,进一步还用于:

50、对于每个所述列车,确定每个所述动作空间对应的周转量;

51、计算每个所述周转量的和得到总的货物周转量。

52、在一种可能的实现方式中,每个所述动作空间对应的货物周转量根据所述列车对应的运输距离和货物量确定,所述运输距离根据所述动作空间确定。

53、在一种可能的实现方式中,所述股道段集合中包括所述列车集合中每个所述列车能够行驶的股道段的标识,所述作业类型集合中包括通过作业、接车作业、发车作业、装车作业和卸车作业。

54、根据本公开的第三方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。

55、根据本公开的第四方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。

56、根据本公开的第五方面,提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。

57、在本公开实施例中,确定包括至少一个列车的列车集合,以及至少一个铁路轨道股道段的股道段集合。确定预设的作业类型集合以及调度约束条件,通过马尔科夫决策过程基于股道段集合、作业类型集合和调度约束条件生成用于确定铁路调度方案的序贯决策问题,并基于强化学习方法解决序贯决策问题得到铁路调度方案,其中包括每个列车的调度策略。本公开通过确定列车集合、股道段集合、作业集合以及约束条件的方式建立仿真环境,并根据马尔科夫决策过程基于仿真环境将铁路调度方案生成问题转化为序贯决策问题,并根据深度强化学习方法自动有效的生成铁路调度方案,提高了生成方案的效率以及效果。

58、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1