基于深度强化学习的重载铁路优化调度方法和装置

文档序号：39461772发布日期：2024-09-24 20:04阅读：来源：国知局

技术特征：

1.一种基于深度强化学习的重载铁路优化调度方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题，并基于强化学习方法解决所述序贯决策问题得到铁路调度方案，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预设步长由每个所述列车初始的动作空间开始，依次基于强化学习方法根据所述股道段集合、作业类型集合和所述调度约束条件确定每个所述列车对应的多个具有顺序的动作空间，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据当前仿真步的观测空间基于强化学习方法根据所述股道段集合和所述作业类型集合确定下一仿真步对应的动作空间，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述观测空间包括实际观测空间和辅助掩码空间，所述实际观测空间包括列车位置和列车装载情况，所述辅助掩码空间包括所述列车在下一仿真步不可行的股道段和所述列车在下一仿真步不可选的作业类型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述动作空间确定每个所述列车对应的观测空间，包括：

7.根据权利要求2-6中任意一项所述的方法，其特征在于，所述铁路调度方案中还包括每个所述列车对应的货物周转量；

8.根据权利要求7所述的方法，其特征在于，每个所述动作空间对应的货物周转量根据所述列车对应的运输距离和货物量确定，所述运输距离根据所述动作空间确定。

9.根据权利要求1-8中任意一项所述的方法，其特征在于，所述股道段集合中包括所述列车集合中每个所述列车能够行驶的股道段的标识，所述作业类型集合中包括通过作业、接车作业、发车作业、装车作业和卸车作业。

10.一种基于深度强化学习的重载铁路优化调度装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：

12.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至9中任意一项所述的方法。

技术总结
本公开涉及一种基于深度强化学习的重载铁路优化调度方法和装置，获取包括至少一个列车的列车集合，以及至少一个铁路轨道股道段的股道段集合。确定预设的作业类型集合以及调度约束条件，通过马尔科夫决策过程基于股道段集合、作业类型集合和调度约束条件生成用于确定铁路调度方案的序贯决策问题，并基于强化学习方法解决序贯决策问题得到铁路调度方案，其中包括每个列车的调度策略。本公开通过确定列车集合、股道段集合、作业集合以及约束条件的方式建立仿真环境，并根据马尔科夫决策过程基于仿真环境将铁路调度方案生成问题转化为序贯决策问题，并根据深度强化学习方法自动有效的生成铁路调度方案，提高了生成方案的效率以及效果。

技术研发人员：董炜,吴涛,张统帅,叶昊,江明,于晓泉,刘雷,孙新亚,吉吟东
受保护的技术使用者：清华大学
技术研发日：
技术公布日：2024/9/23

完整全部详细技术资料下载

当前第2页1 2