1.一种基于深度强化学习的重载铁路优化调度方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题,并基于强化学习方法解决所述序贯决策问题得到铁路调度方案,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据预设步长由每个所述列车初始的动作空间开始,依次基于强化学习方法根据所述股道段集合、作业类型集合和所述调度约束条件确定每个所述列车对应的多个具有顺序的动作空间,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据当前仿真步的观测空间基于强化学习方法根据所述股道段集合和所述作业类型集合确定下一仿真步对应的动作空间,包括:
5.根据权利要求3或4所述的方法,其特征在于,所述观测空间包括实际观测空间和辅助掩码空间,所述实际观测空间包括列车位置和列车装载情况,所述辅助掩码空间包括所述列车在下一仿真步不可行的股道段和所述列车在下一仿真步不可选的作业类型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述动作空间确定每个所述列车对应的观测空间,包括:
7.根据权利要求2-6中任意一项所述的方法,其特征在于,所述铁路调度方案中还包括每个所述列车对应的货物周转量;
8.根据权利要求7所述的方法,其特征在于,每个所述动作空间对应的货物周转量根据所述列车对应的运输距离和货物量确定,所述运输距离根据所述动作空间确定。
9.根据权利要求1-8中任意一项所述的方法,其特征在于,所述股道段集合中包括所述列车集合中每个所述列车能够行驶的股道段的标识,所述作业类型集合中包括通过作业、接车作业、发车作业、装车作业和卸车作业。
10.一种基于深度强化学习的重载铁路优化调度装置,其特征在于,所述装置包括:
11.一种电子设备,其特征在于,包括:
12.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至9中任意一项所述的方法。