一种基于深度强化学习的行车调度方法、系统、设备及介质与流程

文档序号：32523755发布日期：2022-12-13 20:25阅读：来源：国知局

技术特征：
1.一种基于深度强化学习的行车调度方法，其特征在于，所述方法包括以下步骤：获取钢铁实际生产系统的历史状态信息；基于所述历史状态信息建立第一行车调度深度强化学习模型，并利用所述第一行车调度深度强化学习模型提供动作决策；基于钢铁生产现场的数据信息建立行车调度仿真模型，并将所述历史状态信息和所述动作决策作为所述行车调度仿真模型的驱动策略，以使所述行车调度仿真模型根据所述驱动策略输出用于优化所述第一行车调度深度强化学习模型的参数值；对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型；将所述第二行车调度深度强化学习模型部署至所述钢铁实际生产系统中，进行实时行车调度。2.根据权利要求1所述的基于深度强化学习的行车调度方法，其特征在于，对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型的过程包括：利用预先设置的数据接口传输所述第一行车调度深度强化学习模型和所述行车调度仿真模型之间的数据；所述行车调度仿真模型根据接收的钢铁实际生产系统的状态信息、实时或预先输入的动作决策信息进行运行，并返回奖惩值给所述第一行车调度深度强化学习模型进行迭代学习和训练，得到第二行车调度深度强化学习模型。3.根据权利要求1或2所述的基于深度强化学习的行车调度方法，其特征在于，将所述第二行车调度深度强化学习模型部署至所述钢铁实际生产系统前，所述方法还包括：对所述第二行车调度深度强化学习模型给与调度动作策略，并在所述行车调度仿真模型上对所述第二行车调度深度强化学习模型进行前馈验证，确定所述第二行车调度深度强化学习模型的可行性。4.根据权利要求2所述的基于深度强化学习的行车调度方法，其特征在于，在返回奖惩值给所述第一行车调度深度强化学习模型进行迭代学习和训练时，所述第一行车调度深度强化学习模型的奖励函数计算公式如下：其中，r表示奖励函数返回值；r
i
表示每个天车的奖励函数返回值；n表示当前跨中天车数量。5.根据权利要求4所述的基于深度强化学习的行车调度方法，其特征在于，每个天车的奖励函数返回值的计算公式如下：
其中，情况(1)表示当前时刻第一行车调度深度强化学习模型在执行期间对应行车没有任务，此时返回的奖惩值为0；情况(2)表示当前时刻第一行车调度深度强化学习模型在执行期间对应行车正在执行任务，此时返回的奖惩值为式中，t
i
是当前行车任务结束的时刻，t
min_i
是当前行车正在进行任务的推荐时间段的最早时间，γ0是第一权重值；情况(3)表示当前时刻第一行车调度深度强化学习模型在执行期间对应行车已执行完任务，此时返回的奖惩值为r_finish
i
。6.根据权利要求5所述的基于深度强化学习的行车调度方法，其特征在于，当返回的奖惩值为r_finish
i
时，r_finish
i
的计算公式如下：其中，t
max_i
表示当前行车正在进行的任务的推荐时间段的最晚时间；β
i
表示第二权重值；a
i
表示超出推荐时间段完成任务的惩罚常数值；b
i
表示奖励常数值。7.一种基于深度强化学习的行车调度系统，其特征在于，所述系统包括有：信息采集模块，用于获取钢铁实际生产系统的历史状态信息；动作决策模块，用于根据所述历史状态信息建立第一行车调度深度强化学习模型，并利用所述第一行车调度深度强化学习模型提供动作决策；优化模块，用于基于钢铁生产现场的数据信息建立行车调度仿真模型，并将所述历史状态信息和所述动作决策作为所述行车调度仿真模型的驱动策略，以使所述行车调度仿真模型根据所述驱动策略输出用于优化所述第一行车调度深度强化学习模型的参数值；训练模块，用于对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型；行车调度模块，用于将所述第二行车调度深度强化学习模型部署至所述钢铁实际生产系统中，进行实时行车调度。8.根据权利要求7所述的基于深度强化学习的行车调度系统，其特征在于，所述训练模块对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型的过程包括：利用预先设置的数据接口传输所述第一行车调度深度强化学习模型和所述行车调度仿真模型之间的数据；所述行车调度仿真模型根据接收的钢铁实际生产系统的状态信息、实时或预先输入的动作决策信息进行运行，并返回奖惩值给所述第一行车调度深度强化学习模型进行迭代学习和训练，得到第二行车调度深度强化学习模型。9.一种基于深度强化学习的行车调度设备，其特征在于，包括：处理器；和，存储有指令的计算机可读介质，当所述处理器执行所述指令时，使得所述设备执行如
权利要求1至6中任意一项所述的基于深度强化学习的行车调度方法。10.一种计算机可读介质，其特征在于，其上存储有指令，所述指令由处理器加载并执行如权利要求1至6中任意一项所述的基于深度强化学习的行车调度方法。

技术总结
本申请提供一种基于深度强化学习的行车调度方法、系统、设备及介质，包括：基于历史状态信息建立第一行车调度深度强化学习模型，并利用第一行车调度深度强化学习模型提供动作决策；建立行车调度仿真模型，并将历史状态信息和动作决策作为行车调度仿真模型的驱动策略，以使行车调度仿真模型根据驱动策略输出用于优化第一行车调度深度强化学习模型的参数值；对第一行车调度深度强化学习模型和行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型，并部署至钢铁实际生产系统中，进行实时行车调度。本申请通过使用仿真模拟实际生产周期，实现了对长时间周期环境的快速训练，减少了模型开发周期，加快了模型上线速度。线速度。线速度。

技术研发人员：徐林伟陈正国卢义张飞徐超琼丁昭祥何洪
受保护的技术使用者：中冶赛迪信息技术（重庆）有限公司
技术研发日：2022.10.14
技术公布日：2022/12/12

完整全部详细技术资料下载

当前第2页1 2