本发明涉及智能排产,尤其涉及一种排产方法、装置、设备及存储介质。
背景技术:
1、随着市场竞争的激烈,加工生产工厂需要根据企业制造资源的实际能力和设备产能、库存、生产进度的动态变化来调整,制造过程的排产优化和监控成为提高企业核心竞争力不可回避的环节。
2、在生产规模和产品复杂度不断增大的情况下,为解决生产调度的排产排程问题,原始的人工调度方法已经越来越难以满足要求,而传统解决排产调度的求解器求解和遗传算法方法,存在排产调度计算时间过长及设备均衡利用率低等问题。
技术实现思路
1、本发明提供了一种排产方法、装置、设备及存储介质,以解决相关技术中排产调度计算时间过长及设备均衡利用率低的技术问题。
2、根据本发明的一方面,提供了一种排产方法,包括:
3、确定待排产信息;其中,所述待排产信息用于指示待排产设备的信息以及待排产工件的信息;
4、根据所述待排产信息初始化俄罗斯方块线上环境;
5、根据预先训练好的排产模型与所述俄罗斯方块线上环境进行交互,得到所述排产模型输出的每个待排产设备的排产计划;其中,所述排产模型为利用深度强化学习方法、以提高设备均衡利用率为指标训练得到的模型,每个待排产设备的排产计划包括所述待排产设备对应的待排产工件的信息以及各待排产工件的加工顺序。
6、如上所示的方法中,所述根据预先训练好的排产模型与所述俄罗斯方块线上环境进行交互,得到所述排产模型输出的每个待排产设备的排产计划,包括:
7、获取所述俄罗斯方块线上环境根据所述待排产信息输出的中间状态信息;
8、向所述排产模型输入所述中间状态信息,获取所述排产模型根据所述中间状态信息生成的策略动作,向所述俄罗斯方块线上环境反馈所述策略动作,获取所述俄罗斯方块线上环境根据所述策略动作输出的新的中间状态信息,重复执行此步骤,直至所有待排产工件均被排产,根据所述排产模型输出的策略动作确定每个待排产设备的排产计划。
9、如上所示的方法中,所述中间状态信息包括:当前已排产工件的类型、当前已排产工件的位置、各待排产设备的负荷、当前未排产工件的信息以及当前上一个动作的信息;
10、所述策略动作包括:选取的未完成排产的工件的标识以及所述未完成排产的工件对应的待排产设备的标识。
11、如上所示的方法中,所述待排产设备的信息包括所述待排产设备的数量和类型,所述待排产工件的信息包括所述待排产工件的数量和类型;
12、所述待排产信息还包括:待排产设备与待排产工件的映射关系。
13、如上所示的方法中,当两个加工顺序相邻的待排产工件的类型不同时,所述排产计划还包括:所述两个加工顺序相邻的待排产工件之间的换型操作。
14、如上所示的方法中,在所述根据预先训练好的排产模型与所述俄罗斯方块线上环境进行交互,得到所述排产模型输出的每个待排产设备的排产计划之前,所述方法还包括:
15、根据训练用排产信息,初始化俄罗斯方块训练环境;
16、获取所述俄罗斯方块训练环境根据所述训练用排产信息输出的新训练中间状态信息;
17、向训练排产模型输入所述新训练中间状态信息,获取随机生成的训练策略动作或者获取所述训练排产模型根据所述新训练中间状态信息生成的训练策略动作,向所述俄罗斯方块训练环境反馈所述训练策略动作,获取所述俄罗斯方块训练环境根据所述训练策略动作输出的更新的新训练中间状态信息,所述训练排产模型根据所述俄罗斯方块训练环境输出的训练中间特征,采用随机梯度下降算法以设定的频率更新,重复执行此步骤,直至所述训练排产模型满足预设设计要求,将满足预设设计要求时的训练排产模型作为所述排产模型;
18、其中,所述训练中间特征包括:新训练中间状态信息、老训练中间状态信息、奖励值以及当前动作策略,所述奖励值根据设备均衡利用率确定。
19、如上所示的方法中,所述奖励值根据如下方式计算:
20、在当前动作策略之前的设备均衡利用率u1大于当前动作策略之后的设备均衡利用率u2时,所述奖励值为第一值;其中,u1=(老训练中间状态的换型次数*老训练中间状态的设备负荷差)/老训练中间状态下已排产工件数,u2=(新训练中间状态的换型次数*新训练中间状态的设备负荷差)/新训练中间状态下已排产工件数;
21、在u1等于u2时,所述奖励值为第二值;
22、在u1小于u2时,所述奖励值为第三值;
23、其中,所述第一值、第二值与第三值的大小关系为:第一值>第二值>第三值。
24、根据本发明的另一方面,提供了一种排产装置,包括:
25、第一确定模块,用于确定待排产信息;其中,所述待排产信息用于指示待排产设备的信息以及待排产工件的信息;
26、初始化模块,用于根据所述待排产信息初始化俄罗斯方块线上环境;
27、第二确定模块,用于根据预先训练好的排产模型与所述俄罗斯方块线上环境进行交互,得到所述排产模型输出的每个待排产设备的排产计划;其中,所述排产模型为利用深度强化学习方法、以提高设备均衡利用率为指标训练得到的模型,每个待排产设备的排产计划包括所述待排产设备对应的待排产工件的信息以及各待排产工件的加工顺序。
28、根据本发明的又一方面,提供了一种电子设备,所述电子设备包括:
29、至少一个处理器;以及
30、与所述至少一个处理器通信连接的存储器;其中,
31、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的排产方法。
32、根据本发明的再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的排产方法。
33、本发明实施例的技术方案,通过俄罗斯方块游戏与利用深度强化学习方法、以提高设备均衡利用率为指标预先训练得到的排产模型交互,得到排产模型输出的每个待排产设备的排产计划,实现了深度强化学习结合俄罗斯方块游戏的排产算法技术在生产排产领域的应用。由于在训练排产模型时,是利用深度强化学习方法、以提高设备均衡利用率为指标训练得到的模型,因此,在根据该排产模型排产时,输出的排产计划可以提高设备均衡利用率,同时,由于在排产过程中采用了人工智能,排产的效率也较高。
34、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种排产方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据预先训练好的排产模型与所述俄罗斯方块线上环境进行交互,得到所述排产模型输出的每个待排产设备的排产计划,包括:
3.根据权利要求2所述的方法,其特征在于,所述中间状态信息包括:当前已排产工件的类型、当前已排产工件的位置、各待排产设备的负荷、当前未排产工件的信息以及当前上一个动作的信息;
4.根据权利要求1至3任一项所述的方法,其特征在于,所述待排产设备的信息包括所述待排产设备的数量和类型,所述待排产工件的信息包括所述待排产工件的数量和类型;
5.根据权利要求1至3任一项所述的方法,其特征在于,当两个加工顺序相邻的待排产工件的类型不同时,所述排产计划还包括:所述两个加工顺序相邻的待排产工件之间的换型操作。
6.根据权利要求1至3任一项所述的方法,其特征在于,在所述根据预先训练好的排产模型与所述俄罗斯方块线上环境进行交互,得到所述排产模型输出的每个待排产设备的排产计划之前,所述方法还包括:
7.根据权利要求6所述的方法,其特征在于,所述奖励值根据如下方式计算:
8.一种排产装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的排产方法。