一种基于近端策略优化算法的精密装备装调生产线在线调度方法及系统

文档序号：39331118发布日期：2024-09-10 11:38阅读：63来源：国知局

本发明属于车间调度相关，更具体地，涉及一种基于近端策略优化算法的精密装备装调生产线在线调度方法及系统。

背景技术：

1、随着制造业规模的不断扩大和产业的不断发展，制造业生产方式正在面临重塑。伴随着物联网、深度学习等人工智能技术的发展，新的产业革命正推动新型制造模式——智能制造。作为智能制造的核心之一，智能优化决策驱动生产活动执行，对企业生产效率有着重要影响。生产调度就是在一定条件下把有限资源在合理的时间内分配给不同的任务，从而满足优化决策的日标，是制造企业生产计划和控制的关键核心技术。

2、在实际的精密装备装调生产线生产过程中，经常会出现动态扰动，通常由管理人员根据经验来指导其在线调度，效率低下且难以形成高效的排产方案。强化学习(reinforcement learning,rl)的目标是让智能体通过在环境中试错进而进行学习，从而根据环境实时的状态采取最合适的行动。在线调度问题是在时间上连续的序贯决策过程，其特点是在每次进行决策时只需考虑前一次决策的生产线环境状态，进行实时监测及决策。

3、随着计算机科学的发展，深度神经网络也被引入到强化学习领域用来处理连续状态空间和动作空间，即深度强化学习方法。通过引入神经网络，不仅有效处理了连续状态空间和动作空间的挑战，而且显著提高了模型的泛化能力和学习效果，增加了更灵活、智能的决策能力。面对带有多元扰动的精密装备装调生产线调度问题，传统的求解方法，难以取得满意的解。因此，亟需一种基于近端策略优化算法的考虑多元扰动的精密装备装调生产线在线调度方法能够针对多型号装备混线生产过程进行智能排产应对七类扰动。

技术实现思路

1、针对现有技术的以上缺陷或改进需求，本发明提供了一种基于近端策略优化算法的精密装备装调生产线在线调度方法及系统，解决带有扰动的生产线的调度问题。

2、为实现上述目的，按照本发明的一个方面，提供了一种基于近端策略优化算法的精密装备装调生产线在线调度方法，该方法包括下列步骤：

3、a智能体模型离线训练过程

4、s1对待调度生产线的生产线状态和时间进行初始化，在智能体中构建智能体模型；

5、s2将待加工产品待加工的首工序放入任务池中，判断待调度生产线当前是否存在扰动事件，若存在，根据扰动事件影响的待加工产品的待加工工序，调整和更新所述任务池中的任务，若不存在，判断当前任务池中是否有待分配的任务，如果有，进入步骤s3，如果无，进入步骤s4；

6、s3所述智能体模型根据当前的生产线状态，按照预设的资源联合分配原则将待分配的任务分配给相应的拓扑单元，各个拓扑单元加工完成当前任务后计算决策回报函数，根据该决策回报函数更新所述智能体模型；

7、s4更新所述生产线状态和时间，判断是否完成所有待加工产品的加工，如果有，返回步骤s2，如果无，结束；

8、b智能体模型在线应用

9、采集待调度生产线的生产线状态，将生产线状态输入所示智能体模型中，输出所述任务池中各个任务分配的拓扑单元，拓扑单元按照该输出结果加工待加工产品，以此实现生产线的在线调度。

10、进一步优选地，在步骤s1中，所述生产线状态包括：产品完成率、各拓扑单元的利用率、任务池中产品加工任务处理时间、任务池中产品剩余任务量、各拓扑单元缓冲区产品加工等待率、各拓扑单元缓冲区剩余产品量和各拓扑单元缓冲区产品加工时间。

11、进一步优选地，在步骤s2中，所述扰动事件包括新订单插入、拓扑单元发生故障或修复、工人发生请假或复工、工人离职或入职、物料延迟、任务暂停和拓扑单元增加。

12、进一步优选地，在步骤s3中，所述预设的资源联合分配原则为下列规则之一：

13、(1)最低负荷拓扑单元：分配利用率最小的拓扑单元

14、ms＝argminutik

15、其中，ms是选择的拓扑单元，k是拓扑单元编号k∈m，m是可用拓扑单元的集合，utik是拓扑单元mk的利用率；

16、(2)最短处理时间拓扑单元：分配加工时间最短的拓扑单元

17、ms＝argmintijk

18、其中，ms是选择的拓扑单元，k是拓扑单元编号k∈mij，mij是编号为i的产品的第j道工序的可选加工拓扑单元集合，tijk是编号为i的产品的第j道工序(待加工工序)在拓扑单元mk上的加工时间；

19、(3)最长处理时间拓扑单元：分配加工时间最长的拓扑单元

20、ms＝argmaxtijk

21、其中，ms是选择的拓扑单元，k是拓扑单元编号k∈mij，mij是编号为i的产品的第j道工序的可选加工拓扑单元集合，tijk是编号为i的产品的第j道工序(待加工工序)在拓扑单元mk上的加工时间；

22、(4)最短处理时间工人：分配加工时间最短的工人

23、ws＝argmintijm

24、其中，ws是选择的加工工人，m是加工工人编号m∈wij，wij是编号为i的产品的第j道工序的可选加工工人集合，tijm是编号为i的产品的第j道工序(待加工工序)需要工人wm辅助的加工时间；

25、(5)最低负荷工人：分配累计工作时间最少的工人

26、ws＝argminwtm

27、其中，ws是选择的加工工人，m是加工工人编号m∈wij，wij是编号为i的产品的第j道工序的可选加工工人集合，wtm是工人wm累计工作的时间。

28、进一步优选地，在步骤s3中，所述待分配的任务分配给相应的拓扑单元后，还需判断该拓扑单元是否可以进行批量处理，如果是，按照预设的选择规则选择拓扑单元当前需要加工的任务，如果否，拓扑单元按照任务分配的先后顺序对分配的任务进行处理。

29、进一步优选地，所述预设的选择规则为下列规则之一：选择阶段缓冲区内数量最多的产品类型进行加工、选择阶段缓冲区内数量最少的产品类型进行加工、选择阶段缓冲区内到达最早的产品类型进行加工、选择阶段缓冲区内到达最晚的产品类型进行加工、选择阶段缓冲区内加工时间最短的产品类型进行加工和选择阶段缓冲区内加工时间最长的产品类型进行加工。

30、进一步优选地，在步骤s3中，所述决策回报函数按照下列关系式进行：

31、r(t)＝makespan(t-1)-makespan(t)

32、其中，t是决策时刻，r(t)是决策时刻t决策后得到的奖励回报，makespan(t)是决策时刻t决策后，已安排的产品工序的加工完成时间，makespan(t-1)是上一决策时刻(t-1)后，已安排的产品工序的加工完成时间。

33、进一步优选地，在步骤s3中，所述更新所述智能体模型采用近端策略优化算法。

34、进一步优选地，所述智能体模型采用基于循环神经网络的模型。

35、按照本发明的另一个方面，提供了一种基于近端策略优化算法的精密装备装调生产线在线调度系统，该在线调度系统中设置有执行器，该执行器执行上述所述的基于近端策略优化算法的精密装备装调生产线在线调度方法。

36、总体而言，通过本发明所构思的以上技术方案与现有技术相比，具备下列有益效果：

37、1.本发明所提供的带有多元扰动响应机制的精密装备装调生产线智能体系统，以最小化产品订单完工时间为目标，设计了结合产品加工信息和生产线资源信息的产品资源多重实时特征，进行智能体决策，来实现考虑多元扰动响应机制的精密装备装调生产线的在线调度，能够提高生产线的生产效率；

38、2.本发明提供的考虑工人和拓扑单元的资源联合分配规则，可以直接用于智能体决策，为不同类型的加工工序制定排产计划，并分配加工资源，可以提高调度的灵活性；

39、3.本发明提供的智能体模型，设计了基于循环神经网络的架构，这一设计使模型能够更有效地处理资源分配任务，通过动态关注特定信息而实现更精准的决策。循环神经网络的引入进一步增强了模型对时间序列的建模能力，提高了整体性能和适应性；不仅使智能体更具智能和灵活性，还有助于提高智能体调度系统的效率，智能体模型提出了一种以订单完工时间为基准的智能体的决策回报函数，在所有产品加工完成后，得到的累计回报等于订单完工时间的负值，通过最大化累计回报取得效果更优的方案；

40、4.本发明所提供的智能体多元扰动响应机制，能够高效利用生产线实时状态信息，实时响应七类扰动，将被扰动的产品工序重新加入任务池，智能决策，制定排产计划，避免给不能够加工的加工资源分配加工任务，更符合实际生产场景，使生产系统能够稳定高效的运转。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李新宇,柳再为,卢治兵,王喆,秦琰,崔航浩,李育鑫,周金龙
技术所有人：华中科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。