一种基于强化学习的分布式阻塞流水车间调度优化系统

文档序号：35347926发布日期：2023-09-07 21:12阅读：58来源：国知局

本发明属于制造业分布式生产调度领域，具体涉及一种基于强化学习的分布式阻塞流水车间调度优化系统。

背景技术：

1、在现有技术中，由原来的单厂制造转变为多厂协同生产，分布式生产环境正变得越来越重要，因为它们为企业提供更高质量、更短的交货期和更低成本的产品。生产调度是制造系统的组成部分，直接影响企业的效率和竞争力。尤其是在企业制造过程中有着重要应用的分布式阻塞流水作业调度问题，引起了众多研究者的关注。分布式阻塞流水车间调度问题(distributed blocking flowshop problem,dbfsp)是传统阻塞流水车间调度问题的推广，其核心是将工件分配到不同的工厂，并在工厂内完成生产资源的分配和工艺调度，以确保较高的生产率和资源利用率。pfsp已被证明是一个np-hard问题。dbfsp在分布式置换流水车间的基础上考虑了机器之间无缓冲区的条件。因此，dbfsp也是一个np-hard问题。

2、分布式车间调度问题的求解方法主要是近似方法。精确算法求解复杂的组合优化问题时，由于问题解空间规模大，计算时间长，局限于实现小规模问题的求解，是一个具有挑战性的问题。对于大规模问题，启发式、元启发式算法和混合算法被广泛应用，其中启发式算法的优点是能够在相对较短的时间内快速获得调度解，但解的质量通常难以保证。然而，元启发式算法能够在可接受的时间框架内获得高质量的近似最优解。dbfsp允许在各种生产调度系统中建模，在生产制造系统的某些加工阶段，机器之间没有缓冲区，这意味着在一台机器上完成的工件在下一台机器可用之前必须停留在该机器上，并阻塞自身，由于阻塞流水车间调度的强大约束，制造完工时间被大幅度推迟。因此，有必要通过最大限度地减少机器阻塞和空闲时间来提高生产率。最大限度地缩短完工时间是生产行业的一个关键实践目标。在动态生产环境下，如何统一平衡生产企业之间的资源使用，包括降低产品库存和成品周转率，被认为具有现实意义。因此，有必要扩展现有的研究以获得有效的调度方法来解决生产环境中的调度问题。dbfsp的甘特图描述如图1所示。

3、元启发式算法获得高质量解的能力在很大程度上取决于扰动算子和局部搜索方法的设计和选择。本研究根据问题的特点设计了不同的搜索算子，每个搜索算子在搜索空间的不同区域具有不同程度的搜索能力。元启发式可以通过在搜索过程的不同阶段选择具有不同特征的搜索算子，有效地平衡算法的勘探和开发能力。在元启发式算法搜索近似最优解的过程中，需要考虑搜索算子的历史性能，以便动态地选择和采用最合适的算子。q-learning算法作为机器学习算法的一个分支，在解决调度问题方面取得了一系列研究成果。机器学习技术服务于元启发式算法，从整个搜索过程中产生的数据中提取知识规则。合理地将知识整合到种群进化不同阶段的搜索过程中，可以指导算法做出最优决策，有效提高解的质量。

4、ss运用“分散-收敛集聚”的智能迭代机制，在参考集中构建高质量和多样性的解，并通过子集合并方法和参考集更新方法，求取问题的全局最优解或满意解。ss框架包括五个系统子方法，分别为多样化生成方法、解改进方法、参考集更新方法、子集生成方法和解组合方法。整个框架非常灵活，框架中的每个子方法都可以根据实际问题的复杂程度或不同需求用不同的方法来实现和替换。ss算法用于多种工程优化问题的求解，求解过程简单，使用ss算法求解分布式阻塞流水车间调度问题具有一定的研究基础和优势。

技术实现思路

1、本发明提供了一种基于强化学习的分布式阻塞流水车间调度优化系统，以最小化最大完工时间为优化目标，解决分布式阻塞流水车间调度问题，该方法能够优化分布式阻塞流水车间调度系统的运行效率和性能。

2、为了实现上述目的，本发明提供以下技术方案：

3、一种基于强化学习的分布式阻塞流水车间调度优化系统，其特征在于：包括调度序列多样化初始化模块、基于q-learning的改进模块和基于邻域重构的局部搜索模块。

4、优选的，所述调度序列多样化初始化模块设计了一种多样化初始种群生成策略，首先，随机生成一个初始化序列以保证初始序列的多样性；然后，前f(f为工厂数量)个工件被依次取出，放置在各个工厂的第一个位置，剩下的工件被按序依次取出，尝试插入到所有工厂中最好的位置，重复上述过程，直至生成一定数量的个体，组成种群。后续所有的操作均是对种群中的个体进行操作。

5、具体的，首先，确定每个工厂的第一个加工工件，随机排序后的前f个工件依次插入每个工厂的第一个位置；其次，为每个工厂选择要在最后一台机器上处理的工件，根据最后一台机器上工件的加工处理时间，所有剩余工件按升序排列，排序后的前f个工件插入每个工厂的最后一个位置；每个工厂执行基于neh启发式的插入操作，除每个工厂的第一个和最后一个工件外，所有剩余工件执行基于neh的邻域插入搜索。使系统在求解分布式阻塞流水车间调度问题时能够获得更高精度的结果。

6、优选的，所述基于q-learning的改进模块设计了一种基于强化学习机制的全局搜索机制，根据搜索状态和算子的历史经验自适应选择搜索算子。与传统的选择单一搜索算子相比，根据个体的实时状态自适应选择搜索算子可进行不同深度的探索，提高了算法摆脱局部最优的能力。

7、具体的，设计了五种具有邻域知识的基于邻域扰动的策略集，策略集中的邻域扰动算子有两种类型，第一种是基于关键工厂(cfac)内部的操作，另一种是关键工厂与其他工厂之间的操作；q-learning算法在refset更新过程中的每一步选择最合适的扰动策；动作集(a＝n1,n2,…,n5)被定义为具有五种不同扰动强度的邻域搜索算子。kclss和强化学习(rl)的组合模型如图2所示，学习模块如图3所示。最后一种邻域扰动机制是一种基于工件块的搜索算子，其目的是增加扰动强度。五种邻域结构如图4所示。

8、具体的，为了优化工件序列，采用了5种序列相关的操作；n表示工件数量，m表示机器数量；randfac是一个随机工厂，cfac是关键工厂；

9、具体操作过程描述如下：

10、n1(insert_randfac_cfac)：在cfac和随机选择的工厂randfac之间执行插入操作；首先，随机选择一个非关键工厂，然后，依次取出cfac中每个工件重新插入到randfac中的所有位置，记录产生最佳cmax的位置；

11、n2(swap_randfac_cfac)：在cfac和随机选择的工厂randfac之间执行交换操作；首先，随机选择一个非关键工厂，然后，依次取出cfac中每个工件与randfac中每个位置的工件交换，记录产生最佳cmax的位置；

12、n3(insert_cfac)：在cfac中随机选择一个工件，并将其插入该工厂的所有可能位置，如果插入后cfac的cmax优于当前解，则保留新解；

13、n4(swap_cfac)：在cfac中随机选择两个工件，然后交换，如果在交换后cmax得到改进，则接受新解；

14、n5(insert_block_cfac)：首先，在cfac中随机选择一个起始位置，提取由η(η＝rand[2,4])个连续工件组成的工件块并从原始位置移除，然后将该工件块重新插入cfac的最佳位置。

15、采用了改进的ε-greedy策略，在种群迭代进化的早期阶段，以更高的概率探索新的行为，随着训练时间的增加，智能体从探索新的动作转向选择目前能获得最大回报的动作，采用这种策略的好处是确保智能体能够探索更广的搜索区域，同时保留一定的深度探索能力；改进后的策略具体表述如下：

16、

17、

18、

19、其中a*表示在st状态下q值最大的动作，a(st)表示st状态中所有可选动作的集合，prand是服从标准正态分布的样本值，tmax表示停止标准(tmax＝10×n×m×f)。

20、优选的，所述基于邻域重构的局部搜索模块是一种基于路径重连的深度局部搜索策略。路径重连策略是探索两个给定解的邻域的一种有效搜索方法，在该阶段被应用以生成一个新的有价值的解。这里，选择当前最好的个体cbest与当前个体ci进行比较。对当前个体ci执行插入或交换转换为cbest，并在每次执行运算操作后产生一个中间个体。最后，对所有中间个体进行评估，并保留最优个体。

21、具体的，所述基于邻域重构的深度局部搜索策略是为了增强局部优化性能，提出了一种基于路径重连的邻域重构策略，对当前个体以及当前种群中最优个体执行重构操作，针对关键工厂中每个工件，依次取出重新插入到该工厂所有可能位置，重构邻域结构如图5所示。

22、具体的，邻域重构的局部搜索方法是解决流水车间调度问题的一种常用方法，其基本思想是在当前解的邻域中搜索更优的解，直到无法找到更好的解为止；首先，选取当前种群最优个体，依次取出每一个工件，然后，通过插入操作向当前最优解转换，生成当前的邻域解，在当前邻域解中搜索更好的解，即找到使目标函数值最小的邻域解。如果找到更优的解，则更新当前解为邻域解，重复上述步骤，直至搜索结束。

23、本发明具有以下有益效果：

24、(1)本发明在分散搜索算法中引入了多个邻域扰动算子。邻域结构是针对问题的特点设计的，以提高局部搜索的效率。在整个搜索过程中自适应地选择邻域扰动策略。

25、(2)q-learning算法用于动态选择搜索策略。基于搜索状态和每个扰动算子的历史反馈信息，选择合适的扰动算子，以进一步平衡勘探和开发能力。

26、(3)重构的邻域结构被设计用于增强局部搜索能力。ss子方法之间的协同进化可以有效地提高种群的质量。

27、(4)本发明逻辑简单、易于实现和易于扩展，可以将优化器扩展到满足当前智能制造生产领域中的大多数调度问题中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵付青周刚张建林朱宁宁许天鹏宋厚彬姚毓凯
技术所有人：兰州理工大学
我是此专利的发明人

上一篇：一种算网智融合的算力资源自适应动态调度方法及系统与流程
上一篇：离子驱动方法、装置及量子计算设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。