基于深度强化学习的动态云制造服务组合方法和系统

文档序号：36224661发布日期：2023-11-30 12:15阅读：31来源：国知局

本发明涉及云制造，具体涉及一种基于深度强化学习的动态云制造服务组合方法、系统、存储介质和电子设备。

背景技术：

1、在生活质量不断提高的今天，用户对个性化产品的需求也越来越大。然而，由于资源有限，单个企业的制造资源和能力已经不能满足用户的需求。为解决这一问题，企业需要通过共享制造资源和能力进行有效地协作，因而提出一种面向服务的智能制造新模式——云制造。在云制造平台中，企业共享的制造资源和能力被封装成服务，通过互联网提供给用户选择。服务组合是指将多个服务组合成增值服务以完成一项或者一组任务的过程。云制造服务组合中每个子任务都存在大规模候选服务集，并且需要优化多个目标以满足用户需求。

2、针对云制造服务组合优选问题，其精确解求解难，故推出启发式算法和元启发式智能优化算法，如遗传算法、蚁群优化算法和粒子群优化算法等。这些方法虽然促进了云制造服务组合问题的研究工作，但难以解决动态随机资源约束下多任务调度问题，状态空间较大时无法计算，且易受参数调整的限制、陷入局部最优解和缺乏动态适应性。基于此，随着深度强化学习将强化学习的决策能力与深度学习感知能力融合在一起，一些学者认为深度强化学习(例如强化学习中的q学习算法)有助于解决动态随机到达问题，利于提供云制造服务组合方案的选择。

3、然而，传统的q学习算法难以适用于连续状态以及繁多状态下搜索困难、存储困难的问题，导致无法挑选出最优组合方案。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本发明提供了一种基于深度强化学习的动态云制造服务组合方法、系统、存储介质和电子设备，解决了动态环境下的大规模服务组合的技术问题。

3、(二)技术方案

4、为实现以上目的，本发明通过以下技术方案予以实现：

5、一种基于深度强化学习的动态云制造服务组合方法，包括：

6、s1、获取制造任务，并分解为一系列有序的制造子任务；

7、s2、根据云制造平台中各个制造子任务及其服务类型、候选服务，以确定状态、动作及奖励值，构建马尔科夫决策模型；

8、s3、根据所述马尔科夫决策模型，采用改进后的深度q网络算法获取云制造最优服务组合方案；其中所述深度q网络算法引入卷积长短期记忆网络。

9、优选的，所述s2中的马尔科夫决策模型包括：

10、(1)状态st：在第t个决策时刻第i个制造子任务进行服务选择的状态，表示为其中st包含当前制造任务中制造子任务顺序的标识符，表示智能体在第t个决策时刻下观测到的第i个制造子任务，表示在第t个决策时刻可供第i个制造子任务能进行服务选择的服务候选集，表示在第t个决策时刻第i个制造子任务能进行服务选择的m个候选服务。

11、(2)状态空间s：所有可行状态值的集合；

12、(3)服务：包含两种状态{0,1}，其中0表示服务未被选择执行制造子任务，1表示服务被选择执行制造子任务；

13、(4)动作表示智能体在第t个决策时刻观测到的第i个制造子任务进行服务选择的动作，表示为

14、(5)动作空间a：每一个制造子任务所需制造服务类型对应的候选服务集，表示为：

15、

16、其中，表示在第t个决策时刻第i个制造子任务可进行服务选择的第j个候选服务；

17、(6)奖励函数r：智能体于第t个决策时刻观测得到状态st后，第i个制造子任务执行服务选择动作获得的奖励值

18、(7)状态转移模型：其中st+1表示智能体在第t+1个决策时刻第i个制造子任务的服务选择状态；

19、(8)策略π：s→a是指智能体依据当前的服务选择状态st，将其映射为要执行的服务选择动作表示为其中argmax q表示会产生最大输出值对应的参数。

20、优选的，每一个制造子任务存在3种服务选择状态值，表示为{-1,0,fi}；

21、其中，-1表示制造子任务处于待处理状态；0表示制造子任务完成；fi表示制造子任务正在处理中，其状态值由制造任务最大可能剩余完工时间表示，即在不支付任何迟到成本的情况下完成制造任务的剩余时间单位的数值表示。

22、优选的，所述奖励值的获取过程如下：

23、获取并归一化所有候选服务的服务质量非功能属性，其中所述服务质量非功能属性包括服务成本、服务时间、服务可靠性、信誉度和可用性；

24、根据各所述服务质量非功能属性的重要程度，构建判断矩阵求解各属性的参数权重；

25、获取制造子任务所选制造服务的服务质量属性值加权和，作为在状态st下智能体执行动作所得到的奖励值:

26、

27、其中，ωt，ωc，ωrel，ωrep，ωusa对应表示服务成本、服务时间、服务可靠性、信誉度和可用性的权重，对应表示归一化后的服务成本、服务时间、服务可靠性、信誉度和可用性的服务质量值，表示第i个制造子任务的服务质量非功能属性加权和。

28、优选的，所述s3包括：

29、s31、输入总迭代次数n_end，学习率α，随机小批量采样样本数量b，奖励折扣因子γ，智能体初始动作选择概率ε，目标q网络的参数更新频率c；

30、s32、初始化经验回放单元d；建立并初始化估计q网络和目标q网络，并将初始化的估计q网络的参数θ复制给初始化的目标q网络的参数θtar；

31、s33、初始化状态空间s和动作空间a，令t＝1；

32、s34、当前估计q网络以概率ε随机选择一个动作at∈a，否则智能体在环境中选择并执行相应动作at＝argmax q(st,at；θ)；

33、s35、获得当前状态st下，制造子任务基于服务选择动作at的奖励值同时转移至下一个状态st+1；

34、s36、将依据ε-贪婪策略探索得到的经验(st，at，rt，st+1)储存至经验回放单元d中；

35、s37、随机从经验回放单元d中抽取数量为b的随机小批量采样样本，计算当前状态下的目标q值，选择出当前状态下q值最大的动作；包括：

36、根据当前状态st和动作at，采用卷积长短期记忆神经网络输出下一状态下进行服务选择动作的估计q值；

37、

38、如果从经验回放单元d中抽取的每个样本均已遍历，st+1达到终止状态，则目标q值表示为target q＝rt-wt，其中wt为制造子任务造成的迟到成本；

39、如果存在样本尚未遍历，则利用目标q网络计算目标q值，表示为确定状态st+1下所有动作中q值最大的动作；

40、s38、构建损失函数并计算损失函数值，实施小批量半梯度下降方法更新估计q网络的参数θ；

41、s39、每隔固定更新频率c，将估计q网络的参数θ复制给目标q网络的参数θtar；

42、s310、判断是否达到最大迭代次数n_end，若是结束算法，输出所述云制造最优服务组合方案；否则，转入s33。

43、一种基于深度强化学习的动态云制造服务组合系统，包括：

44、分解模块，用于获取制造任务，并分解为一系列有序的制造子任务；

45、构建模块，用于根据云制造平台中各个制造子任务及其服务类型、候选服务，以确定状态、动作及奖励值，构建马尔科夫决策模型；

46、组合模块，用于根据所述马尔科夫决策模型，采用改进后的深度q网络算法获取云制造最优服务组合方案；其中所述深度q网络算法引入卷积长短期记忆网络。

47、一种存储介质，其存储有用于基于深度强化学习的动态云制造服务组合的计算机程序，其中，所述计算机程序使得计算机执行如上所述的动态云制造服务组合方法。

48、一种电子设备，包括：

49、一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的动态云制造服务组合方法。

50、(三)有益效果

51、本发明提供了一种基于深度强化学习的动态云制造服务组合方法、系统、存储介质和电子设备。与现有技术相比，具备以下有益效果：

52、本发明中将多任务动态云制造服务组合问题构建马尔可夫决策模型，为改进后的深度q网络算法的目标q值求解提供计算依据。较q学习算法和传统的深度q网络算法而言，引入卷积长短期记忆网络利于降低数据复杂性、防止过拟合问题、有效筛选更新关联数据，无需查表即可直接输出每个动作的q值，便于解决连续大规模云制造服务组合问题。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陆效农宋美玉彭张林张强朱克毓李刘屹张志
技术所有人：合肥工业大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。