一种基于深度强化学习的工艺路线多目标优化方法

文档序号:31442911发布日期:2022-09-07 11:14阅读:549来源:国知局
一种基于深度强化学习的工艺路线多目标优化方法

1.本发明属于工艺路线优化技术领域,具体地说是一种基于深度强化学习的工艺路线多目标优化方法。


背景技术:

2.信息时代下,产品需求愈加趋于个性化、多样化、动态化,基于用户需求的小批量定制产品市场份额逐步上升,然而现有的制造体系却很难满足这种小批量定制产品的生产需要。究其原因是定制产品在结构设计上更新频繁,同时需求变更导致工艺上的细微改动都会影响整体工艺路线的拟定,这便对工艺规划效率提出了全新的挑战,且现阶段企业对工艺资源的组织能力弱,工艺路线大多采用人工拟定,对经验依赖性强,工艺设计过程中表现出的智能化水平较低。
3.工艺规划可以视为连接产品设计与制造的桥梁,是在车间或工厂制造资源的限制下,将制造工艺知识与具体设计相结合准备其具体操作说明的活动。工艺路线优化是工艺规划的核心环节,其主要指在满足工艺中工序的约束关系下,通过合理配置加工资源、安排加工顺序以实现经济效益的最大化,由于涉及到多目标优化,故其也被证明为一类具有np-hard性质的组合优化难题。但工艺路线优化中存在着零件加工特征的加工顺序不唯一、加工特征可选用的加工方法不唯一,实现相应加工方法的加工设备不唯一等现象,因此灵活多变。而在多品种小批量产品的生产加工中,由于工艺条件多且动态变化大,工艺路线优化的不确定性因素更多,使得传统工艺路线优化方法无法满足这种动态的加工需求。而现有的解决办法一般是通过启发式算法进行多目标求解,但这类方法需要对每类问题的约束进行特殊处理,同时其求解时会将所有的工序视为整体进行优化,当面临资源动态变化时必须对解范围进行调整,并重新开始规划,不具备动态响应能力。


技术实现要素:

4.本发明针对现有技术的不足,提出一种基于深度强化学习的工艺路线多目标优化方法,在对工艺过程中的各类经济指标和低碳指标的分析后,结合工序间的优先关系建立了多目标优化模型,并利用深度强化学习在复杂建模与决策问题上的显著优势,将优化问题转化为马尔科夫决策过程,定义状态空间、动作空间和奖励函数,进一步地使用了超体积作为多目标评价指标设计基于actor-critic结构的深度强化学习方法,以对优化模型进行求解。该方法在加工资源动态变化时可以做出灵活决策,实现了高效稳定且适应性强的多目标优化决策能力,从而解决了小批量定制产品工艺路线优化时所面临的灵活多变问题。
5.本发明的目的是通过以下技术方案来实现的:
6.一种基于深度强化学习的工艺路线多目标优化方法,包括下列步骤:
7.第一步,设定工序间的四种强制性优先关系,建立以工艺总成本、工艺总时间及总碳排放作为优化目标的多目标优化函数,建立工艺路线优化模型;
8.其中,所设定的工序间的四种强制性优先约束关系为:
9.先粗后精型约束关系:即先安排粗加工类型的工序,后安排精加工类型的工序;
10.基准优先型约束关系:在面向基准特征与其依赖特征的加工时,应优先加工基准特征;
11.先面后孔型优先关系:在进行面特征及与其对应的孔特征加工时,为满足孔与平面的位置精度要求,应先加工面特征后加工孔特征;
12.主次优先型约束关系:主次特征由零部件的应用功能决定,在设计阶段根据用户需求设计零件结构,结合实际功能特性可得到主次优先关系;
13.第二步,将工艺路线优化问题转化为马尔可夫决策过程,以模拟智能体agent可实现的随机性策略与回报
14.将待加工零件工艺路线的确定视为一个完整的马尔科夫决策过程,即从第一个工序及加工资源的选择到最后一个工序和加工资源的确定,整个工艺路线包含了工序的顺序安排及其选用的加工设备,由此定义马尔科夫决策过程的状态空间、动作空间和奖励函数;
15.在状态空间定义上,引入静态变量与动态变量,静态变量是在决策过程中不会发生变化的值,而动态变量在每个决策步骤之前都会更新,具体为:
16.将每个工序下的可用机床和刀具资源以配对的形式视为一次组合,待加工工件的所有工序合计l类组合,静态变量包含了候选组合的序号id
x
、候选组合的工序mei、机床编号和刀具编号动态变量包括了当前状态s
t
下剩余的工序比例当前状态s
t
下工序mei是否已经被选择和当前状态s
t
下工序mei的先行工序剩余比例
17.一个工序可能存在若干种机床刀具组合的候选项,分别表示工序mei的第k类可选机床和该机床下第m类可选刀具;
18.动态变量表征了当前状态s
t
下剩余的工序比例,初始状态为1,其更新规则为:
[0019][0020]
式中,m
t
表示处于状态s
t
时已选择的工序数量,当m
t
等于工序总数n时,序列决策达到终止条件;
[0021]
动态变量表征了当前状态s
t
下该工序是否已经被选择,其更新规则为:
[0022][0023]
动态变量表征了当前状态s
t
下工序mei的先行工序剩余比例,当mei无先行工序时,其始终为0;当mei有先行工序时,的更新规则为:
[0024][0025]
式中,pi表示工序mei的先行工序总数,表示处于状态s
t
时pi中已被选择的工序数量,初始状态为 0或1,当为0时代表该时刻下mei可被选择;
[0026]
和的取值均在[0,1]内,能有效应对待加工工件不同的工序数量,让
模型对数据有更好的感知效果;
[0027]
在动作空间定义上,动作a
t
表示agent在当前状态s
t
下可以做出的行为,其与决策策略相关,在工艺路线优化问题中,动作集合a(s)表示状态s下所有可选的序号id
x
集合;
[0028]
在奖励函数定义上对agent的奖励将基于工艺总成本、工艺总时间和工艺总碳排放量三类优化目标进行确定,当三类目标值越低时,应对agent给予越大的奖励进行反馈;
[0029]
第三步,基于actor-critic结构的深度强化学习方法进行求解。
[0030]
优选地,第二步中,所建立的工艺总成本、工艺总时间及总碳排放目标函数为:
[0031]
工艺总成本目标函数:
[0032][0033]
式中,c
all
为总成本,c
mc
是机床变更成本指数,c
tc
是刀具变更成本指数,cm(midi)是机床midi的成本指数,c
t
(tidi)是刀具tidi的成本指数,γ1是机床变更函数,γ2是刀具变更函数,n为工序总数,tidi, tid
i+1
分别是工序i和工序i+1使用的刀具代号;midi,mid
i+1
分别是工序i和工序i+1使用的机床代号;
[0034]
其中,γ1计算公式为:
[0035][0036]
γ2计算公式为:
[0037][0038]
式中,;
[0039]
工艺总时间目标函数:
[0040][0041]
式中,是机床的加工时间,tm
mc
是机床的变更时间指数,tm
tc
是刀具的变更时间指数;
[0042]
工艺总碳排放目标函数:
[0043][0044]
式中,分别为第i个工序的切削能耗与辅助能耗,f
ele
为电能的碳排放因子。
[0045]
优选地,第三步,在actor-critic算法的训练过程,critic通过最小化价值估计与实际回报的均方误差 mse进行参数更新;actor代表的是策略函数,根据时序差分法对其进行更新。
[0046]
本发明提供的技术方案的有益效果是:本发明利用强化学习在复杂建模与动态优化上的优势,提出了一种新的状态空间、动作空间的定义方式,来将工艺路线优化问题转化
为马尔可夫决策过程;并在此基础上,协同考虑工艺过程中的各优化指标与影响因素,建立了多目标优化模型,以多目标优化评价指标对所求解进行分析与确定,以保证解集具有良好的分布性,提高优化模型的适应性和泛化性。
附图说明
[0047]
图1为工艺路线决策问题的状态空间定义示意图
[0048]
图2为actor-critic算法的训练过程
[0049]
图3工序的约束矩阵
[0050]
图4不同优化目标下的离线训练收敛过程
[0051]
图5各算法解集的箱线图
[0052]
图6不同算法的求解速度
具体实施方式
[0053]
工艺路线优化的本质是多目标优化问题,即根据零件的需求数据及工艺信息,在满足各工序之间的强制性约束下,对工序顺序和制造资源候选集进行合理安排以实现经济指标、时间指标等相关要求。但不同的工件面临着加工方式灵活多变、工艺资源复杂多样的问题,而日益增长的多品种、小批量定制产品需求更是对工艺路线的优化提出了全新的挑战。传统的工艺路线一般是依靠专家或者企业累积的经验,在对加工工件进行工艺性能分析和综合评估后才能确定。这种方法是面向大批量标准化产品的加工,因而实施周期长、灵活性差且智能化水平低,无法应对小批量定制产品多样化的市场需求和愈加复杂的企业生产计划。
[0054]
基于此,本发明首先对工艺过程中的相关优化指标进行分析,建立了多目标优化模型;然后将工艺优化问题转化为马尔可夫决策过程,定义了状态空间、动作空间,并以多目标优化评价指标对所求解进行分析与确定,以保证解集具有良好的分布性,最后采用基于actor-critic结构的深度强化学习方法进行求解,得到最终的工艺路线。以该方式使所求得的解集具有较好的分布性,且保证了模型的适应性和泛化性,整体上提升了工艺路线优化决策的智能化水平。
[0055]
具体来说,包括以下步骤:
[0056]
第一步:工艺路线优化模型建立。
[0057]
基于对工艺路线优化过程的分析,本发明梳理了工序间的四种强制性优先关系,设立了三类优化目标函数,以此建立了工艺路线优化模型。
[0058]
其中四种强制性约束关系为:先粗后精型约束关系、基准优先型约束关系、先面后孔型优先关系、主次优先型约束关系。
[0059]
其中四种强制性约束关系为:
[0060]
(1)先粗后精型约束关系:即先安排粗加工类型的工序,后安排精加工类型的工序;
[0061]
(2)基准优先型约束关系:在面向基准特征与其依赖特征的加工时,应优先加工基准特征。
[0062]
(3)先面后孔型优先关系:在进行面特征及与其对应的孔特征加工时,为满足孔与
平面的位置精度要求,应先加工面特征后加工孔特征。
[0063]
(4)主次优先型约束关系:主次特征由零部件的应用功能决定,在设计阶段根据用户需求设计零件结构,结合实际功能特性可得到主次优先关系。
[0064]
对于优化目标,从企业内部来看,工艺路线的优化主要体现在经济效益与加工时间上,一方面需要考虑在加工过程中机床等设备的制造费用和设备的变更费用等,另一方面还需要协同制造过程来控制加工时间以满足需求方的时效要求。进一步地,在二氧化碳过度排放导致全球气候变暖的严峻环境下,须实施低碳化生产。
[0065]
因此,本发明建立了以工艺总成本、工艺总时间及总碳排放作为优化目标的多目标优化函数,并结合工序间的强制性优先关系构建了工艺路线优化模型。其中三个目标函数为:
[0066]
(1)工艺总成本目标函数:
[0067][0068]
式中,c
all
为总成本,c
mc
是机床变更成本指数,c
tc
是刀具变更成本指数,cm(midi)是机床midi的成本指数,c
t
(tidi)是刀具tidi的成本指数,γ1是机床变更函数,γ2是刀具变更函数。
[0069]
其中,γ1计算公式为:
[0070][0071]
式中,midi,mid
i+1
分别是工序i和工序i+1使用的机床代号。
[0072]
γ2计算公式为:
[0073][0074]
式中,midi,mid
i+1
分别是工序i和工序i+1使用的机床代号,tidi,tid
i+1
分别是工序i和工序i+1使用的刀具代号。
[0075]
(2)工艺总时间目标函数:
[0076][0077]
式中,是机床的加工时间,tm
mc
是机床的变更时间指数,tm
tc
是刀具的变更时间指数,γ1是机床变更函数,γ2是刀具变更函数,其计算公式分别与式2、式3一致。
[0078]
(3)工艺总碳排放目标函数:
[0079][0080]
式中,分别为第i个工序的切削能耗与辅助能耗,f
ele
为电能的碳排放因子。
[0081]
(1)工艺总成本目标函数:
[0082][0083]
式中,c
all
为总成本,c
mc
是机床变更成本指数,c
tc
是刀具变更成本指数,cm(midi)是机床midi的成本指数,c
t
(tidi)是刀具tidi的成本指数,γ1是机床变更函数,γ2是刀具变更函数,n为工序总数。
[0084]
其中,γ1计算公式为:
[0085][0086]
式中,midi,mid
i+1
分别是工序i和工序i+1使用的机床代号。
[0087]
γ2计算公式为:
[0088][0089]
式中,midi,mid
i+1
分别是工序i和工序i+1使用的机床代号,tidi,tid
i+1
分别是工序i和工序i+1使用的刀具代号。
[0090]
(2)工艺总时间目标函数:
[0091][0092]
式中,是机床的加工时间,tm
mc
是机床的变更时间指数,tm
tc
是刀具的变更时间指数;,γ1是机床变更函数,γ2是刀具变更函数,其计算公式分别与式2、式3一致。
[0093]
(3)工艺总碳排放目标函数:
[0094][0095]
式中,分别为第i个工序的切削能耗与辅助能耗,f
ele
为电能的碳排放因子。
[0096]
第二步:将工艺路线优化问题转化为马尔科夫决策过程。
[0097]
强化学习作为机器学习的范式和方法论之一,可用于描述和解决智能体(agent)通过与环境进行交互学习以获得最大回报或实现预定目标的问题。强化学习聚焦于解决序列决策问题,与一般的监督式学习有正确样本指导不同,强化学习是一种试错学习法,即通过agent与环境不断的交互训练得到反馈来完成学习过程。
[0098]
在利用强化学习之前,需要将问题转化为马尔可夫决策过程(markov decision process,mdp),mdp 可以用(s,a(s),p,γ,r)表示,共包含五个元素。其中:s表示为所有状态的集合;a(s)表示在状态s下可执行动作的集;p表示为状态转移概率,表示agent在当前状态s下执行动作a转移到新状态s

的概率;γ表示为折扣因子,用于给未来奖赏赋予一定的折扣,其中γ∈[0,1];r为奖励函数。
[0099]
在工艺路线优化问题中,可以将待加工零件工艺路线的确定视为一个完整的决策过程,即从第一个工序及加工资源的选择到最后一个工序和加工资源的确定,整个工艺路
线包含了工序的顺序安排及其选用的加工设备,由此可以定义该过程的状态空间、动作空间和奖励函数。
[0100]
其中,在状态空间定义上,考虑到各待加工零件工序数量和候选资源集的多样化,本发明在状态空间的设定中引入了静态变量与动态变量。其中静态变量是在决策过程中不会发生变化的值,而动态变量在每个决策步骤之前都会更新。如图1所示,状态s
t
可视为l
×
7维的数组,将每个工序下的可用机床和刀具资源以配对的形式视为一次组合。待加工工件的所有工序合计l类组合,图中静态变量包含了候选组合的序号id
x
、候选组合的工序mei、机床编号和刀具编号动态变量包括了当前状态s
t
下剩余的工序比例当前状态s
t
下该工序是否已经被选择和当前状态s
t
下工序mei的先行工序剩余比例
[0101]
一个工序可能有若干种机床刀具组合的候选项,其中分别表示工序mei的第k类可选机床和该机床下第m类可选刀具。
[0102]
动态变量表征了当前状态s
t
下剩余的工序比例,初始状态为1,其更新规则为:
[0103][0104]
式中,m
t
表示处于状态s
t
时已选择的工序数量,当m
t
等于工序总数n时,序列决策达到终止条件。
[0105]
动态变量表征了当前状态s
t
下该工序是否已经被选择,其更新规则为:
[0106][0107]
动态变量表征了当前状态s
t
下工序mei的先行工序剩余比例,当mei无先行工序时,其始终为0;当mei有先行工序时,的更新规则为:
[0108][0109]
式中,pi表示工序mei的先行工序总数,表示处于状态s
t
时pi中已被选择的工序数量,初始状态为 0或1,当为0时代表该时刻下mei可被选择。
[0110]
和的取值均在[0,1]内,能有效应对待加工工件不同的工序数量,让模型对数据有更好的感知效果。
[0111]
在动作空间定义上,动作a
t
表示agent在当前状态s
t
下可以做出的行为,其与决策策略相关,在工艺路线优化问题中,动作集合a(s)可具体理解为状态s下所有可选的序号id集合。
[0112]
在奖励函数定义上,适当的奖励能够给agent正确的反馈,指导agent对动作选取的策略进行学习。因此本发明对agent的奖励将基于工艺总成本、工艺总时间和工艺总碳排放量三类优化目标进行确定。当三类目标值越低时,应对agent给予越大的奖励进行反馈。但多目标优化问题一般不存在全局最优解,得到的是pareto解集,即非支配解集。解集的形式难以直接进行比较,现有方法下,对强化学习中的多目标优化问题一般采用赋权求和的
形式,化多目标为单目标,但这种方法主观性较强,所得的解分布较差。因此,本发明将超体积(hypervolume,hv)作为多目标评价指标,其中超体积指标表示解集中的个体与参考点在目标空间中所围成的超立方体的体积,在给定参考点和有限的搜索空间下,超体积测量的最大化等同于找到pareto集,故hv指标是一种与pareto一致的评价方法。
[0113]
对于本文的工艺路线优化问题,以f1、f2、f3代表三个目标函数,设定n个pareto点的三维目标空间为:
[0114]
prt={(f1(ξ1),f2(ξ1),f3(ξ1)),(f1(ξ2),f2(ξ2),f3(ξ2)),

,(f1(ξn),f2(ξn),f3(ξn))}#(9)
[0115]
假设参考点为r=(r1,r2,r3),则hv的计算可表达为:
[0116][0117]
式中,λ(prt)为勒贝格(lebesgue)测度,[r1,f1(s)]
×
[r2,f2(s)]
×
[r3,f3(s)]为prt上所有点与参考点r 围成的超体积。
[0118]
第三步:基于actor-critic结构的深度强化学习方法进行求解
[0119]
actor-critic算法(行动者-评论家算法)是一种深度强化学习方法,通过使用由值函数迭代生成的学习强化信号来强化策略,它结合了基于值函数(value-base)和基于策略(policy-base)两类学习方法。该算法采用actor-critic结构对策略函数与值函数进行独立存储,表示策略函数的结构被称为actor(行动者),其根据环境状态来确定agent执行的动作;而表示值函数的结构被称为critic(评论家),其通过计算值函数对actor所选动作进行评价。
[0120]
图2为本发明所使用的actor-critic算法的训练过程。其中,critic可通过最小化价值估计与实际回报的mse(均方误差)进行参数更新,其损失函数为:
[0121][0122]
式中tk代表采样步数,表示近似值函数,r
t
表示奖励。
[0123]
actor代表的是策略函数,可以根据时序差分法对其进行更新,其损失函数为:
[0124][0125]
下面结合实施例对本发明进行说明。在该实例中,一共12个特征,各特征合27个工序,各工序的加工方式、可用机床、可用刀具以及特征的尺寸信息如表1所示。
[0126]
表1实例的相关信息
[0127][0128]
27个工序的约束关系如图3所示。其中值为1指为满足四类强制性约束关系工序mei必须优先于mej,值为-1指mei必须后于mej,0指两类工序间无强制性约束关系。
[0129]
于工序的信息及约束关系,可计算不同顺序安排和资源组合下的工艺总成本c
all
、工艺总时间t
all
及总碳排放e
all
,并进行优化求解。
[0130]
该案例中先基于离线训练过程得到预训练模型,再以该定制件的相关数据加载预训练模型进行线上训练得到收敛后的求解结果。深度强化学习在应用中分为离线训练与在线训练过程,其中离线训练是指通过一批训练实例对深度强化学习模型进行训练,让模型
以探索学习来优化模型参数,得到预训练模型并保存;在线训练即通过加载预训练模型,输入待加工工件的数据进行线上学习训练,得到收敛后的结果。这样做的好处在于能提前让深度强化学习中的神经网络经训练得到较好的权重参数,在线上应用时能够基于该模型进一步实现对新数据的训练,加快收敛速度,快速产出结果。
[0131]
本发明设置的主要超参数如表2所示。
[0132]
表2模型的主要超参数
[0133][0134]
在离线训练过程中,图4为多目标优化时hv评价指标的变化过程,大约经历600次迭代训练后趋于收敛。而图4中的(b)、(c)、(d)为单目标优化时的迭代计算过程,依次为工艺总成本c
all
、工艺总时间t
all
、总碳排放e
all
的值变化情况。其中以工艺总成本进行单目标优化大约经历450次迭代训练后在小区间内进行波动,趋于收敛;以工艺总时间进行单目标优化大约经历500次迭代训练后趋于收敛;以总碳排放进行单目标优化大约经历500次迭代训练后趋于收敛。总体来看,以hv为评价指标的多目标求解过程会稍慢一些,在第400至第600次迭代训练过程中,虽有收敛趋势,但还是存在较大的波动,可能是在对三个优化目标进行探索与权衡,同时三个目标的寻优也增加了计算复杂度,导致其收敛速率会略低于其他三类单目标。
[0135]
表3是案例在多目标下的在线训练优化结果,表4为案例在多目标优化与三类单目标优化下所得结果的汇总表。由表3可以发现本发明提出的算法在求解时会尽可能地将相似工序集中安排。而由表4中数据可以发现,以工艺总成本c
all
、工艺总时间t
all
、总碳排放e
all
作为单目标进行优化时,均使其目标本身获得了最小值,但其他目标结果却十分不理想,而多目标优化能够很好地权衡各目标,得到全面优化的结果,因此使用多目标进行优化是非常有必要的。
[0136]
表3多目标优化结果
[0137]
[0138][0139]
表4多、单目标优化下的目标值
[0140][0141]
为对比本发明提出的基于深度强化学习(drl)的工艺路线优化方法的综合效果,使用nsga-iii和 mopso算法进行求解对比,其中求解均为多目标优化,对三类算法求得的pareto解集进行统计,分析解的分布情况。如图5是根据三类算法的解集在各目标下的值绘制的箱线图,由图中数据可以发现,三类算法在各目标下的解集分布差别不大。总体而言drl与nsga-iii的解集分布较广,中位数接近,而mopso 的解略差一些。证明了本文提出的基于drl的方法具有与启发式优化算法相似的全局搜索能力。
[0142]
进一步地,为探究三类算法在求解速度上的差异,对案例进行10次多目标优化。图6为10次实验下三类算法的求解速度,统计时间区间为算法开始运行至收敛时。由图中数据可以看出,本文提出的drl 方法在10次实验下的求解速度均为最优,而nsga-iii算法整体上求解速度最慢,mopso算法次之。这是因为drl在实际应用时调取了预训练模型,可以在原有基础上进行在线训练,完成微调,所以线上收敛速度快,而其他算法须重新初始化然后寻优。
[0143]
综上分析,本发明提出的基于深度强化学习的工艺路线优化方法具备高效稳定且适应性强的多目标优化决策能力,能够解决小批量定制产品工艺路线优化时所面临的灵活多变问题。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1