一种基于深度强化学习的校直行程预测方法

文档序号:32617948发布日期:2022-12-20 21:53阅读:50来源:国知局
一种基于深度强化学习的校直行程预测方法

1.本发明属于工件校直领域,具体涉及一种基于深度强化学习的校直行程预测方法。


背景技术:

2.冶炼钢材料在锻造轴杆类零部件时,由于锻造温度、尺寸、热处理、外力等一些不稳定因素的影响,生产出的轴杆类零部件会发生局部弯曲、扭曲甚至变形的现象,作为机械行业中常见的零部件,轴杆类零部件在出厂时需对其进行校直,以保证精度。
3.目前,市场上校直机比较欠缺,校直行业也处于低水平阶段,存在的校直机多为半自动或者手动控制。传统意义上的校直方法主要是依据于人工经验去校直,先由人工测量,再有操作人员根据经验和估计来确定校直行程,校直后由检测人员检验。这种校直方式校直精度低,凭人工经验,效率低,质量也难以保证。随着企业对产品质量和生产效率的提高以及生产规模的扩大,人工校直的方法已经不能够满足自动化生产的工厂,开始寻求生产效率、自动化程度高的自动校直设备。
4.在自动校直系统中,通常是控制校直行程来达到轴杆类零部件的校直目的,即通过对校直行程的预测进行校直。但现有校直行程预测方法同样存在精度不高的、效率低下等缺陷,导致校直结果不理想、精度达不到要求等。因此,本技术提出一种基于深度强化学习的校直行程预测方法。


技术实现要素:

5.本发明的目的在于针对上述问题,提出一种基于深度强化学习的校直行程预测方法,能够有效地减少工件的校直次数,提高工件的校直精度和校直效率。
6.为实现上述目的,本发明所采取的技术方案为:
7.本发明提出的一种基于深度强化学习的校直行程预测方法,包括如下步骤:
8.s1、建立校直行程预测模型并初始化,校直行程预测模型包括环境模型和ddpg网络模型,其中:
9.环境模型的动作空间和状态空间构建如下:
10.动作空间表示为a={a
t
},状态空间表示为s={δ,d,l1,l2,e,i,rel},其中,a
t
表示进行校直,δ为最大弯曲点的弯曲度,d为工件的直径,l1为最大弯曲点与其一相邻检测点的间距,l2为最大弯曲点与另一相邻检测点的间距,e为工件的弹性模量,i为工件的惯性模量,rel为工件的屈服强度;
11.ddpg网络模型的目标函数和惩罚项满足如下公式:
12.1)目标函数δ


13.δ

=δ+δw14.式中,δ为最大弯曲点的弯曲度,δw为工件最大弯曲点的反弯挠度;
15.且满足如下约束条件:
16.e
min
≤e≤e
max
17.i
min
≤i≤i
max
18.rel
min
≤rel≤rel
max
19.δw=δf20.δ
min
≤δ

≤δ
max
21.式中,e
min
、e
max
依次对应为工件的弹性模量e的下限值和上限值,i
min
、i
max
依次对应为工件的惯性模量i的下限值和上限值,rel
min
、rel
max
依次对应为工件的屈服强度rel的下限值和上限值,δw为工件的反弯挠度,δf为工件的弾复挠度,δ
min
、δ
max
依次对应为校直机压头行程的最小值和最大值;
22.2)惩罚项r:
23.r=βδ
∑-η
24.式中,β、η为惩罚系数,且均为正值;
25.s2、获取工件的状态参数并输入ddpg网络模型,根据ddpg网络模型选择的动作a
t
生成下一时刻的状态参数s
t+1
,状态参数包括δ、d、l1、l2、e、i、rel;
26.s3、分别判断当前时刻的状态参数s
t
和下一时刻的状态参数s
t+1
是否均满足约束条件,若是,则将当前时刻的目标函数δ

作为校直行程,并记奖惩值为1反馈给ddpg网络模型,否则,计算惩罚项r作为奖惩值反馈给所述ddpg网络模型;
27.s4、将当前时刻t的状态参数s
t
、动作a
t
、奖惩值r
t
和下一时刻的状态参数s
t+1
作为组合(s
t
,a
t
,r
t
,s
t+1
)存储于记忆库;
28.s5、从记忆库随机选取一个组合中的动作和状态参数输入ddpg网络模型进行学习以更新神经网络参数,并更新下一时刻的状态参数s
t+1
作为工件的状态参数,返回执行步骤s2,直至当前回合数j的时间结束;
29.s6、判断当前回合数j是否达到最大回合数j
max
,若是,输出最终ddpg网络模型,否则,更新当前回合数j下最后一个时刻的状态参数作为工件的状态参数,置j=j+1,返回执行步骤s2;
30.s7、将待测工件的状态参数输入最终ddpg网络模型,预测出待测工件的校直行程。
31.优选地,最大弯曲点的弯曲度δ、最大弯曲点与其一相邻检测点的间距l1、最大弯曲点与另一相邻检测点的间距l2,获取如下:
32.在工件上沿轴线方向等间隔标记若干个检测点,并将标记后的工件沿轴线转动,利用位移传感器采集不同转动角度下各检测点的采样值;
33.将每个检测点的采样值的平均值作为对应检测点的基准值,并将每个检测点的各采样值分别与对应检测点的基准值作差,选取最大的差值作为对应检测点的弯曲度;
34.比较各检测点的弯曲度,将最大的弯曲度对应的检测点视为最大弯曲点,则最大的弯曲度即为最大弯曲点的弯曲度δ,并获得最大弯曲点与任一相邻检测点的间距。
35.优选地,工件的弾复挠度δf计算如下:
[0036][0037]
其中,
[0038]
[0039][0040][0041][0042]
式中,δ
t
为工件的极限挠度,为工件的弯矩比,cf为工件的弾复曲率,c0为工件的初始曲率,ξ为曲率比。
[0043]
优选地,工件的初始曲率满足c0=0,表示工件校直时在不卸载压力的情况下弯曲度为0。
[0044]
优选地,惩罚系数β=1000,η=0.1。
[0045]
与现有技术相比,本发明的有益效果为:
[0046]
本方法通过构建包括环境模型和ddpg网络模型的的校直行程预测模型,设定动作空间、状态空间、目标函数和惩罚项,并将工件的状态参数输入ddpg网络模型选出相应的动作,并根据动作来更新下一时刻的状态参数,对于当前时刻的状态参数与下一时刻的状态参数进行约束条件判断,根据判断结果来计算奖惩值反馈给ddpg网络模型,并将当前时刻的状态参数、动作、奖惩值和下一时刻的状态参数作为组合存储于记忆库构建训练样本,ddpg网络模型从记忆库提取参数进行学习以更新自身的神经网络参数,通过循环训练学习获得优化的最终ddpg网络模型,该优化模型关联有更多的工件校直影响因素,能够有效地减少工件的校直次数,提高校直精度和校直效率,满足校直行程需求。
附图说明
[0047]
图1为本发明基于深度强化学习的校直行程预测方法的流程图;
[0048]
图2为本发明的工件弯曲示意图。
具体实施方式
[0049]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0050]
需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本技术。
[0051]
如图1-2所示,一种基于深度强化学习的校直行程预测方法,包括如下步骤:
[0052]
s1、建立校直行程预测模型并初始化,校直行程预测模型包括环境模型和ddpg网络模型,其中:
[0053]
环境模型的动作空间和状态空间构建如下:
[0054]
动作空间表示为a={a
t
},状态空间表示为s={δ,d,l1,l2,e,i,rel},其中,a
t
表示进行校直,δ为最大弯曲点的弯曲度,d为工件的直径,l1为最大弯曲点与其一相邻检测点的
间距,l2为最大弯曲点与另一相邻检测点的间距,e为工件的弹性模量,i为工件的惯性模量,rel为工件的屈服强度。本实施例提供的一种基于深度强化学习(deep deterministic policy gradient,简称ddpg)的校直行程预测的方法,用于对作为轴杆类零部件的工件进行出厂前的校直。如图2所示,为轴杆类零部件弯曲状态下的示意图,以示意图的对称轴(即处于中间的虚线)为分界线,上侧为未加载压力时轴杆类零部件的弯曲情况,下侧为校直过程中不卸载压力时轴杆类零部件的弯曲情况。在轴类零部件的校直过程中,常见的校直参数为工件的弯曲度、工件的直径。而在本实施例中,所使用的校直参数有:最大弯曲点的弯曲度δ,若工件弯曲度较大会提高计算次数,工件的直径d,最大弯曲点与其一相邻检测点的间距l1,最大弯曲点与另一相邻检测点的间距l2,工件的弹性模量e,工件的惯性模量i,工件的屈服强度rel,l1、l2设置过大或者过小会导致测量数据不准确,应保持在合理的范围内,且工件在热处理后屈服强度rel值会产生变化,这会导致校直行程发生变化。通过关联更多的有效参数,有助于保证获得更加准确的校直行程预测结果。
[0055]
ddpg网络模型的目标函数和惩罚项满足如下公式:
[0056]
1)目标函数δ


[0057]
δ

=δ+δw[0058]
式中,δ为最大弯曲点的弯曲度,δw为工件最大弯曲点的反弯挠度;
[0059]
且满足如下约束条件:
[0060]emin
≤e≤e
max
[0061]imin
≤i≤i
max
[0062]
rel
min
≤rel≤rel
max
[0063]
δw=δf[0064]
δ
min
≤δ

≤δ
max
[0065]
式中,e
min
、e
max
依次对应为工件的弹性模量e的下限值和上限值,i
min
、i
max
依次对应为工件的惯性模量i的下限值和上限值,rel
min
、rel
max
依次对应为工件的屈服强度rel的下限值和上限值,δw为工件的反弯挠度,δf为工件的弾复挠度,δ
min
、δ
max
依次对应为校直机压头行程的最小值和最大值;
[0066]
2)惩罚项r:
[0067]
r=βδ
∑-η
[0068]
式中,β、η为惩罚系数,且均为正值。
[0069]
由于工件在校直前会经过热处理等工艺,会使工件的弹性模量e、惯性模量i、屈服强度rel发生变化,从而会使得工件的极限挠度变化,导致计算的校直行程偏大或者偏小,因此,将弹性模量、惯性模量、屈服强度进行约束,根据材料特性限制在一定的范围内。工件在弯曲校直时,若压力卸载后工件的挠度正好等于0,则说明工件被校直,设置工件的反弯挠度等于弾复挠度。且由于受到机器的机械参数影响,校直行程必须满足在机器可以达到的范围之内,因此,对于计算的校直行程限制校直机压头行程内。
[0070]
根据校直行程预测模型的特性,表现为如表1所示的模型空间集合表。
[0071]
表1模型空间集合表
[0072][0073]
其中,动作策略μ用于后续更新ddpg网络模型中的神经网络参数,为本领域技术人员熟知技术,在此不再赘述。
[0074]
s2、获取工件的状态参数并输入ddpg网络模型,根据ddpg网络模型选择的动作a
t
生成下一时刻的状态参数s
t+1
,状态参数包括δ、d、l1、l2、e、i、rel。
[0075]
s3、分别判断当前时刻的状态参数s
t
和下一时刻的状态参数s
t+1
是否均满足约束条件,若是,则将当前时刻的目标函数δ

作为校直行程,并记奖惩值为1反馈给ddpg网络模型,否则,计算惩罚项r作为奖惩值反馈给所述ddpg网络模型。
[0076]
s4、将当前时刻t的状态参数s
t
、动作a
t
、奖惩值r
t
和下一时刻的状态参数s
t+1
作为组合(s
t
,a
t
,r
t
,s
t+1
)存储于记忆库。
[0077]
s5、从记忆库随机选取一个组合中的动作和状态参数输入ddpg网络模型进行学习以更新神经网络参数,并更新下一时刻的状态参数s
t+1
作为工件的状态参数,返回执行步骤s2,直至当前回合数j的时间结束。其中,ddpg网络模型中神经网络参数的更新方式为本领域人员熟知的现有技术,在此不再赘述。
[0078]
s6、判断当前回合数j是否达到最大回合数j
max
,若是,输出最终ddpg网络模型,否则,更新当前回合数j下最后一个时刻的状态参数作为工件的状态参数,置j=j+1,返回执行步骤s2。
[0079]
s7、将待测工件的状态参数输入最终ddpg网络模型,预测出待测工件的校直行程。
[0080]
在一实施例中,最大弯曲点的弯曲度δ、最大弯曲点与其一相邻检测点的间距l1、最大弯曲点与另一相邻检测点的间距l2,获取如下:
[0081]
在工件上沿轴线方向等间隔标记若干个检测点,并将标记后的工件沿轴线转动,利用位移传感器采集不同转动角度下各检测点的采样值;
[0082]
将每个检测点的采样值的平均值作为对应检测点的基准值,并将每个检测点的各采样值分别与对应检测点的基准值作差,选取最大的差值作为对应检测点的弯曲度;
[0083]
比较各检测点的弯曲度,将最大的弯曲度对应的检测点视为最大弯曲点,则最大的弯曲度即为最大弯曲点的弯曲度δ,并获得最大弯曲点与任一相邻检测点的间距。
[0084]
具体地,工件水平放置,检测点序号从左往右(即从一端到另一端)依次为1,2,3...,根据工件的长度等间隔设置,并且记录各检测点的坐标位置。首先测量工件的基准值,平台放置标准工件,通过位移传感器测量出每个检测点所对应的ad值,具体为工件旋转三周,按照工件每旋转1
°
,位移传感器采样一次,测量出每个检测点所对应的ad值,每个检测点可以得到1080组数据。将每个检测点所对应的位移传感器的ad值求平均值,即为工件在此检测点的基准值。将同一检测点所对应的采集数据与该检测点所对应的基准值作差,比较所有的差值大小,找出最大的差值作为该检测点的弯曲度,然后再比较各检测点的弯曲度,将最大的弯曲度对应的检测点视为最大弯曲点,则最大的弯曲度即为最大弯曲点的弯曲度δ,并获得最大弯曲点与任一相邻检测点的间距,如最大弯曲点为序号为3的检测点
(简称为检测点3),则l1为检测点3与检测点2的间距,l2为检测点3与检测点4的间距。
[0085]
在一实施例中,工件的弾复挠度δf计算如下:
[0086][0087]
其中,
[0088][0089][0090][0091][0092]
式中,δ
t
为工件的极限挠度,为工件的弯矩比,cf为工件的弾复曲率,c0为工件的初始曲率,ξ为曲率比。
[0093]
在一实施例中,工件的初始曲率满足c0=0,表示工件校直时在不卸载压力的情况下弯曲度为0。
[0094]
在一实施例中,惩罚系数β=1000,η=0.1。
[0095]
在此,还可通过引入合格率概念,设定一个校直行程误差区间,若计算的校直行程在此误差区间范围内,则认为合格,否则为不合格,通过合格率验证此方法的有效性。
[0096]
为验证本方法的有效性,收集了训练以及测试阶段的合格率变化数据,如表2所示:
[0097]
表2训练及测试合格率变化数据表
[0098][0099]
由表2可知,在训练初期1-2000回合时,由于ddpg网络模型未训练好,因此给出的动作难以满足约束条件,平均合格率趋近于0,校直次数趋近于无穷;随着训练的进行,开始出现满足约束的条件,平均合格率在增加,平均校直次数也在逐步减小;当回合更新到10000回合以上后,平均合格率达到最大值82.3%,平均校直次数达到最小2次,校直误差也减小为4%。综上所述,基于深度强化学习的校直行程预测方法能够满足校直行程预测的要求,能够有效地减少校直次数和提高校直精度,并且误差控制在工业生产的范围之内。
[0100]
本方法通过构建包括环境模型和ddpg网络模型的校直行程预测模型,设定动作空间、状态空间、目标函数和惩罚项,并将工件的状态参数输入ddpg网络模型选出相应的动作,并根据动作来更新下一时刻的状态参数,对于当前时刻的状态参数与下一时刻的状态
参数进行约束条件判断,根据判断结果来计算奖惩值反馈给ddpg网络模型,并将当前时刻的状态参数、动作、奖惩值和下一时刻的状态参数作为组合存储于记忆库构建训练样本,ddpg网络模型从记忆库提取参数进行学习以更新自身的神经网络参数,通过循环训练学习获得优化的最终ddpg网络模型,该优化模型关联有更多的工件校直影响因素,能够有效地减少工件的校直次数,提高校直精度和校直效率,满足校直行程需求。
[0101]
应该理解的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0102]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0103]
以上所述实施例仅表达了本技术描述较为具体和详细的实施例,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1