基于深度强化学习的涂装轨迹智能规划方法

文档序号:32384530发布日期:2022-11-30 05:24阅读:来源:国知局

技术特征:
1.一种基于深度强化学习的涂装轨迹智能规划方法,应用于电子装置,其特征在于,所述方法包括:获取待喷涂工件的模型数据,并按照预设的涂装精度标准对所述待喷涂工件的模型进行格栅化划分,将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列,获得初始化的状态向量;将所述初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型,获取喷涂动作向量;并根据所述喷涂动作向量,确定下一时刻的喷涂轨迹;在仿真环境下,按照所述喷涂动作向量所对应的下一时刻的喷涂轨迹执行喷涂动作,利用漆膜厚度沉积模型,确定每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响;根据每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响,更新下一时刻的状态向量;根据下一时刻的状态向量,利用预训练好的基于深度强化学习的涂装控制策略模型确定喷涂动作向量所对应的下一时刻的喷涂轨迹;循环执行,直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及所述喷涂动作向量所对应的喷涂轨迹。2.如权利要求1所述的基于深度强化学习的涂装轨迹智能规划方法,其特征在于,通过设定最大迭代次数,对基于深度强化学习的涂装控制策略模型进行迭代训练,所述迭代训练的方法包括:随机初始化所述基于深度强化学习的涂装控制策略模型的参数,初始化网络训练迭代次数为1,并清空深度强化学习的经验回放池;其中,所述基于深度强化学习的涂装控制策略模型包括以mn维状态向量s为输入,l维动作向量a为输出的actor网络和actor
target
网络,以及,以l维动作向量a为输入,数值q为输出的critic网络和critic
target
网络;其中,所述的critic网络和critic
target
网络各包括两个网络;所述基于深度强化学习的涂装控制策略模型的参数包括actor网络的参数、actor
target
网络的参数、critic网络的参数和critic
target
网络的参数;所述actor
target
网络的参数通过复制对应的actor
target
网络的参数得到,critic
target
网络的参数通过复制对应的critic网络的参数得到;更新状态向量s
t
,基于状态向量s
t
获取actor网络的输出喷涂动作向量a
t
;基于喷涂动作向量a
t
计算喷涂动作向量对应的喷涂轨迹t,利用漆膜厚度沉积模型更新待喷涂工件的漆膜厚度分布情况,得到状态向量s
t+1
;基于状态向量s
t+1
和奖励函数r计算实时奖励reward;并以s
tb
=done是否成立,判断喷涂过程是否终止;根据所获取的状态向量s
t
、喷涂动作向量a
t
、动状态向量s
t+1
和实时奖励reward,确定集合{s
t
,a
t
,s
t+1
,reward,s
tb
};将所述集合{s
t
,a
t
,s
t+1
,reward,s
tb
}存入所述深度学习的经验回放池d,令t=t+1,循环执行,直至达到经验回放池d的最大容量;从经验回放池d中进行m次随机采样,获得{s
j
,a
j
,s
j+1
,reward,s
jb
},j=1,2,...,m,计算当前策略π下理论q值;使用均方差损失函数,通过神经网络的梯度反向传播对critic网络的参数ω进行更新;当迭代次数为延迟更新基数d的整数倍时,使用损失函数通过神经网络的梯度反向传
播对actor网络的参数θ进行更新,并将更新后的critic网络的参数和actor网络的参数分别复制给对应的critic
target
网络和actor
target
网络;进行迭代训练,直至达到设定最大迭代次数;获得训练好的基于深度强化学习的涂装控制策略模型。3.如权利要求2中所述的基于深度强化学习的涂装轨迹智能规划方法,其特征在于,状态向量s=(ω0,ω1,ω2,...,ω
mn-1
)
t
,ω
i
表示数组下标为i的点云簇中所有数据点的漆膜厚度δ的平均值;其中,点云簇ω中数据点ω
k
处漆膜厚度δ通过以下步骤获取:计算喷枪在轨迹点t
i
的停留时间t;以轨迹点t
i
为原点,构建局部坐标系γ
local
和漆膜厚度沉积模型,寻找点云簇ω中位于涂覆面积中的数据点ω
k
,计算数据点ω
k
在时间t内获得的漆膜沉积厚度δ
k
;分别计算轨迹t中各轨迹点对数据点ω
k
所产生的的漆膜沉积厚度δ
k
,则,最终的漆膜厚度δ为:δ=∑δ
k
。4.如权利要求2所述的基于深度强化学习的涂装轨迹智能规划方法,其特征在于,所述漆膜厚度沉积模型为由平面涂层厚度模型转换得到的自由曲面涂层厚度分布模型;由平面涂层厚度模型转换得到的自由曲面涂层厚度分布模型,通过以下公式实现:得到的自由曲面涂层厚度分布模型,通过以下公式实现:得到的自由曲面涂层厚度分布模型,通过以下公式实现:其中,q
ω
表示当前喷涂范围内点云簇ω表面的数据点ω
i
的涂层厚度沉积速率,q
t
表示基准平面的涂层厚度沉积速率,x,y表示数据点ω
i
的坐标描述;d表示喷枪中心点到理论平面的距离高度,d'为喷枪中心点到基准平面的距离高度,α表示数据点ω
i
切平面法矢n与喷枪轴线方向的夹角,θ表示喷枪轴线与垂线段方向的夹角;a0,b0分别表示理论平面上喷涂椭圆的长短轴的长度,q
max
表示理论平面的涂层沉积率系数,β1,β2表示沉积模型分布系数。5.如权利要求2所述的基于深度强化学习的涂装轨迹智能规划方法,其特征在于,获取待喷涂工件的模型数据,并按照预设的精度标准对所述待喷涂工件进行格栅化划分的方法,包括,获取待喷涂工件的模型数据;其中,所述模型数据为点云数据或cad模型数据;根据所述待喷涂工件的模型数据,利用视觉传感器获取待喷涂工件的三维空间的点云数据,或将所述cad模型数据转换为点云数据;按照精度需求确定分割的间隔尺寸,按照所述分割的间隔尺寸将待喷涂工件进行m
×
n栅格化划分,并反向映射至三维空间的点云数据中;将所述三维空间的点云数据分割为m
×
n的点云簇,每个栅格对应一个数组,每个数组
包含当前栅格内包含的点云数据点的编号。6.如权利要求2所述的基于深度强化学习的涂装轨迹智能规划方法,其特征在于,通过基于策略π的状态价值函数获取当前策略π下理论q值;所述基于策略π的状态价值函数v
π
(s)通过以下公式实现:v
π
(s)=e
π
(g
t
|s
t
=s)=e
π
(r
t+1
+γr
t+2
+γ2r
t+3
+...|s
t
=s)=e
π
(r
t+1
+γ(r
t+2
+γr
t+3
+...)|s
t
=s)=e
π
(r
t+1
+γv
π
(s
t+1
)|s
t
=s)=e
π
(r
t+1
|s
t
=s)+γe(v
π
(s
t+1
)|s
t
=s)其中,r为状态s下的下一时刻所能获得的奖励期望,γ为折扣因子。7.如权利要求1所述的基于深度强化学习的涂装轨迹智能规划方法,其特征在于,基于状态向量s
t+1
和奖励函数r计算实时奖励reward,通过以下公式实现:id
begin
=0=0其中,ω
min_x
表示点云簇ω在坐标轴x方向上的最小值,t
ix
表示对应轨迹点在空间坐标系γ下的x坐标,δ
s
表示理想漆膜厚度,δ
ij
表示仿真模型下数组下标为i的数据点j的漆膜厚度,λ1、λ2表示奖励函数系数。8.一种基于深度强化学习的涂装轨迹智能规划系统,其特征在于,包括:数据获取单元,用于获取待喷涂工件的模型数据,并按照预设的涂装精度标准对所述待喷涂工件的模型进行格栅化划分,将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列,获得初始化的状态向量;状态向量更新单元,用于将所述初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型,获取喷涂动作向量;并根据所述喷涂动作向量,确定下一时刻的喷涂轨迹;在仿真环境下,按照所述喷涂动作向量所对应的下一时刻的喷涂轨迹执行喷涂动作,利用漆膜厚度沉积模型,确定每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响;根据每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响,更新下一时刻的状态向量;
根据下一时刻的状态向量,利用预训练好的基于深度强化学习的涂装控制策略模型确定喷涂动作向量所对应的下一时刻的喷涂轨迹;执行单元,用于循环执行,直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及所述喷涂动作向量所对应的喷涂轨迹。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于深度强化学习的涂装轨迹智能规划方法中的步骤。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于深度强化学习的涂装轨迹智能规划方法。

技术总结
本发明涉及人工智能技术领域,揭露一种基于深度强化学习的涂装轨迹智能规划方法,通过将喷涂过程抽象为马尔科夫决策过程,利用喷涂过程中喷枪与仿真环境的交互,使得涂装轨迹的确定与待喷涂工件表面的实时状态息息相关;本发明的基于深度强化学习的涂装轨迹智能规划方法综合考虑了喷涂过程中的工艺参数和喷涂轨迹的耦合影响,有效获取最优的涂装轨迹,有效地解决了改善复杂曲面的涂层厚度控制和喷涂轨迹计算的问题。涂轨迹计算的问题。涂轨迹计算的问题。


技术研发人员:王国磊 李亚昕 张剑辉 刘兴杰 徐嵩 艾嘉文 吴丹
受保护的技术使用者:清华大学
技术研发日:2022.07.15
技术公布日:2022/11/29
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1