一种基于深度强化学习PPO算法的磨削恒力控制方法

文档序号:30512691发布日期:2022-06-25 02:21阅读:来源:国知局

技术特征:
1.一种基于深度强化学习ppo算法的磨削恒力控制方法,其特征在于,包含以下步骤:(a)首先对球形砂轮磨削过程时的末端执行器进行受力分析,通过力处理获取真实磨削力;(b)利用深度强化学习ppo算法训练当前磨削力和预设磨削力之差与末端执行器法向补偿位移之间的关系模型,包括搭建环境模型、训练数据归一化预处理、基于欧式距离的奖励函数设计、针对性深度神经网络结构设计与促进算法收敛设计;(c)基于ppo算法的神经网络模型的训练;(d)将训练好的神经网络模型作为磨削机器人恒力控制器使用。2.根据权利要求1所述的基于深度强化学习ppo算法的磨削恒力控制方法,其特征在于:所述的步骤(a)获取真实磨削力包括以下步骤:(a1)受力分析:根据磨削时的模型,建立传感器坐标系、工件坐标系之间的位姿关系;设ft和fn分别为工件坐标系上的磨削切向力和法向力,f

t和f

n表示将ft和fn转移到力传感器坐标系上的力,则有:f

t=ft,f

n=fn;采用上述位姿进行磨削作业时,法向力fn为影响磨削效果的主要对象,但是在磨削过程中力传感器安装在机器人末端和磨削工具之间,其测量值fs不仅包括磨削末端的法向磨削力fn,还包括自身的重力g和惯性力fl,即fs=fn+g+fl;(a2)力处理:由于磨削过程为匀速,加速度为0,所以惯性力fl很小,可以忽略不计;手动将磨削机器人末端执行器调整到竖直向下的位姿,不和磨削工件接触,此时fn为0,由于重力g的方向一直竖直向下,与基坐标的z轴方向相反,在基坐标下可以表示为
b
f
g
=[0,0,-g
t
]
t
,当机械臂变换位姿时,可以用旋转矩阵把基坐标的值转换为传感器坐标的值,即其中
s
f
g
为传感器坐标系下的重力的影响值,所以在传感器坐标系下的磨削值,即真实磨削力
s
fn为测量值减去
s
f
g
,即
s
fn=fs-s
f
g
。3.根据权利要求1所述的基于深度强化学习ppo算法的磨削恒力控制方法,其特征在于:所述的步骤(b)利用深度强化学习ppo算法训练当前磨削力和预设磨削力之差与末端执行器法向补偿位移之间的关系模型,包括以下内容:(b1)搭建环境模型:可以把磨削过程看作马尔可夫决策过程,简称mdp,将力传感器的数值经过处理输入到agent中,agent输出一个末端执行器的法向补偿位移并执行获得一个新的力传感器数值和奖励;(b2)训练数据归一化预处理:在基于深度强化学习恒力控制中,根据环境模型,输入状态量s=[fx,fy,fz,mx,my,mz],为经过力处理的仿真环境六维力传感器的测量值,分别为传感器坐标下的x轴、y轴、z轴的力和力矩;输出动作为末端执行器的法向补偿位移;分别对深度神经网络的输入状态量和输出动作除以对应的上限值,使其中每个元素在进入算法训练之前的值域为[-1,1];归一化处理后的输入状态量记为s_norm,且其中fmax为磨削力最大阈值,mmax为磨削力矩最大阈值;归一化处理后的输出动作记为a_norm;磨削机器人每时刻的采样数据经过训练数据归一化预处理后被算法程序收集,用于磨削机器人磨削恒力控制训练过程;
(b3)基于欧式距离的奖励函数设计:训练的目标是使当前磨削力能够达到目标磨削力,当前磨削力和目标磨削力的差值越小,获得的奖励越高,因此,设计针对磨削机器人磨削力恒力控制问题深度强化学习算法中使用的奖励函数为:其中,r为每时刻获得的奖励值,
b
f为当前磨削力,f
target
为目标磨削力;对获得的奖励进行归一化处理,与输入状态量和输出动作变成同一数量级作为训练时的数据;(b4)针对性深度神经网络结构设计:深度神经网络结构包括状态价值函数网络结构和策略网络结构;状态价值函数网络结构为五层,包括第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层和输出层,第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层的节点数分别为256个、128个、128个、128个。第一隐藏层和第二隐藏层在传递时加入rule激活函数,第四隐藏层到网络的输出层不加rule激活函数;策略网络结构分别计算输出量的均值和方差,分别记为ε和δ;计算输出量均值部分的神经网络包含四层隐藏层,分别为第一隐藏层、第二隐藏层、第三隐藏层以及第四隐藏层,节点数依次是256个、128个、128个、128个;计算输出量方差部分的神经网络包含二层隐藏层,分别为第一隐藏层和第二隐藏层,节点数依次是256个、128个;策略网络结构计算输出量均值部分的第一隐藏层和策略网络结构计算输出量方差部分的第一隐藏层是同一网络结构层,策略网络结构的所有隐藏层之间的激活函数均为relu激活函数,计算输出量均值ε的输出层之前的激活函数为tanh激活函数,计算输出量方差δ之前的激活函数为softplus激活函数,策略网络结构的输出为一个高斯分布的采样值:a_norm~n(ε,δ);(b5)促进算法收敛设计:在一次磨削机器人训练开始前,重置磨削机器人的位姿使末端执行器的法向坐标在当前位置
±
0.01m区间内随机选择一个数值作为新一次训练的磨削起始点,可以使算法和环境交互时获得更多的状态量,从而促进算法收敛。4.根据权利要求1所述的基于深度强化学习ppo算法的磨削恒力控制方法,其特征在于:所述的步骤(c)基于ppo算法的神经网络模型的训练,采用ppo算法进行磨削机器人恒力控制训练,设定总训练次数为100次,每一次训练包含200个训练步骤,磨削机器人和工件进行交互,交互的数据按照时间序列存储在经验池中;每当经验池数量满时,将数据依照ppo算法对神经网络模型进行参数迭代,直到100次训练全部结束,将神经网络模型作为磨削机器人恒力控制的控制器来使用,训练的模型需满足策略网络结构收敛至稳定状态。5.根据权利要求4所述的基于深度强化学习ppo算法的磨削恒力控制方法,其特征在于:所述的将训练好的神经网络模型直接被用来当作磨削机器人恒力控制的控制器,输入为归一化处理后的磨削机器人状态量s_norm,输出为归一化处理后的磨削机器人控制量a_norm。6.根据权利要求5所述的基于深度强化学习ppo算法的磨削恒力控制方法,其特征在于:所述的控制器的输出直接为a_norm,与当前末端执行器法向坐标叠加后生成机器人控制位置,通过机器人逆运动学得到机器人的关节角度进行控制实现补偿。

技术总结
本发明提供了一种基于深度强化学习PPO算法的磨削恒力控制方法,该方法首先对球形砂轮磨削过程时的末端执行器进行受力分析,通过力处理获取真实磨削力;利用深度强化学习PPO算法训练当前磨削力和预设磨削力之差与末端执行器法向补偿位移之间的关系模型,包括训练数据归一化预处理、基于欧式距离的奖励函数设计、针对性深度神经网络结构设计与促进算法收敛设计;基于PPO算法的控制器训练与磨削机器人恒力控制器使用。本发明的方法不用提前建立磨削力误差和法向位移之间的先验模型,能完成平面磨削和曲面磨削时把磨削力控制在目标磨削力内的任务,同时具有良好的自适应能力。同时具有良好的自适应能力。同时具有良好的自适应能力。


技术研发人员:王启超 陈林林 孙群 贾浩磊
受保护的技术使用者:聊城大学
技术研发日:2022.03.27
技术公布日:2022/6/24
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1