一种基于深度强化学习PPO算法的磨削恒力控制方法

文档序号:30512691发布日期:2022-06-25 02:21阅读:435来源:国知局
一种基于深度强化学习PPO算法的磨削恒力控制方法
一种基于深度强化学习ppo算法的磨削恒力控制方法
技术领域
1.本发明涉及磨削机械控制,确切地说是一种基于深度强化学习ppo算法的磨削恒力控制方法。


背景技术:

2.传统的人工磨削不仅磨削质量参差不齐、效率低,而且磨削产生的飞尘对工人的身体健康造成了危害,使用磨削机器人作业便可以很好的解决问题。在多自由度机器人末端安装磨削末端执行器即可加工表面的几何形状比较复杂的工件,还可以避免由人工磨削带来的问题。
3.机器人磨削力控制可分为被动力控制和主动力控制。被动力控制主要是凭借一些辅助的柔顺机构,使机器人在与砂带轮接触时能够对磨削力产生自然顺从。该控制方法虽然能有效地提高磨削质量,却降低了力响应的动态范围和末端位置的精度。
4.针对机器人主动力控制的研究基本可以归为两类:基于传统策略的力控制和基于智能策略的力控制。基于传统的力控制策略虽然能达到一定的控制效果,但是由于在机器人磨削中存在非线性以及大量的不确定性,导致这些控制方法很难达到满意的效果。基于智能策略的力控制通过智能算法可以实现恒力控制,但传统的智能算法一般都需要提前建立先验模型,例如磨削力差值和补偿位移之间的关系模型,然而提前精准的建立这些模型是十分困难的。


技术实现要素:

5.本发明要解决的技术问题是提供一种基于深度强化学习ppo算法的磨削恒力控制方法,该方法不用提前建立磨削力误差和法向位移之间的先验模型,能完成平面磨削和曲面磨削时把磨削力控制在目标磨削力内的任务。
6.为解决上述技术问题,本发明采用如下技术手段:
7.一种基于深度强化学习ppo算法的磨削恒力控制方法,包含以下步骤:
8.(a)首先对球形砂轮磨削过程时的末端执行器进行受力分析,通过力处理获取真实磨削力;
9.(b)利用深度强化学习ppo算法训练当前磨削力和预设磨削力之差与末端执行器法向补偿位移之间的关系模型,包括搭建环境模型、训练数据归一化预处理、基于欧式距离的奖励函数设计、针对性深度神经网络结构设计与促进算法收敛设计;
10.(c)基于ppo算法的神经网络模型的训练;
11.(d)将训练好的神经网络模型作为磨削机器人恒力控制器使用。
12.ppo算法采用标准的actor-critic框架,演员(actor)使用基于策略函数的方法,其网络在接收到系统状态后输出相应的动作。评论家(critic)使用一种基于价值函数的方法,评论家评价演员产生的动作,并给演员建议。随着训练的进行,评论家提高了对奖励的预测准确率,行动者根据评论家的建议改进了控制策略。为了具体的说明算法,绘制参数表
如表1所示:
13.表1:ppo算法参数说明表
[0014][0015]
强化学习算法的本质是使得智能体学习到最优的策略,最大化一条完整轨迹上所能获得的累计奖励,即回报:
[0016]gt
=r
t
+γr
t+1
+...+γ
n-1rn
[0017]
actor接收到state后,通过正态分布公式计算出action并在环境中执行,得到下一个系统状态s_和奖励r,buffer将系统状态s,动作a,奖励r和下一个时刻的状态s_储存,提供数据给actor和critic使用。actor网络产生mu和sigma两个输出值,mu以tanh为最终激活函数的值,sigma为以softplus为最终激活函数的值。将这两个值带入正态分布,作为所选动作的概率分布,即actor的控制策略。
[0018]
critic利用buffer的值计算出优势函数a,a(s,a)=tdtarget-v(s)
[0019]
其中,tdtarget=v_=v_*γ+r
t
[0020]
得到的优势函数a作为critic的建议送给actor,优势函数a的平方均值被定义为critic的损失,通过反向传播降低批评家的损失价值。
[0021]
在ppo算法中,为了使得每次更新的新策略与更新之前的旧策略不会出现差异太大而导致算法不收敛的现象,对策略的更新加入一定的约束条件。
[0022]
智能体采用新策略所获得的期望回报相较于采用旧策略所获得的期望回报,性能的提高不期望超过一定的阈值,称为裁剪值,用ε表示(裁剪值通常取为0.2)。由于当策略还未更新时,无法计算新策略的期望回报值,引入重要性采样的方法,使用旧策略的分布来估算新策略的分布,计算更新后的策略期望回报值为:
[0023][0024][0025]
加入裁剪限制后,保证函数的值维持在[1-ε,1+ε]中,得到的损失函数用反向传播更新actor函数。
[0026][0027]
算法的伪代码如表2所示:
[0028]
表2proximal policy optimization

clip算法的伪代码
[0029][0030][0031]
进一步的优选技术方案如下:
[0032]
所述的步骤(a)获取真实磨削力包括以下步骤:
[0033]
(a1)受力分析:根据磨削时的模型,建立传感器坐标系、工件坐标系之间的位姿关
系;设ft和fn分别为工件坐标系上的磨削切向力和法向力,f

t和f

n表示将ft和fn转移到力传感器坐标系上的力,则有:f

t=ft,f

n=fn;采用上述位姿进行磨削作业时,法向力fn为影响磨削效果的主要对象,但是在磨削过程中力传感器安装在机器人末端和磨削工具之间,其测量值fs不仅包括磨削末端的法向磨削力fn,还包括自身的重力g和惯性力fl,即fs=fn+g+fl;
[0034]
(a2)力处理:由于磨削过程为匀速,加速度为0,所以惯性力fl很小,可以忽略不计;手动将磨削机器人末端执行器调整到竖直向下的位姿,不和磨削工件接触,此时fn为0,由于重力g的方向一直竖直向下,与基坐标的z轴方向相反,在基坐标下可以表示为bfg=[0,0,-g
t
]
t
,当机械臂变换位姿时,可以用旋转矩阵把基坐标的值转换为传感器坐标的值,即其中
sfg
为传感器坐标系下的重力的影响值,所以在传感器坐标系下的磨削值即真实磨削力sfn为测量值减去
sfg
,即sfn=fs-sfg

[0035]
所述的步骤(b)利用深度强化学习ppo算法训练当前磨削力和预设磨削力之差与末端执行器法向补偿位移之间的关系模型,包括以下内容:
[0036]
(b1)搭建环境模型:可以把磨削过程看作马尔可夫决策过程,简称mdp,将力传感器的数值经过处理输入到agent中,agent输出一个末端执行器的法向补偿位移并执行获得一个新的力传感器数值和奖励;
[0037]
(b2)训练数据归一化预处理:在基于深度强化学习恒力控制中,根据环境模型,输入状态量s=[fx,fy,fz,mx,my,mz],为经过力处理的仿真环境六维力传感器的测量值,分别为传感器坐标下的x轴、y轴、z轴的力和力矩;输出动作为末端执行器的法向补偿位移;分别对深度神经网络的输入状态量和输出动作除以对应的上限值,使其中每个元素在进入算法训练之前的值域为[-1,1];归一化处理后的输入状态量记为s_norm,且其中fmax为磨削力最大阈值,mmax为磨削力矩最大阈值;归一化处理后的输出动作记为a_norm;磨削机器人每时刻的采样数据经过训练数据归一化处理后被算法程序收集,用于磨削机器人磨削恒力控制训练过程;
[0038]
(b3)基于欧式距离的奖励函数设计:训练的目标是使当前磨削力能够达到目标磨削力,当前磨削力和目标磨削力的差值越小,获得的奖励越高,因此,设计针对磨削机器人磨削力恒力控制问题深度强化学习算法中使用的奖励函数为:其中,r为每时刻获得的奖励值,bf为当前磨削力,f
target
为目标磨削力;对获得的奖励进行归一化处理,与输入状态量和输出动作变成同一数量级作为训练时的数据;
[0039]
(b4)针对性深度神经网络结构设计:深度神经网络结构包括状态价值函数网络结构和策略网络结构;状态价值函数网络结构为五层,包括第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层和输出层,第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层的节点数分别为256个、128个、128个、128个。第一隐藏层和第二隐藏层在传递时加入rule激活函数,第四隐藏层到网络的输出层不加rule激活函数;策略网络结构分别计算输出量的均值和方差,分别记为ε和δ;计算输出量均值部分的神经网络包含四层隐藏层,分别为第一隐藏层、第二隐藏层、第三隐藏层以及第四隐藏层,节点数依次是256个、128个、128个、128个;计算输出量方差部分的神经网络包含二层隐藏层,分别为第一隐藏层和第二隐藏层,节点数依
次是256个、128个;策略网络结构计算输出量均值部分的第一隐藏层和策略网络结构计算输出量方差部分的第一隐藏层是同一网络结构层,策略网络结构的所有隐藏层之间的激活函数均为relu激活函数,计算输出量均值ε的输出层之前的激活函数为tanh激活函数,计算输出量方差δ之前的激活函数为softplus激活函数,策略网络结构的输出为一个高斯分布的采样值:a_norm~n(ε,δ);
[0040]
(b5)促进算法收敛设计:在一次磨削机器人训练开始前,重置磨削机器人的位姿使末端执行器的法向坐标在当前位置
±
0.01m区间内随机选择一个数值作为新一次训练的磨削起始点,可以使算法和环境交互时获得更多的状态量,从而促进算法收敛。
[0041]
所述的步骤(c)基于ppo算法的神经网络模型的训练,采用ppo算法进行磨削机器人恒力控制训练,设定总训练次数为100次,每一次训练包含200个训练步骤,磨削机器人和工件进行交互,交互的数据按照时间序列存储在经验池中;每当经验池数量满时,将数据全部依照ppo算法对神经网络模型进行参数迭代,直到100次训练全部结束,将神经网络模型取出作为磨削机器人恒力控制的控制器来使用,训练的模型需满足策略网络结构收敛至稳定状态。
[0042]
所述的将训练好的神经网络模型直接被用来当作磨削机器人恒力控制的控制器,输入为归一化处理后的磨削机器人状态量s_norm,输出为归一化处理后的磨削机器人控制量a_norm。
[0043]
所述的控制器的输出直接为a_norm;与当前末端执行器法向坐标叠加后生成机器人控制位置,通过机器人逆运动学得到机器人的关节角度进行控制实现补偿。
[0044]
本发明的收益效果在于:
[0045]
(1)本发明提出的方法,可以使磨削机器人在磨削平面和曲面的过程中保持磨削力在目标磨削力上,且有一定的自适应能力。
[0046]
(2)本发明采用ppo算法训练出来的磨削机器人恒力控制器实际上为深度神经网络,具有较好的鲁棒性能,无需提前建立精准的磨削力差值和法向补偿位移之间的先验模型,通过ppo算法训练两者之间的关系模型,通过磨削机器人当前的力状态直接解算出磨削机器人的法向补偿位移,简化了磨削机器人恒力控制过程。
附图说明
[0047]
图1(a)是磨削机器人磨削平面时的末端执行器受力分析图;图1(b)是磨削机器人磨削曲面时的末端执行器受力分析图。
[0048]
图2是基于强化学习磨削恒力控制的原理图。
[0049]
图3是ppo算法流程图。
[0050]
图4是磨削机器人恒力控制环境图。
[0051]
图5是状态价值函数网络结构和策略网络结构设计图。
[0052]
图6是基于深度强化学习ppo算法的磨削恒力控制训练流程图。
[0053]
图7是本发明实施例的磨削机器人磨削平面100次仿真试验轨迹图。
[0054]
图8(a)是本发明实施例的磨削机器人磨削平面的单次仿真力变化图;图8(b)是本发明实施例的磨削机器人磨削平面的单次仿真奖励变化图。
[0055]
图9是本发明实施例的磨削机器人磨削曲面100次仿真试验轨迹图。
[0056]
图10(a)是本发明实施例的磨削机器人磨削曲面的单次仿真力变化图;图10(b)是本发明实施例的磨削机器人磨削平面的单次仿真奖励变化图。
具体实施方式
[0057]
下面结合实施例,进一步说明本发明。
[0058]
ppo算法采用标准的actor-critic框架,演员(actor)使用基于策略函数的方法,其网络在接收到系统状态后输出相应的动作。评论家(critic)使用一种基于价值函数的方法,评论家评价演员产生的动作,并给演员建议。随着训练的进行,评论家提高了对奖励的预测准确率,行动者根据评论家的建议改进了控制策略。为了具体的说明算法,绘制参数表如表1所示:
[0059]
表1:ppo算法参数说明表
[0060]
[0061][0062]
强化学习算法的本质是使得智能体学习到最优的策略,最大化一条完整轨迹上所能获得的累计奖励,即回报:
[0063]gt
=r
t
+γr
t+1
+...+γ
n-1rn
[0064]
actor接收到state后,通过正态分布公式计算出action并在环境中执行,得到下一个系统状态s_和奖励r,buffer将系统状态s,动作a,奖励r和下一个时刻的状态s_储存,提供数据给actor和critic使用。actor网络产生mu和sigma两个输出值,mu以tanh为最终激活函数的值,sigma为以softplus为最终激活函数的值。将这两个值带入正态分布,作为所选动作的概率分布,即actor的控制策略。
[0065]
critic利用buffer的值计算出优势函数a,a(s,a)=tdtarget-v(s)
[0066]
其中,tdtarget=v_=v_*γ+r
t
[0067]
得到的优势函数a作为critic的建议送给actor,优势函数a的平方均值被定义为critic的损失,通过反向传播降低批评家的损失价值。
[0068]
在ppo算法中,为了使得每次更新的新策略与更新之前的旧策略不会出现差异太大而导致算法不收敛的现象,对策略的更新加入一定的约束条件。
[0069]
智能体采用新策略所获得的期望回报相较于采用旧策略所获得的期望回报,性能的提高不期望超过一定的阈值,称为裁剪值,用ε表示(裁剪值通常取为0.2)。由于当策略还未更新时,无法计算新策略的期望回报值,引入重要性采样的方法,使用旧策略的分布来估算新策略的分布,计算更新后的策略期望回报值为:
[0070][0071][0072]
加入裁剪限制后,保证函数的值维持在[1-ε,1+ε]中,得到的损失函数用反向传播更新actor函数。
[0073]
[0074]
算法的伪代码如表2所示:
[0075]
表2 proximal policy optimization

clip算法的伪代码
[0076][0077][0078]
参见图6可知,本发明的一种基于深度强化学习ppo算法的磨削恒力控制方法,包含以下步骤:
[0079]
(a)首先对球形砂轮磨削过程时的末端执行器进行受力分析,通过力处理获取真实磨削力;(b)利用深度强化学习ppo算法训练当前磨削力和预设磨削力之差与末端执行器法向补偿位移之间的关系模型,包括搭建环境模型、训练数据归一化预处理、基于欧式距离的奖励函数设计、针对性深度神经网络结构设计与促进算法收敛设计;
[0080]
(c)基于ppo算法的神经网络模型的训练;
[0081]
(d)将训练好的神经网络模型作为磨削机器人恒力控制器使用。
[0082]
所述的步骤(a)获取真实磨削力包括以下步骤:
[0083]
(a1)受力分析:根据磨削时的模型,建立传感器坐标系、工件坐标系之间的位姿关系;设ft和fn分别为工件坐标系上的磨削切向力和法向力,f

t和f

n表示将ft和fn转移到力传感器坐标系上的力,则有:f

t=ft,f

n=fn;采用上述位姿进行磨削作业时,法向力fn为影响磨削效果的主要对象,但是在磨削过程中力传感器安装在机器人末端和磨削工具之间,其测量值fs不仅包括磨削末端的法向磨削力fn,还包括自身的重力g和惯性力fl,即fs=fn+g+fl;
[0084]
(a2)力处理:由于磨削过程为匀速,加速度为0,所以惯性力fl很小,可以忽略不计;手动将磨削机器人末端执行器调整到竖直向下的位姿,不和磨削工件接触,此时fn为0,由于重力g的方向一直竖直向下,与基坐标的z轴方向相反,在基坐标下可以表示为bfg=[0,0,-g
t
]
t
,当机械臂变换位姿时,可以用旋转矩阵把基坐标的值转换为传感器坐标的值,即其中
sfg
为传感器坐标系下的重力的影响值,所以在传感器坐标系下的磨削值即真实磨削力sfn为测量值减去
sfg
,即sfn=fs-sfg

[0085]
所述的步骤(b)利用深度强化学习ppo算法训练当前磨削力和预设磨削力之差与末端执行器法向补偿位移之间的关系模型,包括以下内容:
[0086]
(b1)搭建环境模型:可以把磨削过程看作马尔可夫决策过程,简称mdp,将力传感器的数值经过处理输入到agent中,agent输出一个末端执行器的法向补偿位移并执行获得一个新的力传感器数值和奖励;
[0087]
(b2)训练数据归一化预处理:在基于深度强化学习恒力控制中,根据环境模型,输入状态量s=[fx,fy,fz,mx,my,mz],为经过力处理的仿真环境六维力传感器的测量值,分别为传感器坐标下的x轴、y轴、z轴的力和力矩;输出动作为末端执行器的法向补偿位移;分别对深度神经网络的输入状态量和输出动作除以对应的上限值,使其中每个元素在进入算法训练之前的值域为[-1,1];归一化处理后的输入状态量记为s_norm,且其中fmax为磨削力最大阈值,mmax为磨削力矩最大阈值;归一化处理后的输出动作记为a_norm;磨削机器人每时刻的采样数据经过训练数据归一化处理后被算法程序收集,用于磨削机器人磨削恒力控制训练过程;
[0088]
(b3)基于欧式距离的奖励函数设计:训练的目标是使当前磨削力能够达到目标磨削力,当前磨削力和目标磨削力的差值越小,获得的奖励越高,因此,设计针对磨削机器人磨削力恒力控制问题深度强化学习算法中使用的奖励函数为:其中,r为每时刻获得的奖励值,bf为当前磨削力,f
target
为目标磨削力;对获得的奖励进行归一化处理,与输入状态量和输出动作变成同一数量级作为训练时的数据;
[0089]
(b4)针对性深度神经网络结构设计:深度神经网络结构包括状态价值函数网络结构和策略网络结构;状态价值函数网络结构为五层,包括第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层和输出层,第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层的节点数分别为256个、128个、128个、128个。第一隐藏层和第二隐藏层在传递时加入rule激活函数,第四隐藏层到网络的输出层不加rule激活函数;策略网络结构分别计算输出量的均值和方
差,分别记为ε和δ;计算输出量均值部分的神经网络包含四层隐藏层,分别为第一隐藏层、第二隐藏层、第三隐藏层以及第四隐藏层,节点数依次是256个、128个、128个、128个;计算输出量方差部分的神经网络包含二层隐藏层,分别为第一隐藏层和第二隐藏层,节点数依次是256个、128个;策略网络结构计算输出量均值部分的第一隐藏层和策略网络结构计算输出量方差部分的第一隐藏层是同一网络结构层,策略网络结构的所有隐藏层之间的激活函数均为relu激活函数,计算输出量均值ε的输出层之前的激活函数为tanh激活函数,计算输出量方差δ之前的激活函数为softplus激活函数,策略网络结构的输出为一个高斯分布的采样值:a_norm~n(ε,δ);
[0090]
(b5)促进算法收敛设计:在一次磨削机器人训练开始前,重置磨削机器人的位姿使末端执行器的法向坐标在当前位置
±
0.01m区间内随机选择一个数值作为新一次训练的磨削起始点,可以使算法和环境交互时获得更多的状态量,从而促进算法收敛。
[0091]
所述的步骤(c)基于ppo算法的神经网络模型的训练,采用ppo算法进行磨削机器人恒力控制训练,设定总训练次数为100次,每一次训练包含200个训练步骤,磨削机器人和工件进行交互,交互的数据按照时间序列存储在经验池中;每当经验池数量满时,将数据依照ppo算法对神经网络模型进行参数迭代,直到100次训练全部结束,将神经网络模型取出作为磨削机器人恒力控制的控制器来使用,训练的模型需满足策略网络结构收敛至稳定状态。
[0092]
所述的将训练好的神经网络模型直接被用来当作磨削机器人恒力控制的控制器,输入为归一化处理后的磨削机器人状态量s_norm,输出为归一化处理后的磨削机器人控制量a_norm。
[0093]
所述的控制器的输出直接为a_norm;与当前末端执行器法向坐标叠加后生成机器人控制位置,通过机器人逆运动学得到机器人的关节角度进行控制实现补偿。
[0094]
传统的智能磨削机器人恒力控制算法需要提前建立精准的先验模型,例如磨削力误差和补偿位移之间的关系模型。
[0095]
不同于传统的磨削机器人恒力控制算法,本发明的一种采用深度强化学习ppo算法来训练力误差和法向补偿位移之间的关系模型,使用训练完成的控制器进行恒力控制。控制器的输入为经过处理后的六维力传感器的值,输出为末端执行器的法向补偿位移控制量,通过更改末端执行器和工件的接触状态控制磨削力。
[0096]
磨削机器人磨削平面时的末端执行器受力分析图如图1(a)所示。
[0097]
磨削机器人磨削曲面时的末端执行器受力分析图如图1(b)所示。
[0098]
基于强化学习磨削恒力控制的原理图如图2所示。
[0099]
ppo算法流程图如图3所示。
[0100]
如图4所示,为本实施例的磨削机器人恒力控制环境图。图5是深度神经网络的设计图。图6是基于深度强化学习ppo算法的磨削恒力控制训练流程图。
[0101]
为了方便理解本发明的上述技术方案,以下通过具体实施例对本发明的上述技术方案进行详细说明。现通过本发明的方法,设计并训练机器人磨削恒力控制器,使得机器人的磨削力可以达到目标磨削力上。整个控制器设计、训练与验证过程均在仿真环境下完成。
[0102]
依据发明内容中的要求,设定对于该特定任务的参数如表3所述:
[0103]
表3-设定对于该特定任务的参数:
[0104]
参数数值末端执行器的质量m0.02kg机器人移动速度v0.01m/s磨削力最大阈值fmax10n目标磨削力f
target
(0,0,1n,0,0,0)
[0105]
根据参数的数值,根据本发明的方法训练出机器人磨削恒力控制器,并将训练好的控制器应用于以下两种不同的情景中,验证算法的可行性和自适应性。
[0106]
1.机器人磨削平面工件的恒力控制
[0107]
初始时,手动将机器人移动到工件磨削起始点的上方,使末端执行器接触到工件作为磨削机器人的初始位置。使用示教的方式提前设定训练轨迹,机器人带动末端执行器按照训练轨迹匀速运动。进行了100次随机训练,在每一次训练开始前,将机器人末端执行器的法向坐标在一定数值内随机选择作为新一次训练的初始位置,得到机器人磨削平面恒力控制的总奖励图如图7所示,由图可以看出,随着训练次数的增加,总奖励值不断增大,最后稳定在-50左右上下波动。说明当前磨削力和目标磨削力的差距不断缩小,然后在目标磨削力上下波动。
[0108]
取收敛后的任意一组实验结果,其六维磨削力变化如图8(a)所示,其奖励函数的变化如图8(b)所示,由图8可以看出,当机器人随机设定末端执行器的法向坐标后,算法迅速让当前磨削力达到目标磨削力上下波动,奖励函数也在不断增大,说明了算法的可行性。
[0109]
2.机器人磨削曲面工件的恒力控制
[0110]
初始时,手动将机器人移动到工件磨削起始点的上方,使末端执行器接触到工件作为磨削机器人的初始位置。使用示教的方式提前设定训练轨迹,机器人带动末端执行器按照训练轨迹匀速运动。进行了100次随机训练,在每一次训练开始前,将机器人末端执行器的法向坐标在一定数值内随机选择作为新一次训练的初始位置,得到机器人磨削曲面恒力控制的总奖励图如图9所示,由图可以看出,虽然曲面磨削时的总奖励曲线收敛效果不如平面磨削总奖励曲线,但是随着训练次数的增加,总奖励值也不断增大,最后趋于-50上下波动。说明曲面磨削时当前磨削力和目标磨削力的差距也在不断缩小,最后在目标磨削力上下波动。
[0111]
取收敛后的任意一组实验结果,其六维磨削力变化如图10(a)所示,其奖励函数的变化如图10(b)所示,由图10可以看出,当机器人随机设定末端执行器的法向坐标后,算法迅速让当前磨削力达到目标磨削力上下波动0.2n,奖励函数也在不断增大,说明了算法的可行性,也说明了该算法的自适应性。
[0112]
本发明的收益效果在于:
[0113]
(1)本发明提出的方法,可以使磨削机器人在磨削平面和曲面的过程中保持磨削力在目标磨削力上,且有一定的自适应能力。
[0114]
(2)本发明采用ppo算法训练出来的磨削机器人恒力控制器实际上为深度神经网络,具有较好的鲁棒性能,无需提前建立精准的磨削力差值和法向补偿位移之间的先验模型,通过ppo算法训练两者之间的关系模型,通过磨削机器人当前的力状态直接解算出磨削机器人的法向补偿位移,简化了磨削机器人恒力控制过程。
[0115]
以上所述仅为本发明较佳可行的实施例而已,并非因此局限本发明的权利范围,
凡运用本发明说明书及附图内容所作的等效结构变化,均包含于本发明的权利范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1