一种机械臂协同抓取方法、系统、机械臂及存储介质

文档序号:34441035发布日期:2023-06-13 02:02阅读:47来源:国知局
一种机械臂协同抓取方法、系统、机械臂及存储介质

本发明涉及机械臂控制相关,尤其是涉及一种机械臂协同抓取方法、系统、机械臂及存储介质。


背景技术:

1、随着机器人技术和人工智能技术的快速发展,机器可替代人工从事各种各样的工作。为了实现机器替代人工从事各种各样的工作,需要机械臂进行机器学习(如深度学习、强化学习),以与外界环境进行交互,实现各种抓取任务。但由于不同优化算法的优化效果不同,得到的模型效果也就不同,导致机械臂的抓取成功率也有所不同。

2、目前常使用梯度下降法来训练神经网络,实质是将神经网络模型进行权重更新,经过多次迭代,神经网络收敛,得到最优模型。但梯度下降法存在以下问题:学习率决定优化器的可靠程度和风险度,学习率设置过高可能会导致优化器忽略全局最小值,容易陷入局部最优解,而过低则会导致运行时崩溃,花费大量时间,训练速度慢。梯度下降法得到收敛解需要很长时间,每一步都要计算和调整下一步的方向。当应用于大型数据集时,每个输入样本都需要更新其参数,每个迭代都需要遍历所有样本。一旦落入鞍点,梯度为零,模型参数不更新,模型训练的稳定性没有保障,导致机械臂抓取成功率低。


技术实现思路

1、本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种机械臂协同抓取方法,能够提高模型训练的稳定性,使机械臂得到更大的回报奖励,提高机械臂抓取成功率。

2、本发明还提供了一种机械臂协同抓取系统以及计算机可读存储介质。

3、根据本发明的第一方面实施例的机械臂协同抓取方法,包括以下步骤:

4、获取目标图像;

5、基于强化学习模型,根据所述目标图像控制机械臂进行强化学习训练,以抓取目标物体;所述强化学习模型在模型训练过程中采用动量分数阶梯度下降算法优化损失函数,所述动量分数阶梯度下降算法根据分数阶梯度下降算法和动量信息得到。

6、根据本发明实施例的机械臂协同抓取方法,至少具有如下有益效果:

7、通过将动量信息引入分数阶梯度下降算法中,可以得到带有动量信息的动量分数阶梯度下降算法,将动量分数阶梯度下降算法用来优化神经网络中的损失函数,可以提高模型训练的稳定性,能够得到更优的强化学习模型。通过将动量分数阶梯度下降算法应用到强化学习模型中,并基于强化学习模型,根据目标图像控制机械臂进行强化学习训练,以抓取目标物体,可以使强化学习中机械臂得到更大的回报奖励,提高机械臂抓取成功率。本发明实施例的机械臂协同抓取方法,能够提高模型训练的稳定性,使机械臂得到更大的回报奖励,提高机械臂抓取成功率。

8、根据本发明的一些实施例,所述动量信息包括一阶动量和二阶动量;所述动量分数阶梯度下降算法由以下步骤得到:

9、将所述一阶动量和所述二阶动量引入所述分数阶梯度下降算法,得到所述动量分数阶梯度下降算法,所述一阶动量为各个时刻梯度方向的平均值,所述二阶动量为过去各个时刻梯度的平方的线性组合。

10、根据本发明的一些实施例,所述动量分数阶梯度下降算法的约束公式为:

11、

12、式中,w为待优化参数,μ为学习率,k为迭代次数,α为分数阶的阶数,mk为所述一阶动量,vk为所述二阶动量,ε为最小常量,δ为权重衰减参数。

13、根据本发明的一些实施例,所述学习率为2e-3,所述一阶动量为0.9,所述二阶动量为0.999,所述分数阶的阶数为0.999,所述最小常量为1e-7,所述权重衰减参数为5e-3。

14、根据本发明的一些实施例,所述一阶动量的约束公式为:

15、mk=β1mk-1+(1-β1)gk

16、所述二阶动量的约束公式为:

17、vk=β2vk-1+(1-β2)gk2

18、式中,β1和β2为动量因子,gk为k时刻的梯度。

19、根据本发明的一些实施例,在所述根据所述目标图像控制机械臂进行强化学习训练,以抓取目标物体后,还包括以下步骤:

20、确定抓取结果和回报奖励。

21、根据本发明的一些实施例,所述强化学习模型采用dqn算法。

22、根据本发明的第二方面实施例的机械臂协同抓取系统,包括:

23、目标图像获取单元,用于获取目标图像;

24、抓取控制单元,用于基于强化学习模型,根据所述目标图像控制机械臂进行强化学习训练,以抓取目标物体;所述强化学习模型在模型训练过程中采用动量分数阶梯度下降算法优化损失函数,所述动量分数阶梯度下降算法根据分数阶梯度下降算法和动量信息得到。

25、根据本发明实施例的机械臂协同抓取系统,至少具有如下有益效果:

26、通过将动量信息引入分数阶梯度下降算法中,可以得到带有动量信息的动量分数阶梯度下降算法,将动量分数阶梯度下降算法用来优化神经网络中的损失函数,可以提高模型训练的稳定性,能够得到更优的强化学习模型。通过将动量分数阶梯度下降算法应用到强化学习模型中,并基于强化学习模型,根据目标图像控制机械臂进行强化学习训练,以抓取目标物体,可以使强化学习中机械臂得到更大的回报奖励,提高机械臂抓取成功率。本发明实施例的机械臂协同抓取系统,能够提高模型训练的稳定性,使机械臂得到更大的回报奖励,提高机械臂抓取成功率。

27、根据本发明的第三方面实施例的机械臂,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面实施例所述的机械臂协同抓取方法。由于控制装置采用了上述实施例的机械臂协同抓取方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。

28、根据本发明的第四方面实施例的计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面实施例所述的机械臂协同抓取方法。由于计算机可读存储介质采用了上述实施例的机械臂协同抓取方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。

29、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。



技术特征:

1.一种机械臂协同抓取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的机械臂协同抓取方法,其特征在于,所述动量信息包括一阶动量和二阶动量;所述动量分数阶梯度下降算法由以下步骤得到:

3.根据权利要求2所述的机械臂协同抓取方法,其特征在于,所述动量分数阶梯度下降算法的约束公式为:

4.根据权利要求3所述的机械臂协同抓取方法,其特征在于,所述学习率为2e-3,所述一阶动量为0.9,所述二阶动量为0.999,所述分数阶的阶数为0.999,所述最小常量为1e-7,所述权重衰减参数为5e-3。

5.根据权利要求2或3所述的机械臂协同抓取方法,其特征在于,所述一阶动量的约束公式为:

6.根据权利要求1所述的机械臂协同抓取方法,其特征在于,在所述根据所述目标图像控制机械臂进行强化学习训练,以抓取目标物体后,还包括以下步骤:

7.根据权利要求1所述的机械臂协同抓取方法,其特征在于,所述强化学习模型采用dqn算法。

8.一种机械臂协同抓取系统,其特征在于,包括:

9.一种机械臂,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一所述的机械臂协同抓取方法。

10.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1至7中任一所述的机械臂协同抓取方法。


技术总结
本发明公开了一种机械臂协同抓取方法、系统、机械臂及存储介质,机械臂协同抓取方法包括以下步骤:获取目标图像;基于强化学习模型,根据目标图像控制机械臂进行强化学习训练,以抓取目标物体;强化学习模型在模型训练过程中采用动量分数阶梯度下降算法优化损失函数,动量分数阶梯度下降算法根据分数阶梯度下降算法和动量信息得到。本发明实施例的机械臂协同抓取方法,能够提高模型训练的稳定性,使机械臂得到更大的回报奖励,提高机械臂抓取成功率。

技术研发人员:赵东东,吴思敏,赵志立,孙卫国,孙万胜,张国华,阎石
受保护的技术使用者:兰州大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1