基于多智能体深度强化学习的移动物体机械臂抓取方法

文档序号:36372639发布日期:2023-12-14 09:26阅读:49来源:国知局
基于多智能体深度强化学习的移动物体机械臂抓取方法

本发明属于机械臂控制领域的一种机械臂抓取物体的方法,尤其涉及一种基于多智能体深度强化学习的移动物体机械臂抓取方法。


背景技术:

1、如今,服务型机器人在医疗、运输、机械制造等各领域都有很广泛的应用。在装配领域中,机械臂帮助工人抓取零件、工具,可以大幅度提升装配效率。目前,机械臂抓取问题作为一个经典问题,已经在近些年有了广泛的研究内容。然而,大多数研究只停留在对静态物体的抓取,在无规则环境下对任意移动物体的抓取的研究却很少。

2、机械臂抓取方法分为分析方法和数据驱动方法。早期研究人员采用分析方法来执行机械臂物体抓取任务。由于分析方法需要大量对移动抓取物体和环境的精确先备知识,近些年出现了越来越多数据驱动方法。数据驱动方法通过建立关于机械臂抓取的数据集,训练得到控制模型完成抓取任务。为了避免深度学习的缺点,如:需要耗费大量精力建立有标注的数据集,模型的抓取表现由于无法很好地将抓取姿势表示为输出量而受限,模型容易受到环境影响等,用强化学习做移动物体抓取开始成为一种新的方法。经典的强化学习模型以试错的方式学习,通过与环境交互获得的奖励指导接下来的行为,目标是使智能体获得最大的奖励。基于强化学习的移动物体抓取模型在不断尝试抓取物体的过程中寻找更高的奖励,最终训练为成功抓取物体并获得最高的奖励。例如,一种方法(专利申请公开号:cn112975977a)用深度相机识别目标物体和机械臂夹爪的位置并传输给计算机,计算机将机械臂末端执行器相对于物体的移动距离、机械臂移动步数、机械臂每个自由度舵机转动角度之和以及是否成功抓取目标物体的加权和作为ddpg深度确定性策略梯度网络的奖励机制,但是这种方法会使得强化学习模型容易陷入局部最优点、探索能力差。另一种方法(专利申请公开号:cn113752255a)用双目相机采集操作台上物体的图像后用yolo算法做目标检测,再通过强化学习模型对机械臂训练,使得机械臂完成抓取动作。该方法易于实现,但没有考虑样本对模型的训练价值,容易降低训练速度,且有可能无法收敛。

3、综上,基于强化学习的移动物体抓取的研究仍然存在很多的挑战,例如控制模型实时性低、适用性差,仿真结果难以部署到现实环境,训练时间长。


技术实现思路

1、为了解决背景技术中存在的问题和需求,本发明提供了一种基于多智能体深度强化学习的移动物体机械臂抓取方法,该方法通过rgbd相机收集物体信息,通过视觉检测算法和图像处理技术寻找目标在图像中的位置,再计算目标在机械臂基座坐标系中的三维位置,最后通过ma-td3h模型输出末端的三维移动速度完成移动物体抓取任务;

2、本发明的技术方案如下:

3、步骤s1:构建移动物体抓取平台,利用rgbd相机实时捕捉移动物体抓取平台上的移动物体图像,再对移动物体图像进行目标状态提取后,获得实时目标位姿;

4、步骤s2:建立机械臂抓取移动物体的深度强化学习模型ma-td3h;

5、步骤s3:深度强化学习模型ma-td3h根据实时目标位姿不断地控制机械臂不断尝试抓取目标物体,深度强化学习模型ma-td3h根据抓取结果对模型参数进行更新,从而提高抓取成功率,直至完成模型训练;

6、步骤s4:将待抓取的移动物体的实时目标位姿发送给训练完成的深度强化学习模型ma-td3h,进而控制机械臂夹爪靠近移动物体并完成抓取任务。

7、所述步骤s1中,对移动物体图像进行目标状态提取后,获得实时目标位姿,具体为:

8、s11:移动物体图像包括rgb物体图像和深度图像,对rgb图像进行目标区域和轮廓提取,获得目标轮廓图;

9、s12:根据目标轮廓图计算获得移动物体的抓取中心在相机坐标系下的二维坐标以及机械臂夹爪的抓取角度;

10、s13:根据相机到机械臂基座的坐标转换矩阵对抓取中心在相机坐标系下的二维坐标进行坐标转换后,再结合深度图像,获得抓取中心在基座坐标系下的三维坐标并记为移动物体的三维位置,由移动物体的三维位置以及机械臂夹爪的抓取角度组成实时目标位姿。

11、所述s11中,利用yolov3算法提取rgb图像中的目标图像区域,再利用canny算子对目标图像区域进行轮廓提取后,得到目标轮廓图。

12、所述s12具体为:

13、s121:利用霍夫变换提取目标轮廓图中的直线,统计各直线对应的斜率在各角度区间中的数目,根据直线对应的斜率所在数目最多的角度区间确定机械臂夹爪的抓取角度;

14、s122:计算目标轮廓图内的各点分别沿着抓取角度和垂直于抓取角度的角度到轮廓边缘的长度,进而分别计算各点的抓取置信度t,将抓取置信度t最大的点作为抓取中心,其中各点的抓取置信度t的计算公式如下:

15、

16、其中,l1和l2分别为每个点沿同一角度到轮廓两个边缘的长度,l3和l4为每个点沿另一个同一角度到轮廓两个边缘的长度,满足l1+l2>l3+l4;所述角度为抓取角度或垂直于抓取角度的角度。

17、所述步骤s2中,机械臂抓取移动物体的深度强化学习模型ma-td3h的状态s包括机械臂夹爪的三维位置和速度以及移动物体的三维位置和速度,动作a为机械臂夹爪的三维速度,奖励为单步总奖励值r,经验回放池包括普通经验回放池和高质量经验回放池。

18、所述单步总奖励值r的公式为:

19、r=rdense+rsparse

20、rdense=-wdis*ldis

21、其中,rdense为单步密集奖励值,rsparse为单步稀疏奖励值;ldis为机械臂末端与抓取目标在世界坐标系下的欧拉距离,wdis为距离对奖励值的影响因子;

22、单步稀疏奖励值rsparse的计算公式如下:

23、rsparse=rv+rg+rc+rt

24、

25、

26、

27、rt=-rt*tstep

28、其中,rv为在世界坐标系下机械臂末端相对于抓取目标的速度的二范数的奖励值;rg为机械臂抓取移动物体成功时的奖励值,rc为机械臂与目标发生碰撞时的惩罚值,rt为对时间步的惩罚项,rv为速度的固定奖励值,rg为抓取成功的固定奖励值,rc为发生碰撞的固定惩罚值,rt为对时间步的固定惩罚值,和为抓取目标的三维速度值,和为机械臂末端的三维速度值,tstep为当前训练的时间步。

29、所述步骤s3中,机械臂抓取移动物体的深度强化学习模型ma-td3h的训练过程中,当某条经验的单步总奖励值r高于当前奖励阈值时,则将该经验放入高质量经验回放池,否则放入普通经验回放池;在更新参数时,批量采样出的经验由采样比例t的普通经验回放池的经验和比例(1-t)的高质量经验回放池的经验组成。

30、预设多组奖励阈值和采样比例τ,所述深度强化学习模型ma-td3h的训练过程中,每训练预设个回合后,深度强化学习模型ma-td3h做预设次抓取测试,根据当前模型的抓取成功率选择对应的一组数值奖励阈值和采样比例τ。

31、所述步骤s3中,深度强化学习模型ma-td3h每当训练预设个回合后,对模型中的各智能体分别做抓取测试,将抓取成功率最大的智能体中的行动者网络记为当前测试的最优行动者网络基于最优行动者网络利用以下公式对其他行动者网络的参数进行更新:

32、

33、其中,为其他智能体的更新后的行动者网络,为其他智能体的更新前的行动者网络,μ为多智能体更新因子,εi为其他智能体的更新前的行动者网络的l2正则化。

34、所述步骤s4中,当机械臂夹爪与待抓取的移动物体的距离小于设定距离阈值时,机械臂夹爪抓取待抓取的移动物体。

35、本发明的有益效果是:

36、(1)本发明提出的ma-td3h模型可以对不同的目标在不同运动轨迹下完成抓取任务,通过仿真测试和真实实验发现,ma-td3h模型的抓取成功率优于其他模型。

37、(2)本发明在ma-td3h模型中加入了高质量经验回放池,该方法可以根据ma-td3h模型当前的抓取成功率选择对应的和τ的值,进而提高模型的抓取成功率。

38、(3)本发明用多智能体机制做强化学习训练,该机制使得ma-td3h模型能更快收敛,进而提高训练效率和抓取成功率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1