本发明涉及图像处理、深度学习以及机器人抓取控制领域,特别涉及一种基于注意力机制的多尺度融合机器人抓取检测方法。
背景技术:
1、抓取检测(grasp detection),是为指定的机器人抓取器,获取可用于实际抓取操作的抓取方案的一种技术。在家庭和工业场景中,从桌子上抓取物体是机器人在独立运行或执行人机协作任务时一个非常重要和有挑战性的步骤。一般的,机器人抓取可分为抓取检测、轨迹规划和执行三个步骤。抓取检测是指机器人通过rgb或rgbd摄像机获取目标的视觉信息,然后利用这些视觉信息预测抓取模型来指导机械臂和抓取器执行抓取任务。
2、机器人的抓取力远远落后于人类的表现,并且是机器人领域中尚未解决的问题。当人们看到新颖的物体时,他们可以根据自己的经验本能地快速轻松地抓住任何未知物体。近年来展开了许多与机器人抓取和操纵有关的工作,但是实时的抓取检测仍然是一个挑战
3、抓取检测主要分为两类方法,一种是分析法,一种是经验法。分析法指的是依据机械手的各种参数,通过设计符合稳定性和灵活性等条件的力闭合约束条件来限定抓取位姿。这类方法,可以理解为一种基于动力学、几何学的约束问题的求解和优化。当抓取位姿满足力闭合条件时物体被夹具夹住,并在静摩擦力的作用下使得物体不再发生位移或旋转,从而维持抓取的稳定。分析法生成的抓取位姿能够确保目标物体的成功抓取,但这种方法通常只能应用在简单的理想模型上。实际场景的多变性、物体摆放的随机性、以及图像传感器的噪声等等,一方面增加了计算的复杂度,另一方面计算的精度无法得到保证。经验法就是利用知识库中的信息,去检测抓取位姿及判断其合理性。从物体的特征出发,利用相似性进行分类和位姿估计,从而达到抓取的目的。不需要像分析法那样需要预知目标物体的摩擦系数等等参数,具有更好的鲁棒性。但是经验法通常并不能兼顾实现精准性和实时性。
技术实现思路
1、为了克服上述现有技术的不足,本发明提供了一种基于注意力机制的多尺度融合机器人抓取检测方法,同时兼顾机械臂抓取的实时性和精确性。
2、本发明采用的技术方案为:
3、一种基于注意力机制的多尺度融合机器人抓取检测方法,包括:
4、构建抓取检测模型;
5、收集抓取数据集,其中包括rgb图像及相应的标注信息,及深度信息;对数据集进行尺度变换、平移、翻转和旋转的数据增强,扩充数据集,并对图像中所包含物体区域进行标定;
6、对数据集进行数据预处理,包括图像数据预处理及标注参数预处理,将扩充后的数据集按比例随机划分训练集和验证集;
7、利用训练集数据对提出的抓取检测模型进行训练,采用反向传播算法和基于标准梯度的优化算法来优化目标函数的梯度,使得检测得到的抓取框与真实值差异最小化;同时利用验证集对抓取检测模型进行测试,来调整抓取检测模型训练过程中的学习率,并一定程度避免抓取检测模型的过拟合;
8、根据训练得到的抓取检测模型,利用预处理之后的真实图像数据作为网络输入,抓取配置及抓取框五维表示作为抓取检测模型输出,最终映射到真实世界坐标。
9、上述技术方案中,所述抓取检测模型包括前端的特征提取器和后端的抓取预测器;其中特征提取器包括超大卷积模块、残差及多尺度模块、注意力模块依次连接。具体的,所述抓取检测模型可以包括:
10、通道特征提取层,采用超大卷积核和深度可分离的构建方法,用于分别提取rgbd的特征,降低模型的参数量,并对rgbd四通道的特征进行融合;再经过两次稀疏卷积降采样,进一步提取特征;
11、rbf多尺度感受层,由若干层残差模块和rbf模块构成,使用残差模块避免梯度消失问题,rbf模块利用多分支卷积层扩张和合并以及不同的大小的空洞卷积模拟人类感受野;
12、注意力编码层,采用空间注意力和正则化注意力的组合方式,之后经过上采样,将特征图的尺寸还原为输入尺寸大小;
13、抓取生成层,利用经过上采样的特征图,通过多分支的输出模式获得回归结果。
14、进一步地,所述抓取数据集可以包含当前已公开的cornell抓取检测数据集和jacquard抓取检测数据集;并且,标定上述两个数据集中图像包含的物品的类别以及轮廓位置信息。
15、进一步地,图像数据预处理包括图像的剪裁截取原始数据中心部分将输入图像的尺寸转换成适应模型的需求,其次将rgbd四通道的图像数据进行归一化的处理以加速网络的训练,最后将归一化之后的rgbd数据进行拼接,得到最终的数据作为网络模型的输入。
16、进一步地,标注参数处理包括:对抓取数据集的标签包括一系列的抓取位姿,每一个位姿分别转换成矩形框的形式来描述,即五维抓取表示{x,y,θ,w,h},将标签转换为{g,θ,w}的形式,其中g代表可抓取的区域,选取每个矩形的在沿长度方向中心1/3的部分作为可抓取位置的编码,可抓取位置编码为1,不可抓取位置编码为0;θ表示可抓取位置的角度,为了解决角度周期变化的问题,使用sin2θ和cos2θ来表示角度,将可抓取位置分别编码为sin2θ和cos2θ;w代表抓取的宽度,将可抓取部分编码为该位姿的宽度值h,并进行归一化处理以利于网络的收敛;所有的标签位姿组合形成最后p,sin2θ,cos2θ,w的标签图,其中p代表抓取位置。
17、进一步地,训练过程中损失函数定义为:
18、ltotal=lq+lsin2θ+lcos2θ+lwidth
19、其中lq为抓取质量分数损失、lsin2θ、lcos2θ为角度预测损失lwidth为宽度预测损失。
20、与现有技术相比,本发明的有益效果是
21、1、本发明方法利用注意力机制,引导抓取检测器关注于目标物体本身的特征。使得机器人能够根据目标物体自身的类别、结构及纹理特征预测该物体最合理的抓取位置;
22、2、本发明方法中,由超大深度可分离卷积可提取超大范围感受野rgbg四通道全局特征,由多级并联不同尺度空洞卷积提取具有多尺度特征融合的特征图,抓取模型可以有效综合全局和局部的特征信息,有效提高了检测准确度,同时加快了训练速度;
23、3、本发明利用轻量化的网络设计方法,保证精度的同时降低计算量,解决了抓取检测方法在真实场景中难以保证实时性的问题。
1.一种基于注意力机制的多尺度融合机器人抓取检测方法,其特征在于,包括:
2.根据权利要求1所述的基于注意力机制的多尺度融合机器人抓取检测方法,其特征在于,所述抓取检测模型包括前端的特征提取器和后端的抓取预测器;其中特征提取器包括超大卷积模块、残差及多尺度模块、注意力模块依次连接。
3.根据权利要求2所述的基于注意力机制的多尺度融合机器人抓取检测方法,其特征在于,所述抓取检测模型包括:
4.根据权利要求1所述的基于注意力机制的多尺度融合机器人抓取检测方法,其特征在于,所述抓取数据集包含当前已公开的cornell抓取检测数据集和jacquard抓取检测数据集;并且,标定上述两个数据集中图像包含的物品的类别以及轮廓位置信息。
5.根据权利要求1所述的基于注意力机制的多尺度融合机器人抓取检测方法,其特征在于,图像数据预处理包括图像的剪裁截取原始数据中心部分将输入图像的尺寸转换成适应模型的需求,其次将rgbd四通道的图像数据进行归一化的处理以加速网络的训练,最后将归一化之后的rgbd数据进行拼接,得到最终的数据作为网络模型的输入。
6.根据权利要求1所述的基于注意力机制的多尺度融合机器人抓取检测方法,其特征在于,标注参数处理包括:对抓取数据集的标签包括一系列的抓取位姿,每一个位姿分别转换成矩形框的形式来描述,即五维抓取表示{x,y,θ,w,h},将标签转换为{g,θ,w}的形式,其中g代表可抓取的区域,选取每个矩形的在沿长度方向中心1/3的部分作为可抓取位置的编码,可抓取位置编码为1,不可抓取位置编码为0;θ表示可抓取位置的角度,为了解决角度周期变化的问题,使用sin2θ和cos2θ来表示角度,将可抓取位置分别编码为sin2θ和cos2θ;w代表抓取的宽度,将可抓取部分编码为该位姿的宽度值h,并进行归一化处理以利于网络的收敛;所有的标签位姿组合形成最后p,sin2θ,cos2θ,w的标签图,其中p代表抓取位置。
7.根据权利要求1所述的基于注意力机制的多尺度融合机器人抓取检测方法,其特征在于,训练过程中损失函数定义为: