本发明涉及机器人操作,具体提供一种基于多视图数据的堆叠场景操作关系检测方法及系统。
背景技术:
1、抓取是各种机器人操作任务的基本和关键技能。在物体堆叠的场景中,机器人需要推断出正确的抓取顺序以进行安全可靠的操作。例如抓取目标在玻璃杯下时,机器人最好先将杯子移开,以防破碎。推理抓取顺序的过程被定义为操作关系检测。目前,许多研究集中在非结构化环境中抓取区域的视觉检测。在非结构化环境中,可能会出现视觉错位的现象,从而导致操作关系的错误检测。因此,在视觉错位不可避免的情况下,保证操作关系的正确识别具有重要意义。
2、基于深度学习的方法在单视图操作关系上取得了巨大成功。vmrn提出视觉操作关系检测,对rgb图像中的对象和对象对进行编码,并融合它们的高维特征来推断操作关系。crf-vmrn在关系推理过程中加入条件随机场。ggnn-vmrn通过transformer对对象对的全局上下文信息和位置信息进行编码。然后应用门控图神经网络来融合编码特征。然而,上述算法在不同视角的数据下识别能力有限。由于多个视角的数据可以缓解上述问题,因此本发明实施例拟利用多视角数据对深度神经网络进行训练。yang等人指出,不同视角的数据之间存在分布差异,因此在单一视角下进行训练的网络模型无法运用到其他视角数据上。regrad在虚拟环境中收集大规模数据集用于机器人抓取,他们验证多视图数据中的vmrn网络而忽略多视图数据中的存在的分布差异的问题。此外,空间关系可以应用于操作关系检测等人通过物体在空间中的三维点云的xyz坐标来确定物体对之间的相对位置。但是该算法的应用场景很简单。因此,多视角数据下的操作关系检测的一个挑战是存在差异的不同视角数据之间操作关系的一致表征学习。
技术实现思路
1、针对现有技术存在的技术问题,本发明提供了一种基于多视图数据的堆叠场景操作关系检测方法及系统。本发明通过识别与不同领域的操作关系相关的领域特定特征的关联来增强视图的一致性。
2、为实现上述目的,本发明提供了如下的技术方案:
3、本发明第一方面是提供一种基于多视图数据的堆叠场景操作关系检测方法,包括:
4、将不同视角的场景数据输入特征提取器来获得场景特征;
5、将来自不同视图的图像和对应的场景特征投影到一个公共隐藏空间中,并使用一组冯米尔赛分布拟合嵌入,使得场景特征进行显示分布对齐;
6、显示分布对齐后采用最大垂直角邻居点集来表示每个对象对的相对位置;
7、将每个对象对的相对位置连接多视图二维和三维数据的特征,送入操作关系分类器以预测成对对象的操作关系。
8、作为本发明进一步改进,所述将不同视角的场景数据包括:
9、来自四个不同视图的rgb和深度图像的合成数据和包含来自单个视图的rgb图像的真实世界数据。
10、作为本发明进一步改进,所述将不同视角的场景数据输入特征提取器来获得场景特征,包括:
11、通过在特征提取器每一层图像特征后添加梯度反转层,使得域分类器与特征提取器的梯度反转,实现域分类器与特征提取器的对抗学习,得到场景特征。
12、作为本发明进一步改进,所述使得场景特征进行显示分布对齐是在物体层面实现不同视角的数据的对齐,通过将物体的特征进行显示的分布表达。
13、作为本发明进一步改进,所述使用一组冯米尔赛分布拟合嵌入,使得场景特征进行显示分布对齐,包括:
14、源域中的实例级特征通过显示的分布表示进行对齐,源域和目标域中的特征通过源域和目标域之间的余弦相似度度量对齐。
15、作为本发明进一步改进,所述冯米尔赛分布的概率密度函数表达式为:
16、p(z∣μ,κ)=cd(κ)exp(κμtz)
17、
18、其中z为变量;集中参数κ:它控制了分布在球面上集中的程度。较大的κ值表示数据点更倾向于集中在球面上,而较小的κ值会导致分布更加扩散;均值方向参数μ:它代表了分布在球面上的中心位置,是一个单位向量,表示分布的平均方向;。c(d)表示在d维球面上的归一化常数,其计算方式依赖于维度d。在3维空间中,它可以用bessel函数来表示。
19、混合冯米尔赛分布为:
20、
21、其中,θk=(πj,μj,kj),是该分布的一系列参数,πj是第j类的混合比例。对于源域的有标签数据,利用vmfml损失函数来约束网络:
22、对于源域的有标签数据,利用vmfml损失函数来约束网络:
23、
24、
25、其中是源域中的第i个样本属于第j类的概率,k是类别总数,n是源域中样本总数。
26、对于没有标签的目标域数据,利用em算法来估计冯米尔赛分布的参数,具体过程为:
27、e步:最大化似然函数,估计的后验分布为:
28、
29、m步:参数估计
30、
31、
32、使用从源域数据中训练出来的参数进行初始化,然后通过
33、
34、来实现源域和目标域分布对齐。
35、作为本发明进一步改进,所述显示分布对齐后采用最大垂直角邻居点集来表示每个对象对的相对位置,是通过计算最大垂直角之间的距离以及偏离程度来构建物体对之间的相对位置信息,具体包括:
36、最大垂直角是两个物体中所有点的方向矢量与z轴之间的最大垂直夹角的前k个点组成的点集,位于两个物体的最大垂直角分表示为:
37、
38、
39、通过最大垂直角构建的两维特征为:
40、
41、
42、
43、通过
44、
45、实现对所有网络的约束;
46、其中,ldet,lvmfml,lgrl,lrel分别是目标检测的损失函数、vmfml损失函数、域分类函数以及操作关系分类损失函数。
47、本发明第二方面是提供一种基于多视图数据的堆叠场景操作关系检测系统,包括:
48、特征提取模块,用于将不同视角的场景数据输入特征提取器来获得场景特征;
49、分布对齐模块,用于将来自不同视图的图像和对应的场景特征投影到一个公共隐藏空间中,并使用一组冯米尔赛分布拟合嵌入,使得场景特征进行显示分布对齐;
50、位置表示模块,显示分布对齐后采用最大垂直角邻居点集来表示每个对象对的相对位置;
51、特征连接模块,将每个对象对的相对位置连接多视图二维和三维数据的特征,送入操作关系分类器以预测成对对象的操作关系。
52、本发明第三方面是提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于多视图数据的堆叠场景操作关系检测方法。
53、本发明第四方面是提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述基于多视图数据的堆叠场景操作关系检测方法。
54、与现有技术比,本发明具有如下优点:
55、本发明实施例将来自不同视图的图像和物体的特征投影到一个共同的隐藏空间中,并利用冯米尔赛分布对嵌入进行拟合。通过将分布对齐,以减少来自不同领域的数据的表示差异。最后,将多视图二维和三维数据的特征进行拼接,预测目标的成对关系。具体是本发明通过加入三维数据构建物体对的相对位置特征,使得物体对之间的相对位置表征的更加准确;利用冯米尔赛分布对特征进行显示分布对齐,分类效果更好;同时利用合成数据和真实数据,可以在一定程度上消除虚拟到真实的差距;利用最大垂直角模块可以被拼接在任意三维数据模块中,实现物体对相对位置的检测。