本发明属于具身机器人三维全景地图与场景图构建及更新,尤其涉及一种具身机器人三维场景图构建方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、近年来,大模型、具身智能技术突飞猛进,大量研究不断涌现,ai赋能实体设备实现“具身智能”引起全球期待。场景理解技术赋予机器人环境感知能力,帮助机器人正确的认知世界并高效的执行任务。
3、具体而言,机器人场景理解指的是机器人处理来自多种类型传感器的数据,提取有意义的语义信息,从而获得对环境的综合理解。能否充分理解复杂场景中的物体、物体间的关系甚至物体及人员间的关系,直接影响着具身机器人服务任务执行能力。
4、因此,提升具身机器人的环境感知和理解能力是具身机器人的重要研究方向之一,能够促进具身机器人更好地适应多样化、复杂化的服务场景,为人类提供更加智能、便捷的生活服务。
5、然而,目前的场景建图技术通常依赖静态环境假设,即假设环境中物体的位置和形态不会发生改变。但家庭场景中人员的存在会造成物体的变化,而目前的场景建图技术通常难以处理该问题,导致所构建的场景地图随着时间的推移与现实误差越来越大,直到无法使用。
6、因此,如何使具身机器人在场景中物体可能发生位置和状态变化的半静态场景中实现对所存储三维全景地图的更新和准确性维护是急需研究的关键问题。
7、发明人在研究中发现,相关的现有技术包括:
8、samuel looper等人提出一种基于可变三维场景图的长期物体实例变化预测方法,设计了一种基于图神经网络的模型并在3rscan数据集上进行训练,该模型能够对物体实例的状态、位置变化进行检测,能够提高机器人对半静态场景变化的自主认知。实验结果表明该方法可以在半静态环境中预测潜在的变化物体。
9、edith langer等人基于elasticfusion系统,结合了全局和局部方法的优势,提出一种综合语义和平面几何信息的物体变化检测算法,在室内环境的三维重建中有效地检测新物体,利用三维语义信息确定的全局结构来建立候选对象。然后通过将孤立几何与任务提供的参考重建进行比较,实现了半静态环境中位置变化物体的识别。
10、jiahui fu等人提出了一种基于神经描述场的物体级变化检测方法,对场景中物体的由于视角遮挡无法观测到的潜在形状进行编码,同时提出一种基于树搜索和特征相似度匹配算法实现视角遮挡下物体的变化检测,利用类别级神经描述场的形状补全能力,用紧凑的形状编码表示部分观测到的完整物体形状。实验效果证明该方法能够有效提高环境物体的变化检测能力。
11、ue-hwan kim等人提出了一种基于图像的增量式三维场景图构建方法,首先提取关键帧图像的局部场景图,其次利用语义、位置和颜色等信息判断多帧局部场景图中物体实例的相似度,最后采用直方图距离测量方法进行实例匹配从而实现全局三维场景图融合更新。作者证明了所提出方法在能够提高机器人的环境理解和任务规划能力。
12、上述传统的环境三维场景理解问题通常通过slam技术解决,然而,这种方法无法提取环境中物体的语义信息。随着深度学习的发展,图像理解技术,例如,目标检测、语义分割、实例分割和全景分割等,已经使具身机器人具备了较强的图像语义感知能力。全景建图因其全面的感知能力而备受关注。不同于仅关注语义或实例的建图方法,全景建图能够同时区分环境中的语义物体和实例物体,具备对前景与背景物体的综合感知能力。
13、三维场景图是一种精炼的场景表示模型,用图结构描述场景中物体的信息及物体间的关系信息,是对度量全景地图的精简和补充。现有的三维场景图构建方法往往基于已构建的场景地图,即直接将完整地图模型输入到端到端网络中实现预测。相比而言,增量式构建方法不但可以有效地减少计算和存储成本,还可以不断依据实时观测数据对场景图进行优化和完善。
14、实际应用中,增量三维场景图构建算法为具身机器人提供更高效的决策支持。通过实时获取当前观测中的场景信息,具身机器人执行家庭服务任务时可以及时根据环境中的变化做出相应的反应。家庭场景中的物体往往被频繁的移动,造成了家庭场景的半静态特性。如果具身机器人在家庭服务的过程中无法有效识别出发生位置或状态的物体,那么在构建环境地图时将无法剔除地图中的过时物体,导致地图准确性的不断下降。长期下来,具身机器人存储的地图与真实环境的匹配度不断降低,严重影响了具身机器人在家庭场景中的服务能力。
技术实现思路
1、为克服上述现有技术的不足,本发明提供了一种具身机器人三维场景图构建方法及系统,能够提高具身机器人对环境的理解认知能力和对任务的快速响应能力,提升了具身机器人的智能化程度。
2、为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
3、第一方面,公开了具身机器人三维全景地图和场景图构建及更新方法,包括:
4、获取全局场景图中三维物体实例物体数据,针对单帧图像提取三维物体及其相互关系的特征,得到三维场景图中单帧图像节点特征和边特征;
5、将节点特征和边特征输入至图神经网络,聚合图神经网络中节点和边的特征;
6、聚合后通过两层mlp对单帧图像的节点和边类别的预测;即获得局部场景图;
7、对于不同时刻的单帧图像的节点和边类别的预测结果,将预测的节点及边的所有类别的权重和概率进行存储并融合,并不断更新全局三维场景图,将三维场景图中每个节点所对应的图像掩膜投影到三维空间中,并将所预测的节点类别作为三维全景地图中物体实例的语义标签,构建出环境的三维全景地图;
8、基于构建的全局三维场景图及三维全景地图对半静态环境中需要更新的物体进行检测和更新。
9、作为进一步的技术方案,提取三维物体及其相互关系的特征,得到三维场景图中节点特征和边特征,具体步骤为:
10、三维物体实例数据,包括实例物体的点云及其三维包围盒;
11、基于点云和三维包围盒直接提取点云位置的标准差,三维包围盒中心点坐标、尺寸、边长最大值和体积;
12、将提取的数据进行处理后输入图神经网络,所述图神经网络的输出经过特征聚合和更新后的新特征。
13、作为进一步的技术方案,将节点特征和边特征输入至gnn,其中,采用两个消息传递层的gnn实现局部场景图的构建;
14、对于gnn的每个消息传递层,首先将节点特征和与其连接的边的特征进行聚合,再与其邻居节点特征进行聚合。
15、作为进一步的技术方案,对节点和边类别的预测时,包括:
16、采用损失函数对网络进行训练,损失函数中采用权重因子平衡节点和边的损失;
17、将三维场景图中每个节点所对应的图像掩膜投影到三维空间中,并将所预测的节点类别作为三维全景地图中物体实例的语义标签;
18、输出节点和边的具体类别。
19、作为进一步的技术方案,对半静态环境中需要更新的物体进行检测时,利用深度图分割算法将图像分割为多个纹理连续的实例掩膜;
20、分割之后对图像进行下采样以减少像素数量,并在此基础上依据相机的内参和外参执行投影得到当前观测下物体实例的稀疏点云。
21、作为进一步的技术方案,对半静态环境中需要更新的物体进行检测和更新之后还包括:利用相机视锥体和历史地图中物体的三维包围盒剔除当前视角下不可能被观测到的物体。
22、作为进一步的技术方案,剔除当前视角下不可能被观测到的物体之后,采用重投影的方法消除物体遮挡造成的误判;
23、之后,在三维空间中通过对当前视角下的可观测历史点云和实际观测点云进行对比检测发生位置变化的物体;
24、对于被判断为与某时刻观测数据产生冲突的物体,将其状态设置为待定,处于待定状态下的实例物体不参与三维全景地图和场景图构建中的实例融合;
25、若某个实例物体被连续的被判定为与具身机器人实时观测数据冲突,从地图中删除该待定状态的物体。
26、第二方面,公开了一种具身机器人三维全景地图和场景图构建及更新系统,包括:
27、特征提取模块,被配置为:获取全局场景图中三维物体实例物体数据,针对单帧图像提取三维物体及其相互关系的特征,得到三维场景图中单帧图像节点特征和边特征;
28、特征聚合模块,被配置为:将节点特征和边特征输入至图神经网络,聚合图神经网络中节点和边的特征;
29、节点和边类别预测模块,被配置为:聚合后通过两层mlp对单帧图像的节点和边类别的预测;
30、全局三维场景图构建模块,被配置为:对于不同时刻的单帧图像的节点和边类别的预测结果,将预测的节点及边的所有类别的权重和概率进行存储并融合,并不断更新全局三维场景图;
31、更新模块,被配置为:基于构建的全局三维场景图对半静态环境中需要更新的物体进行检测和更新。
32、以上一个或多个技术方案存在以下有益效果:
33、本发明技术方案提出了基于图神经网络的三维景图增量式构建算法,获取图像中的局部场景图,并对多帧局部场景图的预测结果进行融合,然后,采用高效的半静态环境下物体变化检测算法,基于图像几何分割结果实现了实例级的变化检测;最后,利用地图更新技术,通过融合多视角下的变化检测结果,实现了三维全景地图精度的长期维护。所提出框架能够提高具身机器人对环境的理解认知能力和对任务的快速响应能力,提升了具身机器人的智能化程度。
34、本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。