一种目标物体位姿估计方法、系统及计算机可读存储介质

文档序号:37823771发布日期:2024-04-30 17:33阅读:20来源:国知局
一种目标物体位姿估计方法、系统及计算机可读存储介质

本发明涉及计算机视觉领域,尤其是一种基于双视角融合的目标物体位姿估计方法。


背景技术:

1、6d位姿估计是一项在计算机视觉和机器人领域广泛应用的技术,它通过对图像进行分析,寻找物体在三维空间中的位置和姿态信息。这一技术在三维重建、增强现实、自动化导航等领域具有重要意义。然而,由于光照变化、噪声干扰、遮挡情况、目标表面纹理较弱以及对实时性的要求,6d位姿估计的精度常常受到影响。其结果直接影响着系统对目标位置和姿态的准确理解,因此成为计算机视觉和机器人领域中的一个关键问题。

2、当前的6d位姿估计技术大致分为三种:整体方法(holistic methods)、基于关键点的方法(keypoint-based methods)和密集方法(dense methods)。

3、整体方法(holistic methods)旨在从单一镜头图像中直接估计出对象的3d位置和方向。传统方法(如《comparing images using the hausdorff distance》,huttenlocher d p等;《discriminative mixture-of-templates for viewpointclassification》,gu c等)主要依靠模板匹配技术,这些技术对杂乱的环境和外观变化很敏感。随着技术发展,cnn对环境变化表现出显着的鲁棒性,于是posenet(详见《posenet:aconvolutional network for real-time 6-dof camera relocalization》,kendall a等)引入了一种cnn架构,直接从单个rgb图像中回归6d相机姿势;然而,由于缺乏深度信息,直接在3d中定位对象很困难。为了克服这个问题,posecnn(详见《posecnn:aconvolutionalneural network for 6d object pose estimation in cluttered scenes》,xiang y)定位2d图像中的对象并预测它们的深度,然后再获得3d位置。

4、基于关键点的方法(keypoint-based methods)不是直接从图像中获取姿态,而是采用两阶段方法:首先预测物体的2d关键点簇,然后用pnp算法通过2d-3d对应关系计算姿态。2d关键点簇检测3d定位和旋转估计相对容易。对于纹理丰富的对象,如lowe d g等提出的《object recognition from local scale-invariant features》等传统方法鲁棒地检测局部关键点,因此即使在杂乱的场景和严重的遮挡下,也能高效、准确地估计物体姿态。然而,传统方法难以处理无纹理的对象和处理低分辨率图像,为了解决这个问题,rad m等提出的《ascalable,accurate,robust to partial occlusion method for predictingthe3d poses of challenging objects without using depth》定义了一组关键点,并使用cnn作为关键点检测器。另一类方法(如《6-dof object pose from semantickeypoints》,pavlakos g等)输出关键点的像素热图以解决遮挡问题。

5、密集方法(dense methods)中,每个像素或像素块都会对期望输出产生预测,然后在广义霍夫投票方案中对最终结果进行投票。有些工作使用随机森林来预测每个像素的3d对象坐标,并使用几何约束生成2d-3d对应假设。然而,这些方法需要rgb-d数据;而且与稀疏关键点相比,对象坐标为位姿估计提供了密集的2d-3d对应关系,对遮挡具有更强的鲁棒性,但是由于输出空间较大,回归对象坐标比关键点检测更难。

6、针对上述单一视角的6d位姿估计技术中的缺点和问题,领域内出现了多视角位姿细化技术。该技术呈现两个主要趋势,首先,它们都依赖于每个单目图像的独立姿态假设预测。其次,假设帧之间的相对相机变换是预先知道的。已知的摄像机变换用于融合全局坐标系中的多个视图的姿态预测。然后,要么选择与其他假设对齐最好的姿势假设,要么细化姿势以在3d空间中对齐更好。在kaskman r等提出的《6dof pose estimation oftextureless objects from multiple rgb frames》中,使用一组未校准的rgb图像来创建尺度模糊的3d重建。尽管该方法具有良好的性能,但它的缺点是它包含许多复杂且耗时的步骤,并且需要使用大量帧来获得可靠的重建。cosypose(详见《cosypose:consistentmulti-view multi-object 6d pose estimation》,y等)还依赖于每一帧的独立姿态假设,它们在ransac方案中被用来匹配来自多个帧的姿势假设,并且产生统一的对象级场景重建和近似的相对相机姿势,然后通过最小化多视图重投影误差来联合优化它们。zeng a等在《multi-view self-supervised deep learning for 6d pose estimation inthe amazon picking challenge》中提出了一种基于15到18张rgb-d图像的多视角6d姿态估计方法,他们使用一个完全卷积的神经网络分别对每个rgb图像进行2d对象分割。然后,将分割结果与深度图像融合为单个分割点云。上述所有的这些方法都都独立地对每个视图应用深度神经网络,但是duffhauss f等人提出的mv6d(详见《mv6d:multi-view 6d poseestimation on rgb-d frames using a deep point-wise voting network》)能够只通过一个整体大型网络接受可变数量的rgb-d帧,提取相关特征,并将它们融合为整个输入场景的联合特征表示,然后再对每个对象进行语义分割和3d关键点预测。

7、尽管现有的单一视角的6d位姿估计技术已经越来越完善,但在实际的6d位姿估计系统中,仍然存在着许多问题。目前的难点和重点包括低纹理物体,遮挡,光照等问题。现有的单一视角的6d位姿估计技术无法很好的克服弱纹理导致的深度、尺度模糊问题、遮挡问题、光照问题,而现有多视角融合6d位姿估计技术多采用了rgb-d传感器,融合3d点云来尝试解决单一视角的问题,但这导致了设备成本和计算成本的上升;或者融合策略是在r,t级别(se(3))进行融合;或者仅仅通过多视角来解决深度模糊问题。这些方法没有将各视角的采集的2d数据进行一个有效的融合。


技术实现思路

1、本发明的发明目的在于:针对上述存在的全部或部分问题,提供一种基于多视角融合的目标物体位姿估计方案,以解决现有的多视角融合问题中设备成本和计算成本高或局限于决策级的融合问题,提高2d数据对6d位姿估计的贡献。

2、本发明采用的技术方案如下:

3、一种目标物体位姿估计方法,其包括:

4、从两个视角采集的rgb图像中确定出内点率较高的视角和内点率较低的视角;

5、从内点率较低的视角中根据预定方法筛选出有效内点;

6、将内点率较高的视角中的内点与筛选出的有效内点相融合,形成内点集合;

7、根据所述内点集合进行位姿估计。

8、进一步的,所述从两个视角采集的rgb图像中确定出内点率较高的视角和内点率较低的视角,包括:

9、从每个视角采集的rgb图像中分别检测出2d关键点簇,所述2d关键点簇包含与所述目标物体的n个3d关键点一一对应的n组2d像素点,n为正整数;

10、分别运用各视角的所述2d关键点簇进行ransacpnp运算,得到各视角的内点率;

11、比较各视角的内点率,确定出内点率较高的视角view_high和内点率较低的视角view_low。

12、进一步的,所述分别运用各视角的所述2d关键点簇进行ransacpnp运算,得到各视角的内点率,包括:

13、运用ransacpnp分别对各视角的所述2d关键点簇进行预定轮数的迭代运算,每次迭代运算包括:

14、对应于目标物体的各3d关键点,从当前运算的视角的所述2d关键点簇中选取对应的2d像素点,根据与目标物体的3d关键点的对应关系,计算出位姿;

15、根据计算出的位姿将各所述3d关键点重投影到像平面,得到对应的第一重投影2d像素点;

16、分别计算所述2d关键点簇中的各2d像素点与对应的第一重投影2d像素点的欧式距离,将欧式距离满足第一条件的2d像素点确定为内点,计算内点率;

17、选取各轮迭代中的最高内点率作为该视角的内点率,并将以该轮迭代的内点计算的位姿作为该视角下的位姿。

18、进一步的,所述从内点率较低的视角中根据预定方法筛选出有效内点,包括:

19、将视角view_high的第一重投影2d像素点,根据视角view_high与视角view_low间的相对位姿,投影至视角view_low,得到第二重投影2d像素点;

20、对于视角view_low的2d关键点簇中的2d像素点,选取与所述第二重投影2d像素点的关系满足第二条件的2d像素点作为筛选出的有效内点。

21、进一步的,所述第二条件为:在历次迭代中,筛选出的有效内点相对于视角view_low原有2d关键点簇的占比最大。

22、进一步的,所述对于视角view_low的2d关键点簇中的2d像素点,选取与所述第二重投影2d像素点的关系满足第二条件的2d像素点作为筛选出的内点,包括:

23、以所述第二重投影2d像素点作为第一集合的初始值进行预定轮数的迭代运算,每次迭代运算包括:

24、选取视角view_low的2d关键点簇中,距离所述第二重投影2d像素点最近的且未被选取过的一组2d像素点加入所述第一集合;

25、计算所述第一集合的内点率;

26、选取内点率最高的一轮迭代中加入到所述第一集合的内点作为筛选出的有效内点。

27、进一步的,所述将内点率较高的视角中的内点与筛选出的内点相融合,包括:

28、将视角view_high中的各内点分别重投影到视角view_low中,得到一一对应的第三重投影2d像素点;

29、将所述第三重投影2d像素点与筛选出的内点进行合并。

30、进一步的,在计算出各视角的位姿后,还对计算出的位姿进行修正。

31、本发明还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,运行该计算机程序可执行上述的目标物体位姿估计方法。

32、本发明还提供了一种目标物体位姿估计系统,所述系统包括处理器,以及所述处理器连接的上述的计算机可读存储介质;所述处理器运行所述计算机可读存储介质中的计算机程序,以执行目标物体位姿估计方法。

33、综上所述,由于采用了上述技术方案,本发明的有益效果是:

34、本发明进行了基于2d预测关键点云的双视角融合算法设计,仅需要rgb图像即实现了2d点簇的融合,无需rgb-d传感器,达到了降低系统硬件成本的效果。本发明可以安插于任意一种基于2d关键点簇预测的位姿估计器后,具有很好的可移植性。本发明能够利用所有视角的图像中的有效2d信息并实现融合,即使是那些光照条件差、遮挡严重的视角下的图像中的有用信息也能够得到有效利用,提高了位姿估计精度。本发明的位姿估计结果相较于单视角位姿估计结果,在不同的实验条件下均有精度提升的效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1