基于G-CNN和对比学习的三维目标检测方法及装置

文档序号:38214337发布日期:2024-06-06 18:49阅读:13来源:国知局
基于G-CNN和对比学习的三维目标检测方法及装置

本发明涉及图像的目标检测,尤其涉及一种基于g-cnn和对比学习的三维目标检测方法及装置。


背景技术:

1、大多数现有的基于bev的方法依赖于摄像头固有和外围参数的投影矩阵,这需要一个复杂而耗时的校准过程,这些参数可能会因振动、温度变化和机械应力等因素而发生变化,从而导致性能下降,并增加长期自动驾驶的运营成本。文献“jiang,h.et.al.multi-camera calibration free bev representation for3d object detection.”探讨了利用位置感知增强和视图感知注意力实现无校准方法的有效性,但仍然需要大量手动注释来训练模型以实现更好的3d物体检测结果。

2、现有基于深度学习的3d物体检测方法依赖于卷积神经网络(cnn)来提取特征。然而,cnn不具有旋转等变性,并且缺乏对图像特征旋转和由摄像机视角的视差引起的畸变的有效提取能力,传统的cnn网络对旋转特征的适应能力较差。

3、3d物体的标注需要使用诸如lidar、imu等多源传感器,并且需要大量的人力来获取标注。因此,与2d物体检测相比,3d物体检测的训练数据更难以获取,数据量不足限制了用于无校准3d物体检测的训练数据,也限制了3d物体检测模型的泛化和领域自适应能力,并且目前尚无关于使用对比学习进行3d目标检测任务的研究。

4、因此,目前对于无标定多摄像机3d物体检测的研究具有很高的需求性和挑战性。


技术实现思路

1、基于此,有必要针对上述问题,提出了一种基于g-cnn和对比学习的三维目标检测方法及装置。

2、本发明实施例提供一种基于g-cnn和对比学习的三维目标检测方法,该方法为:

3、构建编码器;

4、通过所述编码器在3d目标检测中进行特征提取,获得bev特征;

5、构建用于引导所述编码器进行隐式学习3d-2d投影关系的对比学习模块;

6、对所述对比学习模块进行自监督的预训练学习;

7、通过所述对比学习模块引导3d-2d投影模块对bev特征处理,获取正确的bev空间特征投影;

8、构建解码器;

9、所述解码器根据精炼编码器模块和对比学习模块输出的bev特征,获得最终的bev特征;

10、构建自顶向下的目标检测头;

11、通过目标检测头在bev空间中检测3d物体并回归边界框。

12、上述方案中,所述通过所述编码器在3d目标检测中进行特征提取,并对bev空间中的特征进行数据增强,获得bev特征,具体包括:

13、所述编码器由群等变卷积网络g-cnn和3d-2d投影模块组成,并形成主干网络;

14、所述群等变卷积网络(g-cnn)定义如下:y=x*w,其中,y是输出特征图,x是输入特征图,w是卷积核,*是群卷积操作,g∈g,h∈g,g都为所述对称群;

15、所述3d-2d投影模块从3d查询生成3d参考点后,将这些参考点映射到图像平面上进行特征采样,获得bev特征。

16、上述方案中,所述对所述对比学习模块进行自监督的预训练学习,具体包括:

17、所述对比学习模块的自监督训练损失函数根据全局和局部特征计算图像对的相似性并进行自监督的预训练学习。

18、上述方案中,所述自监督损失函数包含全局损失函数和局部损失函数,具体包括:

19、所述全局损失函数lg表示为:其中,n为输入相机图像个数,pi表示第i个相机的全局特征,pi+1表示与pi对齐的相应正样本,且k表示负样本的数量,负样本由同一帧中的其他三幅图像、以及同一批次中的其他图像组成,表示为t表示对比学习中的温度系数;

20、所述第i个相机全局特征pi的局部损失函数表示为:

21、其中,s表示根据宽高比将特征图划分的局部区域的数量,从而得到s2个局部特征,rs表示样本pi的局部特征,表示正样本pi+1中最相似的局部特征,表示与rs对应的k个负样本的局部特征的平均池化,k是负样本的数量;

22、所述与正样本pi+1中最相似的局部特征表示为:其中,表示从正样本pi+1中提取的形状为s×s的局部特征,r′是中的特征;

23、最终的损失函数l由所述全局损失函数lg和所述局部损失函数ll组成:l=λlg+(1-λ)ll;其中,λ是可调权重。

24、上述方案中,所述解码器根据精炼编码器模块和对比学习模块输出的bev特征,获得最终的bev特征,具体包括:

25、所述解码器由变换器块和群等变卷积网络(g-cnn)模块组成,用于bev特征提取,形成bev特征提取网络;

26、所述解码器将所述编码器通过所述3d-2d投影模块处理的bev输出特征作为输入,并通过三个解码器层进行bev特征提取,最终通过前向网络输出一组3d边界框。

27、上述方案中,所述通过目标检测头在bev空间中检测3d物体并回归边界框,具体包括:

28、所述目标检测头从bev空间特征图中预测一组固定大小为n的3d边界框,并使用匈牙利算法损失函数逐个将预测的3d边界框与地面真值框进行匹配,构成匹配预测损失函数,并在所述解码器输出后对3d边界框的参数进行回归。

29、上述方案中,所述匹配预测损失函数表示如下:

30、其中,yi是第i个地面真实3d边界框的类别标签,是与第i个地面真实3d边界框匹配的预测3d边界框的类别标签,ci和bi分别是第i个地面真实3d边界框的类别和位置,和分别是与第i个地面真实3d边界框对应的预测3d边界框的类别概率和位置,σ是一种排列,将地面真实3d边界框与预测3d边界框进行匹配,lbox(·,·)是评估地面真实3d边界框和预测3d边界框之间位置和形状差异的边界框损失函数。

31、上述方案中,通过所述匹配预测损失函数定义最小成本,使用匈牙利匹配算法使模型学习地面真实3d边界框与预测3d边界框之间的最佳对应关系,具体包括:其中,n为边界框的数量,为边界框匹配预测损失函数。

32、一种基于g-cnn和对比学习的三维目标检测装置,

33、编码器模块,用于构建编码器;还用于通过所述编码器在3d目标检测中进行特征提取,获得bev特征;

34、对比学习模块,用于构建用于引导所述编码器进行隐式学习3d-2d投影关系的对比学习模块;还用于进行自监督的预训练学习;引导3d-2d投影模块对bev特征处理,获取正确的bev空间特征投影;

35、解码器模块,用于构建解码器;还用于根据精炼编码器模块和对比学习模块输出的bev特征,获得最终的bev特征;

36、目标检测头模块,用于构建自顶向下的目标检测头;还用于通过目标检测头在bev空间中检测3d物体并回归边界框。

37、采用本发明实施例,具有如下有益效果:

38、本发明利用群等变卷积网络(g-cnn)从多视图图像中提取特征,并使用3d-2d投影模块学习隐式的3d到2d投影关系,采用对比学习来预训练3d-2d投影模块,通过解码器和目标检测头最终获得bev特征表示,消除了繁琐的校准需求,避免了校准错误,并减少了无需校准的3d物体检测对大量注释数据的依赖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1