一种基于体素-点变换器的高效三维物体检测方法

文档序号:35226846发布日期:2023-08-24 22:49阅读:25来源:国知局
一种基于体素-点变换器的高效三维物体检测方法

本发明属于三维视觉领域,尤其是涉及一种基于体素-点变换器的高效三维物体检测方法。


背景技术:

1、基于点云的三维物体检测由于其广泛应用,例如自动驾驶和虚拟现实,变得越来越流行。

2、如公开号为cn115546267a的中国专利文献公开了一种基于三维激光雷达点云进行物体特征部位检测的方法,包括:获取物体的三维激光点云数据;根据三维激光点云中激光点在水平与垂直角度上的分布,将三维激光点云映射至二值化图像;从二值化图像中识别出物体中特征部位的关键特征点;反向映射所述关键特征点回到三维激光雷达点云,得到所述特征部位的三维激光雷达点云坐标。

3、公开号为cn113870160a的中国专利文献公开了一种基于变换器神经网络的点云数据处理方法,包括:构建三维物体对称检测模型,通过检测物体对称面/轴获取输入的点云数据的对称点,将点云数据的投影平面转换为对称结构的旋转平移操作,得到多组数据据增强后的点云图数据;通过变换器网络模型提取多组数据据增强后的点云图数据的全局特征信息和局部特征信息,得到下采样后的点云数据;结合不同的目标任务需求,构建任务驱动的任务网络模型,将下采样后的点云数据输入到任务网络模型,得到目标任务结果。

4、由于变换器中的注意力机制对输入排列具备不变性,将其用于处理无序点云引起了广泛关注。然而,由于自注意力的平方复杂度,处理大型点云时需要大量的计算和内存资源。为了克服这个问题,一些基于点的方法在下采样后的点集上执行注意力操作,而一些基于体素的方法则是在局部非空体素上使用注意力。然而,前者需要使用最远点采样来采样点云,这在大型室外点云场景中非常耗时,而后者不可避免地在体素化过程中引入量化误差,从而丢失准确的位置信息。


技术实现思路

1、本发明提供了一种基于体素-点变换器的高效三维物体检测方法,利用变换器同时结合了体素和点云表征的优势,使得模型能在保证运行效率的情况下,依旧能够达到先进的检测精度。

2、一种基于体素-点变换器的高效三维物体检测方法,包括:

3、(1)给定激光雷达点云,将激光雷达点云进行网格化,进而将其转化为离散的体素;

4、(2)将离散化后的体素输入三维骨干网络,进一步捕捉每个体素的高维语义特征;

5、(3)将体素及其高维语义特征输入查询初始化网络,从而生成三维参考点和内容查询;

6、(4)将激光雷达点云、三维参考点、内容查询、体素及其高维语义特征同时输入点-体素变换器中,在参考点的领域半径内采样点云和体素分别作为点标记和体素标记;

7、(5)将点标记、体素标记、三维参考点和内容查询作为输入,点-体素变换器通过点标记和体素标记与内容查询的特征相似度,自适应地将点标记和体素标记的特征融合进内容查询中;

8、(6)将融合特征后的内容查询输入到检测头网络中,进一步预测每个内容查询所对应的物体类别和边界框。

9、本发明结合体素和点表征的优势,并克服了它们各自的缺点。我们通过稀疏卷积将大规模点云转换为少量体素,然后从非空体素中采样以减少采样所造成的大量运行时间。然后,在pvt-ssd内部,体素特征与点云特征被自适应地融合以弥补量化误差所带来的精度损失。通过这种方式,体素提供的长程上下文和点提供的准确位置都得到了保留。

10、步骤(1)的具体过程为:

11、对于给定的激光雷达点云,计算点云在网格化空间中的坐标,将其分配至其所属的体素;如果体素内包含多个点云,则随机采样其中的一个点用来表示该体素。

12、步骤(2)中,所述的三维骨干网络由若干个稀疏卷积和子流形卷积构成,其中,由于稀疏卷积能够对体素进行下采样,使得体素的数量大幅减少,同时捕捉含高维语义信息的体素特征。

13、步骤(3)的具体过程为:

14、(3-1)将步骤(2)生成的体素以及高维语义特征输入到查询初始化网络中;其中,查询初始化网络包含分支1和分支2;

15、(3-2)在分支1中,首先将位于同一水平位置、不同高度的体素使用最大池化进行合并,再对池化后体素进行采样,最后每个被采样的体素预测中心位置偏移,并将坐标与偏移量相加,从而生成三维参考点;

16、(3-3)在分支2中,首先将位于同一水平位置、不同高度的体素用拼接进行合并,使得三维体素转换为二维特征图,再使用若干二维卷积进行特征提取,最后将分支1生成的三维参考点投影至二维特征图上,并进行双线性插值,从而获得内容查询。

17、步骤(4)的具体过程为:

18、(4-1)将步骤(3)的三维参考点和内容查询、步骤(2)的体素及其高维语义特征以及步骤(1)的激光雷达点云作为输入;

19、(4-2)在三维参考点的领域半径r1内随机采样由步骤(2)生成的体素及其高维语义特征,将随机采样得到的体素及体素特征作为体素标记;

20、(4-3)在三维参考点的领域半径r2内随机采样步骤(1)的激光雷达点云,得到随机采样的点后,通过在步骤(2)的体素上进行线性插值,获得每个点的特征,将采样得到的点以及其对应插值得到的点特征作为点标记。

21、在三维参考点的领域半径r2内随机采样步骤(1)的激光雷达点云时,采用快速邻居查询方法,首先,按照以下公式将点云投影至距离图:

22、

23、其中,θ为倾斜角,φ为方位角;

24、之后,通过在规则的二维距离图上进行邻居查询和采样,从而避免在不规则的三维空间的采样过程。

25、步骤(5)中,利用交叉注意力机制,根据标记与内容查询的特征相似度,将标记的特征融合进内容查询中,公式为:

26、

27、y=ffn(x)+x,

28、其中,attention为多头交叉注意力,ffn为前向网络,ps为标记的坐标,fs为标记的特征,pquery为三维参考点,fsuery为内容查询。

29、步骤(6)中,所述的检测头网络包含类别预测网络和边界框预测网络,其分别由若干全连接层构成。

30、与现有技术相比,本发明具有以下有益效果:

31、1、本发明引入了一个基于体素-点变换器的三维物体检测器,与先前基于变换器的方法相比,不但能取得更优的精度,而且运行速度最高达到了4.4倍的提升。

32、2、本发明进行了广泛的实验来验证所提出的模型的有效性,在kitti、waymo以及nuscenes数据集上均取得了先进的检测精度。



技术特征:

1.一种基于体素-点变换器的高效三维物体检测方法,其特征在于,包括:

2.根据权利要求1所述的基于体素-点变换器的高效三维物体检测方法,其特征在于,步骤(1)的具体过程为:

3.根据权利要求1所述的基于体素-点变换器的高效三维物体检测方法,其特征在于,步骤(2)中,所述的三维骨干网络由若干个稀疏卷积和子流形卷积构成,其中,稀疏卷积对体素进行下采样,使得体素的数量大幅减少,同时捕捉含高维语义信息的体素特征。

4.根据权利要求1所述的基于体素-点变换器的高效三维物体检测方法,其特征在于,步骤(3)的具体过程为:

5.根据权利要求1所述的基于体素-点变换器的高效三维物体检测方法,其特征在于,步骤(4)的具体过程为:

6.根据权利要求1所述的基于体素-点变换器的高效三维物体检测方法,其特征在于,步骤(4-3)中,在三维参考点的领域半径r2内随机采样步骤(1)的激光雷达点云时,采用快速邻居查询方法,首先,按照以下公式将点云投影至距离图:

7.根据权利要求1所述的基于体素-点变换器的高效三维物体检测方法,其特征在于,步骤(5)中,利用交叉注意力机制,根据标记与内容查询的特征相似度,将标记的特征融合进内容查询中,公式为:

8.根据权利要求1所述的基于体素-点变换器的高效三维物体检测方法,其特征在于,步骤(6)中,所述的检测头网络包含类别预测网络和边界框预测网络,其分别由若干全连接层构成。


技术总结
本发明公开了一种基于体素‑点变换器的高效三维物体检测方法,包括:(1)将激光雷达点云网格化,得到离散的体素;(2)将体素输入三维骨干网络,捕捉每个体素的高维语义特征;(3)将体素及其特征输入查询初始化网络,生成参考点和内容查询;(4)将参考点和内容查询、体素及其特征以及激光雷达点云同时输入点‑体素变换器中,在参考点的领域半径内采样点标记和体素标记;(5)通过点标记和体素标记与内容查询的特征相似度,将点标记和体素标记的特征融合进内容查询中;(6)将融合特征的内容查询输入到检测头网络中,预测每个内容查询所对应的物体类别和边界框。利用本发明,可以在保证模型运行效率的情况下,依旧达到先进的检测精度。

技术研发人员:杨鸿辉,蔡登,何晓飞
受保护的技术使用者:浙江大学
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1