1.本发明涉及计算机视觉技术领域,特别涉及三维目标检测技术领域,尤其涉及一种基于伪图像的点云与图像融合的三维目标检测方法。
背景技术:2.随着自动驾驶技术的不断发展,三维目标检测方法越来越受到关注。由于实际行驶道路的复杂性和多样性,迅速、准确且高精度的目标检测方法的提出对于自动驾驶等方面有着重要的作用。三维目标检测主要是通过摄像头、双目相机、激光雷达、毫米波雷达等传感器获得图像、点云等信息,输出被识别出目标在三维空间中的位置。图像包含了相当丰富的语义信息,但是由于无法体现深度等信息,对于三维目标的检测效果不佳。激光雷达点云包含了大场景下物体的三维结构信息,是三维目标检测的主要数据源。由于点云数据信息量大,无序性强,密度不一致,在使用方面与图像有很大的区别,一些学者选择对点云数据直接处理,虽然取得了一定的效果,但是参数量和推理过程很大程度上并不具有很好的实时性。而且点云虽然对三维信息描述的很好,但是缺少颜色、纹理等语义信息,而且容易受到环境干扰,点云的疏密也对检测的结果有很大的影响。因此我们选择将这两种传感器的信息结合起来,用图像语义信息来补充点云信息,以达到更好的检测效果。现有的一些融合策略通常都是通过投影的方式来实现维度之间的相互转换,但是容易出现视角变化所导致的对应关系不准确,感受野不匹配等问题,造成不好的融合效果。
技术实现要素:3.为了克服现有技术中的不足,本发明提供一种基于伪图像的点云与图像融合三维目标检测方法,解决现有传统方法检测效率低,准确率低的问题。该方法将点云转化为伪图像,后续采用更加成熟的2d卷积处理,通过注意力机制将伪图像特征与图像特征在同一个尺度下融合成全局特征来避免感受野不匹配等问题。
4.为了达到上述发明目的,解决其技术问题所采用的技术方案如下:
5.一种基于伪图像的点云与图像融合三维目标检测方法,包括以下步骤:
6.步骤1:多传感器数据的获取与数据预处理;
7.步骤2:点云数据的伪图像化;
8.步骤3:伪图像数据与图像数据的多尺度特征提取,在通道注意力机制下实现在特征层的融合,最终实现三维目标的检测。
9.进一步的,步骤1包括以下内容:
10.通过激光雷达与摄像头采集数据,并对数据进行预处理。对图像的处理方法为高斯滤波去除噪点,对数据整体的处理为通过时间戳将数据成组存储,以保证点云数据与图像数据在时间维度上的一致性。
11.进一步的,步骤2包括以下内容:
12.将点云数据作为输出,通过平面化拉伸划分出均匀的网格,对网格内的点进行采
样后通过pointnet特征提取与维度变化,形成与2d图像在维度上类似的伪图像特征。
13.进一步的,步骤3包括以下内容:
14.将点云数据与图像数据通过设计好的特征提取主干网络提取特征。其中特征提取层为多尺度特征提取,通过分层结构提取的特征会在后续反卷积为相同大小的特征图,通过通道注意力机制对特征整形后,将图像所提取出的特征与点云伪图像所提取出的特征融合且拼接在一起形成多尺度融合特征,通过一阶段检测器实现三维目标的检测。
15.本发明由于采用以上技术方案,使之与现有技术相比,具有以下的优点和积极效果:
16.本发明基于伪图像与图像数据在维度上的相似以及语义上存在的关联性,通过相同的特征提取网络提取多尺度特征,利用注意力机制得到多尺度融合特征。该方法更好的实现了两种数据的特征层面融合,结合了不同传感器数据之间的特点,优势互补提高了准确度,对点云的处理避免了使用3d卷积从而降低了计算量,兼顾了准确度与检测效率。
附图说明
17.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图中:
18.图1是本发明基于伪图像的点云与图像融合三维目标检测方法的流程图;
19.图2是本发明基于pillar feature net的点云生成伪图像示意图;
20.图3是本发明主干网络中特征融合层示意图。
具体实施方式
21.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
22.本发明公开了一种基于伪图像的点云与图像融合三维目标检测方法,包括以下步骤:
23.步骤1:多传感器数据的获取与数据预处理。
24.进一步的,步骤1包括以下内容:
25.通过激光雷达与摄像头采集数据,并对数据进行预处理。对图像的处理方法为高斯滤波去除噪点,对数据整体的处理为通过时间戳将数据成组存储,以保证点云数据与图像数据在时间维度上的一致性。具体的,传感器数据将从激光雷达,摄像头获得,其中激光雷达采集点云数据,摄像头采集图像数据。本发明可以对现有的各种规格化数据直接进行处理,若数据未经过预处理,则先进行数据预处理。对于图像使用高斯滤波预处理来去除噪点,为后续的操作做准备。对于未同步的数据利用数据采集时获得的时间戳,将当前时间的数据帧组成一帧存储起来,并清理掉已使用过的数据缓存。
26.步骤2:点云数据的伪图像化。
27.进一步的,步骤2包括以下内容:
28.将点云数据作为输出,通过平面化拉伸划分出均匀的网格,对网格内的点进行采样后通过pointnet特征提取与维度变化,形成与2d图像在维度上类似的伪图像特征。如图1所示,本发明的整体网络结构是将点云和图像数据分两路处理,然后在特征层实现特征的融合,其中点云图像的伪图像化是本发明中重要的一环。如图二所示点云的伪图像化就是对点云进行特别的特征编码,编码网络使用的方法为:将获得的点云数据先按照网格划分出均匀的区域,再根据网格内落入点的数量计算出所有点的质心,根据质心对原始数据进行维度的扩展。在此过程中对于每一个区域内的点进行采样,如点的数量低于设定的标准值则进行0填充。对得到的数据集合使用pointnet进行特征提取,提取后的特征通过维度变换得到伪图像供之后的步骤使用。
29.具体的,首先在点云数据俯视图xy平面上划分出h x w的均匀网络,将网络沿z轴拉伸形成单元格pillar,并记录下单元格所有点的质心。原始的数据为(x,y,z,r)四维,在pillar的基础上将数据扩展为九维,加入点对于质心的偏差c,以及在xy方向上对于所有点的物理中心的偏差p。扩展维度后的数据表示为(x,y,z,r,xc,yc,zc,xp,yp)。在此过程中,会规定一个数值n,此后对于每个pillar会根据n进行采样,不足n的则填充0,从而形成如图二所示的(d,p,n)维度的张量,这里d=9即扩展后的数据维度,n一般采样为100,p为pillar的总数目。随后使用pointnet来提取pillar特征,在一系列卷积操作后,输出数据维度变成(c,p,n)张量,在n的维度上做池化操作得到了(c,p)的张量。在此基础上,将p转化为h x w则整体特征转化为(c,h,w)的正好类似图像的维度的伪图像特征。
30.步骤3:伪图像数据与图像数据的多尺度特征提取,在通道注意力机制下实现在特征层的融合,最终实现三维目标的检测。
31.进一步的,步骤3包括以下内容:
32.将点云数据与图像数据通过设计好的特征提取主干网络提取特征。其中特征提取层为多尺度特征提取,通过分层结构提取的特征会在后续反卷积为相同大小的特征图,通过通道注意力机制对特征整形后,将图像所提取出的特征与点云伪图像所提取出的特征融合且拼接在一起形成多尺度融合特征,通过一阶段检测器实现三维目标的检测。本发明从实际情况出发,考虑到三维目标检测可能的目标大小形态不同,所以采用了多尺度特征融合的方式。如图三所示,在特征提取层采用了类似特征金字塔的结构,自上而下的逐级提取伪图像的特征,卷积核逐级减半来获得不同尺寸的特征图来应对不同大小的目标。之后再将不同尺度的特征图反卷积解码,解码后送入一层通道注意力机制中处理,将特征块重整,放大比较显著的特征。对于伪图像和图像都经过这一系列特征提取操作后,在同一维度上拼接到一起,形成最终的融合特征。在此基础上,后续通过现有的比较成熟的检测器ssd,即可完成对三维目标预测框的输出,从而达到三维目标检测的目的。
33.上述方案中,融合特征的获取是通过2d cnn先对图像与伪图像提取特征,再通过注意力机制将特征拼接融合。具体为:通过2d cnn先自上而下提取多尺度特征,之后对特征图进行解码,后续通过注意力机制的加工后对特征图在通道尺度上进行拼接。
34.上述方案中,进行目标检测所使用的检测头为one-stage方法ssd,通过检测给出待测物体的检测框。
35.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,
都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。