基于双分支抗噪声卷积的多模态三维目标检测方法

文档序号:39471963发布日期:2024-09-24 20:16阅读:17来源:国知局
基于双分支抗噪声卷积的多模态三维目标检测方法

本发明属于三维目标检测方法,涉及基于双分支抗噪声卷积的多模态三维目标检测方法。


背景技术:

1、三维目标检测是点云处理的基础任务之一,其目的是在三维场景中通过激光雷达生成的点云图像来定位和识别三维物体,在自动驾驶等现实应用中,三维目标检测起着至关重要的作用。

2、基于图像和点云图融合的三维目标检测方法按照数据融合的方式分为后融合和前融合两种。后融合对图像和点云两种数据分别采用不同主干网络进行特征提取,后将两种模态的特征提取结果融合在一起。而前融合是先将相机图像和点云的原始数据进行融合,形成新的数据表示,然后直接使用融合后的数据进行目标检测,这两种方式都存在噪声和不一致性问题,且现有检测方法存在检测精度不足、图像融合边缘结果差等问题,因此如何处理不同传感器数据中的噪声和不一致性,以保证融合后数据的质量和准确性是亟须解决的难题。


技术实现思路

1、本发明的目的是提供基于双分支抗噪声卷积的多模态三维目标检测方法,解决了现有检测方法检测精度不足的问题。

2、本发明所采用的技术方案是,基于双分支抗噪声卷积的多模态三维目标检测方法,具体按以下步骤实施:

3、步骤1,点云数据预处理;

4、步骤2,构建基于场景重要性预测的抗噪声稀疏卷积块;

5、步骤3,构建bev空间通道双单元交叉融合模块;

6、步骤4,构建动态自注意力融合的特征细化块。

7、本发明的特点还在于:

8、步骤1中采用kitt作为数据集,将训练集拆分为训练样本和验证样本,在训练过程中,采用场景级增强和对象级增强两种数据增强策略;

9、场景级增强包括随机场景的翻转、绕z轴旋转以及缩放,场景中存在50%的点进行随机翻转;场景围绕z轴随机旋转,随机值从如式(1)所示;随机进行场景缩放,随机因子为[0.95,1.05];

10、v'=cos(θ)v+(1-cos(θ))(u·v)u+sin(θ)(u×v)(1)

11、式中v'为输出向量,v输入点云特征向量,u为旋转轴,θ为旋转角度;

12、对象级增加为转换来自其他场景的对象。

13、步骤2具体按照以下步骤实施:

14、步骤2.1对构建层级随机体素丢弃模块

15、以距离为基础,构建选择区间,根据不同的距离将输入体素划分为mb个区间;以30米为阈值,大于30m的远距离区间保留内部所有体素,相反对于0m-30m的区间,采用随机方法,筛选固定约1k数量的体素块;在基于区间的采样之后,丢弃大部分的冗余体素,使网络加速,在训练时对每个anconv块上进行体素丢弃,采用15%的丢弃率,如式(2)所示:

16、pi'=pi[0:len×(1-rat)](2)

17、式中,pi表示第i层特征的体素索引,len为随机重排后的特征第一维度,rat为第i层的丢弃率;

18、步骤2.2,构建体素重要性选择块

19、在第一层网络子流形稀疏卷积的基础上,增加空特征位置的输出特征的计算,为后续特征提取提供丰富的邻域特征信息,如式(3)所示:

20、kim={k|σ(subm3d(fp))≥δ}(3)

21、式中kim表示动态输出结果,fp表示的输特征入,σ(·)表示激活函数sigmoid,δ表示阈值范围,当为0或1时变为常规稀疏卷积或子流形稀疏卷积;

22、步骤2.3,构建抗噪声卷积块(anconv)

23、步骤2.3具体按照以下步骤实施:

24、步骤2.3.1,采用3d和2d子流形稀疏卷积相结合的方法,将稀疏卷积的接受域扩展到二维图像空间,有效区分噪声点而不影响形状信息,给定n个输入体素,由三维坐标向量x∈rn×3和特征向量t∈rn×c表示,anconv在三维空间中编码空间几何特征,对于t中的每个特征ti,通过两层三维子流形稀疏卷积subs3d对几何特征的体素数进行编码,根据其附近的3×3×3邻域内的非空体素来计算特征,单层过程如式(4)所示:

25、

26、式中,ti3d表示通过三维子流形稀疏卷积subs3d得到的特征,表示根据坐标生成的3×3×3邻域特征,bn(·)为激活函数,cin为输入通道数;

27、步骤2.3.2,通过两层三维子流形稀疏卷积subs3d得到的特征ti3d,根据体素化参数将3d索引转换为一组网格点,然后根据数据增强参数将网格点向后转换为原始坐标系,最后根据lidar和相机的校准参数将网格点投影到2d图像平面上得到2d特征和索引,使对于2d特征用2d子流形稀疏卷积subs2d通过3×3相邻域编码特征,如果在单个二维邻居体素中存在多个特征,使用最大池化保留一个特征来进行二维卷积,总体计算过程如式(5)所示:

28、

29、式中,表示根据坐标生成的3×3邻域体素特征,bn表示非线性激活函数,cin表示输入通道数;

30、步骤2.3.3,在三维和二维特征编码后,将ti3d和ti2d连接起来,得到抗噪声特征向量tifin,如式(6)所示:

31、tifin=rf(concat(ti3d,ti2d))(6)

32、式中,rf表示将3d特征恢复为3d张量。

33、步骤3具体按以下步骤实施:

34、步骤3.1,构建2d卷积组成的空间特征提取层;

35、步骤3.2,构建2d卷积组成的语义特征提取层,将空间特征提取层获取特征送入语义特征提取层;

36、步骤3.3,构建轻量级空间注意力,编码更精细、具有层次的局部密集空间信息;

37、步骤3.4,采用上采样和解卷积将语义特征图和空间特征图维度恢复一致;

38、步骤3.5,构建交叉注意力融合层,根据权重将两种单元特征自适应融合。

39、步骤3.1中空间特征提取层的第一层为一组3×3卷积和batchnorm(bn)和relu激活函数组层的mlp,输入通道为256,输出通道为64;第二层为四组3×3卷积和batchnorm和relu激活函数组层的mlp,输入通道为64,输出通道为64,如式(7)所示:

40、

41、式中,n是感知机层数,表示每层提取的空间特征。

42、步骤3.2中语义特征提取层的第一层为一组3×3卷积和batchnorm和relu激活函数组层的mlp,输入通道为64,输出通道为128;第二层为四组3×3卷积和batchnorm和relu激活函数组层的mlp,输入通道为128,输出通道为128;如式(8)所示:

43、

44、式中,n是感知机层数,表示每层提取的语义特征。

45、步骤3.3具体按以下步骤实施:

46、步骤3.3.1,将特征图按分为多个通道,对单个通道进行注意力操作,获取通道间的关系特征v,如式(9)所示:

47、v=(unfold(linear(finput))(9)

48、式中,unfold(·)为数据展开unfold(·)将输入的多维数据块按指定窗口大小和步幅展开成二维张量。

49、步骤3.3.2,将每个通道合并输出得到foutput,如式(10)所示:

50、fouput=fold(matmul(softmax(linear(v)),v))(10)

51、式中,fold(·)为数据折叠操作,fold(·)将二维数据张量折叠成多维数据块,matmul(·)为numpy中矩阵乘法函数。

52、步骤3.4具体按以下步骤实施:

53、步骤3.4.1,采用二维解卷积层将语义特征图的维度恢复为空间特征图维度的两倍,然后空间特征进行卷积升维,使得语义特征图和空间特征图具有相同的维度,然后将其相加生成新的丰富空间单元特征图如式(11)所示:

54、

55、式中,convts2d(·)表示转置卷积;

56、步骤3.4.2,将高级语义特征图使用二维解卷积生成新的上采样的高级语义特征图如式(12)所示:

57、

58、步骤3.5具体按照以下步骤实施:

59、步骤3.5.1,首先将两个特性的通道分别通过两组卷积和batchnorm压缩为一个特征维度的权重向量,然后将两个不同权重结果连接起来,然后为了建立两个特征之间的依赖关系,让其可以自适应特征融合,使用softmax对两个连接的通道进行归一化,如式(13)所示:

60、

61、式中,softmax(·)表示归一化指数函数,concat(·)表示沿着通道维度的级联运算;

62、步骤3.5.2,将权重向量ω分割成两个注意力权重向量ω1和ω2,分别将其和丰富的空间特征和上采样的语义特征进行乘积运算,得到新的加权空间特征和加权语义特征最后执行元素级加法来融合加权特征,得到最终的2d特征图如式(14)所示:

63、

64、步骤4具体按照以下步骤实施:

65、步骤4.1,构建双模态三层细化子网模块,对点云和伪点云双分支融合的roi特征利用三层网络进行细化;

66、步骤4.2,构建自注意力特征融合模块,融合不同细化阶段的roi从而提高检测精度。

67、步骤4.1中将第三层和第四层特征用来融合邻域特征,两条主干网络得到的特征分别经过点特征融合模块构建空间信息,每条分支均由多层感知机、线性层和点卷积构成;

68、所述步骤4.2具体按以下步骤实施:

69、步骤4.2.1,通过自注意力的方法来聚合不同阶段的目标特征,将生成的区域建议定义为b,包括sj个细化子网,不同于常规二维子网结构,第一个子网将本阶段的区域建议b1作为输入,然后利用多层感知机来提取输入特征f1,然后对特征f1进行置信度预测和box回归得到新的置信度分数c1和box坐标b1,而其后的子网会将先前所有阶段的特征fj-i和本阶段特征fj共同作为输入进行特征提取,三层子网都采用交叉自注意力的方式来融合各个阶段的输入特征,在自注意力中query、key和value表示为qj、kj和vj,如式(15)所示:

70、

71、式中,c表示注意力中的特征维度,和表示特征线性投影;

72、步骤4.2.2,将自注意力特征和输入前的特征fj连接起来生成最终特征送入检测头预测的特征,最大程度保留现阶段特征的贡献,如式(16)所示:

73、

74、式中,为最终获得的每层子网特征;

75、步骤4.2.3,对每层子网特征进行置信度预测和box回归得到一组新的高质量置信度分数和box坐标,然后将两者根据子网数平均检测置信度得到最终检测置信度,并按检测置信度加权的框进行合并生成最终预测框,如式(17)所示:

76、

77、式中,c为最终的平均置信度分数,b为最终的平均检测框坐标,cj为第j层子网获得的置信度分数,bj为第j层子网获得的平均检测框坐标。

78、本发明的有益效果是:

79、本发明基于双分支抗噪声卷积的多模态三维目标检测方法,设计了一种联合2d和3d稀疏卷积的抗噪声卷积主干pnrb,降低了图像深度补全带来的噪声、边界模糊和密度等问题,同时利用体素重要性筛选卷积计算方法提高了三维目标检测的精度和推理速度,解决了现有检测方法检测精度不足,图像融合边缘结果差的问题,检测精度超过大多数方法,检测速度大幅提升。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1