本发明涉及无人驾驶和人工智能领域,具体为基于深度学习的多模态特征交互3d多目标跟踪方法。
背景技术:
1、随着深度学习、神经网络和图像处理技术的不断推动,计算机视觉也得到了蓬勃发展,计算机视觉在无人驾驶领域的应用日益广泛。其中,3d多目标跟踪对自动驾驶汽车的感知至关重要,是实现安全、高效、智能自动驾驶系统的关键技术之一。3d多目标跟踪系统能够及时地探查周围环境,包括其他车辆、行人、自行车等。通过实时监测这些目标的位置和动态信息,自动驾驶系统可以更好地避免碰撞、预测其他道路用户的行为,从而提高道路安全性。另外,通过跟踪其他车辆的位置和速度,自动驾驶系统可以更智能地规划路径、变换车道、选择速度等,以优化交通流,减少交通拥堵,提高道路通行效率。由此可见3d多目标跟踪在无人驾驶技术中的重要性。
2、现有的3d多目标跟踪方法,在多模态特征融合阶段,常用的多模态特征融合方法主要分为决策级融合和体素级融合两种方法,这两种融合策略都是将3d点云空间中的点特征投影到2d图像空间中,与2d像素点特征进行特征融合。这种直接将3d点投影到2d空间进行特征融合的方式,不可避免的会引起图像语义信息损失,且决策级融合性能往往受限,特征级融合的粒度较粗,从而导致性能次优。其次,多目标跟踪场景中存在复杂的目标遮挡以及目标较小等问题,在提取此类目标特征时往往会引入大量的噪声点,降低目标特征的判别性。
3、另外,现有数据关联方法多是基于位置信息来构造关联矩阵,忽略了目标的外观信息以及其他影响因素,因此关联矩阵鲁棒性及判别性较差,进而导致目标身份切换及轨迹碎片化。且在进行多级数据关联时,现有方法都采用单一相似性度量,这会引起目标错误匹配和遗失匹配的问题,从而降低数据关联的精确度及跟踪任务的鲁棒性。
技术实现思路
1、本发明针对现有3d多目标跟踪方法的不足,提供基于深度学习的多模态特征交互3d多目标跟踪方法,该方法包含三大创新模块:点云自适应扩散融合模块、融合roi特征引导的动态采样同质区域融合模块以及置信度引导的多级数据关联模块,实现多模态特征的充分交互,显著提高特征的判别性,并有效解决了数据关联中遗失匹配和错误匹配的问题,显著提升多模态3d多目标跟踪的高效性能和鲁棒性,提升自动驾驶汽车的感知能力和安全性,推动无人驾驶技术的快速发展和广泛应用。
2、为实现上述目的,本发明提供如下技术方案:本发明提供的基于深度学习的多模态特征交互3d多目标跟踪方法,包括以下步骤:
3、构建无人驾驶的多模态3d多目标跟踪方法的整体网络模型,包括点云自适应扩散融合模块、融合roi特征引导的动态采样同质区域融合模块和置信度引导的多级数据关联模块;
4、基于点云自适应扩散融合模块和融合roi特征引导的动态采样同质区域融合模块获得具有判别性的目标特征,具体包括如下:
5、s1通过点云自适应扩散融合模块,对2d图像特征和3d点云特征进行初步融合:将图像特征提升到3d空间后,先通过反距离权重聚合扩散方法将稀疏点云稠密化,然后再通过扩散查询融合模块来融合多模态特征信息,得到包含更多信息的融合特征,降低融合时的信息损失;
6、s2融合roi特征引导的动态采样同质区域融合模块:首先根据点云自适应扩散融合模块得到的融合roi特征指导裁剪伪点云,得到伪点云roi特征,然后只对每个伪点云roi特征进行动态采样,降低计算量;
7、其中,动态采样根据每个roi特征中有效点的个数和目标在场景中的距离远近实现采样;为了提升特征的判别性,将伪点云roi特征和点云图像roi特征进行特征划分,使用注意力机制,实现局部特征和全局特征双重融合,得到更具有判别性的目标特征;
8、s3置信度引导的多级数据关联模块,提升数据关联的准确性及跟踪的鲁棒性。
9、优选的,建立点云自适应扩散融合模块后,将输入信息数据进行处理,分别生成3d图像roi体素特征和3d点云体素特征;所述多模态3d多目标跟踪方法的整体网络模型中输入信息数据形式包括两部分:3d激光雷达点云信息数据和2d相机图像信息数据。
10、优选的,由输入信息数据获得具有判别性的目标特征的具体方法包括如下:
11、对于3d激光雷达点云信息数据,首先对其进行体素化,然后使用不同步长分别为1,2,4,8的3d稀疏卷积对点云数据进行特征编码,得到相应的3d点云体素特征;
12、对于2d相机图像信息数据,包含两个子分支,一个是将2d图像信息提升到3d空间,然后使用点云自适应扩散融合模块与3d点云体素特征进行特征融合,得到点云图像roi特征;一个是通过深度补全的方法将2d相机图像中的像素点映射到3d空间得到伪点云,然后对经过特征聚合和3d稀疏卷积提取到的特征体素化,得到伪点云roi特征;
13、最后将点云图像roi特征和伪点云roi特征根据感兴趣区域划分,对划分后的特征使用注意力机制实现更细粒度的融合,得到更具有判别性的目标特征。
14、优选的,步骤s3中多级数据关联模块具体步骤包括:
15、将步骤2中获得的具有判别性的目标特征送入嵌入分支得到数据关联所需的目标位置信息和外观信息,然后基于位置信息和外观信息分别构建位置亲和度矩阵和外观亲和度矩阵用于关联匹配;
16、根据检测结果的置信度将其分为高置信度和低置信度两部分,然后对高置信度的检测结果使用位置亲和度矩阵、外观亲和度矩阵和检测框长宽比亲和度矩阵构建具有判别性的关联矩阵进行关联匹配;对低置信度的检测结果使用三级数据关联及多相似性度量进行数据关联,提高跟踪任务的数据关联和鲁棒性。
17、优选的,点云自适应扩散中,使用反距离权重聚合扩散的方法对点云特征进行稠密化,具体步骤如下:
18、首先,根据每个体素块中有效点特征的个数将体素块划分为空体素块、稀疏体素块和稠密体素块,其中不包含有效点特征的为空体素块,包含五个有效点特征的为稠密体素块,其余为稀疏体素块;划分之后对空体素块进行处理,通过聚合相邻体素点特征求均值的方法来补全空体素块的特征;具体公式如下式所示:
19、
20、其中pi表示分别沿x轴、y轴和z轴的相邻体素中选出的有效点特征;
21、对于稀疏体素块,从中任意选择一个有效点p0,沿x轴相邻的两个体素块中各选择一个有效点特征p1和p2,以同样的方式沿y轴和z轴选出有效点特征p3、p4、p5和p6;并分别计算p1、p2、p3、p4、p5、p6与p0之间的欧氏距离l1、l2、l3、l4、l5、l6,根据欧式距离计算聚合时每个点特征的权重α1、α2、α3、α4、α5、α6,但是由于距离越远的特征对聚合后的特征的影响越小,所以需要根据欧氏距离得出的权重重新计算得到最后用于特征聚合的权重α1*、α2*、α3*、α4*、α5*、α6*;计算公式如下式所示:
22、
23、根据聚合权重与有效点特征加权求和得到最终的扩散结果,具体公式如下式所示:
24、
25、为了保证扩散的随机性,根据上述公式随机选取稀疏体素块及相邻体素块中的有效点即可实现随机扩散;
26、另外,为了减少模型的计算量,使用动态扩散的方法,即根据稀疏体素块与稠密体素块中有效点的差额来确定每个稀疏体素块扩散的数量,避免无效扩散和过度扩散,有效降低模型的计算量。
27、优选的,通过使用点云自适应扩散方法得到稠密化后的点云特征,基于注意力机制设计扩散查询融合模块,使点云特征和图像特征进行更充分的交互,整体扩散查询融合模块结构,具体如下:
28、将稠密化后的点云特征扩散点云体素特征fd作为扩散查询融合中的查询,即注意力机制中的query,将图像体素特征fi作为键和值,即注意力机制中的key和value;并使用注意力机制进行融合得到包含信息更充实的融合体素特征;
29、具体来说,利用多头自注意层设计扩散查询融合模块,为每一个自注意头i分别预设相应的权重矩阵此处的权重矩阵是已经预训练好的;然后将每个头中预设的权重矩阵和查询fd、键fi和值fi相乘即可得到每个特征的三个可学习线性变化:qj、kj、vj,具体公式如下式所示:
30、
31、得到线性变化qj、kj、vj后,就可计算点云特征和图像特征之间的相似性得分sj,目标相似性越高,得分应该越大,目标相似性越低,得分应该越小,当点云特征和图像特征表示同一目标时的得分是最大的,具体公式如下式所示:
32、
33、其中dk表示缩放系数,其值就是输入特征向量的长度,得到相似性得分后就可对点云特征和图像特征进行加权求和,得到最后的融合特征ff,具体公式如下式所示:
34、
35、其中n表示参与特征交互的特征数量;
36、经过上述步骤实现了点云特征和图像特征的融合,增强了特征之间的交互,得到了包含信息更充分的融合特征。
37、优选的,步骤s2融合roi特征引导的动态采样同质区域融合模块,根据3d roi中有效点的个数和目标在场景中的相对距离来确定采样个数,实现动态采样,具体包括如下:
38、首先使用相机变换矩阵将伪点云中3d roi投影至2d图像,得到图像搜索区域;再对每个搜索区域中的所有虚拟点逐个判断,如果搜索区域内的某个虚拟点的3d坐标在任意一个3d roi的内部,则认为该虚拟点为有效点;如果某个虚拟点的3d坐标不在任何一个3droi的内部,则认为该虚拟点为不合法点,不进行统计;使用上述方法确定每个3d roi中有效点数后,用相对数量来动态计算每个3d roi的量级因子δ,具体公式如下所示:
39、
40、其中i为每个3d roi的编号,m为包含有效点数量最多的3d roi中有效点的个数,n表示当前3d roi中有效点的个数,n表示当前场景中3d roi的个数,ω是属于0到1之间的常量;
41、根据其位置的远近来确定采样个数,距离因子ε的计算公式具体如下式所示:
42、
43、其中i为每个3d roi的编号,ρ和σ为权重常量,l和l分别为搜索区域和整个伪点云的长度,w和w分别为搜索区域和整个伪点云的宽度;在得到量级因子δ和距离因子ε后,将二者进行加权求和得到最终的采样率s,具体如下式所示。
44、si=αδi+βεi,α+β=1,α,β<1;
45、其中α和β表示量级因子δ和距离因子ε的重要性,如果根据有效点的个数可以实现更好的采样效果,则增加α的占比,减少β的占比,反之如果根据场景位置远近可以实现更好的采样效果,则减少α的占比,增加β的占比。
46、优选的,步骤s3置信度引导的多级数据关联模块中包括:步骤s3.1多重信息引导的第一阶段数据关联,第一阶段数据关联是对高置信度检测框进行关联匹配,高置信度检测框的关联矩阵由外观亲和度矩阵、位置亲和度矩阵和检测框长宽比亲和度矩阵三部分组成,其中,外观亲和度mqpp利用嵌入分支的输出经过softmax函数排列得到,位置亲和度矩阵mpos利用检测框db和轨迹预测框pb之间的iou以及欧氏距离计算得到,具体计算公式如下式所示:
47、
48、其中db和pb分别表示轨迹预测框和检测框,dc(xd,yd)和pc(xp,yp)分别表示检测框和轨迹预测框的中心点,e表示欧氏距离,具体计算如下式所示:
49、
50、检测框长宽比亲和度矩阵mlwr根据检测框和轨迹预测框之间的长宽比来计算,具体如下式所示:
51、
52、其中ri表示当前轨迹预测框的长宽比与第i个检测框的长宽比之差,rp表示轨迹预测框的长宽比,rd表示检测框的长宽比,具体计算如下式所示:
53、
54、lp和ld分别表示轨迹预测框和检测框的长度,wp和wd分别表示轨迹预测框和检测框的宽度;总上所述,最终的关联矩阵m=αmqpp+βmpos+γmlwr,其中α+β+γ=1。
55、优选的,步骤s3置信度引导的多级数据关联模块中包括:步骤s3.2多相似性度量引导的多级数据关联,第二阶段数据关联是对低置信度检测框进行关联匹配,设计了三级数据关联;其中,一级数据关联直接使用一阶段数据关联中的位置亲和度矩阵mpos进行数据关联;二级数据关联的目标是只有激光雷达检测器能检测到的目标和一级数据关联没有匹配的目标,这种目标往往和背景有较高的相似度或者是由于帧间位移较大,轨迹预测框和检测框之间的iou为0导致的匹配失败,因此二级数据关联使用giou计算位置亲和度矩阵,计算公式如下式所示:
56、
57、ac=l*w
58、其中db和pb分别表示检测框和轨迹预测框,ac表示包围检测框和轨迹预测框的最小封闭矩形,l和w分别表示最小封闭矩形的长和宽;
59、三级数据关联的目标是只有相机检测器能检测到的目标,这种目标往往是在场景的远景处,因此,三级数据关联根据欧氏距离和最小封闭矩形的对角长度的比值来计算位置亲和度矩阵,计算公式如下式所示:
60、
61、本发明的有益效果:
62、本发明所提出的方法在多模态3d多目标跟踪领域展现出了显著的有益效果,具体表现在以下几个方面:
63、(1)本发明的无人驾驶的多模态3d多目标跟踪方法,通过点云自适应扩散融合模块,有效地解决了传统方法中因3d信息投影到2d空间导致的信息损失问题。利用反距离权重聚合扩散方法将稀疏点云稠密化,并结合扩散查询融合模块,实现了更细粒度的多模态特征融合,从而提高了特征信息的完整性和准确性。
64、(2)本发明的无人驾驶的多模态3d多目标跟踪方法,融合roi特征引导的动态采样同质区域融合模块,不仅降低了计算量,还提高了特征融合的鲁棒性。通过根据融合roi特征指导裁剪伪点云,并结合动态采样策略,有效避免了仅根据距离采样可能导致的鲁棒性差问题。同时,利用注意力机制实现局部特征和全局特征的双重融合,进一步增强了目标特征的判别性。
65、(3)本发明的无人驾驶的多模态3d多目标跟踪方法,通过置信度引导的多相似性度量数据关联模块,显著提升了数据关联的准确性。根据检测框的置信度划分不同处理策略,并引入多种信息构建关联矩阵,有效解决了遗失匹配和错误匹配问题。同时,针对场景的复杂性设计了多阶段数据关联和不同的相似性度量方法,进一步提升了跟踪的鲁棒性。