基于注意力机制的激光雷达和相机自动标定方法及装置

文档序号:31035706发布日期:2022-08-06 03:05阅读:116来源:国知局
基于注意力机制的激光雷达和相机自动标定方法及装置

1.本技术涉及激光雷达和相机标定技术领域,特别是涉及一种基于注意力机制的激光雷达和相机自动标定方法、装置、计算机设备和存储介质。


背景技术:

2.激光雷达与相机相对姿态的标定任务,是通过标定算法计算出二者的相对位姿,即相对旋转矩阵和平移矩阵。实现激光雷达与相机姿态的标定任务,最重要的是要找到雷达数据和相机图像中的对应特征,然后通过优化算法如epnp等求解相对位姿。激光雷达与相机的自动标定背后的问题是跨膜态匹配的问题,对于人类来说,能很容易地从未标定过的激光雷达-相机数据中找到对应的场景、目标、边缘。比如手动的标定方法是依靠人类的跨模态匹配能力来寻找对应特征关联,实现标定的。这种标定方法费时费力,对标定场景有较高的要求,无法在线标定。实现自动标定的基础是自动从自然环境中找到对应特征,由于两种模态数据(点云、rgb图像)的特征相差较大,因此部分标定算法通过设计特定形状的标定物(比如圆形、正方体或者菱形标定板)降低算法自动匹配雷达和相机相关特征的难度,但是这种方法对于标定场景有较高的需求。部分不依赖于特定标定物的算法为了降低寻找对应特征的难度,要求先有一个大致的激光雷达和相机的姿态先验,限定寻找对应特征的范围(即大致先将激光雷达和相机的视角对齐),然后再根据边缘等细节信息对先验姿态做一个矫正,这种方式不能够称作完全的自动标定,因为先验姿态需要人工的参与才能获取。
3.然而,现有方法常常通过设计特定的标定参考物如菱形板、球形标定物等辅助算法寻找对应的特征关联,但是这种方法比较繁杂,需要人的实时参与,且标定物必须随身携带。因此自动标定算法被提了出来,但是目前自动标定算法仍然遇到两个问题:无依托特定标定物的算法需要初始参数,依托特定标定物的算法虽然不需要人的参与,但是过于依赖对特定标定物的几何形状先验,因此无法做到在线标定,无法自动的从自然场景中提取到跨模态特征关联。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够实现激光雷达和相机自动标定的基于注意力机制的激光雷达和相机自动标定方法、装置、计算机设备和存储介质。
5.一种基于注意力机制的激光雷达和相机自动标定方法,所述方法包括:
6.获取相机拍摄的rgb图像和激光雷达点云;
7.将rgb图像和激光雷达点云输入到预先训练好的跨模态注意力目标关联网络进行编码,得到rgb图像和激光雷达点云对应的场景特征和目标特征图;
8.根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图;
9.对激光雷达点云的目标特征图和rgb图像的目标特征图进行双线性插值采样,得到初始特征集合;
10.利用预先训练好的跨模态注意力目标关联网络对初始特征集合进行图结构编码,得到目标特征集合;
11.将视角注意力图和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果;
12.利用级联粒子群优化算法对跨模态目标匹配的结果进行优化,得到相对姿态;相对姿态为自动标定结果。
13.在其中一个实施例中,预先训练好的跨模态注意力目标关联网络的损失函数为其中,p
ij
表示模型预测的第i个点云目标和第j个图像目标的关联概率,p
ijgt
表示人工标注的概率,m表示点云中3d目标的个数,n表示图像中目标的个数。
14.在其中一个实施例中,根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图,包括:
15.根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图为a=softmax(conv(sr,si)),a∈r1×
32
×4×
16
,其中sr表示激光雷达点云的场景特征,si表示rgb图像的场景特征,softmax表示软最大值算法,conv表示卷积运算。
16.在其中一个实施例中,初始特征集合包括激光雷达点云的初始特征和rgb图像的初始特征;
17.对激光雷达点云的目标特征图和rgb图像的目标特征图进行双线性插值采样,得到初始特征集合,包括:
18.对激光雷达点云的目标特征图进行双线性插值采样,得到激光雷达点云的初始特征为xi=bilinear(fi,oi),xi∈rn×
32
,其中,fi表示激光雷达点云的目标特征图,n表示图像中的目标个数,32表示的特征维度,oi表示激光雷达点云的目标;bilinear表示双线性插值运算;
19.对rgb图像的目标特征图进行双线性插值采样,得到rgb图像的初始特征为xr=bilinear(fr,or),xr∈rm×
32
,其中,fr表示rgb图像的目标特征图,m表示的是点云中的目标个数,32表示的特征维度,or表示rgb图像的目标。
20.在其中一个实施例中,利用预先训练好的跨模态注意力目标关联网络对初始特征集合进行图结构编码,得到目标特征集合,包括:
21.利用预先训练好的跨模态注意力目标关联网络对初始特征集合进行图结构编码,得到目标特征集合为
[0022][0023]
其中,x表示初始特征集合,w(x)表示注意力计算单元,k代表的是注意力计算单元的个数,mlp表示的是多层非线性感知机,cat表示特征的组合。
[0024]
在其中一个实施例中,将视角注意力图和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果,包括:
[0025]
根据视角注意力图计算得到激光雷达点云的目标存在于rgb图像与激光雷达点云重叠视野中的置信度;
[0026]
根据置信度和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果。
[0027]
在其中一个实施例中,根据置信度和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果,包括:
[0028]
根据置信度和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果为p=softmax((xrx
it
)
·
pr),其中,pr表示置信度,t表示转置运算。
[0029]
一种基于注意力机制的激光雷达和相机自动标定装置,所述装置包括:
[0030]
编码模块,用于获取相机拍摄的rgb图像和激光雷达点云;将rgb图像和激光雷达点云输入到预先训练好的跨模态注意力目标关联网络进行编码,得到rgb图像和激光雷达点云对应的场景特征和目标特征图;
[0031]
重叠视角计算模块,用于根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图;
[0032]
采样模块,用于对激光雷达点云的目标特征图和rgb图像的目标特征图进行双线性插值采样,得到初始特征集合;
[0033]
图结构编码模块,用于利用预先训练好的跨模态注意力目标关联网络对初始特征集合进行图结构编码,得到目标特征集合;
[0034]
跨模态目标匹配模块,用于将视角注意力图和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果;
[0035]
结果优化模块,用于利用级联粒子群优化算法对跨模态目标匹配的结果进行优化,得到相对姿态;相对姿态为自动标定结果。
[0036]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0037]
获取相机拍摄的rgb图像和激光雷达点云;
[0038]
将rgb图像和激光雷达点云输入到预先训练好的跨模态注意力目标关联网络进行编码,得到rgb图像和激光雷达点云对应的场景特征和目标特征图;
[0039]
根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图;
[0040]
对激光雷达点云的目标特征图和rgb图像的目标特征图进行双线性插值采样,得到初始特征集合;
[0041]
利用预先训练好的跨模态注意力目标关联网络对初始特征集合进行图结构编码,得到目标特征集合;
[0042]
将视角注意力图和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果;
[0043]
利用级联粒子群优化算法对跨模态目标匹配的结果进行优化,得到相对姿态;相对姿态为自动标定结果。
[0044]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0045]
获取相机拍摄的rgb图像和激光雷达点云;
[0046]
将rgb图像和激光雷达点云输入到预先训练好的跨模态注意力目标关联网络进行编码,得到rgb图像和激光雷达点云对应的场景特征和目标特征图;
[0047]
根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图;
[0048]
对激光雷达点云的目标特征图和rgb图像的目标特征图进行双线性插值采样,得到初始特征集合;
[0049]
利用预先训练好的跨模态注意力目标关联网络对初始特征集合进行图结构编码,得到目标特征集合;
[0050]
将视角注意力图和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果;
[0051]
利用级联粒子群优化算法对跨模态目标匹配的结果进行优化,得到相对姿态;相对姿态为自动标定结果。
[0052]
上述基于注意力机制的激光雷达和相机自动标定方法、装置、计算机设备和存储介质,首先将rgb图像和激光雷达点云输入到预先训练好的跨模态注意力目标关联网络进行编码,得到rgb图像和激光雷达点云对应的场景特征和目标特征图,训练好的跨模态注意力目标关联网络包括编码模块和图结构编码模块,根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图,通过视角注意力图能够得到相机和激光雷达的重叠视角;然后对激光雷达点云的目标特征图和rgb图像的目标特征图进行双线性插值采样,得到初始特征集合,然后对初始特征集合进行图结构编码,得到融合了目标和周围环境的上下文信息的目标特征,最后将视角注意力图和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果。本发明能够自动的寻找相机和激光雷达的重叠视角,减少非重叠视角外目标的干扰并且能够根据上下文信息,结合图结构编码模块编码图像和点云中目标的特征,本发明结合视角重叠预测和目标特征的相似度度量,在不依赖于初始参数的情况下,获得了跨模态目标匹配的能力,并结合级联粒子群优化算法进行优化,最终自动得到激光雷达和相机的相对姿态,全程无需人工参与,且是匹配自然目标,无需特定设计的标定物。
附图说明
[0053]
图1为一个实施例中一种基于注意力机制的激光雷达和相机自动标定方法的流程示意图;
[0054]
图2为一个实施例中预先训练好的跨模态注意力目标关联网络的工作流程图;
[0055]
图3为一个实施例中标定结果的示意图;
[0056]
图4为一个实施例中目标特征集合的示意图;
[0057]
图5为一个实施例中跨模态目标匹配的结果的示意图;
[0058]
图6为一个实施例中一种基于注意力机制的激光雷达和相机自动标定装置的结构框图;
[0059]
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
[0060]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不
用于限定本技术。
[0061]
在一个实施例中,如图1所示,提供了一种基于注意力机制的激光雷达和相机自动标定方法,包括以下步骤:
[0062]
步骤102,获取相机拍摄的rgb图像和激光雷达点云;将rgb图像和激光雷达点云输入到预先训练好的跨模态注意力目标关联网络进行编码,得到rgb图像和激光雷达点云对应的场景特征和目标特征图。
[0063]
预先训练好的跨模态注意力目标关联网络包括卷积神经网络编码模块、图结构编码模块和目标关联注意力模块。
[0064]
卷积神经网络编码模块用于对rgb图像和激光雷达点云进行编码,得到场景特征和目标特征图。
[0065]
图结构编码模块用于对目标特征图采样后的初始特征进行图结构编码,得到融合了目标和环境信息的上下文关系的目标特征。
[0066]
目标关联注意力模块用于将视角注意力图和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果,预先训练好的跨模态注意力目标关联网络的工作流程图如图2所示,图中atop表示预先训练好的跨模态注意力目标关联网络。
[0067]
步骤104,根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图。
[0068]
视角注意力图表示rgb图像和激光雷达点云的重叠视角,同时从重叠视角中找到的相匹配的目标区域。
[0069]
步骤106,对激光雷达点云的目标特征图和rgb图像的目标特征图进行双线性插值采样,得到初始特征集合。
[0070]
通过插值采样得到激光雷达点云和rgb图像两种数据中的各个自然目标的特征(比如人、车辆等非专门设计的标定物),就是初始特征集合。初始特征集合包括激光雷达点云的初始特征和rgb图像的初始特征。
[0071]
步骤108,利用预先训练好的跨模态注意力目标关联网络对初始特征集合进行图结构编码,得到目标特征集合。
[0072]
初始特征集合中的特征并没有充分的考虑目标与周围环境的上下文联系,本发明通过引入图结构编码模块,对初始特征集合进行编码,得到了结合了上下文信息后,提升的目标特征。
[0073]
步骤110,将视角注意力图和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果。
[0074]
从视角注意力图中可以得到rgb图像和激光雷达点云的重叠视角,目标特征集合中可以得到激光雷达点云和rgb图像两种数据中的各个自然目标的特征,将两者进行目标关联注意,得到跨模态目标匹配,自动的从自然场景中提取到跨模态特征关联,建立了激光雷达数据和图像数据的关联,不需要初始参数,也不需要人工设计的标定物。
[0075]
步骤112,利用级联粒子群优化算法对跨模态目标匹配的结果进行优化,得到相对姿态;相对姿态为自动标定结果。
[0076]
由于目标检测的误差影响,rgb图像中的物体中心与顶点常常和激光雷达点云中的物体中心、顶点存在较大的偏差,这种误差会严重的干扰优化结果,本发明使用两阶段级
联粒子群优化算法(cascaded-pso):point-pso和pose-pso对跨模态目标匹配的结果进行优化,得到准确的相对姿态,相对姿态为自动标定结果,如图3所示,图中的点为根据标定结果将点云投影到图像平面的结果。
[0077]
上述一种基于注意力机制的激光雷达和相机自动标定方法中,首先将rgb图像和激光雷达点云输入到预先训练好的跨模态注意力目标关联网络进行编码,得到rgb图像和激光雷达点云对应的场景特征和目标特征图,训练好的跨模态注意力目标关联网络包括编码模块和图结构编码模块,根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图,通过视角注意力图能够得到相机和激光雷达的重叠视角;然后对激光雷达点云的目标特征图和rgb图像的目标特征图进行双线性插值采样,得到初始特征集合,然后对初始特征集合进行图结构编码,得到融合了目标和周围环境的上下文信息的目标特征,最后将视角注意力图和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果。本发明能够自动的寻找相机和激光雷达的重叠视角,减少非重叠视角外目标的干扰并且能够根据上下文信息,结合图结构编码模块,编码图像和点云中目标的特征,本发明结合视角重叠预测和目标特征的相似度度量,在不依赖于初始参数的情况下,获得了跨模态目标匹配的能力,并结合级联粒子群优化算法进行优化,最终自动得到激光雷达和相机的相对姿态,全程无需人工参与,且是匹配自然目标,无需特定设计的标定物。
[0078]
在其中一个实施例中,预先训练好的跨模态注意力目标关联网络的损失函数为其中,p
ij
表示模型预测的第i个点云目标和第j个图像目标的关联概率,p
ijgt
表示人工标注的概率,m表示点云中3d目标的个数,n表示图像中目标的个数。
[0079]
在其中一个实施例中,根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图,包括:
[0080]
根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图为a=soft max(conv(sr,si)),a∈r1×
32
×4×
16
,其中sr表示激光雷达点云的场景特征,si表示rgb图像的场景特征,soft max表示软最大值算法,conv表示卷积运算。
[0081]
在其中一个实施例中,初始特征集合包括激光雷达点云的初始特征和rgb图像的初始特征;
[0082]
对激光雷达点云的目标特征图和rgb图像的目标特征图进行双线性插值采样,得到初始特征集合,包括:
[0083]
对激光雷达点云的目标特征图进行双线性插值采样,得到激光雷达点云的初始特征为xi=bilinear(fi,oi),xi∈rn×
32
,其中,fi表示激光雷达点云的目标特征图,n表示图像中的目标个数,32表示的特征维度,oj表示激光雷达点云的目标bilinear表示双线性插值运算;
[0084]
对rgb图像的目标特征图进行双线性插值采样,得到rgb图像的初始特征为xr=bilinear(fr,or),xr∈rm×
32
,其中,fr表示rgb图像的目标特征图,m表示的是点云中的目标个数,32表示的特征维度,or表示rgb图像的目标。
[0085]
预先训练好的跨模态注意力目标关联网络包括两个卷积神经网络编码模块,每个卷积神经网络编码模块分别编码两种特征,一种是目标的特征图{fi,fr},还有一种则是场
景特征{si,sr}。定义激光雷达点云和rgb图像中所包含的目标为oi和or,每个目标由目标的中心表示,则目标的初始特征可以通过双线性插值采样从特征图{fi,fr}中获取:
[0086]
xi=bilinear(fi,oi),xi∈rn×
32
[0087]
xr=bilinear(fr,or),xr∈rm×
32
[0088]
上式中,n表示rgb图像中的目标个数,m表示的是激光雷达点云中的目标个数,32表示的特征维度。由于rgb图像和激光雷达点云的视角相差较大,因此如果直接从整个激光雷达视角中寻找与图像目标相匹配的三维目标,则匹配的精度常常会受到重叠视角外的目标干扰,由于激光雷达点云视角远远大于图像视角,因此本发明通过计算视角注意力图,从激光雷达点云的特征图中找到图像所对应的视角,本发明将激光雷达点云的特征均等分为64份,得到激光雷达点云的局部场景描述:sr∈r1×
32
×4×
16
,视角注意力图由下式计算:
[0089]
a=soft max(conv(sr,si)),a∈r1×
32
×4×
16
[0090]
pr=bilinear(a,or)
[0091]
本发明使用视角注意力图a来迫使网络将匹配的主要精力放在重叠的视野中,a的训练隐含在跨模态目标匹配的训练中,pr代表的是激光雷达点云目标or存在于rgb图像与激光雷达点云重叠视野中的置信度。
[0092]
在其中一个实施例中,利用预先训练好的跨模态注意力目标关联网络对初始特征集合进行图结构编码,得到目标特征集合,包括:
[0093]
利用预先训练好的跨模态注意力目标关联网络对初始特征集合进行图结构编码,得到目标特征集合为
[0094][0095]
其中,x表示初始特征集合,w(x)表示注意力计算单元,k代表的是注意力计算单元的个数,mlp表示的是多层非线性感知机,cat表示特征的组合。
[0096]
在其中一个实施例中,将视角注意力图和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果,包括:
[0097]
根据视角注意力图计算得到激光雷达点云的目标存在于rgb图像与激光雷达点云重叠视野中的置信度;
[0098]
根据置信度和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果。
[0099]
在其中一个实施例中,根据置信度和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果,包括:
[0100]
根据置信度和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果为p=soft max((xrx
it
)
·
pr),其中,pr表示置信度,t表示转置运算。
[0101]
初始特征集合中的初始特征并没有充分的考虑到上下文联系,本发明通过在跨模态注意力目标关联网络中设置图结构编码模块,对初始特征进行图结构卷积,使得初始特征可以融合目标与周围环境的上下文关系,得到目标特征,如图4所示,其中十字标注就是目标特征,图结构编码模块基于多头注意力机制设计(mhsa)。定义一个基本的注意力计算单元为:
[0102]
[0103]
其中(wq,wk,wv)为三个待学习的权重,d为特征维度。
[0104]
基于目标特征(xi,xr)和注意图a进行目标关联注意,得到跨模态目标匹配的结果,计算方式为p=softmax((xrx
it
)
·
pr),如图5所示,为跨模态目标匹配的结果,图中左上角是视角注意力图,左下角是激光点云的距离投影图,右边为可见光图片。
[0105]
在一个实施例中,在nudt数据集和kitti公开数据集上对本发明的方法(atop)进行了验证,在优化阶段,经过point-pso初始化得到的平均旋转角误差(rre)在nudt和kitti上为(0.507和0.260度),平均平移误差(rte)为(112和144毫米),经过pose-pso之后误差降为了(0.037和0.040度)和(30mm和24mm),相比于已有的自动标定算法calibnet,deepi2p等方法,如表1所示,本发明不需要初始参数的情况下,实现了更高的标定精度。
[0106]
表1
[0107][0108]
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0109]
在一个实施例中,如图6所示,提供了一种基于注意力机制的激光雷达和相机自动标定装置,包括:编码模块602、重叠视角计算模块604、采样模块606图结构编码模块608、跨模态目标匹配模块610和结果优化模块612,其中:
[0110]
编码模块602,用于获取相机拍摄的rgb图像和激光雷达点云;将rgb图像和激光雷达点云输入到预先训练好的跨模态注意力目标关联网络进行编码,得到rgb图像和激光雷达点云对应的场景特征和目标特征图;
[0111]
重叠视角计算模块604,用于根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图;
[0112]
采样模块606,用于对激光雷达点云的目标特征图和rgb图像的目标特征图进行双线性插值采样,得到初始特征集合;
[0113]
图结构编码模块608,用于利用预先训练好的跨模态注意力目标关联网络对初始特征集合进行图结构编码,得到目标特征集合;
[0114]
跨模态目标匹配模块610,用于将视角注意力图和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果;
[0115]
结果优化模块612,用于利用级联粒子群优化算法对跨模态目标匹配的结果进行优化,得到相对姿态;相对姿态为自动标定结果。
[0116]
在其中一个实施例中,预先训练好的跨模态注意力目标关联网络的损失函数为其中,p
ij
表示模型预测的第i个点云目标和第j个图像目标的关联概率,p
ijgt
表示人工标注的概率,m表示点云中3d目标的个数,n表示图像中目标的个数。
[0117]
在其中一个实施例中,重叠视角计算模块604还用于根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图,包括:
[0118]
根据激光雷达点云的场景特征和rgb图像的场景特征进行计算,得到视角注意力图为a=softmax(conv(sr,si)),a∈r1×
32
×4×
16
,其中sr表示激光雷达点云的场景特征,si表示rgb图像的场景特征,softmax表示软最大值算法,conv表示卷积运算。
[0119]
在其中一个实施例中,采样模块606还用于初始特征集合包括激光雷达点云的初始特征和rgb图像的初始特征;
[0120]
对激光雷达点云的目标特征图和rgb图像的目标特征图进行双线性插值采样,得到初始特征集合,包括:
[0121]
对激光雷达点云的目标特征图进行双线性插值采样,得到激光雷达点云的初始特征为xi=bilinear(fi,oi),xi∈rn×
32
,其中,fi表示激光雷达点云的目标特征图,n表示图像中的目标个数,32表示的特征维度,oi表示激光雷达点云的目标;bilinear表示双线性插值运算;
[0122]
对rgb图像的目标特征图进行双线性插值采样,得到rgb图像的初始特征为xr=bilinear(fr,or),xr∈rm×
32
,其中,fr表示rgb图像的目标特征图,m表示的是点云中的目标个数,32表示的特征维度,or表示rgb图像的目标。
[0123]
在其中一个实施例中,图结构编码模块608还用于利用预先训练好的跨模态注意力目标关联网络对初始特征集合进行图结构编码,得到目标特征集合,包括:
[0124]
利用预先训练好的跨模态注意力目标关联网络对初始特征集合进行图结构编码,得到目标特征集合为
[0125][0126]
其中,x表示初始特征集合,w(x)表示注意力计算单元,k代表的是注意力计算单元的个数,mlp表示的是多层非线性感知机,cat表示特征的组合。
[0127]
在其中一个实施例中,跨模态目标匹配模块610还用于将视角注意力图和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果,包括:
[0128]
根据视角注意力图计算得到激光雷达点云的目标存在于rgb图像与激光雷达点云重叠视野中的置信度;
[0129]
根据置信度和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果。
[0130]
在其中一个实施例中,跨模态目标匹配模块610还用于根据置信度和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果,包括:
[0131]
根据置信度和目标特征集合进行目标关联注意,得到跨模态目标匹配的结果为p=softmax((xrx
it
)
·
pr),其中,pr表示置信度,t表示转置运算。
[0132]
关于一种基于注意力机制的激光雷达和相机自动标定装置的具体限定可以参见
上文中对于一种基于注意力机制的激光雷达和相机自动标定方法的限定,在此不再赘述。上述一种基于注意力机制的激光雷达和相机自动标定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0133]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于注意力机制的激光雷达和相机自动标定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0134]
本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0135]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
[0136]
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
[0137]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0138]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0139]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1