本发明涉及信息融合,特别是指一种基于注意力全景感知引导的深度补全的方法及装置。
背景技术:
1、在自动驾驶、三维场景重建和vr等诸多三维视觉领域中,获得精确且稠密的深度信息是十分基础且重要的感知技术。为了获取可靠的深度信息,现阶段大都使用可见光相机和激光雷达两种传感器进行深度感知。可见光相机获取的图像数据不具有深度信息,但其拥有丰富的纹理和色彩信息;而激光雷达扫描的深度信息十分稀疏,但其受环境光的影响较小且能提供精确的深度信息。由于这两种传感器的信息能很好的互补,现在主流的深度补全方法主要采用这两种传感器采集的信息。然而,虽然激光雷达能提供精确的信息,但其测量的密度很小,生成的稀疏深度图中有效深度值仅占不到6%。在三维视觉领域中,稀疏的深度图并不能直接被应用,因此,如何将稀疏的深度图补全为精度更高的密集深度图一直是该领域的一个难点。另外,如何更好地融合这两种传感器的信息,也是深度补全中的一个重要任务。
2、在如今深度学习技术取得了巨大成功的条件下,主流的方法是将稀疏深度图和rgb图像输入到神经网络中然后回归出密集的深度图。基于深度学习的神经网络深度补全算法主要是基于编码器-解码器的卷积神经网络进行特征提取与融合,从而回归出密集的深度图。最近的方法集中在利用彩色图像作为指导图像来恢复无效像素的深度。然而,仅有彩色图像不足以提供对场景的必要理解。因此,深度补全任务受到rgb图像中突然的光照变化(例如,阴影)的影响。
技术实现思路
1、针对现有技术中稀疏深度图和rgb图像中的阴影、噪声和遮挡的影响的问题,本发明提出了一种基于注意力全景感知引导的深度补全方法及装置。
2、为解决上述技术问题,本发明提供如下技术方案:
3、一方面,提供了一种基于注意力全景感知引导的深度补全方法,包括:
4、s1:获取可见光相机拍摄的rgb图像数据以及激光雷达扫描的稀疏深度图像数据;
5、s2:通过全景分割网络将rgb图像数据处理为待处理图像的全景分割图像数据;
6、s3:构建3u-densenet网络,将所述rgb图像数据、全景分割图像数据以及稀疏深度图像数据输入至所述3u-densenet网络,经过多模态注意力融合模块mmtsafb输出初步深度补全结果;
7、s4:构建结合卷积空间传播网络cspn++,将所述初步深度补全结果输入至cspn++中,获得深度补全结果,完成基于注意力全景感知引导的深度补全。
8、可选地,步骤s2中,通过全景分割网络将rgb图像数据处理为待处理图像的全景分割数据,包括:
9、通过一个预先训练的mask2former模型将rgb图像转换为全景分割语义图像数据。
10、可选地,步骤s3中,3u-densenet网络,包括:颜色引导sc分支、全景分割语义引导sp分支和深度引导3s分支三个分支。
11、可选地,颜色引导sc分支以及全景分割语义引导sp分支均采用密集跳跃连接的编码器-解码器网络架构,
12、其中,编码器包括一个卷积层和五个resnet块,在卷积层和resnet块后面还包括六个b-t块构成另外一条支路;
13、解码器包括一个卷积层和五个转置卷积层,对输入数据进行上采样,并对各层解码器的特征进行融合。
14、可选地,步骤s3中,将所述rgb图像数据、全景分割图像数据以及稀疏深度图像数据输入至所述3u-densenet网络,包括:
15、将所述rgb图像数据以及稀疏深度图像数据输入至所述颜色引导sc分支,获得具有场景的颜色线索的颜色密集深度图sc-depth数据;
16、将预测的sc分支的颜色密集深度图sc-depth数据以及全景语义图像和稀疏深度图像数据输入至全景分割语义引导sp分支,获得全景语义深度数据;
17、将稀疏深度图像数据、颜色密集深度图sc-depth数据以及全景语义深度数据输入至深度引导3s分支,获得密集深度图数据。
18、可选地,将所述rgb图像数据以及稀疏深度图像数据输入至所述颜色引导sc分支,获得具有场景的颜色线索的颜色密集深度图sc-depth数据,包括:
19、将rgb图像数据以及稀疏深度图像数据以串联的方式输入所述颜色引导sc分支,输出颜色密集深度图sc-depth数据。
20、可选地,将预测的sc分支的稠密深度图以及全景语义图像和稀疏深度图输入至传递给全景分割语义引导sp分支,获得全景语义深度数据,包括:
21、将sc分支的解码器特征通过mmtsafb融合到对应的sp分支的编码器特征中;sp分支以颜色密集深度图sc-depth数据、全景语义图像和稀疏深度图的拼接作为输入,输出sp密集深度图,所述sp密集深度图为全景语义深度数据。
22、可选地,将稀疏深度图像数据、颜色深度数据以及全景语义深度数据输入至3s分支,获得密度深度图数据,包括:
23、将来自sc和sp分支的解码器特征通过多模态注意力融合模块mmtsafb融合到相应的3s分支的编码器特征中;其中,在3s分支中,mmtsafb以三种模式的特征映射作为输入输出细化融合的特征映射。
24、可选地,步骤s3中,经过多模态注意力融合模块mmtsafb输出初步深度补全结果,包括:
25、构建不同输入分辨率的注意力融合模块mmtsafb,对三个分支之间的特征进行融合,获得初步深度补全结果。
26、一方面,提供一种基于注意力全景感知引导的深度补全装置,该装置应用于上述的任意一种方法;包括:
27、数据获取模块,用于获取可见光相机拍摄的rgb图像数据以及激光雷达扫描的稀疏深度图像数据;
28、rgb图像处理模块,用于通过全景分割网络将rgb图像数据处理为待处理图像的全景分割图像数据;
29、初步补全模块,用于构建3u-densenet网络,将所述rgb图像数据、全景分割图像数据以及稀疏深度图像数据输入至所述3u-densenet网络,经过多模态注意力融合模块mmtsafb输出初步深度补全结果;
30、深度补全模块,用于构建结合卷积空间传播网络cspn++,将所述初步深度补全结果输入至cspn++中,获得深度补全结果,完成基于注意力全景感知引导的深度补全。
31、一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于注意力全景感知引导的深度补全方法。
32、一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于注意力全景感知引导的深度补全方法。
33、上述技术方案,与现有技术相比至少具有如下有益效果:
34、上述方案,通过设计了一个3u-densenet网络,结合卷积空间传播网络(cspn++)进行后处理,实现了端到端的深度补全;基于注意力的全景感知引导的深度补全方法精度高,补全效果好,通过融合全景分割图像,在物体边界处的深度变化更细腻。