一种基于注意力全景感知引导的深度补全方法及装置

文档序号：34446099发布日期：2023-06-13 10:36阅读：107来源：国知局

本发明涉及信息融合，特别是指一种基于注意力全景感知引导的深度补全的方法及装置。

背景技术：

1、在自动驾驶、三维场景重建和vr等诸多三维视觉领域中，获得精确且稠密的深度信息是十分基础且重要的感知技术。为了获取可靠的深度信息，现阶段大都使用可见光相机和激光雷达两种传感器进行深度感知。可见光相机获取的图像数据不具有深度信息，但其拥有丰富的纹理和色彩信息；而激光雷达扫描的深度信息十分稀疏，但其受环境光的影响较小且能提供精确的深度信息。由于这两种传感器的信息能很好的互补，现在主流的深度补全方法主要采用这两种传感器采集的信息。然而，虽然激光雷达能提供精确的信息，但其测量的密度很小，生成的稀疏深度图中有效深度值仅占不到6％。在三维视觉领域中，稀疏的深度图并不能直接被应用，因此，如何将稀疏的深度图补全为精度更高的密集深度图一直是该领域的一个难点。另外，如何更好地融合这两种传感器的信息，也是深度补全中的一个重要任务。

2、在如今深度学习技术取得了巨大成功的条件下，主流的方法是将稀疏深度图和rgb图像输入到神经网络中然后回归出密集的深度图。基于深度学习的神经网络深度补全算法主要是基于编码器-解码器的卷积神经网络进行特征提取与融合，从而回归出密集的深度图。最近的方法集中在利用彩色图像作为指导图像来恢复无效像素的深度。然而，仅有彩色图像不足以提供对场景的必要理解。因此，深度补全任务受到rgb图像中突然的光照变化(例如，阴影)的影响。

技术实现思路

1、针对现有技术中稀疏深度图和rgb图像中的阴影、噪声和遮挡的影响的问题，本发明提出了一种基于注意力全景感知引导的深度补全方法及装置。

2、为解决上述技术问题，本发明提供如下技术方案：

3、一方面，提供了一种基于注意力全景感知引导的深度补全方法，包括：

4、s1：获取可见光相机拍摄的rgb图像数据以及激光雷达扫描的稀疏深度图像数据；

5、s2：通过全景分割网络将rgb图像数据处理为待处理图像的全景分割图像数据；

6、s3：构建3u-densenet网络，将所述rgb图像数据、全景分割图像数据以及稀疏深度图像数据输入至所述3u-densenet网络，经过多模态注意力融合模块mmtsafb输出初步深度补全结果；

7、s4：构建结合卷积空间传播网络cspn++，将所述初步深度补全结果输入至cspn++中，获得深度补全结果，完成基于注意力全景感知引导的深度补全。

8、可选地，步骤s2中，通过全景分割网络将rgb图像数据处理为待处理图像的全景分割数据，包括：

9、通过一个预先训练的mask2former模型将rgb图像转换为全景分割语义图像数据。

10、可选地，步骤s3中，3u-densenet网络，包括：颜色引导sc分支、全景分割语义引导sp分支和深度引导3s分支三个分支。

11、可选地，颜色引导sc分支以及全景分割语义引导sp分支均采用密集跳跃连接的编码器-解码器网络架构，

12、其中，编码器包括一个卷积层和五个resnet块，在卷积层和resnet块后面还包括六个b-t块构成另外一条支路；

13、解码器包括一个卷积层和五个转置卷积层，对输入数据进行上采样，并对各层解码器的特征进行融合。

14、可选地，步骤s3中，将所述rgb图像数据、全景分割图像数据以及稀疏深度图像数据输入至所述3u-densenet网络，包括：

15、将所述rgb图像数据以及稀疏深度图像数据输入至所述颜色引导sc分支，获得具有场景的颜色线索的颜色密集深度图sc-depth数据；

16、将预测的sc分支的颜色密集深度图sc-depth数据以及全景语义图像和稀疏深度图像数据输入至全景分割语义引导sp分支，获得全景语义深度数据；

17、将稀疏深度图像数据、颜色密集深度图sc-depth数据以及全景语义深度数据输入至深度引导3s分支，获得密集深度图数据。

18、可选地，将所述rgb图像数据以及稀疏深度图像数据输入至所述颜色引导sc分支，获得具有场景的颜色线索的颜色密集深度图sc-depth数据，包括：

19、将rgb图像数据以及稀疏深度图像数据以串联的方式输入所述颜色引导sc分支，输出颜色密集深度图sc-depth数据。

20、可选地，将预测的sc分支的稠密深度图以及全景语义图像和稀疏深度图输入至传递给全景分割语义引导sp分支，获得全景语义深度数据，包括：

21、将sc分支的解码器特征通过mmtsafb融合到对应的sp分支的编码器特征中；sp分支以颜色密集深度图sc-depth数据、全景语义图像和稀疏深度图的拼接作为输入，输出sp密集深度图，所述sp密集深度图为全景语义深度数据。

22、可选地，将稀疏深度图像数据、颜色深度数据以及全景语义深度数据输入至3s分支，获得密度深度图数据，包括：

23、将来自sc和sp分支的解码器特征通过多模态注意力融合模块mmtsafb融合到相应的3s分支的编码器特征中；其中，在3s分支中，mmtsafb以三种模式的特征映射作为输入输出细化融合的特征映射。

24、可选地，步骤s3中，经过多模态注意力融合模块mmtsafb输出初步深度补全结果，包括：

25、构建不同输入分辨率的注意力融合模块mmtsafb，对三个分支之间的特征进行融合，获得初步深度补全结果。

26、一方面，提供一种基于注意力全景感知引导的深度补全装置，该装置应用于上述的任意一种方法；包括：

27、数据获取模块，用于获取可见光相机拍摄的rgb图像数据以及激光雷达扫描的稀疏深度图像数据；

28、rgb图像处理模块，用于通过全景分割网络将rgb图像数据处理为待处理图像的全景分割图像数据；

29、初步补全模块，用于构建3u-densenet网络，将所述rgb图像数据、全景分割图像数据以及稀疏深度图像数据输入至所述3u-densenet网络，经过多模态注意力融合模块mmtsafb输出初步深度补全结果；

30、深度补全模块，用于构建结合卷积空间传播网络cspn++，将所述初步深度补全结果输入至cspn++中，获得深度补全结果，完成基于注意力全景感知引导的深度补全。

31、一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于注意力全景感知引导的深度补全方法。

32、一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于注意力全景感知引导的深度补全方法。

33、上述技术方案，与现有技术相比至少具有如下有益效果：

34、上述方案，通过设计了一个3u-densenet网络，结合卷积空间传播网络(cspn++)进行后处理，实现了端到端的深度补全；基于注意力的全景感知引导的深度补全方法精度高，补全效果好，通过融合全景分割图像，在物体边界处的深度变化更细腻。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘皓挺陈帅蓝金辉陈成凯王潇涵
技术所有人：北京科技大学顺德创新学院
我是此专利的发明人

上一篇：一种机动车轴耦合测功装置的制作方法
上一篇：系统升级预警方法、装置、设备及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。