一种基于跨模态融合的水下视觉目标测距方法及装置

文档序号:34556258发布日期:2023-06-28 07:56阅读:42来源:国知局
一种基于跨模态融合的水下视觉目标测距方法及装置

本技术涉及一种基于跨模态融合的水下视觉目标测距方法及装置,属于水下机器视觉。


背景技术:

1、随着科技的进步和发展,人类逐渐向海洋探索,开展海洋环境与生物的科学研究。在海洋探索中,水下视觉目标距离对水下目标检测,水下激光雷达,水下三维重建都有着重要意义。水下视觉目标距离通常由水下深度图像进行反应,深度图像也称为距离影像,也就是图像中记录拍摄设备到场景中各点的距离,反映了场景中物体的几何形状。目前,大多数水下距离估计方法都使用rgb图像进行距离估计,但由于水下视觉光照严重不足,视觉相机拍摄的水下场景往往暗淡模糊,因此仅仅依靠rgb图像很难估计出准确的水下距离。

2、事件相机是一种新型的基于仿生学的动态视觉传感器,具有低功耗、高动态范围以及高时空分辨率的特点,不同于传统相机捕获全局固定帧率图像,事件相机以异步方式在微秒级别上记录光度的变化信息,并将触发的事件流保存为稀疏离散的四元组数据,即(x,y,t,p),分别代表坐标、微秒级时间戳和极性。由于事件相机高动态范围以及高时空分辨率的特点,在机器视觉领域受到越来越多的关注,通常被应用于低光场景重建、目标检测、目标追踪、高动态范围成像、高速目标识别和轨迹恢复等领域。目前有部分方法将事件相机应用到具有挑战性的场景重建任务中,例如室外夜晚的低光场景或阳光充足的过曝光场景等,但这些基于事件相机的方法缺少足够充分的视觉信息,例如无法获取图像的初始像素值、只能针对亮度的变化信息进行处理,进而导致无法计算图像中每个像素的绝对值。因此,基于事件相机对水下目标距离进行估计还存在困难。此外,对于低光场景下的视觉信息表示,尤其对水下场景的视觉应用中,事件相机的潜力还尚未完全挖掘。


技术实现思路

1、本技术的目的在于提供一种基于跨模态融合的水下视觉目标测距方法及装置,通过跨模态融合的方法,利用事件序列和rgb帧实现水下视觉目标距离估计,为水下的三维重建、目标检测、识别和追踪等任务提供新的数据表达。

2、为实现上述目的,本技术第一方面提供了一种基于跨模态融合的水下视觉目标测距方法,包括:

3、获取水下的事件序列和rgb帧;

4、针对所述事件序列的异步稀疏性,通过体素网格方式对所述事件序列进行分段表征;

5、对所述事件序列和所述rgb帧进行特征编码,得到分别与所述事件序列和所述rgb帧对应的特征描述子;

6、通过自注意力机制对所述事件序列和所述rgb帧进行空间关系提取,得到用于描述局部事件与时空全局事件之间关系的依赖关系;

7、根据所述特征描述子和所述依赖关系对所述事件序列和所述rgb帧进行特征融合,得到跨模态融合信息;

8、根据所述跨模态融合信息进行预测,得到水下视觉目标距离。

9、在一种实施方式中,所述获取水下的事件序列包括:

10、通过事件相机获取水下的异步事件序列;

11、将所述异步事件序列转换为同步事件序列,并将所述同步事件序列作为所述事件序列。

12、在一种实施方式中,所述针对所述事件序列的异步稀疏性,通过体素网格方式对所述事件序列进行分段表征包括:

13、根据预设的时间周期对所述事件序列的进行均匀划分,得到多个事件窗口,其中,每个事件窗口均包括若干事件单元;

14、将所述事件序列中每个事件单元的微秒级时间戳进行正则化,得到每个事件单元的正则化时间戳;

15、根据所述正则化时间戳确定每个事件单元与每个事件窗口的对应关系,并通过体素网格方式对每个事件窗口进行体素网格表征。

16、在一种实施方式中,所述对所述事件序列和所述rgb帧进行特征编码包括:

17、通过预训练的resnet-50网络分别提取所述事件序列和所述rgb帧中具有不同空间分辨率的特征,并通过以下公式进行计算,得到所述特征描述子;

18、

19、式中,表示rgb帧,表示resnet-50网络,表示rgb帧的特征描述子,表示事件序列,表示事件序列的特征描述子。

20、在一种实施方式中,所述通过自注意力机制对所述事件序列和所述rgb帧进行空间关系提取之后还包括:

21、得到用于描述局部像素信息与全局像素信息之间关系的rgb帧依赖关系;

22、所述根据所述特征描述子和所述依赖关系对所述事件序列和所述rgb帧进行特征融合包括:

23、根据所述特征描述子、所述依赖关系和所述rgb帧依赖关系对所述事件序列和所述rgb帧进行特征融合。

24、在一种实施方式中,所述根据所述特征描述子、所述依赖关系和所述rgb帧依赖关系对所述事件序列和所述rgb帧进行特征融合包括:

25、根据所述特征描述子和所述依赖关系,对所述事件序列进行三尺度特征融合,得到具有不同空间分辨率的事件映射;

26、根据所述特征描述子和所述rgb帧依赖关系,对所述rgb帧进行三尺度特征融合,得到具有不同空间分辨率的帧特征映射;

27、通过聚合操作将各个所述事件映射和所述帧特征映射融合,得到跨模态融合信息。

28、在一种实施方式中,所述根据所述跨模态融合信息进行预测包括:

29、构建预测模型,通过有监督方式对所述预测模型进行训练,同时使用逐像素的l1损失函数约束训练,得到目标预测模型;

30、根据所述跨模态融合信息,通过所述目标预测模型进行预测,得到度量深度图;

31、将所述度量深度图转换为对数深度图,通过所述对数深度图得到所述水下视觉目标距离。

32、本技术第二方面提供了一种基于跨模态融合的水下视觉目标测距装置,包括:

33、相机模块,用于获取水下的事件序列和rgb帧;

34、体素网格事件表征模块,用于针对所述事件序列的异步稀疏性,通过体素网格方式对所述事件序列进行分段表征;

35、特征编码模块,用于对所述事件序列和所述rgb帧进行特征编码,得到分别与所述事件序列和所述rgb帧对应的特征描述子;

36、自注意力模块,用于通过自注意力机制对所述事件序列和所述rgb帧进行空间关系提取,得到用于描述局部事件与时空全局事件之间关系的依赖关系;

37、特征融合模块,用于根据所述特征描述子和所述依赖关系对所述事件序列和所述rgb帧进行特征融合,得到跨模态融合信息;

38、预测模块,用于根据所述跨模态融合信息进行预测,得到水下视觉目标距离。

39、本技术第三方面提供了一种电子设备,包括:存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。

40、本技术第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。

41、由上可见,本技术提供了一种基于跨模态融合的水下视觉目标测距方法及装置,首先获取水下的事件序列和rgb帧,并通过体素网格方式对事件序列进行分段表征;对事件序列和rgb帧进行特征编码得到相应的特征描述子,然后通过自注意力机制对事件序列和rgb帧进行空间关系提取,得到用于描述局部事件与时空全局事件之间关系的依赖关系,再根据特征描述子和依赖关系对事件序列和rgb帧进行特征融合,得到跨模态融合信息,进而可根据跨模态融合信息进行预测并得到水下视觉目标距离。通过本技术提出的水下视觉目标测距方法,将事件和rgb两种数据模态进行深度的跨模态融合,得到更高层次的跨模态融合信息,进而对事件序列和rgb帧以端到端的方式进行水下视觉目标距离估计,得到更为准确的水下视觉目标距离,为水下的三维重建、目标检测、识别和追踪等任务提供新的数据表达,且能够有效提升上述应用任务的准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1