基于多波段视觉图像感知与融合的显著性目标检测方法与流程

文档序号:36239227发布日期:2023-12-01 23:02阅读:64来源:国知局
基于多波段视觉图像感知与融合的显著性目标检测方法与流程

本发明属于图像处理、模式识别领域,具体涉及一种基于多波段视觉图像感知与融合的显著性目标检测方法。


背景技术:

1、视觉感知与图像处理技术,作为人工智能理论与应用的关键组成部分,已广泛的应用于航空航天、智慧机器人、智能驾驶等领域,在航天器空间对接、月球车视觉导航、无人驾驶汽车等重要应用中发挥了关键作用。

2、视觉感知应用技术很多都是建立在背景环境简单、光线条件良好的前提之下,这时视觉感知器获取到的图像大多背景简单、像素较高、光照干扰信息较少,这就为后续的图像处理减少了大量麻烦。然而在现实生活中,以上各种应用领域的工作场景大都比较复杂,都会面临复杂光照环境影响这一共性问题,产生该问题的主要原因包括:白天与夜间光照的变化、夜间灯光等光源强弱的变化、环境场景转换过程中光强的差异变化、光照阴影的干扰等几个方面。复杂光照环境影响下的视觉感知问题对可见光视觉识别提出了严峻的挑战,并严重影响了检测的精度和识别的准确性。

3、针对单模态图像数据所获得的信息无法完全表示事物信息,导致最终识别性能指标难以满足实际应用的需求这一难题,多模态信息融合应运而生。多模态信息融合采用一定的方式将不同光谱波段传感器获取的图像中呈现的不同特征信息进行有效融合,可以最大程度的利用不同模态图像数据的互补信息,去除冗余信息,从而获得对事物更多元更全面表征,提升识别性能。


技术实现思路

1、本发明的目的是从多波段视觉感知融合的角度出发,利用多波段图像信息的互补性及其耦合识别机理,提出了一种基于多波段视觉图像感知与融合的显著性目标检测方法,以解决单一波段图像不能同时有效解决多方面原因产生的复杂光照变化影响问题,进而提高目标检测的准确性。

2、为实现上述目的,本发明提供一种基于多波段视觉图像感知与融合的显著性目标检测方法,其包含:步骤1:构建多波段视觉图像训练样本集,采用数据增强技术对训练样本集进行扩充,对扩充后的训练样本集进行标注;步骤2:构建孪生骨干网络模型,分别以扩充后的训练样本集中的可见光图像和热红外图像作为输入对象,提取多层级特征信息;步骤3:构建多尺度特征提取网络模块,以步骤2输出的多层级特征信息作为输入,分别对各层级特征信息提取多尺度特征信息;步骤4:构建注意力机制模块,注意力机制模块包括通道注意力和空间注意力;以步骤3获取的各层级多尺度特征信息作为输入,计算可见光和热红外分别对应的空间注意力特征和通道注意力特征;将可见光的空间注意力特征和热红外的空间注意力特征相乘获得第一乘积特征图,并将该第一乘积特征图分别与可见光的通道注意力特征和热红外的通道注意力特征相乘,输出可见光注意力特征图和热红外注意力特征图;步骤5:构建特征融合模块,以步骤4输出的可见光注意力特征图和热红外注意力特征图作为输入,通过加法、乘法和顺序拼接操作将其融合,形成最终作为预测输出的目标特征图,完成显著性目标的检测。

3、优选地,所述步骤1具体包括:步骤1.1:通过多源相机采集成对的可见光图像和热红外图像,形成所述训练样本集;步骤1.2:采用数据增强技术对采集到的训练样本集进行扩充,并对扩充后的训练样本集进行像素级标注。

4、优选地,步骤2构建的孪生骨干网络模型包括两路相同的第一骨干网络模型和第二骨干网络模型;所述第一骨干网络模型接收可见光图像xr∈rw×h×3作为输入,提取可见光多层级特征信息第二骨干网络模型接收热红外图像xt∈rw×h×3作为输入,提取热红外多层级特征信息其中,w和h分别表示输入图像的宽和高,n表示骨干网络模型输出的特征层级。

5、优选地,每个所述骨干网络模型包括图像分块层、线性嵌入层、图像块合并层、以及多个深度自注意力变换网络模块,用于提取多层级特征信息;所述图像分块层将输入的可见光图像或热红外图像切成一个个图像块,并输入线性嵌入层;所述线性嵌入层将每一个图像块做线性变换,并输出线性特征图;将所述线性数据作为输入,开始每层级的特征信息提取;每层级进行特征信息提取前,通过所述图像块合并层对输入线性特征图进行将采样,缩小线性特征图分辨率,调整通道维度,形成层次化特征图;将调整后的层次化特征图输入到深度自注意力变换网络模块进行特征表征,获得每一层级的特征信息。

6、优选地,步骤3构建的多尺度特征提取网络模块包括4个并行排列的带有不同空洞卷积率(d=1,3,5,7)的卷积层每一个空洞卷积层采用3×3卷积核并结合不同空洞卷积率d获取多尺度特征信息。

7、优选地,将可见光多层级特征信息和热红外多层级特征信息输入所述多尺度特征提取网络模块,在每一层级输出的多尺度特征图上获取可见光多尺度特征信息和热红外多尺度特征信息其中,cat表示顺序拼接。

8、优选地,所述步骤4包括:

9、步骤4.1:通过全局平均池化将可见光多尺度特征信息和热红外多尺度特征信息展开,以此生成通道特征向量和采用两个全连接层(fc1,fc2)对通道特征向量和进行编码;通过高斯激活函数将通道特征向量和的每一个值映射到区间[0,1],生成通道权重;将生成的通道权重分别与对应的输入可见光多尺度特征信息和热红外多尺度特征信息进行加权,得到可见光通道注意力特征和热红外通道注意力特征其表达式为:

10、

11、

12、其中,sigmoid表示高斯激活函数,fc表示全连接层,w表示权重,b表示偏置,表示特征图对应元素相乘;

13、步骤4.2:采用3×3卷积核分别与可见光多尺度特征信息和热红外多尺度特征信息进行加权,以此细化特征信息,生成细化特征图;通过1×1卷积核与所述细化特征图进行加权,获取细化特征图内每个单元的空间位置信息,并采用高斯激活函数将细化特征图内的每个特征值映射到区间[0,1],产生空间位置权重;将空间位置权重与输入的可见光多尺度特征信息和热红外多尺度特征信息进行加权,得到可见光空间注意力特征和热红外空间注意力特征其表达式为:

14、

15、

16、其中,sigmoid表示高斯激活函数,relu表示非线性激活函数,w表示权重,表示特征图对应元素相乘;

17、步骤4.3:将得到的和相乘获得所述第一乘积特征图,实现空间对齐;将所述第一乘积特征图分别与和相乘,输出可见光注意力特征图和热红外注意力特征图实现通道校准;其和的表达式分别为:

18、

19、

20、其中,表示特征图对应元素相乘。

21、优选地,所述步骤5包括:步骤5.1:单层级多模态特征信息融合,其包括:

22、步骤5.1.1:通过逐像素相加的方式将和二者融合,形成第一融合特征图;

23、步骤5.1.2:将第一融合特征图分别与和逐像素相乘,形成第二乘积特征图和第三乘积特征图;

24、步骤5.1.3:采用顺序拼接的方式将相乘得到的第二乘积特征图和第三乘积特征图进行再次融合,得到最终的各层级输出的单层特征图mi;其中,单层特征图mi表示为:

25、

26、其中,表示逐像素相加,表示逐像素相乘,concat表示顺序拼接;

27、步骤5.2:逐层级特征信息融合,对于步骤5.1得到的各层级的单层特征图mi,从高维单层特征图逐步向低维单层特征图融合;其包括:

28、步骤5.2.1:将高维单层特征图二倍上采样;

29、步骤5.2.2:采用1×1卷积核改变高维单层特征图的通道数,使得二倍上采样后得到的高维特征图与相邻低维特征图的维度相同;

30、步骤5.2.3:将相邻层特征图进行逐像素相加融合,形成目标特征图;具体为:

31、

32、其中,表示逐像素相加,conv表示带参数的1×1卷积核,up表示二倍上采样。

33、本方法还包括步骤6:构建混合函数作为整体网络模型优化的损失函数,所述整体网络模型包括所述孪生骨干网络模型、所述多尺度特征提取网络模块、所述注意力机制模块以及所述特征融合模块;通过随机梯度下降算法优化网络模型;所述混合函数的表达式为:

34、lloss=αlbce+βliou+γlssim

35、其中lbce,liou,lssim,分别表示交叉熵损失函数,交并比损失函数和结构相似性指标损失函数;α,β,γ表示平衡参数。

36、优选地,所述采用随机梯度下降算法优化整体网络模型包括:每次输入网络的批量大小为16,动量系数为0.9,权重衰减系数为0.0005;网络初始学习速率为5e-5,每训练10个批次,学习速率降低1/10,总共训练300个批次。

37、综上所述,与现有技术相比,本发明提供的一种基于多波段视觉图像感知与融合的显著性目标检测方法具有以下有益效果:

38、(1)采用swin transformer作为骨干神经网络,可以提取更加鲁棒和丰富的层级特征。

39、(2)多尺度特征提取模块采用多条并行的类残差的空洞卷积形式,在保留原始信息以及不增加参数的同时,提升了网络模型对目标多尺度变化的感知能力;

40、(3)注意力机制充分融合了不同模态下的目标信息,使得模型聚焦于目标本身,提高了网络模型对目标的综合感知能力,提升了识别准确率;

41、(4)混合损失函数使得模型对目标样本特征表现更加紧凑,同时增强目标与背景的可分离性,加速网络模型的优化,提升了识别准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1