本发明涉及目标检测,具体涉及一种显著性目标检测方法及装置。
背景技术:
1、显著性目标检测(salient object detection,sod)的目的是在给定的场景中定位视觉上最突出的目标。显著性目标检测在一系列现实应用中起着关键作用,例如:在图像检索、目标跟踪、图像/视频分割、人脸识别、图像理解等许多计算机视觉任务。
2、基于rgb-d的显著性目标检测是各种视觉任务的重要预处理操作,近年来成为人们关注的重点。虽然基于rgb-d的显著性目标检测已经取得重大突破,但在全局上下文建模、多尺度特征聚合上仍存在局限性。近年来基于rgb-d的显著性目标检测的方法已经逐渐打破了传统方法和基于rgb方法的性能瓶颈,特别是在处理前景和背景相似等复杂场景时,表现出了优异的效果。这主要依赖于全局上下文建模、多尺度特征聚合以及边缘指导的学习机制。以往的研究工作也都集中在这三个重要因素上。虽然,取得了不错的效果,但它们还存在以下局限性。
3、首先,大多数基于rgb-d的显著性目标检测任务使用卷积神经网络作为特征提取的骨干网络,虽然取得了不错的效果,但由于滑动窗口提取特征方法的固有缺陷,仍无法很好地学习全局语义信息。有的研究者为了提取全局语义信息,引入膨胀卷积,在不引入额外参数的前提下,扩大了卷积核的感受野,增强了网络的全局特征提取能力。同时,膨胀卷积会造成栅格效应,损失信息的连续性。这会导致在复杂的场景下以及当目标比较小时,出现检测失败的情况。也有一些研究者从特征提取的角度出发,使用transformer作为特征提取的骨干网络,提取图像的全局特征,学习全局语义信息。虽然这种方法可以实现全局上下文建模,但transformer带来的计算复杂度是不可估量的。
4、其次,在多尺度特征聚合过程中忽略了不同尺度特征之间的差异。高级特征中含有丰富的语义信息,但缺少准确的位置信息,低级特征中含有丰富的细节和清晰的边缘轮廓,但背景噪声比较多。直接进行聚合,容易引入噪声和其他冗余信息。除此之外,还忽略了聚合过程中上采样操作带来的信息缺失和边界模糊的不利现象。一些研究者利用低级特征生成边缘信息,来解决边界模糊的问题,而对于信息缺失这一问题,并未很好的探究。因此,有必要提出一种显著性目标检测方法,以解决上述问题。
技术实现思路
1、本发明的目的在于提供一种显著性目标检测方法,在具有全局建模能力的同时,兼顾cnn局部建模的能力;增强高级特征,并获取更细致的语义信息;减小不同尺度特征的差异性,进而提高特征的表示能力;解决多尺度特征聚合中上采样操作导致的部分信息缺失的问题。
2、本发明提供一种显著性目标检测方法,包括:
3、获取待检测图像;
4、通过编码器对所述待检测图像提取rgb特征和深度特征;
5、通过注意力特征增强模块分别对rgb特征和深度特征的高级特征进行特征增强;
6、将提取的rgb特征和深度特征输入跨模态融合模块,对所述rgb特征和深度特征进行加强和融合;
7、利用边缘提取模块生成所述深度特征中的显著物体的边缘信息;
8、将加强和融合后的rgb特征和深度特征输入多尺度特征聚合模块,进行多尺度特征聚合,得到多级融合特征;
9、将所述多级融合特征输入级联校正解码器,对所述多级融合特征进行细化和校正,生成显著特征,然后利用边缘信息增强显著特征,生成最终的显著图。
10、进一步地,通过编码器对所述待检测图像提取rgb特征和深度特征,包括:
11、编码器包括rgb流编码器和深度流编码器,rgb流编码器和深度流编码器用swin-b作为骨干网路分别提取rgb图和深度图的多层次特征。
12、进一步地,通过注意力特征增强模块分别对rgb特征和深度特征的高级特征进行特征增强,包括:
13、rgb流编码器和深度流编码器的尾部分别加入注意力特征增强模块,利用注意力特征增强模块对高级特征进行卷积核大小为3,膨胀率为2,4,6的三种膨胀卷积,以及1x1的卷积和全局平均池化操作,获得多尺度特征;
14、对多尺度特征进行自注意力机制运算,获取全局上下文信息;
15、将经过自注意力机制、1x1的卷积以及全局平均池化之后的特征图进行拼接,得到增强之后的特征。
16、进一步地,将特征增强后的rgb特征和深度特征输入跨模态融合模块,对所述rgb特征和深度特征进行加强和融合,包括:
17、跨模态特征融合模块包括深度特征增强模块,深度特征增强模块使用空间注意力机制计算rgb特征和深度特征共同的空间注意力图;
18、将空间注意力图作为深度特征的权重,使用原始深度特征与空间注意力图进行残差连接;
19、使用通道注意力机制计算通道注意力图;
20、将通道注意力图与原始深度特征进行相乘,得到增强之后的深度特征。
21、进一步地,将特征增强后的rgb特征和深度特征输入跨模态融合模块,对所述rgb特征和深度特征进行加强和融合,包括:
22、跨模态特征融合模块包括rgb特征增强模块,rgb特征增强模块使用空间注意力机制计算rgb特征和深度特征共同的空间注意力图;
23、将空间注意力图作为rgb特征的权重,使用原始rgb特征与空间注意力图进行残差连接;
24、使用通道注意力机制计算通道注意力图;
25、将通道注意力图与原始rgb特征进行相乘,得到增强之后的rgb特征。
26、进一步地,将特征增强后的rgb特征和深度特征输入跨模态融合模块,对所述rgb特征和深度特征进行加强和融合,包括:
27、跨模态特征融合模块包括融合块,通过融合块将增强之后的深度特征和rgb特征进行融合。
28、进一步地,利用边缘提取模块生成所述深度特征中的显著物体的边缘信息,包括:
29、对深度特征进行1x1的卷积和上采样操作,生成两个尺度相同的特征;
30、将所述两个尺度相同的特征拼接起来生成边缘特征;
31、对所述边缘特征进行通道注意力机制和残差连接,生成边缘信息。
32、进一步地,将加强和融合后的rgb特征和深度特征输入多尺度特征聚合模块,进行多尺度特征聚合,得到多级融合特征,包括:
33、对高级特征进行上采样、3x3的卷积以及调整通道数的操作;
34、通过元素相乘的方式让高级特征与低级特征进行特征变换和融合,得到融合特征,融合特征具有高级特征和低级特征的特性;
35、采用通道注意力机制对融合特征进行细化,得到多级融合特征。
36、进一步地,将所述多级融合特征输入级联校正解码器,对所述多级融合特征进行细化和校正,生成显著特征,包括:
37、级联校正解码器包括第一子解码器和第二子解码器,第一子解码器和第二子解码器分别包含三个多尺度特征聚合模块,级联校正解码器包括自下而上和自上而下两个过程;
38、对于自下而上的过程,子解码器中的多尺度特征聚合模块从高级特征逐渐聚合到低级特征,聚合的特征被用来产生粗糙的显著图,同时对此显著图进行监督;
39、对于自上而下的过程,第一子解码器中顶端多尺度特征聚合模块输出的特征被直接降采样为特征,并且将其添加到多尺度特征聚合模块导出的多级特征中,以进行细化和校正;
40、将纠正后的特征发送到下一个子解码器,以通过相同的过程,生成信息完整的特征;
41、根据信息完整的特征生成显著图。
42、本发明提供一种显著性目标检测装置,包括:
43、图像获取模块,用于获取待检测图像;
44、编码器,用于对所述待检测图像提取rgb特征和深度特征;
45、注意力特征增强模块,用于分别对rgb特征和深度特征的高级特征进行特征增强;
46、跨模态融合模块,用于对所述rgb特征和深度特征进行加强和融合;
47、边缘提取模块,用于生成所述深度特征中的显著物体的边缘信息;
48、多尺度特征聚合模块,用于对加强和融合后的rgb特征和深度特征进行多尺度特征聚合,得到多级融合特征;
49、级联校正解码器,用于对所述多级融合特征进行细化和校正,生成显著特征,然后利用边缘信息增强显著特征,生成最终的显著图。
50、本发明具有以下有益效果:本发明提供的一种显著性目标检测方法及装置,获取待检测图像后,通过编码器对待检测图像提取rgb特征和深度特征;通过注意力特征增强模块分别对rgb特征和深度特征进行特征增强;将提取的rgb特征和深度特征输入跨模态融合模块,对rgb特征和深度特征进行加强和融合;利用边缘提取模块生成深度特征中的显著物体的边缘信息;将加强和融合后的rgb特征和深度特征输入多尺度特征聚合模块,进行多尺度特征聚合,得到多级融合特征;将多级融合特征输入级联校正解码器,对多级融合特征进行细化和校正,生成显著特征,然后利用边缘信息增强显著特征,生成最终的显著图;本发明提出基于swin transformer的级联聚合网络,一定程度上缓解了大多数rgb-d的显著性目标检测方法在全局上下文建模和多尺度特征聚合方面的局限性。本发明提出注意力特征增强模块,该模块可以捕获物体多尺度上下文信息,能够缓解经过膨胀卷积之后局部信息缺失的现象,并增强信息之间的相关性。本发明提出多尺度特征聚合模块,让模型有选择的聚合不同尺度的特征,防止解码过程中引入冗余信息,同时让模型在解码过程中最大限度聚合有用的语义信息。本发明提出级联校正解码器,通过级联两个带有多尺度特征聚合模块的解码器块,进一步修正和细化特征,用以生成信息完整的显著图。