一种注视点指导的显著目标检测方法

文档序号:24787877发布日期:2021-04-23 11:22阅读:144来源:国知局
一种注视点指导的显著目标检测方法

1.本发明涉及计算机视觉的技术领域,特别是涉及一种注视点指导的显著目标检测方法。


背景技术:

2.视觉显著性描述一个物体在一幅场景中的特殊性或吸引视觉注意的能力这种能力源自该物体与周围事物的迥异性,由观察者的主观经验引起,图像显著度检测可以提取图像中的显著目标,滤除冗余的背景信息,只关注人类视觉感兴趣的图像区域,从而降低图像内容理解和场景分析的复杂度,显著目标检测是许多计算机视觉任务重要的预处理步骤,被广泛应用于图像检索、语义分割、图像裁剪、目标跟踪、视频压缩等任务中。
3.显著目标检测总体可以分为基于传统方法的显著目标检测和基于深度学习的显著目标检测方法,传统方法使用手工设计的特征和先验知识来检测和分割突出的物体,由于缺乏高层次的语义知识,这些传统方法往往无法检测出复杂场景中的显著目标,随着深度学习的发展,显著目标检测取得了重大进展,深度神经网络可以有效提取图片中的多级特征,与基于手工设计特征的传统方法相比,基于深度学习的显著目标检测方法具有普适性强、精度高的优点,深度学习的显著目标检测方法可以分为基于全连接神经网络的方法和基于全卷积神经网络的方法。
4.早期基于全连接神经网络的显著目标检测方法将整幅图片分为许多个小的子区域,利用全连接神经网络依次为每个子区域提取特征并预测该子区域的显著性分数,这带来了巨大的重复计算量,并且无法利用整体空间信息,例如:eld(deep saliency with encoded low level distance map and high level features)、mdf(visualsaliency based on multiscale deep features)等。
5.近年来,基于全卷积神经网络的显著目标检测方法成为主流,这些方法将整幅图片输入全卷积神经网络,并且端到端的预测每一个像素点的显著性分数,取得了令人满意的效果,例如:pagr(progressiveattention guided recurrent network for salient objectdetection)、cpd(cascaded partial decoder for fast and accuratesalient object detection)等。
6.然而,在显著目标尺寸过小、与背景对比度低和背景过于复杂等具有挑战性的情况下,由于显著目标和背景之间的视觉对比不明显,现有的方法仍然无法准确地定位显著目标,从而使得最终的显著目标检测效果不佳。


技术实现要素:

7.为解决上述技术问题,本发明提供一种可更准确地定位显著目标,提高显著目标的检测效果的注视点指导的显著目标检测方法。
8.本发明的一种注视点指导的显著目标检测方法,包括以下步骤:
9.(1)、设计多尺度特征提取器提取多尺度的卷积特征:
10.利用一个共享的卷积神经网络对输入的图片进行特征提取得到多尺度的卷积特征集合r;通过适应卷积操作得到的特征集合r调整为更适合注视点预测任务的特征集合f和显著目标检测任务的特征集合s。
11.(2)、设计特征融合交换模块来交换注视点预测和显著目标检测之间的互补信息:
12.注视点预测任务的特征图f包含更多的全局语义信息,可以捕获图像中最具视觉吸引力的区域;显著目标检测任务的特征图s则包含了更多的底层边缘信息,能够对边缘进行精确的分割,f和s中包含许多的互补信息,然而现有的显著性检测模型没有对两者的互补性进行充分的融合,所设计的特征融合交换模块包括外部特征交换模块和内部特征融合模块,有效的利用了两者特征的互补性,外部特征交换模块在两个任务之间建立了双向的信息传递通道,内部特征融合模块采用了自顶向下的特征融合模式,将高层特征与底层特征更好的进行融合,加强了高层语义信息对底层细节信息的指导。
13.(3)、设计特征解码模块,将融合优化后的特征送入解码器生成最终的注视点预测图和显著目标预测图:
14.经过了步骤a的特征提取和步骤b的特征融合优化后,需要解码优化后的多尺度卷积特征集合f和s,生成注视点预测图和显著目标预测图,解码模块包括多尺度感受野增强模块和特征结合模块,多尺度感受野增强模块用于为特征图中的每个像素点提供多尺度的感受野范围,特征结合模块在解码过程中融合每层的特征与上一层的特征,逐步生成最终的预测图。
15.本发明的一种注视点指导的显著目标检测方法,步骤(1)中的多尺度特征提取器的具体操作为:
16.利用一个共享的卷积神经网络对输入的图片进行特征提取得到多尺度的卷积特征集合;通过适应卷积操作得到的特征集合调整为更适合注视点预测任务的特征集合和显著目标检测任务的特征集合。
17.本发明的一种注视点指导的显著目标检测方法,步骤(2)中的特征融合交换模块的具体操作为:
18.注视点预测任务的特征图包含更多的全局语义信息,可以捕获图像中最具视觉吸引力的区域;显著目标检测任务的特征图则包含了更多的底层边缘信息,能够对边缘进行精确的分割,两者包含许多的互补信息,特征融合交换模块包括外部特征交换模块和内部特征融合模块,外部特征交换模块在两个任务之间建立了双向的信息传递通道,内部特征融合模块采用了自顶向下的特征融合模式,将高层特征与底层特征更好的进行融合,加强高层语义信息对底层细节信息的指导。
19.本发明的一种注视点指导的显著目标检测方法,步骤(3)中的特征解码模块的具体操作为:
20.解码模块包括多尺度感受野增强模块和特征结合模块,多尺度感受野增强模块用于为特征图中的每个像素点提供多尺度的感受野范围,特征结合模块在解码过程中融合每层的特征与上一层的特征,逐步生成最终的预测图。
21.与现有技术相比本发明的有益效果为:有效地结合了注视点预测和显著目标检测之间的互补性,通过在两者之间传递交换彼此所需要的互补信息,有效地发挥了注视点预测图能够捕获全局语义知识地优势,帮助显著目标检测进行更加准确的定位,经实验,本发
明在公开的4个数据集的6个评测指标上均超越了最前沿的显著目标检测方法。
附图说明
22.图1是本发明的所设计的神经网络模型的整体架构;
23.图2是本发明的所设计的特征融合交换模块;
24.图3是本发明的所设计的特征解码模块;
具体实施方式
25.下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
26.实施例:如图1至图3所示:
27.本发明的一种注视点指导的显著目标检测方法,主要包括以下步骤:
28.步骤a:利用多尺度特征提取器来提取图片的多尺度特征。
29.选择resnet

50作为图片特征提取器,我们选取resnet

50的后四个卷积模块,并丢弃最后的全局池化层和全连接层以适应我们的实际需求,得到共享多尺度特征图r={r
i
|i=2,3,4,5},我们分别在每一个特征图r
i
后面增加适应卷积层来调整共享特征使其更适应于注视点预测和显著目标检测,至此可以得到更适合于注视点预测任务的特征图f={f
i
|i=2,3,4,5}和更适合于显著目标检测任务的特征图s={s
i
|i=2,3,4,5}。
30.步骤b:利用特征融合交换模块来交换注视点预测和显著目标检测之间的互补信息。
31.特征融合交换模块包括外部特征交换模块和内部特征融合模块,外部特征交换模块在两个任务之间建立了双向的信息传递通道,对于每一尺度的特征图s
i
和f
i
,我们将其与对方的特征图进行融合,考虑到底层特征包含更多的噪声和干扰,同时为了减少计算时间复杂度,我们只融合了对应层和更高层的互补信息,计算过程如下:
32.s
i
=s
i
+conv(cat{s
i
,conv(s
i
×
up(f
j
))|j=i

5})
33.f
i
=f
i
+conv(mul{f
i
,conv(up(s
j
))|j=i

5})
34.其中cat为拼合操作,mul为点乘操作,conv为卷积操作,up 为上采样操作,对于显著性检测特征图,增加了内部特征融合模块以更好地利用学习到的高层定位信息,内部特征融合模块采用了自顶向下的特征融合模式,将高层特征与底层特征更好的进行融合,加强了高层定位信息对底层细节信息的指导,计算过程如下:
35.s
i
=conv(s
i
+up(s
i+1
))
36.在模型中我们级联了4个特征融合交换模块,以达到时间代价和性能的最佳折中点。
37.步骤c:将融合优化后的特征送入解码器生成最终的注视点预测图和显著目标预测图。
38.通过级联的特征融合交换模块,两个任务的互补特征已经进行了充分的信息交换,接下来通过解码器对特征图进行解码,由于注视点预测与显著目标检测的解码过程类似,因此以显著目标检测的解码过程为例说明生成预测图的过程,随着卷积神经网络层数的加深,卷积层的实际感受野尺寸与理论值相比要小很多,因此,我们训练一个多尺度感受
野增强模块作用于各个尺度的特征图,使得特征图中的每一个像素点都能捕获到多大尺寸的感受野,多尺度感受野增强模块具有 4个分支,分别包含卷积核尺寸为{1,3,5,7}的卷积层,卷积核尺寸越大的分支捕获到的感受野范围越大,将特征图s
i
分别输入各个分支进行卷积操作,并将4个分支的输出拼合为特征图s

i
,底层特征包含更多的细节特征,高层特征包含更多的语义信息,两者进行融合才能获得精确的显著目标预测图,因此利用特征融合模块以自顶向下的方式融合高层特征和底层特征,在第i步中,特征融合模块通过结合特征图s

i
和来自上一步的融合结果p
i+1
得到融合特征图p
i
,并作为下一步的输入,计算过程如下:
39.p
i

conv(cat(s
i
,up(p
i+1
)))
40.其中cat为拼合操作,up为上采样操作,特征图s

i
的尺寸是p
i+1
尺寸的2倍,因此对p
i+1
进行上采样操作使其具有和s

i
相同的尺寸以进行拼合,最后一步生成的特征图p2的尺寸为原图的四分之一,通道数为32,因此需要增加额外的卷积层和上采样操作生成与原图相同尺寸的显著目标预测图p,注视点预测图q的生成过程与p类似,整个网络的损失函数l
total
为显著目标检测损失l
ce
(p,ct
s
)和注视点预测损失l
ce
(q,gt
f
)的和,计算过程如下:
41.l
total
=l
ce
(p,gt
s

s
)+l
ce
(q,gt
f

f
)
[0042][0043][0044]
其中gt={gt
s
,gt
f
}分别为显著目标检测和注视点预测的真值图,θ={θ
s
,θ
f
}分别为计算p和q对应的网络参数,l
ce
为交叉熵损失,n为预测图的像素数。
[0045]
实验过程及结果说明:
[0046]
本发明首先在数据集dut

omron上进行预训练,dut

omron包含 5168张图片,并且提供了显著目标检测标注图和注视点预测标注图,因此可以对整个网络的参数进行学习,预训练完成后,本发明在数据集duts

train上进一步微调,duts

train包含10553张图片,由于 duts

train只提供显著目标检测真值图,所以在本阶段的训练中网络的损失只包含显著目标检测损失l
ce
(p,gt
s

s
),经过预训练和微调得到最终的网络模型。
[0047]
训练完成后,我们在4个公开的数据集上对本发明进行评测,包括ecssd、hku

is、pascal

s、duts

test。评价指标中maxf、meanf、 weighted

f为fmeasure的不同变形,越大越好;mae为平均绝对误差,越小越好;precision

recall为查准率查全率曲线,曲线下的面积越大越好;s

measure和e

measure为近几年提出的评价指标,这都是显著性检测的常用评价指标,与现有方法相比,本发明在4个公开的数据集的6个评测指标上均取得了最好的效果。本发明在各种挑战性情况下都能准确地定位显著目标,并可以精确地分割出完整的显著性目标。
[0048]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1