基于绝对和相对深度诱导网络的显著性目标检测方法与流程

文档序号:22615060发布日期:2020-10-23 19:14阅读:225来源:国知局
基于绝对和相对深度诱导网络的显著性目标检测方法与流程

本发明属于及显著性目标检测技术领域,具体为基于绝对和相对深度诱导网络的显著性目标检测方法。



背景技术:

显著性目标检测是计算机图像处理中的基本操作,显著性目标检测旨在定位和分割图像中最具视觉特色的物体。近年来,它被广泛应用到各个领域,例如重新定位,场景分类,视觉跟踪和语义分割等。计算机在进行相关图像处理操作前可以采用显著性检测技术过滤掉无关信息,从而大大减小图像处理的工作,提高效率。

早期的显著性目标检测方法主要是设计手工制作的特征(例如亮度,颜色和纹理)来进行检测图像中的显着目标。近年来,由于cnn的发展,提出了各种基于深度学习的模型。2017年hou等人,提出了一种在层与层之间的短连接机制,并使用它来聚合来自多个尺度的特征图。2017年zhang等人,探索每个尺度的多层次特征,并以递归方式生成显着性图。2019年feng等人,提出了一个注意反馈模块,以更好地探索显着物体的结构。但是,这些最近提出的方法在面对例如语义上复杂的背景,低亮度环境和透明对象等极端复杂的情况下具有一定挑战,为了解决这个问题,我们提出利用深度信息来补充rgb图像。这样我们就可以探索场景的空间结构和3d几何信息,从而提高网络的有效性和鲁棒性。

传统的rgb-d显着物体检测方法提取的特征,缺少全局上下文信息和特征中的语义线索。近年来,深度和rgb特征的有效集成方法是此任务的关键问题。2019年zhao等人设计了一个对比度损失来探索深度图像中的先验对比度。然后,通过融合细化的深度和rgb特征生成注意力图。通过充分利用多尺度跨模态特征的流体金字塔集成策略输出最终的显着性映射。2019年pial等人分层整合了深度和rgb图像,并通过递归注意力模型细化最终显着性图。但是目前的方法融合深度和rgb图像特征空间是异步的,会在网络中引入杂波噪声。

综上所述,现有显著性目标检测技术有以下几个方面的缺陷:第一,大多数现有方法仅从rgb图像中提取特征,这些特征不足以从凌乱的背景区域中区分出显着物体;第二,现有的大多数方法都通过单独的网络提取深度和rgb特征,并使用不同的策略直接融合它们。但是,跨模态特征空间不一致。直接将它们融合会导致预测结果中出现嘈杂的响应;第三,虽然利用绝对深度诱导模块可以精确的定位显著物体,但是仍没有深入的探索局部区域的详细显著性信息,这也限制了模型性能的进一步提升。



技术实现要素:

(一)解决的技术问题

针对现有技术的不足,本发明提供基于绝对和相对深度诱导网络的显著性目标检测方法,解决了背景技术中提到的问题。

(二)技术方案

为实现上述目的,本发明提供如下技术方案:一种基于绝对和相对深度诱导网络的显著性目标检测方法,包括如下步骤:

a.以残差网络为主干网络的深度诱导网络训练:将resnet-50的最后池化层和全连接层移除,网络输入图像统一调整为256×256,并将数据集进行归一化处理,将五个卷积块生成的特征图通过金字塔的方式生成对应的侧输出图,然后在网络中自上而下的进行融合操作;

b.绝对深度诱导模块跨模态特征融合,定位物体:将输入图像的深度图像输入到一组卷积中,得到一个与res2_x特征映射尺寸相同的深度特征映射图,多次应用绝对深度诱导网络,以递归的方式将深度特征图和rgb特征图集成在一起,实现跨模态的特征融合,避免了简单的融合两种异步模态特征,带来的噪音干扰,加强了深度和颜色特征之间的深度交互作用,可以在每个尺度上自适应地融合rgb和深度特征;

c.相对深度诱导模块建立空间几何模型补充细节信息:首先将来自解码网络最后阶段res5_x的特征图进行上采样并与绝对深度诱导模块跨模态融合得到的特征图集成在一起,生成新的特征图,然后将其和绝对深度诱导模块产生的深度图共同输入到相对深度诱导模块中,来探索图像的空间结构和详细的显着性信息,将相对深度信息包裹在网络中以提高显着性模型的性能;

进一步的,步骤a中所述输入网络图像尺寸大小一样时,我们利用双线性插值的方法对数据集进行操作。

进一步的,步骤a中生成侧输出图时,将四个残差块的输出特征图输入到一个1*1的卷积层,将特征图的通道降维,即为侧输出图,从而用于后续的自上而下的集成多级特征图。

进一步的,步骤b中所述以递归的方式将深度特征图和rgb2特征图集成在一起,绝对深度诱导网络由门控递归单元(gru)实现,该单元旨在处理序列问题,我们将多尺度特征集成过程表述为一个序列问题,并将每个尺度视为一个时间步。

进一步的,在每个时间步中,首先将深度特征图降维,然后通过全局最大池化将深度和rgb特征图进行级联和转化,生成新的特征向量,再经过全连接层等操作,可以实现在每个尺度上自适应地融合rgb和深度特征。

进一步的,步骤c中所述利用相对深度诱导模块来探索图像的空间结构和详细的显着性信息,该模块利用图卷积网络(gcn)来探索相对深度信息。

进一步的,提出的图卷积网络(gcn),根据图像像素的空间位置和深度值将其投影到3d空间中,弥补了2d空间中的相邻像素在3d点云空间中没有强烈关联这一劣势,根据短距离相对深度关系在局部区域执行信息传播,通过在多尺度上探索空间结构和几何信息,相继增强了局部特征表示能力,通过这种方式,可以在相对诱导网络中利用详细的显着性信息,从而有助于精确预测最终结果。

(三)有益效果

与现有技术相比,本发明提供了基于绝对和相对深度诱导网络的显著性目标检测方法,具备以下有益效果:

本发明不仅从残差网络中提取rgb图像特征,而且提出利用深度信息来帮助显著性目标检测任务,大多数现有的rgb-d模型仅简单地提取深度和rgb特征,并启发式地融合它们,利用绝对深度诱导模块将rgb图像特征和深度图像信息以从粗到细的方式跨模态融合利用,避免了由于两个空间的异步特性而引起的杂乱噪声干扰,从而精确定位物体;利用相对深度诱导模块建立空间图卷积模型探索空间结构和几何信息,以增强局部特征表示能力,从而提高检测的准确性以及鲁棒性,使其可达到极好的检测效果,有助于与其它领域融合,具有广阔的应用前景。

附图说明

图1是本发明提出的一种基于绝对和相对深度诱导网络的显著性目标测流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本实用新形提供一种技术方案:基于绝对和相对深度诱导网络的显著性目标检测方法,包括以下步骤:

以残差网络为主干网络的深度诱导网络训练:将resnet-50的最后池化层和全连接层移除,网络输入图像统一调整为256×256,并将数据集进行归一化处理,将五个卷积块生成的特征图通过金字塔的方式生成对应的侧输出图。然后在网络中自上而下的进行融合操作。

以残差网络为主干网络的深度诱导网络训练:将resnet-50的最后池化层和全连接层移除,主干网络包括五个卷积块,conv1,res2_x,…res5_x,输入尺寸大小为×wh的rgb图像,通过卷积块分别生成尺寸为的特征图较浅的层捕获图像的低级信息,如纹理和空间细节,深层特征映射包含高级语义信息。我们以金字塔的方式融合特征图利用1*1卷积核将通道降低为c,得到侧输出图然后以自上而下的方式集成多级特征图,

其中,(.)σ是relu激活函数,cat[·,·]是在相同通道维度下连接两个特征图的级联运算,up(.)是具有双线性插值的上采样运算,wl,bl是网络中的可训练参数。

绝对深度诱导模块跨模态特征融合,定位物体:首先将尺寸为w*h的输入深度图像d输入到一组卷积层中,并生成尺寸为的特征图fd,然后,多次应用绝对深度诱导模块(adim),以递归的方式将深度特征图与rgb特征图集成在一起,以加强深度和颜色特征之间的深度交互作用,

其中,是更新的深度特征,是第l层中的深度和rgb信息的聚合结果。

根据上述实施例,优选地,adim由门控递归单元(gru)实现,该单元旨在处理序列问题,我们将多尺度特征集成过程表述为一个序列问题,并将每个尺度视为一个时间步。在每个时间步中,我们将rgb特征视为gru的输入,而深度特征可视为最后一步的隐藏状态,通过全局最大池化(gmp)操作将两个特征图进行级联和转换,并生成特征向量。随后在该特征向量上应用完全连接层以生成重置门r和更新门z。这两个门的值通过s型函数进行归一化,实际上门r控制深度和rgb特征的集成度,z控制的更新。通过这种方式,可以在每个尺度上自适应地融合rgb和深度特征。通过网络增强了深度和rgb特征之间的交互作用。然后将所生成的多尺度特征图与处于解码状态的特征图组合,即公式(1)重新表示为:

相对深度诱导模块建立空间几何模型补充细节信息:相对深度诱导模块(rdim)用于解码阶段,首先将来自解码网络最后阶段的特征图进行上采样与特征图集成在一起,如公式(3)所述,所生成的特征图被表示为然后将rdim应用于特征图和深度图像,以在网络中嵌入相对深度信息

根据上述实施例,优选地,rdim由图卷积网络(gcn)实现,为了探究像素之间地相对深度关系,我们首先将由adim生成的特征图表示为g=(v,e,其中节点集合为v,边缘集合为e。我们将图中的每个节点ni视为3d坐标系中的一个点,并将坐标表示为(xi,yi,di),其中(xi,yi)是特征的空间位置映射且di是相应地深度值。将节点集合表示为v={n1,n2,...,nk},k是节点数。我们定义3d坐标和其相邻的m个元素的边缘集合ei,j∈e,计算边缘ei,j上的权重wi,j,作为相对深度值,以测量节点ni和nj之间的空间相关性,

wi,j=|(xi,yi,di)-(xj,yj,dj)|(5)

为了描述节点ni和nj之间的语义关系,我们为边缘ei,j,定义了一个属性特征ai,j,为了进一步考虑图像的全局上下文信息,对特征图应用gap以提取高级语义信息,输出特征向量fg。

空间gcn由一组堆叠的图卷积层(gcl)组成,对于每个gcl,首先更新边缘ei,j的属性特征ai,j,

其中,分别是特征图的位置(xi,yi)和(xj,yj)的特征向量,利用mlp更新每个节点的功能,

其中n(ni)是节点ni的相邻像素集合wi,j视为边缘ei,j上的相对深度值的关注值,通过这种方式,rdim更加关注具有较大相对距离的区域,度值的关注值,通过这种方式,rdim更加关注具有较大相对距离的区域,消息通过相邻节点的边缘传输。然后,将所有节点的更新的特征馈送到全局最大池化层,并且获得更新的全局特征向量fg,最后,我们通过最后一个获得了特征图其中是尺度为lrdim的整体输出。通过使用gcn在节点之间传输消息,每个节点的功能将根据其与所有其他相邻节点的关系进行更新和完善。在我们的网络中,我们在解码阶段的第3级和第4级应用rdim。然后将所生成的rdim特征图输入到下一个解码阶段。

选择最后一个解码阶段生成的特征图预测最终的显著图,因为它结合了绝对和相对深度信息,首先使用双线性插值运算将特征图向上采样,使其与输入大小相同,最后输入单个通道的卷积层中,得到最终的显著图s,在训练过程中,最终的显著图通过交叉熵损失函数由真值图监督,

其中和si,j分别是真值图和显着性图的位置(i,j)中的显着性值。

本发明不仅从残差网络中提取rgb图像特征,而且提出利用深度信息来帮助显著性目标检测任务,大多数现有的rgb-d模型仅简单地提取深度和rgb特征,并启发式地融合它们,本发明中设计绝对深度诱导模块将rgb图像特征和深度图像信息以从粗到细的方式跨模态融合利用,避免了由于两个空间的异步特性而引起的杂乱噪声干扰,从而精确定位物体;同时设计相对深度诱导模块建立空间图卷积模型探索空间结构和几何信息,以增强局部特征表示能力,从而提高检测的准确性以及鲁棒性,使其可达到极好的检测效果,有助于与其它领域融合,具有广阔的应用前景。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1