一种基于多级特征融合的伪装目标分割方法及装置

文档序号：33370272发布日期：2023-03-08 01:58阅读：60来源：国知局

1.本发明涉及一种基于多级特征融合的伪装目标分割方法及装置，属于计算机视觉中的场景分割技术领域。

背景技术：

2.伪装目标分割(camouflaged object segmentation，cos)是计算机视觉中极具挑战性的任务，其目的是从目标与背景高度相似的环境中分割出伪装物体。由于伪装目标与周围环境对比度较低，相比目标与背景有明显差异的常规分割任务，伪装目标分割更加具有难度。
3.在早期的传统方法中，研究人员将伪装图案视为特殊的纹理区域，针对颜色、纹理等底层特征，运用三维凸算子、灰度共生矩阵、纹理描述符、数学形态学等方法对伪装目标进行分割。随着深度学习技术的发展，从图像中提取的深度特征相比于传统底层特征更加通用和有效。
4.目前方法在相对简单的场景中分割伪装目标已经具有较好的效果，但面对目标偏小且背景复杂的场景时，现有模型分割性能显著下降。模型效果下降原因包括当前模型所提取的深度特征多尺度表达能力不足，无法发现图片中尺寸较小且与背景高度相似的伪装目标，导致模型产生漏检情况。其次，模型使用的底层特征包含大量干扰信息，无法准确提取出伪装目标边缘细节；深层特征经过多次下采样后分辨率大大降低，目标细节信息也严重丢失。目前增强特征的常用方式为特征融合，但简单地融合深层特征与低层特征，将导致目标信息淹没在大量干扰信息中，无法准确捕捉伪装目标位置信息以及边缘细节。

技术实现要素：

5.本发明的目的在于克服现有技术中的不足，提供一种基于多级特征融合的伪装目标分割方法及装置，能够有效分割出不同场景下不同类型的伪装目标。
6.为达到上述目的，本发明是采用下述技术方案实现的：
7.第一方面，本发明提供了一种基于多级特征融合的伪装目标分割方法，包括：
8.获取包含有伪装目标的rgb图像；
9.将包含有伪装目标的rgb图像输入预先构建并训练过的多级特征融合的伪装目标分割网络，得到伪装目标的掩膜图像；
10.其中，所述多级特征融合的伪装目标分割网络包括多层特征提取器、门控融合模块和自交互残差模块；
11.其中，所述多层特征提取器基于具有特征提取能力的网络res2net-50实现，其输入是包含有伪装目标的rgb图像，其提取到的多级特征依次送入门控融合模块和自交互残差模块；
12.所述门控融合模块用于对多层特征提取器提取的各级中间层特征进行选择性融合，过滤特征中包含的干扰信息；
13.所述自交互残差模块用于将输入特征转换成不同通道数的高、低分辨率特征，再进行充分融合，挖掘出更多有效的特征信息。
14.进一步的，所述门控融合模块用于对多层特征提取器提取的各级中间层特征进行选择性融合，过滤特征中包含的干扰信息，具体包括：
15.所述门控融合模块由门控矩阵组成，在深层特征语义信息的指导下，计算出各级特征对应的门控矩阵以此区分特征中的有用信息与干扰信息；对于给定输入特征其中hi、wi和ci分别表示第i级特征的高度、宽度和通道数；各级特征均产生相应的门控矩阵所有门控矩阵都有对应的特征图；融合过程中应用门控矩阵，得到多级特征融合特征图：
[0016][0017]
其中每个门控系数g
l
＝sigmoid(w
l
·fl
)由一个参数为的卷积层计算得出，门控总数为主干网络提取出的特征图数量。
[0018]
进一步的，所述自交互残差模块用于将输入特征转换成不同通道数的高、低分辨率特征，再进行充分融合，挖掘出更多有效的特征信息，具体包括：
[0019]
首先将输入特征f经过卷积等操作得到高分辨率特征图f1作为一个分支，另外应用池化层和卷积层将输入特征的分辨率和通道数降低，得到低分辨率特征图f2作为另一个分支；
[0020]
在两个分支中，对f2进行上采样得到与另一个分支特征f
11
相同分辨率和通道数的特征f
22
，两者融合得到f
13
；对f1进行下采样得到f
12
，f
12
与另一个分支特征f
21
进行融合再进行上采样得到特征f
23
；
[0021]
最后将f
23
与f
13
融合得出特征f3，f3经过批量归一化层和relu层处理后与输入特征f融合获得新的特征图f
sirm
；
[0022]
对于经过门控融合模块的各级特征，使用如下方法自交互挖掘信息：
[0023]flsirm
＝f
l
+a(a[p(f
l
)+u(d(f
l
))]+u(a[d(f
l
)+d(p(f
l
))]))
[0024]
其中，f
lsirm
是第l层特征经过sirm的输出。a(
·
)表示分支合并，p(
·
)是卷积层、批量归一化层和relu(linearrectification function)层的组合操作，u(
·
)是上采样、卷积层、批量归一化层和relu层的组合操作，d(
·
)是下采样、卷积层、批量归一化层和relu层的组合操作；
[0025]
上式中的输入特征f
l
计算如下：
[0026][0027]
其中，f
l
在最深层时等于门控融合后的特征在其他层时为上层特征经过sirm后与该层特征融合得到的。
[0028]
进一步的，所述自交互残差模块的连接方式采用残差连接。
[0029]
进一步的，所述多级特征融合的伪装目标分割网络的训练方法，包括：
[0030]
获取训练集数据，输入多层特征提取器，提取得到多级特征；
[0031]
将所述多级特征先后送入门控融合模块和自交互残差模块；
[0032]
门控融合模块通过门控矩阵对多级特征中干扰信息进行过滤；
[0033]
自交互残差模块反复挖掘伪装目标多尺度信息，获得更准确的目标表示信息。
[0034]
进一步的，所述门控融合模块和自交互残差模块在训练过程中的预测结果均受到训练集中对应的人工标注的掩膜图的监督。
[0035]
进一步的，对自交互残差模块的输出使用加权交叉熵(l
wbce
)与加权dice损失(l
wdl
)联合的方式来增强图片中各尺度目标的监督效果，该总损失函数为：
[0036]
l＝λ1l
wbce
+λ2l
wdl
[0037]
其中λ1和λ2是平衡两个损失贡献的超参数。
[0038]
第二方面，本发明提供一种基于多级特征融合的伪装目标分割装置，包括：
[0039]
获取单元，用于获取包含有伪装目标的rgb图像；
[0040]
输入单元，用于将包含有伪装目标的rgb图像输入预先构建并训练过的多级特征融合的伪装目标分割网络，得到伪装目标的掩膜图像；
[0041]
其中，所述多级特征融合的伪装目标分割网络包括多层特征提取器、门控融合模块和自交互残差模块；
[0042]
其中，所述多层特征提取器基于具有特征提取能力的网络res2net-50实现，其输入是包含有伪装目标的rgb图像，其提取到的多级特征依次送入门控融合模块和自交互残差模块；
[0043]
所述门控融合模块用于对多层特征提取器提取的各级中间层特征进行选择性融合，过滤特征中包含的干扰信息；
[0044]
所述自交互残差模块用于将输入特征转换成不同通道数的高、低分辨率特征，再进行充分融合，挖掘出更多有效的特征信息。
[0045]
第三方面，本发明提供一种基于多级特征融合的伪装目标分割装置，包括处理器及存储介质；
[0046]
所述存储介质用于存储指令；
[0047]
所述处理器用于根据所述指令进行操作以执行根据前述任一项所述方法的步骤。
[0048]
第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述方法的步骤。
[0049]
与现有技术相比，本发明所达到的有益效果：
[0050]
(1)本发明在伪装目标分割任务中，针对构建深度模型下高质量的目标语义特征，提出了一种基于多级特征融合的伪装目标分割方法。在特征编码过程中,引入多级门控模块对res2net-50的多级中间层特征进行选择性融合，有效过滤各级特征图的干扰信息；在解码过程中，通过自交互残差模块驱动不同尺度的编码特征实现交叉融合，获得更准确的目标表示信息。此外，针对训练阶段在交叉熵损失的基础上加入dice损失形成联合损失函数，帮助模型更精准地分割伪装目标。
[0051]
(2)本发明作为首创在伪装目标分割中使用门控机制与自交互融合的方法，克服了伪装目标分割的困难，帮助视觉系统精准找出与当前场景高度相似的伪装目标。本发明的方法依赖于对多级特征的有效融合，利用门控与自交互方式作用于多级特征达到精确分割伪装目标的目的，并用对比实验证明了本发明方法对于伪装目标分割结果有较高准确性。对比实验中，本发明方法在结构度量(s
α
)，自适应e度量(e
φ
)，加权f度量以及平均
绝对误差(mae)上均获得了最佳性能，并且优势明显。从结果上来看，本发明方法伪装目标分割效果优秀，并且图片推理速度优于同期其他方法。同时，本发明方法在农业、医学、军事领域有广泛的应用价值。
[0052]
(3)本发明适用于多种场景的伪装目标的分割，本发明在在医学诊断(如息肉分割)、制造业(表观缺陷检测)、农业(如蝗虫检测)、计算机视觉(如搜索和救援任务)等不同领域具有广泛的应用价值。并且本发明在各种尺寸的自然伪装目标分割(小伪装目标、大伪装目标)中都生成更加精确和完整的伪装目标分割图，并且具有清晰的边界和连贯的细节。在分割目标被物体遮挡情况下，该方法也可以成功地推断出真实的伪装物体区域。这证明了本发明方法在不同场景下的有效性和实用性。
附图说明
[0053]
图1是本发明实施例提供的一种基于多级特征融合的伪装目标检测方法的实施例结果展示以及网络结构示意图；
[0054]
图2是本发明实施例提供的一种基于多级特征融合的伪装目标检测方法的门控融合模块的结构图；
[0055]
图3是本发明实施例提供的一种基于多级特征融合的伪装目标检测方法的自交互残差模块的结构图；
[0056]
图4是本发明为对比试验结果展示图。
具体实施方式
[0057]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。
[0058]
实施例1
[0059]
本实施例介绍一种基于多级特征融合的伪装目标分割方法，包括：
[0060]
获取包含有伪装目标的rgb图像；
[0061]
将包含有伪装目标的rgb图像输入预先构建并训练过的多级特征融合的伪装目标分割网络，得到伪装目标的掩膜图像；
[0062]
其中，所述多级特征融合的伪装目标分割网络包括多层特征提取器、门控融合模块和自交互残差模块；
[0063]
其中，所述多层特征提取器基于具有特征提取能力的网络res2net-50实现，其输入是包含有伪装目标的rgb图像，其提取到的多级特征依次送入门控融合模块和自交互残差模块；
[0064]
所述门控融合模块用于对多层特征提取器提取的各级中间层特征进行选择性融合，过滤特征中包含的干扰信息；
[0065]
所述自交互残差模块用于将输入特征转换成不同通道数的高、低分辨率特征，再进行充分融合，挖掘出更多有效的特征信息。
[0066]
本实施例提供的基于多级特征融合的伪装目标分割方法，其应用过程具体涉及如下步骤：
[0067]
步骤一构建多级特征融合的伪装目标分割网络
[0068]
伪装目标分割网络主要包含多层特征提取器、门控融合模块和自交互残差模块：
[0069]
多层特征提取器基于具有特征提取能力的网络res2net-50实现，其输入是包含有伪装目标的rgb图像，其提取到的多级特征依次送入门控融合模块和自交互残差模块；
[0070]
门控融合模块用于对多层特征提取器提取的各级中间层特征进行选择性融合，主要由门控矩阵组成，在深层特征语义信息的指导下，计算出各级特征对应的门控矩阵以此区分特征中的有用信息与干扰信息；对于给定输入特征其中hi、wi和ci分别表示第i级特征的高度、宽度和通道数。各级特征均产生相应的门控矩阵所有门控矩阵都有对应的特征图。融合过程中应用门控矩阵，得到多级特征融合特征图：
[0071][0072]
其中每个门控系数g
l
＝sigmoid(w
l
·fl
)由一个参数为的卷积层计算得出，门控总数为主干网络提取出的特征图数量；
[0073]
自交互残差模块用于挖掘特征尺度信息，增强各级特征图表达能力，便于模型分割出更加准确的伪装目标；本方法的设计中，首先将输入特征f经过卷积等操作得到高分辨率特征图f1作为一个分支，另外应用池化层和卷积层将输入特征的分辨率和通道数降低，得到低分辨率特征图f2作为另一个分支。在两个分支中，对f2进行上采样得到与另一个分支特征f
11
相同分辨率和通道数的特征f
22
，两者融合得到f
13
；对f1进行下采样得到f
12
，f
12
与另一个分支特征f
21
进行融合再进行上采样得到特征f
23
。最后将f
23
与f
13
融合得出特征f3，f3经过批量归一化层和relu层处理后与输入特征f融合获得新的特征图f
sirm
。并且为便于进一步优化，该模块连接方式采用残差连接。对于经过门控融合模块的各级特征，使用如下方法自交互挖掘信息：
[0074]flsirm
＝f
l
+a(a[p(f
l
)+u(d(f
l
))]+u(a[d(f
l
)+d(p(f
l
))]))
[0075]
其中，f
lsirm
是第l层特征经过sirm的输出。a(
·
)表示分支合并，p(
·
)是卷积层、批量归一化层和relu(linear rectification function)层的组合操作，u(
·
)是上采样、卷积层、批量归一化层和relu层的组合操作，d(
·
)是下采样、卷积层、批量归一化层和relu层的组合操作。上式中的输入特征f
l
计算如下：
[0076][0077]
其中，f
l
在最深层时等于门控融合后的特征在其他层时为上层特征经过sirm后与该层特征融合得到的。
[0078]
步骤二训练过程
[0079]
在训练时，首先将训练集数据送入网络的多层特征提取器，提取的多级特征先后送入门控融合模块和自交互残差模块；然后门控融合模块通过门控矩阵对多级特征中干扰信息进行过滤，自交互残差模块反复挖掘伪装目标多尺度信息，获得更准确的目标表示信息；为提升训练效果，门控融合模块和自交互残差模块在训练过程中的预测结果均受到训练集中对应的人工标注的掩膜图的监督，并且本方法为体现像素之间的差异，对伪装目标的边缘给分割提供更多有价值的信息，给予目标边缘更多关注，对自交互残差模块的输出使用加权交叉熵(l
wbce
)与加权dice损失(l
wdl
)联合的方式来增强图片中各尺度目标的监督
效果。该总损失函数为：
[0080]
l＝λ1l
wbce
+λ2l
wdl
[0081]
其中λ1和λ2是平衡两个损失贡献的超参数。
[0082]
从而引导伪装目标分割网络能够更多地关注伪装目标的边缘部分，对于目标尺度上的差异也不会造成计算损失的较大波动，帮助模型更精准地分割伪装目标。
[0083]
本发明基于对现有场景分割技术的调查与研究，提出一种基于多级特征融合的伪装目标分割模型。模型分为编码和解码两个阶段：在编码阶段采用res2net-50作为主干网络，构建门控融合模块(gated fusion module,gfm)对主干网络提取的各级中间层特征进行选择性融合，过滤特征中包含的干扰信息，同时丰富特征的语义和细节信息；在解码阶段，利用自交互残差模块(self-interactionresidual module，sirm)，解决模型对多尺度特征表达能力不足的问题。sirm将输入特征转换成不同通道数的高、低分辨率特征，再进行充分融合，从而挖掘出更多有效的特征信息。最后，为增强损失函数对图像中不同尺寸目标的监督效果，本发明在训练阶段采用dice损失与交叉熵损失的联合损失函数，使分割网络能更精准地分割伪装目标。该伪装目标分割网络的输入是包含伪装目标的rgb图像，输出是伪装目标的掩膜图像，掩膜图像中伪装目标区域的值1，非伪装目标区域的值为0。实验证明，基于多级特征融合的伪装目标分割方法能够有效分割出不同场景下不同类型的伪装目标。
[0084]
实施例2
[0085]
本实施例所使用的数据集有chameleon(76张图像)、camo(1250张图像)和cod10k(5066张图像)，使用camo和cod10k的训练集划分，其余剩下的所有部分作为测试集。数据集中多种尺寸的图像在训练时会被统一缩放为352
×
352的尺寸，并且图像分割的输出结果会被重新调整为输入图像的原始大小。特征提取网络的参数由预训练的res2net-50网络初始化，其他参数随机初始化。
[0086]
本发明方法分为编码和解码两个阶段：在编码阶段将伪装目标图像通过res2net-50提取特征，其结果送入门控融合模块对提取的各级中间层特征进行选择性融合，过滤特征中包含的干扰信息，同时丰富特征的语义和细节信息；在解码阶段，将融合后的多级特征送入自交互残差模块，从而挖掘出更多有效的特征信息，最终得出更为精准的伪装目标分割结果。
[0087]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。本发明采用pytorch框架实现。训练和测试均使用一台6核电脑，配备intel(r)xeon(r)e5-2609 v31.9ghz cpu和nvidia geforce rtx 2080ti gpu(11gb内存)。使用动量sgd优化器，权重衰减为5e-4，初始学习率为1e-3，动量为0.9。此外，批量大小设置为4，并通过因子为0.9的poly策略调整学习率，网络训练40轮。
[0088]
图1是本发明的本发明实施例的结果以及网络结构展示。该网络结构由多层特征提取器、门控融合模块和自交互残差模块组成。该网络先对输入图像提取特征信息，门控融合模块过滤掉特征信息中的无用信息，自交互残差模块丰富有效的多尺度特征信息，生成伪装目标的掩膜图像作为最终伪装目标分割结果。
[0089]
图2是门控融合模块的结构图。各级特征输入该结构均产生相应的门控矩阵
所有门控矩阵都有对应的特征图。
[0090]
图3是自交互残差模块的结构图。将输入特征f经过卷积等操作得到高分辨率特征图f1作为一个分支，另外应用池化层和卷积层将输入特征的分辨率和通道数降低，得到低分辨率特征图f2作为另一个分支。在两个分支中，对f2进行上采样得到与另一个分支特征f
11
相同分辨率和通道数的特征f
22
，两者融合得到f
13
；对f1进行下采样得到f
12
，f
12
与另一个分支特征f
21
进行融合再进行上采样得到特征f
23
。最后将f
23
与f
13
融合得出特征f3，f3经过批量归一化层和relu层处理后与输入特征f融合获得新的特征图f
sirm
。并且为便于进一步优化，该模块连接方式采用残差连接。
[0091]
图4是本发明对比实验的结果展示，为了验证pfnet的有效性，与领域内的其他最新方法进行比较的结果展示。我们重新训练了领域内的其他用于分割的深度神经网络(pranet,cpd,f3net,minet,sinet,pfnet以及mgl)，并使用公开的可用代码在同样的数据集上训练和测试。
[0092]
实施例3
[0093]
本实施例提供一种基于多级特征融合的伪装目标分割装置，包括：
[0094]
获取单元，用于获取包含有伪装目标的rgb图像；
[0095]
输入单元，用于将包含有伪装目标的rgb图像输入预先构建并训练过的多级特征融合的伪装目标分割网络，得到伪装目标的掩膜图像；
[0096]
其中，所述多级特征融合的伪装目标分割网络包括多层特征提取器、门控融合模块和自交互残差模块；
[0097]
其中，所述多层特征提取器基于具有特征提取能力的网络res2net-50实现，其输入是包含有伪装目标的rgb图像，其提取到的多级特征依次送入门控融合模块和自交互残差模块；
[0098]
所述门控融合模块用于对多层特征提取器提取的各级中间层特征进行选择性融合，过滤特征中包含的干扰信息；
[0099]
所述自交互残差模块用于将输入特征转换成不同通道数的高、低分辨率特征，再进行充分融合，挖掘出更多有效的特征信息。
[0100]
实施例4
[0101]
本实施例提供一种基于多级特征融合的伪装目标分割装置，包括处理器及存储介质；
[0102]
所述存储介质用于存储指令；
[0103]
所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。
[0104]
实施例5
[0105]
本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例1中任一项所述方法的步骤。
[0106]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹铁勇付炳阳王烨奎郑云飞方正赵斐申海霞王杨陈雷
技术所有人：中国人民解放军陆军工程大学
我是此专利的发明人

上一篇：一种带有下沉式错位排水口的窗户的制作方法
上一篇：一种煤矿井下用轨道自移式设备列车及其操作方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。