基于边界注意力一致性的目标边界检测和目标分割模型

文档序号:24744411发布日期:2021-04-20 22:41阅读:230来源:国知局
基于边界注意力一致性的目标边界检测和目标分割模型

1.本发明属于计算机视觉技术领域,涉及目标边界检测和目标分割模型,尤其是一种基于边界注意力一致性的目标边界检测和目标分割模型。


背景技术:

2.在技术及视觉技术中,准确的目标分割与针对多种目标的显著性目标检测不同,它要求以更高的精度从背景中分割出特定的目标。例如,应用于场景转换任务的肖像分割以及医学诊断之前的器官分割。尽管深度神经网络已经显著提升了目标分割的性能,但是,由于背景的干扰,在复杂场景中准确分割仍然非常困难。
3.通过对边界处分割不理想问题的研究,发现问题大多出现在目标边界不明显的区域。这是由于目标与背景局部差异很小,以至于模型无法根据所提取的特征区分两者。一个可行的解决方案是通过将目标边界检测(obd)视为目标分割的一项任务来提升边界意识。但是,由于目标边界只占整个图像的极小一部分以及在逐像素损失函数中它对目标分割性能的提升贡献很小,因此obd在现有目标分割模型没有引起足够的关注。
4.在现有的目标分割模型中,obd最多只是作为其中的一个简单子网络,仅使用初始图像和真实目标边界图像来训练。由于目标边界像素所占比例小以及缺乏对模型中间的监督,这样的子网络容易出现过拟合和不准确的obd结果。因此,通过监控obd模型的中间层引导注意力集中在目标边界有助于提高obd的准确性。调研发现,大多数优秀的注意力机制是基于类激活图(cam)的。cam是通过图像分类来增强标签相关区域注意力的有效方式。
5.但是,由于图像级分类的弱监督性,使用cam获得的注意力仍难以准确落在标签相关区域上。因此,研究人员提出了一种空间变换下的注意力一致性(tac)来进一步约束注意力区域。tac是指:在图像分类时,如果输入图像发生空间转换,则注意力区域应遵循相同的转换。空间转换一般包括旋转,翻转,裁剪等等。然而,tac是通过在间接变换下要求输入图像的注意力一致性来提高对标签相关区域的注意力,并且实验证明不同变换或组合下获得的一致性存在明显差异。换句话说,为获得良好的一致性,需要大量试验来找到一个合适的变换,因此在间接变换下获得的一致性是有限的。
6.综上所述,如何提升目标边界检测和目标分割的准确性是目前迫切需要解决的问题。


技术实现要素:

7.本发明的目的在于克服现有技术的不足,提出一种基于边界注意力一致性的目标边界检测和目标分割模型,解决目标边界检测和目标分割不准确的问题。
8.本发明解决其技术问题是采取以下技术方案实现的:
9.一种基于边界注意力一致性的目标边界检测和目标分割模型,包括两个pix2pix模型,每个pix2pix模型均由生成器、判别器、损失函数组成,两个pix2pix模型级联在一起,第一个pix2pix模型为obd模型用于检测目标边界,其检测结果叠加在原始图像上用作第二
个pix2pix模型的输入,第二个pix2pix模型为目标分割模型用于产生目标分割结果;
10.所述obd模型的生成器由一个孪生网络、注意力模块和解码器组成,该孪生网络共享所有参数并以初始图像a及其obd检测结果g(a)作为两个输入,经过下采样和残差块,获得两个分支相应的特征图f
a
和特征图f
g(a)
,特征图f
a
和特征图f
g(a)
经全局平均池化层gap和全局最大池化层gmp池化后送入以w为权重的全连接层进行分类;该注意力模块通过加权池化的特征图来计算分类值,注意力模块通过逐通道乘法线性组合特征图以及沿组合特征图的维数对其求和,提取初始图像a和obd检测结果g(a)的注意力图m(a)和注意力图m(g(a)),注意力模块的分类损失和一致性损失共同引导obd模型的编码器提取目标边界特征,并将其传递给解码器以生成obd检测结果;
11.obd模型的判别器结构与常规pix2pix模型中的判别器结构相同;
12.obd模型的损失函数包括用于生成真实的目标边界图像的对抗损失函数l
adv
、用于维持稳定生成的损失函数l1
g
、辅助分类器的分类损失函数和边界注意力一致性损失函数l
att

13.所述目标分割模型的生成器采用与常规pix2pix模型相同的结构,其使用目标边界经过增强的图像来训练该模型;
14.目标分割模型的判别器结构与常规pix2pix模型中的判别器结构相同;
15.目标分割模型的损失函数包括对抗损失函数l
adv2
和损失函数l1
g2
,采用最小二乘gan作为优化目标函数。
16.进一步,在obd模型的注意力模块中,将目标边界视为类别属性,初始图像和目标边界图像为同一类。
17.进一步,在obd模型的注意力模块中,初始图像和变换后图像的注意力图m(a)和注意力图m(g(a))在相同的obd变换下相等。
18.进一步,所述对抗损失函数l
adv
和对抗损失函数l
adv2
分别表示为:
19.l
adv
=e
x~a
[log(1

d(x,g(x)))2]+e
x~a,y~b
[log(d(x,y))2]
[0020][0021]
其中g,g2和d,d2分别是两个pix2pix模型的生成器和判别器;
[0022]
所述损失函数l1
g
、损失函数l1
g2
分别表示为:
[0023]
l1
g
=e
x~a,y~b
[||g(x)

y||1]
[0024][0025]
所述obd模型的辅助分类器的分类损失函数表示为;
[0026][0027]
其中c
g
是生成器的辅助分类器,采用交叉熵分类损失函数;
[0028]
所述obd模型的辅助分类器的边界注意力一致性损失函数l
att
表示为;
[0029]
att
=e
x~a
[||g(m(x))

m(g(x))||1]
[0030]
其中m(x)表示a域中的图像x的注意力图,g(x)和m(g(x))表示生成图像以及它的注意力图;
[0031]
整合上述损失函数为两个优化目标函数来训练pix2pix模型:
[0032][0033][0034]
其中α1=1,α2=1000,α3=10,α4=10,β=10。
[0035]
本发明的优点和积极效果是:
[0036]
本发明将两个pix2pix图像翻译模型级联在一起,第一个pix2pix模型用于检测目标边界(obd),检测结果叠加在原始图像上用作第二个pix2pix模型的输入,第二个pix2pix模型产生目标分割结果。在目标边界检测模型当中引入了边界注意力一致性用于增强对目标边界的注意力,进而检测到准确的目标边界,实现更准确的目标分割结果。
附图说明
[0037]
图1是obd变换下的边界注意力一致性示意图;
[0038]
图2是obd模型的生成器的结构示意图;
[0039]
图3是本发明在pfcn数据集上的分割结果示意图。
具体实施方式
[0040]
以下结合附图对本发明做进一步详述。
[0041]
本发明的设计思想是:
[0042]
针对目前目标分割模型在目标和背景相似的局部区域中分割效果较差的问题,可以通过增强目标边界非常有助于解决这个问题。本发明将目标分割视为一个两阶段任务,利用两个级联的pix2pix图像翻译模型实现。第一个pix2pix图像翻译模型单独用于检测初始图像的目标边界,第二个pix2pix图像翻译模型用于对目标边界增强过的图像完成目标分割。本发明重点是在第一阶段中的目标边界检测(obd)对目标分割性能的提升。
[0043]
一般来说,注意力区域是否合理可以反映模型的性能。就obd而言,其目的是映射初始图像和目标边界图像到相同的分布。因此,目标边界无疑是最合理的注意力区域,因为它是证明源域(初始图像)和目标域(目标边界图像)具有相同分布以及obd结果的直接证据。注意力越集中在目标边界,obd模型性能会越好。
[0044]
提高所期望区域注意力的一种直接方式是对注意力图实施全监督。但是,如果在模型中层的注意力图上使用全监督,模型在高要求和低复杂度的条件下难以很好地学习,即出现欠拟合。另一个可行的解决方案是通过使用图像级分类对注意力图实施弱监督。但是,使用此方式的结果显示注意力无法准确定位在标签相关区域上,即出现过拟合。因此,本专利申请采用如下两种措施来施加在注意力图上,从而提高对目标边界的注意力。
[0045]
(1)在obd生成器的中间引入cam作为注意力模块。在注意力模块中,将目标边界视为类别属性,分类源域(初始图像)和目标域(目标边界图像)为同一类。(2)使用目标边界检测(obd)变换下的边界注意力一致性(bac)来直接引导注意力区域。bac要求当初始图像通过obd转换为目标边界图时,如图1第一行所示,它的注意力图也应在相同的obd转换下成为目标边界图像的注意力图,如图1最后一行所示。为了评估bac,需要在初始图像的注意力图上施加相同的obd变换。但是,不同于翻转或旋转之类的简单转换,在注意力图上实现obd转换存在难度。为解决这个问题,本发明利用obd模型自身来完成转换,通过重新输入初始图
像的注意力图到obd中,获得其输出作为转换结果。obd的生成器如图2所示。
[0046]
为了便于说明,首先说明如下符号的含义:a和b分别表示训练obd模型的初始图像及真实的目标边界图像,a2表示通过叠加a和b得到的目标边界增强后的图像,b2表示真实的目标分割结果,a2和b2用于第二阶段中目标分割模型的训练。c
g
是obd生成器中的辅助分类器。
[0047]
本发明的目标边界检测和目标分割模型由两个pix2pix图像翻译模型级联构成,第一个pix2pix模型用于检测目标边界(obd),检测结果叠加在原始图像上用作第二个pix2pix图像翻译模型的输入,第二个pix2pix图像翻译模型产生目标分割结果。在目标边界检测模型当中引入了边界注意力一致性用于增强对目标边界的注意力,进而检测到准确的目标边界。常规的pix2pix模型由生成器、判别器、对抗损失和l1损失组成。本发明重点改进了obd模型的生成器部分,obd的判别器以及第二个pix2pix的结构与常规pix2pix的结构相同。obd的生成器接收待分割原始图像,生成相应的目标边界检测结果;obd的判别器接收生成的obd结果和正确的目标边界,并尽力区分两者的差异从而推动生成器生成真实的obd结果。第二个pix2pix的生成器接收obd结果和原始图像的叠加后的图像,产生目标分割结果;判别器接收生成的目标分割结果和真实的目标分割结果,并尽力区分两者的差异从而推动生成器生成准确的目标分割结果。两个模型的损失函数都包含了pix2pix图像翻译模型的对抗损失和l1损失,另外在obd模型的生成器中加入了注意力模块的分类损失和边界注意力一致性损失。obd模型的生成器结构如图2所示,判别器和第二个pix2pix与常规pix2pix结构相同。下面详细介绍模型的各个组成部分。
[0048]
下面对本发明的各个部分分别进行说明:
[0049]
(1)目标边界检测的生成器如图2所示,由一个孪生网络、注意力模块c
g
和解码器组成。孪生网络共享所有参数,并以初始图像a及其obd结果g(a)作为两个输入,g(
·
)表示生成或obd变换的过程。经过下采样和残差块,获得两个分支相应的特征图,分别表示为f
a
和f
g(a)
。然后,gap和gmp对特征图进行池化并送入以w为权重的全连接层进行分类,注意力模块c
g
通过加权池化的特征图来计算分类值。为增强对目标边界的注意力,注意力模块c
g
分类两个分支为同一类。
[0050]
同时,注意力模块c
g
通过逐通道乘法线性组合特征图以及沿组合特征图的维数对其求和,提取了a和g(a)的注意力图,分别表示为m(a)和m(g(a)),其中m(
·
)表示使用cam计算注意力图的过程。根据一致性的要求,初始图像和变换后图像的注意力图m(a)和m(g(a))在相同的obd变换下应该相等,这可以表示为:
[0051]
g(m(a))=m(g(a))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0052]
注意力模块的分类损失和一致性损失共同引导obd模型的编码器提取目标边界特征,并将其传递给解码器以生成obd结果。
[0053]
需要说明的是:本发明的孪生网络的输入是a和g(a)而不是两域a和b是处于以下原因:首先,随着训练次数的增加,g(a)会成为b,生成过程也可以实现obd变换。其次,g(a)代替b有助于利用模型自身对注意力图完成obd变换。最后,生成过程也可以看作是tac中的空间变换的延伸,因此在生成变换下保持注意力一致性也是合理的。
[0054]
为了实现公式1中的一致性,沿着图2中的两条分支来获取等式的两边。第一个分支如实线所示,以a作为输入获得注意力图m(a);然后,重新输入m(a)并获得它的输出g(m
(a))来表示对注意力图的obd转换结果。另一个分支沿虚线,以反馈的g(a)作为输入并获得它的注意力图m(g(a))来表示obd变换结果的注意力图。最后,g(m(a))和m(g(a))用于评估一致性。
[0055]
(2)目标分割模型的生成器,采用与常规pix2pix相同的结构,但使用目标边界经过增强的图像来训练该模型。
[0056]
(3)判别器:两个pix2pix模型中的判别器的结构与常规pix2pix中的相同。判别器分别接收源域

假目标域和源域

真实目标域图像对,并尽力区分它们从而引导生成器产生真实的目标域。
[0057]
(4)损失函数
[0058]
对于第一个pix2pix,也就是本发明的obd模型,其目标函数由四部分组成。其中,对抗损失函数l
adv
用于生成真实的目标边界图像,l1
g
损失用于维持稳定生成,和l
att
分别表示辅助分类器的分类损失以及边界注意力一致性损失。
[0059]
对于第二个pix2pix,即目标分割模型,其目标函数与常规pix2pix相同,包括对抗损失l
adv2
和l1
g2
损失。为了维持稳定的训练,采用最小二乘gan作为优化目标函数。
[0060]
其中,对抗损失函数l
adv
、l
adv2
为:两个pix2pix模型的对抗损失用于匹配源域图像与目标域图像的分布:
[0061]
l
adv
=e
x~a
[log(1

d(x,g(x)))2]+e
x~a,y~b
[log(d(x,y))2]
ꢀꢀꢀꢀꢀ
(2)
[0062][0063]
其中g,g2和d,d2分别是两个pix2pix模型的生成器和判别器。
[0064]
l1损失函数:与常规的pix2pix模型相同,在生成器中应用l1损失以避免模型崩溃并确保稳定的生成,两个pix2pix模型的l1损失如下:
[0065]
l1
g
=e
x~a,y~b
[||g(x)

y||1]
ꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0066][0067]
cam的分类损失函数:为了增强对目标边界的注意力,obd模型的cam分类a域的图像x及其obd结果g(x)为同一类。cam的分类损失如下:
[0068][0069]
其中c
g
是生成器的辅助分类器,采用交叉熵分类损失函数。
[0070]
目标注意力一致性损失:根据一致性的定义,如果初始图像经过obd转换为目标边界图,它的注意力图应发生相同的obd变换。使用绝对值偏差定义了一致性损失,如下所示:
[0071]
att
=e
x~a
[||g(m(x))

m(g(x))||1]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0072]
其中m(x)表示a域中的图像x的注意力图,g(x)和m(g(x))表示生成图像以及它的注意力图。本发明的一致性是对目标边界注意力强有力的约束。
[0073]
完整的目标函数:整合上述损失函数为两个优化目标函数来训练pix2pix模型:
[0074][0075][0076]
其中α1=1,α2=1000,α3=10,α4=10,β=10。
[0077]
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1