一种弱监督目标定位方法、装置、设备及介质与流程

文档序号:27233288发布日期:2021-11-03 18:07阅读:127来源:国知局
一种弱监督目标定位方法、装置、设备及介质与流程

1.本发明涉及计算机技术领域,特别涉及一种弱监督目标定位方法、装置、设备及介质。


背景技术:

2.近年来,随着计算机性能的提升和大数据的发展,视觉信息数据迅猛增多,包括静态图像、动态图像、视频文件、音频文件等多媒体数据都以很快的速度在各种社交媒体上传播。目标检测作为计算机视觉领域最基本的问题之一,被广泛应用于目标跟踪、行为理解、人机交互、人脸识别等诸多领域,在20世纪初就吸引了众多学者的广泛关注和研究。人类主要是通过视觉来接收外界信息,所以基于视觉信息的应用技术将是人工智能的一个前瞻性研究点。其中,人脸识别、视频监控、目标检测、互联网图像内容审查、生物特征识别等技术都成为了当今的研究热点。这些技术也被广泛应用于医疗、养老、交通、城市运行、安防等领域,例如医学图像诊断、姿态估计、车站安检、自动驾驶、车速检测、视频监控行为分析等。
3.目标定位是计算机视觉和机器学习中极其重要的一个研究领域,融合了图像处理、模式识别、人工智能、自动控制等多个领域的前沿知识。目标定位通常只有一个较大的对象位于图片中间位置,对它进行识别和定位。随着视频网站和社交网络的发展,人们能够接触到大量的图像和视频等多媒体资源,目标定位也开始广泛应用于上述领域,如在社交网站中对图片进行人脸检测、在图像或者视频序列中进行行人检测、在交通监控中进行车辆检测和帮助有视觉障碍的人理解视觉内容等。
4.目标定位最近主要集中在对卷积神经网络(cnn)上进行研究,在检测器训练过程中该卷积神经网络使用具有实例级标签(即边界框标注)的大规模数据。然而,收集特定类别的边界框标注显然是一项费时费力的工作,这限制了检测器的实际使用。与边界框标注相比,收集图像级别的标签容易很多。例如,通过查询图像搜索引擎(例如google image)或照片共享网站(例如flickr),可以轻巧地手动检查收集的图像中是否存在目标对象。因此,弱监督目标定位(wsol)任务,即仅以图像级别监督训练目标检测器最近引起了越来越多的关注。
5.为了利用图像标签进行定位,现有的wsol方法大多采用cnn分类器挖掘目标类的定位图,形成定位头;然后生成预测的边界盒,以紧密覆盖高响应区域。不幸的是,仍然存在两个具有挑战性的问题,在wsol和它的完全监督的对手之间形成了一个显著的性能差距。首先,分类器往往忽略不显著的图像特征,过分依赖显著区域进行分类;而由于骨干网通常是通过图像分类预先训练的,学习成功的定位头是比较困难的。其次,定位头可能只捕捉目标物体的有鉴别性的部分,因为边界盒只在地图最有鉴别性的部分周围生成。上述连锁问题还可能进一步相互影响;例如,给定一幅鸟的图像,即使是鸟的头部或羽毛也能提供足够的线索来达到较高的分类精度。以这幅图像为例,但是在头部或羽毛周围生成的盒子并不能对鸟类整体区域进行定位,导致定位效果较差。
6.为了解决这种定位不完全的问题,之前的研究在训练过程中使用了模型来捕捉物
体的识别性较差的部分。例如,has和cutmix随机选择要替换为零或其他图像中的图像块;类似地,adl随机滴下带有自我注意的中间特征图。然而,这些方法可以看作是一种数据增强,但由于随机选择策略带来了不确定性,无法有效地消除鉴别部分。此外,擦除策略不能保证分类任务和定位任务之间的平衡。随着骨架的逐步学习,协变特征可能会降低分类性能。与擦除策略不同,yang等人(yang s,kim y,kim y,et al.combinational class activation maps for weakly supervised object localization[c]//the ieee winter conference on applications of computer vision.2020:2941

2949.)线性组合的激活映射从概率最高的类到概率最低的类;但类概率较高的激活映射往往只捕捉局部区域的一部分,很难扩展到其他不显著的对象部分。
[0007]
由此可见,现有弱监督目标定位方法存在有分类性能和定位性能差的问题。鉴于此,本案发明人对上述问题进行深入研究,遂有本案产生。


技术实现要素:

[0008]
本发明的目的,在于提供一种弱监督目标定位方法、装置、设备及介质,解决现有弱监督目标定位方法存在分类性能和定位性能差的问题,能够提升对图像的分类和定位性能。
[0009]
为了达成上述目的,本发明的解决方案是:
[0010]
第一方面,一种弱监督目标定位方法,方法包括如下步骤:
[0011]
对待检测图片进行预处理操作,将预处理后的待检测图片以及待检测图片对应的候选框送入至神经网络模型中;
[0012]
在神经网络模型中应用金字塔形特征注意模块,通过神经网络模型对送入的待检测图片以及待检测图片对应的候选框进行训练和测试处理,并在训练神经网络模型的过程中输出待检测图片所对应的每一个类别的概率数值,在测试神经网络模型的过程中输出待检测图片预测的边界框的坐标、类别和得分。
[0013]
进一步的,所述的对待检测图片进行预处理操作具体包括:对待检测图片进行标准化处理,将标准化处理后的待检测图片缩放到大小为256
×
256,将缩放后的待检测图片随机裁剪到大小为224
×
224。
[0014]
进一步的,所述神经网络模型的训练步骤包括:
[0015]
给定带有图像级别标签的数据集集合,将数据集集合划分为训练图片样本集和测试图片样本集;
[0016]
从训练图片样本集中任意选取图像,将选取的图像以及图像对应的图像级别标签输入神经网络模型的主干网络中;
[0017]
在主干网络中的每一层均应用金字塔形特征注意模块,通过金字塔形特征注意模块得到每一层的注意力引导图和分类损失;
[0018]
引入全局感知激活模块,通过全局感知激活模块得到全局感知图,将全局感知图与主干网络中最深层的特征图相乘得到新特征,并对新特征区分前景特征和背景特征。
[0019]
进一步的,所述的通过金字塔形特征注意模块得到每一层的注意力引导图和分类损失具体包括:
[0020]
a1、对于主干网络的第1层,假设该层的输出特征图为x,特征图的形状为c
×
h
×
w,
其中,c为通道数量,h为特征图的高度,w为特征图的宽度;将输入的图像依次经过一个1
×
3的卷积层和一个3
×
1的卷积层,在通道数的维度上取平均值得到特征图,并应用s函数到特征图上;
[0021]
a2、假设主干网络的最后一层特征图的形状为c
′×
h
′×
w

,采用下采样操作使该层的特征图大小与最后一层特征图的长和宽一样,得到该层的注意力引导图将该层的注意力引导图再乘以主干网络的最后一层特征图得到同时,将得到的x1经过三个卷积层得到其中,i表示总类别数;之后,将y1经过空间平均池化得到特征向量则该层的分类损失为:
[0022][0023]
在式(1)中,y
i
表示第i个类别的真实标签;
[0024]
a3、重复a1和a2的操作,直到得到主干网络中每一层的注意力引导图和分类损失;将金字塔形特征注意模块的最终损失函数定义为:
[0025][0026]
在式(2)中,j表示主干网络的层数。
[0027]
进一步的,所述的通过全局感知激活模块得到全局感知图,将全局感知图与主干网络中最深层的特征图相乘得到新特征,并对新特征区分前景特征和背景特征具体包括:
[0028]
根据金字塔形特征注意模块得到的每一层的注意力引导图将全局感知图定义为:
[0029][0030]
将全局感知图与主干网络中最深层的特征图相乘得到融合特征x
g
,并引入一个超参数ξ用来区分前景和背景;前景特征x
f
计算如下:
[0031][0032]
同理,背景特征x
b
计算如下:
[0033][0034]
在式(4)和式(5)中,(m,n)表示融合特征x的第m行和第n列,c表示第c个通道;
[0035]
将前景特征x
f
和背景特征x
b
经过空间维度上的池化操作,得到前景和背景的二分类损失分别为:
[0036]
[0037][0038]
在式(6)和式(7)中,c为特征通道数量,表示第i个类别为前景的概率,表示第i个类别为背景的概率;将全局感知激活模块的最终损失函数定义为:
[0039][0040]
进一步的,在测试神经网络模型时,从测试图片样本集中获取图像并输入到训练好的神经网络模型中,通过对融合特征x
g
进行分析,并利用cam方法来生成边界框。
[0041]
第二方面,本发明提供一种弱监督目标定位装置,所述装置包括预处理模块以及训练测试模块;
[0042]
所述预处理模块,用于对待检测图片进行预处理操作,将预处理后的待检测图片以及待检测图片对应的候选框送入至神经网络模型中;
[0043]
所述训练测试模块,用于在神经网络模型中应用金字塔形特征注意模块,通过神经网络模型对送入的待检测图片以及待检测图片对应的候选框进行训练和测试处理,并在训练神经网络模型的过程中输出待检测图片所对应的每一个类别的概率数值,在测试神经网络模型的过程中输出待检测图片预测的边界框的坐标、类别和得分。
[0044]
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。
[0045]
第四方面,本发明一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的方法。
[0046]
采用上述方案后,本发明具有以下突出优点:
[0047]
1、采用了金字塔形特征注意模块fpa,利用金字塔形特征注意模块fpa对神经网络模型的主干网络中的浅层和深层的特征进行融合指导网络学习,能够提高分类性能的准确性;
[0048]
2、采用了全局感知激活模块gaa,由全局感知激活模块gaa利用金字塔形特征注意模块fpa计算得出的注意力引导图进行融合,指导神经网络模型的主干网络中的深层特征进行区分目标的前景和背景,能够提升模型的定位性能;
[0049]
3、通过采用本发明的技术方案,能够实现以低成本的图像标注,以仅有的弱标签信息获取更好的特征,达到较好的训练结果。
附图说明
[0050]
下面参照附图结合实施例对本发明作进一步的说明。
[0051]
图1是本发明一种弱监督目标定位方法的执行流程框图;
[0052]
图2是本发明一种弱监督目标定位装置的原理框图;
[0053]
图3是本发明一种电子设备的原理框图;
[0054]
图4是本发明一种计算机可读存储介质的原理框图。
具体实施方式
[0055]
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
[0056]
本发明的目的是针对现有弱监督目标定位方法存在的分类性能和定位性能差的问题,提出的一种基于分层特征融合的目标定位方法,通过先利用金字塔形特征注意模块fpa对神经网络模型的浅层和深层的特征进行融合指导网络学习,提高分类性能;再由全局感知激活模块gaa利用金字塔形特征注意模块fpa计算得出的注意力引导图进行融合,并指导神经网络模型的深层特征进行区分目标的前景和背景,从而提升模型的定位性能。具体技术方案请参照以下详细说明:
[0057]
实施例一
[0058]
请参阅图1所示,本发明提供一种弱监督目标定位方法,方法包括如下步骤:
[0059]
对待检测图片进行预处理操作,将预处理后的待检测图片以及待检测图片对应的候选框送入至神经网络模型中;其中,待检测图片在预处理后会产生很多的框,后续需要从产生的多个框中选择一个最好的,因此在此处将产生的所有框叫做候选框;
[0060]
在神经网络模型中应用金字塔形特征注意模块,通过神经网络模型对送入的待检测图片以及待检测图片对应的候选框进行训练和测试处理,并在训练神经网络模型的过程中输出待检测图片所对应的每一个类别的概率数值,在测试神经网络模型的过程中输出待检测图片预测的边界框的坐标、类别和得分。采用在神经网络模型中应用金字塔形特征注意模块fpa,并通过神经网络模型对送入的待检测图片以及待检测图片对应的候选框进行训练和测试处理,能够利用金字塔形特征注意模块fpa对神经网络模型的浅层和深层的特征进行指导网络学习,从而提高模型分类性能。
[0061]
在本发明实施例中,所述的对待检测图片进行预处理操作具体包括:对待检测图片进行标准化处理,将标准化处理后的待检测图片缩放到大小为256
×
256,将缩放后的待检测图片随机裁剪到大小为224
×
224。其中,图片标准化处理又叫做正常白化处理,具体是将数据通过去均值实现中心化的处理,根据凸优化理论与数据概率分布相关知识,数据中心化符合数据分布规律,更容易取得训练之后的泛化效果。
[0062]
在本发明中,神经网络模型主要包括三个部分:cnn主干特征提取网络、金字塔形特征注意模块fpa和全局感知激活模块gaa;其中,cnn主干特征提取网络主要用于提取输入图片的特征图;金字塔形特征注意模块fpa用于对神经网络模型的浅层和深层的特征进行指导网络学习;全局感知激活模块gaa用于对金字塔形特征注意模块fpa计算得出的注意力引导图进行融合,并指导神经网络模型的深层特征进行区分目标的前景和背景。
[0063]
在本发明实施例中,所述神经网络模型的训练步骤包括:
[0064]
给定带有图像级别标签的数据集集合,将数据集集合划分为训练图片样本集和测试图片样本集;其中,训练图片样本集用于对神经网络模型进行训练,测试图片样本集用于对训练后的神经网络模型进行测试;待检测图片包含在数据集集合中,且数据集集合的所有图片都带有图像级别标签;
[0065]
从训练图片样本集中任意选取图像,将选取的图像以及图像对应的图像级别标签输入神经网络模型的主干网络中;
[0066]
在主干网络中的每一层均应用金字塔形特征注意模块,通过金字塔形特征注意模块得到每一层的注意力引导图和分类损失;通过在主干网络中的每一层均应用金字塔形特
征注意模块fpa,可以利用金字塔形特征注意模块fpa对主干网络中每一层的特征均与深层的特征进行融合指导网络学习,能够更好地提高模型分类性能;
[0067]
引入全局感知激活模块,通过全局感知激活模块得到全局感知图,将全局感知图与主干网络中最深层的特征图相乘得到新特征,并对新特征区分前景特征和背景特征。通过全局感知激活模块gaa对金字塔形特征注意模块fpa计算得到的注意力引导图进行融合,并指导神经网络模型的深层特征区分前景和背景,能够提升训练后的模型的定位性能。
[0068]
在本发明实施例中,所述的通过金字塔形特征注意模块得到每一层的注意力引导图和分类损失具体包括:
[0069]
a1、对于主干网络的第1层,假设该层的输出特征图为x,特征图的形状为c
×
h
×
w,其中,c为通道数量,h为特征图的高度,w为特征图的宽度;将输入的图像依次经过一个1
×
3的卷积层和一个3
×
1的卷积层,在通道数的维度上取平均值得到特征图,并应用s函数到特征图上;其中,s函数的全称叫sigmoid:通过s函数可以将传入的特征图x变成0

1之间的数;
[0070]
a2、假设主干网络的最后一层特征图的形状为c
′×
h
′×
w

,采用下采样操作使该层的特征图大小与最后一层特征图的长和宽一样,得到该层的注意力引导图其中,a是一个符号,为attention单词的第一个字母;将该层的注意力引导图再乘以主干网络的最后一层特征图得到同时,将得到的x1经过三个卷积层得到其中,i表示总类别数;指的是实数;之后,将y1经过空间平均池化得到特征向量则该层的分类损失为:
[0071][0072]
在式(1)中,y
i
表示第i个类别的真实标签;
[0073]
a3、重复a1和a2的操作,直到得到主干网络中每一层的注意力引导图和分类损失;将金字塔形特征注意模块的最终损失函数定义为:
[0074][0075]
在式(2)中,j表示主干网络的层数。
[0076]
在本发明中,对于主干网络的每一层,都采用下采样操作的方式使该层的特征图大小与最后一层特征图的长和宽一样,从而得到该层的注意力引导图,再将得到的注意力引导图与主干网络的最后一层特征图相乘进行融合,利用主干网络的最深层特征来指导浅层的特征进行网络学习,提高分类性能的准确性。
[0077]
在本发明实施例中,所述的通过全局感知激活模块得到全局感知图,将全局感知图与主干网络中最深层的特征图相乘得到新特征,并对新特征区分前景特征和背景特征具体包括:
[0078]
根据金字塔形特征注意模块得到的每一层的注意力引导图将全局感知图定义为:
[0079][0080]
将全局感知图与主干网络中最深层的特征图相乘得到融合特征x
g
,并引入一个超参数ξ用来区分前景和背景,其中,g是一个符号,为global单词的第一个字母;前景特征x
f
计算如下:
[0081][0082]
同理,背景特征x
b
计算如下:
[0083][0084]
在式(4)和式(5)中,(m,n)表示融合特征x的第m行和第n列,c表示第c个通道;
[0085]
将前景特征x
f
和背景特征x
b
经过空间维度上的池化操作,其中,f和b均是一个字符,f是foreground单词的第一字母,b是background单词的第一个字母,得到前景和背景的二分类损失分别为:
[0086][0087][0088]
在式(6)和式(7)中,c为特征通道数量,表示第i个类别为前景的概率,表示第i个类别为背景的概率;将全局感知激活模块的最终损失函数定义为:
[0089][0090]
本发明中通过利用金字塔形特征注意模块计算出每一层的注意力引导图,再引入全局感知激活模块根据每一层的注意力引导图算得全局感知图,并将全局感知图与主干网络中最深层的特征图相乘进行融合,同时引入超参数ξ用来区分前景和背景,能够提升训练后的模型的定位性能。
[0091]
本发明在具体实施时,在训练神经网络模型的过程中,通过softmax公式输出待检测图片所对应的每一个类别的概率数值;softmax公式:其中,x
i
表示第i个类别的分数,i表示总类别数,e为常数。
[0092]
在本发明实施例中,在测试神经网络模型时,从测试图片样本集中获取图像并输入到训练好的神经网络模型中,通过对融合特征x
g
进行分析,并利用cam方法来生成边界框,在通过cam方法生成边界框,即可得到边界框的坐标。
[0093]
下面结合具体仿真实验来对本发明的技术方案和技术效果做进一步说明:
[0094]
1)仿真条件
[0095]
本发明的技术方案在ubuntu平台上进行开发,开发的深度学习框架是基于
pytorch,本发明中主要用的语言为python。
[0096]
2)仿真内容
[0097]
取cub

200

2011以及ilsvrc 2012数据集,根据本发明技术方案的步骤训练神经网络并且使用测试图片样本集中的图像进行测试。以下表1为本发明技术方案和其他方法在两个数据集的分类和定位结果比对表。
[0098]
表1 cub

200

2011和ilsvrc 2012数据集的测试比对表
[0099][0100]
经过直观的数值比较,我们可以发现相比于其他方法,本发明的技术效果最佳。其中,hinet(ours)是本发明的技术结果,评价指标top

1err.表示的是top

1错误率,top

5err.表示的是top

5错误率,gt

known acc.表示的是与真实框的iou大于等于50%的概率。由表1可以清楚的看出,本发明方法在cub

200

2011数据集和ilsvrc 2012数据集上的分类性能为22.25%、29.35%的错误率,在定位性能上为41.59%、51.52%的错误率,相比于其他方法,本发明方法的错误率更低,证明了本发明在分类和定位性能上具有更佳的效果。
[0101]
基于同一发明构思,本技术还提供了与实施例一中的方法对应的装置,详见实施例二。
[0102]
实施例二
[0103]
请参阅图2所示,本发明提供本发明提供一种弱监督目标定位装置,所述装置包括
预处理模块以及训练测试模块;
[0104]
所述预处理模块,用于对待检测图片进行预处理操作,将预处理后的待检测图片以及待检测图片对应的候选框送入至神经网络模型中;
[0105]
所述训练测试模块,用于在神经网络模型中应用金字塔形特征注意模块,通过神经网络模型对送入的待检测图片以及待检测图片对应的候选框进行训练和测试处理,并在训练神经网络模型的过程中输出待检测图片所对应的每一个类别的概率数值,在测试神经网络模型的过程中输出待检测图片预测的边界框的坐标、类别和得分。采用在神经网络模型中应用金字塔形特征注意模块fpa,并通过神经网络模型对送入的待检测图片以及待检测图片对应的候选框进行训练和测试处理,能够利用金字塔形特征注意模块fpa对神经网络模型的浅层和深层的特征进行指导网络学习,从而提高模型分类性能。
[0106]
本发明中预处理模块以及训练测试模块的具体功能实现请参照实施例一的详细介绍,在此就不再赘述了。
[0107]
由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
[0108]
基于同一发明构思,本技术提供了实施例一对应的电子设备实施例,详见实施例三。
[0109]
实施例三
[0110]
本实施例提供了一种电子设备,如图3所示,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。
[0111]
由于本实施例所介绍的电子设备为实施本技术实施例一中方法所采用的设备,故而基于本技术实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本技术实施例中的方法不再详细介绍。只要本领域所属技术人员实施本技术实施例中的方法所采用的设备,都属于本技术所欲保护的范围。
[0112]
基于同一发明构思,本技术提供了实施例一对应的存储介质,详见实施例四。
[0113]
实施例四
[0114]
本实施例提供一种计算机可读存储介质,如图4所示,其上存储有计算机程序,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。
[0115]
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0116]
综上所述,通过采用本发明上述方案后,具有以下突出优点:
[0117]
1、采用了金字塔形特征注意模块fpa,利用金字塔形特征注意模块fpa对神经网络模型的主干网络中的浅层和深层的特征进行指导网络学习,能够提高分类性能的准确性;
[0118]
2、采用了全局感知激活模块gaa,由全局感知激活模块gaa利用金字塔形特征注意模块fpa计算得出的注意力引导图进行融合,指导神经网络模型的主干网络中的深层特征进行区分目标的前景和背景,能够提升模型的定位性能;
[0119]
3、通过采用本发明的技术方案,能够实现以低成本的图像标注,以仅有的弱标签信息获取更好的特征,达到较好的训练结果。
[0120]
本发明是参照根据本发明实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0121]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0122]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0123]
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1