本发明属于图像处理,具体涉及一种基于通道加权和双对比学习的零样本目标检测方法。
背景技术:
1、零样本目标检测(zero-shot object detection,zsd)是计算机视觉领域中的一个重要研究方向,其目标是实现在未见过的目标类别上进行目标检测。传统目标检测算法通常在训练阶段需要使用大量标注数据来学习各个目标类别的特征表示,但在现实场景中,可能存在许多新的目标类别,这些类别没有在训练集中出现,因此无法用传统方法进行检测。
2、零样本目标检测的技术背景可以追溯到零样本学习(zero-shot learning,zsl)领域,zsl是一种用于解决分类任务的技术,其中目标是在未见过的类别上实现分类。zsl通过学习从视觉特征到语义语境(通常以词向量或属性向量表示)的映射,从而将图像分类扩展到未见过的类别。
3、在零样本目标检测中,zsl的思想被扩展到了目标检测任务。除了需要解决图像分类的问题,还需要定位目标在图像中的位置。这就要求零样本目标检测不仅要学习语义与视觉特征之间的映射,还要在未见过的目标类别上学习目标的位置信息。
4、传统零样本目标检测存在的缺陷主要包括以下几个方面:
5、数据稀缺性:未见过的目标类别缺乏标注数据,使得检测模型难以学习到它们的特征表示和位置信息;
6、特征泛化:在零样本情况下,检测模型需要从已见过的类别的特征向未见过的类别进行泛化。这就要求检测模型学习到具有较好泛化能力的特征表示;
7、语义-视觉对齐:检测模型需要将语义语境(如词向量)与视觉特征进行对齐,以便在未见过的类别上进行目标检测。
技术实现思路
1、针对现有技术的上述不足,本发明提供一种基于通道加权和双对比学习的零样本目标检测方法质,以解决语义-视觉映射关系不准确、合成的未知类别图像视觉特征鲁棒性差等问题。
2、本发明提供一种基于通道加权和双对比学习的零样本目标检测方法,包括:
3、获取可见类图像并输入到通道加权目标检测模块提取特征,其中,所述通道加权目标检测模块的特征提取网络为resnet,将se-net块嵌入到特征提取网络resnet的残差模块中,并使用rpn来提取可见类图像的目标区域的真实视觉特征;
4、将未知类的语义向量输入双对比学习引导的鲁棒特征生成模块,所述鲁棒特征生成模块为特征生成器,用于根据未知类的语义向量和随机噪声向量生成对应于该类别的目标区域的查询视觉特征,并通过类内对比学习和类间对比学习训练所述特征生成器;
5、将所述真实视觉特征和所述查询视觉特征输入不可见分类器,输出目标检测结果。
6、进一步的,在所述通道加权目标检测模块内包括以下方法:
7、输入可见类图像,经过残差模块后输出特征图f∈rh×w×c,其中,c是通道数,h是高度,w是宽度;
8、在se-net块内进行squeeze操作、excitation操作、scale操作;
9、所述squeeze操作包括:将特征图f进行全局平均池化,压缩为一个f维向量,表示每个通道的全局平均值,squeeze操作的输出为k∈r1×1×c,公式为:
10、;
11、所述excitation操作包括:将k∈r1×1×c输入到全连接层和relu激活函数,输出一个与通道数相同的注意力向量s∈r1×1×c,并通过sigmoid激活函数将注意力向量s限制在[0,1]范围内,公式为:
12、;
13、其中,fc表示全连接层,relu表示修正线性单元激活函数,表示sigmoid激活函数;
14、所述scale操作包括:将注意力向量s对特征图f进行加权,得到加权后的特征图m∈rh×w×c,公式为:
15、;
16、其中, sc是注意力向量s中第c个通道的注意力权重,fc(h,w)是特征图f在第c个通道和位置(h,w)处的值,mc(h,w)是加权后的特征图m在第c个通道和位置(h,w)处的值;
17、使用可见类图像及其相应的ground truth来训练faster-rcnn模型,并使用rpn来提取可见类图像的目标区域的真实视觉特征。
18、进一步的,所述双对比学习引导的鲁棒特征生成模块中,使用lr损失来强制生成器g合成与真实视觉特征分布相匹配的未知类别的查询视觉特征,所述lr损失函数为:
19、;
20、其中,f为可见类图像目标区域的真实视觉特征,f为可见类的语义向量,为生成的查询视觉特征,e表示期望值,d是判别器函数,所述判别器用于接收真实视觉特征f或查询视觉特征和相应的类别语义向量w作为输入,判别器的目标是准确区分真实视觉特征和查询视觉特征;
21、类内对比学习损失函数如下:
22、;
23、其中,“·”表示点积操作,τ表示温度比例因子,为查询视觉正样本,为查询视觉负样本,为查询视觉特征;
24、其中,对于每个查询噪声向量z,使用生成器g生成对应的查询视觉特征;
25、所述查询视觉正样本通过以下方式计算:
26、在所述随机向量z中选择一个查询噪声向量z,在以z为中心、半径为r的小球内随机选择一个正样本查询噪声向量z+,所述正样本查询噪声向量z+是通过在z 的基础上加上一个随机向量 ρ得到的,其中 ρ是从均匀分布u[-r,r]中随机采样得到的,半径r设置为10-4;将以z+为噪声向量生成的视觉特征作为查询视觉正样本;
27、所述查询视觉负样本通过以下方式计算:
28、从潜在空间中随机采样一组负样本噪声向量{z1-,z2-,..., zn-},所述负样本噪声向量被选择为在以查询噪声向量 z为中心、半径为r的小球以外的随机向量;而将以负样本噪声向量{z1-,z2-,..., zn-}为噪声向量生成的视觉特征作为查询视觉负样本;
29、类间对比学习损失函数为:
30、;
31、其中,g+表示正样本,正样本可以来自查询视觉特征,或来自目标检测器的rpn提取的与当前合成的查询视觉特征具有相同类别标签的目标区域的真实视觉特征; gj表示负样本,负样本可以来自通道加权目标检测模块的rpn提取的与当前合成的查询视觉特征具有不同类别标签的目标区域的真实视觉特征,或来自背景区域特征;
32、总损失函数l为:
33、;其中,λ1和λ2为平衡损失函数的加权超参数。
34、进一步的,所述不可见分类器使用生成的未知类图像的目标区域的查询视觉特征及其对应的未知类别的类标签进行训练,该分类器能够在零样本情况下对不可见类别进行分类。
35、进一步的,还包括:以faster r-cnn为骨干网络,以resnet作为faster r-cnn的特征提取网络,将双对比学习引导的鲁棒特征生成模块和不可见分类器结合到faster r-cnn模型中,通过更新faster r-cnn模型的分类器部分,建立所述零样本目标检测方法的检测模型。
36、本发明的有益效果在于:本发明提供了一种新的基于通道加权和双对比学习的零样本目标检测方法,创新性主要体现在两个方面:利用了通道注意力机制和双重对比学习方法。其优点分别如下:
37、(1)通过引入通道注意力机制,网络可以自适应地学习通道注意力,提高特征表示的表现能力,使得检测模型捕捉到更重要的特征,从而在目标检测任务中获得更好的性能。
38、(2)采用类内对比学习和类间对比学习损失函数,使得检测模型可以在零样本情况下合成多样且具有区分性的区域特征,从而提高了零样本目标检测的性能。
39、此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。