本发明属于计算机视觉中的图像分类领域,特别涉及多标签场景下超图transformer对二维图像的多标签预测。
背景技术:
1、多标签图像分类是计算机视觉中的一项重要任务,涉及到场景识别、图像自动标注等许多应用,其目的是从包含多个类别目标的二维图像中提取特征,并预测该图像对应的类别标签。相比于单标签图像分类,多标签图像分类难度更高,不仅需要同时识别多个目标,还会面临目标之间尺寸不一致、目标被遮挡等可能存在的问题。针对这些问题,现有的方法主要考虑增强模型的特征提取能力,或者通过挖掘目标之间的关联来提高识别的准确率。
2、卷积神经网络(convolution neural network,cnn)凭借强大的特征提取能力,被广泛用在多标签图像分类任务上。例如残差网络(resnet),通过残差连接解决了深度神经网络中梯度消失的问题,现在仍然是最常用的特征提取网络之一。但由于resnet受局部感受野的限制,无法直接在图像中建立像素间的长距离依赖,捕捉图像内全局上下文信息的能力较差。近几年,vision transformer以及swin transformer将自然语言处理(nlp)领域的注意力机制迁移到图像分类中。从而,深度学习模型能在注意力机制的影响下建立图像内的长距离依赖,完成对图像局部重要区域的聚焦,从而提升识别的准确率。虽然上述方法能提升深度学习模型的特征提取能力,但忽略了图像内多个目标之间的潜在联系。
3、图神经网络(graph neural network,gnn)在多标签图像分类中主要用于学习类别标签间的标签共现关系或者语义关联,通过将标签之间的关系表示为图结构,从而改善模型捕获目标关联的能力。但由于图结构只能对顶点之间构建一对一的联系,这种联系不符合现实世界中真实物体之间的复杂关系,因此能够通过超边同时连接多个顶点的超图被引入到多标签图像分类领域中。例如自适应超图神经网络(adahgnn)通过构造自适应的关联矩阵,学习数据间的高阶相关性。相比于使用先验知识来初始化关联矩阵的一般超图,adahgnn中可学习的关联矩阵能够在模型的训练过程中动态更新,信息传递更加灵活。上述方法大多都需要从图像中提取出所有待预测标签对应的特征,并以每类标签的特征作为图结构或超图的顶点。但实际上单张图像带有的标签是有限的,如果直接对图像提取所有标签对应的特征,那么这些标签特征里肯定有部分属于噪声特征。因此,即使超图满足了多标签图像分类对目标间高阶相关性的学习需求,仍需要进一步考虑超图中不同顶点特征之间的重要性,以此减少噪声特征的影响。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本发明提供了一种基于超图transformer的多标签图像分类方法,以解决上述技术问题。
3、(二)技术方案
4、为解决上述技术问题,本发明提供如下技术方案:基于超图transformer的多标签图像分类方法,包括以下步骤:
5、s1:利用特征提取网络提取图像的特征;
6、s2:利用语义解耦模型对所提取图像特征进行解耦获取所有可能类的语义特征;
7、s3:构建超图transformer模型对解耦的语义特征进行联合优化;
8、s4:根据优化的特征对图像进行多标签分类。
9、优选地,图像特征提取模块为卷积神经网络,步骤s1具体为利用卷积神经网络的残差网络对图像进行特征提取。
10、优选地,语义特征解耦模块为语义特征交互网络,步骤s2具体为利用低秩双线性池化操作对所述图像进行目标语义特征的解耦。
11、优选地,语义特征优化模块为超图transformer网络,步骤s3为利用超图transformer构建标签之间的共现关系以优化步骤s2得到的目标语义特征。
12、优选地,步骤s3包括以下子步骤:
13、s31:结合所述步骤s2所获取的目标语义特征与注意力机制,对超图的关联矩阵加权,以计算超边特征;
14、s32:结合所述步骤s31所计算的超边特征与注意力机制,对超图的关联矩阵加权,以更新顶点特征。
15、优选地,步骤s4为通过线性层将超图transformer网络优化后的目标语义特征进行图像标签分类。
16、优选地,在对基于超图transformer的多标签图像分类整个模型训练时,使用交叉熵损失函数作为约束。
17、(三)有益效果
18、与现有技术相比,本发明提供了一种基于超图transformer的多标签图像分类方法,与现有技术相比,具备以下有益效果:(1)构建了一种基于超图transformer的多标签图像分类模型,该模型在挖掘顶点之间复杂关系时表现出更强的抗噪能力和泛化性,从而提高了分类的准确率;(2)提出一种自适应超图transformer的网络模型,该模型定义一种图像内容感知的超图关联矩阵,并通过注意力机制构建顶点间的超图关联关系,从而增强模型的鲁棒性。
1.基于超图transformer的多标签图像分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于超图transformer的多标签图像分类方法,其特征在于:所述图像特征提取模块为卷积神经网络,具体为利用所述卷积神经网络的残差网络对所述图像进行特征提取。
3.根据权利要求1所述的基于超图transformer的多标签图像分类方法,其特征在于:所述语义特征解耦模块为语义特征交互网络,具体为利用所述低秩双线性池化操作对所述图像进行目标语义特征的解耦。
4.根据权利要求1所述的基于超图transformer的多标签图像分类方法,其特征在于:所述语义特征优化模块为超图transformer,所述子步骤s3为利用所述超图transformer网络模型优化所述子步骤s2得到的目标语义特征。
5.根据权利要求4所述的基于超图transformer的多标签图像分类方法,其特征在于,所述步骤s3包括以下子步骤:
6.根据权利要求1所述的基于超图transformer的多标签图像分类方法,其特征在于:所述步骤s4为通过线性层将所述经过超图transformer模型优化后的目标语义特征进行图像标签分类。