本发明涉及计算机视觉中的组合式零样本分类,尤其涉及一种组合式零样本图像分类方法、系统、设备及存储介质。
背景技术:
1、计算机视觉中的图像分类方案能够辅助计算机系统自动地判定数字图像所属的语义类别,而目前基于深度学习的计算机视觉模型往往依赖大量由人工进行标注的训练数据。但是在现实应用场景之中,视觉图像的类别通常服从长尾分布,即存在着大量仅存在着少量训练数据的语义类别,因而为所有类别收集大量训练数据十分困难甚至并不可行。为了将计算机视觉系统对于训练阶段见过的类别的识别能力泛化到未知的类别之中,组合式零样本学习任务逐渐成为了计算机视觉领域的研究热点。
2、目前的组合式零样本学习方法主要的应用场景是用在图像分类任务之中,假定为每张训练图像都打上属性类别和物体类别的标签,而在测试数据中,所有的属性与物体都是属于在训练集中见过的类别,因此可以训练图像识别模型来对属于未见过的属性-物体组合类别的图像进行分类。主流的组合式零样本图像分类方法可以分为基于解耦式学习的方法与基于合成式学习的方法。一方面,基于解耦式学习的方法包含了属性分类分支与物体分类分支,两分支分别对于输入图像所包含的属性和物体类别进行分类,在训练阶段,对于属性和物体分类分支进行联合训练,而在测试阶段,使用直接相乘的方式结合两分支的预测,得到对于组合类别的预测结果。另一方面,基于合成式学习的方法需要预先使用自然语言处理的方法提取属性和物体类别的语义词向量,例如glove词向量(全局词向量)等,并在训练阶段学习如何使用属性与物体词向量的组合生成对应组合类别的分类器,进而在测试阶段,可以使用相同的方式为训练中不可见的测试类别生成对应的类别分类器。
3、组合式零样本图像分类的最新进展同时包含了以上两种类型的学习方式。
4、一方面,对于基于解耦式学习的组合式零样本学习方法,2020年国际计算机视觉与模式识别会议(the conference on computer vision and pattern recognition)上的一篇名为《symmetry and group in attribute-object compositions》的文章提出了一种通过耦合和解耦等特征转换对概念的组合性质进行建模的方法,该方法提出对于特定属性所代表的特征转换,图像的物体特征应当关于该转换对称的正则化约束,此外该方法还提出了一种基于相对移动距离的识别方法,利用属性变化而非属性模式本身来对属性类别进行识别;2022年国际计算机视觉与模式识别会议(the conference on computer visionand pattern recognition)上的一篇名为《disentangling visual embeddings forattributes and objects》的文章克服了预训练的骨干特征提取网络无法捕捉到与属性相关的细节视觉特征的问题,该方法提出了用于改进解耦学习的亲和力模块,该模块能够识别具有相同概念的两张图像之间最为相似的特征,此外该方法还展示了如何通过解耦后的视觉特征来生成虚拟的特征表示,从而约束分类模型学习到更为一致的视觉特征。
5、另一方面,对于基于合成式学习的组合式零样本学习方法,2019年国际计算机视觉大会(ieee international conference on computer vision)上的一篇名为《task-driven modular networks for zero-shot compositional learning》的文章提出了一系列通过门函数进行配置的神经网络模块,该方法所使用的这些模块以输入任务作为门函数的激活条件,使任务能够表示为子任务的组合,并通过在测试阶段根据新类别的输入图像重新加权一组小模块来使模型的识别能力泛化到未见过的类别;2021年国际计算机视觉与模式识别会议(the conference on computer vision and pattern recognition)上的一篇名为《learning graph embeddings for compositional zero-shot learning》的文章以端到端的方式学习图像特征、属性与物体分类器以及输入图像的视觉特征,该方法利用图神经网络模型来捕捉编码了各个概念之间的语义的联合兼容性。
6、尽管这些基于解耦式学习或基于合成式学习的方法能够在组合式零样本图像分类这一任务上取得较好的性能,但是组合式零样本图像任务主要存在着属性和物体的视觉表征之间相互耦合的问题。具体地,在某一属性与不同的物体组合的图像中,该属性的视觉表征会发生变化,类似地,某一图像的物体类别的视觉表征同样受到与其组合的属性类别所影响。一方面,基于解耦式学习的方法将属于同一类别的特征聚在一起,但同一类别中属于不同组合类别的概念所对应的视觉表征不一致,拉近其特征间距离会破坏模型的判别性,影响图像分类性能;另一方面,合成式学习方法通过直接对于组合类别进行分类而部分地解决了这一问题,但这类方法对于在不同组合之中的同一概念使用共享的词向量,而这一作为输入的词向量同样无法根据组合类别的不同而动态调整,此外,基于合成式学习方法的分类性能高度依赖于词向量的初始化方式,但是在现实应用场景中,受到计算资源等条件的限制,往往无法获得最优的词向量表征,进而限制了这类方法的图像分类性能。
7、有鉴于此,特提出本发明。
技术实现思路
1、本发明的目的是提供一种组合式零样本图像分类方法、系统、设备及存储介质,可以在组合式零样本图像分类任务上大幅提升分类准确率。
2、本发明的目的是通过以下技术方案实现的:
3、一种组合式零样本图像分类方法,包括:
4、构建组合式零样本图像分类模型并进行训练,其中,组合式零样本图像分类模型包括:基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器;所述基线分类模型对输入图像进行特征图提取,通过不同编码器对特征图进行编码,获得第一属性特征、第一物体特征与第一组合特征;所述基于子类信息感知的特征提取网络对所述第一组合特征进行解码获得第二属性特征与第二物体特征,以及对所述第一属性特征与第一物体特征进行编码获得第二组合特征;所述基于子类信息调制的动态分类器存储有属性分类器与物体分类器的权重,利用所述第一组合特征对属性分类器与物体分类器的权重分别进行动态更新;所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类,利用属性分类器与物体分类器的分类结果计算相应的分类损失;所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类,利用组合分类器的分类结果计算相应的分类损失;以及利用第一属性特征与第一物体特征分别构造对应的正负样本,计算相应的对比学习损失;结合所有分类损失与对比学习损失构造总损失函数训练所述组合式零样本图像分类模型;
5、训练完毕后,将待分类图像输入至训练后的组合式零样本图像分类模型,进行特征图提取并编码获得第一属性特征与第一物体特征,再对应的经属性分类器与物体分类器做进行分类,将属性分类结果与物体分类结果组合,作为组合类别的分类结果。
6、一种组合式零样本图像分类系统,包括:
7、模型构建与训练单元,用于构建组合式零样本图像分类模型并进行训练,其中,组合式零样本图像分类模型包括:基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器;所述基线分类模型对输入图像进行特征图提取,通过不同编码器对特征图进行编码,获得第一属性特征、第一物体特征与第一组合特征;所述基于子类信息感知的特征提取网络对所述第一组合特征进行解码获得第二属性特征与第二物体特征,以及对所述第一属性特征与第一物体特征进行编码获得第二组合特征;所述基于子类信息调制的动态分类器存储有属性分类器与物体分类器的权重,利用所述第一组合特征对属性分类器与物体分类器的权重分别进行动态更新;所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类,利用属性分类器与物体分类器的分类结果计算相应的分类损失;所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类,利用组合分类器的分类结果计算相应的分类损失;以及利用第一属性特征与第一物体特征分别构造对应的正负样本,计算相应的对比学习损失;结合所有分类损失与对比学习损失构造总损失函数训练所述组合式零样本图像分类模型;
8、分类单元,用于在训练完毕后,将待分类图像输入至训练后的组合式零样本图像分类模型,进行特征图提取并编码获得第一属性特征与第一物体特征,再对应的经属性分类器与物体分类器做进行分类,将属性分类结果与物体分类结果组合,作为组合类别的分类结果。
9、一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
10、其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
11、一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
12、由上述本发明提供的技术方案可以看出,通过构建基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器,基于子类信息感知的特征提取网络能够捕捉表征图像子类信息的视觉特征,而基于子类信息调制的动态分类器能够根据图像的属性与物体所属子类的不同,动态调整相应分类器的权重,使得本发明能够对属于不同子类的原始概念进行针对性地识别(也即通过属性分类器和物体分类器,分别对属性和物体的类别进行分类),从而解决传统的解耦式学习与合成式学习方法受到属性与物体的视觉特征耦合而造成的图像分类模型判别性下降的问题,实验结果表明本发明所提出的方法在组合式零样本图像分类任务上能够大幅提升分类准确率。