一种图像分类方法、装置、设备及存储介质与流程

文档序号:36339528发布日期:2023-12-13 18:54阅读:29来源:国知局
一种图像分类方法与流程

本技术涉及人工智能,尤其涉及一种图像分类方法、装置、设备及存储介质。


背景技术:

1、在图像分类领域中,想要准确识别出某类图像,深度学习模型需要学习海量带标签的各类别的训练图像。但训练图像的标签往往是难以获取的,为此,零样本分类被提出,并有效解决了上述类别标签缺失问题。零样本分类也称作零样本学习,是指依据一些可见类别的数据,加上相应的辅助信息(如,语义标签向量),来实现对不可见类别的识别。具体来说,零样本学习首先利用可见类别的图像、对应的标签和语义向量来训练模型,以使模型学习到可见类中包含的语义知识,然后,模型通过学习到的语义知识,再结合不可见图像和对应该图像的语义向量来推测不可见图像的类别。

2、已有技术下,传统实现零样本分类的方法,通常是通过全连接层这一分类器来实现视觉特征向语义空间嵌入的。具体来说,传统的零样本图像分类方法是通过已见过的类别图像的视觉特征和相应标签的语义特征,学习一个从视觉空间映射到语义空间的映射函数。然后,通过这个映射函数,将测试图像的视觉特征映射至语义空间,得到预测的语义特征,再找出离它最近的未见过类别的语义特征,从而确定所属类别。

3、然而,由于传统的全连接层的映射通常是单一维度映射,因此,这种映射存在着拟合能力差,分类效果低下等问题。


技术实现思路

1、本技术实施例提供一种图像分类方法、装置、设备及存储介质,用以解决传统零样本分类方法存在着分类效果低下的问题。

2、本技术实施例提供的具体技术方案如下:

3、第一方面,本技术实施例提供一种图像分类方法,包括:

4、将待分类图像输入基于注意力语义嵌入的零样本图像分类模型中;

5、将所述零样本图像分类模型的输出结果,作为所述待分类图像对应的分类结果;

6、其中,所述零样本图像分类模型是基于transformer深度学习模型和交叉注意力机制构建,并基于零样本数据集中每张样本图像和每个属性的属性原型向量,对待训练的零样本图像分类模型进行注意力语义嵌入训练得到的。

7、上述方法,利用transformer深度学习模型具备的强大的拟合能力,可以优化传统零样本分类方法的拟合能力,并利用transformer深度学习模型的自注意力机制,在卷积神经网络输出的待分类图像的视觉特征图上进行特征变换,以提高视觉特征的空间关联性,以及利用交叉注意力机制诱导待分类图像的视觉特征从视觉空间到语义空间的映射,从而提高了基于注意力语义嵌入的零样本图像分类模型的分类性能,提高了分类准确率。

8、在一种可能的实现方式中,所述零样本图像分类模型包括视觉特征提取模块、特征变换模块、语义嵌入模型和基于语义信息的分类模块;

9、所述将待分类图像输入基于注意力语义嵌入的零样本图像分类模型中,包括:

10、将所述待分类图像输入所述视觉特征提取模块进行特征提取,得到所述待分类图像的视觉特征图;

11、将所述视觉特征图输入所述特征变换模块进行变换,得到对应的视觉特征张量,其中,所述特征变换模块是基于所述transformer深度学习模型的编码模块构建的;

12、将所述视觉特征张量输入所述语义嵌入模块进行特征映射,得到对应的属性特征张量,其中,所述语义嵌入模块是基于所述transformer深度学习模型的解码模块和所述交叉注意力机制构建的;

13、对所述属性特征张量进行全局最大池化处理,得到属性特征向量,其中,所述属性特征向量携带所述待分类图像的语义信息;

14、将所述属性特征向量输入所述分类模块进行语义信息比对,并基于比对结果,将匹配率最高所对应的属性特征向量的语义信息,作为所述零样本图像分类模型的输出结果。

15、上述方法,提供一种基于注意力语义嵌入的零样本图像分类模型,对待分类图像进行分类,由于上述零样本图像分类模型可以有效地提取出待分类图像的视觉特征中的属性信息,并映射到对应的语义空间中,因此,可以得到更为贴合待分类图像的语义信息,从而提高了分类结果的准确性。

16、在一种可能的实现方式中,所述待训练的零样本图像分类模型包括视觉特征提取模块、特征变换模块、语义嵌入模块和基于语义信息的分类模块,所述零样本图像分类模型是采用如下方式进行注意力语义嵌入训练得到的:

17、基于所述零样本数据集对所述待训练的零样本图像分类模型进行多轮迭代训练,并在每轮训练后基于测试图像数据集对当前轮训练得到的零样本图像分类模型进行测试,在训练轮数达到迭代阈值后,将得到的测试结果中模型测试性能符合预设条件的至少一个零样本图像分类模型,作为训练完毕的所述零样本图像分类模型,其中每一轮迭代过程为:

18、将所述零样本数据集中每张样本图像输入所述视觉特征提取模块,得到对应的视觉特征图,并将每张样本图像的视觉特征图输入所述特征变换模块,得到对应的视觉特征张量;

19、将每个视觉特征张量和每个属性原型向量输入所述语义嵌入模块进行特征映射,得到对应的属性特征张量,其中,每个属性原型向量是将所述零样本数据集中对应的属性进行空间映射得到的;

20、对每个属性特征张量进行全局最大池化处理,得到对应的属性特征向量,其中,每个属性特征向量携带对应样本图像的语义信息;

21、分别将每张所述样本图像对应的属性特征向量输入所述分类模块,得到对应的语义特征向量,并将每个语义特征向量与对应样本图像的语义标签向量进行比对,得到第一损失值;

22、分别基于所述第一损失值,对所述待训练的零样本图像分类模型中所有模块的模块参数进行调整。

23、上述方法,提供了一种训练基于注意力语义嵌入的零样本图像分类模型的学习方法,基于该学习方法,可以得到分类性能更为突出的模型,从而提高了图像分类结果的准确性。

24、具体实施中,将零样本数据集中每张样本图像对应的视觉特征图,以及零样本数据集中每个属性对应的属性原型向量分别作为transformer的编码模块(encoders)和解码模块(decoders)的输入,使模型具备了突出的拟合能力,增强了卷积神经网络对于远距离局部特征关联的学习能力,诱导视觉特征向语义空间的嵌入。

25、进一步地,基于语义特征向量、语义标签向量和对应的损失函数,得到第一损失值,并基于第一损失值,对零样本图像分类模型中所有模块的模块参数进行至少一次调整,以增强零样本图像分类模型对应复杂属性的拟合能力,从而使模型尽快完成拟合,进而得到分类性能突出、稳定的模型。

26、在一种可能的实现方式中,在所述将每张样本图像的视觉特征图输入所述特征变换模块,得到对应的视觉特征张量之后,还包括:

27、将每个所述样本图像的视觉特征张量与对应的视觉特征标签进行比对,得到第二损失值;

28、基于所述第二损失值对所述视觉特征提取模块的模块参数进行调整,以及,基于所述第二损失值对所述特征变换模块的模块参数进行调整。

29、上述方法,基于视觉特征张量、视觉特征标签和对应的损失函数,得到第二损失值,从而实现基于第二损失值,对零样本图像分类模型中的输出视觉特征张量所关联模块的模块参数进行至少一次调整,以增强零样本图像分类模型对应复杂属性的拟合能力,进而使模型尽快完成拟合。

30、在一种可能的实现方式中,所述待训练的零样本图像分类模型还包括属性原型构建模块;

31、在所述将每个视觉特征张量和每个属性原型向量输入所述语义嵌入模块进行特征映射,得到对应的属性特征张量之前,还包括:

32、将所述零样本数据集中每个属性输入所述属性原型构建模块进行空间映射,得到对应的属性原型向量,其中,所述属性原型构建模块是基于word2vector技术,和/或,对比语言-图像预训练clip模型构建的。

33、上述方法,基于word2vector技术,和/或,对比语言-图像预训练clip模型构建属性原型构建模块,可以合理构建一个超空间,然后,将零样本数据集中的每个属性合理分布该超空间中,借助属性原型向量的优势(即,能够分别用一个向量来表示一种属性),可以精准地、有效地提取出视觉特征中的属性信息,从而提高分类结果准确性。

34、在一种可能的实现方式中,所述将每个视觉特征张量和每个属性原型向量输入所述语义嵌入模块进行特征映射,得到对应的属性特征张量,包括:

35、采用所述语义嵌入模块包括的第一线性变换层,对每个属性原型向量进行变换,得到对应的查询query张量;

36、采用所述语义嵌入模块包括的第二线性变换层,对每个视觉特征张量进行变换,得到对应的值key张量;

37、采用所述语义嵌入模块包括的第三线性变换层,对每个视觉特征张量进行变换,得到对应的价值value张量;

38、基于每个视觉特征张量对应的key张量和value张量,以及每个query张量,得到每个视觉特征张量对应的属性特征张量,其中,每个属性特征张量具有相同维度。

39、上述方法,通过为transformer的解码模块设置双输入,并利用交叉注意力机制,能够将有效地提取出图像的视觉特征中的属性信息,并将属性信息映射到对应的语义空间中,以提高视觉特征向语义空间的嵌入,从而提高模型分类性能。

40、在一种可能的实现方式中,在所述将每个视觉特征张量和每个属性原型向量输入所述语义嵌入模块进行特征映射,得到对应的属性特征张量之后,还包括:

41、针对任意一个样本图像对应的视觉特征张量执行如下操作:

42、遍历所述视觉特征张量对应的属性特征张量中的每个属性特征分量,基于每个属性特征分量和所述样本图像对应的视觉特征图中目标特征点,确定第三损失值,其中,所述目标特征点是在所述视觉特征图中最大值所对应的特征点;

43、基于所述第三损失值,分别对所述视觉特征提取模块、所述特征变换模块、所述属性原型构建模块和所述语义嵌入模型对应的模块参数进行调整。

44、上述方法,基于损失函数,得到第三损失值,并基于第三损失值,对零样本图像分类模型中的输出语义特征向量所关联模块的模块参数进行至少一次调整,以增强零样本图像分类模型对应复杂属性的拟合能力,进而使模型尽快完成拟合。

45、第二方面,本技术实施例提供一种图像分类装置,包括:

46、输入模块,用于将待分类图像输入基于注意力语义嵌入的零样本图像分类模型中;

47、输出模块,用于将所述零样本图像分类模型的输出结果,作为所述待分类图像对应的分类结果;

48、其中,所述零样本图像分类模型是基于transformer深度学习模型和交叉注意力机制构建,并基于零样本数据集中每张样本图像和每个属性的属性原型向量,对待训练的零样本图像分类模型进行注意力语义嵌入训练得到的。

49、在一种可能的实现方式中,所述零样本图像分类模型包括视觉特征提取模块、特征变换模块、语义嵌入模型和基于语义信息的分类模块;

50、所述将待分类图像输入基于注意力语义嵌入的零样本图像分类模型中,所述输入模块用于:

51、将所述待分类图像输入所述视觉特征提取模块进行特征提取,得到所述待分类图像的视觉特征图;

52、将所述视觉特征图输入所述特征变换模块进行变换,得到对应的视觉特征张量,其中,所述特征变换模块是基于所述transformer深度学习模型的编码模块构建的;

53、将所述视觉特征张量输入所述语义嵌入模块进行特征映射,得到对应的属性特征张量,其中,所述语义嵌入模块是基于所述transformer深度学习模型的解码模块和所述交叉注意力机制构建的;

54、对所述属性特征张量进行全局最大池化处理,得到属性特征向量,其中,所述属性特征向量携带所述待分类图像的语义信息;

55、将所述属性特征向量输入所述分类模块进行语义信息比对,并基于比对结果,将匹配率最高所对应的属性特征向量的语义信息,作为所述零样本图像分类模型的输出结果。

56、在一种可能的实现方式中,所述待训练的零样本图像分类模型包括视觉特征提取模块、特征变换模块、语义嵌入模块和基于语义信息的分类模块,所述零样本图像分类模型是采用如下方式进行注意力语义嵌入训练得到的:

57、基于所述零样本数据集对所述待训练的零样本图像分类模型进行多轮迭代训练,并在每轮训练后基于测试图像数据集对当前轮训练得到的零样本图像分类模型进行测试,在训练轮数达到迭代阈值后,将得到的测试结果中模型测试性能符合预设条件的至少一个零样本图像分类模型,作为训练完毕的所述零样本图像分类模型,其中每一轮迭代过程为:

58、将所述零样本数据集中每张样本图像输入所述视觉特征提取模块,得到对应的视觉特征图,并将每张样本图像的视觉特征图输入所述特征变换模块,得到对应的视觉特征张量;

59、将每个视觉特征张量和每个属性原型向量输入所述语义嵌入模块进行特征映射,得到对应的属性特征张量,其中,每个属性原型向量是将所述零样本数据集中对应的属性进行空间映射得到的;

60、对每个属性特征张量进行全局最大池化处理,得到对应的属性特征向量,其中,每个属性特征向量携带对应样本图像的语义信息;

61、分别将每张所述样本图像对应的属性特征向量输入所述分类模块,得到对应的语义特征向量,并将每个语义特征向量与对应样本图像的语义标签向量进行比对,得到第一损失值;

62、分别基于所述第一损失值,对所述待训练的零样本图像分类模型中所有模块的模块参数进行调整。

63、在一种可能的实现方式中,在所述将每张样本图像的视觉特征图输入所述特征变换模块,得到对应的视觉特征张量之后,所述输入模块还用于:

64、将每个所述样本图像的视觉特征张量与对应的视觉特征标签进行比对,得到第二损失值;

65、基于所述第二损失值对所述视觉特征提取模块的模块参数进行调整,以及,基于所述第二损失值对所述特征变换模块的模块参数进行调整。

66、在一种可能的实现方式中,所述待训练的零样本图像分类模型还包括属性原型构建模块;

67、在所述将每个视觉特征张量和每个属性原型向量输入所述语义嵌入模块进行特征映射,得到对应的属性特征张量之前,所述输入模块还用于:

68、将所述零样本数据集中每个属性输入所述属性原型构建模块进行空间映射,得到对应的属性原型向量,其中,所述属性原型构建模块是基于word2vector技术,和/或,对比语言-图像预训练clip模型构建的。

69、在一种可能的实现方式中,所述将每个视觉特征张量和每个属性原型向量输入所述语义嵌入模块进行特征映射,得到对应的属性特征张量,所述输入模块用于:

70、采用所述语义嵌入模块包括的第一线性变换层,对每个属性原型向量进行变换,得到对应的查询query张量;

71、采用所述语义嵌入模块包括的第二线性变换层,对每个视觉特征张量进行变换,得到对应的值key张量;

72、采用所述语义嵌入模块包括的第三线性变换层,对每个视觉特征张量进行变换,得到对应的价值value张量;

73、基于每个视觉特征张量对应的key张量和value张量,以及每个query张量,得到每个视觉特征张量对应的属性特征张量,其中,每个属性特征张量具有相同维度。

74、在一种可能的实现方式中,在所述将每个视觉特征张量和每个属性原型向量输入所述语义嵌入模块进行特征映射,得到对应的属性特征张量之后,所述输入模块还用于:

75、针对任意一个样本图像对应的视觉特征张量执行如下操作:

76、遍历所述视觉特征张量对应的属性特征张量中的每个属性特征分量,基于每个属性特征分量和所述样本图像对应的视觉特征图中目标特征点,确定第三损失值,其中,所述目标特征点是在所述视觉特征图中最大值所对应的特征点;

77、基于所述第三损失值,分别对所述视觉特征提取模块、所述特征变换模块、所述属性原型构建模块和所述语义嵌入模型对应的模块参数进行调整。

78、第三方面,本技术实施例提供一种电子设备,包括:

79、存储器,用于存储可被控制器执行的计算机程序;

80、所述控制器与所述存储器连接,被配置为执行如上述第一方面中任一项的方法。

81、第四方面,本技术实施例提供一种计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行上述第一方面中任一项所述的方法。

82、另外,第二方面至第四方面中任一一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1