零样本图像分类方法、系统、设备及计算机可读存储介质

文档序号:38400550发布日期:2024-06-21 20:47阅读:23来源:国知局
零样本图像分类方法、系统、设备及计算机可读存储介质

本技术涉及人工智能领域,具体涉及一种零样本图像分类方法、系统、设备及计算机可读存储介质。


背景技术:

1、零样本学习(zero-shot learning,zsl)是计算机视觉领域的一种学习方法,其核心目标在于解决训练集中未出现的类别样本的识别问题。这一方法的出现突破了传统监督学习方法的固有局限性,即模型需要依赖大量的标注数据来进行训练,以便学习到各个类别之间的区分性特征。

2、零样本学习是利用可见类别的辅助语义信息来建立新类别与可见类别之间的联系,这种方法不需要未见过类别的实际样本,只需要根据辅助信息就可以识别未见过类别。传统零样本学习(conventional zero-shot learning,czsl)仅是从不可见类别中区分样本,广义零样本学习(generalized zero-shot learning,gzsl)则用于同时在可见类别和不可见类别上测试模型,现有的零样本学习方法在传统零样本学习或广义零样本学习的基础上主要是基于嵌入网络的学习,以致对零样本图像的分类不够精确,因此,如何实现更精确的零样本图像分类是当前亟需解决的问题。


技术实现思路

1、本技术提供一种零样本图像分类方法、系统、设备及计算机可读存储介质,可以解决现有的零样本学习方法对零样本图像的分类不够精确的技术问题。

2、第一方面,本技术实施例提供一种零样本图像分类方法,所述零样本图像分类方法包括:

3、对待分类图像进行特征提取,得到视觉特征;

4、基于预设的属性原型对视觉特征进行语义特征提取,得到第一语义特征,所述属性原型用于表示不同类别之间共享的属性;

5、对第一语义特征进行跨图像跨属性的特征提取,得到第二语义特征;

6、对第二语义特征和属性原型进行属性预测,得到第一预测类别;

7、对视觉特征进行潜在语义分析以映射得到第二预测类别;

8、将第一预测类别和第二预测类别进行融合,得到目标图像类别。

9、结合第一方面,在一种实施方式中,所述基于预设的属性原型对视觉特征进行语义特征提取,得到第一语义特征,包括:

10、将属性原型、视觉特征以及预设的第一可学习矩阵代入第一计算公式得到第一语义特征,所述第一计算公式为:

11、

12、式中,pa为属性原型,为第i张图像第r个区域的视觉特征,w1为预设的第一可学习的矩阵,为第i张图像的第一语义特征。

13、结合第一方面,在一种实施方式中,所述对第一语义特征进行跨图像跨属性的特征提取,得到第二语义特征,包括:

14、基于第二计算公式来实现跨图像跨属性的特征提取得到第二语义特征,所述第二计算公式为:

15、

16、式中,tij为图的邻接矩阵,d为图的度矩阵,d-1为d的逆,σ为relu激活函数,h为一批次的语义特征,w2为预设的第二可学习矩阵,为第二语义特征。

17、结合第一方面,在一种实施方式中,所述对第二语义特征和属性原型进行属性预测,得到第一预测类别,包括:

18、基于属性原型、预设的第三可学习矩阵、第一语义特征以及第二语义特征确定出属性置信度;

19、基于属性置信度、预设的超参数以及预设的语义向量确定出第一预测类别。

20、结合第一方面,在一种实施方式中,所述基于属性置信度、预设的超参数以及预设的语义向量确定出第一预测类别,包括:

21、将属性置信度、预设的超参数以及预设的语义向量代入第三计算公式得到第一预测类别,所述第三计算公式为:

22、

23、式中,ei为第i张图像的属性置信度,γ为预设的超参数,zc为预设的语义向量,“‖·‖”为矩阵的二范数,为第i张图像的第一预测类别。

24、第二方面,本技术实施例提供了一种零样本图像分类模型构建方法,所述零样本图像分类模型构建方法包括:

25、获取可见类别样本集和语义描述集,基于语义描述集中的属性个数确定出属性原型,所述属性原型用于表示不同类别之间共享的属性;

26、构建零样本图像分类模型,所述零样本图像分类模型包括图像主干网络、颈部网络和分类头,颈部网络包括空间注意力机制模块和语义交互图神经网络模块,分类头包括共享超球面分类器和全局分类分支;

27、将所述可见类别样本集和语义描述集输入到零样本图像分类模型中进行训练,以得到目标零样本图像分类模型;

28、其中,图像主干网络用于对可见类别样本集进行特征提取得到视觉特征,空间注意力机制模块基于属性原型对视觉特征进行语义特征提取得到第一语义特征,语义交互图神经网络模块对第一语义特征进行跨图像跨属性的特征提取得到第二语义特征,共享超球面分类器对第二语义特征和属性原型进行属性预测得到第一预测类别,全局分类分支对视觉特征进行潜在语义分析以映射得到第二预测类别,将第一预测类别和第二预测类别进行融合得到目标图像类别。

29、第三方面,本技术实施例提供了一种零样本图像分类系统,所述零样本图像分类系统包括零样本图像分类模型,其用于:

30、对待分类图像进行特征提取,得到视觉特征;

31、基于预设的属性原型对视觉特征进行语义特征提取,得到第一语义特征,所述属性原型用于表示不同类别之间共享的属性;

32、对第一语义特征进行跨图像跨属性的特征提取,得到第二语义特征;

33、对第二语义特征和属性原型进行属性预测,得到第一预测类别;

34、对视觉特征进行潜在语义分析以映射得到第二预测类别;

35、将第一预测类别和第二预测类别进行融合,得到目标图像类别。

36、第四方面,本技术实施例提供了一种零样本图像分类模型构建系统,所述零样本图像分类模型构建系统包括:

37、获取模块,其用于获取可见类别样本集和语义描述集,基于语义描述集中的属性个数确定出属性原型;

38、构建模块,其用于构建零样本图像分类模型,所述零样本图像分类模型包括图像主干网络、颈部网络和分类头,颈部网络包括空间注意力机制模块和语义交互图神经网络模块,分类头包括共享超球面分类器和全局分类分支;

39、训练模块,其用于将所述可见类别样本集和语义描述集输入到零样本图像分类模型中进行训练,以得到目标零样本图像分类模型;

40、其中,图像主干网络用于对可见类别样本集进行特征提取得到视觉特征,空间注意力机制模块基于属性原型对视觉特征进行语义特征提取得到第一语义特征,语义交互图神经网络模块对第一语义特征进行跨图像跨属性的特征提取得到第二语义特征,共享超球面分类器对第二语义特征和属性原型进行属性预测得到第一预测类别,全局分类分支对视觉特征进行潜在语义分析以映射得到第二预测类别,将第一预测类别和第二预测类别进行融合得到目标图像类别。

41、第五方面,本技术实施例提供了一种零样本图像分类设备,所述零样本图像分类设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的零样本图像分类程序,其中所述零样本图像分类程序被所述处理器执行时,实现如前述任一项所述的零样本图像分类方法的步骤。

42、第六方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有零样本图像分类程序,其中所述零样本图像分类程序被处理器执行时,实现如前述任一项所述的零样本图像分类方法的步骤。

43、本技术实施例提供的技术方案带来的有益效果包括:

44、通过对待分类图像进行特征提取得到视觉特征;基于预设的属性原型对视觉特征进行语义特征提取得到第一语义特征,实现了从视觉特征到语义特征的映射;对第一语义特征进行跨图像跨属性的特征提取得到第二语义特征;对第二语义特征和属性原型进行属性预测得到第一预测类别;对视觉特征进行潜在语义分析以映射得到第二预测类别,实现了将视觉特征直接映射到语义特征;将第一预测类别和第二预测类别进行融合得到目标图像类别。本技术通过深度建模语义间的关系实现了更精确的零样本图像分类。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1