一种基于联合生成对抗网络的零样本图像分类方法

文档序号：35093821发布日期：2023-08-10 03:52阅读：40来源：国知局

本方法涉及图像智能分类领域，特别涉及一种基于联合生成对抗网络的零样本图像分类方法。

背景技术：

1、随着互联网技术的发展，图像以惊人的速度增加，繁琐的标注工作大大增加了图像收集的人工成本。如何减少人工在图像样本方面的标记工作，以及如何使模型快速适应层出不穷的新样本，成为图像分类领域亟待解决的问题。传统需要大量标注样本进行学习模式的不足迫使新的需要较少甚至无需标注样本技术的发展，零样本学习成为目标分类技术发展的必然趋势之一。

2、目前主流的零样本学习方法分为两类：基于嵌入模型的零样本学习法和基于生成模型的零样本学习法。基于嵌入模型的零样本学习法主要探索视觉和语义之间的映射关系，而基于生成模型的零样本学习法通过生成不可见类的合成视觉样本将无监督学习转为全监督学习。虽然上述方法可以解决零样本存在的问题，但也引入了一个新的问题:由于可见类和不可见类之间训练样本数量的极度不平衡，基于嵌入的方法通过可见类学习出的映射函数可能无法泛化到不可见类，而基于生成的方法虽然为缺乏数据不可见类利用格式生成网络生成特征，但忽略了这些生成特征在映射空间中的分布。这可能会使生成特征的语义映射点在语义空间中更接近可见类的语义原型，导致最终的分类结果仍然偏向可见类。

技术实现思路

1、本发明目的在于克服上述现有技术的不足，提出一种基于联合对抗生成网络的零样本图像分类方法，该方法将上述两种方法相结合，并在原有生成法的基础上额外引入了一个用于生成语义映射点的生成对抗网络(generative adversarial network，gan)，从语义特征、视觉特征两方面解决了不可见类的数据稀缺的问题，缓解了预测结果向可见类偏移的情况，其明显优点是：提升了零样本图像分类的准确度。

2、为实现上述目的，本发明的技术方案包括如下步骤：

3、s1，将零样本训练集图像输入卷积网络，提取图像视觉特征xij；

4、所述的零样本训练集包含c类样本图像和对应的c类语义真值，每类样本图像有k幅图像；

5、所述的卷积网络优选为经imagenet数据集预训练过的resnet-101卷积网络；

6、所述的图像视觉特征xij为第i类第j张图像，其中i∈[1，c]，j∈[1，k]；

7、s2，用s1得到的图像视觉特征xij和训练集提供的类语义真值li，训练语义映射网络e；

8、所述的类语义真值li是由零样本数据集中提供的，且每类图像具有共同的类语义真值li，其中i∈[1，c]；

9、所述的语义映射网络e优选由2层全连接层构成；

10、所述的训练语义映射网络e，采用的损失函数是语义嵌入损失，用公式可表示为：其中，l′i表示除li之外的随机选择的其他类别的语义真值，δ是使e更鲁棒的参数，δ为常数，优选δ＞0；

11、s3，用s1得到的图像视觉特征xij对同一类样本取平均值，获得类视觉特征xi；

12、所述的取平均值通过公式计算；

13、s4，用s3得到的类视觉特征xi和该类图像经s2训练好的映射网络e推理得到的语义向量l′ij，训练语义特征生成对抗网络ganl；

14、所述的训练语义特征生成对抗网络ganl，所用的损失函数是其中dl是ganl中的判别器，是由ganl中的生成器gl生成的语义特征，ε为高斯白噪声，服从均匀分布；

15、s5，用s4训练好的语义特征生成对抗网络ganl推理出图像生成语义特征

16、所述的ganl推理可用公式表示为

17、s6，用训练集提供的类语义真值li，训练视觉特征生成对抗网络ganx；

18、所述的训练视觉特征生成对抗网络ganx，所用的损失函数是其中dx是ganx中的判别器，是由ganx中的生成器gx生成的视觉特征，ε为高斯白噪声，服从均匀分布；

19、s7，将s5生成得到的和类语义真值li，通过s6训练好的视觉特征生成对抗网络ganx推理出图像生成视觉特征

20、所述的ganx推理可用公式表示为l分别表示和li；

21、s8，将s7推理的生成视觉特征和s1提取到的视觉特征xij输入s2训练好的语义映射网络，分别得到用于分类的语义嵌入向量和yij；

22、s9，用s8得到的两种语义嵌入向量进行连接操作，并用于训练分类器；

23、所述的分类器优选由一层全连接层和一层softmax层构成；

24、所述的连接操作是指concat函数；

25、所述的训练优选采用负对数似然损失函数；

26、s10，将测试图像输入卷积网络提取图像视觉特征，再通过s2训练好的语义映射网络得到用于分类的语义特征，利用s9训练好的分类器，实现样本分类。

27、有益效果

28、本发明首先通过利用卷积网络提取到的图像视觉特征和类语义真值训练语义映射网络，然后分别训练了语义特征生成对抗网络和视觉特征生成对抗网络，再将视觉特征生成对抗网络生成的生成视觉特征和由卷积网络提取到的真实视觉特征共同输入至语义映射网络并输出语义映射向量，最后利用输出的语义映射向量训练分类器；在测试阶段，将测试图像输入到卷积网络提取特征并进行语义映射，将映射出的语义向量输入至分类器，最终实现零样本分类；其明显的优点是：提升了零样本分类的准确度。

29、下面结合实施例附图对本发明作进一步说明。

技术特征：

1.一种基于联合生成对抗网络的零样本图像分类方法，其特征在于包括以下步骤：

技术总结
本发明公开了一种基于联合生成对抗网络的零样本图像分类方法，利用均值法建立不可见类的图像表征特征，利用图像表征特征训练语义特征生成对抗网络，然后联合视觉特征生成对抗网络生成视觉特征，再将生成视觉特征和真实视觉特征进行语义映射，最后利用映射语义向量进行零样本分类。从语义特征、视觉特征两方面解决了不可见类的数据稀缺的问题，缓解了预测结果向可见类偏移的情况，本发明有效提升了零样本分类的准确度。

技术研发人员：王晓华,史玥婷,张旻琬,王卫江
受保护的技术使用者：北京理工大学
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王晓华史玥婷张旻琬王卫江
技术所有人：北京理工大学
我是此专利的发明人

上一篇：一种射频解冻装置及冰箱的制作方法
上一篇：一种用于超声刀手柄的安装架和超声刀手柄的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。