基于动态类原型生成机制的类增量学习方法及产品

文档序号:34597726发布日期:2023-06-28 21:42阅读:68来源:国知局
基于动态类原型生成机制的类增量学习方法及产品

本发明涉及人工智能,具体而言,涉及一种基于动态类原型生成机制的类增量学习方法及产品。


背景技术:

1、近年来,深度神经网络越来越多地应用于不断变化的动态环境之中,这要求深度神经网络能够不断从新数据中学习新知识。然而,持续学习将会导致灾难性遗忘问题,即模型在旧数据上的性能急剧恶化。因此,持续学习新知识而不忘记已学习的旧知识已经成为许多计算机视觉任务的核心需求之一(例如图像识别和目标检测)。作为一种典型的连续学习任务,类增量学习(cil)旨在识别新类样本的同时保持对旧类样本的识别能力。在cil任务中,灾难性遗忘有两个主要原因:(a)与旧知识相关的神经网络参数被快速改变以适应新的类别数据(即网络漂移);(b)由于来自不同cil阶段的类别样本没有被一起训练过,它们之间无法形成良好的决策边界(即阶段间类间混淆)。

2、为了缓解灾难性遗忘,现有的许多工作采用基于旧样本回放的方法。然而,此类方法有两大局限性:(a)对于一些设备内存有限的应用场景,不可能连续存储越来越多类的旧样本;(b)存储的旧样本涉及数据隐私往往是不可接受的。


技术实现思路

1、本技术提供一种基于动态类原型生成机制的类增量学习方法及产品,以解决无旧样本如何缓解类增量学习中灾难性遗忘的问题,并根据本方法的结构特点,发明了一种高效的无旧样本类增量学习模型和训练方法。

2、为了达到上述目的,本发明采用如下技术方案予以实现的:

3、第一方面,本技术提供了一种基于动态类原型生成机制的类增量学习方法,包括以下步骤:

4、步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和t个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;

5、步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;

6、步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;

7、步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;

8、步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;

9、步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的上之前所有阶段各个类别的伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;

10、步骤7),重复步骤3)至6),直到所有增量阶段训练结束;

11、步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。

12、基于第一方面,在步骤3)中,所述定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型,包括:

13、对于阶段t的类别a∈ct,初始特征空间定义如下:

14、

15、其中,为阶段t训练样本的特征表示,阶段t的特征表示由特征提取器得到,即yi为阶段t训练样本中的不同类别,为新特征空间;

16、特征表示的特征密度di定义如下:

17、

18、其中,e(·,·)表示欧式距离,i和j分别表示阶段t中第i和第j个训练样本,为阶段t中第j个训练样本的特征表示,γ是超参数;

19、在原型生成过程中,利用特征密度di对类别a的特征进行加权,类别a的初始原型定义如下:

20、

21、其中,proto(·)为类别a的原型,是特征表示的权重,dj为特征表示的特征密度,初始原型代表阶段t中的初始原型集合,类别c1:t的原型集合定义为:μj为前t-1个阶段中的旧类别j的原型。

22、基于第一方面,在步骤4)中,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新,包括以下步骤:

23、在每个增量阶段,计算出每个增量阶段的特征空间的漂移量;

24、利用所述每个增量阶段的特征空间的漂移量估计之前所有阶段的类别原型的漂移量;

25、利用局部拓扑关系计算拓扑纠正量,并对所述之前所有阶段各个类别的原型进行更新。

26、基于第一方面,所述在每个增量阶段,计算出每个增量阶段的特征空间的漂移量定义如下:

27、

28、其中,类别a∈ct,阶段t的特征表示阶段t-1的特征表示fit和fit-1是分别由特征提取器φ(xi;θt)和φ(xi;θt-1)得到,δfi为特征表示相对于特征表示的漂移量;

29、利用所述每个增量阶段的特征空间的漂移量估计之前所有阶段的类别原型的漂移量定义如下:

30、

31、其中,类别b∈c1:t-1,e(·,·)表示欧式距离,为类别b∈c1:t-1的原型,为阶段t第j个训练样本的特征表示,η是超参数;

32、所述利用局部拓扑关系计算拓扑纠正量,并对所述之前所有阶段各个类别的原型进行更新,拓扑纠正量定义为的k近邻漂移量的加权和:

33、

34、其中,是之前所有阶段的类别原型的k近邻,是类别原型的漂移量,α是超参数;

35、之前所有阶段类别b的原型拓扑纠正漂移量定义如下:

36、

37、其中,是类别原型的漂移量,是类别原型的拓扑纠正量,β是用来调节两项贡献和的超参数;

38、按阶段更新原型,得到更新后的类别原型定义如下:

39、

40、基于第一方面,在步骤6)中,所述多目标损失函数整体定义如下:

41、

42、定义如下:

43、

44、定义如下:

45、

46、其中,阶段t的特征表示的维度是df,将表示为由特征提取器φ(·;θt)定义的特征空间,为预测标签,是余弦分类器,yi是真实标签,是交叉熵损失,是特征蒸馏损失,是伪特征约束,λ1和λ2是用来调节两种损失贡献和的超参数。

47、基于第一方面,所述伪特征约束定义如下:

48、

49、其中,是的预测概率,yi是的真实标签;为在每个增量阶段中,通过原型拓扑纠正漂移量更新后的类别原型重建出的伪特征空间,伪特征空间定义如下:

50、

51、其中,是类别b的归一化伪特征,e*σ是用来生成伪特征的高斯噪声,e和σ与有相同的维度,σ的每个维度表示原始特征空间中相应维度的标准差。

52、第二方面,本技术实施例提供一种基于动态类原型生成机制的类增量学习模型的图像分类方法,将待分类图像输入所述一种基于动态类原型生成机制的类增量学习模型,得到所述待分类图像的图像分类结果。

53、第三方面,本技术实施例提供一种基于动态类原型生成机制的类增量学习系统,包括:

54、类增量数据集划分模块,用于步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和t个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;

55、特征空间提取和分类模块,用于步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;

56、原型计算模块,用于步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;

57、拓扑纠正模块,用于步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;

58、伪特征生成模块,用于步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;

59、多目标损失函数计算模块,用于步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;

60、类增量学习模型训练模块,用于步骤7),重复步骤3)至6),直到所有增量阶段训练结束;

61、类增量学习模型评估模块,用于步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。

62、第四方面,本技术实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器;当所述一个或多个程序被所述处理器执行时,实现如上述第一方面中任一项所述的方法。

63、第五方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项所述的方法。

64、相对于现有技术,本发明实施例具有如下的优点:

65、本发明实施例提供一种基于动态类原型生成机制的类增量学习方法及产品,通过步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和t个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;步骤2),使用所述当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;步骤6),在每个增量阶段,基于步骤3)中当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别的伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;步骤7),重复步骤3)至6),直到所有增量阶段训练结束;步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。

66、受脑认知科学,视觉刺激的拓扑特性是定义视觉记忆的重要组成部分的最新启发,本发明基于动态类原型生成机制,分别解决了无旧样本类增量学习中的灾难性遗忘和网络漂移问题。通过特征提取器、余弦分类器、dbp(基于特征密度的原型生成)和tpd(拓扑纠正的原型漂移估计)构成基于动态类原型生成机制的类增量学习框架mate,mate动态重建旧类的伪特征空间,以解决类增量学习中旧样本不可见的问题。基于特征密度计算初始旧类别原型,并通过基于拓扑纠正的原型漂移估计方法不断更新旧类别原型,以解决无旧样本类增量学习中的网络漂移问题。在基准图像分类数据集上的典型设置中,本技术中的基于动态类原型生成机制的类增量学习方法与现有的无旧样本类增量学习方法相比,达到了最先进的性能,并且与经典的基于回放的类增量方法相比,具有相同水平的性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1