基于深度学习多分支逻辑调整综合的长尾图像识别方法

文档序号:39553593发布日期:2024-09-30 13:19阅读:26来源:国知局
基于深度学习多分支逻辑调整综合的长尾图像识别方法

本发明涉及模式识别及计算机视觉的,尤其是指一种基于深度学习多分支逻辑调整综合的长尾图像识别方法。


背景技术:

1、在现代计算机视觉和机器学习领域,特别是在进行图像分类、语音识别和自然语言处理等任务时,长尾分布的问题是处理多类分类任务中的一个常见挑战。所谓的长尾识别问题,是指在实际应用中某些类别的样本量远多于其他类别。这种不平衡导致了学习模型在训练过程中倾向于优先识别那些样本数量多的类别,而忽视样本较少的类别,从而影响模型的总体性能和泛化能力。

2、传统的机器学习方法在处理这类问题时通常面临着样本不平衡的挑战,其核心困难在于如何提高模型对少数类的识别能力,而不牺牲多数类的识别准确性。为了解决这一问题,研究者们提出了多种方法,如重采样技术、成本敏感学习和合成少数类过采样技术。传统的方法包括调整样本的分布,通过过采样少数类或欠采样多数类来平衡类别比例,尽管这些方法在某些场景下有效,但它们通常无法完全解决由于类别不平衡带来的性能退化问题。

3、近年来,深度学习技术由于其强大的特征提取和表达能力,在处理复杂的分类任务时显示出优越的性能,深度学习的发展也为处理长尾问题提供新的视角和方法。例如,通过设计特定的损失函数来强化对少数类的学习,或者利用多任务学习的框架来同时优化对多数类和少数类的识别能力。此外,一些研究集中在生成对抗网络的应用上,通过合成少数类的样本来增强数据集的多样性和平衡性。多专家系统也被证明在多任务学习和复杂决策场景中是一种极为有效的方法,它通过集成多个模型或网络以提高整体性能。然而,在长尾识别领域如何在一个集成学习框架中有效融合多个专家网络,并在保持整体分类性能的同时,针对长尾分布中的少数类别进行有效识别,提升对少数类别的识别准确度仍然是一个挑战。


技术实现思路

1、本发明的目的在于克服现有技术的不足,提供了一种基于深度学习多分支逻辑调整综合的长尾图像识别方法,可有效提高网络在各种长尾数据分布情况下的适应能力,提升深度神经网络的整体识别性能,特别是提升少数类图像的识别性能。

2、为实现上述目的,本发明所提供的技术方案为:基于深度学习多分支逻辑调整综合的长尾图像识别方法,该方法是基于改进sade网络实现长尾图像的有效识别,该改进sade网络为多分支特征提取网络,包含一个共享主干网络和三个并行的专家分支网络,并使用设计的多分支逻辑融合策略,其中,所述共享主干网络包含一个残差卷积模块,所述专家分支网络包含两个残差卷积模块,所述多分支逻辑融合策略是将逻辑输出转变为概率分布向量,然后归一化相容概率分布向量,通过综合多分支逻辑输出以提供更可靠的逻辑输出;

3、所述基于深度学习多分支逻辑调整综合的长尾图像识别方法的具体实施,包括:

4、将获取的长尾图像输入训练好的改进sade网络进行以下操作:

5、长尾图像首先输入共享主干网络,由共享主干网络对长尾图像进行卷积并输出浅层特征图,随后浅层特征图并行输入三个专家分支网络中,每个专家分支网络提取浅层特征图中更加高级抽象的特征,并输出深层特征图,深层特征图最后经全连接层处理后得到逻辑输出;

6、分别对三个专家分支网络的逻辑输出进行调整,第一个专家分支网络的逻辑输出不做调整,模拟正常长尾分布;在第二个专家分支网络的逻辑输出中添加逻辑调整先验,模拟类别平衡分布;在第三个专家分支网络的逻辑输出中添加反向逻辑调整先验,模拟类别逆长尾分布;

7、综合三个专家分支网络调整后的逻辑输出,首先将三个专家分支网络调整后的逻辑输出转变为概率分布向量,然后将三个专家分支网络的概率分布向量进行融合,通过归一化相容的概率分布向量来合成最终概率分布向量,即网络的长尾图像类别的最终预测结果。

8、进一步,所述共享主干网络中残差卷积模块的参数表示为θ1,三个专家分支网络中每个专家分支网络的两个残差卷积模块的参数分别表示为θ2_1和θ3_1、θ2_2和θ3_2以及θ2_3和θ3_3;

9、所述特征提取网络的处理过程表示为:

10、p1=fc[θ3_1(θ2_1(θ1(x)))]

11、p2=fc[θ3_2(θ2_2(θ1(x)))]

12、p3=fc[θ3_3(θ2_3(θ1(x)))]

13、式中,x表示输入长尾图像,p1、p2和p3分别表示三个专家分支网络的逻辑输出,fc表示全连接层,用于将特征图转变为逻辑输出。

14、进一步,所述逻辑调整先验是通过图像的标签频率计算而来,模拟类别平衡分布;所述反向逻辑调整先验是通过反转图像类别数量分布后计算而来,模拟类别逆长尾分布;

15、三个专家分支网络的逻辑输出的调整过程表示为:

16、

17、式中,和分别表示三个专家分支网络调整后的逻辑输出,nc表示类别为c的长尾图像数量,n表示总长尾图像数量,表示图像类别数量分布反转后类别为c的长尾图像数量。

18、进一步,所述最终概率分布向量的生成过程表示为:

19、

20、of=o1×o2×o3

21、k=sum(of)

22、output=of/k

23、式中,o1、o2和o3分别表示三个专家分支网络的概率分布向量,softmax表示将逻辑输出转变为概率分布向量的函数,of表示三个概率分布向量逐个元素点乘后的融合概率分布向量,sum表示对向量内所有元素求和的函数,k为融合概率分布向量内部元素的和值,output表示最终概率分布向量。

24、进一步,所述改进sade网络的损失函数由三个专家分支网络的逻辑输出的预测损失以及网络对于长尾图像类别的最终预测损失组成,训练中的网络参数通过损失函数的梯度反传来自动更新,损失函数表示如下:

25、

26、式中,x、y分别表示输入长尾图像和标签,log为对数函数,d表示长尾图像训练数据集,λ表示超参数,l表示损失函数。

27、本发明与现有技术相比,具有如下优点与有益效果:

28、1、增强对少数类图像的识别能力。通过引入多个专家分支网络,并调整多专家分支网络的逻辑输出,提高网络在在各种长尾数据分布情况下的适应能力,通过多角度分析和学习,显著提高网络对少数类图像的识别率。

29、2、改善长尾图像识别的总体精确率和召回率。通过逻辑调整和融合的方法,不同专家分支网络的优势被集成到最终的决策中,这不仅提高了对少数类图像的召回率,还提升了对多数类图像的识别精确率,实现性能的整体优化。

30、3、减少过拟合风险。在传统单一模型中,为了适应少数类图像数据,模型可能会过度适应这些图像数据的特点,从而在更广泛或未见的数据上性能下降。多专家分支网络通过整合多种逻辑输出,拥有更好地泛化能力,并且能够减少对过拟合问题的发生。



技术特征:

1.基于深度学习多分支逻辑调整综合的长尾图像识别方法,其特征在于,该方法是基于改进sade网络实现长尾图像的有效识别,该改进sade网络为多分支特征提取网络,包含一个共享主干网络和三个并行的专家分支网络,并使用设计的多分支逻辑融合策略,其中,所述共享主干网络包含一个残差卷积模块,所述专家分支网络包含两个残差卷积模块,所述多分支逻辑融合策略是将逻辑输出转变为概率分布向量,然后归一化相容概率分布向量,通过综合多分支逻辑输出以提供更可靠的逻辑输出;

2.根据权利要求1所述的基于深度学习多分支逻辑调整综合的长尾图像识别方法,其特征在于,所述共享主干网络中残差卷积模块的参数表示为θ1,三个专家分支网络中每个专家分支网络的两个残差卷积模块的参数分别表示为θ2_1和θ3_1、θ2_2和θ3_2以及θ2_3和θ3_3;

3.根据权利要求2所述的基于深度学习多分支逻辑调整综合的长尾图像识别方法,其特征在于,所述逻辑调整先验是通过图像的标签频率计算而来,模拟类别平衡分布;所述反向逻辑调整先验是通过反转图像类别数量分布后计算而来,模拟类别逆长尾分布;

4.根据权利要求3所述的基于深度学习多分支逻辑调整综合的长尾图像识别方法,其特征在于,所述最终概率分布向量的生成过程表示为:

5.根据权利要求4所述的基于深度学习多分支逻辑调整综合的长尾图像识别方法,其特征在于,所述改进sade网络的损失函数由三个专家分支网络的逻辑输出的预测损失以及网络对于长尾图像类别的最终预测损失组成,训练中的网络参数通过损失函数的梯度反传来自动更新,损失函数表示如下:


技术总结
本发明公开了一种基于深度学习多分支逻辑调整综合的长尾图像识别方法,该方法是基于改进SADE网络实现长尾图像的有效识别,该改进SADE网络为多分支特征提取网络,包含一个共享主干网络和三个并行的专家分支网络,并使用设计的多分支逻辑融合策略,共享主干网络包含一个残差卷积模块,专家分支网络包含两个残差卷积模块,多分支逻辑融合策略是将逻辑输出转变为概率分布向量,然后归一化相容概率分布向量,通过综合多分支逻辑输出以提供更可靠的逻辑输出。本发明考虑长尾数据的特点,通过分化分支网络以及调整多专家分支网络的逻辑输出,提高网络对少数类样本的识别率,同时综合不同专家的逻辑输出到最终的决策中,从而提升网络的整体性能。

技术研发人员:许玉格,谢子轶
受保护的技术使用者:华南理工大学
技术研发日:
技术公布日:2024/9/29
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1