困难样本挖掘方法、装置、设备及其存储介质与流程

文档序号:37052410发布日期:2024-02-20 20:52阅读:16来源:国知局
困难样本挖掘方法、装置、设备及其存储介质与流程

本申请涉及数据挖掘,尤其涉及一种困难样本挖掘方法、装置、设备及其存储介质。


背景技术:

1、在训练预测模型时,困难样本的作用往往大于简单样本。在预测模型的训练过程中,即便是大量的简单样本都很难对预测模型的预测精度带来大幅度提升,而困难样本往往会给预测模型的预测精度带来较大幅度的提升。因此,如何从大量的样本中挖掘出困难样本至关重要。

2、在相关技术中,困难样本的挖掘方法通常是通过对预测模型输入对抗样本,使模型在这些对抗样本上预测错误,进而通过分析预测错误的样本实现困难样本的挖掘。但是生成有效且具有欺骗能力的对抗样本通常需要耗费大量的计算资源和时间成本,进而导致困难样本的挖掘效率较低,计算资源耗费较大。

3、上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本申请的主要目的在于提供一种困难样本挖掘方法、装置、设备及其存储介质,旨在解决常规的困难样本挖掘存在的挖掘效率低,计算资源耗费较大的技术问题。

2、为实现上述目的,本申请提供一种困难样本挖掘方法,所述困难样本挖掘方法包括:

3、将至少一个目标样本输入预测模型,得到各所述目标样本各自对应的至少一个特征置信度;

4、对各所述目标样本各自对应的特征置信度进行评估,确定各所述目标样本各自对应的目标样本置信度;

5、基于所述目标样本置信度,从各所述目标样本中确定困难样本。

6、可选地,所述目标样本为图像样本,所述特征置信度为所述图像样本中各像素点对应的像素点置信度,所述对各所述目标样本各自对应的特征置信度进行聚合,确定各所述目标样本各自对应的目标样本置信度的步骤包括:

7、将各所述目标样本分别划分为预设数量的像素块,其中,各所述像素块中包括至少两个像素点;

8、对各所述目标样本各自对应的像素点置信度进行评估,确定各所述目标样本各自包含的目标像素块的像素块置信度;

9、对各所述目标样本各自包含的目标像素块的像素块置信度进行评估,确定各所述目标样本各自对应的目标样本置信度。

10、可选地,所述像素块置信度为各所述像素块所包含的目标像素点的像素点置信度的均值,所述对各所述目标样本各自包含的目标像素块的像素块置信度进行评估,确定各所述目标样本各自对应的目标样本置信度的步骤包括:

11、将各所述目标样本各自包含的目标像素块的像素块置信度的方差,确定为各所述目标样本各自对应的目标样本置信度。

12、可选地,所述像素块置信度为各所述像素块所包含的目标像素点的像素点置信度的方差,所述对各所述目标样本各自对应的特征置信度进行聚合,确定各所述目标样本各自对应的目标样本置信度的步骤包括:

13、将各所述目标样本各自包含的目标像素块的像素块置信度的均值,确定为各所述目标样本各自对应的目标样本置信度。

14、可选地,所述像素块置信度包括第一像素块置信度和第二像素块置信度,所述第一像素块置信度为各所述像素块所包含的目标像素点的像素点置信度的均值,所述第二像素块置信度为各所述像素块所包含的目标像素点的像素点置信度的方差,所述对各所述目标样本各自对应的特征置信度进行聚合,确定各所述目标样本各自对应的样本置信度的步骤包括:

15、将各所述目标样本各自包含的目标像素块的第一像素块置信度的方差,确定为各所述目标样本各自对应的第一样本置信度;

16、将各所述目标样本各自包含的目标像素块的第二像素块置信度的均值,确定为各所述目标样本各自对应的第二样本置信度;

17、对各所述目标样本各自对应的第一样本置信度和第二样本置信度进行加权聚合,并将得到的加权聚合结果确定为各所述目标样本各自对应的目标样本置信度。

18、可选地,所述将至少一个目标样本输入预测模型,得到各所述目标样本各自对应的至少一个特征置信度的步骤包括:

19、将至少一个所述目标样本输入所述预测模型,得到各所述目标样本所包含的至少一个特征值对应的最大特征概率值;

20、对各所述目标样本各自对应的最大特征概率值进行归一化处理,得到各所述目标样本各自对应的特征置信度。

21、可选地,所述基于所述目标样本置信度,从各所述目标样本中确定困难样本的步骤包括:

22、获取预设的困难样本比例;

23、根据各所述目标样本各自对应的目标样本置信度的大小,从所述目标样本中筛选出所述困难样本比例的目标样本,以作为所述困难样本。

24、本申请还提供一种困难样本挖掘装置,所述困难样本挖掘装置包括:

25、输入模块,用于将至少一个目标样本输入预测模型,得到各所述目标样本各自对应的至少一个特征置信度;

26、聚合模块,用于对各所述目标样本各自对应的特征置信度进行评估,确定各所述目标样本各自对应的目标样本置信度;

27、确定模块,用于基于所述目标样本置信度,从各所述目标样本中确定困难样本。

28、本申请还提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的困难样本挖掘程序,所述困难样本挖掘程序配置为实现上述的困难样本挖掘方法的步骤。

29、本申请还提供一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有困难样本挖掘程序,所述困难样本挖掘程序被处理器执行以实现上述的困难样本挖掘方法的步骤。

30、本申请公开了一种困难样本挖掘方法,通过将至少一个目标样本输入预测模型,得到各所述目标样本各自对应的至少一个特征置信度;进而对各所述目标样本各自对应的特征置信度进行评估,确定各所述目标样本各自对应的目标样本置信度;进而基于所述目标样本置信度,从各所述目标样本中确定困难样本,实现对困难样本的快速挖掘。本申请基于预测模型自动输出的针对目标样本的预测置信度和/或概率值进行困难样本的挖掘,无需再耗费大量的计算资源和时间成本构建额外的对抗样本,节省了困难样本挖掘所需的计算资源,降低了计算复杂度,并能够在模型训练过程中,实现困难样本的同步挖掘,提升困难样本的挖掘效率。由于困难样本可以理解为一种模型处理不好的样本,进而模型对困难样本进行预测后所得到的各特征值的特征置信度可能较低和/或特征置信度之间存在较大差异。因此,通过对各目标样本各自对应的特征置信度进行评估而得到的目标样本置信度,能够反映预测模型对目标样本的预测情况,从而筛选出预测模型处理不好的样本,即困难样本;从而提升了困难样本挖掘的准确率。



技术特征:

1.一种困难样本挖掘方法,其特征在于,所述困难样本挖掘方法包括以下步骤:

2.如权利要求1所述的困难样本挖掘方法,其特征在于,所述目标样本为图像样本,所述特征置信度为所述图像样本中各像素点对应的像素点置信度,所述对各所述目标样本各自对应的特征置信度进行聚合,确定各所述目标样本各自对应的目标样本置信度的步骤包括:

3.如权利要求2所述的困难样本挖掘方法,其特征在于,所述像素块置信度为各所述像素块所包含的目标像素点的像素点置信度的均值,所述对各所述目标样本各自包含的目标像素块的像素块置信度进行评估,确定各所述目标样本各自对应的目标样本置信度的步骤包括:

4.如权利要求2所述的困难样本挖掘方法,其特征在于,所述像素块置信度为各所述像素块所包含的目标像素点的像素点置信度的方差,所述对各所述目标样本各自对应的特征置信度进行聚合,确定各所述目标样本各自对应的目标样本置信度的步骤包括:

5.如权利要求2所述的困难样本挖掘方法,其特征在于,所述像素块置信度包括第一像素块置信度和第二像素块置信度,所述第一像素块置信度为各所述像素块所包含的目标像素点的像素点置信度的均值,所述第二像素块置信度为各所述像素块所包含的目标像素点的像素点置信度的方差,所述对各所述目标样本各自对应的特征置信度进行聚合,确定各所述目标样本各自对应的样本置信度的步骤包括:

6.如权利要求1-5中任一项所述的困难样本挖掘方法,其特征在于,所述将至少一个目标样本输入预测模型,得到各所述目标样本各自对应的至少一个特征置信度的步骤包括:

7.如权利要求1-5中任一项所述的困难样本挖掘方法,其特征在于,所述基于所述目标样本置信度,从各所述目标样本中确定困难样本的步骤包括:

8.一种困难样本挖掘装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的困难样本挖掘程序,所述困难样本挖掘程序配置为实现如权利要求1至7中任一项所述的困难样本挖掘方法的步骤。

10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质上存储有困难样本挖掘程序,所述困难样本挖掘程序被处理器执行时实现如权利要求1至7任一项所述的困难样本挖掘方法的步骤。


技术总结
本申请公开了一种困难样本挖掘方法、装置、设备及其存储介质,属于数据挖掘技术领域。所述困难样本挖掘方法包括:将至少一个目标样本输入预测模型,得到各所述目标样本各自对应的至少一个特征置信度;对各所述目标样本各自对应的特征置信度进行评估,确定各所述目标样本各自对应的目标样本置信度;基于所述目标样本置信度,从各所述目标样本中确定困难样本。本申请解决了常规的困难样本挖掘存在的挖掘效率低,计算资源耗费较大的技术问题。

技术研发人员:谭亚,时坤,刘明,马明灿,陈勇
受保护的技术使用者:浙江吉利控股集团有限公司
技术研发日:
技术公布日:2024/2/19
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1