困难样本挖掘方法、装置、设备以及计算机可读存储介质与流程

文档序号：36478296发布日期：2023-12-25 04:19阅读：34来源：国知局

本技术属于计算机视觉，尤其涉及一种困难样本挖掘方法、装置、设备以及计算机可读存储介质。

背景技术：

1、随着科技的不断发展，机器学习模型已经在各行各业中得到广泛应用。

2、目前，为了提高用于图像处理的机器学习模型的性能，在对机器学习模型进行训练时，需要给予困难样本更多的重视以帮助机器学习模型更好地学习难以预测的情况，但是传统对困难样本进行挖掘的方式通常为机器学习模型在进行大规模数据的模型训练之后(即学习到复杂的特征表示之后)，继续进行模型训练的过程中，若机器学习模型基于输入的当前样本输出的预测结果不准确，则将当前样本作为困难样本，存在困难样本挖掘效率低的问题。

3、综上，如何提供一种困难样本挖掘策略，以提高困难样本挖掘的效率，已经成为计算机视觉技术领域亟待解决的技术问题。

技术实现思路

1、本技术的主要目的在于提供一种困难样本挖掘方法、装置、设备以及计算机可读存储介质。旨在提供一种困难样本挖掘策略，以提高困难样本挖掘的效率。

2、为了实现上述目的，本技术提供一种困难样本挖掘方法，所述困难样本挖掘方法包括以下步骤：

3、将待挖掘图像多次输入至稳定扩散模型得到各第一掩码图像集合，其中，所述第一掩码图像集合包括将所述待挖掘图像当次输入至所述稳定扩散模型后得到的多个掩码图像；

4、分别将各所述第一掩码图像集合输入至目标扩散模型，得到各所述第一掩码图像集合各自对应的第一预测掩码图像，其中，所述目标扩散模型为以训练样本图像对应的第二掩码图像集合为模型输入数据，以所述第二掩码图像集合中质量分数最高的第一目标掩码图像为模型训练标签进行训练得到，掩码图像的质量分数基于掩码图像和所述训练样本图像的真实掩码图像之间的交并比得到；

5、在各所述第一预测掩码图像的整体相似度小于预设阈值时，确定所述待挖掘图像为困难样本。

6、可选地，所述方法还包括：

7、获取训练样本集，其中，所述训练样本集中包括多条训练样本数据，一条训练样本数据包括一张训练样本图像对应的第二掩码图像集合，以及所述第二掩码图像集合中质量分数最高的第一目标掩码图像；

8、分别将各条训练样本数据中的第二掩码图像集合作为模型输入数据，将各条训练样本数据中的第一目标掩码图像作为模型训练标签，对预设的初始扩散模型进行训练得到所述目标扩散模型。

9、可选地，所述获取训练样本集的步骤，包括：

10、将训练样本图像输入至所述稳定扩散模型得到所述第二掩码图像集合；

11、计算所述第二掩码图像集合中各掩码图像各自的质量分数，并将所述第二掩码图像集合中质量分数最高的掩码图像确定为所述第一目标掩码图像；

12、基于所述第二掩码图像集合和所述第一目标掩码图像确定一条所述训练样本数据，基于多条所述训练样本数据构建所述训练样本集。

13、可选地，所述计算所述第二掩码图像集合中各掩码图像各自的质量分数的步骤，包括：

14、获取所述训练样本图像的真实掩码图像；

15、计算所述真实掩码图像与第一样本掩码图像之间的第一交并比，其中，所述第一样本掩码图像为所述第二掩码图像集合中的任意一个掩码图像；

16、将所述第一交并比确定为所述第一样本掩码图像的质量分数。

17、可选地，所述对预设的初始扩散模型进行训练得到所述目标扩散模型的步骤，包括：

18、将所述模型输入数据输入至预设的初始扩散模型得到第二预测掩码图像；

19、计算所述第二预测掩码图像和所述模型训练标签之间的损失；

20、基于所述损失对所述初始扩散模型的模型参数进行优化，得到目标扩散模型。

21、可选地，在所述在各所述第一预测掩码图像的整体相似度小于预设阈值时，确定所述待挖掘图像为困难样本的步骤之前，所述方法还包括：

22、分别计算各所述第一预测掩码图像中两两掩码图像之间的第二交并比；

23、将各所述第二交并比的平均值确定为各所述第一预测掩码图像的整体相似度。

24、可选地，所述方法还包括：

25、获取验证样本集，其中，所述验证样本集包含多条验证样本数据，一条验证样本数据包括一张验证样本图像对应的第三掩码图像集合，以及所述第三掩码图像集合中质量分数最高的第二目标掩码图像；

26、分别将各条所述验证样本数据中的第三掩码图像集合输入至所述目标扩散模型，得到各第三预测掩码图像；

27、分别计算各条所述验证样本数据各自对应的第二目标掩码图像和第三预测掩码图像之间的第三交并比；

28、基于各所述第三交并比的平均值确定所述预设阈值。

29、此外，为实现上述目的，本技术还提供一种困难样本挖掘装置，所述困难样本挖掘装置包括以下步骤：

30、第一模型计算模块，用于将待挖掘图像多次输入至稳定扩散模型得到各第一掩码图像集合，其中，所述第一掩码图像集合包括将所述待挖掘图像当次输入至所述稳定扩散模型后得到的多个掩码图像；

31、第二模型计算模块，用于分别将各所述第一掩码图像集合输入至目标扩散模型，得到各所述第一掩码图像集合各自对应的第一预测掩码图像，其中，所述目标扩散模型为以训练样本图像对应的第二掩码图像集合为模型输入数据，以所述第二掩码图像集合中质量分数最高的第一目标掩码图像为模型训练标签进行训练得到，掩码图像的质量分数基于掩码图像和所述训练样本图像的真实掩码图像之间的交并比得到；

32、样本判定模块，用于在各所述第一预测掩码图像的整体相似度小于预设阈值时，确定所述待挖掘图像为困难样本。

33、此外，为实现上述目的，本技术还提供一种困难样本挖掘设备，所述困难样本挖掘设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的困难样本挖掘程序，所述困难样本挖掘设备的困难样本挖掘程序被所述处理器执行时实现如上所述的困难样本挖掘方法的步骤。

34、此外，为实现上述目的，本技术还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有困难样本挖掘程序，所述困难样本挖掘程序被处理器执行时实现如上所述的困难样本挖掘方法的步骤。

35、本技术实施例通过将待挖掘图像多次输入至稳定扩散模型中，得到多个第一掩码图像集合，其中，第一掩码图像集合包括将待挖掘图像输入至稳定扩散模型后得到的多个掩码图像，分别将各第一掩码图像集合输入至目标扩散模型，得到目标扩散模型预测的每个第一掩码图像集合中与待挖掘图像的真实掩码图像整体相似度最高的掩码图像，即第一预测掩码图像，其中，目标扩散模型是以训练样本图像对应的第二掩码图像集合为模型输入数据，以第二掩码图像集合中质量分数最高的掩码图像(即第一目标掩码图像)为模型训练标签进行训练得到的，掩码图像的质量分数基于掩码图像和训练样本图像的真实掩码图像之间的交并比得到，然后在各第一预测掩码图像的整体相似度小于预设阈值时，确定待挖掘图像为困难样本。

36、如此，本技术利用稳定扩散模型可以基于输入的图像随机生成多个掩码图像的特性，得到待挖掘图像的多个掩码图像，并将待挖掘图像多次输入至稳定扩散模型得到多组掩码图像，将多组掩码图像作为判定待挖掘图像是否为困难样本的依赖基础，从而避免掩码图像的随机性对待挖掘图像判定结果的影响，然后基于预先训练好的目标扩散模型同时对多个掩码图像进行处理，得到目标扩散模型预测的每组掩码图像中最接近真实值的预测掩码图像，由于已知稳定扩散模型可以准确识别到简单样本中的像素特征，生成的掩码图像均相对准确，即掩码图像的整体相似度较高，所以在各预测掩码图像的整体相似度小于预设阈值时，确定各第一掩码图像集合整体的相似程度较低，从而确定待挖掘图像为困难样本，即实现对困难样本的挖掘，因此，相比于传统只能在模型训练过程中发现困难样本的挖掘方式，本技术使用稳定扩散模型和目标扩散模型实现对困难样本的挖掘，提高了困难样本挖掘的效率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张继靓刘明马明灿时坤陈勇
技术所有人：吉利汽车研究院（宁波）有限公司
我是此专利的发明人

上一篇：大容积氨燃料舱船舶的布置结构的制作方法
上一篇：电磁卸载阀的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。