本申请涉及计算机,具体而言,涉及一种训练数据集获得方法、装置、电子设备及可读存储介质。
背景技术:
1、深度学习模型的训练需要大量的带标签的数据。目前,一般是人工对待标注数据进行标注,以得到大量的带标签的数据,进而根据大量的带标签的数据训练得到重量级模型。然而,这种人工标注的方式,耗时耗力。
技术实现思路
1、本申请实施例提供了一种训练数据集获得方法、装置、电子设备及可读存储介质,其可以缓解数据标注时的人力消耗问题,并且通过对预标注模型输出的原始结果进行锐化,可提高预标注模型对低质量数据的倾向性,从而提高预标注模型对于低质量数据的预测结果的置信度,以便于获得丰富的训练数据。
2、本申请的实施例可以这样实现:
3、第一方面,本实施例提供一种训练数据集获得方法,所述方法包括:
4、通过预标注模型获得第一待标注数据对应的第一预测信息,其中,所述第一预测信息中包括所述第一待标注数据被标记为多个类别中的每一类别的第一置信度;
5、根据预设锐化策略,对所述第一预测信息中的多个第一置信度进行处理,得到第二预测信息;
6、根据所述第二预测信息得到目标标注信息,其中,所述目标标注信息中的目标类别为所述第二预测信息中最大的第二置信度对应的类别;
7、根据所述目标类别对应的置信度是否大于预设置信度,确定是否将所述第一待标注数据及所述目标标注信息添加至训练数据集中。
8、第二方面,本申请实施例提供一种训练数据集获得装置,所述装置包括:
9、初始结果获得模块,用于通过预标注模型获得第一待标注数据对应的第一预测信息,其中,所述第一预测信息中包括所述第一待标注数据被标记为多个类别中的每一类别的第一置信度;
10、锐化模块,用于根据预设锐化策略,对所述第一预测信息中的多个第一置信度进行处理,得到第二预测信息;
11、标注模块,用于根据所述第二预测信息得到目标标注信息,其中,所述目标标注信息中的目标类别为所述第二预测信息中最大的第二置信度对应的类别;
12、筛选模块,用于根据所述目标类别对应的置信度是否大于预设置信度,确定是否将所述第一待标注数据及所述目标标注信息添加至训练数据集中。
13、第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式所述的训练数据集获得方法。
14、第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式所述的训练数据集获得方法。
15、本申请实施例提供的训练数据集获得方法、装置、电子设备及可读存储介质,首先利用预标注模型获得第一待标注数据的第一预测信息,该第一预测信息中包括第一待标注数据被标记为多个类别中的每一类别的第一置信度;之后,基于预设锐化策略,对第一预测信息中的多个第一置信度进行锐化处理,得到第二预测信息,该第二预测信息中包括与多个第一置信度对应的多个第二置信度;接着,根据第二预测信息中的各第二置信度,确定第一待标注信息对应的目标标注信息,该目标标注信息包括目标类别,该目标类别为多个第二置信度中的最大的第二置信度对应的类别;最后,根据目标类别对应的置信度是否大于预设置信度,确定是否将该第一待标注数据及对应的目标标注信息添加至训练数据集中。如此,无需对大量数据中的每条数据分别进行人为标注,即可获得训练数据集,可缓解数据标注时的人力消耗问题;并且,通过对预标注模型输出的原始结果进行锐化,可提高预标注模型对低质量数据的倾向性,从而提高预标注模型对于低质量数据的预测结果的置信度,以便于获得丰富的训练数据。
1.一种训练数据集获得方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据预设锐化策略,对所述第一预测信息中的多个第一置信度进行处理,得到第二预测信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据预设锐化策略,对所述第一预测信息中的多个第一置信度进行处理,得到第二预测信息,包括:
4.根据权利要求1-3中任意一项所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1-3中任意一项所述的方法,其特征在于,所述第一待标注数据为图像数据或文本数据。
6.一种训练数据集获得装置,其特征在于,所述装置包括:
7.根据权利要求6所述的装置,其特征在于,所述锐化模块具体用于:
8.根据权利要求6所述的装置,其特征在于,所述锐化模块具体用于:
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现权利要求1-5中任意一项所述的训练数据集获得方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任意一项所述的训练数据集获得方法。