本发明涉及数据标注,特别涉及一种用于模型训练的训练数据的标注方法及装置。
背景技术:
1、随着人工智能技术的快速发展,机器学习模型对数据的需求日益增加。标注数据作为机器学习模型训练的基础,其质量和数量直接影响到模型的性能。然而,传统的数据标注方法存在明显的不足。一方面,人工标注需要耗费大量的人力、物力和时间,成本高昂;另一方面,标注质量受人为因素影响,难以保证一致性和准确性。
2、现有技术当中,通过基于无监督学习或半监督学习的数据标注方法。这些方法在一定程度上降低了标注成本,但往往牺牲了标注数据的准确性或模型的性能。因此,如何在降低标注成本的同时保证标注数据的质量,成为了一个亟待解决的问题。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种用于模型训练的训练数据的标注方法及装置,旨在解决现有技术中在进行数据标注时无法兼顾标注成本和标注质量的问题。
2、本发明实施例是这样实现的:
3、一种用于模型训练的训练数据的标注方法,所述方法包括:
4、获取初始数据集,从所述初始数据集当中按预设规则挑选出部分数据集,并对所述部分数据集进行初始标注得到初始标注数据集;
5、通过所述初始标注数据集进行模型训练得到基础模型;
6、利用预设策略对所述初始数据集的剩余的未标注数据进行标注得到新一批标注数据,后利用所述新一批标注数据对所述基础模型进行迭代训练。
7、进一步的,上述用于模型训练的训练数据的标注方法,其中,所述利用预设策略对所述初始数据集的剩余的未标注数据进行标注得到新一批标注数据的步骤包括:
8、利用所述基础模型对所述未标注数据进行预测,从所述未标注数据当中选择预测结果不确定的样本进行标注;
9、其中,所述预测结果不确定根据所述基础模型输出的概率分布、置信度或熵确定。
10、进一步的,上述用于模型训练的训练数据的标注方法,其中,所述利用预设策略对所述初始数据集的剩余的未标注数据进行标注得到新一批标注数据的步骤还包括:
11、计算所述未标注数据与已标注数据之间的相似度或距离确定所述未标注数据当中需要进行标注的数据,并对所述需要进行标注的数据进行标注得到新一批标注数据。
12、进一步的,上述用于模型训练的训练数据的标注方法,其中,所述利用预设策略对所述初始数据集的剩余的未标注数据进行标注得到新一批标注数据的步骤还包括:
13、计算所述未标注数据与已标注数据之间的相似度或距离确定所述未标注数据当中需要进行标注的数据;
14、利用所述基础模型对所述需要进行标注的数据进行预测,从所述需要进行标注的数据当中选择预测结果不确定的样本进行标注。
15、进一步的,上述用于模型训练的训练数据的标注方法,其中,所述利用所述新一批标注数据对所述基础模型进行迭代训练的步骤之后还包括:
16、对所述基础模型的性能进行评估,根据所述基础模型的性能评估结果,对所述预设策略进行调整。
17、进一步的,上述用于模型训练的训练数据的标注方法,其中,所述利用所述新一批标注数据对所述基础模型进行迭代训练的步骤之后还包括:
18、当满足预设的迭代终止条件,对所述基础模型终止训练;
19、其中,所述迭代终止条件包括当标注的数据量达到预设的阈值或者模型的性能达到预设的要求当中的任意一个。
20、本发明的另一个目的在于提供一种用于模型训练的训练数据的标注装置,所述装置包括:
21、获取模块,用于获取初始数据集,从所述初始数据集当中按预设规则挑选出部分数据集,并对所述部分数据集进行初始标注得到初始标注数据集;
22、训练模块,用于通过所述初始标注数据集进行模型训练得到基础模型;
23、标注模块,用于利用预设策略对所述初始数据集的剩余的未标注数据进行标注得到新一批标注数据,后利用所述新一批标注数据对所述基础模型进行迭代训练。
24、进一步的,上述用于模型训练的训练数据的标注装置,其中,所述标注模块包括:
25、第一标注单元,用于利用所述基础模型对所述未标注数据进行预测,从所述未标注数据当中选择预测结果不确定的样本进行标注;
26、其中,所述预测结果不确定根据所述基础模型输出的概率分布、置信度或熵确定。
27、本发明的另一个目的在于提供一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任意一项所述的方法的步骤。
28、本发明的另一个目的是提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法的步骤。
29、本发明通过获取初始数据集,从初始数据集当中按预设规则挑选出部分数据集,并对部分数据集进行初始标注得到初始标注数据集;通过初始标注数据集进行模型训练得到基础模型;利用预设策略对初始数据集的剩余的未标注数据进行标注得到新一批标注数据,后利用新一批标注数据对基础模型进行迭代训练,提升了效率和准确性,通过预设策略,模型能够自主选择最需要标注的数据,从而降低标注成本;同时,通过不断优化模型的训练,可以保证标注数据的质量和一致性。解决了现有技术中在进行数据标注时无法兼顾标注成本和标注质量的问题。
1.一种用于模型训练的训练数据的标注方法,其特征在于,所述方法包括:
2.根据权利要求1所述的用于模型训练的训练数据的标注方法,其特征在于,所述利用预设策略对所述初始数据集的剩余的未标注数据进行标注得到新一批标注数据的步骤包括:
3.根据权利要求1所述的用于模型训练的训练数据的标注方法,其特征在于,所述利用预设策略对所述初始数据集的剩余的未标注数据进行标注得到新一批标注数据的步骤还包括:
4.根据权利要求3所述的用于模型训练的训练数据的标注方法,其特征在于,所述利用预设策略对所述初始数据集的剩余的未标注数据进行标注得到新一批标注数据的步骤还包括:
5.根据权利要求1所述的用于模型训练的训练数据的标注方法,其特征在于,所述利用所述新一批标注数据对所述基础模型进行迭代训练的步骤之后还包括:
6.根据权利要求1所述的用于模型训练的训练数据的标注方法,其特征在于,所述利用所述新一批标注数据对所述基础模型进行迭代训练的步骤之后还包括:
7.一种用于模型训练的训练数据的标注装置,其特征在于,所述装置包括:
8.根据权利要求7所述的用于模型训练的训练数据的标注装置,其特征在于,所述标注模块包括:
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至6中任意一项所述的方法的步骤。
10.一种电子设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法的步骤。