训练数据集获得方法、装置、电子设备及可读存储介质与流程

文档序号：37720385发布日期：2024-04-23 11:55阅读：25来源：国知局

本申请涉及计算机，具体而言，涉及一种训练数据集获得方法、装置、电子设备及可读存储介质。

背景技术：

1、深度学习模型的训练需要大量的带标签的数据。目前，一般是人工对待标注数据进行标注，以得到大量的带标签的数据，进而根据大量的带标签的数据训练得到重量级模型。然而，这种人工标注的方式，耗时耗力。

技术实现思路

1、本申请实施例提供了一种训练数据集获得方法、装置、电子设备及可读存储介质，其可以缓解数据标注时的人力消耗问题，并且通过对预标注模型输出的原始结果进行锐化，可提高预标注模型对低质量数据的倾向性，从而提高预标注模型对于低质量数据的预测结果的置信度，以便于获得丰富的训练数据。

2、本申请的实施例可以这样实现：

3、第一方面，本实施例提供一种训练数据集获得方法，所述方法包括：

4、通过预标注模型获得第一待标注数据对应的第一预测信息，其中，所述第一预测信息中包括所述第一待标注数据被标记为多个类别中的每一类别的第一置信度；

5、根据预设锐化策略，对所述第一预测信息中的多个第一置信度进行处理，得到第二预测信息；

6、根据所述第二预测信息得到目标标注信息，其中，所述目标标注信息中的目标类别为所述第二预测信息中最大的第二置信度对应的类别；

7、根据所述目标类别对应的置信度是否大于预设置信度，确定是否将所述第一待标注数据及所述目标标注信息添加至训练数据集中。

8、第二方面，本申请实施例提供一种训练数据集获得装置，所述装置包括：

9、初始结果获得模块，用于通过预标注模型获得第一待标注数据对应的第一预测信息，其中，所述第一预测信息中包括所述第一待标注数据被标记为多个类别中的每一类别的第一置信度；

10、锐化模块，用于根据预设锐化策略，对所述第一预测信息中的多个第一置信度进行处理，得到第二预测信息；

11、标注模块，用于根据所述第二预测信息得到目标标注信息，其中，所述目标标注信息中的目标类别为所述第二预测信息中最大的第二置信度对应的类别；

12、筛选模块，用于根据所述目标类别对应的置信度是否大于预设置信度，确定是否将所述第一待标注数据及所述目标标注信息添加至训练数据集中。

13、第三方面，本申请实施例提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现前述实施方式所述的训练数据集获得方法。

14、第四方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述实施方式所述的训练数据集获得方法。

15、本申请实施例提供的训练数据集获得方法、装置、电子设备及可读存储介质，首先利用预标注模型获得第一待标注数据的第一预测信息，该第一预测信息中包括第一待标注数据被标记为多个类别中的每一类别的第一置信度；之后，基于预设锐化策略，对第一预测信息中的多个第一置信度进行锐化处理，得到第二预测信息，该第二预测信息中包括与多个第一置信度对应的多个第二置信度；接着，根据第二预测信息中的各第二置信度，确定第一待标注信息对应的目标标注信息，该目标标注信息包括目标类别，该目标类别为多个第二置信度中的最大的第二置信度对应的类别；最后，根据目标类别对应的置信度是否大于预设置信度，确定是否将该第一待标注数据及对应的目标标注信息添加至训练数据集中。如此，无需对大量数据中的每条数据分别进行人为标注，即可获得训练数据集，可缓解数据标注时的人力消耗问题；并且，通过对预标注模型输出的原始结果进行锐化，可提高预标注模型对低质量数据的倾向性，从而提高预标注模型对于低质量数据的预测结果的置信度，以便于获得丰富的训练数据。

技术特征：

1.一种训练数据集获得方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据预设锐化策略，对所述第一预测信息中的多个第一置信度进行处理，得到第二预测信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据预设锐化策略，对所述第一预测信息中的多个第一置信度进行处理，得到第二预测信息，包括：

4.根据权利要求1-3中任意一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-3中任意一项所述的方法，其特征在于，所述第一待标注数据为图像数据或文本数据。

6.一种训练数据集获得装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述锐化模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述锐化模块具体用于：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现权利要求1-5中任意一项所述的训练数据集获得方法。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任意一项所述的训练数据集获得方法。

技术总结
本申请的实施例提供了一种训练数据集获得方法、装置、电子设备及可读存储介质，涉及计算机技术领域。该方法包括：通过预标注模型获得第一待标注数据对应的第一预测信息，第一预测信息中包括所述第一待标注数据被标记为多个类别中的每一类别的第一置信度；根据预设锐化策略，对第一预测信息中的多个第一置信度进行处理，得到第二预测信息；根据第二预测信息得到目标标注信息，目标标注信息中的目标类别为第二预测信息中最大的第二置信度对应的类别；根据目标类别对应的置信度是否大于预设置信度，确定是否将第一待标注数据及目标标注信息添加至训练数据集中。如此，可缓解数据标注时的人力消耗问题，并且可获得丰富的训练数据。

技术研发人员：王侃,胡淑萍,董培,庞建新,谭欢
受保护的技术使用者：深圳市优必选科技股份有限公司
技术研发日：
技术公布日：2024/4/22

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王侃,胡淑萍,董培,庞建新,谭欢
技术所有人：深圳市优必选科技股份有限公司
我是此专利的发明人

上一篇：一种市政道路桥梁路面养护装置及养护方法与流程
上一篇：一种光模块总线管理电路和方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。