训练数据处理方法、装置及相关设备与流程

文档序号:37891423发布日期:2024-05-09 21:35阅读:11来源:国知局
训练数据处理方法、装置及相关设备与流程

本申请涉及数据处理,尤其涉及训练数据处理方法、装置及相关设备。


背景技术:

1、目前,对一些业务模型的训练数据的质量进行检测时,通常是人工根据自身的理解对训练数据进行质检和标注。

2、发明人在实践过程中发现,不同人员对训练数据的数据质量的要求标准不同,难以对质检结果进行标准统一,可能需要花费较多时间进行重复质检,并且,一旦训练数据的数量较多,则会耗费大量时间对训练数据的质量进行检测,以至于对训练数据进行数据质检的效率较低。


技术实现思路

1、本申请实施例提供了一种训练数据处理方法、装置及相关设备,能够通过多维质检模型对训练数据进行多维度的数据质检,有助于提升对训练数据进行数据质检的效率。

2、本申请实施例一方面提供了一种训练数据处理方法,方法包括:

3、获取用于训练业务模型的训练数据集,基于训练数据集,确定待进行数据质检的待处理数据集;

4、获取用于对待处理数据集进行数据质检的多维质检模型;多维质检模型是指由与n个质检维度相关联的n个质检子模型所确定的质检模型,n为正整数,一个质检维度对应一个质检子模型;

5、将待处理数据集输入n个质检子模型中的每个质检子模型,由每个质检子模型对待处理数据集进行数据质检,得到待处理数据集在各个质检维度下的数据质检结果;

6、基于待处理数据集在各个质检维度下的数据质检结果,对训练数据集进行数据清洗;数据清洗后的训练数据集用于确定训练业务模型的训练样本数据。

7、本申请实施例一种训练数据处理装置,装置包括:

8、数据集获取模块,用于获取用于训练业务模型的训练数据集,基于训练数据集,确定待进行数据质检的待处理数据集;

9、模型获取模块,用于获取用于对待处理数据集进行数据质检的多维质检模型;多维质检模型是指由与n个质检维度相关联的n个质检子模型所确定的质检模型,n为正整数,一个质检维度对应一个质检子模型;

10、数据质检模块,用于将待处理数据集输入n个质检子模型中的每个质检子模型,由每个质检子模型对待处理数据集进行数据质检,得到待处理数据集在各个质检维度下的数据质检结果;

11、数据清洗模块,用于基于待处理数据集在各个质检维度下的数据质检结果,对训练数据集进行数据清洗;数据清洗后的训练数据集用于确定训练业务模型的训练样本数据。

12、本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例所提供的方法。

13、本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例所提供的方法。

14、在本申请实施例中,能够通过多维质检模型所包括的各个质检维度的质检子模型对待处理数据集进行数据质检,能够实现对训练数据进行数据质检的自动化,有助于提升对训练数据进行数据质检的效率。另外,在进行数据质检时,可以对多个质检维度进行数据质检,避免单一模型难以准确识别多维度的质量问题的现象,从而提升对训练数据进行数据质检的准确性。



技术特征:

1.一种训练数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述训练数据集包括第一类训练数据集;

3.根据权利要求2所述的方法,其特征在于,所述第一类训练数据集包括至少一个训练数据子集,所述至少一个训练数据子集中的每个训练数据子集下包括至少一条训练数据;

4.根据权利要求1所述的方法,其特征在于,所述训练数据集包括第一类训练数据集;

5.根据权利要求4所述的方法,其特征在于,所述n个质检维度中包括目标质检维度;所述目标质检维度下的数据质检结果包括所述待处理数据集中的各个训练数据在所述目标质检维度下的数据质检子结果;

6.根据权利要求1所述的方法,其特征在于,所述训练数据集包括第二类训练数据集;

7.根据权利要求1所述的方法,其特征在于,所述训练数据集包括第二类训练数据集;所述n个质检维度中包括目标质检维度;所述目标质检维度下的数据质检结果包括所述待处理数据集中的各个训练数据在所述目标质检维度下的数据质检子结果;

8.根据权利要求1所述的方法,其特征在于,所述n个质检维度包括以下一项或多项:针对水印信息的质检维度、针对噪音信息的质检维度、针对敏感信息的质检维度、针对格式的质检维度、针对语义的质检维度。

9.根据权利要求1所述的方法,其特征在于,所述n个质检维度中的目标质检维度包括至少一个质检子维度;与所述目标质检维度相关联的质检子模型是由与所述至少一个质检子维度相关联的至少一个二级质检子模型所确定的,一个质检子维度对应一个二级质检子模型;

10.根据权利要求1所述的方法,其特征在于,所述训练数据集中包括多个层级的训练数据子集;所述多个层级的训练数据子集中包括第一层级训练数据子集和所述第一层级训练数据子集下的第二层级训练数据子集;

11.根据权利要求10所述的方法,其特征在于,所述方法还包括:

12.根据权利要求1所述的方法,其特征在于,所述n个质检维度包括目标质检维度,所述n个质检子模型中包括与所述目标质检维度相关联的目标质检子模型;

13.根据权利要求1所述的方法,其特征在于,所述训练数据集中包括第一类训练数据集,所述第一类训练数据集存储于训练数据库中;

14.根据权利要求1所述的方法,其特征在于,所述训练数据集中包括第一类训练数据集和第二类训练数据集,所述第一类训练数据集存储于训练数据库中;

15.一种训练数据处理装置,其特征在于,所述装置包括:

16.一种计算机设备,其特征在于,包括存储器和处理器;

17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-14任一项所述的方法。

18.一种计算机程序产品,其特征在于,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-14任一项所述的方法。


技术总结
本申请实施例公开了训练数据处理方法、装置及相关设备,可应用于数据处理技术领域。其中方法包括:获取用于训练业务模型的训练数据集,基于训练数据集,确定待进行数据质检的待处理数据集;获取用于对待处理数据集进行数据质检的多维质检模型;将待处理数据集输入N个质检子模型中的每个质检子模型,由每个质检子模型对待处理数据集进行数据质检,得到待处理数据集在各个质检维度下的数据质检结果;基于待处理数据集在各个质检维度下的数据质检结果,对训练数据集进行数据清洗。采用本申请实施例,有助于提升对训练数据进行数据质检的效率。本申请实施例可以应用于大模型技术领域中。

技术研发人员:刘星锋,张纪红,肖邱勇,曹凯博,叶政
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/5/8
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1