数据标注、数据生成方法、装置、设备及存储介质与流程

文档序号:36065027发布日期:2023-11-17 22:11阅读:29来源:国知局
数据标注、数据生成方法、装置、设备及存储介质与流程

本公开涉及机器学习,尤其涉及数据标注、数据生成方法、装置、设备及存储介质。


背景技术:

1、在机器学习领域中,数据标注是非常重要的一步,它为算法和模型提供了有监督学习所需的训练数据。具体的,数据标注是在数据上添加标签的过程,数据可以是图像、文本文件、视频等等,数据的标签则表征了数据的一些特定属性。

2、目前,数据标注工作仍然需要依靠人工进行,需要大量的时间和人力资源。并且,对于一些具有一定长度的数据,例如音频、视频或图像等等,人工标注时通常只能对数据整体标注出标签,标注结果的准确度不高;若要求人工进行细粒度的标注,效率低下且成本高昂。


技术实现思路

1、为克服相关技术中存在的问题,本公开提供了数据标注、数据生成方法、装置、设备及存储介质。

2、根据本说明书实施例的第一方面,提供一种数据标注方法,所述方法包括:

3、针对第一类数据进行数据分片处理,得到与所述第一类数据对应的n个数据分片,并提取所述n个数据分片中的各个数据分片的分片特征;

4、从与第二类数据对应的数据特征库中,获取与所述n个数据分片中的各个数据分片的分片特征的相似度满足预设条件的数据特征集合,得到与所述n个数据分片对应的n个数据特征集合;其中,所述数据特征库包括从若干第二类数据中提取到的数据特征;

5、分别统计所述n个数据特征集合中的各个数据特征集合中的数据特征,在所述n个数据特征集合中的出现次数,并基于所述出现次数最多的一个或者多个数据特征对应的第二类数据,针对所述第一类数据进行数据标注。

6、根据本说明书实施例的第二方面,提供一种数据生成方法,所述方法包括:

7、获取用于生成第一类数据的第二类数据;

8、将所述第二类数据输入预设的预训练模型;其中,用于训练所述预训练模型的训练样本为通过第一方面所述的数据标注方法得到的第一类数据;

9、获取所述预训练模型基于输入的所述第二类数据生成的第一类数据。

10、根据本说明书实施例的第三方面,提供一种数据标注装置,所述装置包括:

11、分片模块,用于:针对第一类数据进行数据分片处理,得到与所述第一类数据对应的n个数据分片,并提取所述n个数据分片中的各个数据分片的分片特征;

12、获取模块,用于:从与第二类数据对应的数据特征库中,获取与所述n个数据分片中的各个数据分片的分片特征的相似度满足预设条件的数据特征集合,得到与所述n个数据分片对应的n个数据特征集合;其中,所述数据特征库包括从若干第二类数据中提取到的数据特征;

13、标注模块,用于:分别统计所述n个数据特征集合中的各个数据特征集合中的数据特征,在所述n个数据特征集合中的出现次数,并基于所述出现次数最多的一个或者多个数据特征对应的第二类数据,针对所述第一类数据进行数据标注。

14、根据本说明书实施例的第四方面,提供一种数据生成装置,所述装置包括:

15、第一获取模块,用于:获取用于生成第一类数据的第二类数据;

16、输入模块,用于:将所述第二类数据输入预设的预训练模型;其中,用于训练所述预训练模型的训练样本为通过第一方面所述的数据标注方法得到的第一类数据;

17、第二获取模块,用于:获取所述预训练模型基于输入的所述第二类数据生成的第一类数据。

18、根据本说明书实施例的第五方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现前述第一方面或第二方面所述方法实施例的步骤。

19、根据本说明书实施例的第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述第一方面或第二方面所述方法实施例的步骤。

20、本说明书的实施例提供的技术方案可以包括以下有益效果:

21、本说明书实施例中,对第一类数据进行数据分片处理得到多个数据分片,实现了对第一类数据的精细化处理;对数据分片提取分片特征,并通过第二类数据对应的数据特征库,利用分片特征与数据特征的相似度,得到与每个分片特征相似的数据特征集合;最后通过统计数据特征在n个数据特征集合的出现次数,出现次数越多,表明这个数据特征与第一类数据越相关,数据特征对应的第二类数据与第一类数据的关联度越高。如此,本实施例通过分片特征和数据特征的相似度,实现了对第一类数据的精细化的自动标注,提高了标注效率,降低标注成本。

22、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。



技术特征:

1.一种数据标注方法,所述方法包括:

2.根据权利要求1所述的方法,所述第一类数据用于作为训练样本训练预训练模型;所述预训练模型用于基于输入的第二类数据生成第一类数据。

3.根据权利要求1所述的方法,所述从与第二类数据对应的数据特征库中,获取与所述n个数据分片中的各个数据分片的分片特征的相似度满足预设条件的数据特征集合,包括:

4.根据权利要求1所述的方法,所述相似度采用所述分片特征对应的特征向量,与数据特征对应的特征向量之间的向量距离来表征。

5.根据权利要求1所述的方法,所述第一类数据为音频数据,所述针对第一类数据进行数据分片处理,包括:

6.根据权利要求1所述的方法,所述分片特征是通过特征提取模型对所述数据分片提取到的,所述数据特征是通过所述特征提取模型对所述第二类数据提取到的。

7.根据权利要求6所述的方法,所述特征提取模型基于携带标签的若干第一类数据样本进行有监督训练得到;所述标签为一条或者多条所述第二类数据样本。

8.根据权利要求2所述的方法,所述第一类数据为媒体文件,所述第二类数据为文本;所述预训练模型用于基于输入的文本生成媒体文件。

9.根据权利要求8所述的方法,所述媒体文件包括音频、图片、视频中的任一。

10.一种数据生成方法,所述方法包括:

11.一种数据标注装置,所述装置包括:

12.一种数据生成装置,所述装置包括:

13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1至10任一所述方法的步骤。

14.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至10任一所述方法的步骤。


技术总结
本公开提供一种数据标注、数据生成方法、装置、设备及存储介质,针对第一类数据进行数据分片处理,得到与第一类数据对应的N个数据分片,并提取N个数据分片中的各个数据分片的分片特征;从与第二类数据对应的数据特征库中,获取与N个数据分片中的各个数据分片的分片特征的相似度满足预设条件的数据特征集合,得到与N个数据分片对应的N个数据特征集合;分别统计N个数据特征集合中的各个数据特征集合中的数据特征,在N个数据特征集合中的出现次数,并基于出现次数最多的一个或者多个数据特征对应的第二类数据,针对第一类数据进行数据标注。

技术研发人员:朱志海
受保护的技术使用者:蚂蚁区块链科技(上海)有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1