一种内容标注方法和相关装置与流程

文档序号:25217511发布日期:2021-05-28 14:16阅读:来源:国知局

技术特征:

1.一种内容标注方法,其特征在于,所述方法包括:

获取待处理内容集合,所述待处理内容集合中的内容具有通过弱监督训练的模型所标注的待定标签;

根据所述待定标签的标签置信度,从所述待处理内容集合的内容中获取标签置信度满足第一阈值的第一目标内容,和标签置信度不满足所述第一阈值的第二目标内容;

将所述第一目标内容作为训练样本训练得到分类模型;

通过所述分类模型对第二目标内容进行标注,得到所述第二目标内容的候选标签;

根据所述第二目标内容的待定标签和候选标签,确定所述第二目标内容的实际标签。

2.根据权利要求1所述的方法,其特征在于,所述根据所述第二目标内容的待定标签和候选标签,确定所述第二目标内容的实际标签,包括:

确定所述第二目标内容的待定标签和候选标签的一致性;

响应于确定所述第二目标内容的待定标签和候选标签一致,将所述第二目标内容的候选标签作为所述第二目标内容的实际标签。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

确定所述第二目标内容的候选标签的标签置信度;

响应于确定所述第二目标内容的候选标签的标签置信度满足第二阈值,执行所述确定所述第二目标内容的待定标签和候选标签的一致性的操作。

4.根据权利要求2所述的方法,其特征在于,在所述确定所述第二目标内容的待定标签和候选标签的一致性之后,所述方法还包括:

响应于确定所述第二目标内容的待定标签和候选标签不一致,确定所述第二目标内容的候选标签的标签置信度;

响应于确定所述第二目标内容的候选标签的标签置信度满足第三阈值,将所述第二目标内容的候选标签作为所述第二目标内容的实际标签。

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

将确定了实际标签的所述第二目标内容作为训练样本对所述分类模型进行迭代训练;

通过迭代训练后的所述分类模型对未确定实际标签的所述第二目标内容重新标注候选标签,并执行所述根据所述第二目标内容的待定标签和候选标签,确定所述第二目标内容的实际标签的操作。

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

针对第n次获取的待处理内容集合,从所述第n次获取的待处理内容集合的内容中获取标签置信度满足所述第一阈值的第一目标内容,并作为训练样本迭代训练所述分类模型。

7.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:

将所述第一目标内容和确定了实际标签的所述第二目标内容确定为训练数据集;

根据所述训练数据集训练内容类型识别模型;

通过训练好的所述内容类型识别模型确定待识别内容的内容类型,所述待识别内容与所述待处理内容集合中的内容来自相同的数据垂直领域。

8.根据权利要求7所述的方法,其特征在于,所述方法还包括:

若通过所述内容类型识别模型确定所述待识别内容的内容类型为目标类型,在向用户推荐内容时,增加所述目标类型对应的内容的推荐权重。

9.根据权利要求1-6任意一项所述的方法,其特征在于,所述待定标签用于标识所述待处理内容集合中内容在最小划分粒度下的内容类别。

10.一种内容标注装置,其特征在于,所述装置包括:获取单元、训练单元、标注单元和确定单元;

所述获取单元,用于获取待处理内容集合,所述待处理内容集合中的内容具有通过弱监督训练的模型所标注的待定标签;

所述获取单元,还用于根据所述待定标签的标签置信度,从所述待处理内容集合的内容中获取标签置信度满足第一阈值的第一目标内容,和标签置信度不满足所述第一阈值的第二目标内容;

所述训练单元,用于将所述第一目标内容作为训练样本训练得到分类模型;

所述标注单元,用于通过所述分类模型对第二目标内容进行标注,得到所述第二目标内容的候选标签;

所述确定单元,用于根据所述第二目标内容的待定标签和候选标签,确定所述第二目标内容的实际标签。

11.根据权利要求10所述的装置,其特征在于,所述确定单元,用于:

确定所述第二目标内容的待定标签和候选标签的一致性;

响应于确定所述第二目标内容的待定标签和候选标签一致,将所述第二目标内容的候选标签作为所述第二目标内容的实际标签。

12.根据权利要求11所述的装置,其特征在于,所述确定单元,用于:

确定所述第二目标内容的候选标签的标签置信度;

响应于确定所述第二目标内容的候选标签的标签置信度满足第二阈值,执行所述确定所述第二目标内容的待定标签和候选标签的一致性的操作。

13.根据权利要求10所述的装置,其特征在于,在所述确定所述第二目标内容的待定标签和候选标签的一致性之后,所述确定单元,用于:

响应于确定所述第二目标内容的待定标签和候选标签不一致,确定所述第二目标内容的候选标签的标签置信度;

响应于确定所述第二目标内容的候选标签的标签置信度满足第三阈值,将所述第二目标内容的候选标签作为所述第二目标内容的实际标签。

14.一种计算机设备,其特征在于,所述设备包括处理器以及存储器:

所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

所述处理器用于根据所述程序代码中的指令执行权利要求1-9任意一项所述的方法。

15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-9任意一项所述的方法。


技术总结
本申请实施例公开了一种内容标注方法和相关装置,至少涉及人工智能中的机器学习,包括:获取待处理内容集合,待处理内容集合中的内容具有通过弱监督训练的模型所标注的待定标签;根据待定标签的标签置信度,从待处理内容集合的内容中获取标签置信度满足第一阈值的第一目标内容,和标签置信度不满足第一阈值的第二目标内容;将第一目标内容作为训练样本训练得到分类模型;通过分类模型对第二目标内容进行标注,得到第二目标内容的候选标签;根据第二目标内容的待定标签和候选标签,确定第二目标内容的实际标签。相关数据均可以保存在区块链中,通过大数据处理,确定待处理内容集合中的内容的实际标签,提高了第二目标内容的实际标签的准确性。

技术研发人员:朱灵子;马连洋
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2021.04.25
技术公布日:2021.05.28
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1