数据标注方法及装置与流程

文档序号:23727981发布日期:2021-01-26 17:57阅读:来源:国知局

技术特征:
1.一种数据标注方法,其特征在于,所述方法包括:采用规则模型,对第一样本集中的n个第一样本中的目标样本进行标注,得到所述目标样本的标注类别;所述规则模型包括:至少一个标注规则,每个标注规则对应一个标注类别;对所述目标样本的标注类别进行循环校验,以调整所述目标样本的标注类别对应的目标标注规则,直至所述目标样本的校验结果满足预设条件;采用第二样本集对预设文本分类模型进行训练,得到第一文本分类模型;其中,所述第一文本分类模型为训练后的预设文本分类模型;所述第二样本集包括:所述第一样本集中已标注的第一样本。2.根据权利要求1所述的方法,其特征在于,所述对所述目标样本的标注类别进行循环校验,以调整所述目标样本的标注类别对应的目标标注规则,直至所述目标样本的校验结果满足预设条件,包括:采用所述目标样本的文本主题,对所述目标样本的标注类别进行校验,得到校验结果;所述校验结果用于指示所述目标样本的文本主题与所述目标样本的标注类别间的匹配程度;在所述校验结果未满足预定条件的情况下,根据所述目标样本的文本标题的关键字,调整所述目标样本的标注类别对应的目标标注规则;重新采用调整后的规则模型对所述目标样本进行标注,得到所述目标样本的新的标注类别,并基于所述新的标注类别进行校验,直至所述目标样本的校验结果满足预设条件。3.根据权利要求1所述的方法,其特征在于,所述目标样本为:所述n个第一样本中具有唯一关键词的第一样本。4.根据权利要求1所述的方法,其特征在于,所述采用第二样本集对预设文本分类模型进行训练,得到第一文本分类模型之后,所述方法还包括:循环执行以下步骤,直至满足预设收敛条件:采用所述第一文本分类模型对第三样本进行文本分类,得到所述第三样本的分类结果,在所述第三样本的模型分值大于或者等于预设数值的情况下,将所述第三样本的预测结果指示的类别作为所述第三样本的标注类别,并基于所述第三样本的分类结果更新所述第二样本集;采用更新后的所述第二样本集对所述预设文本分类模型进行训练;其中,所述第三样本为所述第一样本集中的至少一个样本。5.根据权利要求4所述的方法,其特征在于,所述对所述预设文本分类模型进行训练,并满足预设收敛条件之后,所述方法还包括:采用训练后的预设文本分类模型,对所述第一样本集中未标注的样本进行标注,并根据标注结果,对所述第一样本集进行文本分类。6.一种数据标注装置,其特征在于,所述装置包括:样本标注模块,校验模块和训练模块;所述样本标注模块,用于采用规则模型,对第一样本集中的n个第一样本中的目标样本进行标注,得到所述目标样本的标注类别;所述规则模型包括:至少一个标注规则,每个标注规则对应一个标注类别;
所述校验模块,用于对所述样本标注模块标注的目标样本的标注类别进行循环校验,以调整所述目标样本的标注类别对应的目标标注规则,直至所述目标样本的校验结果满足预设条件;所述训练模块,用于采用第二样本集对预设文本分类模型进行训练,得到第一文本分类模型;其中,所述第一文本分类模型为训练后的预设文本分类模型;所述第二样本集包括:所述第一样本集中已标记的第一样本。7.根据权利要求6所述的装置,其特征在于,所述装置还包括:规则调整模块;所述校验模块,具体用于采用所述目标样本的文本主题,对所述目标样本的标注类别进行校验,得到校验结果;所述校验结果用于指示所述目标样本的文本主题与所述目标样本的标注类别间的匹配程度;所述规则调整模块,用于在所述校验模块的校验结果未满足预定条件的情况下,根据所述目标样本的文本标题的关键字,调整所述目标样本的标注类别对应的目标标注规则;所述样本标注模块,还用于重新采用所述规则调整模块调整后的规则模型对所述目标样本进行标注,得到所述目标样本的新的标注类别,并基于所述新的标注类别进行校验,直至所述目标样本的校验结果满足预设条件。8.根据权利要求6所述的装置,其特征在于,所述目标样本为:所述n个第一样本中具有唯一关键词的第一样本。9.根据权利要求6所述的装置,其特征在于,所述装置还包括:分类模块;所述分类模块,用于采用所述第一文本分类模型对第三样本进行文本分类,得到所述第三样本的分类结果,在所述第三样本的模型分值大于或者等于预设数值的情况下,将所述第三样本的预测结果指示的类别作为所述第三样本的标注类别,并基于所述第三样本的分类结果更新第二样本集;所述训练模块,还用于采用所述分类模块更新后的第二样本集对所述预设文本分类模型进行训练;其中,所述第三样本为所述第一样本集中的至少一个样本。10.根据权利要求9所述的装置,其特征在于,所述样本标注模块,还用于采用训练后的预设文本分类模型,对所述第一样本集中未标注的样本进行标注,并根据标注结果,对所述第一样本集进行文本分类。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1