语料分类方法、装置、计算机可读存储介质及电子设备与流程

文档序号:33706970发布日期:2023-03-31 22:01阅读:来源:国知局

技术特征:
1.一种语料分类方法,其特征在于,包括:获取待分类语料;利用第一分类模型对所述待分类语料进行分类预测,得到第一类别;若所述第一类别属于预先定义的混淆类别范围,对所述待分类语料进行知识增强处理;利用第二分类模型对知识增强处理后的待分类语料进行类别预测,得到第二类别作为分类预测结果。2.根据权利要求1所述的语料分类预测方法,其特征在于,还包括:若所述第一类别不属于预先定义的混淆类别范围,则所述第一类别为分类预测结果。3.根据权利要求1所述的语料分类预测方法,其特征在于,所述获取待预测语料之前,还包括:获取标注语料作为第一数据集;基于所述第一数据集进行预训练模型微调处理,得到第一分类模型;采用所述第一分类模型对所述第一数据集进行测试,确定测试结果中的混淆类别,进而定义混淆类别范围;对所述混淆类别范围对应的第二数据集进行知识增强得到第三数据集,并以所述第一分类模型为基础预训练模型,对所述第三数据集进行prompt训练,得到第二分类模型。4.根据权利要求3所述的语料分类预测方法,其特征在于,所述基于所述第一数据集进行预训练模型微调处理,得到第一分类模型,包括:根据目标任务从预训练模型库中选取预训练模型;在所述第一数据集上进行所述预训练模型微调得到第一分类模型。5.根据权利要求3所述的语料分类预测方法,其特征在于,所述对所述混淆类别范围对应的第二数据集进行知识增强得到第三数据集,包括:结合知识库,将所述混淆类别范围对应的第二数据集转换为预设prompt模板形式的数据,得到第三数据集。6.根据权利要求5所述的语料分类预测方法,其特征在于,所述预设prompt模板包括:包含有两个空位置的自然语言模板,其中,所述两个空位置分别用于填入输入数据和结合知识库生成答案数据。7.根据权利要求5所述的语料分类预测方法,其特征在于,所述预设prompt模板包括:结合知识库将输入数据转换为特征向量的模板。8.一种语料分类预测装置,其特征在于,包括:数据获取模块,用于获取待分类语料;第一预测模块,用于利用第一分类模型对所述待分类语料进行分类预测,得到第一类别;知识增强模块,用于在所述第一类别属于预先定义的混淆类别范围的情况下对所述待分类语料进行知识增强处理;第二预测模块,用于利用第二分类模型对知识增强处理后的待分类语料进行分类预测,得到第二类别作为分类预测结果。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机
程序,所述计算机程序被一个或多个处理器执行时,实现如权利要求1至7中任一项所述的语料分类预测方法。10.一种电子设备,其特征在于,包括存储器和一个或多个处理器,所述存储器上存储有计算机程序,所述计算机程序被所述一个或多个处理器执行时实现如权利要求1至7中任一项所述的语料分类预测方法。

技术总结
本发明提供一种语料分类方法、装置、计算机可读存储介质及电子设备,获取待分类语料;利用第一分类模型对所述待分类语料进行分类预测,得到第一类别;若所述第一类别属于预先定义的混淆类别范围,对所述待分类语料进行知识增强处理;利用第二分类模型对知识增强处理后的待分类语料进行分类预测,得到第二类别作为分类预测结果,能够提高模型对容易混淆数据样本的区分能力,提高了模型的泛化能力。提高了模型的泛化能力。提高了模型的泛化能力。


技术研发人员:张永兴 赵国庆 权佳成
受保护的技术使用者:北京中关村科金技术有限公司
技术研发日:2022.01.27
技术公布日:2023/3/30
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1