技术特征:
1.一种文本分类模型训练方法,其特征在于,包括:s1、基于初始关键词和初始语料构建训练样本集,其中,所述训练样本集中包括x种类别的初始语料,每个初始语料均对应有初始预测类别标签;s2、从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m<x;s3、利用所述第一训练样本训练获得类别识别模型;s4、利用所述第二训练样本对所述类别识别模型进行验证,并重复执行步骤s2至步骤s4直至确定所述类别识别模型满足验证条件。2.根据权利要求1所述的方法,其特征在于,还包括:接收待识别新类别的新标签,获取所述新标签的标注语料并将新标签的标注语料输入所述类别识别模型对所述识别模型进行训练。3.根据权利要求1所述的方法,其特征在于,利用所述第一训练样本集训练获得类别识别模型的过程包括:将所述第一训练样本集中的初始语料输入所述类别识别模型的编码层,得到第一训练样本向量;将所述第一训练样本向量输入所述类别识别模型的分类层,得到第一分类向量;将所述第一分类向量输入所述类别识别模型的关系构建层,获取所述第一分类向量的预测类别,将所述预测类别与初始预测类别标签比较获得误差,并基于所述误差对所述类别识别模型进行迭代训练,直至达到训练停止条件。4.根据权利要求1所述的方法,其特征在于,所述第二训练样本对所述类别识别模型进行验证,包括:将所述第二训练样本输入所述第一训练样本训练获得的类别识别模型中,计算由所述类别识别模型得到的标签与样本标签的相似度数据,若相似度数据达到规定阈值,得到训练完成的类别识别模型。5.根据权利要求2所述的方法,其特征在于,获取所述新标签的标注语料的步骤包括:设定新标签的第一关键词;使用预训练词向量对所述新标签的第一关键词进行扩充,得到新标签的第二关键词;使用新标签的第二关键词获取新语料,并提取出新语料的关键词;将新标签的第二关键词与新语料的关键词进行相似度计算,得到所述新标签的标注语料。6.根据权利要求1所述的方法,其特征在于,所述基于初始关键词和初始语料构建训练样本集的步骤包括:设定初始预测类别标签及对应初始预测类别标签的初始关键词;使用预训练词向量对初始关键词进行扩充;将所有初始关键词和初始语料向量化表示;对初始关键词向量进行处理,基于所述对初始关键词向量的处理,对初始语料进行处理,得到所述初始语料对应的所述初始预测类别标签;将带有所述初始预测类别标签的初始语料构成所述训练样本集。
7.根据权利要求2所述的方法,其特征在于,所述将新标签的标注语料输入所述类别识别模型对所述识别模型进行训练的过程包括:将所述新标签的标注语料中的初始语料输入所述类别识别模型的编码层,得到新标签样本向量;将所述新标签样本向量输入所述类别识别模型的分类层,得到新标签分类向量;将所述新标签分类向量输入所述类别识别模型的关系构建层,获取所述新标签分类向量的预测类别,将所述预测类别与初始预测类别标签比较获得误差,并基于所述误差对所述类别识别模型进行迭代训练,直至达到训练停止条件。8.根据权利要求5所述的方法,其特征在于,所述根据预训练词向量扩充所述新标签的第一关键词的过程中,检测到扩充的新标签的第一关键词多于一个类别对应的情况下,将所述扩充的新标签的第一关键词在对应的类别中均删除。9.根据权利要求6所述的方法,其特征在于,所述根据预训练词向量扩充初始关键词的过程中,检测到扩充的初始关键词多于一个类别对应的情况下,将所述扩充的初始关键词在对应的类别中均删除。10.一种文本分类方法,其特征在于,包括:接收待分类文本并进行分词处理得到第一分词集合;将所述第一分词集合输入文本分类模型获得待分类文本的预测类别,其中,所述文本分类模型根据权利要求1-9任意一项所述的方法训练得到。11.根据权利要求10所述的方法,其特征在于,将所述第一分词集合输入文本分类模型获得对应的文本类型包括:将所述第一分词集合输入所述类别识别模型的编码层,得到第一文本向量;将所述第一文本向量输入所述类别识别模型的分类层,得到第一分类向量;将所述第一分类向量输入所述类别识别模型的关系构建层,获取所述第一分类向量的预测类别。12.一种文本分类模型训练装置,包括:构建模块,被配置为基于初始关键词和初始语料构建训练样本集,其中,所述训练样本集中包括x种类别的初始语料,每个初始语料均对应有初始预测类别标签;抽取模块,被配置为从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m<x;训练模块,被配置为利用所述第一训练样本训练获得类别识别模型;验证模块,被配置为利用所述第二训练样本对所述类别识别模型进行验证,并重复执行抽取模块、训练模块、验证模块,直至确定所述类别识别模型满足验证条件。13.一种文本分类装置,包括:处理模块,被配置为接收待分类文本并进行分词处理得到第一分词集合;输入模块,被配置为将所述第一分词集合输入文本分类模型获得待分类文本的预测类别,其中,所述文本分类模型根据权利要求1-9任意一项所述的方法训练得到。14.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算
机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-9或者10-11任意一项所述方法的步骤。15.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-9或者10-11任意一项所述方法的步骤。
技术总结
本申请提供文本分类模型训练方法及装置、文本分类方法及装置,其中所述文本分类模型训练方法包括:基于初始关键词和初始语料构建训练样本集;从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m<x;利用所述第一训练样本训练获得类别识别模型;利用所述第二训练样本对所述类别识别模型进行验证,并重复执行上述步骤直至确定所述类别识别模型满足验证条件。本申请提供的文本分类模型训练方法,只需少量准确的标注数据即可训练文本分类模型。文本分类模型。文本分类模型。
技术研发人员:刘畅 李长亮 郭馨泽
受保护的技术使用者:北京金山数字娱乐科技有限公司
技术研发日:2020.12.31
技术公布日:2022/6/30