文本分类模型训练方法及装置、文本分类方法及装置与流程

文档序号:30599440发布日期:2022-07-01 21:21阅读:64来源:国知局
文本分类模型训练方法及装置、文本分类方法及装置与流程

1.本技术涉及文本分类技术领域,特别涉及一种文本分类模型训练方法及装置、一种文本分类方法及装置、计算设备和计算机可读存储介质。


背景技术:

2.自动文本分类,简称文本分类,是指用电脑对文本集按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断,确定每个文档的类别。
3.现有技术中,主要的分类模型都是使用含有大量人工准确标注的数据得到训练文档合集进行模型的训练,得到可以对文本进行分类的模型。
4.然而,现有技术中,大量人工准确标注的数据,训练成本较高,训练效率不高;并且分类文本的标签也在不断更新,模型如果需要根据新标签来进行分类,就又需要大量人工标注的根据新标签分类的数据,训练新的文本分类模型。如此,训练成本增加,缺少大量准确的标注数据,也影响训练效率。


技术实现要素:

5.有鉴于此,本技术实施例提供了一种文本分类模型训练方法及装置、一种文本分类方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
6.根据本技术实施例的第一方面,提供了一种文本分类模型训练方法,包括:
7.s1、基于初始关键词和初始语料构建训练样本集,其中,所述训练样本集中包括x种类别的初始语料,每个初始语料均对应有初始预测类别标签;
8.s2、从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m《x;
9.s3、利用所述第一训练样本训练获得类别识别模型;
10.s4、利用所述第二训练样本对所述类别识别模型进行验证,并重复执行步骤s2至步骤s4直至确定所述类别识别模型满足验证条件。
11.可选地,所述文本分类模型训练方法还包括:
12.接收待识别新类别的新标签,获取所述新标签的标注语料并将新标签的标注语料输入所述类别识别模型对所述识别模型进行训练。
13.可选地,利用所述第一训练样本集训练获得类别识别模型的过程包括:
14.将所述第一训练样本集中的初始语料输入所述类别识别模型的编码层,得到第一训练样本向量;
15.将所述第一训练样本向量输入所述类别识别模型的分类层,得到第一分类向量;
16.将所述第一分类向量输入所述类别识别模型的关系构建层,获取所述第一分类向
量的预测类别,将所述预测类别与初始预测类别标签比较获得误差,并基于所述误差对所述类别识别模型进行迭代训练,直至达到训练停止条件。
17.可选地,所述第二训练样本对所述类别识别模型进行验证,包括:
18.将所述第二训练样本输入所述第一训练样本训练获得的类别识别模型中,计算由所述类别识别模型得到的标签与样本标签的相似度数据,若相似度数据达到规定阈值,得到训练完成的类别识别模型。
19.可选地,获取所述新标签的标注语料的步骤包括:
20.设定新标签的第一关键词;
21.使用预训练词向量对所述新标签的第一关键词进行扩充,得到新标签的第二关键词;
22.使用新标签的第二关键词获取新语料,并提取处新语料的关键词;
23.将新标签的第二关键词与新语料的关键词进行相似度计算,得到所述新标签的标注语料。
24.可选地,所述基于初始关键词和初始语料构建训练样本集的步骤包括:
25.设定初始预测类别标签及对应初始预测类别标签的初始关键词;
26.使用预训练词向量对初始关键词进行扩充;
27.将所有初始关键词和初始语料向量化表示;
28.对初始关键词向量进行处理,基于所述对初始关键词向量的处理,对初始语料进行处理,得到所述初始语料对应的所述初始预测类别标签;
29.将带有所述初始预测类别标签的初始语料构成所述训练样本集。
30.可选地,所述将新标签的标注语料输入所述类别识别模型对所述识别模型进行训练的过程包括:
31.将所述新标签的标注语料中的初始语料输入所述类别识别模型的编码层,得到新标签样本向量;
32.将所述新标签样本向量输入所述类别识别模型的分类层,得到新标签分类向量;
33.将所述新标签分类向量输入所述类别识别模型的关系构建层,获取所述新标签分类向量的预测类别,将所述预测类别与初始预测类别标签比较获得误差,并基于所述误差对所述类别识别模型进行迭代训练,直至达到训练停止条件。
34.可选地,所述根据预训练词向量扩充所述新标签的第一关键词的过程中,检测到扩充的新标签的第一关键词多于一个类别对应的情况下,将所述扩充的新标签的第一关键词在对应的类别中均删除。
35.可选地,所述根据预训练词向量扩充初始关键词的过程中,检测到扩充的初始关键词多于一个类别对应的情况下,将所述扩充的初始关键词在对应的类别中均删除。
36.根据本技术实施例的第二方面,提供了一种文本分类模型训练装置,包括:
37.构建模块,被配置为基于初始关键词和初始语料构建训练样本集,其中,所述训练样本集中包括x种类别的初始语料,每个初始语料均对应有初始预测类别标签;
38.抽取模块,被配置为从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m《x;
39.训练模块,被配置为利用所述第一训练样本训练获得类别识别模型;
40.验证模块,被配置为利用所述第二训练样本对所述类别识别模型进行验证,并重复执行抽取模块、训练模块、验证模块直至确定所述类别识别模型满足验证条件。
41.根据本技术实施例的第三方面,提供了一种文本分类模型训练方法,包括:
42.接收待分类文本并进行分词处理得到第一分词集合;
43.将所述第一分词集合输入文本分类模型获得待分类文本的预测类别,其中,所述文本分类模型根据图2训练文本分类模型所述的方法训练得到。
44.可选地,将所述第一分词集合输入文本分类模型获得对应的文本类型包括:
45.将所述第一分词集合输入所述类别识别模型的编码层,得到第一文本向量;
46.将所述第一文本向量输入所述类别识别模型的分类层,得到第一分类向量;
47.将所述第一分类向量输入所述类别识别模型的关系构建层,获取所述第一分类向量的预测类别。
48.根据本技术实施例的第四方面,提供了一种文本分类装置,包括:
49.处理模块,被配置为接收待分类文本并进行分词处理得到第一分词集合;
50.输入模块,被配置为将所述第一分词集合输入文本分类模型获得待分类文本的预测类别,其中,所述文本分类模型根据图2所述的文本分类模型训练方法训练得到。
51.根据本技术实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述文本分类模型训练方法或文本分类的步骤。
52.根据本技术实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述文本分类模型训练方法或文本分类的步骤。
53.根据本技术实施例的第七方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述文本分类模型训练方法或文本分类的步骤。
54.本技术实施例中,通过基于初始关键词和初始语料构建训练样本集,其中,所述训练样本集中包括x种类别的初始语料,每个初始语料均对应有初始预测类别标签;从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m《x;利用所述第一训练样本训练获得类别识别模型;利用所述第二训练样本对所述类别识别模型进行验证,并重复执行上述直至确定所述类别识别模型满足验证条件。本技术一实施例中文本分类模型训练方法,只需少量的准确标注数据即可对模型进行训练,获得可以实现文本分类的文本分类模型,节省了人工标注的时间,提高了训练分类模型的效率。
附图说明
55.图1是本技术实施例提供的计算设备的结构框图;
56.图2是本技术实施例提供的文本分类模型训练方法的流程图;
57.图3是本技术实施例提供的文本分类模型训练方法的类别识别模型的示意图;
58.图4是本技术实施例提供的文本分类模型训练方法的类别识别模型编码层示意图;
59.图5是本技术实施例提供的文本分类模型训练方法应用于训练新闻文本的文本分类模型的流程图;
60.图6是本技术实施例提供的文本分类模型训练装置的结构示意图;
61.图7是本技术实施例提供的文本分类方法的流程图;
62.图8是本技术实施例提供的文本分类装置的结构示意图。
具体实施方式
63.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
64.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
65.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
66.首先,对本发明一个或多个实施例涉及的名词术语进行解释。
67.bert模型:bert代表transformers的双向编码器,它被设计为通过对左右的上下文的联合来预训练未标记文本得到深层的双向表示。因此,只需一个额外的输出层,就可以对预训练的bert模型进行微调,从而为各种nlp任务创建sota结果。中文bert预训练模型包括简体和繁体汉字,共12层,768个隐单元,12个attention head,110m参数。
68.预训练词向量:预训练词向量是自然语言处理中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。本技术所使用词向量可以是任意现有的中文词向量,本技术对此不作限定。
69.k-近邻算法:是一种用于分类和回归的非参数统计方法。它采用向量空间模型来分类,概念为相同类别的案例,彼此的相似度高,而可以借由计算与已知类别案例之相似度,来评估未知类别案例可能的分类。
70.少样本学习:指机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习。
71.在本技术中,提供了一种文本分类模型训练方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
72.图1示出了根据本技术一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
73.计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。
74.在本技术的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
75.计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
76.其中,处理器120可以执行图2所示文本分类模型训练方法中的步骤。图2示出了根据本技术一实施例的文本分类模型训练方法的流程图,包括步骤202至步骤208。
77.步骤202:基于初始关键词和初始语料构建训练样本集,其中,所述训练样本集中包括x种类别的初始语料,每个初始语料均对应有初始预测类别标签。
78.训练分类文本模型需要先构建训练样本集,所述训练样本集是由初始预测类别标签标注的初始语料构成的。
79.初始关键词可以是初始类别标签的关键词。初始语料就是对应有初始类别标签的预先准备好的语料。初始预测类别标签是人工设定的预测初始语料类别的标签。x种类别的初始语料可以是根据初始预测类别标签将初始语料分为了x种类别。
80.例如,在本技术一具体实施例中,人工设定了2个标签:“娱乐”和“军事”。给“娱乐”设定关键词“电视剧”、“电影”,给“军事”设定关键词“飞机”、“坦克”。人工预先准备好的语料为:“李安是电影《少年派的奇幻漂流》的导演”,则在本实施例中,初始预测类别标签为:“电视剧”、“电影”,初始语料为:李安是电影《少年派的奇幻漂流》的导演,初始关键词为:“电视剧”、“电影”、“飞机”、“坦克”。
81.基于初始关键词和初始语料构建训练样本集的步骤包括:
82.设定初始预测类别标签及对应初始预测类别标签的初始关键词;
83.使用预训练词向量对初始关键词进行扩充;
84.将所有初始关键词和初始语料向量化表示;
85.对初始关键词向量进行处理,基于所述对初始关键词向量的处理,对初始语料进行处理,得到所述初始语料对应的所述初始预测类别标签;
86.将带有所述初始预测类别标签的初始语料构成所述训练样本集。
87.具体来说,初始预测类别标签是人工设定的分类标签,这个分类标签就是分类初始语料使用的标签;人工设定初始类别预测类别标签后,对应每个分类标签,人工设定每个分类标签的初始关键词。
88.对人工设定的初始关键词进行扩充。扩充关键词的方法是使用预训练词向量来寻找关键词的近似词作为扩充关键词。
89.预训练词向量是指使用大量语料数据预先训练出来的通用性强的词向量,本技术中使用的预训练词向量可以是任意现有中文词向量,本技术对此不作限定。
90.根据预训练词向量扩充初始关键词的过程中,检测到扩充的初始关键词多于一个类别对应的情况下,将所述扩充的初始关键词在对应的类别中均删除。
91.对每个初始类别预测类别标签的人工设定的初始关键词都进行扩充。在扩充的过程中,若检测到扩充得到的关键词出现在多于一个的预测类别标签中,则将这个关键词在对应的标签中都删除。
92.将所有的关键词以及初始语料使用bert进行编码,使所有的关键词以及初始语料向量化表示。
93.bert模型是一种预训练语言模型,是利用大规模无标注语料进行模型训练。在训练好的模型中输入文本,模型输出带有文本语义的向量,即获得文本的语义表示。
94.使用初始预测类别标签对初始语料进行标注,标注的具体方法为:使用k-近邻算法对关键词的向量进行处理,获得处理语料向量的模型m,使用这个模型m对初始语料向量进行分类标注,得到标注好的初始语料。
95.k-近邻算法是通过寻找与输入样本点距离较近的样本点大部分属于某一类别中,确定输入样本点的分类。
96.使用标注好预测类别标签的初始语料构建训练样本集。
97.步骤204:从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m《x。
98.第一训练样本集是用来训练文本分类模型的,第二训练样本集是用来检验第一训练样本集训练得到的分类文本模型的准确性。
99.第一样本数据集可以是由第一训练样本集中的样本构建的,第二样本数据集可以是有第二训练样本集中的样本构建的。
100.第一训练样本集中是由从x种类别中随机抽取m种类别及类别对应的部分语料作为样本构成的,将其作为训练文本分类模型的样本。第二训练样本集是由在所述m种类别中抽取不同于第一训练样本集中部分语料的其他语料作为样本构成的,将其作为验证文本分类模型的样本。
101.其中x为训练样本集中的类别总数,m为x种类别中的部分类别,故m小于x的值。
102.例如,在本技术一具体实施例中,训练样本集中有5种样本类别a1、a2、a3、a4、a5,第一训练样本集抽取其中的3种a1、a2、a5,以及对应a1、a2、a5的部分语料c1-c4,作为第一训练样本集中的样本,即第一样本数据集。第二训练样本集中抽取与第一训练样本集相同的样本类别a1、a2、a5,以及不同于所述部分语料的其他语料c5-c8,作为第二训练样本集中的样本,即第二样本数据集。其中,c1-c8为对应a1、a2、a5三种类别语料样本。
103.步骤206:利用所述第一训练样本训练获得类别识别模型。
104.本技术中的类别识别模型可以基于少样本学习网络实现,例如可以是induction network。
105.第一训练样本可以是从样本集中抽取的用来训练类别识别模型的样本集。
106.第一训练样本集训练获得类别识别模型的过程包括:
107.将所述第一训练样本集中的初始语料输入所述类别识别模型的编码层,得到第一训练样本向量;
108.将所述第一训练样本向量输入所述类别识别模型的分类层,得到第一分类向量;
109.将所述第一分类向量输入所述类别识别模型的关系构建层,获取所述第一分类向量的预测类别,将所述预测类别与初始预测类别标签比较获得误差,并基于所述误差对所述类别识别模型进行迭代训练,直至达到训练停止条件。
110.如图3类别识别模型的示意图所示,类别识别模型中含有编码层、分类层以及关系构建层。下面根据类别识别模型的使用,对类别识别模型的三层进行说明。
111.从训练样本集中抽取得到第一训练样本集后,将所述第一训练样本集中的初始语料输入所述类别识别模型的编码层,得到第一训练样本向量;
112.编码层的作用就是将初始语料向量化表示。本技术已具体实施例中,编码层使用的是bilstm+attention模型。如图4编码层的示意图所示,嵌入层的作用是将离散变量转为连续向量表示;神经网络层的作用是提取文本的语义信息;注意力层是为神经网络层提取出的信息添加权重值,将预测的信息转为向量输出。
113.将第一训练样本向量输入类别识别模型的分类层,得到第一分类向量。
114.分类层采用capsule network,将第一训练样本向量转化为class-level的向量即第一分类向量。将每一个类别中的样本表征,转化结合为class-level的表征。
115.capsule network的计算过程:对输入样本向量做矩阵乘法;对输入的样本向量进行标量加权;对加权后的样本向量求和;向量到向量的非线性化,将数值处理为样本向量。
116.capsule network只需要较少的数据就能获得较好的泛化能力,更好的应对模糊性,所以对分类模型的训练起到很好的作用。使用capsule network的目的就是动态的来表征类向量。
117.将第一分类向量输入类别识别模型的关系构建层,获取第一分类向量的预测类别,将预测类别与初始预测类别标签比较获得误差。基于所得误差对样本分类模型多次迭代,直至分类模型符合训练要求。
118.关系构建层是将class-level的向量转化与类别之间的关系进行建模,得出class-level的向量与类别之间关系分数,再根据关系分数计算损失值。若误差大于规定值,则需要对模型继续进行训练,直至符合训练要求。
119.步骤208:利用所述第二训练样本对所述类别识别模型进行验证,并重复执行抽取和训练以及验证类别识别模型的步骤直至确定所述类别识别模型满足验证条件。
120.第二训练样本对所述类别识别模型进行验证,包括:
121.将所述第二训练样本输入所述第一训练样本训练获得的类别识别模型中,计算由所述类别识别模型得到的标签与样本标签的相似度数据,若相似度数据达到规定阈值,得到训练完成的类别识别模型。
122.第二训练样本是从训练样本集中抽取的带有标注的初始语料。
123.使用第二训练样本对所述类别识别模型进行验证是将所述第二训练样本输入使用第一训练样本训练获得的类别识别模型中,获取到带有标签的语料。计算由类别识别模
型得到的标签与样本标签的相似度,若相似度达到规定阈值,则可以得到训练完成的类别识别模型。
124.在分类文本过程中还会因为分类需求增加而增加新的文本分类标签。本技术对新增分类文本标签的情况也给出了解决方案。
125.接收待识别新类别的新标签,获取所述新标签的标注语料并将新标签的标注语料输入所述类别识别模型对所述识别模型进行训练。
126.根据增加文本新标签的需求,获取标注好新标签的语料,并将有新标签的标注的语料作为训练样本,输入类别识别模型中,对识别模型进行训练,使识别模型可以识别语料中的新标签。
127.获取所述新标签的标注语料的步骤包括:
128.设定新标签的第一关键词;
129.使用预训练词向量对所述新标签的第一关键词进行扩充,得到新标签的第二关键词;
130.使用新标签的第二关键词获取新语料,并提取出新语料的关键词;
131.将新标签的第二关键词与新语料的关键词进行相似度计算,得到所述新标签的标注语料。
132.第一关键词可以是人工为新标签设定的关键词。
133.根据预训练词向量扩充所述新标签的第一关键词的过程中,检测到扩充的新标签的第一关键词多于一个类别对应的情况下,将所述扩充的新标签的第一关键词在对应的类别中均删除。
134.对第一关键词进行扩充可以是对人工设定的新标签的关键词进行扩充。在扩充的过程中,若检测到关键词对应对于一个类别时,将所述关键词在所有类别中均删除。
135.第二关键词可以是根据人工为新标签设定的关键词扩充出来的新标签相关的关键词。
136.新语料的关键词与扩充出来的新标签的关键词进行相似度计算,得到新标签的标注语料,将新标签的标注语料输入类别识别模型对类别识别模型进行训练。
137.例如,在本技术一具体实施例中,添加新的文本分类标签p。首先人工设定p的关键词k1、k2、k3,即所述的设定第一关键词。使用预训练词向量扩充p的关键词k1、k2、k3,得到扩充关键词k4、k5、k6,即所述第二关键词。根据k4、k5、k6获取对应新标签p的语料,并提取对应新标签p的语料中的关键词e1、e2、e3。对k4、k5、k6和e1、e2、e3进行相似度计算,得到新标签p的对应语料。
138.将新标签的标注语料输入所述类别识别模型对所述识别模型进行训练的过程包括:
139.将所述新标签的标注语料中的初始语料输入所述类别识别模型的编码层,得到新标签样本向量;
140.将所述新标签样本向量输入所述类别识别模型的分类层,得到新标签分类向量;
141.将所述新标签分类向量输入所述类别识别模型的关系构建层,获取所述新标签分类向量的预测类别,将所述预测类别与初始预测类别标签比较获得误差,并基于所述误差对所述类别识别模型进行迭代训练,直至达到训练停止条件。
142.将获取到的新标签的标注语料放入训练样本集中,得到带有新标签标注语料样本的训练样本集。在所述带有新标签标注语料样本的训练样本集中抽取样本进行模型训练。
143.带有新标签标注语料样本的训练样本集中抽取训练样本时,抽取新类别对应的训练样本时,新类别的训练样本个数要多于训练样本集中其他类别对应的个数。
144.将从带有新标签标注语料样本的训练样本集中抽取的样本,输入所述类别识别模型的编码层,得到新标签样本向量。
145.将新标签样本向量输入所述类别识别模型的分类层,得到新标签分类向量;
146.将所述新标签分类向量输入所述类别识别模型的关系构建层,获取所述新标签分类向量的预测类别,将所述预测类别与初始预测类别标签比较获得误差,并基于所述误差对所述类别识别模型进行迭代训练,直至达到训练停止条件。
147.本技术的分类文本模型训练方法,s1、基于初始关键词和初始语料构建训练样本集,其中,所述训练样本集中包括x种类别的初始语料,每个初始语料均对应有初始预测类别标签;s2、从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m《x;s3、利用所述第一训练样本训练获得类别识别模型;s4、利用所述第二训练样本对所述类别识别模型进行验证,并重复执行步骤s2至步骤s4直至确定所述类别识别模型满足验证条件。本技术提供的文本分类模型训练方法,只需少量的准确标注数据能以对模型进行训练,获得可以实现文本分类的文本分类模型,节省了人工标注的时间,提高了标注效率。
148.图5示出了本技术一实施例的文本分类模型训练方法,该文本分类模型训练方法以对训练分类新闻文本的文本分类模型为例进行描述,包括步骤502至步骤508。
149.步骤502:基于初始新闻关键词和初始新闻语料构建训练样本集,其中训练样本集中包括5种类别的初始新闻语料,每个初始新闻语料均有对应的初始预测新闻类别标签。
150.人工设定分类新闻的初始预测新闻类别标签,包括:娱乐、军事、旅游、招聘、教育。对每个标签人工设置3个关键词,例如,设定旅游的关键词为:景点、门票、导游。初始新闻语料就是对应人工设定标签的新闻,例如,一条新闻语料是“节日期间多地景点对游客开放”。
151.使用已有的预训练词向量寻找人工设置关键词的相似关键词,对人工设定的关键词进行扩充,本次扩充的上限为5个关键词。例如,根据人工设定的旅游标签的关键词:景点、门票、导游,基于预训练词向量进行扩充,得到扩充的5个关键词:签证、避暑、民宿、美食、自驾游。
152.在扩充关键词的过程中,扩充到关键词“美食”既存在于娱乐标签下,也存在于旅游标签下,此时需要将娱乐和旅游标签下的关键词“美食”都进行删除。
153.将所有的关键词和初始新闻语料使用bert模型转化为向量化表示。得到向量化的关键词后,使用k近邻算法进行处理,得到可以对语料进行分类标注的模型。再将向量化的初始新闻语料放入所述模型中对初始语料进行分类标注,得到分类标注好的初始新闻语料。
154.步骤504:从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括5种新闻类别中的3种新闻类别的新闻语料样本,第二训练样本集中包括与所述3种新闻类别中不同于第一训练样本集中的新闻语料样本,抽取类别的个数3小于样本
集中类别的个数5。
155.使用步骤502得到的分类标注好的初始新闻语料构建训练样本集。在构建好的训练样本集中抽取第一训练样本集和第二训练样本集。
156.第一训练样本集中包括从训练样本集的5个类别:娱乐、军事、旅游、招聘、教育中随机抽取的3种类别:娱乐、军事、旅游。3种类别中,每个类别抽取5个新闻语料样本,构成第一训练样本集。第一训练样本集用来训练分类新闻文本模型。
157.第二训练样本集中包括从训练样本集的5个类别:娱乐、军事、旅游、招聘、教育中抽取的与第一训练样本集中类别相同的3种类别:娱乐、军事、旅游。3种类别中,每个类别抽取不同于第一训练样本集中样本的5个新闻语料样本,构成第二训练样本集。第二训练样本集用来验证第一训练样本集训练出的分类新闻文本模型的准确性。
158.步骤506:利用所述第一训练样本训练获得类别识别模型。
159.将第一训练样本集中的样本放入模型进行分类文本模型的训练,即将娱乐、军事、旅游标签下的新闻语料输入文本分类模型进行训练。
160.将第一训练样本集中的初始新闻语料输入分类文本模型的编码层。编码层将新闻文本转化为了向量,得到第一训练新闻样本向量;
161.将第一训练新闻样本向量输入分类文本模型的分类层,得到第一分类新闻向量;
162.将第一分类新闻向量输入分类文本模型的关系构建层,获取所述第一分类向量的预测新闻类别,将所述预测新闻类别与初始预测新闻类别标签比较获得误差,并基于所述误差对所述文本分类模型进行迭代训练,直至达到训练停止条件。
163.步骤508:利用所述第二训练样本对所述类别识别模型进行验证,并重复执行抽取和训练以及验证类别识别模型的步骤直至确定所述类别识别模型满足验证条件。
164.将第二训练样本集中的新闻语料作为待分类的文本,输入由第一训练样本集训练得到的分类文本模型中,得到第二训练样本集中新闻语料的标签。将分类文本模型得到的新闻标签与新闻语料本来带有的标签进行相似度计算。计算所得的相似度如果不符预期值,则按照上述步骤继续训练验证分类文本模型,直至达到符合预期的相似度值,即可停止训练,得到训练好的分类文本模型。
165.根据用户的需求增加了新的新闻标签:体育。需要对文本分类模型再次训练,可以得到体育分类的新闻语料。训练过程如下:
166.人工设定新增标签体育的关键词:足球、运动、篮球。使用预训练词向量对关键词:足球、体操、篮球,进行扩充,得到扩充体育的5个关键词:奥运、复赛、锦标赛、运动、女排。使用扩充后的关键词,搜索对应扩充关键词的新闻语料。在扩充关键词的过程中,检测到关键词“运动”出现在体育标签下,也出现在娱乐标签下,则将关键词“运动”从两个标签下均删除。将新闻语料的关键词与扩充新标签关键词得到的关键词进行相似度的计算,符合相似度要求的新闻语料,作为新增标签体育的相关语料。
167.将所述新增标签体育的相关语料输入原有训练样本集中。在有新语料样本的训练样本集中抽取新的训练样本集输入分类文本模型进行模型的训练。
168.原有训练样本集中有5种新闻类别,添加体育的相关语料后,一共有6种新闻类别。在存在有6种新闻类别的训练样本集中随机抽取3种类别:体育、招聘、教育,抽取3种类别下每种类别的5条新闻语料样本。其中体育作为新标签,需要抽取多于5条的新闻语料样本。
169.将抽取出的新闻语料样本输入文本分类模型的编码层,得到样本向量;
170.将得到的样本向量输入文本分类模型的分类层,得到分类向量;
171.将分类向量输入关系构建层,获取分类向量的预测标签,将预测标签与初始设定的新闻标签进行比较计算误差值,基于误差值对分类文本模型进行迭代训练,直至达到条件后得到可以识别体育类别文本的分类文本模型。
172.本技术的分类文本模型训练方法,s1、基于初始关键词和初始语料构建训练样本集,其中,所述训练样本集中包括x种类别的初始语料,每个初始语料均对应有初始预测类别标签;s2、从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m《x;s3、利用所述第一训练样本训练获得类别识别模型;s4、利用所述第二训练样本对所述类别识别模型进行验证,并重复执行步骤s2至步骤s4直至确定所述类别识别模型满足验证条件。本技术提供的文本分类模型训练方法,只需少量的准确标注数据能以对模型进行训练,获得可以实现文本分类的文本分类模型,节省了训练文本分类模型的时间,提高了训练模型的效率。
173.与上述方法实施例相对应,本技术还提供了文本分类模型训练装置实施例,图6示出了本技术一个实施例的文本分类模型训练装置的结构示意图。如图6所示,该装置600包括:
174.构建模块602,被配置为基于初始关键词和初始语料构建训练样本集,其中,所述训练样本集中包括x种类别的初始语料,每个初始语料均对应有初始预测类别标签;
175.抽取模块604,被配置为从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m《x;
176.训练模块606,被配置为利用所述第一训练样本训练获得类别识别模型;
177.验证模块608,被配置为利用所述第二训练样本对所述类别识别模型进行验证,并重复执行抽取模块、训练模块、验证模块,直至确定所述类别识别模型满足验证条件。
178.可选地,所述装置还包括:
179.接收模块,被配置为接收待识别新类别的新标签,获取所述新标签的标注语料并将新标签的标注语料输入所述类别识别模型对所述识别模型进行训练。
180.可选地,所述训练模块606包括:
181.训练子模块,被配置为将所述第一训练样本集中的初始语料输入所述类别识别模型的编码层,得到第一训练样本向量;
182.将所述第一训练样本向量输入所述类别识别模型的分类层,得到第一分类向量;
183.将所述第一分类向量输入所述类别识别模型的关系构建层,获取所述第一分类向量的预测类别,将所述预测类别与初始预测类别标签比较获得误差,并基于所述误差对所述类别识别模型进行迭代训练,直至达到训练停止条件。
184.可选地,所述验证模块608,包括:
185.验证子模块,被配置为将所述第二训练样本输入所述第一训练样本训练获得的类别识别模型中,计算由所述类别识别模型得到的标签与样本标签的相似度数据,若相似度数据达到规定阈值,得到训练完成的类别识别模型。
186.可选地,所述接收模块包括:
187.获取子模块,被配置为获取所述新标签的标注语料的步骤包括:
188.设定新标签的第一关键词;
189.使用预训练词向量对所述新标签的第一关键词进行扩充,得到新标签的第二关键词;
190.使用新标签的第二关键词获取新语料,并提取出新语料的关键词;
191.将新标签的第二关键词与新语料的关键词进行相似度计算,得到所述新标签的标注语料。
192.可选地,所述构建模块602包括:
193.构建子模块,被配置为设定初始预测类别标签及对应初始预测类别标签的初始关键词;
194.使用预训练词向量对初始关键词进行扩充;
195.将所有初始关键词和初始语料向量化表示;
196.对初始关键词向量进行处理,基于所述对初始关键词向量的处理,对初始语料进行处理,得到所述初始语料对应的所述初始预测类别标签;
197.将带有所述初始预测类别标签的初始语料构成所述训练样本集。
198.可选地,所述接收模块包括:
199.训练子模块,被配置为将所述新标签的标注语料中的初始语料输入所述类别识别模型的编码层,得到新标签样本向量;
200.将所述新标签样本向量输入所述类别识别模型的分类层,得到新标签分类向量;
201.将所述新标签分类向量输入所述类别识别模型的关系构建层,获取所述新标签分类向量的预测类别,将所述预测类别与初始预测类别标签比较获得误差,并基于所述误差对所述类别识别模型进行迭代训练,直至达到训练停止条件。
202.可选地,所述获取子模块,还被配置为根据预训练词向量扩充所述新标签的第一关键词的过程中,检测到扩充的新标签的第一关键词多于一个类别对应的情况下,将所述扩充的新标签的第一关键词在对应的类别中均删除。
203.可选地,所述构建子模块,还被配置为根据预训练词向量扩充初始关键词的过程中,检测到扩充的初始关键词多于一个类别对应的情况下,将所述扩充的初始关键词在对应的类别中均删除。本技术一实施例中文本分类模型训练装置,只需少量的准确标注数据就可以对模型进行训练,获得可以实现文本分类的分类模型,节省了人工标注的时间,提高了文件分类的效率。
204.本技术一实施例中文本分类模型训练装置,只需少量的准确标注数据就可以对模型进行训练,提高训练模型的效率;在需要增加新标签时,也不需要大量人工标注的数据就能进行模型的训练,节省了训练模型的成本。
205.上述为本实施例的一种文本分类模型训练装置的示意性方案。需要说明的是,该文本分类模型训练装置的技术方案与上述的文本分类模型训练方法的技术方案属于同一构思,文本分类模型训练装置的技术方案未详细描述的细节内容,均可以参见上述文本分类模型训练方法的技术方案的描述。
206.需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤
或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
207.处理器120可以执行图7所示文本分类方法。
208.图7为根据本技术一实施例的文本分类方法的流程图,包括步骤702至步骤704。
209.步骤702:接收待分类文本并进行分词处理得到第一分词集合。
210.待分类文本可以是需要进行分类的文本语料。第一分词集合可以是将所述纯文本语料处理为分词构建第一分词集合。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
211.例如,在本技术一具体实施例中,对纯文本“小明到达北京”进行分词处理。处理过后得到分词“小明”“到达”“北京”三个分词,三个分词构成了所述的第一分词集合。
212.步骤704:将所述第一分词集合输入文本分类模型获得待分类文本的预测类别,其中,所述文本分类模型根据图2所述的文本分类模型训练方法训练得到。
213.文本分类模型是由上述文本分类模型训练方法训练得到的。将第一分词集合输入训练好的文本分类模型中:
214.输入模型的第一层编码层,得到第一文本向量;
215.将所述第一文本向量输入所述模型的分类层,得到第一分类向量;
216.将所述第一分类向量输入所述模型的关系构建层,获取所述第一分类向量的预测类别。
217.例如,在本技术一具体实施例中,将“小明”“到达”“北京”三个分词,三个分词构成的第一分词集合输入到训练好的文本分类模型中,可以得到存文本“小明到达北京”的预测类别。
218.本技术一具体实施例文本分类方法,通过接收待分类文本并进行分词处理得到第一分词集合,将所述第一分词集合输入文本分类模型获得待分类文本的预测类别。本技术提供的文本分类方法,通过训练好的模型得到纯文本语料的标签,节省了人工标注语料的时间,提高分类文本的效率。
219.与上述方法实施例相对应,本技术还提供了文本分类装置实施例,图8示出了本技术一个实施例的文本分类模型训练装置的结构示意图。如图8所示,该装置800包括:
220.处理模块802,被配置为接收待分类文本并进行分词处理得到第一分词集合;
221.输入模块804,被配置为将所述第一分词集合输入文本分类模型获得待分类文本的预测类别,其中,所述文本分类模型根据图2所述的文本分类模型训练方法训练得到。
222.可选地,所述输入模块804包括:
223.输入子模块,被配置为将所述第一分词集合输入所述类别识别模型的编码层,得到第一文本向量;将所述第一文本向量输入所述类别识别模型的分类层,得到第一分类向量;将所述第一分类向量输入所述类别识别模型的关系构建层,获取所述第一分类向量的预测类别。
224.本技术一具体实施例的文本分类装置将输入的文本语料分词处理,输入训练好的文本分类模型中得到语料的标签,节省了人工分类文本的时间,提高了文本分类效率。
225.上述为本实施例的一种文本分类装置的示意性方案。需要说明的是,该文本分类装置的技术方案与上述的文本分类模型训练方法的技术方案属于同一构思,文本分类装置的技术方案未详细描述的细节内容,均可以参见上述文本分类模型训练方法的技术方案的描述。
226.需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
227.本技术一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的文本分类模型训练方法或文本分类方法的步骤。
228.上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本分类模型训练方法或文本分类方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本分类模型训练方法或文本分类方法的技术方案的描述。
229.本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述文本分类模型训练方法或文本分类方法的步骤。
230.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本分类模型训练方法或文本分类方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本分类模型训练方法或文本分类方法的技术方案的描述。
231.本技术实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述文本分类模型训练方法或文本分类方法的步骤。
232.上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
233.所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
234.需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知
悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。
235.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
236.以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1