本发明涉及一种基于主动学习和条件对抗网络的中文分词方法,属于烟草。
背景技术:
1、中文分词是将一个汉字序列切分成一个个单独的词,与英文句子相比,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,所以中文分词是信息处理中的关键技术和难点,词是理解句子的最小单位,是中文信息处理的第一步,但是词在形式上没有分界符,不能通过明显的分界符进行简单划界。虽然英文也同样存在短语的划分问题,但在词这一层面上,中文分词比英文分词要复杂得多、困难得多。
2、传统的中文分词方法有基于字符串匹配的方法、基于统计以及机器学习的方法和通过计算机模拟人对句子的理解,达到识别词的方法;随着深度学习的兴起,使得自动学习文本特征成为一种可能,基于长短时记忆神经网络的方法、基于条件随机场模型的方法和基于bert的方法都得到了广泛应用,特别是bert方法,解决了大部分的文本信息处理问题。但由于不同领域句法知识不同,经过通用领域数据集预训练的bert对特定领域分词训练精度差,并且对于某个特定领域的分词,缺乏可用数据集,需要手动标注大量数据。
技术实现思路
1、本发明的目的在于克服现有技术中的不足,提供一种基于主动学习和条件对抗网络的中文分词方法,解决了当前通用领域数据集预训练的bert模型对特定领域分词训练精度差的问题。
2、为达到上述目的/为解决上述技术问题,本发明是采用下述技术方案实现的:一种基于主动学习和条件对抗网络的中文分词方法,包括:
3、获取目标文本的语义特征;
4、根据所述目标文本的语义特征,利用预先训练好的bert模型对目标文本分词划分;
5、其中,所述bert模型的训练包括:
6、根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征预测领域;
7、根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征获取烟草领域和通用领域的共有特征;
8、获取预设烟草领域数据集中多个样本所对应的信息量值;
9、根据信息量值对bert模型进行迭代。
10、进一步地,所述根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征预测领域的方法包括:
11、获取预设烟草领域数据集中已标注样本的语义特征向量x和通用领域数据集中样本的语义特征向量
12、通过判别器获取语义特征向量x和语义特征向量的领域。
13、更进一步地,所述判别器的损失函数为:
14、
15、其中,dθ(.)表示判别器;
16、θ为判别器参数;
17、y表示不同语义特征向量所对应的判别输出值;当判别为通用领域特征,则y=1;当判别为特定领域特征时,则y=0。
18、进一步地,所述根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征获取烟草领域和通用领域的共有特征的方法包括:
19、获取预设烟草领域数据集中已标注样本的语义特征向量x和通用领域数据集中样本的语义特征向量
20、重构语义特征向量x和语义特征向量
21、通过bert模型预测重构语义特征向量x和重构语义特征向量的领域。
22、更进一步地,所述bert模型的损失函数为:
23、
24、其中,dθ(.)表示判别器;
25、θ为判别器参数;
26、y表示不同语义特征向量所对应的判别输出值;当判别为通用领域特征,则y=1;当判别为特定领域特征时,则y=0。
27、更进一步地,所述重构语义特征向量x和语义特征向量的重构损失函数为:
28、
29、其中,n为字向量长度,z为字向量内的标量标号。
30、进一步地,所述获取预设烟草领域数据集中多个样本所对应的信息量值的方法包括:
31、获取预设烟草领域数据集中带标注样本的语义特征向量xl和剩余未标注样本的语义特征向量xu;
32、获取语义特征向量xl和语义特征向量xu的字符关系度量值;
33、将获取到的字符关系度量值作为信息量值。
34、更进一步地,所述字符关系度量值的计算公式为:
35、
36、其中,i表示样本下标;j表示字在样本中的位置下标;
37、n表示字向量长度;z为字向量内的标量标号;
38、x代表语义特征向量xl或语义特征向量xu。
39、更进一步地,所述根据信息量值对bert模型进行迭代的方法包括:
40、获取预设烟草领域数据集中n个信息量值最大的未标注样本;
41、将n个信息量值最大的未标注样本标注后加入带标注的样本中,形成新的预设烟草领域数据;
42、利用当前新形成的预设烟草领域数据集训练bert模型;
43、若目标函数的损失值或迭代次数不满足预设值,则继续从当前新形成的预设烟草领域数据集中获取n个信息量值最大的未标注样本,经标注后加入到当前新形成的预设烟草领域数据集中再次形成新的预设烟草领域数据集,利用再次新形成的预设烟草领域数据集继续训练bert模型;
44、直到目标函数的损失值或迭代次数满足预设值。
45、更进一步地,所述目标函数为基于字符关系度量值的分词损失函数,分词损失函数为:
46、
47、其中,将语义特征向量xl中的每个字分类为词首位置b、词中位置c、词尾位置e和单独一个词s,bc、cc、ce、be、eb、es、sb为字符的不同组合位置;
48、m(.)为语义特征向量xl的字符关系度量值。
49、与现有技术相比,本发明所达到的有益效果:
50、1、本发明通过建立特定领域的烟草领域数据集,并对其中需要进行训练的中文文本进行标注,将通用领域数据集和特定领域数据集输入至bert模型中获取相关的语义特征向量,再将相关的语义特征向量输入至判别器中与bert模型形成对抗训练,使得模型捕获得到特定领域和通用领域的共有特征,解决了当前仅用通用领域数据集预训练的方式影响跨域分词模型精度的问题。
51、2、本发明通过在特定领域数据集中选取若干句带标注的文本,获取带标注文本的标注语义特征向量和剩余未标注文本的未标注语义特征向量,通过计算每个语义特征向量的字符关系度量值来作为样本的信息量值,信息量值越大,则分词器对该文本的分词越困难,使用字符关系度量值作为采样策略,有效地选择出信息量最大的未标记文本,节省了注释成本。
1.一种基于主动学习和条件对抗网络的中文分词方法,其特征在于,包括:
2.根据权利要求1所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征预测领域的方法包括:
3.根据权利要求2所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述判别器的损失函数为:
4.根据权利要求1所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征获取烟草领域和通用领域的共有特征的方法包括:获取预设烟草领域数据集中已标注样本的语义特征向量x和通用领域数据集中样本的语义特征向量
5.根据权利要求4所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述bert模型的损失函数为:
6.根据权利要求4所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述重构语义特征向量x和语义特征向量的重构损失函数为:
7.根据权利要求1所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述获取预设烟草领域数据集中多个样本所对应的信息量值的方法包括:
8.根据权利要求7所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述字符关系度量值的计算公式为:
9.根据权利要求7所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述根据信息量值对bert模型进行迭代的方法包括:
10.根据权利要求9所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述目标函数为基于字符关系度量值的分词损失函数,分词损失函数为: