一种融合参数有效化和关系标签层次语义先验的隐式篇章关系识别方法

文档序号:35662423发布日期:2023-10-06 17:27阅读:31来源:国知局
一种融合参数有效化和关系标签层次语义先验的隐式篇章关系识别方法

本发明涉及自然语言处理,具体为一种融合参数有效化和关系标签层次语义先验的隐式篇章关系识别方法。


背景技术:

1、隐式篇章关系识别是文本分析中最重要的子任务之一,其目的是在没有显式连接词的指导下挖掘两个篇章论元之间的篇章关系。由于缺少连接词,模型只能通过论点之间的实体指代、语义线索来识别特定的篇章关系,这使得隐式篇章关系识别成为一项具有挑战性的任务。通过对该任务更深入的研究,有利于提升对于文本摘要,对话摘要和事件关系抽取等一系列的下游任务的性能。同时,篇章关系在大多数标注体系中被标注为多级粒度标签,并普遍认为在标注时为方便分类加入的隐式连接词是隐式篇章关系任务中最细粒度的篇章关系标签。

2、隐式篇章关系识别最初的研究大多基于人类制定的相关语言学特征来进行概率统计模型的构建,如词汇的情感极性、动词、词对以及语境信息等。随着深度学习的不断演进,更多的方法通过循环神经网络(recurrent neural network,rnn)、卷积神经网络(convoluted neural network,cnn)以及长短时记忆网络(long short term memory,lstm)来着重提取论元对间的语义交互信息;近来,由于基于自注意力机制的预训练语言模型(pre-trained language models,plms)的出现,该任务通过论元间注意力的交互挖掘取得了非常显著的提升。

3、之前的部分工作注意到了隐式篇章关系识别任务的数据稀缺性,即篇章关系标准数据集的数据量不足以支持深度神经网络来准确描述特定于任务的高维特征空间。同时,由于当前数据集类别间数据分布非常不平衡,并且大多数类别存在数据稀缺的问题,而层次语义的建模非常依赖于不同类别充足数据的支撑,致使在现有情况下完成对隐式篇章关系层次化结构的建模成为一个极其困难的问题。前人的方法大多主要通过数据增强以及知识增强的方式通过数据缓解这个问题。对于隐式篇章关系识别的数据增强方法主要有显式篇章关系数据增强、跨语言数据增强以及无监督数据增强;而知识增强的方法主要包括实体增强、知识图谱增强以及事件知识增强。然而,这些方法存在着一些显著的不足:1)标注足够的隐式篇章关系数据和引入恰当的任务相关知识的难度是非常大的;2)数据增强中的噪声数据会驱使模型偏离目标特征分布,同时不合理知识的注入会加剧预训练原始特征空间中知识的流失。

4、可以发现,隐式篇章关系识别对于数据稀缺的解决方案大多是从数据和知识扩充层面进行考量,而没有研究从调整模型参数搜索空间的角度予以解决。最近,参数有效化的提示微调方法在低资源场景下显示出卓越的性能。它们冻结掩码语言模型中的大部分或所有参数,并利用一些额外的参数将近似过程限制在小的流形当中,从而减少了模型对于数据规模的依赖。受上述研究的启发,利用参数有效化提示微调方法来驱动输入匹配预训练特征空间。然而这种方法并不能建模隐式篇章关系识别独有的层次化类别特征,因此如何将层次化指导信息注入到参数有效化提示微调中的软提示中,并且避免引入更多额外参数导致预训练原始空间中的知识流失成为了主要的建模目标。


技术实现思路

1、本发明的目的是为了克服现有技术中的不足,提供一种能够在数据稀缺情况下实现篇章关系层次化有效建模问题的融合参数有效化和关系标签层次语义先验的隐式篇章关系识别方法。

2、本发明提出了一种参数有效化提示微调的多层次隐式篇章关系识别方法,该方法从模型侧解决了由数据稀缺问题导致的训练不足问题,以及在提示学习的标签嵌入中注入层次化指导信息。具体而言,基于提示学习的方法一般由两部分组成:模板工程和提示标签词映射。对于输入的模板的制定,本发明没有使用人类构造的手动模板,而是在模板中注入软提示,并将其视为用于挖掘参数独特模式的可学习全局语境向量,同时冻结预训练语言模型的所有参数,从而仅通过更新软提示词调整输入特征以对齐预训练语义空间下的目标分布。然而,上述在输入层次对于分布的对齐是基于边缘分布的,所以对于掩码语言模型而言,在输出层将标签词映射到特定隐式篇章关系类别的标签词映射是至关重要的。然而,现存的这些标签词映射方法无法学习篇章关系之间的层次联系连接。目前,现有的方法需要引入特征对齐映射或额外的复杂结构(例如,图卷积神经网络,条件随机场网络),这将引入了庞大的参数量。因此,本发明提出了一种新的层次标签精炼方法,将层次化信息注入到标签词映射过程中。在方法中,只有最细粒度的标签词是参数化的,而其余层次的标签嵌入都是自下而上精炼而成,从而在每次训练迭代过程中将分散的标签语义不断聚合为更加泛化的语义,进而实现动态更新层次化标签嵌入的功能。最终,本发明对各个篇章关系层次进行联合学习,完成了层次内和层次间的标签语义信息整合过程。

3、本发明的目的通过以下技术方案实现:

4、(101)基于掩码语言模型的篇章论元语义表示获取

5、首先采用改进后的预训练语言模型进行深层篇章论元语义编码;具体方式是采用提示微调的方式,在输入中插入n1个软提示词其中v表示词表集合,下同;需要注意的是,为了方便描述,后文叙述的提示词均指软提示词。这些软提示词可以在训练过程通过反向传播的方式自行更新,从而帮助预训练模型适应于特定的任务;输入中的提示词一般插入在两个论元的周围,而标记[mask]一般插入在两个论元x1和x2之间;通过这种方式来激发预训练过程凝练的丰富语义知识,拉近预训练任务和下游任务的形式差距;经过模板构造后的输入如公式(1)所示:

6、

7、其中[p×ni]表示该位置插入了ni个连续的软提示词,ni(i∈{1,2,3,4})表示各个位置插入的软提示词的数量,并且满足

8、获得模板构造完成的后,将其送入到掩码语言模型mlm_encoder中进行进一步编码,并获取掩码语言模型[mask]标记位置的输出作为论元对表示过程如公式(2)(3)所示:

9、

10、

11、其中s为的长度,h∈rs×d是编码器最终输出,其中d为隐藏层输出维度,下同,hs(s∈{1,2,...,s})表示第s个位置的隐藏层表示,h[mask]为[mask]位置的隐藏层表示。

12、(201)构建基于提示学习的篇章关系多层分类器

13、为了能够让模型挖掘隐式篇章关系的类别特征,这里采用n2个软提示词来作为标签提示来指导类别预测。这里的n2与层次隐式篇章关系所需总分类数一致,m为篇章关系的总层次数,l(m)表示第m层次的标签集合,|l(m)|则表示该层次的标签数量;

14、对于所有提示词,将其作为特殊标识插入到词表当中,并将其对应的嵌入层向量进行随机初始化;特别地,对于标签提示词,其通过嵌入层∈获取对应的标签嵌入矩阵的过程如公式(4)所示:

15、

16、其中表示第m层次由软提示词映射而成的标签嵌入组成的矩阵,concat表示对多个嵌入矩阵按第一维进行拼接的函数。

17、(202)单层次篇章关系分类损失传播

18、初步,分别对篇章关系的每一层次进行单独分类,获取到对应层次的类别预测概率分布如公式(5)所示:

19、

20、其中t表示矩阵的转置;

21、对应层次的损失函数如公式(6)所示:

22、

23、在训练过程当中,掩码语言模型本身的所有参数都进行冻结,并只更新所有提示词的表示;在这个过程中,输入提示词通过梯度反向传播不断从论元的词表示中汲取语境知识,补足预训练模型对于隐式篇章关系的领域知识空缺;而输出提示词根据统一类别的论元表示不断抽象出类别相关信息,从而在低维空间中凝练出指导论元表示归类的抽象提示。

24、(302)层次化标签精炼基本过程

25、在上述模型架构中,类别与类别之间是独立进行分类的,并没有融入层次间的类别指导信息,从而无法保证多层次关系的正确分类。因此,本发明提出了一种层次化标签精炼方法,其不仅无需格外的结构指导或解码操作,甚至缩减了层次化分类所需要的参数,从而有效配合提示学习缓解数据稀缺问题;

26、层次化精炼可以概括为对细粒度标签的层次化聚类;方法存在两点假设:1)当细粒度类别标签语义在语义空间中逐渐收敛时,同父类子类集合在语义空间中聚类中心可近似看作父类语义;2)当下层标签的标签指导信息逐渐完善后,通过精炼获取的上层标签也获取了更加丰富的含义;

27、将|l(m)|个软提示词作为标签集合l(m)的标签嵌入;同时,在已知层次标签之间的映射关系情况下,可以根据这种映射关系自下而上不断将细粒度标签通过精炼方法g(·)融合,从而获取到较粗粒度的标签表示,并基于这些较粗粒度的标签通过g(·)继续合成更加泛化的标签嵌入;重复上述过程,自下而上不断合成标签嵌入,直到所有的标签嵌入被获取;

28、对于获取第m层的第i个类别的嵌入需要对第m+1层的标签嵌入进行精炼,基本流程表示为公式(7)所示:

29、

30、其中g(·)表示精炼方法,ε(·)表示对标签词的词嵌入函数;

31、(302)层次化标签精炼自动权重获取

32、除此之外,对于精炼方法g(·)的选取也是一个核心的问题。因此采用自学习权重的方式来权衡聚类集合中每个子类标签的影响;同时,为了能够显式地引入层次化信息,仅选取与父类存在映射关系的子类配置自学习权重,而其他子类节点权重置为0;如计算第m层的第i个标签的嵌入时,其下包含的子类集合为权重向量可通过公式(8)(9)进行获取:

33、

34、

35、其中j∈{1,…,|l(m+1)|}表示l(m+1)中第j个标签;unit(·)表示权重单元的分配函数,其受m,i,j三个变量的影响;

36、最终,公式(7)中的精炼方法g(·)可以表达为公式(10):

37、

38、f(·)为归一化函数,如softmax或l1归一化。

39、(401)篇章关系层次联合学习

40、最终,将纵向的层次化信息融入到了标签嵌入当中。为了进一步将同一层次内标签的鉴别信息和纵向的层次间交互信息进行融合,对所有层次损失进行联合学习,如公式(11)所示:

41、

42、其中λm表示第m层损失的权重超参数,来平衡不同级别的交叉熵损失。一般来说,越细粒度的层次损失越大,训练惩罚也会比上层次更大。这实际正好符合预期,因为细粒度标签嵌入好的表现同样会带动粗粒度层次的更新。

43、与现有技术相比,本发明的技术方案所带来的有益效果是:

44、(1)首次利用参数有效化提示微调方法驱动少量可学习参数来对齐预训练原始特征空间,并从参数端缓解隐式篇章关系识别任务的数据稀缺性。

45、(2)提出一种参数有效化的多层次隐式篇章关系识别方法,通过层次化标签精炼方法将层次化标签引导融入到提示微调过程中。

46、(3)提出将多层次的隐式篇章关系识别任务进行联合学习,并结合层次化标签精炼方法在标签嵌入间注入了层次化指导信息,提升单一模型的多层次分类能力。

47、(4)在两个版本的英文篇章关系标准数据集上进行了结果验证,实验结果验证了本发明的有效性,并且标签层次的可视化结果也说明了层次化标签精炼方法有效地将层次化指导引入了各个层次的标签嵌入中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1