一种融合定义与场景匹配机制的长尾词义消歧方法

文档序号:32944492发布日期:2023-01-14 10:09阅读:21来源:国知局
一种融合定义与场景匹配机制的长尾词义消歧方法

1.本发明涉及自然语言处理以及机器学习领域,具体为一种融合定义与场景匹配机制的长尾词义消歧方法。


背景技术:

2.随着人工智能技术的不断发展,智能系统的信息处理能力与水平有了长足的进步,其实用性与易用性也被终端用户所认可。在基于人机对话技术的智能产品中,苹果公司的siri、谷歌公司的now、微软公司的小冰、百度公司的小度、阿里公司的小蜜等智能产品已经被广大消费者所接受;在基于机器翻译技术的智能产品中,谷歌公司的google translate、微软公司的bing translator、腾讯公司的tmt、百度公司的百度翻译等智能产品也已经被应用于我们生活的各个领域。
3.自然语言处理(natural language processing,nlp)是以自然语言为研究对象,采用机器学习技术去分析、理解和处理自然语言的一门学科,在人机对话、机器翻译等需要自然语言处理的任务中发挥着重要的作用。词义消歧(word sense disambiguation,wsd)旨在依据给定的上下文确定目标词所属的词义,属于自然语言处理领域中的基础性研究课题,在人机对话、机器翻译、文本生成等需要自然语言理解的任务中具有举足轻重的地位。相关研究证实,对文本的基本构件(即词汇)有一个清晰的词义识别,有利于后续高阶任务的准确处理。
4.然而,词义消歧是一件困难的事情,它不仅需要目标词所处的上下文能够提供有效的可区分词义的信息,而且需要目标词的各个词义都有一个清晰且可区分的定义。也就是说,上下文信息不充分或词义定义模糊都会造成词义消歧的错误。其中词义定义模糊的根源是人类并不总是能够对所有词义达成一致,即“词义”的概念本身就是含糊不清和有争议的。对于上下文信息不充分的问题而言,有效的应对方法是扩大上下文的范围或基于大量已知数据给出最有可能的预测;但对于词义定义模糊的问题而言,尚没有被广泛认可的应对方法。需要强调的是:高频词义(或称头部词义)极少出现词义定义模糊的现象;低频词义(或称长尾词义)是该现象的重灾区。该结论也符合常识,因为人类通常情况下会尽可能地去避免出现语言歧义,所以相应的会减少使用词义定义模糊的词义。因此,长尾词义消歧是当前词义消歧面临的主要挑战。
5.目前,研究者们的思路可以归纳为数据增强的方法、知识迁移的方法和施加外部约束的方法。数据增强的方法尝试扩充词义定义的文本量以提高或改善词义表征的准确性。其中最有效的方法是整合不同语种下词义的定义。知识迁移的方法尝试融合外部知识强化词义表征的准确性。其中最受关注的方法是直接整合词义适用上下文的知识去改善词义表征的准确性。需要强调的是,由于该方法下外部知识直接来自于目标词的相同语义空间的上下文,所以该方法显著改善了词义识别的准确性。施加约束的方法假设词义定义的表征并非离散空间下的向量,而是连续空间下的。因此,该方法通过已知或确定的词义表征去获得或改善词义定义模糊的词义表征。然而上述方法都隐含了一个内在的假设,即所有
词义都可以清晰且可区分地被定义。对此语言学家已经证实,人类并不总是能够对所有的词义定义达成一致的共识。换言之,上述方法获得的词义定义的表征在对应场景下是适用的,但难以有效迁移到其它场景。


技术实现要素:

6.本发明的目的是为了克服现有技术中的不足,提供一种融合定义与场景匹配机制的长尾词义消歧方法。
7.该方法采用双匹配机制(即定义匹配与场景匹配)应对词义消歧任务中样本量巨大的高频词义(或称头部词义)与样本稀缺的长尾词义(或称尾部词义)。其中定义匹配机制是词义消歧任务中常被使用的词义识别方法;而场景匹配机制则是本发明针对于长尾词义所提出的独特的词义识别方法;同时采用双识别方法也是本发明区别于传统方法所独有的。该方法弥补了词义消歧系统实施方案中常被采用的单一的定义识别方法在应对长尾词义时的不足。在词义消歧系统实施过程中两种匹配机制并不针对性地区分高频词义与长尾词义,但实验分析发现定义匹配机制善于识别高频词义,而场景匹配机制则更适合于长尾词义。由该方法构建的词义消歧系统在标准的英语全词词义消歧评估框架下实施验证,实验结果显示该方法在多个评估集下获得优异的表现。
8.本发明的目的是通过以下技术方案实现的:
9.一种融合定义与场景匹配机制的长尾词义消歧方法,包括:
10.由词典中的词义注释文本学习词义定义的文本嵌入,也即定义嵌入,其中文本到向量的映射模型采用预训练语言模型bert,且被称作定义编码器definition-bert;
11.由词典中的词义例句文本学习词义场景的文本嵌入,也即场景嵌入,其中文本到向量的映射模型采用预训练语言模型bert,且被称作场景编码器context-bert;在获得场景嵌入过程中,隐去输入文本中所含的目标词(指将要消歧的词),以实现获得词义的场景信息;
12.由含目标词的待消歧文本学习目标词的词嵌入,也即目标词嵌入,其中文本到向量的映射模型采用预训练语言模型bert;获取目标词嵌入的预训练语言模型与获取场景嵌入的预训练语言模型共用一个bert模型;
13.基于目标词嵌入和词典中的该目标词对应的词义清单中各个词义的定义嵌入,分别计算目标词嵌入与各个定义嵌入之间的相似度,以获得定义匹配机制下该词义清单中各个词义的得分;
14.基于目标词嵌入和该目标词对应的词义清单中各个词义的场景嵌入,分别计算目标词嵌入与各个场景嵌入之间的相似度,以获得场景匹配机制下该词义清单中各个词义的得分;
15.将定义匹配机制与场景匹配机制下计算得到的得分的概率叠加和作为最终的输出值,以确定目标词的最终词义。
16.进一步的,获取定义嵌入具体包括:
17.(101)对词义定义文本进行编码:在词义定义文本的开头与结尾处分别添加开始标记[cls]和分割标记[sep],再采用bert模型的映射方法berttokenizer(
·
)将添加标记后的词义注释文本中的单词编码为相应的编号,以获得词义注释文本的编码文本;
[0018]
(102)对编码文本向量化,以获得定义嵌入:通过bert模型的向量化方法bert(
·
)获得编码文本内对应编号的词嵌入,即词义注释文本中对应单词的词嵌入。
[0019]
进一步的,其特征在于,
[0020]
对于词义注释文本w
gloss
,
[0021]wgloss
=[w1,w2,...,w
i,
...]
ꢀꢀ
(1)
[0022]
其中wi指构成词义注释文本的单词,为表述上的清晰特意省去下标gloss。
[0023]
添加开始与分割标记后为:
[0024]wgloss
=[[cls],wi,w2,...,wi,...,[sep]]。
ꢀꢀ
(2)
[0025]
采用bert模型的映射方法berttokenizer(
·
)将词义注释文本中的单词编码为相应的编号,以获得词义注释文本的编码文本c
gloss

[0026]cgloss
=berttokenizer(w
gloss
)。
ꢀꢀ
(3)
[0027]
通过bert模型的向量化方法bert(
·
)获得编码文本c
gloss
中各个编号对应的词嵌入,即
[0028][0029]
其中与分别表示编码文本中开始与分割标记对应的词嵌入。
[0030]
对应的词嵌入将被作为该词义注释文本的定义嵌入,即
[0031][0032]
进一步的,获取场景嵌入具体包括:
[0033]
(201)对词义例句文本进行编码:在词义例句文本的开头与结尾处分别添加开始标记[cls]和分割标记[sep],且词义例句文本中的目标词被替换为遮罩标记[mask];再采用bert模型的映射方法berttokenizer(
·
)将添加标记后的词义例句文本中的单词编码为相应的编号,以获得词义例句文本的编码文本;
[0034]
(202)对编码文本向量化,以获得场景嵌入:通过bert模型的向量化方法bert(
·
)获得编码文本内对应编号的词嵌入。
[0035]
进一步的,当词典中对应的词义例句文本不存在时,默认选择待消歧文本作为抽取场景信息的例句;当词典中对应的词义例句文本个数多于一个时,默认选择例句文本中单词数量最多的一个例句作为抽取场景信息的例句文本;对于词义例句文本w
example

[0036]wexample
=[w1,w2,...,w
target
,...,wi,...]
ꢀꢀ
(7)
[0037]
其中wi指构成词义例句文本的单词,为表述上的清晰特意省去下标example;w
target
表示词义例句文本中的目标词,它可以出现在任意位置。
[0038]
添加开始与分割标记并替换遮罩标记后的形式为:
[0039]wexample
=[[cls],w1,w2,...,[mask],...,wi,...,[sep]]。
ꢀꢀ
(8)
[0040]
再采用bert模型的编码方法berttokenizer(
·
)将词义例句文本中的单词编码为对应的编号,即
[0041]cexample
=berttokenizer(w
example
)。
ꢀꢀ
(9)
[0042]
在词义例句文本的编码文本的基础之上,通过bert模型的向量化方法bert(
·
)获得词义例句文本中对应编号的词嵌入:
[0043][0044]
其中与分别表示编码文本中开始与结束标记对应的词嵌入;v
[mask]
表示遮罩标记所对应的词嵌入。
[0045]
对应的词嵌入被作为对应词义的场景嵌入,即
[0046][0047]
进一步的,获取目标词嵌入具体包括:
[0048]
(301)对含目标词的待消歧文本进行编码:在含目标词的待消歧文本的开头与结尾处添加开始标记[cls]和分割标记[sep],对于待消歧文本w
text

[0049]wtext
=[w1,w2,...,wi,...]
ꢀꢀ
(13)
[0050]
其中wi指构成待消歧文本的单词,为表述上的清晰特意省去下标text;目标词w
target
属于w
text
,即w
target
∈w
text

[0051]
则添加开始与分割标记后为:
[0052]wtext
=[[cls],w1,w2,...,wi,...,[sep]]。
ꢀꢀ
(14)
[0053]
再采用bert模型的映射方法berttokenizer(
·
)将w
text
中的单词编码为相应的编号,即
[0054]ctext
=berttokenizer(w
text
)。
ꢀꢀ
(15)
[0055]
(302)对编码文本向量化,以获得目标词嵌入:通过bert模型的向量化方法bert(
·
)获得编码文本内对应编号的词嵌入:
[0056][0057]
其中与分别表示编码文本中开始与结束标记对应的词嵌入;v
target
对应的词嵌入则为目标词的词嵌入。
[0058]
这里目标词对应的词嵌入v
target
作为最终输出的目标词嵌入v
target
,即
[0059]vtarget
≡v
target

ꢀꢀ
(18)
[0060]
进一步的,定义匹配机制与场景匹配机制下计算结果的概率叠加和作为最终的输出值,以确定目标词的最终词义,具体包括:
[0061]
(401)计算目标词嵌入与该目标词对应的词义清单中各个定义嵌入之间的相似度:
[0062]
基于获得的目标词嵌入v
target
和该目标词对应的词义清单中所有的定义嵌入其中索引i指该词义清单中第i个词义,在定义匹配机制下目标词属于各个词义的得分为
[0063][0064]
其中运算符

表示向量点积运算;
[0065]
(402)计算目标词嵌入与该目标词对应的词义清单中各个场景嵌入之间的相似度:
[0066]
基于目标词嵌入v
target
和该目标词对应词义清单中各个词义的场景嵌入其中索引i指该词义清单中第i个词义;在场景匹配机制下目标词属于各个词义的得分为
[0067][0068]
(403)对定义匹配机制与场景匹配下获得的各个词义的得分进行概率叠加求和,并作为最终的输出值scorei,其中最大输出值所对应的词义就为目标词在该待消歧文本中最有可能的词义:
[0069][0070]
其中且α+β=1;α,β被设定为固定值,或是基于其它参数学习的一个变量。
[0071]
此外,在模型训练过程中,优化器为主流的学习率自适应优化算法adam,其损失函数为
[0072][0073]
其中索引index表示目标词的对应词义清单中词义的索引。
[0074]
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述融合定义与场景匹配机制的长尾词义消歧方法的步骤。
[0075]
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述融合定义与场景匹配机制的长尾词义消歧方法的步骤。
[0076]
与现有技术相比,本发明的技术方案所带来的有益效果是:
[0077]
1.传统的定义匹配机制能够有效应对高频词义消歧,但难以有效应对长尾词义,长尾词义存在着严重的固定搭配、特定适用场景的现象;本发明利用了长尾词义的场景信息去增强词义的识别能力,提出了适用于长尾词义识别的场景匹配机制以应对长尾词义消歧。该方法考虑了长尾词义的特征,即搭配词与适用场景比较固定和难以形成统一的有效的定义描述的特点,使用词典中词义的例句学习目标词的场景嵌入,进而实现对长尾词义消歧。
[0078]
2.在实施过程中定义匹配与场景匹配方法搭配使用,并通过使用权重系数达成二者的协调一致,最终实现对包括长尾词义在内的所有词义的有效识别。该融合定义与场景匹配机制的词义消歧方法弥补了由传统的单一匹配机制实施的词义消歧系统在长尾词义消歧方面的不足,有效改善了词义消歧系统整体的表现。
[0079]
3.在模型训练过程中,通过整合各自的损失函数达到定义编码器和场景编码器联
合训练的目的,以实现借用训练集中提供的大量待消歧文本改善词义注释文本因固定的定义描述所造成的语义知识匮乏,进而实现借用待消歧文本的知识增强定义嵌入的表征能力。
[0080]
4.由于含目标词的待消歧文本本质上就是词义的一个例句,因此它可以与获取场景嵌入的映射模型共用一个预训练语言模型,即context-bert。这样操作的优势在于节省了一个预训练语言模型在硬件资源与训练成本上的花销;同时获得场景嵌入和目标词嵌入的训练文本都在一个预训练语言模型上训练,将会使预训练语言模型获得更充分的优化,进而获得更为准确的嵌入表征。
[0081]
5.双匹配机制识别方案是在现行的单匹配机制上的一个有效扩展,其填补了词义消歧领域中双匹配机制的空白;同时为多匹配机制的实施指明了方向。
附图说明
[0082]
图1为本发明方法的整体框架结构图,其中包含两个由预训练语言模型实现的编码器,即词义定义编码器和词义场景编码器,并且词义场景编码器同时被用于获取目标词嵌入和场景嵌入。
[0083]
图2a和图2b为该方法分别在构建的头部词义数据集与长尾词义数据集下的实验分析结果,其中图2a为头部词义数据集下的实验结果,图2b为长尾词义数据集下的实验结果。
[0084]
图3a和图3b为本发明方法在消融实验下的实验分析结果,其中图3a为词义定义编码器的消融实验分析结果,图3b为词义场景编码器的消融实验分析结果。
具体实施方式
[0085]
以下结合附图和具体实例对本发明作进一步详细说明。应当理解,此处所描述的具体实例仅用以解释本发明,并不用于限定本发明。
[0086]
本发明提供一种融合定义与场景匹配机制的长尾词义消歧方法,其包括以下内容:
[0087]
(1)对目标词实施定义匹配机制下的词义识别:
[0088]
为了对目标词实施定义匹配机制下的词义消歧,需要基于给定待消歧文本获得目标词的词嵌入,基于词典中给定的词义注释文本获得目标词对应词义清单中各个词义的定义嵌入,最后分别计算目标词嵌入与各个定义嵌入之间的相似度以确定各个词义的得分。具体操作细节分为如下三个步骤:
[0089]
(101)获取目标词的词嵌入,即目标词嵌入:
[0090]
如图1所示,对于给定的一段待消歧文本text,且该文本中含需要消歧的目标词w
target
,则该待消歧文本可以被形式化地描述为
[0091]wtext
=[w1,w2,...,wi,...]。
ꢀꢀ
(1)
[0092]
此处需要说明的是文本中需要消歧的目标词不限个数,为了演示的方便和易于理解,本实例仅给出一个需要消歧的目标词,即w
target
,且w
target
∈w
text

[0093]
首先,采用预训练语言模型bert的通行做法,在文本的开头与结尾处分别添加开始标记[cls]和分割标记[sep]。需要说明的是这里的结尾处指段落和句子级的结尾,子句
级的结尾处并不添加分割标记[sep]。添加标记后的文本为
[0094]wtext
=[[cls],w1,w2,...,wi,...,[sep]]。
ꢀꢀ
(2)
[0095]
其次,采用bert模型的映射方法berttokenizer(
·
)对待消歧文本中的单词进行编码,即将每个单词映射为一个具体的编号。该映射关系由bert模型提供,其中开始标记[cls]被映射为101,分割标记[sep]被映射为102。此外需要说明的是对于英语中动词的过去式和过去分词依然采用bert模型通行作法将其分割为两项进行处理。
[0096]
编码后的待消歧文本被称为编码文本,如
[0097][0098]
其中
[0099]
再次,采用bert模型的向量化方法bert(
·
)对编码文本进行向量化,以获得每个编号对应的词嵌入:
[0100][0101]
其中目标词被向量化为v
target
。对于需要消歧的目标词为动词的过去式和过去分词形式时,由于在编码环节被分割为两项,这里需要将其合并起来,具体操作是将向量按位相加。
[0102]
最后,目标词嵌入由目标词对应的词嵌入所定义,即
[0103]vtarget
≡v
target
ꢀꢀ
(7)
[0104]
(102)获取目标词对应词义清单中各个词义的定义嵌入:
[0105]
如图1所示,对于词典中目标词对应的词义清单中各个词义的注释文本glossj,其可以被形式化地描述为
[0106][0107]
其中索引j表示该词义清单中第j个词义的索引。需要说明的是词义注释中不包含目标词,即
[0108]
首先,采用预训练语言模型bert的通行做法,在文本的开头与结尾处分别添加开始标记[cls]和分割标记[sep],其添加规则与上文描述方法一致。则添加标记后的文本为
[0109][0110]
其次,采用bert模型的映射方法berttokenizer对单词进行编码,其编码规则与上文描述方法一致。则编码后的文本为
[0111][0112]
再次,采用bert模型的向量化方法bert(
·
)对编码后的文本进行向量化,以获得每个编号对应的词嵌入:
[0113][0114]
最后,采用业内通行做法,使用开始标记[cls]所对应的词嵌入作为该词义注释文本的文本嵌入,即定义嵌入,
[0115][0116]
(103)计算定义匹配机制下目标词的各个词义的得分:
[0117]
基于上述获得的目标词嵌入v
target
和该目标词对应词义清单中各个词义的定义嵌入分别计算目标词嵌入与各个定义嵌入之间的相似度以获得各个词义的得分,即
[0118][0119]
其中符号

表示点积运算。
[0120]
则定义匹配机制下目标词对应的词义清单中各个词义的得分为
[0121][0122]
(2)对目标词实施场景匹配机制下的词义识别:
[0123]
为了对目标词实施场景匹配机制下的词义消歧策略,需要基于给定待消歧文本获得目标词的词嵌入,基于词典中给定的词义例句文本获得目标词对应词义清单中各个词义的场景嵌入,最后分别计算目标词嵌入与各个场景嵌入之间的相似度以确定各个词义的得分。具体操作细节分为如下三个步骤:
[0124]
(201)获取目标词的词嵌入,即目标词嵌入:
[0125]
该部分目标词的词嵌入获得方法与(101)处所述方式相同,在词义消歧系统实施过程中,这两个目标词的词嵌入可以被共用。实验分析发现:共用目标词嵌入的实验结果要优于采用不同预训练语言模型获得的目标词嵌入。其原因在于共用目标词嵌入后,定义匹配机制与场景匹配机制之间能够实现相互制约以避免词嵌入在优化过程中走向局域最优的情况,如只对头部词义识别有效而对长尾词义识别无效的状况。
[0126]
为了阅读上的便利,这里再次给出目标词嵌入的形式化描述:
[0127]vtarget
≡v
target
∈v
text
ꢀꢀ
(17)
[0128]
其中v
text
表示含目标词的待消歧文本,v
target
表示待消歧文本中目标词的词嵌入。
[0129]
(202)获取目标词对应词义清单中各个词义的场景嵌入:
[0130]
如图1所示,对于词典中目标词对应词义清单中各个词义例的句文本examplek,可以被形式化地描述为
[0131][0132]
其中索引k表示该词义清单中第k个词义对应的例句的索引。需要说明的是词义例句文本中包含目标词,即
[0133]
由于词典中各个词义并非都只提供一个例句,而只提供一个例句的占比较大,所以为了处理的方便都统一使用一个例句。对于词典中词义例句个数大于一个的情况,统一
选择文本单词个数最多的一个例句;对于词典中并未提供例句的情况,统一采用待消歧文本作为例句。
[0134]
首先,采用预训练语言模型bert的通行做法,在文本的开头与结尾处分别添加开始标记[cls]和分割标记[sep],其添加规则与上文描述方法一致。则添加标记后的文本为
[0135][0136]
由于这里需要获得的是词义的场景信息,所以需要将文本中的目标词替换为遮罩标记[mask],即
[0137][0138]
其次,采用bert模型的映射方法berttokenizer(
·
)对单词进行编码,其编码规则与上文描述方法一致。则编码后的文本为
[0139][0140]
再次,采用bert模型的向量化方法bert(
·
)对编码后的文本进行向量化,以获得每个编号对应的词嵌入:
[0141][0142]
最后,采用业内通行做法,使用开始标记[cls]所对应的词嵌入作为该词义的场景嵌入,即
[0143][0144]
(203)计算场景匹配机制下目标词的各个词义的得分:
[0145]
基于上述获得的目标词嵌入v
target
和目标词对应词义清单中各个词义的场景嵌入分别计算目标词嵌入与各个场景嵌入之间的相似度以获得各个词义的得分,
[0146][0147]
其中符号

表示点积运算。
[0148]
则场景匹配机制下目标词的各个词义的得分为
[0149][0150]
(3)整合定义与场景匹配机制下的结果,以确定目标词的最终词义:
[0151]
如图1所示,该方法的最终输出为定义匹配机制与场景匹配机制下计算结果的概率叠加和,即
[0152]
score=α
·
score
definition

·
score
context
ꢀꢀ
(28)
[0153]
其中且α+β=1。
[0154]
此外,需要说明的是:α,β可以被设定为固定的值,也可以基于其它参数而学习的一个可变值。通过实验分析发现,将其设置为相等的值时最终的实验效果最好,即α=β=1/
2。因为当它们设置为相等的值时,两种匹配机制的作用或贡献才能发挥相等的价值;当选择不相等的值时,人为的倾向于某一方反而不利于均衡它们各自的贡献。
[0155]
此外,在模型训练过程中,优化器为主流的学习率自适应优化算法adam,其损失函数为
[0156][0157][0158]
其中索引index表示目标词的词义清单中各个词义的索引。
[0159]
具体的,为验证本发明方法在现实系统中的有效性,这里基于本发明构造了词义消歧系统以验证该发明在具体任务中的价值与贡献。具体步骤如下所述:
[0160]
(1)数据集:
[0161]
标准评估实验设置:该评估设置是在标准的英语全词词义消歧评估框架
[1]
下实施实验验证,其训练集为semcor;开发集为semeval-2007(se07);测试集为senserval-2(se2)、senserval-3(se3)、semeval-2013(se13)、semeval-2015(se15)。此外,所有测试集的整合体也被作为一个测试集(被称为测试集的整合集),其中的动词(被称为动词集)、名词(被称为名词集)、形容词(被称为形容词集)和副词(被称为副词集)也被分别作为单独的测试集。各数据集的统计信息如表1所示,其中包括数据集(dataset)的文档数(#docs)、段落数(#sents)、单词数(#tokens)、被标注的目标词数(#annos)、词义个数(#senses)、被使用的词义个数(#lemmas)和数据集的歧义度(#ambiguity)。
[0162]
表1:开发集与测试集的信息统计表
[0163]
dataset#docs#sents#tokens#annos#senses#lemmas#ambiguityse2324257662282133510935.4se333525541185011679776.8se07313532014553753308.5se1313306839116448277514.9se154138260410226595125.5
[0164]
增强评估实验设置:在原训练集的基础之上,将数据集wngt扩充进来,构造增强型的训练集。构造该训练集的原因是:当前词义消歧系统越来越大,需要学习的参数越来越多,许多对比系统都采用了扩展训练集的方法加以应对,所以为了对比实验的严谨性,这里也提供了增强型的训练集。此外,开发集和测试集依然采用标准评估实验设置的数据集。
[0165]
头部词义与长尾词义评估设置:由于本发明的突出贡献在于长尾词义消歧,所以这里构造了头部词义测试集与长尾词义测试集。其构造方法是将测试集的整合集中的头部词义划归为头部词义测试集,长尾词义划归为长尾词义测试集。此外,训练集与开发集依然采用标准评估实验设置的数据集。
[0166]
最后,实验中所有结果都采用通用的f1值(f1-score)的百分比作为评估指标。
[0167]
(2)对比系统:
[0168]
由本发明方法构造的词义消歧系统与当前先进且具有代表性的系统进行比较,以
明确本发明方法的有效性,其中对比系统包括lmms[2]、ewise[3]、glossbert[4]、sref[5]、ares[6]、ewiser[7]、bem[8]、sparselmms[9]、cof[10]、esr[11]、multi-label[12]、sace[13]。
[0169]
lmms:该工作证明了上下文嵌入可以用在词义消歧任务中,且对系统的最终表现能够提供有效的促进作用。
[0170]
ewise:该工作提出了一个能够整合词义嵌入的监督模型,该模型将原本的离散的标签空间替换为连续的词义嵌入空间,且实验结果表明该方法在未知的词义上有着很强的泛化能力。
[0171]
glossbert:该工作首次提出整合词义注释实现词义消歧的方案,其核心思想是将目标词的上下文与词义注释结对进行训练,并最终通过一个分类器实现词义消歧。
[0172]
sref:该工作提出了一个同义词关系增强的框架,该框架利用词义关系来增强词义嵌入的表征能力。
[0173]
ares:该工作提出了一种半监督方法,用于为词汇知识库中的词汇生成上下文化的词嵌入,其优势在于生成的向量与知识库中的向量在相同的语义空间。
[0174]
ewiser:该工作提出一种能够整合图知识的神经监督架构,并利用预训练的同义词嵌入使网络能够预测同义词。
[0175]
bem:该工作提出使用双编码器联合训练的方式实现使用训练文本语义知识增强词义表征的目的,并证明长尾词义可以通过对其定义进行建模来更有效地实施消歧。
[0176]
sparselmms:该工作引入了一种受信息论启发的同义词集表征方法,该方法从词义的共现、词形等角度建立了词义间的关系,充分的挖掘了同义词间的内在联系。
[0177]
cof:该工作研究了词汇级与词义级全局上下文对词义消歧的贡献,指出面向上下文的嵌入能够有效改善词义消歧系统的性能。
[0178]
esr:该工作充分融合了同义词、示例短语或句子以及上位词的词义注释,以增强词义的表征能力。
[0179]
multi-label:该工作将词义消歧视为一个多标签分类问题,其为每个目标词分配多个词义,以实现融合语义网络中的结构化知识的目的。
[0180]
sace:该工作通过相似的词义上下文去增强词义嵌入的学习能力,不仅有效地回避了由单个词义注释在学习词义嵌入时的单一性,而且使原本的决策行为转换为相互关联的决策过程。
[0181]
(3)实验结果与分析:
[0182]
在标准评估实验设置下的实验结果如表2所示。其中bi-mwsd表示由本发明方法得到的结果;由实验结果来看,本发明构造的词义消歧系统在多个评估数据集上获得了不俗的表现,说明本发明确实对系统的整体表现有一定的促进作用。其中在开发集上的优秀表现说明该系统能够有效学习训练过程中出现的样本特征;同时在测试集的整合集上的结果表明该系统在未知数据上具有很好的推广能力。但对于该系统整体的表现是否源于对长尾词义的有效识别问题,将在长尾词义数据集和模型消融研究的评估实验中给出分析。
[0183]
对于在测试集se15、形容词集、副词集上的不佳表现,作如下分析:
[0184]
1)通过对测试集se15中目标词的分布情况分析发现,该数据集中形容词与副词的占比要多于其它测试集,而上述词类所具有的词义个数相对较少。同时由表1中各数据集的
困难度指标来看,该测试集的困难度为5.5,相比较低。说明对于长尾词义个数较少的数据集而言,由本发明构造的词义消歧系统并不能够获得最佳表现,反向说明当长尾词义占比较低时针对长尾词义而设计的场景匹配机制会拖累系统的整体表现。
[0185]
2)通过对形容词集中目标词的词义个数的统计分析发现,该数据集中词义个数相比其它数据集而言相对较少,说明该测试集的消歧难度相对简单。由本发明构造的词义消歧系统的实验结果说明针对于长尾词义设计的场景匹配机制确实在简单数据集上会对系统的整体表明构成拖累。该结论与上述结论相似。
[0186]
3)副词集中目标词的词义个数同样较少,该结果同样说明了上述结论。
[0187]
表2:标准评估设置下的实验结果
[0188][0189]
在增强评估实验设置下的实验结果如表3所示。从实验结果来看,由本发明构造的词义消歧系统在增强的训练集上训练模型确实能够提高系统整体的表明。但系统依然在测试集se15、形容词集、副词集上的表现并非最佳,其原因依然是针对于长尾词义设计的场景匹配机制拖累了系统整体的表现。通过调整定义匹配机制与场景匹配机制贡献的比重,该现象会得到好转,但并不能实质上的改变这一现象。在开发集上的实验结果与最强系统相比相差在0.1个百分点,这样的结果并不能说明由本发明构造的词义消歧系统相对较弱。在测试集se2上的表现要弱于最强系统,但通过对比其它系统在该数据集上的表现来看,由本发明构造的词义消歧系统依然具有一定的竞争力。
[0190]
表3:增强评估设置下的实验结果
[0191][0192]
为了更进一步明确本发明各部分具体针对于头部词义与长尾词义的价值,这里专门设计了头部词义与长尾词义的测试集。在头部词义测试集上的实验结果如图2a所示。对比系统选择了与本发明最为相似的两个系统,即glossbert和bem。从实验结果来看由本发明构造的词义消歧系统整体表现要优于glossbert,但逊色于bem,说明对头部词义而言,该系统确实并不具有优势,其可能的原因依然是针对于长尾词义设计的场景匹配机制在一定程度上拖累了对头部词义的识别能力。在长尾词义测试集上的实验结果如图2b所示。对比系统依然采用的是glossbert和bem。从实验结果来看,由本发明构造的词义消歧系统全面的超越了对比系统,说明本发明提出的针对长尾词义的场景匹配机制在长尾词义识别中有着卓越的贡献。从这一点来看,为系统增加针对于长尾词义识别的场景匹配机制是必要的,且能够有效提高长尾词义的识别能力。
[0193]
(4)模型消融研究:
[0194]
划分头部词义与长尾词义测试集已经能够证明场景匹配机制的有效性,但为了分析的严谨性,这里采用了传统的模型消融研究的方法,从模型的角度更进行一步研究模型各部分构件对系统整体表现的贡献。
[0195]
对定义预训练语言模型(definition-bert)采用冰冻模型参数(对应的消融模型被简记为frozen)和直接移除(对应的消融模型被简记为removed)该部分的方法来分析定义预训练语言模型对系统整体表现的作用。其中冰冻模型参数是指阻止训练过程中预训练语言模型更新参数,直接移除该部分指不使用定义匹配机制。实验结果如图3a所示。由实验结果来看,原始系统(对应的模型被简记为original)的表现要远优于其它两种消融模型,冰冻模型参数的方法要优于直接移除该部分的方法。说明定义匹配机制是有用的,也说明即使该预训练语言模型不学习训练集中的特征信息也依然具有一定的作用。
[0196]
对场景预训练语言模型(context-bert)同样采用冰冻模型参数和直接移除该部分的方法。这里需要强调的是直接移除该部分指移除场景匹配机制的功能,但依然保留目标词嵌入的学习能力。此外,由于该预训练语言模型同时负责目标词嵌入与场景嵌入的学习,所以对该预训练语言模型的分析增加了分离功能的消融方法(对应的模型被简记为split)。其中分离功能指采用两个预训练语言模型分别实现原本由一个预训练语言模型实现的功能。实验结果如图3b所示。从实验结果来看,原始模型表现最佳,冰冻模型参数的消融模型表现最次,直接移除该部分的消融模型和分离功能的消融模型略低于原始模型,直接移除场景匹配机制的消融模型要优于分离功能的消融模型。冰冻模型参数的消融模型表现最次的原因在于无法学习到有效的目标词嵌入,所以表现不佳。直接移除该部分的消融模型和分离功能的消融模型略低于原始模型的原因在于长尾词义在测试集的整合集中的占比不大,这些操作对系统整体表现影响不会太大。对于直接移除场景匹配机制的消融模
4320
[0211]
[12]simone conia,roberto navigli:framing word sense disambiguation as a multi-label problem for model-agnostic knowledge integration.eacl 2021:3269-3275
[0212]
[13]ming wang,yinglin wang:word sense disambiguation:towards interactive context exploitation from both word and sense perspectives.acl/ijcnlp 2021:5218-5229。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1