基于深度特征融合的句子级关系抽取方法及装置

文档序号：33057510发布日期：2023-01-25 00:27阅读：33来源：国知局

1.本发明涉及自然语言处理技术领域，具体为一种基于深度特征融合的句子级关系抽取方法及装置。

背景技术：

2.关系抽取是从文本中识别出实体及其实体之间的关系，关系抽取是构建大规模知识图谱的重要环节，是实现自动化构建大规模知识图谱的重要技术。知识抽取，旨在从半结构化数据(如网页中的表格、列表)或者非结构化数据(如纯文本数据)抽取到关系三元组，包含两个实体和实体间的关系(主体-关系-客体)。目前句子级知识抽取模型包含两种研究方法：流水线关系抽取以及实体关系联合抽取。流水线式关系抽取模型，如zelenko、mintz和chan and roth等人将关系抽取分为两个独立的子任务：命名实体识别和关系分类，子任务分为两个阶段完成，第一阶段先对自然语言文本进行实体标记，第二阶段根据标记好的实体进行关系的分类。联合抽取模型是实体识别和关系分类同时建模，zheng等人提出一种新型标注策略方法，将关系三元组抽取作为序列标注问题，实现实体和关系的同时识别，但是该方法无法解决重叠关系三元组问题；yuan等人利用encoder-decoder的方法，编码端对输入的词序列进行编码，解码端输出该序列对应的关系三元组序列，该方法虽然考虑了关系三元组重叠的问题，但是存在暴露偏差的问题；liu和wang等人提出将关系抽取分解成多个相互依赖的子任务，首先建立关系三元组抽取子任务的模型，然后将各个模型的目标函数进行组合形成联合抽取的目标函数，通过对目标函数进行优化，获得关系抽取各个子任务的结果，这种方法虽然解决了重叠关系问题，但是模型中没有充分利用三元组之间的关联关系，导致关系抽取准确率受限。
3.目前存在的句子级关系抽取方法，流水线式关系抽取方法由于在每个子阶段都有可能存在误差，这种误差会从前面的环节逐步传播到后面的环节，从而导致误差不断积累，使得关系抽取的性能急剧衰减，同时流水线式关系抽取生成关系三元组的过程中使得不存在关系的实体也需要进行关系判断，产生大量不必要的冗余，而且两个子任务独立完成，没有充分利用子任务之间存在的关联关系。联合抽取方法，在实体关系同时抽取时会引入暴露偏差或者seo(single entity overlap)、epo(entity pair overlap)、以及soo(subject object overlap)重叠关系问题。其中seo表示三元组中的一个实体与其他关系三元组重叠，epo表示两个实体间存在多个关系，soo表示实体在同一种关系中既是主体也是客体。并且目前存在的联合抽取方法，并没有充分利用关系三元组之间的特征关联，从而导致关系抽取准确率受限的问题。
4.综上所述，目前句子级自动关系抽取模型仍然存在几点待改善的问题：
5.(1)级联误差：流水线式方法，存在级联误差，导致模型很难取得好的效果；
6.(2)关系重叠：联合关系抽取方法中的标注方法，虽然解决了级联误差问题，但是引入了seo、epo、以及soo等问题。
7.(3)暴露偏差：联合关系抽取模型中的encoder-decoder方法，虽然解决了三元组
重叠问题，但是因为训练阶段和推理阶段的差异，引入了暴露偏差的问题。
8.(4)交互缺失：联合关系抽取模型中的拆分子任务方法，在拆分子任务时没有充分考虑主体-关系-客体三元组之间存在的关联特征，导致最后利用各个子任务结果进行三元组构建时，效果不达预期。

技术实现要素：

9.针对以上问题，本发明提出了一种基于深度特征融合的句子级关系抽取方法及装置，该句子级关系抽取模型主要分为两个模块：基于关系的实体识别模块，以及词项关联模块，实体识别模块识别出句子中特定关系下的主体与客体，词项关联模块记录词项之间在特定关系下的联系，两模块相互作用，不仅解决了重叠关系问题，而且提高了关系抽取的准确率。
10.本发明的技术内容包括：
11.一种基于深度特征融合的句子级关系抽取方法，所述方法包括：
12.基于bert预训练语言模型，得到每一个词项对应的语义特征；
13.结合所述语义特征，获取关系m下注意力机制计算的所述词项间的关联矩阵lm，并基于所述关联矩阵lm，预测所述词项间在所述关系m下的关联矩阵am；
14.基于所述关联矩阵lm与所述语义特征，分别计算每一所述词项作为主体元素在所述关系m下的客体特征，以及作为客体元素在所述关系m下的主体特征；
15.将所述语义特征分别与所述客体特征、所述主体特征拼接，并对拼接结果进行序列标注，得到对应的词在关系m下的主体标注特征和客体标注特征，以判断该词为主体实体、客体实体或非实体；
16.基于所述句子中的所述主体实体、所述客体实体与所述关联矩阵am，得到在所述关系m下的关系三元组。
17.进一步地，所述结合所述语义特征，获取关系m下注意力机制计算的所述词项间的关联矩阵lm，并基于所述关联矩阵lm，预测所述词项间在所述关系m下的关联矩阵am，包括：
18.将词向量序列通过一全连接，得到输入s；其中，所述词向量序列包含每一个词对应的语义特征；
19.根据所述输入s，分别生成关系m下自注意力机制的查询向量与索引向量；
20.基于所述查询向量与所述索引向量进行自注意力计算，得到关系m下注意力机制计算的所述词项间的关联矩阵lm；
21.利用sigmoid函数将所述关联矩阵lm中的关联值映射为(0,1)区间，得到所述词项间在所述关系m下的关联矩阵am。
22.进一步地，所述基于所述关联矩阵lm与所述语义特征，计算每一所述词项作为主体元素在所述关系m下的客体特征，包括：
23.利用softmax函数计算词项间的关联权重，将所述关联矩阵lm中的关联值映射为(0,1)区间，得到主体关联权重矩阵gsm；
24.基于所述关联权重矩阵gsm与所述语义特征，计算对应的词项作为主体元素时，在关系m下的客体特征。
25.进一步地，所述基于所述关联矩阵lm与所述语义特征，计算每一所述词项作为客
体元素在所述关系m下的主体特征，包括：
26.转置所述关联矩阵lm，得到矩阵l
tm
；
27.利用softmax函数将所述矩阵l
tm
中的关联值映射为(0,1)区间，得到客体关联权重矩阵gom；
28.基于所述关联权重矩阵gom与所述语义特征，计算对应的词项作为客体元素时，在关系m下的主体特征。
29.进一步地，所述将所述语义特征分别与所述客体特征、所述主体特征拼接，并对拼接结果进行序列标注，得到对应的词在关系m下的主体标注特征和客体标注特征，以判断该词为主体实体、客体实体或非实体，包括：
30.将所述语义特征与所述客体特征拼接，得到主体拼接结果；
31.将所述语义特征与所述主体特征拼接，得到客体拼接结果；
32.采用bio标注方法，分别所述主体拼接结果与所述客体拼接结果，得到主体实体标签概率和客体实体标签概率；
33.基于所述主体实体标签概率和客体实体标签概率，判断对应的词是主体实体、客体实体或非实体。
34.进一步地，所述基于所述句子中的所述主体实体、所述客体实体与所述关联矩阵am，得到所述句子在所述关系m下的关系三元组，包括：
35.计算主体实体与客体实体之间存在关系m的概率其中，ei表示所述主体实体，ej表示所述客体实体，|ei|表示主体实体的长度，|ej|表示客体实体的长度，pi表示所述主体实体在所述句子中的起始位置，qi表示所述主体实体在所述句子中的终止位置，pj表示所述客体实体在所述句子中的起始位置，qj表示所述客体实体在所述句子中的终止位置，表示在所述关系m下所述主体实体中词项l与所述客体实体中词项d之间的关联；
36.将所述概率δ与一设定阈值进行比较，判断所述主体实体与所述客体实体是否存在所述关系m；
37.在所述概率δ大于所述设定阈值的情况下，基于所述主体实体、所述客体实体以及所述关系m，构建关系三元组。
38.一种基于深度特征融合的句子级关系抽取装置，所述装置包括：
39.编码模块，用于基于bert预训练语言模型，得到每一个词对应的词项以及语义特征；
40.词项关联模块，用于结合所述语义特征，获取关系m下注意力机制计算的所述词项间的关联矩阵lm，并基于所述关联矩阵lm，预测所述词项间在所述关系m下的关联矩阵am；
41.特征融合模块，用于基于所述关联矩阵lm与所述语义特征，分别计算每一所述词项作为主体元素的客体特征，以及作为客体元素的主体特征；
42.实体识别模块，用于将所述语义特征分别与所述客体特征、所述主体特征拼接，并对拼接结果进行序列标注，得到对应的词在关系m下的主体标注特征和客体标注特征，以判断该词为主体实体、客体实体或非实体；
43.关系三元组生成模块，用于基于所述句子中的所述主体实体、所述客体实体与所
述关联矩阵am，得到在所述关系m下的关系三元组。
44.进一步地，所述词项关联模块训练的loss函数采用交叉熵计算，所述词项关联模块的loss函数块的loss函数其中，m表示关系类型的个数，n表示句子的长度，表示关系m下第i个词项与第j个词项之间真实的关联值，表示关系m下所述词项关联模块预测出的第i个词项与第j个词项之间的关联值，表示第i个词项与第j个词项之间存在关系m，表示第i个词项与第j个词项之间不存在关系m。
45.进一步地，所述实体识别模块训练的loss函数进一步地，所述实体识别模块训练的loss函数其中，表示关系m下第i个词项的真实主体或客体的标签，表示关系类型m下第i个词项的预测主体或客体的标签概率。
46.进一步地，所述装置训练的loss函数l＝losse+lossr。
47.与现有技术相比，本发明具有以下优势：
48.(1)设计了一个句子级的联合抽取模型框架，包括基于关系的实体识别模块和词项间关联模块，可以同时解决seo、epo、以及soo三类关系重叠问题。
49.(2)充分考虑了关系三元组间的特征关联。利用词项关联模块计算特定关系下的词项间关联矩阵，根据关联矩阵得到三元组的关联特征向量，帮助实体识别模块区分实体是哪种关系下的主体和客体，从而提高特定关系下的主、客体标注成功率，而主客体标注成功又会反作用于词项间关联计算，使得有监督的词项关联度计算准确率更高。两个模块相互作用，达到更好的关系抽取效果。
附图说明
50.图1句子级关系抽取模型框架示意图。
具体实施方式
51.为了使本发明的目的、方案及优点更加清楚明白，以在真实数据集上进行的实验为例，对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
52.本发明提出了一种句子级关系抽取方法，针对联合抽取模型存在的关系重叠问题，本发明设计了一个关系自动抽取的模型框架，包括基于关系的实体识别以及特定关系的词项关联矩阵，该模型框架可以充分解决seo、epo、soo的问题；针对联合抽取模型没有充分利用主体-关系-客体三元组间关联关系的问题，本发明基于主体特征、关系特征、客体特征三者间存在强相关性的事实，设计了实体关系特征的深度融合，在主体标注时，不仅考虑主体自身作为实体的特征，而且加入了特定关系下的相关客体的特征，使得主体识别模块学习到是哪类关系下的主体；同理，在客体识别时，不仅考虑客体自身作为实体的特征，而且加入了特定关系下的相关主体的特征，使得客体识别模块学习到是哪类关系下的客体。
区别于以往的实体识别方法，本方法只会识别出关系三元组中的实体，从而大大降低了实体识别的冗余度。
53.本发明的句子级关系抽取装置，包括编码模块、词项关联模块、特征融合模块、实体识别模块和关系三元组生成模块。如图1所示，本发明的装置包括：
54.1.编码模块
55.在实体识别模块中，本发明采取主体与客体分别标注的方法。编码模块采用bert预训练语言模型完成，输入为句子对应的文本序列，输出为词项对应的语义特征序列
56.2.词项关联模块
57.本发明将特定关系下的词项间的关联计算转换成有监督的multi-head自注意力模型，每个关系类型都独立的计算词项间的关联，head的个数为关系类型的数目。首先将词项的编码特征通过全连接层得到词项关联模块的输入s，公式如下所示，其中表示权重，表示偏置。
58.s＝wah+ba59.利用multi-head自注意力模型计算词项间特定关系下的关联性，具体公式如下：
[0060][0061]am
＝sigmoid(lm)
[0062]
与分别表示关系m下计算qm与km权重矩阵，qm表示关系m下注意力机制中的查询向量，km表示关系m下注意力机制中的索引向量，lm表示关系m下注意力机制计算的词项间关联矩阵，am∈rn×n表示词项之间预测出的在关系m下的关联矩阵，其中元素表示第i个词项与第j个词项之间存在关系m的概率。z表示真实的关联矩阵，当实体e1＝{ts1，ts2,
…
,tsk}与实体e2＝{to1，to2,
…
,to
p
}之间存在关系m时(其中tsk表示主体实体包含的token，to
p
表示客体实体包含的token)，则e1中包含的所有的词项与e2中包含的所有的词项在关系m的关联值否则
[0063]
词项关联模块loss函数采用交叉熵计算，计算公式如下所示：
[0064][0065][0066][0067]
其中m表示关系数目，n表示文本长度，表示第i个词项与第j个词项之间存在关系m，本发明中若两个实体之间存在关系m，则代表两个实体包含的所有词项之间均存
在关系m。表示词项之间真实的关联值，表示模型预测出的词项之间的关联值。
[0068]
3.特征融合模块
[0069]
关系抽取任务中，主体、关系、客体的特征存在着关联，在标注存在关系m的主体与客体实体标签时，主体实体标注特征与关系m下的客体特征相关，客体实体标注特征与关系m下的主体特征相关。
[0070]
一示例中，在关系m下，词项作为主体元素时，与句子中其他词项之间的关联矩阵为注意力机制计算的词项间关联矩阵lm，词项作为客体元素时，与句子中其他词项之间的关联矩阵为注意力机制计算的词项间关联矩阵lm的转置l
tm
，利用softmax函数计算词项间的关联权重，将词项间的关联矩阵中的关联值映射为(0,1)区间。
[0071]
gsm＝softmax(lm)
[0072]
gom＝softmax(l
tm
)
[0073]
第i个词项在关系m下相关的客体特征利用词项间的关联权重矩阵gsm得到，计算公式如下：
[0074][0075]
第i个词项在关系m下相关的主体特征，计算公式如下：
[0076][0077]
4.实体识别模块
[0078]
先前的研究已经证实，主体、关系、客体三者的特征向量之间存在着关联，故为了对三者特征进行融合，本发明采取主体、客体在特定关系下分别进行序列标注的方法。本发明中实体识别模块，不仅要识别出句子中哪些词项为实体，而且要识别出是在哪种关系下的主体和客体。本发明采取的方法：对于关系中的主体识别，不仅需要词项自身的语义特征来判断词项是否为实体，也需要在特定关系下客体的特征来引导模型学习到实体是关系中的主体，同理对于关系中的客体识别，不仅需要词项自身的语义特征，同时也加入在特定关系下的主体的特征。实体识别模块，采用softmax函数对每个词项进行序列标注，采用bio标注方法，标签集合为{b,i,o}。获取实体标注特征公式如下：
[0079][0080][0081]
其中，hi表示第i个token的语义向量，表示在关系m下与第i个词项相关的客体特征编码，表示在关系m下与第i个词项相关的主体特征编码，w
sub
，表示权重，b
sub
，b
obj
表示偏置，表示在关系m下第i个词项的主体实体标签的概率，表示在关系m下第i个词项的客体实体标签的概率。本方案采用bio标注方法，实
体的首个词项标注为b，实体的其他词项标注为i，不属于实体的词项标注为o。
[0082]
实体识别模块loss函数计算公式如下所示：
[0083][0084]
其中m表示关系类型的个数，n表示句子的长度，表示关系类型m下第i个词项的真实主体或客体的标签(标签采用one-hot的形式)，表示关系类型m下第i个词项的预测主体或客体的标签概率。
[0085]
5.关系三元组生成模块
[0086]
实体标注模块得到各个关系下的主体与客体实体标注情况，b代表实体的开头,i代表除实体开头外的实体其他部分，o代表不属于实体，根据标注情况获得文本中的主体实体与客体实体。
[0087]
词项关联模块得到词项之间各个关系下的关联矩阵。根据关联矩阵确定主体与客体之间存在的关系。关系三元组生成的计算公式如下：
[0088][0089]
|ei|为实体识别模块预测出的主体实体的长度，|ej|为实体识别模块预测出的客体实体的长度，pi是实体ei在句子中起始位置，qi是实体ei在句子中的终止位置，同理pj是实体ej在关系m下对应的客体实体在句子中起始位置，qj是实体ej在关系m下对应客体实体在句子中的终止位置。本发明设置的阈值为0.5，δ大于阈值0.5时，说明预测出的主体实体与客体实体之间存在关系m。
[0090]
6.句子级关系抽取模型训练的loss函数
[0091]
本发明将句子级关系抽取分为实体标注与词项关联两个子任务，模型的loss值为两个子任务loss之和，采用梯度下降法进行训练，计算公式如下所示：
[0092]
loss＝losse+lossr[0093]
综上所述，本发明利用词项关联模块计算特定关系下的词项间关联矩阵，根据关联矩阵得到三元组的关联特征向量，帮助实体识别模块区分实体是哪种关系下的主体和客体，从而提高特定关系下的主、客体标注成功率，可以同时解决seo、epo、以及soo三类关系重叠问题。在实验验证中，数据集采用的是riedel等人的工作构造的数据集nyt以及garden等人构造的数据集webnlg。nyt数据集包含24类关系，其中训练数据包含56195个句子，验证数据包含5000个句子，测试数据包含5000个句子，其中测试的数据集中seo类型的关系数目1273条，epo类型的关系数目为1168条，soo数据条目为117条；webnlg数据集包含216类关系，其中训练数据包含5019个句子，验证数据包含500个句子，测试数据包含703个句子，其中测试的数据集中seo类型的关系数目448条，epo类型的关系数目为6条，soo数据条目为85条。
[0094][0095]
表1
[0096]
如表1所示，本发明的基线模型包括了流水线式关系抽取模型(fcm、line模型)和联合抽取模型(noveltagging、graphrel模型)。fcm模型采用cotype(ren et al.,2017)实体标注方法进行实体识别，然后采用特征丰富的组合嵌入模型进行关系分类；noveltagging模型利用一种新型实体标注方法，将关系抽取作为和实体识别一样的序列标注问题，但是完全放弃了重叠关系抽取，大大降低了模型的实用性；graphrel模型采用双向lstm(长短时记忆单元)深度神经网络和双向图卷积网络联合训练实体标注和关系抽取；rsan模型利用encoder-decoder模型，且考虑句子中的词在每个关系类型下的语义强度是不同性；tplinker模型采用特殊握手标记发明在解码端按照规则解码出关系三元组。本发明使用准确率(precision)、召回率(recall)以及f1值来评估模型的效果，从上表结果可以看出，相比于流水线式关系抽取模型以及已有的联合抽取模型我们的模型获得了更好的关系抽取效果，说明我们的模型框架以及实体关系深度特征融合发明针对句子级实体抽取更加有效。
[0097]
以上所述为本发明的一个实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐超马倩戴阳吕桂萍肖晶方磊顾明清刘玙马天李少强沈文韬黄成刘欢
技术所有人：中国科学院信息工程研究所
我是此专利的发明人

上一篇：高压连接件连接状态检测系统及检测方法与流程
上一篇：消防栓墙内安装结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。