本发明属于安全风险管理领域,具体涉及一种基于多视角ib的安全风险关系抽取方法。
背景技术:
1、在学术和工业领域,知识图谱的广泛应用引起了普遍关注,例如英语知识图谱、微软知识图谱、yago等。在信息检索领域,这些知识图谱取得了良好的成果。然而,对于特定领域的知识图谱的研究相对较少。
2、构建知识图谱最重要的任务是关系抽取,其目的是提取自然语言句子中所有可能的关系三元组(主语、谓语、宾语)。该任务作为构建知识图谱的上游任务,发挥着重要的作用。随着深度学习的不断发展,人们对基于深度学习的关系抽取的兴趣也逐渐增加,试图使用神经网络去自动学习语义特征。近期大量领域关系提取模型被提出且陆续的应用于生物医学关系抽取、kpi关系抽取等多个领域。
3、关系抽取是自然语言处理(nlp)领域的一项基本任务,它分为四类:有监督关系抽取,半有监督关系抽取,无监督关系抽取和远程监督关系抽取。近年来,大多数研究人员专注于基于神经网络的监督关系抽取和远程监督关系抽取,这两种方法都取得了很好的效果。随着深度学习的广泛应用,基于深度学习的关系抽取已成为研究的热点。
4、socher等人首先将rnn引入关系抽取任务,解决了传统方法无法高质量捕获长依赖关系的严重问题。sun等人提出使用pcnn模型进行关系抽取,在电力通信规划文本中形成实体关系表。zeng等人提出使用cnn进行关系抽取,并利用卷积神经网络提取输入句子的局部特征。yan等人将的依赖分析树特征与词向量特征和词性特征相结合,取得了良好的效果,但消耗了更多的计算资源。然而,由于前面提到的模型建立在足够数量的训练数据上,它们在从稀疏领域关系抽取的表现总是差强人意。wu等人利用图gcn来提取更加深层次的信息来提高关系抽取的效果。zhuang等人利用知识增强对事件关系抽取并取得了好的进展。
5、1999年,tishby等人为了实现信息压缩和噪声去除,提出了基于互信息的信息瓶颈理论。信息瓶颈(information bottleneck,ib)方法研究了压缩和预测之间的权衡:在从输入变量x中提取相关信息,同时保留另一个随机变量y的相关信息后,得到的表示是另一个变量z。最近,tishby等人分析了信息瓶颈方法与深度神经网络的关系,在计算机视觉界和自然语言处理界引起了广泛关注。在nlp社区中,信息瓶颈方法主要用于表示学习,li等人使用变分信息瓶颈来非线性压缩bert预训练的词嵌入。amjad采用信息瓶颈方法来研究基于神经网络的分类的表示。但缺乏在关系提取中使用信息瓶颈理论。
6、在这些所有领域关系抽取模型中,基于深度神经网络的模型在领域语义的探索和开发方面表现出了很好的性能。虽然上述基于深度神经网络的领域关系提取模型已经取得了相当大的效果,但它们仍然面临以下问题。
7、(1)实体语义表征不足:在之前提到的关系抽取模型中,大多都是通过预训练模型得到实体语义,这个语义可以被认为是一个初级的版本。但是在领域关系抽取中,经常会出现预训练的语料库中没有领域实体的情况,那么就会无法完全表示领域实体的特征,从而进一步的影响到了识别关系类型的性能。
8、(2)如何获取两个视角之间最大的相关信息:在现有技术中大多采用拼接的方法来实现语义融合。这样的做法虽然提高了性能,但是把和实体不相关的信息也融合了进去。
技术实现思路
1、为了解决现有技术的不足,本发明旨在提供一种基于多视角ib的安全风险关系抽取方法,该方法使用多视角语义来增强实体语义,并且通过信息瓶颈理论获取两个视角间最大的相关信息,可以通过从多个相应的图像中自动提取语义信息,从而可以充分利用图像视角的语义来增强领域实体的表示,进而保证领域关系提取结果更佳。
2、为了实现上述目的,本发明采用的技术方案为:
3、一种基于多视角ib的安全风险关系抽取方法,包括以下步骤:
4、1)利用多视角语义融合策略融合文本节点和图片信息;
5、2)使用深度神经网络retnet学习文本和图片之间的信息,以利用图片之间存在的信息来补充文本中语义表示中的不足;
6、3)利用异构图空间对单词节点和关系节点进行建模,以捕获具有更多任务相关特征的丰富上下文语义;
7、4)利用信息瓶颈压缩信息;
8、5)利用max-pooling机制获取相应实体的表示,使用拼接操作将实体信息和句子信息拼接到一起,通过前馈神经网络ffn来获取到关系分类的最终表示;并将获得的高级语义输入到softmax分类器中,计算实体所属安全风险关系的条件概率。
9、其中,步骤1)具体包括:
10、1-1)问题定义:给定多视角数据,并设t={x1,x2,…,x|t|}作为输入的句子,其中xi是一个字,|t|表示句子的长度;领域关系抽取的目的是识别实体对(xi1-i2,xj1-j2)的关系类型,xi1-i2、xj1-j2分别表示i1-i2、j1-j2两个实体的跨度;关系集为
11、1-2)使用多视角语义融合策略进行编码,进行安全风险知识的抽取任务;
12、首先将分词后的安全风险文本利用预训练语言模型bert获得低维的词向量,具体有:
13、对于输入句子t,词表示为:
14、
15、其中,dw是词向量的维度;dc是位置向量的维度;
16、1-3)为了增强领域实体语义信息,采用融合图像视角语义信息,以补充预训练模型中不充分的表示,具体有:
17、对于领域实体xi,匹配对应的图像集为m={mi1,mi2,...,min},之后使用vggnet来获得图像特征向量mi,直接将图像特征向量与对应的实体特征进行相加。
18、步骤3)具体包括:
19、将词xi重写为词节点将关系ri重写为关系节点并引入消息传递机制通过以下方式更新节点表示:
20、
21、其中,[·;·]表示将两个向量连接成新表示,表示第i个节点的相邻点,wa,wq,wk,wv是可训练权重;oj表示关系的编码,αij表示注意力机制概率值,hi′表示更新后编码,hi表示更新前编码。
22、然后使用门机制代替激活函数,保持每个维度的规模和非线性能力,具体如下所示:
23、
24、其中,wg是可训练权重,vi为门机制的概率,为经过门之后的最终编码;
25、把异构图的上述操作总结为:
26、
27、同理,得到关系节点的编码为:
28、
29、步骤4)中利用信息瓶颈的先压缩后还原的思想,将两个视角的相关信息表示为:
30、
31、其中,∈是标准正态分布,n是训练示例的数量,kl是kullback-leibler散度,l1为损失,i为互信息,β为权衡参数,y为目标编码,z为中间编码,h为初始编码,y、z和h为具体变量观测值,y、z和h表示变量的集合,p(.)表示对应的概率,q(z)是一个变分,近似分布与p(z)。
32、步骤5)中计算实体所属的安全风险关系的条件概率p(r|t,θ),具体为:
33、
34、其中,|r|是安全风险关系类型的数量,or是异构图神经网络的最终输出,即所有安全风险关系类型的预测结果;
35、使用交叉熵来进行分类,具体如下:
36、
37、其中,l2表示损失,n是输入句子集合的数量,θ是本发明模型需要学习的一组参数;
38、则模型的总损失为:
39、l=l1+l2 (18)
40、在模型的训练中,使用随机梯度下降算法sgd来优化目标函数。
41、本发明具有的有益效果为:
42、本发明使用深度神经网络来自动学习安全风险的语义特征。为了解决传统领域关系抽取中实体表征不足的问题,本发明引入多视角方法来增强领域实体表征。在融合两个视角语义信息的时候,本发明采用信息瓶颈的方法获取两个视角间最大的相关信息,用此来表示融合后的语义。通过异构图神经网络理解领域上下文语义,实体之间的关系可以分为不同的类别,从而可以充分利用图像视角的语义来增强领域实体的表示,进而保证领域关系提取结果更佳。