一种基于加强实体结构特征表示学习的链接预测方法

文档序号:30305164发布日期:2022-06-05 04:48阅读:85来源:国知局
一种基于加强实体结构特征表示学习的链接预测方法

1.本发明涉及链接预测技术领域,主要涉及一种基于加强实体结构特征表示学习的链接预测方法。


背景技术:

2.知识图谱是以图结构的形式来展现真实世界中的实体及实体之间关系的知识库,在知识图谱中,节点表示真实世界中的实体,节点之间的边表示的是实体之间的关系。虽然知识图谱能提供高质量的结构化数据,但是目前大部分知识图谱都由于各种因素导致图谱结构比较稀疏,大量实体之间隐含的关系没有被表示出来。因此链接预测就是为了进行知识图谱补全,完善知识图谱中的知识表示,提高知识图谱质量的有效方法。
3.链接预测是指通过现有的知识图谱中的关系实体,对实体之间可能存在的关系进行预测。近期的研究很多都是围绕如何对知识图谱进行更好的表示来提高链接预测效果进行的。基于实体表示学习的链接预测方法一般分为编码器部分和解码器部分:在编码器部分中,实体数据被输入到实体表示学习模型中进行学习,学习过程中根据知识图谱已有的正例三元组进行学习,目标函数的设置目的是使得生成的实体表示向量在用于得分函数计算时,能够使得预测正确的关系实体三元组得分尽量高,错误预测的关系实体三元组的得分尽量低,最后通过学习得到实体表示向量;在解码器部分中,对实体表示学习得到是实体表示向量通过得分函数,计算预测三元组(头实体,关系,尾实体)的得分,以此作为是否是正确三元组的判断依据。
4.基于实体表示学习的链接预测方法目前主要分为以transe模型为基础的方法和以图卷积网络为基础的方法。在以transe模型为基础的链接预测方法在学习过程中,主要考虑的是实体和关系之间的联系,通常根据头实体向量+关系向量=尾实体向量以及相应的变形等式对实体进行建模和特征学习。
5.基于图卷积网络的链接预测方法在实体表示学习过程中,根据中心实体邻接节点的特征表示,对实体之间的关系进行建模和学习,得到实体表示向量后,再通过得分函数计算相应的预测三元组的得分情况作为是否为正确三元组的判断依据。
6.目前基于实体表示学习的链接预测方法通常存在以下几个问题:
7.(1)复杂关系建模困难:在真实的图谱数据中,实体之间的关系种类十分繁杂,并且关系类型也十分复杂。在先前的基于实体表示学习的链接预测方法中,一般只考虑了最简单的一对一类型的关系,而对于真实的图谱数据中存在着大量的“一对多、多对多、多对一”类型的关系的建模能力就有所不足。
8.(2)多源特征信息融合困难:实体的特征信息的学习通常是不充分。由于实体表示中特征信息的不足使得实体特征向量之间的区分度不够,这就很容易导致在稀疏图谱数据上进行链接预测时,为本不应该存在相应关系的实体之间预测出错误的关系实体三元组。
9.(3)知识图谱稀疏导致正例样本较少:在真实图谱数据中,实体和关系是十分稀疏的,同时不同关系的数量也比较多。这就导致在实体表示学习的过程中缺少足够的正例关
系实体三元组作为学习的样本。对于在关系三元组中出现次数较少的关系而言,在实体表示学习过程中,由于缺少训练的正例样本而难以提取出不同的关系的差异特征,导致链接预测效果的下降。
10.因此针对上述三类问题,新的基于实体表示的链接预测方法必须在实体表示学习过程中进行相应的考虑和提出相应的对策。


技术实现要素:

11.发明目的:针对上述背景技术中存在的问题,本发明提供了一种基于加强实体结构特征表示学习的链接预测方法,基于图卷积网络对实体数据学习特征的优秀能力,首先对实体的关系特征进行提取和学习,然后对实体的邻接结构特征进行相应的处理作为实体关系特征的补充和丰富,以此提高实体表示中关系特征的表示能力;最后通过将实体表示和关系矩阵放入得分函数中计算预测三元组的得分来作为预测三元组是否正确的依据。
12.技术方案:为实现上述目的,本发明采用的技术方案为:
13.一种基于加强实体结构特征表示学习的链接预测方法,包括以下步骤:
14.步骤s1、将知识图谱实体数据生成的初始化向量输入至rgcn模型,提取实体关系特征并学习,获取实体关系特征表示向量;
15.步骤s2、基于实体邻接结构特征对实体关系特征进行补充;
16.将知识图谱实体数据生成的初始化向量分别输入至gcn模型和gat模型;在实体表示学习网络中的每一层,gcn模型提取并学习中心实体节点的邻居结构特征,gat模型根据实体节点重要程度赋予权重,体现邻接节点的重要程度,对实体邻接节点进行特征提取,以邻接节点重要程度反映对应关系的重要程度情况;将gat模型获取的重要程度特征作为gcn模型获取的邻居结构特征的补充,基于平均门控机制将两种特征聚合,获取实体的关系结构特征表示向量;
17.步骤s3、将步骤s1获取的实体关系特征表示向量和步骤s2中的关系结构特征表示向量基于res gate门控再次聚合,获取实体表示向量;在学习训练过程中通过加强对负例样本的采样作为正例样本不足的补充,提高学习训练实体表示向量的效果;
18.步骤s4、基于实体表示向量进行链接预测;
19.选择基于distmult分解的得分函数对预测的关系实体三元组计算评分来判断是否能够被视作正确三元组。
20.进一步地,所述步骤s1中具体提取实体关系特征的方法包括:
21.首先针对中心实体节点的邻接节点,按照中心节点与对应邻接节点之间所拥有的关系进行分类;然后针对中心节点与对应邻接节点之间的关系设置可学习的关系转换矩阵;最后对于中心节点,添加一种用于在前向传播学习过程中保持节点自身特征的自反关系,其中实体表示学习前向传播公式如下:
[0022][0023]
其中,在网络中下一层节点i的实体表示向量;σ表示激活函数,这里使用的是relu();r表示的是图谱的所有关系的集合;nr表示节点i所对应在关系r下的邻居节点的集
合;c
i,r
表示的是正则化常数;表示在该层的关系特征转换参数;表示的是邻接节点j的特征表示;w
l
表示可学习的参数矩阵;表示的是节点i在上一层得到的特征表示。
[0024]
进一步地,所述步骤s2中采用的平均门控机制融合特征信息公式表示如下:
[0025]hi
=(1-α)h
i1
+αh
i2
[0026]
其中hi是实体i的关系结构特征信息;h
i1
、h
i2
分别是gcn和gat模型得到的实体i的关系结构特征向量;α是融合系数,范围是(0,1],用于关系分布特征和关系重要程度特征的聚合。
[0027]
进一步地,所述步骤s3中采用的res gate门控机制融合特征信息公式表示如下:
[0028]hi
=w2(σ(w1h
i1
+b))+h
i2
[0029]
其中hi是实体i的最终特征表示向量;h
i1
、h
i2
分别是实体i的关系结构特征向量和关系特征向量模型;w1、w2是可学习参数矩阵;σ是激活函数,选用relu()激活函数。
[0030]
进一步地,所述基于distmult分解的得分函数表示如下:
[0031][0032]
其中,hh表示三元组中头实体h的特征表示向量;h
t
表示三元组中尾实体t的特征表示向量;rr表示关系r对应的对角矩阵,即为关系转换矩阵;通过使用distmult分解,使头尾实体特征向量和关系r投影到一个具体的值,作为链接预测三元组正确的可能性得分。
[0033]
有益效果:
[0034]
本发明提供的加强实体结构特征表示学习的链接预测方法,创造性地利用实体邻接结构特征对实体关系特征进行补充,在此基础上对实体表示进行学习,并通过多门控机制对特征信息进行融合,使得学习得到的实体表示向量中关系特征信息充足,复杂关系对应的实体向量表示精度高。使得在进行链接预测计算得分函数时,实体特征向量中所包含的关系特征信息足够识别复杂关系对应的实体,明显提高了链接预测的效果。
附图说明
[0035]
图1是本发明提供的基于加强实体结构特征表示学习的链接预测方法流程图;
[0036]
图2是本发明提供的提取、学习关系结构特征的方法流程图。
具体实施方式
[0037]
下面结合附图对本发明作更进一步的说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0038]
本发明利用实体邻接结构特征对实体关系特征进行补充,对实体数据进行表示学习,再将学习得到的实体表示作为链接预测的三元组得分计算依据,主要流程如图1所示。本发明提出的方法主要分为编码部分和解码部分。在对实体的编码过程中,通过将实体的初始化表示分别输入到改进的rgcn模型、由gat模型和gcn模型组成的结构特征学习网络中进行实体的表示学习:通过rgcn模型得到实体关系特征表示,在结构特征学习网络中得到的实体结构特征信息又可以将实体的在结构特征中所反映的关系情况提取出来,得到实体的关系结构特征。在关系特征和关系结构特征的学习过程中使用加强负例样本采集的采样
方法提高对正例关系实体三元组的学习效果,最后将学习到的多源特征表示通过特殊的门控机制实现信息的融合,得到的实体表示能够对实体之间的复杂关系有足够的区分。在解码部分,本发明使用基于distmult分解的得分函数对预测的关系实体三元组进行打分,得到预测三元组为正确三元组的可能性分数,分数越高则预测的三元组就被认为越可能为正确。下表1为本发明提供的链接预测方法具体流程:
[0039]
表1链接预测方法流程表
[0040][0041]
下面具体提供一份实施例,用于进一步描述本发明的链接预测方法:
[0042]
步骤s1、将知识图谱实体数据生成的初始化向量输入至rgcn模型,提取实体关系特征并学习,获取实体关系特征表示向量。
[0043]
首先针对中心实体节点的邻接节点,按照中心节点与邻接节点之间所拥有的关系进行分类。然后针对中心实体节点和邻接节点之间所包含的关系设置可学习的关系转换矩阵。最后对于中心节点,添加一种用于在前向传播学习过程中保持节点自身特征的自反关系,其中实体表示学习前向传播公式如下:
[0044][0045]
其中,在网络中下一层节点i的实体表示向量。σ表示激活函数,这里使用的是relu()。r表示的是图谱的所有关系的集合。nr表示节点i所对应在关系r下的邻居节点的集合。c
i,r
表示的是正则化常数。表示在该层的关系特征转换参数。表示的是邻接节点j的特征表示。w
l
表示可学习的参数矩阵。表示的是节点i在上一层得到的特征表示。
[0046]
步骤s2、基于实体邻接结构特征对实体关系特征进行补充。
[0047]
将知识图谱实体数据生成的初始化向量分别输入至gcn模型和gat模型。在实体表示学习网络中的每一层,gcn模型提取并学习中心实体节点的邻居结构特征,gat模型根据实体节点重要程度赋予权重,体现邻接节点的重要程度,对实体邻接节点进行特征提取,以邻接节点重要程度反映对应关系的重要程度情况。将gat模型获取的重要程度特征作为gcn模型获取的邻居结构特征的补充,基于平均门控机制将两种特征聚合,获取实体的关系结构特征表示向量。
[0048]
这一步中,首先使用基础的gcn模型对中心节点的邻居结构特征进行学习和提取。同时,由于邻接节点各自对于中心节点的重要程度有所不同,邻接节点的重要程度也能用于代表关系的重要程度。因此本实施例同时使用gat模型,根据邻接节点重要程度不同来进行结构特征的捕获,以此反映中心实体拥有的关系之间重要程度的区别。然后将gat学习得到的实体表示作为gcn模型得到的结构特征的补充,通过门控机制将两者按一定加权进行融合,使得邻居结构特征信息既能反映整体关系的分布和数量情况特征,同时也能反映出不同节点对应关系重要程度的差异。如图2所示,在关系结构特征信息的学习模块中,本发明通过对gcn模型和gat模型进行相应的改进调整,并在整个结构特征学习框架中以并列的形式,对反映中心实体关系分布特征的邻接结构特征和关系重要程度特征分别进行学习,接着再通过平均门控进行关系分布特征和关系重要程度特征的聚合。
[0049]
平均门控机制融合特征信息公式表示如下:
[0050]hi
=(1-α)h
i1
+αh
i2
[0051]
其中hi是实体i的关系结构特征信息。h
i1
、h
i2
分别是gcn和gat模型得到的实体i的关系结构特征向量。α是融合系数,范围是(0,1],用于关系分布特征和关系重要程度特征的聚合。由于中心实体的关系结构特征信息与邻接节点相关,因此需要在最终得到的关系结构特征表示向量中包含足够的邻接结构特征信息,同时由于关系的多样性,因此需要对邻接节点根据重要性进行学习,以邻接节点的重要性反映对应关系的重要性,从而使得不同关系之间区别能够更加明显。通过使用平均门控,使得gat模型根据邻接节点重要性学习得到的特征能够将邻接节点的重要程度作为中心实体与之所对应的各个关系的重要程度,从而能够体现关系结构上的差异化特征信息。同时也能将gat模型中因为注意力系数低而被忽略的邻接节点特征在gcn学习得到的节点特征表示中得到保留,使得特征信息在融合过程中的损失尽量少。
[0052]
步骤s3、将步骤s1获取的实体关系特征表示向量和步骤s2中的关系结构特征表示向量基于res gate门控再次聚合,获取实体表示向量。在学习训练过程中通过改进后的负例采样方法提高学习训练实体表示向量的效果。
[0053]
采用的res gate门控机制融合特征信息公式表示如下:
[0054]hi
=w2(σ(w1h
i1
+b))+h
i2
[0055]
其中hi是实体i的最终特征表示向量。h
i1
、h
i2
分别是实体i的关系结构特征向量和关系特征向量模型。w1、w2是可学习参数矩阵。σ是激活函数,选用relu()激活函数。由于关系特征对于链接预测而言最为重要,因此在融合过程中应该尽量得到保留,同时为了关系结构特征信息能够作为关系特征补充的同时不会因为关系结构特征的引入弱化了整体向量中所包含的实体关系特征,因此使用调整后的res gate门控作为关系特征信息和关系结构特征信息的融合方式。
[0056]
在模型进行训练时对数据采样过程中,使用了一种新的负例采样方法。由于真实图谱数据的稀疏性导致作为正例的正确关系实体三元组数量较少,因此本实施例中所提出的链接预测方法在进行学习时,通过加强对负例样本的采样作为正例样本不足的补充。在先前的研究中,负例采样方法大多是通过将每个正确的关系三元组中头实体或者尾实体随机替换为其他实体,使得原来正确的关系三元组变成错误的三元组样本。本实施例所使用的负例采样方法在对头尾实体进行替换的同时,还会对关系进行随机替换,尽量使得在随
机替换产生负例的三元组的时候不会生成正确的关系实体三元组。
[0057]
步骤s4、基于实体表示向量进行链接预测。
[0058]
在得到实体特征表示向量后,就可以对实体表示向量进行解码,完成链接预测。本实施例选择基于distmult分解的得分函数对预测的关系实体三元组计算评分来判断是否能够被视作正确三元组。
[0059]
基于distmult分解的得分函数表示如下:
[0060][0061]
其中,hh表示三元组中头实体h的特征表示向量。h
t
表示三元组中尾实体t的特征表示向量。rr表示关系r对应的对角矩阵,设置为一个可学习的参数矩阵,即为关系转换矩阵。通过使用distmult分解,使头尾实体特征向量和关系r投影到一个具体的值,作为链接预测三元组正确的可能性得分。
[0062]
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1