一种结合平移机制与卷积神经网络的知识图谱补全方法

文档序号:24739035发布日期:2021-04-20 20:55阅读:195来源:国知局
一种结合平移机制与卷积神经网络的知识图谱补全方法

1.本发明涉及知识图谱领域,具体涉及一种结合平移机制与卷积神经网络的知识图谱补全方法。


背景技术:

2.信息化时代,知识无处不在,知识之间不再孤立,众多的知识构成了一个含有丰富语义的知识网络,我们称之为知识图谱。
3.知识图谱(kg)本质上是一个有向图,图中的节点代表实体,边代表实体之间的关系。大型知识图谱内部存储着上亿条知识,所以其在问答系统、语义搜索等方面发挥着举足轻重的作用。
4.随着知识图谱的不断扩大,图形式的知识表示方式已经无法满足存储需求,同时知识缺失问题也越来越严重。如何有效地表示知识并高效地支持知识推理已经成为了知识图谱领域的迫切需要解决的实际问题。近年来,发展迅速的知识表示学习技术表现出了高效的性能,其主要思想是将实体和关系表示为一维向量,通过在低维向量空间进行运算,从而得到实体之间复杂的语义联系。目前,知识表示学习方法已经成为了完成大型知识图谱补全任务的重要工具。


技术实现要素:

5.有鉴于此,本发明的目的在于提供一种结合平移机制与卷积神经网络的知识图谱补全方法,能够应对具有复杂关系的知识图谱,并且表现出强大的学习能力。
6.为实现上述目的,本发明采用如下技术方案:
7.一种结合平移机制与卷积神经网络的知识图谱补全方法,包括以下步骤:
8.步骤s1:获取一个确定性知识库,并进行预训练或者随机初始化;
9.步骤s2:结合平移机制与卷积神经网络,构建ctke模型并训练;
10.步骤s3:根据ctke模型得到实体向量和关系向量,将ctke模型学习到的实体向量和关系向量,在向量空间进行计算完成实体预测或关系预测,以完成知识库补全。
11.进一步的,所述步骤s1具体为:
12.给定一个确定性知识图谱,其内部包含着多个三元组(h,r,t),其中h代表头实体,t代表尾实体,r代表头尾实体的关系;
13.将三元组划分为训练集、验证集和测试集;
14.使用transe算法对知识库中实体和关系的向量进行预训练或者随机初始化。
15.进一步的,所述ctke构建包括三个步骤,分别是关系特征融合、平移变换和局部特征提取。
16.进一步的,所述关系特征融合具体为:
17.首先运用前馈神经网络将关系特征融入到头尾实体的向量表示中,加强了关系信息与实体信息的交互;
18.将提取出的特征与原始的向量表示进行相乘,得到新的实体表示,关系特征融合过程如式(1)所示。
[0019][0020]
其中e为需要学习的实体向量表示,其中e∈{h,t},r为关系的向量表示,w为通过学习得到的参数矩阵,b为偏置,||代表向量拼接,σ为sigmoid激活函数,ο表示向量相乘;
[0021]
将三元组的头尾实体向量采用式(1)融入关系特征的变换过程如式(2)所示
[0022]
[h,r,t]∈r
n
×3→
[h',r,t']∈r
n
×3ꢀꢀꢀꢀ
(2)
[0023]
其中n为嵌入维度,h'、t'分别为融合后的头、尾实体向量表示。
[0024]
进一步的,所述平移变换具体为:
[0025]
将平移转换后的向量与原始向量进行拼接得到一个六元组,随后运用卷积神经网络去提取六元组的平移局部特征完成评分;
[0026]
对于一个已完成关系特征融合过程的三元组向量(h',r,t')进行平移变换,加强三元组内部的信息交互;
[0027]
平移变换过程如公式(3)所示;
[0028]
[h',r,t']∈r
n
×3→
[h',h”,r,r',t',t”]∈r
n
×6ꢀꢀꢀꢀꢀ
(3)
[0029]
其中h”=t'

r、r”=t'

h'、t”=h'+r,n为嵌入维度。正例三元组具有h'≈h”、r≈r”以及t'≈t”的局部平移特征,而负例则相反。
[0030]
进一步的,所述局部特征抽取具体为:
[0031]
采用ω∈r
n
×2作为卷积层的过滤器,将滑动步长设置为2,抽取知识的结构信息;
[0032]
一个过滤器的特征图表示为v=[v1,v2,v3]∈r3;
[0033]
局部特征的运算方法如公式(4)所示
[0034]
v
i
=g(ω
·
[a
:,2i
‑1,a
:,2i
]+b)
ꢀꢀꢀꢀꢀꢀꢀ
(4)
[0035]
其中v
i
代表第i个局部特征,g为激活函数,如sigmoid,ω代表过滤器,
·
代表卷积操作,a
:,2i
代表取输入矩阵a的第2i列;b为偏置;第i个局部特征是由过滤器ω与输入矩阵a的第2i列和第2i

1列卷积得到。
[0036]
进一步的,所述ctke模型运用评分函数以及优化目标完成训练,具体为:
[0037]
用多个过滤器从不同角度捕获局部特征,将特征图进行拼接后,使用全连接层得出三元组的评分,评分函数如公式(5)所示
[0038][0039]
其中h'、t'是融入关系特征的实体表示,
·
代表卷积操作,代表全连接操作。φ,w为共享参数,φ是多个过滤器的集合,w为最后全连接层的参数;concat代表将多个特征图进行连接;
[0040]
优化目标如公式(6)所示:
[0041][0042]
其中h'、t'为融入关系信息的实体向量表示,r为关系向量表示;s代表正例三元组,s'代表负例三元组,负例三元组是采用随机替换头尾
实体的方法产生的。
[0043]
进一步的,所述实体预测具体为:
[0044]
给定一个不完备三元组(h,r,?)或(?,r,t)预测其缺失的实体,得到预测三元组;
[0045]
根据ctke模型获取各个预测三元组的得分;
[0046]
给定一个预测三元组得分阈值θ,θ的取值范围为0

1,判断预测三元组是否合理,并将合理的预测三元组加入原始知识图谱完成补全。
[0047]
进一步的,所述关系预测具体为:
[0048]
给定一个不完备三元组(h,?,t)预测其缺失的关系;
[0049]
使用ctke计算各个预测三元组的得分;
[0050]
给定一个预测三元组得分阈值θ,θ的取值范围为0

1,判断预测三元组是否合理,并将合理的预测三元组加入原始知识图谱完成补全。
[0051]
本发明与现有技术相比具有以下有益效果:
[0052]
1、本发明结合平移机制与卷积神经网络,解决现有知识图谱知识缺失问题。
[0053]
2、本发明ctke将平移机制与卷积神经网络相结合,一方面保留了平移机制捕获知识结构信息的有效性,另一方面利用卷积神经网络提升了模型的学习能力。
附图说明
[0054]
图1是本发明实施例中ctke模型框架图。
具体实施方式
[0055]
下面结合附图及实施例对本发明做进一步说明。
[0056]
请参照图1,本发明提供一种结合平移机制与卷积神经网络的知识图谱补全方法,包括以下步骤:
[0057]
步骤s1:给定一个确定性知识图谱,其内部包含着多个三元组(h,r,t),其中h代表头实体,t代表尾实体,r代表头尾实体的关系;
[0058]
将三元组划分为训练集60%、验证集20%和测试集20%用于训练ctke模型;ctke的模型的输入是h,r,t的向量表示,可以使用transe算法对知识库中实体和关系的向量进行预训练或者随机初始化;
[0059]
步骤s2:结合平移机制与卷积神经网络,构建ctke模型并训练;
[0060]
在本实施例中,所述ctke构建包括三个步骤,分别是关系特征融合、平移变换和局部特征提取。
[0061]
优选的,关系特征融合具体为:
[0062]
首先运用前馈神经网络将关系特征融入到头尾实体的向量表示中,加强了关系信息与实体信息的交互;
[0063]
将提取出的特征与原始的向量表示进行相乘,得到新的实体表示,关系特征融合过程如式(1)所示。
[0064][0065]
其中e为需要学习的实体向量表示,其中e∈{h,t},r为关系的向量表示,w为通过学习得到的参数矩阵,b为偏置,||代表向量拼接,σ为sigmoid激活函数,ο表示向量相乘;
[0066]
将三元组的头尾实体向量采用式(1)融入关系特征的变换过程如式(2)所示
[0067]
[h,r,t]∈r
n
×3→
[h',r,t']∈r
n
×3ꢀꢀꢀꢀꢀ
(2)
[0068]
其中n为嵌入维度,h'、t'分别为融合后的头、尾实体向量表示。
[0069]
优选的,所述平移变换具体为:
[0070]
将平移转换后的向量与原始向量进行拼接得到一个六元组,随后运用卷积神经网络去提取六元组的平移局部特征完成评分;
[0071]
对于一个已完成关系特征融合过程的三元组向量(h',r,t')进行平移变换,加强三元组内部的信息交互;
[0072]
平移变换过程如公式(3)所示;
[0073]
[h',r,t']∈r
n
×3→
[h',h”,r,r',t',t”]∈r
n
×6ꢀꢀꢀ
(3)
[0074]
其中h”=t'

r、r”=t'

h'、t”=h'+r,n为嵌入维度。正例三元组具有h'≈h”、r≈r”以及t'≈t”的局部平移特征,而负例则相反。
[0075]
优选的,所述局部特征抽取具体为:
[0076]
采用ω∈r
n
×2作为卷积层的过滤器,将滑动步长设置为2,抽取知识的结构信息;
[0077]
一个过滤器的特征图表示为v=[v1,v2,v3]∈r3;
[0078]
局部特征的运算方法如公式(4)所示
[0079]
v
i
=g(ω
·
[a
:,2i
‑1,a
:,2i
]+b)
ꢀꢀꢀꢀꢀꢀ
(4)
[0080]
其中v
i
代表第i个局部特征,g为激活函数,如sigmoid,ω代表过滤器,
·
代表卷积操作,a
:,2i
代表取输入矩阵a的第2i列;b为偏置;第i个局部特征是由过滤器ω与输入矩阵a的第2i列和第2i

1列卷积得到。
[0081]
进一步的,所述ctke模型运用评分函数以及优化目标完成训练,具体为:
[0082]
用多个过滤器从不同角度捕获局部特征,将特征图进行拼接后,使用全连接层得出三元组的评分,评分函数如公式(5)所示
[0083][0084]
其中h'、t'是融入关系特征的实体表示,
·
代表卷积操作,代表全连接操作。φ,w为共享参数,φ是多个过滤器的集合,w为最后全连接层的参数;concat代表将多个特征图进行连接;
[0085]
优化目标如公式(6)所示:
[0086][0087]
其中h'、t'为融入关系信息的实体向量表示,r为关系向量表示;s代表正例三元组,s'代表负例三元组,负例三元组是采用随机替换头尾实体的方法产生的。
[0088]
步骤s3:将ctke模型学习到的实体向量和关系向量,在向量空间进行计算完成实体预测或关系预测,以完成知识补全任务。其中实体预测定义为:给定一个不完备三元组(h,r,?)或(?,r,t)预测其缺失的实体,使用知识图中的所有实体替换缺失的实体;进一步使用ctke计算每一个三元组的得分;最后给定一个三元组得分阈值θ,θ的取值范围为0

1,
判断三元组是否合理,并将合理的三元组加入原始知识图谱完成补全。关系预测定义为:给定一个不完备三元组(h,?,t)预测其缺失的关系,使用知识图中的所有关系替换缺失的关系;进一步使用ctke计算每一个三元组的得分;最后给定一个三元组得分阈值θ,θ的取值范围为0

1,判断三元组是否合理,并将合理的三元组加入原始知识图谱完成补全。
[0089]
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1