一种基于属性嵌入和图注意力网络的实体对齐方法

文档序号:36775061发布日期:2024-01-23 11:44阅读:21来源:国知局
一种基于属性嵌入和图注意力网络的实体对齐方法

本发明属于神经网络和数据挖掘,具体说是一种通过基于属性嵌入和图注意力网络的实体对齐对软件园知识图谱进行融合的方法。


背景技术:

1、随着互联网的发展,国内的软件园数量不断增加,使用知识图谱技术可以更直观地展示软件园的各项发展数据。但由于软件园信息种类繁多且数据类型多样化,需要利用知识融合去解决软件园知识图谱的异构性问题,实体对齐是知识融合的一种重要手段。

2、早期的实体对齐方法通常需要人工参与或依赖于他人构建的外部信息,这使得效率大大降低。最近的研究提出了一些崭新的实体对齐方法来减少人工参与,即知识图谱嵌入模型,可以有效地利用知识图谱中的结构信息来预测缺失的实体或关系,但基于嵌入的模型无法学习良好的表示来对非英语知识图谱的结构进行建模,因为对实体的约束相对不足,所以对齐结果较差。基于图的方法是当前实体对齐的一种主流方法,但对结构差异很敏感,很难缩小对齐的差异。因此本文模型使用引入注意力机制的gat网络,改善了基于图的方法的缺点,并融合属性信息,有效减轻了异构知识图谱的负面影响,成功地提高了实体对齐的效果。


技术实现思路

1、为了提高实体对齐的准确率,对软件园知识图谱进行充分融合,本文提出了基于属性嵌入和图注意力网络的实体对齐方法。首先将处理好的数据集利用图注意力网络gat编码,进行结构嵌入,利用属性信息编码器对属性进行嵌入,在对齐阶段将结构嵌入与属性嵌入相结合,实现实体对齐。

2、本发明为实现上述目的所采用的技术方案是:一种基于属性嵌入和图注意力网络的实体对齐方法,包括以下步骤:

3、步骤1:获取网络信息;

4、步骤2:对收集的网络信息进行处理,生成文本数据集;

5、步骤3:对文本数据集进行预训练词嵌入,生成向量矩阵;

6、步骤4:利用图注意力网络gat作为编码器,对实体进行结构嵌入;

7、步骤5:构建属性信息编码器,从初始特征开始选择性地向目标实体聚合属性和属性值的特征,完成属性嵌入;

8、步骤6:结合结构嵌入和属性嵌入,生成实体对齐模型;

9、步骤7:对实体对齐模型进行训练,将训练好的模型作为最终的实体对齐模型;将实时获取的网络信息输入最终的实体对齐模型,输出对齐后的实体对集合。

10、所述网络信息为包含单位的政策信息、企业信息、所获荣誉、特色项目、举办活动、地理位置的文本信息。

11、所述对收集的网络信息进行处理,具体如下:

12、对网络信息进行文本分词,并进行词性标注,整理成两组待对齐的关系三元组<实体,关系,实体>和属性三元组<实体,属性,属性值>;

13、其中,实体表示单位;关系表示实体的外部联系;属性表示实体的内部特征,包括地理位置、企业信息、所获荣誉、特色项目、举办活动;属性值表示属性的参数或特征,包括地理名称、企业名称、荣誉名称、项目名称、活动名称。

14、所述对文本数据集进行预训练词嵌入,生成向量矩阵,具体为:将文本数据集中的关系三元组和属性三元组分别表示成向量,生成关系向量矩阵和属性向量矩阵,即两个待对齐的知识图;将三元组抽象成图结构,实体表征为图中的节点,关系表征为连接节点的边。

15、所述利用图注意力网络gat作为编码器,对实体进行结构嵌入,包括以下步骤:

16、利用图注意力网络gat作为编码器,计算知识图中每个节点的注意力系数,使用softmax函数对注意力系数进行归一化,根据归一化后的注意力系数,把每个节点的特征向量加权求和生成新的实体特征向量;

17、h(l+1)=relu(d(l)h(l)w(l))

18、

19、

20、h(l)是第层的输出节点特征,w(l)为权重矩阵,d(l)代表连通矩阵,是d(l)的元素;ni是第i个节点的相邻节点的集合,是注意力系数,和是ei和ej的隐藏状态,relu是非线性激活函数,σ(·)表示非线性激活函数leakyrelu函数,rt是可学习参数r的转置,代表向量连接;ei和ej表示实体。

21、所述构建属性信息编码器,从初始特征开始选择性地向目标实体聚合属性和属性值的特征,完成属性嵌入,包括以下步骤:

22、所述属性信息编码器从初始特征开始选择性地向目标实体聚合属性和属性值的特征,将属性值看作是节点,将属性看作边进行添加,通过计算注意力系数来进一步计算属性和属性值的加权平均值;

23、所述属性信息编码器如下:

24、

25、

26、

27、表示隐藏层计算得到的特征向量,k∈{1,…,ms},ms是属性嵌入的维度,ak为属性,vk为属性值,σ(·)是leakyrelu函数,是elu激活函数,w1和ut是可学习参数矩阵,是初始实体特征,θk表示与属性ak的相似度,qk为注意力系数,softmax表示归一化指数函数。

28、所述结合结构嵌入和属性嵌入,生成实体对齐模型,包括以下步骤:

29、将结构嵌入和属性嵌入进行结合,将实体对齐概率的问题转化为测量统一嵌入空间中实体之间的距离,对于两个知识图中的实体eg1和eg2,实体对齐模型如下:

30、

31、

32、其中h(l)(·)和s(l)(·)分别代表实体基于结构嵌入和属性嵌入得到的特征向量,mh和ms分别代表结构嵌入的维度和属性嵌入的维度,τ是平衡两种嵌入的超参数,f(eg1,eg2)表示统一嵌入空间中实体之间的距离,l1表示l1范数正则化。

33、所述对实体对齐模型进行训练,包括以下步骤:

34、通过最小化以下基于边际的排名损失函数来执行实体对齐模型的训练:

35、

36、γ是边距超参数,是正样本集合,是的负样本集合;

37、其中,对于两个待对齐的实体(ei,ej),使用k近邻算法随机获得其中一个实体ei或ej的邻近实体并对其进行替换,将替换后的实体(e′i,e′j)作为负样本,得到正负样本集合。

38、一种基于属性嵌入和图注意力网络的实体对齐装置,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现所述的一种基于属性嵌入和图注意力网络的实体对齐方法。

39、一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现所述的一种基于属性嵌入和图注意力网络的实体对齐方法。

40、本发明具有以下有益效果及优点:

41、本发明基于属性嵌入和图注意力网络,利用双层图注意力网络gat编码,进行结构嵌入,利用性值编码器对属性进行嵌入,再将结构嵌入与属性嵌入相结合,实现实体对齐。本发明使用了引入注意力机制的图注意力网络,解决了以往方法通常依赖于图的结构信息,导致在特定图结构上训练得到的模型不可以直接被使用到其他图结构上的问题,同时结合属性信息进行嵌入,将实体对齐的准确率大大提高。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1