一种基于子图嵌入的跨语言实体对齐方法与流程

文档序号：22916168发布日期：2020-11-13 15:57阅读：来源：国知局

技术特征：

1.一种基于子图嵌入的跨语言实体对齐方法，其特征在于：包括以下步骤：

步骤1：构建实体信息、属性信息、训练集和测试集；

步骤2：构建训练集的实体嵌入矩阵初始值，跨语言知识图谱kg1和kg2的邻接矩阵；

步骤3：基于训练集，训练图卷积网络模型，生成实体的嵌入表示；

步骤3，具体包括如下子步骤：

步骤3.1：将训练集的实体嵌入矩阵初始值，以及表示知识图谱kg1的图g1的邻接矩阵输入至图卷积网络gcn1，即生成图卷积网络gcn1的第一层神经网络层的输入；图卷积网络gcn1包含若干神经网络层，模型参数在不同神经网络层之间共享；

步骤3.2：将训练集的实体嵌入矩阵初始值，以及表示知识图谱kg2的图g2的邻接矩阵输入至图卷积网络gcn2，即生成图卷积网络gcn2的第一层神经网络层的输入；

步骤3.3：图卷积网络gcn2与图卷积网络gcn1采用相同方式生成每一层神经网络层的输入；

步骤3.4：基于子图嵌入生成图卷积网络gcn1和gcn2的结点的嵌入表示，图卷积网络gcn1的结点嵌入表示和gcn2的结点嵌入表示采用相同方式生成；具体为：根据预设的子图窗口大小在来生成每个结点的子图嵌入，不断迭代来优化图卷积网络模型；对于图卷积网络模型的结点，其子图窗口大小是指计算结点的子图嵌入所考察的子图大小范围；将直接存在关系边连接的两个结点间距离定义为1，将与结点距离小于给定阈值的结点集合划分在子图中；用窗口大小约束参与每一层的结点的子图嵌入的计算；

对于图卷积网络gcn1，在计算结点vi的子图嵌入时，子图中不同结点通过注意力机制在计算结点vi的子图嵌入时赋予不同的权重，其原因在于：结点vi子图中的结点与结点v的关联程度不同，因此子图中不同结点对子图嵌入计算的贡献也不同；

其中，子图嵌入的注意力机制通过构建注意力矩阵实现，具体为：对于结点vi，设vsg表示vi子图内的所有结点集合，结点vj和vk都属于集合vsg；构建注意力矩阵s，元素sij表示结点vj对结点vi的重要程度，即在知识图谱中结点vj所表示实体对结点vi所表示实体的重要程度，元素sij的计算方法如公式(7)所示：

其中，为参数，ei为结点vi的嵌入表示，ej为ei的子图内结点vj的嵌入表示，ek为ei的子图内结点vk的嵌入表示，esg表示ei子图内的所有结点的嵌入表示集合；w为一个线性神经网络层，“||”表示向量的拼接操作；leakyrelu(·)函数的作用是对负值赋予一个非零的斜率，yi＝leakyrelu(xi)，计算方法如公式(8)所示：

生成结点vi的子图嵌入表示h′i，如公式(9)所示：

其中，hj为基于图卷积网络生成的结点vj的嵌入表示，w1是可训练的权重矩阵，sij为根据公式(7)计算的注意力机制的权重，σ(·)为非线性激活函数，ebag＝{h11,h12,…,h1n}，即由第l神经网络层每个结点的嵌入表示h11,h12,…,h1n构成的集合；

对于结点vi，将其嵌入表示hi与其子图嵌入表示h′i融合，并输入至下一神经网络层中，参与计算模型下一神经网络层的输出，重复步骤3.3和步骤3.4，结点嵌入在图卷积网络模型的每一层逐步优化，直至图卷积网络的输出层，生成结点所表示实体的嵌入表示；即生成图卷积网络gcn1中结点所表示实体的嵌入表示，生成图卷积网络gcn2的结点嵌入表示；

步骤4：在利用训练集完成图卷积网络模型的参数训练后，将测试集输入至图卷积网络模型，基于图卷积网络和子图嵌入，生成测试集中实体的嵌入表示；

步骤5：判别测试集中的实体对齐关系，具体为：

对于测试集中待对齐的跨语言实体对(xu,yv)，计算每一实体对(xu,yv)的嵌入表示(eu,ev)相似度，eu和ev分别为实体xu和实体yv的嵌入表示；

对于每一实体xu，根据余弦相似度计算结果，构建与实体xu对齐的候选实体集合t；进一步，按照余弦相似度非降序顺序，对候选实体集合t排序，构建有序实体列表te；

最后，输出所有实体xu以及与其具有对齐关系的有序实体列表te。

2.根据权利要求1所述的一种基于子图嵌入的跨语言实体对齐方法，其特征在于：步骤1中实体信息包括实体列表、实体编号列表以及关系三元组；属性信息包括属性列表、属性编号列表，以及属性三元组的编号列表。

3.根据权利要求1所述的一种基于子图嵌入的跨语言实体对齐方法，其特征在于：步骤1中实体信息和属性信息从两种自然语言表示的知识图谱kg1和kg2中提取；

知识图谱以三元组知识形式存储，包括关系三元组知识和属性三元组知识；

其中，关系三元组知识包括头实体、关系以及尾实体；属性三元组知识包括实体、属性和属性值；其中，实体是头实体以及尾实体中的一种。

4.根据权利要求1所述的一种基于子图嵌入的跨语言实体对齐方法，其特征在于：步骤1中训练集具体从跨语言知识图谱kg1和kg2中提取具有对齐关系的种子跨语言实体对构建。

5.根据权利要求1所述的一种基于子图嵌入的跨语言实体对齐方法，其特征在于：步骤1中测试集通过提取待对齐的跨语言实体对构建。

6.根据权利要求1所述的一种基于子图嵌入的跨语言实体对齐方法，其特征在于：步骤2中，训练集的实体嵌入矩阵初始值通过随机方式产生，实体嵌入矩阵中每一行表示一个实体的嵌入向量；

跨语言知识图谱kg1和kg2的邻接矩阵，依据如下步骤构建：

首先，构建表示这两个知识图谱kg1和kg2的图g1和g2；

其中，图g1中的结点表示知识图谱kg1中的实体，边表示知识图谱kg1中实体之间的关系；图g2中的结点表示知识图谱kg2中的实体，边表示知识图谱kg2中实体之间的关系；

其次，根据图g1的拓扑结构来构建图g1的邻接矩阵，根据图g2的拓扑结构来构建图g2的邻接矩阵。

7.根据权利要求1所述的一种基于子图嵌入的跨语言实体对齐方法，其特征在于：步骤3.3，具体为：

3.3a基于步骤3.1中第一层神经网络层的输入，经过卷积计算生成图卷积网络gcn1第一层神经网络层的输出，对于第二层，以及第二层以上的神经网络层，具体为：

对于图卷积网络gcn1，第l+1神经网络层的输出h1^(l+1)都由第l神经网络层的输出h1^(l)经过卷积计算生成，计算方法如公式(1)所示；

h1^(l)＝[h11,h12,......,h1n]^t(2)

其中，σ(·)为激活函数，w1^l是可训练的权重矩阵，其维数为d1(l)×d1(l+1)，d1(l)是第l神经网络层的结点个数，d1(l+1)是第l+1神经网络层的结点个数；in为阶数等于n的单位矩阵，a1为描述知识图谱kg1的图g1的邻接矩阵，a1维数为n×n；n为图g1的顶点数，即知识图谱kg1中的实体数目；公式(1)和公式(2)中的h1^(l)为第l神经网络层的输出，它记录第l神经网络层每个结点的嵌入表示h11,h12,…,h1n，并传播至第l+1神经网络层；

为二维矩阵，其中每一元素计算方式如公式(3)所示：

代表矩阵的第i行第j列元素；

3.3b基于步骤3.2中第一层神经网络层的输入，经过卷积计算生成图卷积网络gcn2第一层神经网络层的输出，对于第二层，以及第二层以上的神经网络层，具体为：

对于图卷积网络gcn2，第l+1神经网络层的输出h2^(l+1)都由第l神经网络层的输出h2^(l)经过卷积计算生成，计算方法如公式(4)所示；

h2^(l)＝[h21,h22,......,h2n]^t(5)

其中，σ(·)为激活函数，w2^l是可训练的权重矩阵，其维数为d2(l)×d2(l+1)，d2(l)是第l神经网络层的结点个数，d2(l+1)是第l+1神经网络层的结点个数；im为阶数等于m的单位矩阵，a2为描述知识图谱kg2的图g2的邻接矩阵，a2维数为m×m；m为图g2的顶点数，即知识图谱kg2中的实体数目；公式(4)和公式(5)中的h2^(l)为第l神经网络层的输出，它记录第l神经网络层每个结点的嵌入表示h21,h22,…,h2n，并传播至第l+1神经网络层；

为二维矩阵，其中每一元素计算方式如公式(6)所示：

代表矩阵的第i行第j列元素。

技术总结
本发明公开了一种基于子图嵌入的跨语言实体对齐方法，属于知识图谱构建和大数据挖掘技术领域。包括：步骤1：构建实体信息、属性信息、训练集和测试集；步骤2：构建训练集的实体嵌入矩阵初始值，跨语言知识图谱KG1和KG2的邻接矩阵；步骤3：基于训练集，训练图卷积网络模型，生成实体的嵌入表示；步骤4：在利用训练集完成图卷积网络模型的参数训练后，将测试集输入至图卷积网络模型，基于图卷积网络和子图嵌入，生成测试集中实体的嵌入表示；步骤5：判别测试集中的实体对齐关系。所述方法通过图卷积网络模型和带有注意力机制的子图嵌入生成实体结点的嵌入表示，提高了跨语言实体对齐的识别性能，在多语言信息检索及问答系统等领域具有广阔的应用前景。

技术研发人员：张春霞;薛惠民;汪安平;道捷;彭成;牛振东
受保护的技术使用者：北京理工大学
技术研发日：2020.08.17
技术公布日：2020.11.13

完整全部详细技术资料下载

当前第2页1 2