一种面向知识图谱实体对齐的自监督联合学习方法

文档序号:31788878发布日期:2022-10-12 15:25阅读:162来源:国知局
一种面向知识图谱实体对齐的自监督联合学习方法

1.本发明属于人工智能领域,涉及一种面向知识图谱实体对齐的自监督联合学习方法。


背景技术:

2.给机器赋能人类知识是人工智能领域的一个重要的研究方向。知识图谱是表达结构化人类知识的一种形式,吸引了学术界与产业界的广泛关注。随着知识建模、抽取及构建技术的发展,越来越多的知识图谱被构建并通过web公开。典型的知识图谱有dbpedia、yago以及wikidata。知识图谱被广泛应用于智能问答、推荐系统、信息检索等人工智能系统中。
3.在基于知识图谱的应用中,知识图谱系统之间通常需要进行信息交互以获取数据或实现特定功能。即使在单个知识图谱系统中,信息源通常来自不同的领域。例如,假设一艘载满gpu芯片的货船突然从监控系统中消失。为了评估潜在影响并定位货船,需要各种领域的知识图谱,例如公司、行业、产业、物流、卫星和无人机等。然而,跨域知识图谱通常是异构的。在同一领域内,由不同机构构建的知识图谱通常也是异构的。此外,人类知识的复杂性和对世界的主观看法差异性,使得建立一个包括一切的、统一的知识图谱变得不切实际。因此,由异构性导致的知识图谱之间的互操作困难无处不在。
4.知识融合是解决上述问题的有效方法。知识融合旨在建立异构知识图谱之间的关系,使得知识图谱能够相互通信和合作。根据异构性的类型,知识融合可分为本体层融合和实体层融合。在实际应用中,由于知识图谱实体的规模通常很大,近年来实体层融合已成为知识融合的主要任务,特别是实体对齐。
5.实体对齐的目标是建立实体之间的等价关系,实体一般是包含在不同的知识图谱里。对实体对齐的研究大致可以分为三种类型:语义网研究社区的技术,数据库研究社区的方法以及基于知识图谱嵌入的方法。前两种方法有一个限制,即只有当知识图包含一定数量的属性信息时,它们才能对齐实体。相反,基于知识图谱嵌入的方法适用于大多数场景,并确保具有竞争力的性能。
6.在学术界,基于嵌入的实体对齐是一个热门的研究话题。sea、otea和ake采用基于知识三元组的知识图谱嵌入,并通过变换进行对齐。iptranse和rsn4ea采用基于路径的知识图谱嵌入,并以参数共享的模式执行对齐。mugnn和kecg利用基于邻居的嵌入,并以校准方式执行对齐。还有一些实体对齐方法可以利用诸如属性和文字等辅助信息。然而,这些方法采用基于人工标注的监督或半监督学习进行实体对齐。人工标注是一项耗时且成本高昂的任务,限制了(半)监督实体对齐方法的适用性和可扩展性。
7.最近,研究人员提出了无需人工干预即可生成种子对齐的自监督实体对齐方法。自监督实体对齐方法eva使用预训练图像学习模型生成种子对齐,然后提出了一种嵌入结构、图像、关系和属性信息的联合学习方法。然而,实体的描述和类型信息被忽略,导致其对齐准确性受限。


技术实现要素:

8.为了解决现有技术中存在的上述技术问题,本发明提出了一种面向知识图谱实体对齐的自监督联合学习方法,有效地利用知识图谱自携带的多模态信息,结合知识嵌入模型,自动、高效地融合知识图谱,其具体技术方案如下:一种面向知识图谱实体对齐的自监督联合学习方法,包括以下步骤:步骤一,使用图像预训练深度学习模型来学习实体的图像特征,通过计算图像特征之间的欧氏距离来测量图像的相似度,再根据图像相似度,选择相似度最高的实体对作为种子对齐;步骤二,在步骤一的种子对齐的监督下,利用知识图谱的结构信息、实体描述、属性值、实体类型信息,基于图卷积网络、语言预训练模型、层次类型嵌入模型,将知识图谱嵌入到计算机低维向量空间;步骤三,基于步骤二的知识图谱的嵌入,计算实体成对描述交互、邻居描述交互、属性交互、类型交互相似度向量,之后通过模态融合学习各模态的权重并生成最终的实体嵌入,最后,基于实体嵌入计算余弦距离以测量实体之间的对齐可能性,并输出对齐实体列表。
9.进一步的,所述步骤一具体为:采用在imagenet图像数据库的识别任务上预先训练的resnet-152模型作为图像预训练深度学习模型,从模型的第一层提取输出作为每个实体图像的特征,然后利用提取特征之间的欧氏距离来度量实体的图像对之间的相似度;最后,根据图像相似度,选择相似度最高的top-k对实体作为种子对齐。
10.进一步的,所述步骤二,具体包括以下子步骤:步骤(2.1)基于实体的文字描述和属性信息,利用语言预训练模型对实体进行嵌入,使文字描述相似的实体在向量空间相邻,;步骤(2.2)基于知识图谱的结构信息,利用图卷积网络对知识图谱嵌入进行邻居信息增强;步骤(2.3)基于实体的类型信息,通过层次类型嵌入模型,使类型相似的实体在向量空间相邻。
11.进一步的,所述步骤(2.1)具体为:首先,基于种子对齐构建训练数据集,是实体在种子对齐的对应实体,即相似实体,是随机选取的非的相异实体;然后,将实体的文字描述导入到语言预训练模型bert为知识图谱嵌入做微调;最后,利用多层感知器,过滤语言预训练模型bert的cls嵌入,得到实体的嵌入,cls是模型bert中使用的一种特殊分类标记;在微调中使用的成对margin分类损失函数如下:其中,是通过与之间的距离进行初始化,∈或,表示
相似实体对与相异实体对之间采用的margin,越小表示两个实体在描述嵌入方面越相似。
12.进一步的,所述步骤(2.2)具体为:基于图卷积网络gcn通过信息传播的方式使实体嵌入聚合邻居实体信息,所述信息传播的方式,规则如下:其中,表示添加了自连接的邻接矩阵,是单位矩阵,与意味着层特定可训练权重矩阵,则表示一个激活函数,表示在第l层的激活矩阵,其中n表示实体的个数,d表示实体向量的维度。
13.进一步的,所述步骤(2.3)具体为:通过层次类型感知距离函数以计算两个实体在类型嵌入空间的距离,再基于层次类型嵌入模型hte学习实体在类型嵌入空间的向量表示;所述层次类型感知距离函数如下:其中,是距离参数,表示两个实体之间的类型相似度,用与范化类型相似度的值,类型相似度通过最近共同父类型的信息内容进行计算,具体如下:其中,表示同时为与的父类的集合,意味着类型t的信息内容值,信息内容越具体,则信息内容的值越高。
14.进一步的,所述步骤三,具体包括以下子步骤:步骤(3.1)基于步骤(2.1)的实体文字描述嵌入,计算两个实体向量间的余弦距离,并为每一个实体生成一维相似度向量,即计算得到成对描述相似度向量;步骤(3.2)基于步骤(2.2)的实体邻居信息嵌入,计算邻居描述相似度向量;步骤(3.3)基于步骤(2.1)的实体属性信息嵌入,计算属性相似度向量;步骤(3.4)基于步骤(2.3)的实体类型嵌入,计算两个实体向量间的余弦距离,并为每一个实体生成一维相似度向量,即计算得到类型相似度向量;步骤(3.5)在步骤一种子对齐的监督下,联合学习成对描述、邻居描述、属性、类型相似度,生成最终实体对之间的相似度,并基于实体相似度找出相应的对齐实体;步骤(3.6)采用贪婪对齐策略,对每个实体选取对齐概率最大的候选实体生成对齐实体对,并从相应的知识图谱中删除已对齐的实体,反复步骤(3.6)直至其中一个知识图谱中的实体为空。
15.进一步的,所述步骤(3.2)具体为:首先构造的邻居矩阵,矩阵的值代表实体
e的第i个邻居与实体的第j个邻居的余弦相似度;其次,应用max-pooling技术于邻居矩阵的各行与各列以选择最为相关的邻居对;之后,通过rbf核聚合函数提取已收集类似度的特征;最后,串联行与列聚合向量以表示邻居描述相似度向量。
16.进一步的,所述步骤(3.3)具体为:首先构造的属性矩阵,矩阵的值表示实体e的第i个属性与实体的第j个属性的余弦相似度;其次,应用max-pooling与rbf核聚合函数于属性矩阵的各个行与列;最后,串联行与列聚合向量以表示属性相似度向量。
17.进一步的,所述步骤(3.5)具体过程为:基于实体相似度向量通过多层感知器学习两个实体之间的对齐可能性,的值越大,表示两个实体对齐的概率越大,其中是通过权重串联的方式融合步骤(3.1)至(3.4)的向量而生成的。
18.有益效果:本发明针对如何突破人工标注的束缚,融合大规模知识图谱的问题,旨在提出面向实体对齐的自监督联合学习方法,充分有效的利用知识图谱自携带的多模态信息,结合知识嵌入模型,自动、高效地融合知识图谱,以自监督联合学习的方式进行实体对齐,全程无需人工干预,确保了其拓展性。
附图说明
19.图1是本发明的一种面向知识图谱实体对齐的自监督联合学习方法流程示意图;图2是本发明实施例的一种面向知识图谱实体对齐的自监督联合学习框架示意图;图3是本发明实施例的知识图谱dbpedia的类型层次的结构示意图;图4是本发明实施例的一种面向知识图谱实体对齐的自监督联合学习装傻的结构示意图。
具体实施方式
20.为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
21.随着预训练语言模型的发展,文字描述在实体对齐中可以发挥重要的作用,此外,类型完全不同的实体几乎不可能是对齐实体,知识图谱中的类型通常是分层的,这意味着类型之间的相似性是可测量的。
22.如图2所示,基于知识图谱嵌入的实体对齐框架主要包括种子对齐生成模块、知识图谱嵌入模块和对齐交互模块。种子对齐生成模块收集初始对齐标签,即生成语义相同的初始实体对集;知识图谱嵌入模块将高维知识图谱映射到低维计算空间以便计算机处理,嵌入过程在种子对齐的监督下执行;对齐交互模块基于嵌入测量实体对之间的相似性,并生成最终对齐列表。
23.如图1所示,本发明提出一种面向实体对齐的自监督联合学习方法,采用种子对齐生成模块根据实体的图像自动生成语义相同、可信度高的实体对作为种子对齐;利用知识
图谱嵌入模块在自动生成的种子对齐的监督下,将高维图谱数据映射到计算机易于处理的低维向量空间;采用对齐交互模块根据嵌入判断不同知识图谱中的一对实体是否相同,所述对齐交互模块为基于对齐策略的交互模型,对齐策略指导对齐过程的顺序,具体包括以下步骤:步骤一,使用图像预训练深度学习模型来学习实体的图像特征,通过计算图像特征之间的欧氏距离来测量图像的相似度,再根据图像相似度,选择相似度最高的实体对作为种子对齐。
24.具体的,在种子对齐生成模块,使用预训练深度学习模型来学习图像特征,以测量图像的相似性。具体而言,本发明的实体对齐的自监督联合学习方法self-ea采用了在imagenet图像数据库的识别任务上预先训练的resnet-152模型。imagenet是根据wordnet层次结构组织的最著名的图像数据库之一,其中包含1400多万张图像。resnet-152模型是一个深度152层的深度残差学习网络。在resnet-152模型上执行一个简单的前馈过程,并从第一层提取输出作为每个实体图像的特征;然后利用提取特征之间的欧氏距离来度量实体的图像对之间的相似度;最后,根据图像相似度,选择相似度最高的top-k对实体作为种子对齐。
25.wordnet是由princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。wordnet与其他标准词典最显著的不同在于:它将词汇分成五个大类:名词、动词、形容词、副词和虚词。实际上,wordnet仅包含名词、动词、形容词和副词。虚词通常是作为语言句法成分的一部分,wordnet忽略了英语中较小的虚词集。wordnet与一般字典的不同在于组织结构的不同,它是以同义词集合(synset)作为基本的构建单位来组织的,用户可以在同义词集合中找到一个合适的词去表达一个已知的概念。
26.步骤二,在知识图谱嵌入模块,利用知识图谱的结构信息、实体描述、属性值、实体类型信息,基于图卷积网络、语言预训练模型、层次类型嵌入模型,将知识图谱嵌入到计算机易于处理的低维向量空间,同时尽量保留实体的原有信息,具体包括以下子步骤:步骤(2.1)基于实体的文字描述和属性,利用语言预训练模型对实体进行嵌入,使文字描述相似的实体在向量空间相邻,具体过程为:首先,基于种子对齐构建训练数据集,是实体在种子对齐的对应实体,即相似实体,是随机选取的非的相异实体;然后,将实体的文字描述导入到语言预训练模型bert为知识图谱嵌入做微调;最后,利用多层感知器,过滤语言预训练模型bert的cls嵌入,得到实体的嵌入,cls是模型bert中使用的一种特殊分类标记;在微调中使用的成对margin分类损失函数如下:其中,是通过与之间的距离进行初始化,表示相似实体对
与相异实体对之间采用的margin,越小表示两个实体在描述嵌入方面越相似。
27.步骤(2.2)基于知识图谱的结构信息,利用图卷积网络对知识图谱嵌入进行邻居信息增强,具体过程为:基于图卷积网络gcn通过信息传播的方式使实体嵌入聚合邻居实体信息,所述信息传播的方式,规则如下:其中,表示添加了自连接的邻接矩阵,是单位矩阵,与意味着层特定可训练权重矩阵,则表示一个激活函数。另外,表示在第l层的激活矩阵,其中n表示实体的个数,d表示实体向量的维度。
28.步骤(2.3)基于实体的类型信息,通过层次类型嵌入模型hte,使类型相似的实体在向量空间相邻,具体过程为:通过层次类型感知距离函数以计算两个实体在类型嵌入空间的距离,再基于层次类型嵌入模型hte学习实体在类型嵌入空间的向量表示;所述层次类型感知距离函数如下:其中,是距离参数,表示两个实体之间的类型相似度,用与范化类型相似度的值,类型相似度通过最近共同父类型的信息内容进行计算,具体如下:其中,表示同时为与的父类的集合,意味着类型t的信息内容值,信息内容越具体,则信息内容的值越高。
29.如图3所示,知识图谱dbpedia类型层次部分结构,图中的类型之间的关系是子类,数值表示信息内容值,类型越抽象,信息内容值越低;反之,类型越具体,信息内容值越高。举例来说,运动联盟与桑巴学校的最近共同父类是组织,所以其泛化之前的类型相似度是组织的信息内容值0.531,运动联盟与日食的最近共同父类是最为宽泛的owl:thing(通用类的东西),信息内容值为0,通过这种方式,可以判断运动联盟与桑巴学校的相似度比运动联盟与日食的类型相似度高。
30.步骤三,在对齐交互模块,基于步骤二的知识图谱的嵌入,计算实体成对描述交互、邻居描述交互、属性交互、类型交互相似度向量,之后通过模态融合学习各模态的权重并生成最终的实体嵌入,最后,基于实体嵌入计算余弦距离以测量实体之间的对齐可能性,并输出对齐实体列表,具体包括以下子步骤:步骤(3.1)基于步骤(2.1)的实体文字描述嵌入,计算两个实体向量间的余弦距离,并为每一个实体生成一维相似度向量,即计算得到成对描述相似度向量。
31.步骤(3.2)基于步骤(2.2)的实体邻居信息嵌入,计算邻居描述相似度向量,具体
过程为:首先构造的邻居矩阵,矩阵的值代表实体e的第i个邻居与实体的第j个邻居的余弦相似度;其次,应用max-pooling技术于邻居矩阵的各行与各列以选择最为相关的邻居对;之后,通过rbf核聚合函数提取已收集类似度的特征;最后,串联行与列聚合向量以表示邻居描述相似度向量。
32.步骤(3.3)基于步骤(2.1)的实体属性嵌入,计算属性相似度向量,具体过程为:首先构造的属性矩阵,矩阵的值表示e的第i个属性与的第j个属性的余弦相似度;其次,应用max-pooling与rbf核聚合函数于各个行与列;最后,串联行与列聚合向量以表示属性相似度向量。
33.步骤(3.4)基于步骤(2.3)的实体类型嵌入,计算两个实体向量间的余弦距离,并为每一个实体生成一维相似度向量,即计算得到类型相似度向量。
34.步骤(3.5)在种子对齐的监督下,联合学习成对描述、邻居描述、属性、类型相似度,生成最终实体对之间的相似度,并基于实体相似度找出相应的对齐实体,具体过程为:基于实体相似度向量通过多层感知器学习两个实体之间的对齐可能性,的值越大,表示两个实体对齐的概率越大,其中是通过权重串联的方式融合步骤(3.1)至(3.4)的向量而生成的。
35.步骤(3.6)采用贪婪对齐策略,对每个实体选取对齐概率最大的候选实体生成对齐实体对,并从相应的知识图谱中删除已对齐的实体,反复步骤(3.6)直至其中一个图谱中的实体为空。
36.本发明充分利用知识图谱自携带的信息,以自监督联合学习的方式进行实体对齐,全程无需人工干预,确保了其拓展性。在基准跨语言实体对齐数据集dbp15k的实验结果表明,在针对中文-英语、日语-英语、法语-英语知识图谱融合任务中,本发明的对齐准确率(hit@1)达到了96.2%、97.0%以及99.4%。相比最新的自监督实体对齐方法eva,本发明的对齐准确率平均提高了23.5%。本发明的对齐准确率甚至略微高于(0.07%)最新基于人工标注的监督学习方法。此结果证明了本发明的高精准性与可拓展性。
37.在基准数据集dbp15k中实体的平均图像覆盖率为71.3%,这为本发明的基于图像自动收集种子对齐提供了良好的条件,然而,本发明在知识图谱只包含少量图像时也能展现出优异的性能,实验结果表明,在日语-英语设定中只要有800个图像,本发明的对齐准确率就能达到93.4%;在法语-英语设定中,只要有100个图像,本发明的对齐准确率就能达到97.8%;在知识图谱没有图像的条件下,本发明也可以通过输入人工标注种子对齐的方式进行实体对齐,并达到优秀的对齐准确性。具体来说,人工种子对齐为800时,在日语-英语设定中本发明的对齐准确率为96%;在法语-英语设定中,人工种子对齐为100时本发明的对齐准确率为97.8%,此结果证明了本发明的通用性。
38.与前述一种面向知识图谱实体对齐的自监督联合学习方法的实施例相对应,本发明还提供了一种面向知识图谱实体对齐的自监督联合学习装置的实施例。
39.参见图4,本发明实施例提供的一种面向知识图谱实体对齐的自监督联合学习装置,包括一个或多个处理器,用于实现上述实施例中的一种面向知识图谱实体对齐的自监督联合学习方法。
40.本发明一种面向知识图谱实体对齐的自监督联合学习装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明一种面向知识图谱实体对齐的自监督联合学习装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
41.上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
42.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
43.本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种面向知识图谱实体对齐的自监督联合学习方法。
44.所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
45.以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1