一种用于知识图谱的实体对齐方法、装置、介质及设备与流程

文档序号:34943775发布日期:2023-07-28 20:46阅读:40来源:国知局
一种用于知识图谱的实体对齐方法、装置、介质及设备与流程

本发明涉及金融、人工智能以及数字医疗,特别涉及一种用于知识图谱的实体对齐方法、装置、存储介质以及电子设备。


背景技术:

1、实体对齐作为知识图谱构建过程中的基础模块,扮演着不可或缺的角色。在多源数据融合阶段,对不同表达形式的同义实体进行对齐合并,进而补充或丰富实体的知识量。例如,在数字医疗、人工智能以及金融等技术领域,需要对齐的实体一般来源与不同的数据库,实体对齐的好坏直接影响着知识图谱数据库的建设质量,以及后续数据库线上应用的效果。然而,传统实体对齐采用的方法是人工整理实体的标准名、别名、缩略名,然后通过精准匹配的方式进行实体对齐,这种方式虽具有较好的准确性但健壮性差。同时,人工成本高开展周期长,当大批量进行实体对齐时人工处理效率非常低。

2、因此,亟需一种用于知识图谱的实体对齐方法,可以有效提高实体对齐效率,节约成本。


技术实现思路

1、有鉴于此,本发明提供了一种用于知识图谱的实体对齐方法、装置、存储介质以及电子设备,主要目的在于解决目前存在的人工整理实体进行实体对齐,效率低、成本高的问题。

2、为解决上述问题,本技术提供一种用于知识图谱的实体对齐方法,包括:

3、采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,计算获得各待对齐实体分别对应的第一实体向量;

4、对目标知识图谱中的第一目标实体与各所述第一实体向量进行匹配处理,得到与所述第一目标实体对应的若干第二实体向量;

5、计算第一目标实体向量与各所述第二实体向量之间的相似度值,得到相似度值满足预设条件的第二目标实体,所述第一目标实体向量是采用预设的各语义编码模型针对第一目标实体中的各子实体的属性数据进行语义编码处理,计算得到的;

6、将所述第二目标实体与所述第一目标实体进行实体对齐处理,得到实体对齐结果。

7、可选的,所述采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,计算获得各待对齐实体分别对应的第一实体向量,包括:

8、采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,得到与各待对齐实体分别对应的各第一语义编码属性向量;

9、基于各所述第一语义编码属性向量,计算得到各所述待对齐实体的第一实体向量。

10、可选的,所述采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,得到与各待对齐实体分别对应的各第一语义编码属性向量,包括:

11、采用预设的语言表征模型对各待对齐实体的、实体属性数据为文本类型数据进行语义编码处理,得到与各所述待对齐实体对应的文本语义编码属性向量;

12、采用预设的多层感知机模型对各待对齐实体的、实体属性数据为类别类型数据以及数值类型数据进行语义编码处理,得到与各所述待对齐实体对应的类别语义编码属性向量以及数值语义编码属性向量;

13、采用预设算法模型对各待对齐实体的、实体属性数据为图像类型数据进行语义编码处理,得到与各所述待对齐实体对应的图像语义编码属性向量;

14、其中,所述第一语义编码属性向量包括各所述文本语义编码属性向量、各所述类别语义编码属性向量、各所述数值语义编码属性向量以及各所述图像语义编码属性向量。

15、可选的,所述基于各所述第一语义编码属性向量,计算得到各所述待对齐实体的第一实体向量,包括:

16、将目标待对齐实体的文本语义编码属性向量作为基础向量,分别计算目标待对齐实体对应的类别语义编码属性向量、数值语义编码属性向量、图像语义编码属性向量与所述文本语义编码属性向量的注意力,得到目标待对齐实体对应的各注意力向量;

17、基于目标待对齐实体的文本语义编码属性向量和各所述注意力向量计算得到各所述待对齐实体的第一实体向量。

18、可选的,所述对目标知识图谱中的第一目标实体与各所述第一实体向量进行匹配处理,得到与所述第一目标实体对应的若干第二实体向量,包括:

19、确定第一目标实体的各子实体对应的第二语义编码属性向量;

20、基于各所述第二语义编码属性向量分别对第一目标实体和各第一实体向量进行匹配处理,获得与所述第一目标实体对应的初始实体向量集;

21、对各所述初始实体向量集中的各第一实体向量进行筛选处理,得到与所述第一目标实体对应的若干所述第二实体向量。

22、可选的,所述基于各所述第二语义编码属性向量分别对第一目标实体和各第一实体向量进行匹配处理,获得与所述第一目标实体对应的初始实体向量集,包括:

23、基于第一目标实体的各子实体所对应的第二语义编码属性向量,分别对第一目标实体和各第一实体向量进行匹配处理,得到若干子向量集;

24、基于各所述子向量集构建所述初始实体向量集。

25、可选的,计算第一目标实体向量与各所述第二实体向量之间的相似度值,得到相似度值满足预设条件的第二目标实体,包括:

26、基于各第二语义编码属性向量,生成第一目标实体对应的第一目标实体向量;

27、分别计算第一目标实体向量与各所述第二实体向量的相似度值;

28、将满足预设条件的相似度值确定为目标相似度值;

29、将计算所述目标相似度值的第二实体向量对应的待对齐实体确定为第二目标实体。

30、为解决上述问题,本技术提供一种实体对齐装置,包括:

31、语义编码处理模块:用于采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,计算获得各待对齐实体分别对应的第一实体向量;

32、匹配模块:用于对目标知识图谱中的第一目标实体与各所述第一实体向量进行匹配处理,得到与所述第一目标实体对应的若干第二实体向量;

33、计算模块:用于计算所述第一目标实体向量与各所述第二实体向量之间的相似度值,得到相似度值满足预设条件的第二目标实体,,所述第一目标实体向量是采用预设的各语义编码模型针对第一目标实体中的各子实体的属性数据进行语义编码处理,计算得到的;

34、对齐模块:用于将所述第二目标实体与所述第一目标实体进行实体对齐处理,得到实体对齐结果。

35、为解决上述问题,本技术提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所述用于知识图谱的实体对齐方法的步骤。

36、为解决上述问题,本技术提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述所述用于知识图谱的实体对齐方法的步骤。

37、本技术通过采用各语义编码模型对各待对齐实体的各实体属性信息进行语义编码处理,得到各第一语义编码属性向量;对同一实体对应的各第一语义编码属性向量进行计算得到各待对齐实体对应的第一实体向量;很对知识图谱中的第一目标实体进行实体向量匹配,得到与所述第一目标实体对应的若干第二实体向量,最后计算第一目标实体实体向量与各所述第二实体向量的相似度确定第二目标实体,将第二目标实体与所述第一目标实体进行实体对齐得到实体对齐结果。本技术中的用于知识图谱的实体对齐方法是基于多模态融合实体对齐的方法,可以有效提高实体对齐效率,节约成本,同时可以使得实体对齐的结果更加精准。

38、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1