图谱检查方法、装置、计算机、可读存储介质及程序产品与流程

文档序号:31675790发布日期:2022-09-28 02:00阅读:108来源:国知局
图谱检查方法、装置、计算机、可读存储介质及程序产品与流程

1.本技术涉及计算机技术领域,尤其涉及一种图谱检查方法、装置、计算机、可读存储介质及程序产品。


背景技术:

2.知识图谱(knowledge graph)是一种揭示实体之间关系的语义网络,也是一种基于图的数据结构。其中,知识图谱可以帮助下游人工智能(artificial intelligence,ai)等算法取得更好的性能,例如,在医学领域的医学知识问答等,但是在自动化构建知识图谱以及使用知识图谱的过程中,如何对知识图谱的质量进行量化评估是一个难题。也就是说,对知识图谱进行一致性检查成为一个重要的工作,其中,知识图谱一致性检查(knowledge graph consistency checking)是指挖掘发现知识图谱中可能存在的矛盾知识,该一致性检查通常不包括对外部知识或信息源的依赖。目前,一般是通过人工标注,对知识图谱进行一致性检查,这就导致了图谱检查的效率较低,人工成本较高。


技术实现要素:

3.本技术实施例提供了一种图谱检查方法、装置、计算机、可读存储介质及程序产品,可以提高对图谱检查的效率。
4.本技术实施例一方面提供了一种图谱检查方法,该方法包括:
5.获取目标知识图谱所包括的n个实体对象的目标实体向量;n为正整数;n个实体对象的目标实体向量是通过目标知识图谱所包括的原始三元组训练得到的;
6.基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群,从p个实体集群中分别获取集群实体对象;p为正整数;集群实体对象用于指代对应的实体集群;
7.从目标知识图谱中获取p个实体集群分别对应的集群实体对象之间的集群实体关系,基于p个实体集群分别对应的集群实体对象及集群实体关系,生成抽象图谱;
8.对抽象图谱进行一致性检查,基于抽象图像的检查结果,确定目标知识图谱的目标检查结果。
9.本技术实施例一方面提供了一种图谱检查装置,该装置包括:
10.向量获取模块,用于获取目标知识图谱所包括的n个实体对象的目标实体向量;n为正整数;n个实体对象的目标实体向量是通过目标知识图谱所包括的原始三元组训练得到的;
11.实体聚类模块,用于基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群;
12.对象选取模块,用于从p个实体集群中分别获取集群实体对象;p为正整数;集群实体对象用于指代对应的实体集群;
13.图谱生成模块,用于从目标知识图谱中获取p个实体集群分别对应的集群实体对
象之间的集群实体关系,基于p个实体集群分别对应的集群实体对象及集群实体关系,生成抽象图谱;
14.图谱检测模块,用于对抽象图谱进行一致性检查,基于抽象图像的检查结果,确定目标知识图谱的目标检查结果。
15.其中,该装置还包括:
16.数据获取模块,用于获取目标知识图谱所包括的n个实体对象及n个实体对象所对应的实体关系;实体关系包括集群实体关系;
17.元组构建模块,用于根据n个实体对象及n个实体对象所对应的实体关系,构建原始三元组;
18.向量调整模块,用于基于原始三元组所对应的向量转换关系,对n个实体对象的初始实体向量进行调整,得到n个实体对象分别对应的目标实体向量。
19.其中,原始三元组包括第一实体对象、第二实体对象及第一实体对象与第二实体对象之间的实体关系;n个实体对象包括第一实体对象与第二实体对象;
20.该向量调整模块,包括:
21.初始获取单元,用于获取第一实体对象的初始实体向量、第二实体对象的初始实体向量,以及第一实体对象与第二实体对象之间的实体关系的初始关系向量;
22.向量映射单元,用于将第一实体对象的初始实体向量映射到初始关系向量所在的关系空间,得到第一实体对象的第一映射向量,将第二实体对象的初始实体向量映射到关系空间,得到第二实体对象的第二映射向量;
23.损失生成单元,用于根据第一映射向量、第二映射向量、初始关系向量以及原始三元组所对应的向量转换关系,生成第一损失函数;
24.向量调整单元,用于基于第一损失函数对第一实体对象的初始实体向量及第二实体对象的初始实体向量进行调整,得到第一实体对象的目标实体向量,以及第二实体对象的目标实体向量。
25.其中,原始三元组的数量为m,m为正整数;
26.该向量调整模块,包括:
27.类型划分单元,用于获取目标知识图谱所包括的k种关系类型,基于k种关系类型将m个原始三元组划分为k个三元组集群;k为正整数;每个三元组集群中包括至少一个原始三元组;
28.该向量调整单元,还用于基于第i种关系类型所对应的三元组集群中的至少一个原始三元组的向量转换关系,对n个实体对象的初始实体向量进行调整,得到n个实体对象在第i种关系类型中分别对应的目标实体向量,直至得到各个实体对象在k种关系类型中的目标实体向量;i为小于或等于k的正整数。
29.其中,该向量调整模块,包括:
30.负样本获取单元,用于构建原始三元组中的实体关系所对应的负样本实体对象;
31.正距离获取单元,用于基于原始三元组所对应的向量转换关系,获取原始三元组所对应的正样本距离;
32.负距离获取单元,用于基于原始三元组所对应的向量转换关系,获取负样本实体对象与原始三元组中的实体关系之间的负样本距离;
33.损失调整单元,用于根据正样本距离与负样本距离生成第二损失函数,根据第二损失函数对n个实体对象的初始实体向量进行调整,得到n个实体对象分别对应的目标实体向量。
34.其中,该实体聚类模块,包括:
35.中心处理单元,用于获取p个初始聚类中心,基于n个实体对象的目标实体向量,获取n个实体对象分别到p个初始聚类中心的初始聚类距离;
36.初始聚类单元,用于基于n个实体对象分别到p个初始聚类中心的初始聚类距离,将n个实体对象划分至p个初始聚类中心所对应的初始集合中;
37.更新聚类单元,用于获取p个初始集合分别对应的更新聚类中心,基于n个实体对象分别到p个初始集合分别对应的更新聚类中心的更新聚类距离,将n个实体对象划分至p个更新聚类中心所对应的更新集合中;
38.聚类迭代单元,用于若p个更新集合不满足节点聚类条件,则将p个更新集合确定为p个初始集合,返回执行获取p个初始集合分别对应的更新聚类中心的过程;
39.集群确定单元,用于若p个更新集合满足节点聚类条件,则将p个更新集合确定为p个实体集群;每个实体集群中包括至少一个实体对象。
40.其中,该实体聚类模块,包括:
41.待处理获取单元,用于从n个实体对象中获取待处理实体对象;待处理实体对象是指未进行节点聚类处理的实体对象;
42.数量获取单元,用于获取位于待处理实体对象的邻域的实体对象的邻接数量;位于待处理实体对象的邻域的实体对象是指与待处理实体对象之间的向量距离小于或等于邻域半径的实体对象;向量距离是指对应的实体对象的目标实体向量与待处理实体对象的目标实体向量之间的距离;
43.节点扩充单元,用于若邻接数量大于或等于最小集合节点数,则基于待处理实体对象及位于待处理实体对象的邻域的实体对象,进行节点扩充,得到待处理实体对象所对应的密度可达实体,将待处理实体对象与密度可达实体组成实体集群,返回执行从n个实体对象中获取待处理实体对象的过程,直至n个实体对象中不存在待处理实体对象,得到p个实体集群;
44.节点处理单元,用于若邻接数量小于最小集合节点数,则返回执行从n个实体对象中获取待处理实体对象的过程。
45.其中,n个实体对象的目标实体向量包括n个实体对象在k种关系类型下的目标实体向量;k为正整数;
46.该实体聚类模块,包括:
47.类型获取单元,用于获取目标知识图谱所包括的k种关系类型;
48.类型聚类单元,用于基于n个实体对象在第i种关系类型下的目标实体向量,对n个实体对象进行聚类处理,得到第i种关系类型所对应的实体集群,直至得到k种关系类型分别对应的实体集群;k种关系类型分别对应的实体集群组成p个实体集群;i为小于或等于k的正整数。
49.其中,该图谱生成模块,包括:
50.关系确定单元,用于从目标知识图谱中,获取第i种关系类型下的实体集群所对应
的集群实体对象之间的集群实体关系;
51.图谱生成单元,用于将第i种关系类型下的实体集群所对应的集群实体对象及集群实体关系,组成第i种关系类型所对应的抽象图谱;
52.该图谱生成单元,还用于当i为k时,得到k种关系类型分别对应的抽象图谱。
53.其中,该图谱检测模块,包括:
54.图谱归纳单元,用于获取抽象图谱中的集群实体对象所对应的实体属性,将抽象图谱中的集群实体对象替换为对应的实体属性,得到本体属性图谱;
55.知识获取单元,用于获取本体属性图谱中的知识集合,获取标准知识;
56.知识检测单元,用于基于标准知识对知识集合进行一致性检查,确定目标知识图谱的目标检查结果。
57.其中,知识集合包括待检测知识;标准知识包括错误知识;
58.该知识检测单元,包括:
59.异常检测子单元,用于将待检测知识与标准知识进行对比,若知识集合中存在符合错误知识的待检测知识,则确定目标知识图谱的目标检查结果为图谱矛盾结果;
60.异常输出子单元,用于将符合错误知识的待检测知识映射到目标知识图谱中,得到符合错误知识的待检测知识所对应的原始三元组,将符合错误知识的待检测知识所对应的原始三元组确定为异常三元组,输出图谱异常消息。
61.其中,该知识检测单元,包括:
62.检测子单元,用于将知识集合与标准知识进行对比,若知识集合中存在与标准知识无关联的未检测知识,则将未检测知识发送至管理对象,以使管理对象对未检测知识进行检测;
63.知识添加子单元,用于获取管理对象所发送的检测结果,及检测结果对应的补充知识,将检测结果确定为目标知识图谱的目标检查结果,将补充知识添加至标准知识。
64.本技术实施例一方面提供了一种计算机设备,包括处理器、存储器、输入输出接口;
65.处理器分别与存储器和输入输出接口相连,其中,输入输出接口用于接收数据及输出数据,存储器用于存储计算机程序,处理器用于调用该计算机程序,以使包含该处理器的计算机设备执行本技术实施例一方面中的图谱检查方法。
66.本技术实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本技术实施例一方面中的图谱检查方法。
67.本技术实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例一方面中的各种可选方式中提供的方法。换句话说,该计算机指令被处理器执行时实现本技术实施例一方面中的各种可选方式中提供的方法。
68.实施本技术实施例,将具有如下有益效果:
69.在本技术实施例中,可以获取目标知识图谱所包括的n个实体对象的目标实体向量;n为正整数;n个实体对象的目标实体向量是通过目标知识图谱所包括的原始三元组训
练得到的;基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群,从p个实体集群中分别获取集群实体对象;p为正整数;集群实体对象用于指代对应的实体集群;从目标知识图谱中获取p个实体集群分别对应的集群实体对象之间的集群实体关系,基于p个实体集群分别对应的集群实体对象及集群实体关系,生成抽象图谱;对抽象图谱进行一致性检查,基于抽象图像的检查结果,确定目标知识图谱的目标检查结果。通过以上过程,可以基于实体对象的目标实体向量进行聚类处理,该目标实体向量可以表示对应的实体对象的特征,且目标实体向量是基于三元组训练得到的,使得各个实体对象的目标实体向量可以表示各个实体对象在目标知识图谱中的关系,基于该目标实体向量对实体对象进行聚类处理,可以将相似的实体对象聚类到一起,使得在基于聚类得到的实体集群对目标知识图谱进行下采样处理,即从实体集群中抽取集群实体对象,以组成抽象图谱时,该抽象图谱符合原图谱(即目标知识图谱)的分布,也就是该抽象图谱可以保持与目标知识图谱相同的一致性分布,同时减少了需要检查的知识图谱的规模,从而在保障对目标知识图谱的检查准确性的情况下,提高对目标知识图谱的检查效率。
附图说明
70.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
71.图1是本技术实施例提供的一种图谱检查的网络交互架构图;
72.图2是本技术实施例提供的一种图谱检查场景示意图;
73.图3是本技术实施例提供的一种图谱检查的方法流程图;
74.图4是本技术实施例提供的一种图谱应用场景示意图;
75.图5是本技术实施例提供了一种图谱缩减场景示意图;
76.图6是本技术实施例提供的一种图谱处理流程示意图;
77.图7是本技术实施例提供的一种图谱检查场景示意图;
78.图8是本技术实施例提供的一种向量转换场景示意图;
79.图9是本技术实施例提供的一种图谱检查装置示意图;
80.图10是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
81.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
82.其中,若在本技术中需要收集对象(如用户等)数据,则在收集前、收集中,显示提示界面或者弹窗,该提示界面或者弹窗用于提示用户当前正在搜集xxxx数据,仅仅在获取到用户对该提示界面或者弹窗发出确认操作后,开始执行数据获取的相关的步骤,否则结束。而且,对于获取到的用户数据,会在合理合法的场景或用途等上进行使用。可选的,在一
些需要使用用户数据但未得到用户授权的场景中,还可以向用户请求授权,在授权通过时,再使用用户数据。
83.在本技术实施例中,请参见图1,图1是本技术实施例提供的一种图谱检查的网络交互架构图,在本技术实施例中,计算机设备101可以获取需要进行检查的目标知识图谱,其中,计算机设备101可以从自身的存储空间中获取目标知识图谱,也可以从任意一个电子设备(如电子设备102a、电子设备102b或电子设备102c等)中获取目标知识图谱等,在此不做限制。举例来说,计算机设备101可以响应电子设备102b所发送的图谱检查请求,获取该图谱检查请求所携带的目标知识图谱,对该目标知识图谱进行检查,将该目标知识图谱的目标检查结果发送至电子设备102b。同理,该计算机设备101可以响应任意一个电子设备所发送的图谱检查请求,也可以响应在计算机设备101中所触发的图谱检查请求等。也就是说,任意一个具备本技术中的图谱检查功能的设备都可以执行本技术实施例,实现对自身存在的或从其他设备中获取到的目标知识图谱的检查。
84.具体的,请参见图2,图2是本技术实施例提供的一种图谱检查场景示意图。如图2所示,计算机设备可以获取目标知识图谱201,获取目标知识图谱201所包括的n个实体对象,n为正整数,如图2中所示的实体对象2011、实体对象2012及实体对象2013等,获取n个实体对象分别对应的目标实体向量。基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群,p为正整数,如图2中所示的实体集群2021、实体集群2022及实体集群2023等,其中,在该图2所示的示例中,该实体集群2021中包括实体对象2011,实体集群2022中包括实体对象2012,实体集群2013中包括实体对象2013等。进一步地,计算机设备从p个实体集群中分别获取集群实体对象,例如,假定从实体集群2021中获取到的集群实体对象为实体对象2011,从实体集群2022中获取到的集群实体对象为实体对象2012,从实体集群2023中获取到的集群实体对象为实体对象2013等。通过对n个实体对象进行聚类,使得可以将相似的实体对象划分到一个实体集群中,也就是每个实体集群中的实体对象之间具有一定的相似性,在目标知识图谱201中的分布也具有一定的相似性,可以从各个实体集群中获取集群实体对象,用以指代对应的实体集群,从而减少需要检测的实体对象的数量,即实现对目标知识图谱201的合理下采样。计算机设备可以基于目标知识图谱201及p个实体集群分别对应的集群实体对象,生成抽象图谱203。基于合理下采样得到的实体对象所组成的抽象图谱,可以符合原图谱(即目标知识图谱)分布,与原图谱也可以保持相同的一致性分布,从而可以对抽象图谱进行一致性检查,以得到对目标知识图谱201的目标检查结果,从而可以在保障对目标知识图谱检查的准确性的基础上,提高对目标知识图谱检查的效率。
85.其中,图2仅为一种可选的知识图谱检查实施例,具体的聚类过程及抽象图谱的架构等是基于实际检查的目标知识图谱所确定的,图2仅是针对图2中所示的目标知识图谱201的一种可能的检查过程。
86.可以理解的是,本技术实施例中所提及的计算机设备或电子设备包括但不限于终端设备或服务器。换句话说,计算机设备或电子设备可以是服务器或终端设备,也可以是服务器和终端设备组成的系统。其中,以上所提及的终端设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(augmented reality/virtual reality,ar/vr)设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、
摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,mid),或者火车、轮船、飞行等场景下的终端设备等。如图1中所示,终端设备可以是一种笔记本电脑(如电子设备102b所示)、手机(如电子设备102c所示)或车载设备(如电子设备102a所示)等,图1仅例举出部分的设备,可选的,该电子设备102a是指位于交通工具103中的设备。其中,以上所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
87.可选的,本技术实施例中所涉及的数据可以存储在计算机设备中,或者可以基于云存储技术或区块链网络对该数据进行存储,在此不做限制。例如,一种情况下,假定该目标知识图谱基于区块链网络进行检查触发,电子设备(可以是图1中所示的任意一个电子设备或计算机设备等)可以将目标知识图谱添加至区块链网络中,基于该目标知识图谱触发用于图谱检查的智能合约,基于该智能合约执行上述图2所示的过程,实现对目标知识图谱的图谱检查。或者,一种情况下,电子设备可以响应针对目标知识图谱的图谱检查请求,基于该图谱检查请求所携带的图谱标识或区块标识等,从区块链网络中查找目标区块,如图谱检查请求携带图谱标识,则该目标区块为该图谱标识所关联的区块,如图谱检查请求携带区块标识,则目标区块是指区块标识所指示的区块等,从目标区块中获取目标知识图谱,对该目标知识图谱进行图谱检查等。具体的目标知识图谱的获取方式及图谱检查触发方式基于实际场景进行实现,在此不做限制。
88.进一步地,请参见图3,图3是本技术实施例提供的一种图谱检查的方法流程图。如图3所示,该图谱检查过程包括如下步骤:
89.步骤s301,获取目标知识图谱所包括的n个实体对象的目标实体向量。
90.在本技术实施例中,计算机设备可以获取目标知识图谱,从该目标知识图谱中获取该目标知识图谱所包括的n个实体对象,获取n个实体对象分别对应的目标实体向量,n为正整数。其中,n个实体对象的目标实体向量是通过目标知识图谱所包括的原始三元组训练得到的,使得各个实体对象的目标实体向量可以表示对应的实体对象在目标知识图谱中的结构关系,包括与其他实体对象之间的关系,与目标知识图谱中的实体关系之间的关系,以及在目标知识图谱中的架构位置等,从而使得在后续基于目标实体向量进行聚类时,可以保留目标知识图谱的知识分布及一致性分布,保障图谱检查的准确性。具体的,计算机设备可以获取n个实体对象的初始实体向量,获取目标知识图谱中的实体关系的初始关系向量,将n个实体对象的初始实体向量映射到实体关系所在的关系空间,得到n个实体对象分别对应的映射向量,进一步基于目标知识图谱中所包括的原始三元组,以及n个实体对象分别对应的映射向量与初始关系向量,对n个实体对象分别对应的初始实体向量进行向量调整,得到n个实体对象分别对应的目标实体向量。举例来说,以目标知识图谱为医疗知识图谱为例,参见图4中所示的目标知识图谱403,图4是本技术实施例提供的一种图谱应用场景示意图,该目标知识图谱403中例举出部分实体对象及实体关系,如目标知识图谱403中的n个实体对象包括“喉痛灵片、芝麻、鹌鹑蛋、发烧、醋溜土豆丝、内科检查、绿豆薏米饭、感冒、消炎片、呼吸内科、血常规、支气管炎
…”
,目标知识图谱403中的实体关系包括“宜吃、适用药品、推荐食谱、症状、诊断检查、并发症
…”
等。
91.可选的,计算机设备可以直接基于目标知识图谱中所包括的原始三元组对该n个实体对象进行训练,得到n个实体对象分别对应的目标实体向量。以图4中所示的目标知识图谱403为例,该原始三元组包括“《感冒,宜吃,芝麻》、《感冒,宜吃,鹌鹑蛋》、《感冒,症状,发烧》、《感冒,推荐食谱,醋溜土豆丝》、《感冒,诊断检查,内科检查》、《感冒,症状,发热伴寒战》、《感冒,并发症,支气管炎》
…”
,可以基于目标知识图谱403中的原始三元组进行训练,得到n个实体对象的目标实体向量。进一步地,计算机设备可以获取n个实体对象分别对应的目标实体向量。
92.或者,计算机设备可以获取目标知识图谱所包括的k种关系类型,k为正整数。在每一种关系类型下,基于目标知识图谱所包括的原始三元组,对n个实体对象进行训练,得到n个实体对象在每一种关系类型下的目标关系向量,也就是说,每一种关系类型下,均存在n个实体对象的目标实体向量。进一步地,计算机设备可以获取该目标知识图谱所包括的k种关系类型,获取n个实体对象在k种关系类型下的目标实体向量,也就是,每个实体对象分别在k种关系类型下的目标实体向量,k为正整数,换句话说,相当于在该目标知识图谱中可以获取到n*k个目标实体向量。例如,假定k为3,则每个实体对象可以包括3个目标实体向量。如图4所示目标知识图谱403,该k种关系类型包括但不限于“宜吃、适用药品、症状、推荐食谱、诊断检查、并发症、所属科室
…”
,计算机设备可以基于k种关系类型分别对应的原始三元组,对n个实体对象进行训练,得到每一种关系类型下,n个实体对象的目标实体向量,如在“宜吃”关系类型下,n个实体对象分别对应的目标实体向量;在“适用药品”关系类型下,n个实体对象分别对应的目标实体向量;在“症状”关系类型下,n个实体对象分别对应的目标实体向量

,即,得到n*k个目标实体向量,每个实体对象对应k个目标实体向量。
93.步骤s302,基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群,从p个实体集群中分别获取集群实体对象,该集群实体对象用于指代对应的实体集群。
94.在本技术实施例中,计算机设备可以基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群,使得每个实体集群中包括的实体对象在目标知识图谱中相似,如在目标知识图谱中的架构,及在目标知识图谱中的分布等,使得实体集群中的实体对象可以用来指代对应的实体集群。进一步地,可以从p个实体集群中分别获取集群实体对象,用该集群实体对象指代对应的实体集群。
95.可选的,本技术不对上述对实体对象的聚类方法进行限制。例如,一种实体聚类方法

中,获取p个初始聚类中心,基于n个实体对象的目标实体向量,获取n个实体对象分别到p个初始聚类中心的初始聚类距离。基于n个实体对象分别到p个初始聚类中心的初始聚类距离,将n个实体对象划分至p个初始聚类中心所对应的初始集合中。获取p个初始集合分别对应的更新聚类中心,基于n个实体对象分别到p个初始集合分别对应的更新聚类中心的更新聚类距离,将n个实体对象划分至p个更新聚类中心所对应的更新集合中。若p个更新集合不满足节点聚类条件,则将p个更新集合确定为p个初始集合,返回执行获取p个初始集合分别对应的更新聚类中心的过程;若p个更新集合满足节点聚类条件,则将p个更新集合确定为p个实体集群;每个实体集群中包括至少一个实体对象。
96.可选的,该节点聚类条件可以为p个更新集合的聚类中心发生变化时,该p个更新集合的变化程度小于或等于聚类收敛阈值,即,若更新p个更新集合的聚类中心,该更新后
的聚类中心所对应的更新后的p个集合与p个更新集合之间的差异程度小于或等于聚类收敛阈值,则确定p个更新集合满足节点聚类条件,否则确定p个更新集合不满足节点聚类条件;或者,若p个更新集合与p个初始集合之间的差异程度小于或等于聚类收敛阈值,则确定p个更新集合满足节点聚类条件,若p个更新集合与p个初始集合之间的差异程度大于聚类收敛阈值,则确定p个更新集合不满足节点聚类条件等,在此不做限制。
97.或者,该节点聚类条件可以为更新集合中所包括的实体对象到该更新集合的集合向量的距离之和小于或等于距离收敛阈值,该集合向量可以是对应的更新集合中所包括的实体对象的目标实体向量的均值、中值或中程数等,在此不做限制。其中,该中值是指组距的上下限之算术平均数,当更新集合中包括的实体对象的数量为奇数时,处于该更新集合所包括的实体对象的目标实体向量的中间位置的目标实体向量即为该更新集合的集合向量;当更新集合中包括的实体对象的数量为偶数时,处于该更新集合所包括的实体对象的目标实体向量的中间位置的两个目标实体向量的平均数即为该更新集合的集合向量等。其中,中程数是指最大值与最小值的平均数,具体的,可以从更新集合所包括的实体对象的目标实体向量中获取最大实体向量及最小实体向量,将最大实体向量与最小实体向量的平均值,确定为该更新集合的集合向量。具体的,计算机设备可以获取p个更新集合分别对应的集合向量,获取每个更新集合中所包括的实体对象到该更新集合的集合向量之间的单集合总距离(即每个更新集合中所包括的实体对象到该更新集合的集合向量之间的距离之和)。若p个更新集合分别对应的单集合总距离均小于或等于距离收敛阈值,则确定p个更新集合满足节点聚类条件;若在p个更新集合中存在更新集合对应的单集合总距离大于距离收敛阈值,则确定p个更新集合不满足节点聚类条件。或者,若p个更新集合分别对应的单集合总距离之和小于或等于距离收敛阈值,则确定p个更新集合满足节点聚类条件;若p个更新集合分别对应的单集合总距离之和大于距离收敛阈值,则确定p个更新集合不满足节点聚类条件。
98.或者,该节点聚类条件可以为更新集合满足集合收敛函数,也就是说,若p个更新集合满足集合收敛函数,则确定p个更新集合满足节点聚类条件。举例来说,例如,将该n个实体对象的目标实体向量记作“x1,x2,x3,

,x
n”,将该p个更新集合中的第j个更新集合的集合向量记作μj,j为小于或等于p的正整数。其中,一种可选的集合收敛函数如公式(1)所示:
[0099][0100]
如公式(1)所示,s用于表示p个更新集合,sj用于表示第j个更新集合,公式(1)中的x用于表示第j个更新集合中的实体对象的目标实体向量,“||||
2”用于表示距离运算符号,argmin用于表示使取得最小值时,x的取值,在此处可以认为是使得取得最小值时,p个更新集合中分别包括的实体对象。其中,上述公式(1)为一种可选的集合收敛函数,并不限制其他集合收敛函数的使用。
[0101]
可选的,一种实体聚类方法

中,从n个实体对象中获取待处理实体对象;待处理
实体对象是指未进行节点聚类处理的实体对象。获取位于待处理实体对象的邻域的实体对象的邻接数量;位于待处理实体对象的邻域的实体对象是指与待处理实体对象之间的向量距离小于或等于邻域半径的实体对象;向量距离是指对应的实体对象的目标实体向量与待处理实体对象的目标实体向量之间的距离。若邻接数量大于或等于最小集合节点数,则基于待处理实体对象及位于待处理实体对象的邻域的实体对象,进行节点扩充,得到待处理实体对象所对应的密度可达实体,将待处理实体对象与密度可达实体组成实体集群,返回执行从n个实体对象中获取待处理实体对象的过程,直至n个实体对象中不存在待处理实体对象,得到p个实体集群;若邻接数量小于最小集合节点数,则返回执行从n个实体对象中获取待处理实体对象的过程。
[0102]
其中,以上仅为例举的几种可能的实体聚类方法,也可以使用其他实体聚类方法,实现对n个实体对象的聚类处理。例如,计算机设备可以初始化p个高斯分布参数(如均值和方差),用于初始化p个初始簇,其中,可以随机初始化p个高斯分布参数,也可以基于n个实体对象的目标实体向量,确定p个高斯分布参数;基于p个初始簇的高斯分布参数,确定p个初始簇的高斯分布,基于n个实体对象的目标实体向量,确定每个实体对象属于p个初始簇的关联概率,其中,一个实体对象越靠近一个初始簇的高斯分布的中心,该实体对象越可能属于该初始簇,例如,可以基于第d个实体对象的目标实体向量,计算第d个实体对象分别与p个初始簇的高斯分布的中心之间的距离,基于第d个实体对象分别与p个初始簇的高斯分布的中心之间的距离,确定第d个实体对象分别与p个初始簇的关联概率,d为小于或等于n的正整数;基于每个实体对象分别与p个初始簇的关联概率,得到p个更新簇,基于每个实体对象分别与p个初始簇的关联概率,计算p个更新簇分别对应的更新高斯参数,确定p个更新簇分别对应的更新高斯分布;若每个实体对象分别与p个更新簇之间的更新关联概率满足高斯聚类条件,则将p个更新簇确定为p个实体集群;若每个实体对象分别与p个更新簇之间的更新关联概率不满足高斯聚类条件,则将p个更新簇确定为p个初始簇,返回执行基于每个实体对象分别与p个初始簇的关联概率,得到p个更新簇的过程等。
[0103]
可选的,计算机设备可以在k种关系类型下,分别对n个实体对象进行聚类处理,得到每种关系类型下的实体集群。具体的,n个实体对象的目标实体向量包括n个实体对象在k种关系类型下的目标实体向量;k为正整数。计算机设备可以获取目标知识图谱所包括的k种关系类型。以第i种关系类型为例,计算机设备可以基于n个实体对象在第i种关系类型下的目标实体向量,对n个实体对象进行聚类处理,得到第i种关系类型所对应的实体集群,直至得到k种关系类型分别对应的实体集群;k种关系类型分别对应的实体集群组成p个实体集群;i为小于或等于k的正整数。其中,对任意一种关系类型下的n个实体对象的聚类过程,可以参见上述基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理的过程,如实体聚类方法

或实体聚类方法

等,其中,在该方式下,将k种关系类型分别对应的实体集群的数量记作p,则可以将第i种关系类型对应的实体集群的数量记作c,c为正整数如采用实体聚类方法

时,是获取c个初始聚类中心,直至得到第i种关系类型对应的c个实体集群;如采用实体聚类方法

时,是直至得到第i种关系类型对应的c个实体集群等。以第i种关系类型为例,可以得到k种关系类型分别对应的实体集群。如图4所示的目标知识图谱403,可以得到关系类型“宜吃”对应的实体集群、关系类型“适用药品”对应的实体集群、关系类型“症状”对应的实体集群


[0104]
进一步地,可以从p个实体集群中分别获取集群实体对象,该集群实体对象用于指代对应的实体集群,从而将目标知识图谱中所需检查的实体对象减少至p个左右,减少需要检查的数据量,同时,基于n个实体对象的目标实体向量进行聚类选取集群实体对象,实现了对目标知识图谱的适当合理的下采样,使得获取到的集群实体对象可以表示该目标知识图谱,且尽可能地保留目标知识图谱中的三元组结构,从而在保障图谱检查的准确性的情况下,提高图谱检查的效率。
[0105]
具体的,计算机设备可以获取位于第j个实体集群中的集群中心位置的实体对象,将该位于第j个实体集群中的集群中心位置的实体对象确定为第j个实体集群的集群实体对象,同理,可以得到p个实体集群分别对应的集群实体对象。其中,该集群中心位置可以是的实体集群的质心、矩心或重心等。
[0106]
举例来说,请参见图5,图5是本技术实施例提供的一种图谱缩减场景示意图。如图5所示,一种图谱缩减方法

中,计算机设备基于目标知识图谱501所包括的n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群502,进一步从p个实体集群502中分别获取集群实体对象。一种图谱缩减方法

中,计算机设备可以在k种关系类型下,基于n个实体对象在每种关系类型下的目标实体向量,分别对n个实体对象进行聚类处理,得到k种关系类型分别对应的实体集群,如在关系类型1下的实体集群5041、

、在关系类型k下的实体集群504k等,进一步从各个关系类型所对应的实体集群中获取集群实体对象。
[0107]
步骤s303,从目标知识图谱中获取p个实体集群分别对应的集群实体对象之间的集群实体关系,基于p个实体集群分别对应的集群实体对象及集群实体关系,生成抽象图谱。
[0108]
在本技术实施例中,计算机设备可以从目标知识图谱中获取p个实体集群分别对应的集群实体对象之间的集群实体关系,具体的,计算机设备可以从目标知识图谱中确定p个实体集群分别对应的集群实体对象,从目标知识图谱中获取p个实体集群分别对应的集群实体对象关联的集群实体关系。进一步地,基于p个实体对象分别对应的集群实体对象及集群实体关系,生成抽象图谱。
[0109]
可选的,如图5所示,一种图谱缩减方法

中,计算机设备可以将p个实体集群分别对应的集群实体对象作为节点,将p个实体集群分别对应的集群实体对象之间的集群实体关系作为边,生成抽象图谱503。
[0110]
一种图谱缩减方法

中,计算机设备可以将p个实体集群分别对应的集群实体对象作为节点,将p个实体集群分别对应的集群实体对象之间的集群实体关系作为边,生成抽象图谱。或者,从目标知识图谱中,获取第i种关系类型下的实体集群所对应的集群实体对象之间的集群实体关系;将第i种关系类型下的实体集群所对应的集群实体对象及集群实体关系,组成第i种关系类型所对应的抽象图谱;当i为k时,得到k种关系类型分别对应的抽象图谱。如图5所示,从目标知识图谱501中,获取关系类型1下的实体集群5041所对应的集群实体对象之间的集群实体关系,将关系类型1下的实体集群5041所对应的集群实体对象及集群实体关系,组成关系类型1所对应的抽象图谱5051;

;从目标知识图谱501中,获取关系类型k下的实体集群504k所对应的集群实体对象之间的集群实体关系,将关系类型k下的实体集群504k所对应的集群实体对象及集群实体关系,组成关系类型k所对应的抽象图谱505k。
[0111]
步骤s304,对抽象图谱进行一致性检查,基于抽象图像的检查结果,确定目标知识图谱的目标检查结果。
[0112]
在本技术实施例中,计算机设备可以获取抽象图谱中的集群实体对象所对应的实体属性,将抽象图谱中的集群实体对象替换为对应的实体属性,得到本体属性图谱。对该本体属性图谱进行一致性检查,基于本体属性图谱的检查结果,确定目标知识图谱的目标检查结果。其中,实体属性可以认为是对应的集群实体对象的知识图谱本体(ontology),是指实体对象具有层次化结构的类别以及属性信息,可以用于表示实体对象的上位概念。例如,在医疗知识图谱中,实体属性可以包括但不限于“疾病”、“药物”及“症状”等;在影视知识图谱中,实体属性可以包括但不限于“参演者”、“影视类型(如电影、电视剧或短剧等等)”及“影视信息(如影视海报或剧情介绍等)”等;在书籍知识图谱中,实体属性可以包括但不限于“作者”、“书籍类型”及“出版方”等,以上仅为例举的部分可选的知识图谱,以及知识图谱中可能映射到的部分实体属性,在具体实现中,知识图谱或实体属性等可以基于实际情况确定,在此不做限制。
[0113]
可选的,计算机设备可以获取抽象图谱中的知识集合,获取标准知识,基于标准知识对知识集合进行一致性检查,确定目标知识图谱的目标检查结果。可选的,计算机设备可以获取本体属性图谱中的知识集合,获取标准知识,基于标准知识对知识集合进行一致性检查,确定目标知识图谱的目标检查结果。其中,标准知识可以认为是指一种程序逻辑,是一种断言,如一个结果为真或假的逻辑判断式,相当于一种判断标准。其中,该知识集合包括待检测知识;标准知识包括错误知识。具体的,在基于标准知识对知识集合进行一致性检查,确定目标知识图谱的目标检查结果时,计算机设备可以将待检测知识与标准知识进行对比,若知识集合中存在符合错误知识的待检测知识,则确定目标知识图谱的目标检查结果为图谱矛盾结果;将符合错误知识的待检测知识映射到目标知识图谱中,得到符合错误知识的待检测知识所对应的原始三元组,将符合错误知识的待检测知识所对应的原始三元组确定为异常三元组,输出图谱异常消息。若知识集合中不存在符合错误知识的待检测知识,则确定目标知识图谱的目标检查结果为图谱正常结果。可选的,将知识集合与标准知识进行对比,若知识集合中存在与标准知识无关联的未检测知识,则将未检测知识发送至管理对象,以使管理对象对未检测知识进行检测;获取管理对象所发送的检测结果,及检测结果对应的补充知识,将检测结果确定为目标知识图谱的目标检查结果,将补充知识添加至标准知识。
[0114]
如图5所示,在图谱缩减方法

中,可以对抽象图谱503进行一致性检查,得到目标知识图谱的目标检查结果。在图谱缩减方法

中,可以对k种关系类型分别对应的抽象图谱进行一致性检查,即抽象图谱5051至抽象图谱505k,得到目标知识图谱的目标检查结果。
[0115]
可选的,计算机设备可以响应针对目标知识图谱的图谱检查请求,基于该图谱检查请求执行图3所示的步骤,获取目标知识图谱,对该目标知识图谱进行图谱检查。可选的,该图谱检查请求可以是直接针对目标知识图谱触发的,或者,可以是基于目标知识图谱的上传请求所触发的,在此不做限制。举例来说,计算机设备可以响应在目标应用中的图谱上传请求,获取该图谱上传请求所上传的目标知识图谱,对该目标知识图谱进行图谱检查(即图3所示各个步骤),得到目标知识图谱的目标检查结果;若目标知识图谱的目标检查结果为图谱矛盾结果,则输出图谱异常消息;若目标知识图谱的目标检查结果为图谱正常结果,
则将该目标知识图谱上传至目标应用,可选的,还可以输出图谱上传成功消息等。其中,该目标应用可以是指任意一个应用到知识图谱的应用程序(application,app)、网站、网页或小程序等,在此不做限制。
[0116]
进一步地,可以响应针对目标应用中的信息咨询请求,获取该信息咨询请求所携带的待处理信息,获取与该待处理信息相关联的实体信息,从目标应用中获取与该待处理信息相关联的关联知识图谱,例如,假定该关联知识图谱为上述目标知识图谱,基于该实体信息从该关联知识图谱中获取关联三元组,基于该关联三元组生成咨询响应消息,输出该咨询响应消息。
[0117]
可选的,假定该实体信息包括咨询实体对象及咨询实体关系,则可以基于该咨询实体对象及咨询实体关系从关联知识图谱中获取关联三元组,该关联三元组包括咨询实体对象及咨询实体关系。举例来说,如图4所示,假定该待处理信息401为“感冒可以吃什么”,可以基于该待处理信息401获取实体信息,该实体信息包括咨询实体对象“感冒”(即待处理信息401中所包括的“感冒”),以及咨询实体关系“宜吃、推荐食谱及适用药品等”(即根据待处理信息401中所包括的“吃”得到的),从关联知识图谱中获取包括咨询实体对象“感冒”及咨询实体关系“宜吃、推荐食谱及适用药品等”的关联三元组,如“《感冒,宜吃,鹌鹑蛋》、《感冒,推荐食谱,绿豆薏米饭》
…”
等,根据该关联三元组生成咨询响应消息402,输出该咨询响应消息402,如“感冒宜食的食物包括:芝麻、鹌鹑蛋...;推荐食谱包括有:醋溜土豆丝、绿豆薏米饭、薏米莲子粥

;感冒常用药品包括:消炎片、感冒灵颗粒...”。假定该实体信息包括咨询实体对象、咨询实体关系及咨询实体属性,则可以基于该咨询实体对象、咨询实体关系及咨询实体属性从关联知识图谱中获取关联三元组,该关联三元组包括咨询实体对象及咨询实体关系,且该关联三元组包括属于咨询实体属性的实体对象。举例来说,假定该待处理信息为“感冒应该吃什么药”,可以基于该待处理信息获取实体信息,该实体信息包括咨询实体对象“感冒”(即待处理信息中所包括的“感冒”)、咨询实体关系“适用药品等”(即根据待处理信息中所包括的“吃什么药”得到的),以及咨询实体属性“药物”,从关联知识图谱中获取包括咨询实体对象“感冒”及咨询实体关系“适用药品等”,且包括属于咨询实体属性“药物”的实体对象的关联三元组,如“《感冒,适用药品,消炎片》、《感冒,适用药品,喉痛灵片》
…”
等,根据该关联三元组生成咨询响应消息,输出该咨询响应消息,如“感冒常用药品包括:消炎片、感冒灵颗粒...”。
[0118]
可选的,假定该实体信息包括咨询实体对象及咨询实体关系所组成的三元组,则可以基于该咨询实体对象及咨询实体关系所组成的三元组从关联知识图谱中获取关联三元组,该关联三元组包括咨询实体对象及咨询实体关系。将该关联三元组与咨询实体对象及咨询实体关系所组成的三元组进行对比,得到咨询响应消息,输出该咨询响应消息。可选的,若未查找到关联三元组,则该咨询响应消息为否定消息;若查找到关联三元组,且该咨询实体对象及咨询实体关系所组成的三元组符合关联三元组,则该咨询响应消息为确定消息。举例来说,假定该待处理信息为“感冒应该吃消炎片么”,可以基于该待处理信息获取实体信息,该实体信息包括咨询实体对象“感冒”(即待处理信息中所包括的“感冒”)及咨询实体对象“消炎片”(即待处理信息中所包括的“消炎片”)、咨询实体关系“适用药品”(即根据待处理信息中所包括的“可以吃消炎片”得到的),从关联知识图谱中获取包括咨询实体对象“感冒”、咨询实体对象“消炎片”及咨询实体关系“适用药品”的关联三元组,如“《感冒,适
用药品,消炎片》”等,根据该关联三元组生成咨询响应消息,输出该咨询响应消息,如“可以吃”等。
[0119]
在本技术实施例中,可以获取目标知识图谱所包括的n个实体对象的目标实体向量;n为正整数;n个实体对象的目标实体向量是通过目标知识图谱所包括的原始三元组训练得到的;基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群,从p个实体集群中分别获取集群实体对象;p为正整数;集群实体对象用于指代对应的实体集群;从目标知识图谱中获取p个实体集群分别对应的集群实体对象之间的集群实体关系,基于p个实体集群分别对应的集群实体对象及集群实体关系,生成抽象图谱;对抽象图谱进行一致性检查,基于抽象图像的检查结果,确定目标知识图谱的目标检查结果。通过以上过程,可以基于实体对象的目标实体向量进行聚类处理,该目标实体向量可以表示对应的实体对象的特征,且目标实体向量是基于三元组训练得到的,使得各个实体对象的目标实体向量可以表示各个实体对象在目标知识图谱中的关系,基于该目标实体向量对实体对象进行聚类处理,可以将相似的实体对象聚类到一起,使得在基于聚类得到的实体集群对目标知识图谱进行下采样处理,即从实体集群中抽取集群实体对象,以组成抽象图谱时,该抽象图谱符合原图谱(即目标知识图谱)的分布,也就是该抽象图谱可以保持与目标知识图谱相同的一致性分布,同时减少了需要检查的知识图谱的规模,从而在保障对目标知识图谱的检查准确性的情况下,提高对目标知识图谱的检查效率。
[0120]
进一步地,可以参见图6,图6是本技术实施例提供的一种图谱处理流程示意图。如图6所示,该过程可以包括如下步骤:
[0121]
步骤s601,对目标知识图谱进行训练,得到该目标知识图谱中所包括的n个实体对象的目标实体向量。
[0122]
在本技术实施例中,该目标知识图谱可以是任意一种类型的知识图谱,如医疗知识图谱、影视知识图谱、书籍知识图谱或科技知识图谱等。计算机设备可以获取目标知识图谱所包括的n个实体对象及n个实体对象所对应的实体关系;实体关系包括上述提及的集群实体关系;根据n个实体对象及n个实体对象所对应的实体关系,构建原始三元组;基于原始三元组所对应的向量转换关系,对n个实体对象的初始实体向量进行调整,得到n个实体对象分别对应的目标实体向量。
[0123]
举例来说,请参见图7,图7是本技术实施例提供的一种图谱检查场景示意图。如图7所示,假定该目标知识图谱701包括n个实体对象,如实体对象“阿莫西林”、实体对象“支气管炎”及实体对象“慢性咳嗽”等,该目标知识图谱701包括n个实体对象所对应的实体关系,如实体关系“治疗药物”及实体关系“推荐食谱”等。根据n个实体对象及n个实体对象所对应的实体关系,构建原始三元组,如原始三元组“《支气管炎,治疗药物,阿莫西林》”,及原始三元组“《阿莫西林,治疗药物,慢性咳嗽》”等。
[0124]
进一步地,以一个原始三元组为例,该原始三元组包括第一实体对象、第二实体对象及第一实体对象与第二实体对象之间的实体关系,可以记作《第一实体对象,实体关系,第二实体对象》;n个实体对象包括第一实体对象与第二实体对象。可以基于原始三元组所对应的向量转换关系,对n个实体对象的初始实体向量进行调整,得到n个实体对象分别对应的目标实体向量。获取第一实体对象的初始实体向量、第二实体对象的初始实体向量,以及第一实体对象与第二实体对象之间的实体关系的初始关系向量。可选的,计算机设备可
以随机初始化第一实体对象的初始实体向量、第二实体对象的初始实体向量,以及第一实体对象与第二实体对象之间的实体关系的初始关系向量,也就是说,可以对n个实体对象进行随机初始化,得到n个实体对象分别对应的初始实体向量;或者,计算机设备可以为n个实体对象添加实体标识,基于n个实体对象的实体标识进行序列初始化,得到n个实体对象分别对应的初始实体向量,对n个实体对象之间的实体关系进行初始化,得到n个实体对象之前的实体关系的初始关系向量,包括第一实体对象的初始实体向量、第二实体对象的初始实体向量,以及第一实体对象与第二实体对象之间的实体关系的初始关系向量;或者,可以采用向量转化模型,对n个实体对象及n个实体对象之间的实体关系进行向量转换,得到n个实体对象分别对应的初始实体向量,以及n个实体对象之前的实体关系的初始关系向量,该向量转换模型可以是但不限于词向量转换(word2vec)模型及独热(one-hot)编码等。可选的,可以将n个实体对象的初始实体向量所在的向量空间记作实体空间,将初始关系向量所在的向量空间记作关系空间。如图8所示,图8是本技术实施例提供的一种向量转换场景示意图,以一个原始三元组为例,记作《h,r,t》,在实体空间801中,h可以用于表示第一实体对象的初始实体向量,r用于表示第一实体对象与第二实体对象之间的实体关系的初始关系向量,t用于表示第二实体对象的初始实体向量。
[0125]
进一步地,计算机设备可以将第一实体对象的初始实体向量映射到初始关系向量所在的关系空间,得到第一实体对象的第一映射向量,将第二实体对象的初始实体向量映射到关系空间(relation-specific),得到第二实体对象的第二映射向量。如图8所示,将该第一实体对象的初始实体向量h映射到初始关系向量r所在的关系空间802,得到第一实体对象的第一映射向量hr,将第二实体对象的初始实体向量t映射到关系空间802,得到第二实体对象的第二映射向量tr。可选的,计算机设备可以获取向量映射参数,将该向量映射参数记作mr,基于该向量映射参数,将第一实体对象的初始实体向量映射到初始关系向量所在的关系空间,得到第一实体对象的第一映射向量;基于该向量映射参数,将第二实体对象的初始实体向量映射到关系空间,得到第二实体对象的第二映射向量。其中,可以记作hr=hmr,tr=tmr。
[0126]
进一步地,可以根据第一映射向量、第二映射向量、初始关系向量以及原始三元组所对应的向量转换关系,生成第一损失函数。具体的,该原始三元组所对应的向量转换关系为“hr+r≈t
r”,即,第一映射向量、第二映射向量与初始关系向量之间要尽可能地满足该向量转换关系,例如,可以获取第一映射向量与初始关系向量之间的转移向量,基于该转移向量与第二映射向量之间的向量距离,生成第一损失函数;或者,可以获取第一映射向量与第二映射向量之间的实体映射距离,基于该实体映射距离与初始关系向量之间的差值,生成第一损失函数等。基于第一损失函数对第一实体对象的初始实体向量及第二实体对象的初始实体向量进行调整,得到第一实体对象的目标实体向量,以及第二实体对象的目标实体向量。
[0127]
可选的,可以构建原始三元组中的实体关系所对应的负样本实体对象。如图8所示,构建原始三元组中的实体关系所对应的负样本实体对象,例如,负样本实体对象8031或负样本实体对象8032等。基于原始三元组所对应的向量转换关系,获取原始三元组所对应的正样本距离;基于原始三元组所对应的向量转换关系,获取负样本实体对象与原始三元组中的实体关系之间的负样本距离。可选的,可以将负样本实体对象替换该原始三元组中
的一个实体对象,得到负样本三元组,获取该负样本三元组的负样本距离,例如,可以将负样本实体对象8031替换该原始三元组中的第一实体对象,得到负样本三元组,或者,可以将负样本实体对象8032替换该原始三元组中的第二实体对象,得到负样本三元组等。根据正样本距离与负样本距离生成第二损失函数,根据第二损失函数对n个实体对象的初始实体向量进行调整,得到n个实体对象分别对应的目标实体向量。可选的,一种可能的第二损失函数可以参见公式(2)所示:
[0128][0129]
如公式(2)所示,下角标pos用于表示正样本,即对应目标知识图谱中所包括的原始三元组,下角标neg用于表示负样本,即对应目标知识图谱中不存在的三元组,margin用于表示样本调整参数,用于将负样本实体对象远离原始三元组,以使得训练得到的目标实体向量尽可能地符合对应的实体对象在目标知识图谱中的分布,提高图谱检查的准确性。d
pos
用于表示正样本距离,d
neg
用于表示负样本距离。
[0130]
通过以上过程,可以训练得到n个实体对象的目标实体向量,目标知识图谱中的实体关系的目标关系向量,以及训练后的向量映射参数等。
[0131]
可选的,可以获取n个实体对象在k种关系类型下的目标实体向量。具体的,原始三元组的数量为m,m为正整数。可以获取所述目标知识图谱所包括的k种关系类型,基于所述k种关系类型将m个原始三元组划分为k个三元组集群;k为正整数;每个三元组集群中包括至少一个原始三元组。基于第i种关系类型所对应的三元组集群中的至少一个原始三元组的向量转换关系,对所述n个实体对象的初始实体向量进行调整,得到所述n个实体对象在所述第i种关系类型中分别对应的目标实体向量,直至得到各个实体对象在所述k种关系类型中的目标实体向量;i为小于或等于k的正整数。具体的,存在k种关系类型分别对应的关系空间,以第i种关系类型为例,可以获取第一实体对象的初始实体向量、第二实体对象的初始实体向量,以及第一实体对象与第二实体对象之间的实体关系的初始关系向量。将第一实体对象的初始实体向量映射到第i种关系类型对应的关系空间,得到第一实体对象的第一映射向量i,将第二实体对象的初始实体向量映射到第i种关系类型对应的关系空间,得到第二实体对象的第二映射向量i。具体可以获取第i种关系类型对应的向量映射参数,基于第i种关系类型对应的向量映射参数进行向量映射,得到第一实体对象的第一映射向量i以及第二实体对象的第二映射向量i。根据第一映射向量i、第二映射向量i、初始关系向量以及原始三元组所对应的向量转换关系,生成第一损失函数i;基于第一损失函数i对第一实体对象的初始实体向量及第二实体对象的初始实体向量进行调整,得到在第i种关系类型下,第一实体对象的目标实体向量,以及第二实体对象的目标实体向量,即得到在第i种关系类型下,n个实体对象分别对应的目标实体向量。或者,基于上述所示的正样本距离及负样本距离的方式,得到在第i种关系类型下,n个实体对象分别对应的目标实体向量。同理,可以得到每个实体对象在k种关系类型下的目标实体向量,例如,对于一个实体对象e,可以得到该实体对象e在每个关系类型下的目标实体向量,如可以记作e
r1
、e
r2


及e
rk

[0132]
通过以上过程,可以训练得到n个实体对象在每种关系类型下的目标实体向量,目标知识图谱中的实体关系的目标关系向量,以及每种关系类型下训练后的向量映射参数
等。
[0133]
步骤s602,获取目标知识图谱所包括的n个实体对象的目标实体向量。
[0134]
在本技术实施例中,可以参见图3中步骤s301所示具体描述,在此不再进行赘述。
[0135]
步骤s603,基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群,从p个实体集群中分别获取集群实体对象。
[0136]
在本技术实施例中,可以参见图3中步骤s302所示具体描述,在此不再进行赘述。其中,每个实体集群中所包括的实体对象可以认为语义相似,可以采用实体集群中的某一个实体对象指代该实体集群,以实现对目标知识图谱的缩减,降低需要进行检测的数据量。
[0137]
步骤s604,从目标知识图谱中获取p个实体集群分别对应的集群实体对象之间的集群实体关系,基于p个实体集群分别对应的集群实体对象及集群实体关系,生成抽象图谱。
[0138]
在本技术实施例中,可以参见图3中步骤s303所示具体描述,在此不再进行赘述。在图谱缩减方法

中,可以从不同的关系类型的维度出发,对目标知识图谱进行下采样抽象,使得可以保留每一种关系类型的一致性分布,对不同关系类型都进行单独的抽象,进一步降低了抽象图谱不满足一致性分布的可能,提高图谱检测的准确性。如图7所示,在图谱缩减方法

中,以k种关系类型进行抽象为例,可以得到k种关系类型分别对应的抽象图谱,如抽象图谱7021、抽象图谱7022、

及抽象图谱702k等。
[0139]
通过以上过程,可以实现对目标知识图谱的适当合理的下采样,得到一个符合目标知识图谱分布的抽象图谱,且该抽象图谱与目标知识图谱保持相同的一致性分布,从而保障图谱检查的准确性。
[0140]
步骤s605,对抽象图谱进行一致性检查,基于抽象图像的检查结果,确定目标知识图谱的目标检查结果。
[0141]
在本技术实施例中,可以参见图3中步骤s304所示具体描述,在此不再进行赘述。计算机设备可以获取抽象图谱中的集群实体对象所对应的实体属性,将抽象图谱中的集群实体对象替换为对应的实体属性,得到本体属性图谱。如图7所示,对k种关系类型分别对应的抽象图谱进行实体属性替换,得到k种关系类型下分别对应的本体属性图谱,如本体属性图谱7031、本体属性图谱7032、

及本体属性图谱703k。例如,以一个抽象图谱为例,假定该抽象图谱包括实体对象“支气管炎”、实体对象“阿莫西林”及实体对象“慢性咳嗽”等,对该抽象图谱进行实体属性替换,如将实体对象“支气管炎”替换为对应的实体属性“疾病”,将实体对象“阿莫西林”替换为对应的实体属性“药物”,将实体对象“慢性咳嗽”替换为对应的实体属性“症状”等。使得得到的本体属性图谱更加紧凑,且代表性更强,更容易进行检查,进而提高图谱检查效率。
[0142]
进一步地,可以获取本体属性图谱中的知识集合,如图7所示的知识集合704,包括待检测知识“疾病—》治疗药物—》药物”及待检测知识“药物—》治疗药物—》症状”等。获取标准知识,该标准知识可以包括错误知识及正确知识等,如图7所示的标准知识705,如“u1—》r1—》v1”、“u2!—》r2—》v2”及“u3—》r3!—》v2”等,其中,包括“!”的标准知识为错误知识,不包括“!”的标准知识为正确知识。例如,对于标准知识“u2!—》r2—》v2”这一知识,表示u2不应该与r2具备关系,则知识集合704中满足“u2—》r2—》vx”的待检测知识均不符合一致性,即满足“u2—》r2—》vx”的待检测知识可以认为是符合错误知识的待检测知
识;如对于标准知识“u3—》r3!—》v2”这一知识,表示u3的r3关系不能对应到v2,则知识集合704中的待检测知识“u3—》r3—》v2”为符合错误知识的待检测知识等。
[0143]
例如,假定u1为疾病,r1为治疗药物,v1为药物,u2为药物,r2为治疗药物,v2为症状等,即,该标准知识705包括“疾病—》治疗药物—》药物”及“药物—》治疗药物!—》症状”等,将知识集合704中的待检测知识与标准知识705进行对比,假定查找到待检测知识“药物—》治疗药物—》症状”符合错误知识“药物—》治疗药物!—》症状”,则确定目标知识图谱的目标检查结果为图谱矛盾结果。可选的,可以将符合错误知识的待检测知识映射到目标知识图谱中,得到符合错误知识的待检测知识所对应的原始三元组,将符合错误知识的待检测知识所对应的原始三元组确定为异常三元组,输出图谱异常消息。如,将符合错误知识“药物—》治疗药物!—》症状”的待检测知识“药物—》治疗药物—》症状”,映射到目标知识图谱中,得到异常三元组,包括“阿莫西林—》治疗药物—》慢性咳嗽”等,输出图谱异常消息。可选的,提供该目标知识图谱的设备可以对该异常三元组进行修正,如更新或删除等。可选的,若知识集合中所包括的待检测知识不符合错误知识,且符合正确知识,则可以确定目标知识图谱的目标检查结果为图谱正常结果。
[0144]
步骤s606,若该目标检查结果为图谱正常结果,则使用该目标知识图谱。
[0145]
在本技术实施例中,若该目标检查结果为图谱正常结果,则可以使用该目标知识图谱。例如,该目标知识图谱可以用于知识问答或关系抽取等任意一个可以使用知识图谱的应用场景中,如图4所示应用场景等。
[0146]
举例来说,响应针对目标知识图谱的上传请求,基于该上传请求对目标知识图谱进行一致性检查,即执行上述图3或图6所示的步骤,得到目标知识图谱的目标检查结果。若该目标检查结果为图谱正常结果,则将目标知识图谱上传至该上传请求所请求的目标应用中。可选的,还可以输出图谱上传成功消息。进一步地,当响应针对目标应用的信息咨询请求时,可以获取该信息咨询请求所携带的待处理信息,获取该待处理信息所对应的关联知识图谱,该关联知识图谱属于该目标应用中所包括的通过一致性检查的知识图谱。例如,该待处理信息是医疗相关信息,则该关联知识图谱可以是医疗知识图谱;该待处理信息是影视相关信息,则该关联知识图谱可以是影视知识图谱等。可以获取该待处理信息相关联的实体信息,基于该关联知识图谱获取该实体信息对应的咨询响应消息,输出该咨询响应消息。例如,以该目标知识图谱用于知识问答为例,可以参见上述图4所示的例子等。当然,本技术主要用于对知识图谱的一致性检查,对知识图谱一致性检查通过后,该知识图谱的应用场景并不限于本技术所例举的几种应用场景,也可以适用于其他可以使用到知识图谱的场景,在此不做限制。可选的,对该目标知识图谱进行图谱检查的设备,与使用该目标知识图谱(如发起信息咨询请求等)的设备可以是同一个设备,也可以是不同的设备,例如,该目标知识图谱上传到某一个目标应用中,则使用该目标应用的所有设备都可以使用该目标知识图谱,如基于该目标知识图谱进行知识问答或关系抽取等。
[0147]
其中,以上过程中,目标实体向量的获取及对n个实体对象的聚类处理等都是无监督的,省去了人力标注的成本,进一步降低人工成本,提高图谱检查效率。
[0148]
进一步地,请参见图9,图9是本技术实施例提供的一种图谱检查装置示意图。该图谱检查装置可以是运行于计算机设备中的一个计算机程序(包括程序代码等),例如该图谱检查装置可以为一个应用软件;该装置可以用于执行本技术实施例提供的方法中的相应步
骤。如图9所示,该图谱检查装置900可以用于图3所对应实施例中的计算机设备,具体的,该装置可以包括:向量获取模块11、实体聚类模块12、对象选取模块13、图谱生成模块14及图谱检测模块15。
[0149]
向量获取模块11,用于获取目标知识图谱所包括的n个实体对象的目标实体向量;n为正整数;n个实体对象的目标实体向量是通过目标知识图谱所包括的原始三元组训练得到的;
[0150]
实体聚类模块12,用于基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群;
[0151]
对象选取模块13,用于从p个实体集群中分别获取集群实体对象;p为正整数;集群实体对象用于指代对应的实体集群;
[0152]
图谱生成模块14,用于从目标知识图谱中获取p个实体集群分别对应的集群实体对象之间的集群实体关系,基于p个实体集群分别对应的集群实体对象及集群实体关系,生成抽象图谱;
[0153]
图谱检测模块15,用于对抽象图谱进行一致性检查,基于抽象图像的检查结果,确定目标知识图谱的目标检查结果。
[0154]
其中,该装置900还包括:
[0155]
数据获取模块16,用于获取目标知识图谱所包括的n个实体对象及n个实体对象所对应的实体关系;实体关系包括集群实体关系;
[0156]
元组构建模块17,用于根据n个实体对象及n个实体对象所对应的实体关系,构建原始三元组;
[0157]
向量调整模块18,用于基于原始三元组所对应的向量转换关系,对n个实体对象的初始实体向量进行调整,得到n个实体对象分别对应的目标实体向量。
[0158]
其中,原始三元组包括第一实体对象、第二实体对象及第一实体对象与第二实体对象之间的实体关系;n个实体对象包括第一实体对象与第二实体对象;
[0159]
该向量调整模块18,包括:
[0160]
初始获取单元18a,用于获取第一实体对象的初始实体向量、第二实体对象的初始实体向量,以及第一实体对象与第二实体对象之间的实体关系的初始关系向量;
[0161]
向量映射单元18b,用于将第一实体对象的初始实体向量映射到初始关系向量所在的关系空间,得到第一实体对象的第一映射向量,将第二实体对象的初始实体向量映射到关系空间,得到第二实体对象的第二映射向量;
[0162]
损失生成单元18c,用于根据第一映射向量、第二映射向量、初始关系向量以及原始三元组所对应的向量转换关系,生成第一损失函数;
[0163]
向量调整单元18d,用于基于第一损失函数对第一实体对象的初始实体向量及第二实体对象的初始实体向量进行调整,得到第一实体对象的目标实体向量,以及第二实体对象的目标实体向量。
[0164]
其中,原始三元组的数量为m,m为正整数;
[0165]
该向量调整模块18,包括:
[0166]
类型划分单元18e,用于获取目标知识图谱所包括的k种关系类型,基于k种关系类型将m个原始三元组划分为k个三元组集群;k为正整数;每个三元组集群中包括至少一个原
始三元组;
[0167]
该向量调整单元18d,还用于基于第i种关系类型所对应的三元组集群中的至少一个原始三元组的向量转换关系,对n个实体对象的初始实体向量进行调整,得到n个实体对象在第i种关系类型中分别对应的目标实体向量,直至得到各个实体对象在k种关系类型中的目标实体向量;i为小于或等于k的正整数。
[0168]
其中,该向量调整模块18,包括:
[0169]
负样本获取单元18f,用于构建原始三元组中的实体关系所对应的负样本实体对象;
[0170]
正距离获取单元18g,用于基于原始三元组所对应的向量转换关系,获取原始三元组所对应的正样本距离;
[0171]
负距离获取单元18h,用于基于原始三元组所对应的向量转换关系,获取负样本实体对象与原始三元组中的实体关系之间的负样本距离;
[0172]
损失调整单元18i,用于根据正样本距离与负样本距离生成第二损失函数,根据第二损失函数对n个实体对象的初始实体向量进行调整,得到n个实体对象分别对应的目标实体向量。
[0173]
其中,该实体聚类模块12,包括:
[0174]
中心处理单元12a,用于获取p个初始聚类中心,基于n个实体对象的目标实体向量,获取n个实体对象分别到p个初始聚类中心的初始聚类距离;
[0175]
初始聚类单元12b,用于基于n个实体对象分别到p个初始聚类中心的初始聚类距离,将n个实体对象划分至p个初始聚类中心所对应的初始集合中;
[0176]
更新聚类单元12c,用于获取p个初始集合分别对应的更新聚类中心,基于n个实体对象分别到p个初始集合分别对应的更新聚类中心的更新聚类距离,将n个实体对象划分至p个更新聚类中心所对应的更新集合中;
[0177]
聚类迭代单元12d,用于若p个更新集合不满足节点聚类条件,则将p个更新集合确定为p个初始集合,返回执行获取p个初始集合分别对应的更新聚类中心的过程;
[0178]
集群确定单元12e,用于若p个更新集合满足节点聚类条件,则将p个更新集合确定为p个实体集群;每个实体集群中包括至少一个实体对象。
[0179]
其中,该实体聚类模块12,包括:
[0180]
待处理获取单元12f,用于从n个实体对象中获取待处理实体对象;待处理实体对象是指未进行节点聚类处理的实体对象;
[0181]
数量获取单元12g,用于获取位于待处理实体对象的邻域的实体对象的邻接数量;位于待处理实体对象的邻域的实体对象是指与待处理实体对象之间的向量距离小于或等于邻域半径的实体对象;向量距离是指对应的实体对象的目标实体向量与待处理实体对象的目标实体向量之间的距离;
[0182]
节点扩充单元12h,用于若邻接数量大于或等于最小集合节点数,则基于待处理实体对象及位于待处理实体对象的邻域的实体对象,进行节点扩充,得到待处理实体对象所对应的密度可达实体,将待处理实体对象与密度可达实体组成实体集群,返回执行从n个实体对象中获取待处理实体对象的过程,直至n个实体对象中不存在待处理实体对象,得到p个实体集群;
[0183]
节点处理单元12i,用于若邻接数量小于最小集合节点数,则返回执行从n个实体对象中获取待处理实体对象的过程。
[0184]
其中,n个实体对象的目标实体向量包括n个实体对象在k种关系类型下的目标实体向量;k为正整数;
[0185]
该实体聚类模块12,包括:
[0186]
类型获取单元12j,用于获取目标知识图谱所包括的k种关系类型;
[0187]
类型聚类单元12k,用于基于n个实体对象在第i种关系类型下的目标实体向量,对n个实体对象进行聚类处理,得到第i种关系类型所对应的实体集群,直至得到k种关系类型分别对应的实体集群;k种关系类型分别对应的实体集群组成p个实体集群;i为小于或等于k的正整数。
[0188]
其中,该图谱生成模块14,包括:
[0189]
关系确定单元14a,用于从目标知识图谱中,获取第i种关系类型下的实体集群所对应的集群实体对象之间的集群实体关系;
[0190]
图谱生成单元14b,用于将第i种关系类型下的实体集群所对应的集群实体对象及集群实体关系,组成第i种关系类型所对应的抽象图谱;
[0191]
该图谱生成单元14b,还用于当i为k时,得到k种关系类型分别对应的抽象图谱。
[0192]
其中,该图谱检测模块15,包括:
[0193]
图谱归纳单元15a,用于获取抽象图谱中的集群实体对象所对应的实体属性,将抽象图谱中的集群实体对象替换为对应的实体属性,得到本体属性图谱;
[0194]
知识获取单元15b,用于获取本体属性图谱中的知识集合,获取标准知识;
[0195]
知识检测单元15c,用于基于标准知识对知识集合进行一致性检查,确定目标知识图谱的目标检查结果。
[0196]
其中,知识集合包括待检测知识;标准知识包括错误知识;
[0197]
该知识检测单元15c,包括:
[0198]
异常检测子单元151c,用于将待检测知识与标准知识进行对比,若知识集合中存在符合错误知识的待检测知识,则确定目标知识图谱的目标检查结果为图谱矛盾结果;
[0199]
异常输出子单元152c,用于将符合错误知识的待检测知识映射到目标知识图谱中,得到符合错误知识的待检测知识所对应的原始三元组,将符合错误知识的待检测知识所对应的原始三元组确定为异常三元组,输出图谱异常消息。
[0200]
其中,该知识检测单元15c,包括:
[0201]
检测子单元153c,用于将知识集合与标准知识进行对比,若知识集合中存在与标准知识无关联的未检测知识,则将未检测知识发送至管理对象,以使管理对象对未检测知识进行检测;
[0202]
知识添加子单元154c,用于获取管理对象所发送的检测结果,及检测结果对应的补充知识,将检测结果确定为目标知识图谱的目标检查结果,将补充知识添加至标准知识。
[0203]
本技术实施例提供了一种图谱检查装置,该装置可以获取目标知识图谱所包括的n个实体对象的目标实体向量;n为正整数;n个实体对象的目标实体向量是通过目标知识图谱所包括的原始三元组训练得到的;基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群,从p个实体集群中分别获取集群实体对象;p为正整数;集群
实体对象用于指代对应的实体集群;从目标知识图谱中获取p个实体集群分别对应的集群实体对象之间的集群实体关系,基于p个实体集群分别对应的集群实体对象及集群实体关系,生成抽象图谱;对抽象图谱进行一致性检查,基于抽象图像的检查结果,确定目标知识图谱的目标检查结果。通过以上过程,可以基于实体对象的目标实体向量进行聚类处理,该目标实体向量可以表示对应的实体对象的特征,且目标实体向量是基于三元组训练得到的,使得各个实体对象的目标实体向量可以表示各个实体对象在目标知识图谱中的关系,基于该目标实体向量对实体对象进行聚类处理,可以将相似的实体对象聚类到一起,使得在基于聚类得到的实体集群对目标知识图谱进行下采样处理,即从实体集群中抽取集群实体对象,以组成抽象图谱时,该抽象图谱符合原图谱(即目标知识图谱)的分布,也就是该抽象图谱可以保持与目标知识图谱相同的一致性分布,同时减少了需要检查的知识图谱的规模,从而在保障对目标知识图谱的检查准确性的情况下,提高对目标知识图谱的检查效率。
[0204]
参见图10,图10是本技术实施例提供的一种计算机设备的结构示意图。如图10所示,本技术实施例中的计算机设备可以包括:一个或多个处理器1001、存储器1002和输入输出接口1003。该处理器1001、存储器1002和输入输出接口1003通过总线1004连接。存储器1002用于存储计算机程序,该计算机程序包括程序指令,输入输出接口1003用于接收数据及输出数据,如用于计算机设备与电子设备之间进行数据交互;处理器1001用于执行存储器1002存储的程序指令。
[0205]
其中,该处理器1001可以执行如下操作:
[0206]
获取目标知识图谱所包括的n个实体对象的目标实体向量;n为正整数;n个实体对象的目标实体向量是通过目标知识图谱所包括的原始三元组训练得到的;
[0207]
基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群,从p个实体集群中分别获取集群实体对象;p为正整数;集群实体对象用于指代对应的实体集群;
[0208]
从目标知识图谱中获取p个实体集群分别对应的集群实体对象之间的集群实体关系,基于p个实体集群分别对应的集群实体对象及集群实体关系,生成抽象图谱;
[0209]
对抽象图谱进行一致性检查,基于抽象图像的检查结果,确定目标知识图谱的目标检查结果。
[0210]
在一些可行的实施方式中,该处理器1001可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0211]
该存储器1002可以包括只读存储器和随机存取存储器,并向处理器1001和输入输出接口1003提供指令和数据。存储器1002的一部分还可以包括非易失性随机存取存储器。例如,存储器1002还可以存储设备类型的信息。
[0212]
具体实现中,该计算机设备可通过其内置的各个功能模块执行如该图3或图6中各个步骤所提供的实现方式,具体可参见该图3或图6中各个步骤所提供的实现方式,在此不再赘述。
[0213]
本技术实施例通过提供一种计算机设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机程序,执行该图3中所示方法的各个步骤,进行图谱检查操作。本技术实施例实现了获取目标知识图谱所包括的n个实体对象的目标实体向量;n为正整数;n个实体对象的目标实体向量是通过目标知识图谱所包括的原始三元组训练得到的;基于n个实体对象的目标实体向量,对n个实体对象进行聚类处理,得到p个实体集群,从p个实体集群中分别获取集群实体对象;p为正整数;集群实体对象用于指代对应的实体集群;从目标知识图谱中获取p个实体集群分别对应的集群实体对象之间的集群实体关系,基于p个实体集群分别对应的集群实体对象及集群实体关系,生成抽象图谱;对抽象图谱进行一致性检查,基于抽象图像的检查结果,确定目标知识图谱的目标检查结果。通过以上过程,可以基于实体对象的目标实体向量进行聚类处理,该目标实体向量可以表示对应的实体对象的特征,且目标实体向量是基于三元组训练得到的,使得各个实体对象的目标实体向量可以表示各个实体对象在目标知识图谱中的关系,基于该目标实体向量对实体对象进行聚类处理,可以将相似的实体对象聚类到一起,使得在基于聚类得到的实体集群对目标知识图谱进行下采样处理,即从实体集群中抽取集群实体对象,以组成抽象图谱时,该抽象图谱符合原图谱(即目标知识图谱)的分布,也就是该抽象图谱可以保持与目标知识图谱相同的一致性分布,同时减少了需要检查的知识图谱的规模,从而在保障对目标知识图谱的检查准确性的情况下,提高对目标知识图谱的检查效率。
[0214]
本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序适于由该处理器加载并执行图3或图6中各个步骤所提供的图谱检查方法,具体可参见该图3或图6中各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本技术方法实施例的描述。作为示例,计算机程序可被部署为在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
[0215]
该计算机可读存储介质可以是前述任一实施例提供的图谱检查装置或者该计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0216]
本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图3或图6中的各种可选方式中所提供的方法,实现了基于实体对象的目标实体向量进行聚类处理,该目标实体向量可以表示对应的实体对象的特征,且目标实体向量是基于三元组训练得到的,使得各个实体对象的目标实体向量可以表示各个实体对象在目标知识图谱中的关系,基于该目标实体向量对实体对象进行聚类处理,可以将相似的实体对象聚类到一起,使得在基于聚类得到的实体集群对目标知识图谱进行下采样处理,即从实
体集群中抽取集群实体对象,以组成抽象图谱时,该抽象图谱符合原图谱(即目标知识图谱)的分布,也就是该抽象图谱可以保持与目标知识图谱相同的一致性分布,同时减少了需要检查的知识图谱的规模,从而在保障对目标知识图谱的检查准确性的情况下,提高对目标知识图谱的检查效率。
[0217]
本技术实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
[0218]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0219]
本技术实施例提供的方法及相关装置是参照本技术实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程图谱检查设备的处理器以产生一个机器,使得通过计算机或其他可编程图谱检查设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程图谱检查设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程图谱检查设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
[0220]
本技术实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
[0221]
本技术实施例装置中的模块可以根据实际需要进行合并、划分和删减。
[0222]
以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1