本发明属于大数据分析技术领域,特别涉及一种基于Markov逻辑网的知识图谱关系类型推测方法及其装置。
背景技术:
随着互联网由文档万维网向数据万维网的逐步转变,互联网中相互关联的实体对象逐步转化为计算机能够理解的知识图谱形式存在,基于知识图谱的快速问答、关联查询、实体推荐为人们的生活提供了极大的便利。然而,知识图谱的构建是个复杂的过程,实体间的关联关系在知识抽取过程中往往难以全面获取,如何基于实体间已有的关系类型对实体间未知的关系类型进行推测,从而完善知识图谱,具有十分重要的现实意义和实用价值。
知识图谱作为一个新兴的研究方向,是近些年的研究热点,国内外研究学者提出了大量的模型用于解决知识图谱的链接推测问题,主要有基于张量分解的方法、基于转换的方法和基于路径推理的方法,其中基于张量分解的方法将实体间的关系用矩阵表示,基于转换的方法将高维知识图谱中的实体和关系嵌入到一个低维连续向量中,基于路径推理的方法通过统计知识图谱中大量的关系路径构建关系分类的特征向量。这些方法在通用知识图谱上取得了一定效果,但普遍存在着推理准确率不高的问题。
技术实现要素:
针对现有技术中的不足,本发明提供一种基于Markov逻辑网的知识图谱关系类型推测方法及其装置,实现知识图谱中推理规则的自动学习与节点间关系类型的概率推理,解决知识图谱完善过程中人工制定推理规则不科学、不全面、可扩展性差等的问题,可信度高,有效提升推测的准确率。
按照本发明所提供的设计方案,一种基于Markov逻辑网的知识图谱关系类型推测方法,包含如下内容:
步骤1、针对已知数据集的知识图谱,确定已知节点间的路径特征及待推测节点;
步骤2、根据已知节点间的路径特征生成推理规则;
步骤3、通过Markov逻辑网对推理规则进行可信度权重学习,得到带权重的推理规则;
步骤4、通过带权重的推理规则,对待推测节点间的关系类型进行概率推理;
步骤5、根据概率推理结果确定待推测节点间的关系类型。
上述的,步骤2包含如下内容:
步骤21、采用图的遍历方法对知识图谱已知节点间的路径特征进行遍历,生成证据谓词和查询谓词;
步骤22、根据证据谓词和查询谓词,构建证据谓词到查询谓词的推理规则。
优选的,步骤21包含内容如下:通过设定已知节点间的路径长度大小并采用广度优先遍历方法对知识图谱已知节点间的路径特征进行遍历,生成证据谓词和查询谓词。
上述的,步骤2还包含如下内容:步骤23、根据推理规则,并结合节点信息,构建用于Markov逻辑网学习的训练集数据。
优选的,步骤23还包含:若存在节点信息满足推理规则,则将该推理规则中的证据谓词到查询谓词对应的闭谓词添加至训练集数据中。
上述的,步骤4包含如下内容:根据带权重的推理规则进行Markov逻辑网推理,得到待推测节点间存在的关系类型概率。
上述的,步骤4包含如下内容:根据带权重的推理规则并结合待推测节点间的已知信息,进行Markov逻辑网推理,得到待推测节点间存在的关系类型概率,其中,已知信息至少包含:待推测节点与其他节点间的路径特征。
上述的,步骤4还包含:若待推测节点间存在推理规则中的证据谓词,则将该证据谓词对应的闭谓词添加至已知信息中。
上述的,步骤5包含如下内容:根据待推测节点间存在的关系类型概率,选取较大概率值的关系类型,作为待推测节点间的关系类型。
一种基于Markov逻辑网的知识图谱关系类型推测装置,包含:
推理规则获取模块,用于根据数据集知识图谱已知节点间的路径特征生成推理规则;
可信度权重学习模块,用于通过Markov逻辑网对推理规则获取模块生成的推理规则进行可信度权重学习并获取带权重的推理规则;
概率推理模块,用于根据可信度权重学习模块获取的带权重的推理规则,对待推测节点间存在的关系类型进行概率推理,获取待推测节点间的关系类型概率;
关系类型确定模块,用于根据概率推理模块获取的关系类型概率,选取较大概率值的关系类型,作为待推测节点间的关系类型。
本发明的有益效果:
本发明根据已知节点间关联关系的路径特征生成推理规则,并应用Markov逻辑网对推理规则的可信度进行权重学习,通过学习得到的带权重的推理规则对节点间可能存在的关系类型进行概率推理,解决知识图谱完善过程中人工制定推理规则不科学、不全面、可扩展性差等的问题,实现知识图谱中推理规则的自动学习与节点间关系类型的概率推理,可信度高,有效保证节点间可能存在的关系类型推测的准确率。
附图说明:
图1为本发明的装置示意图;
图2为本发明的方法流程示意图;
图3为本发明的推测过程原理图;
图4为谓词组成示意图;
图5为实施例三中具体实例权重学习示意图;
图6为本发明在不同缺失比例下的效果图;
图7为本发明在不同长度路径特征下的效果图。
具体实施方式:
本发明中涉及到的概念界定如下:
推理规则:设知识图谱中Pn(A,B)=P1P2...Pn,其中P1=A,Pn=B表示节点A与节点B之间的一条长度为n的路径,Pn=r1r2...rn-1表示该路径对应的关系类型序列,其中ri表示节点Pi与Pi+1之间的关系类型。若A、B之间同时存在Pn(A,B)与P1(A,B)路径,则Pn(n>1)可以看作P1的路径特征,Pn与P1之间构成Pn→P1的推理规则。
规则训练集:用于训练推理规则可信度大小的闭谓词集合,推理规则可信度越高,则权重越大,在现实世界中发生的可能性也越高。
规则证据集:用于对节点间未知关系类型进行推理的已知证据闭谓词,使用训练出来的带权重的推理规则,可以推理出未知节点间可能存在的各种关系类型的概率大小。
下面结合附图和技术方案对本发明作进一步详细的说明,并通过优选的实施例详细说明本发明的实施方式,但本发明的实施方式并不限于此。
实施例一,参见图1所示,一种基于Markov逻辑网的知识图谱关系类型推测装置,包含:
推理规则获取模块,用于根据数据集知识图谱已知节点间的路径特征生成推理规则;
可信度权重学习模块,用于通过Markov逻辑网对推理规则获取模块生成的推理规则进行可信度权重学习并获取带权重的推理规则;
概率推理模块,用于根据可信度权重学习模块获取的带权重的推理规则,对待推测节点间存在的关系类型进行概率推理,获取待推测节点间的关系类型概率;
关系类型确定模块,用于根据概率推理模块获取的关系类型概率,选取较大概率值的关系类型,作为待推测节点间的关系类型。
根据已知节点间关联关系的路径特征生成推理规则,并应用Markov逻辑网对推理规则的可信度进行权重学习,通过学习得到的带权重的推理规则对节点间可能存在的关系类型进行概率推理,解决知识图谱完善过程中人工制定推理规则不科学、不全面、可扩展性差等的问题,实现知识图谱中推理规则的自动学习与节点间关系类型的概率推理,可信度高,从而使得推测结果更加真实可信。
实施例二,参见图1~2所示,一种基于Markov逻辑网的知识图谱关系类型推测方法,包含如下内容:
步骤1、针对已知数据集的知识图谱,确定已知节点间的路径特征及待推测节点;
步骤2、根据已知节点间的路径特征生成推理规则;
步骤3、通过Markov逻辑网对推理规则进行可信度权重学习,得到带权重的推理规则;
步骤4、通过带权重的推理规则,对待推测节点间的关系类型进行概率推理;
步骤5、根据概率推理结果确定待推测节点间的关系类型。
通过姿态信息的引入,充分考虑北斗接收机天线和GPS接收机天之间的偏差量,从而使得检测结果更加真实可信;通过坐标传递算法,能够较为精确地考虑北斗接收机天线和GPS接收机天之间的偏差量,并实现了多台北斗接收机同时参与测试的目的。
实施例三,参见图1~7所示,一种基于Markov逻辑网的知识图谱关系类型推测方法,包含如下内容:
a、针对已知数据集的知识图谱,确定已知节点间的路径特征及待推测节点。
b、根据已知节点间的路径特征生成推理规则,包含如下内容:
步骤b1、采用图的遍历方法对知识图谱已知节点间的路径特征进行遍历,生成证据谓词和查询谓词;通过设定已知节点间的路径长度大小并采用广度优先遍历方法对知识图谱已知节点间的路径特征进行遍历,生成证据谓词和查询谓词,谓词组成如图4所示。
步骤b2、根据证据谓词和查询谓词,构建证据谓词到查询谓词的推理规则。
步骤b3、根据推理规则,并结合节点信息,构建用于Markov逻辑网学习的训练集数据。若存在节点信息满足推理规则,则将该推理规则中的证据谓词到查询谓词对应的闭谓词添加至训练集数据中。
c、通过Markov逻辑网对推理规则进行可信度权重学习,得到带权重的推理规则。
d、通过带权重的推理规则,对待推测节点间的关系类型进行概率推理,根据带权重的推理规则进行Markov逻辑网推理,得到待推测节点间存在的关系类型概率。或通过带权重的推理规则并结合待推测节点间的已知信息,进行Markov逻辑网推理,得到待推测节点间存在的关系类型概率,其中,已知信息至少包含:待推测节点与其他节点间的路径特征。若待推测节点间存在推理规则中的证据谓词,则将该证据谓词对应的闭谓词添加至已知信息中。
e、根据概率推理结果确定待推测节点间的关系类型,如下内容:根据待推测节点间存在的关系类型概率,选取较大概率值的关系类型,作为待推测节点间的关系类型。
为进一步说明本发明的有效性,下面结合具体实例对本发明做进一步解释说明:
Kinships家族数据集进行了实验,Kinships数据集描述了24个家族人物实体对象间的12类关系共112对实体间的关系类型三元组,参见图3所示,具体实现如下:
(1)设定关联规则的查询谓词和证据谓词,根据推理规则的概念及图4所示的谓词逻辑,构建Markov逻辑网系统进行参数学习时所需要的规则描述文件,记作rule.mln。知识图谱本质上是一种有向图,通过图的遍历方式对知识图谱节点间P1的关系路径特征Pn(n>1)进行遍历,生成相应的证据谓词和查询谓词,并构建证据谓词到查询谓词的推理规则,以文本形式写入“rule.mln”。构建过程中为了控制推理规则的数量,可以设定n的大小阈值,采取广度优先遍历方法对知识图谱进行遍历。
(2)规则训练集构建:根据定义的关联规则,以及实体实例的P1与Pn在训练集中的出现情况,构建Markov逻辑网参数学习时使用的训练集文件,记作“learn.db”。若实例满足(2)中某推理规则,则将该规则的证据谓词和查询谓词对应的闭谓词以文本形式写入“learn.db”。
(3)证据文件构建:根据待推测节点间路径特征的出现情况,构建Markov逻辑网进行推理时使用的证据文件,记作“proof.db”。若节点间存在推理规则中的某证据谓词,则将该证据谓词对应的闭谓词以文本形式写入“proof.db”。
(4)推理规则权重学习:采用Domingos等人研制的Markov逻辑网应用平台—Alchemy系统,在linux环境下编译得到可执行文件,使用learnwts命令实现Markov逻辑网的参数学习,得到带权重的规则文件ruleout.mln。
(5)节点间关系类型推测:根据上一步学习得到的带权重的规则文件ruleout.mln和证据文件proof.db,使用Alchemy系统中的infer命令,进行Markov逻辑网的推理,并输出推理结果文件result.result,其中给出了节点间可能存在的各种关系类型的概率,选取其中概率值最大的关系类型作为节点间最有可能存在的关系类型。
通过上述内容,部分推理规则的出现次数及应用Markov逻辑网学习得到的相应权重如图5所示,真实的关系推理规则在图谱中出现次数多,能够获得更高的权重,也即可信度越高;通过去除Kinships中部分人物间的关系语义边,利用已知的关系类型实例作为训练集对缺失的人物关系类型进行推测,实验的准确率与召回率如图6和图7所示,可以看到,利用本发明所记载的技术方案能够对知识图谱中缺失的节点间关系类型进行推测,并且训练的实例越丰富,使用的路径特征越全面,推测的准确率越高,解决知识图谱完善过程中人工制定推理规则不科学、不全面、可扩展性差等的问题,实现知识图谱中推理规则的自动学习与节点间关系类型的概率推理,可信度高,有效保证节点间可能存在的关系类型推测的准确率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。