背景技术:
1、基于观测数据的大规模因果推理在机器学习中越来越重要。传统上,这种实体之间关系的推理依赖于应用于嵌入在潜在欧几里得空间中的知识图谱实体的基于距离的方法。不幸的是,除了假阳性导致错误地归因的直接因果关系之外,当前的方法经常不能完全解释因果关系,或者由于混杂因素和中介因素而漏掉因果关系。
2、希望生成克服上述间题的改进的图谱嵌入,用于链接预测或机器学习算法、模型等的更改进的训练和/或输入。
3、下面描述的实施例不限于解决上述已知方法的任何或所有缺点的实施方式。
技术实现思路
1、提供本
技术实现要素:
是为了以简化形式介绍概念的选择,这些概念将在下面的详细描述中进一步描述。本发明内容并不旨在鉴定所要求保护的主题的关键特征或必要特征,也不旨在用于确定所要求保护的主题的范围;促进本发明的实施和/或用于实现基本相似的技术效果的变体和可替代的特征应该被认为落入本文公开的本发明的范围。
2、提供了用于图谱中的有向链接预测的方法、装置和系统,该图谱包括知识图谱和/或使用非欧几里得几何/空间/流形中的知识图谱嵌入的任何有向图谱,非欧几里得几何/空间/流形例如为但不限于伪黎曼(pseudo-riemannian)流形。例如,可以使用闵可夫斯基(minkowski)、反德西特(anti-de sitter)和/或德西特(de sitter)时空等。通过在这些几何形状和/或非平凡拓扑结构(例如圆柱形拓扑结构)内嵌入知识图谱,并应用包括链接预测函数(如本文所述的三重费米-狄拉克函数)的特有的损失函数或成本函数,嵌入方法、装置、系统使得算法能够预测有向边、连接或链接,这是因为利用了捕获任何关系的方向性的几何形状的类时间维度。
3、在第一方面,本公开提供了一种生成图谱的嵌入的计算机实现的方法,其中,所述图谱包括多个节点,并且每个节点包括到所述多个节点中的另一个或多个的连接,所述方法包括:接收表示所述图谱的至少一部分的数据;将所述图谱的所述节点转换为非欧几里得几何;基于因果损失函数和与所述非欧几里得几何关联的链接预测函数,迭代地更新基于转换后的所述非欧几里得几何中的节点的嵌入模型。
4、任选地,第一方面的计算机实现的方法,其中:转换所述图谱的所述节点还包括将所述图谱的所述节点转换为所述非欧几里得几何的坐标;并且其中,所述嵌入模型基于使用所述因果损失函数在节点坐标上操作的非欧几里得随机梯度下降算法。
5、作为一种选择,第一方面的计算机实现的方法,其中,更新所述嵌入模型还包括通过至少基于所述嵌入和所述链接预测函数最小化所述因果损失函数来更新节点坐标。
6、作为另一种选择,第一方面的计算机实现的方法,还包括迭代地更新所述嵌入模型,直到确定所述嵌入模型待被训练;已经达到最大迭代次数,和/或直到已经满足所有节点坐标的平均损失阈值;并且输出表示训练后的图谱嵌入的数据。
7、作为另一种选择,第一方面的计算机实现的方法,其中,所述图谱是有向图谱。
8、作为一种选择,第一方面的计算机实现的方法,其中,所述图谱是循环有向图谱。
9、作为一种选择,第一方面的计算机实现的方法,其中,所述图谱是非循环有向图谱。
10、作为另一种选择,第一方面的计算机实现的方法,其中,所述非欧几里得几何是伪黎曼几何。
11、任选地,第一方面的计算机实现的方法,其中,所述非欧几里得几何是伪黎曼几何或伪黎曼空间。
12、作为一种选择,第一方面的计算机实现的方法,其中,所述伪黎曼几何或伪黎曼空间是闵可夫斯基几何或闵可夫斯基空间。
13、作为一种选择,第一方面的计算机实现的方法,其中,所述伪黎曼几何或伪黎曼空间是反德西特几何或反德西特空间。
14、作为一种选择,第一方面的计算机实现的方法,其中,所述非欧几里得几何或非欧几里得空间是双曲几何或双曲空间。
15、任选地,第一方面的计算机实现的方法,其中,所述图谱是包括多个实体节点和多个边/连接/链接的实体-实体图谱,其中每个实体节点通过边/连接/链接连接到另一个实体节点,每个边/连接/链接表示所述每个实体节点与所连接的所述其它实体节点之间的关系。
16、作为一种选择,第一方面的计算机实现的方法,其中,所述实体-实体图谱中的实体节点表示来自以下组的任何实体:基因;疾病;化合物/药物;蛋白质;生物实体;途径;生物过程;细胞系;细胞类型;症状;临床试验;任何其它生物医学概念;或与所述实体-实体图谱中的另一实体至少具有实体-实体关系的任何其它实体。
17、作为另一种选择,第一方面的计算机实现的方法,还包括:从训练的实体模型输出所述图谱的所述嵌入,以用于下游过程,所述下游过程包括来自以下组中的一个或多个:药物发现;药物优化;和/或用于任何其它ml模型或训练任何其它ml模型以在药物发现或优化过程中预测或分类。
18、作为一种选择,第一方面的计算机实现的方法,还包括:基于将表示第一节点和第二节点的数据输入到所述链接预测函数中,预测所述图谱的所述嵌入中的节点或实体节点之间的链接关系;以及从所述链接预测函数接收所述第一节点与所述第二节点之间存在链接关系的可能性的指示。
19、在第二方面,本公开提供了一种用于图谱中的链接预测的计算机实现的方法,还包括:生成根据第一方面的任何特征的图谱嵌入;以及从所述图谱嵌入中选择至少第一节点坐标和第二节点坐标;基于向链接预测函数输入所选择的第一节点坐标和第二节点坐标来输出有向链接预测,其中,所述有向链接预测包括所述第一节点坐标与所述第二节点坐标之间存在链接关系的可能性的指示。
20、在第三方面,本公开提供了一种用于预测图谱中实体之间的有向关系的计算机实现的方法,还包括:基于根据第一和/或第二方面的任何特征的图谱生成图谱嵌入;以及从所述图谱嵌入中选择至少第一实体节点坐标和第二实体节点坐标,所述至少第一实体节点坐标和第二实体节点坐标与所述图谱的至少第一实体和第二实体相关联;基于向链接预测函数输入所选择的至少第一实体节点坐标和第二实体节点坐标来输出有向关系预测,其中,所述有向关系预测包括所述至少第一实体节点坐标与第二实体节点坐标之间存在链接关系的可能性的指示。
21、作为一种选择,第一、第二和/或第三方面的计算机实现的方法,其中,对于具有时空流形的非欧几里得空间,所述链接预测函数基于费米-狄拉克函数。
22、作为一种选择,第一、第二和/或第三方面的计算机实现的方法,其中,所述链接预测函数基于三重费米-狄拉克函数,所述三重费米-狄拉克函数包括:
23、
24、其中,k>0是可调比例因子,并且
25、
26、
27、
28、是三个fd分布项,s2是p与q之间的测地线距离的平方,δt≡tq-tp是时间坐标的差值,并且τ1、τ2、r和α是来自下式的参数:
29、
30、其中,参数τ、r≥0且0≤α≤1,用于表示无向图谱边的概率作为节点嵌入距离的函数。
31、作为一种选择,第一、第二和/或第三方面的计算机实现的方法,其中,所述因果损失函数包括链接预测函数。
32、作为一种选择,第一、第二和/或第三方面的计算机实现的方法,其中,所述因果损失函数包括与所述链接预测函数组合的交叉熵损失函数。
33、作为一种选择,第一、第二和/或第三方面的计算机实现的方法,其中,所述交叉熵损失函数包括多项式对数损失函数或其它对数损失函数,所述多项式对数损失函数或所述其它对数损失函数使用所述链接预测函数作为多项式对数损失函数或其它对数损失函数的概率。
34、作为另一种选择,第一、第二和/或第三方面的计算机实现的方法,其中,所述因果损失函数用于根据所述图谱嵌入进行链接预测,所述链接预测捕获所述图谱中节点之间关系的方向性。
35、作为另一种选择,第一、第二和/或第三方面的计算机实现的方法,还包括:通过将一维的非欧几里得空间包裹成圆来创建流形拓扑结构或圆柱形拓扑结构,以创建更高维的圆柱体。
36、作为一种选择,第一、第二和/或第三方面的计算机实现的方法,其中,所述流形拓扑结构或圆柱形拓扑结构是伪黎曼流形。
37、在第四方面,提供了一种用于生成图谱的嵌入的装置,其中,所述图谱包括多个节点,并且每个节点包括到所述多个节点中的另一个或多个的连接,所述装置包括耦合到通信接口的处理器,其中:所述通信接口被配置为接收表示所述图谱的至少一部分的数据;所述处理器被配置为:将所述图谱的所述节点转换为非欧几里得几何;以及基于与所述非欧几里得几何关联的因果损失函数,迭代地更新基于转换后的所述非欧几里得几何中的节点的嵌入模型,其中,所述因果损失函数包括链接预测函数。
38、作为一种选择,第四方面的计算机实现的方法,其中,所述通信接口被配置为输出所述图谱嵌入。
39、作为一种选择,第四方面的计算机实现的方法,其中,所述装置被配置为实现根据前述权利要求中任一项所述的计算机实现的方法。
40、在第五方面,如本文所描述的和/或如应用所要求的,提供了由如第一、第二、第三和/或第四方面中的任何方面所述的计算机实现的方法获得的嵌入模型、对其的修改、其组合。
41、在第六方面,如本文所描述的和/或如应用所要求的,提供了由如第一、第二、第三、第四和/或第五方面中的任何方面所述的计算机实现的方法获得的图谱的图谱嵌入、对其的修改、其组合。
42、在第七方面,提供了一种基于根据第六方面所述的图谱嵌入从训练数据集获得的ml模型。
43、在第八方面,如本文所描述的和/或如应用所要求的,提供了一种基于根据第一、第二、第三、第四和/或第五方面中的任何方面所述的计算机实现的方法所基于的图谱嵌入从训练数据集获得的ml模型、对其的修改、其组合。
44、在第九方面,提供了一种有形的(或非瞬时性的)计算机可读介质,包括:用于生成图谱的嵌入的数据或指令代码,当所述数据或指令代码在一个或多个处理器上执行时,使得所述一个或多个处理器中的至少一个实施以下步骤中的至少一个:接收表示所述图谱的至少一部分的数据;将所述图谱的节点转换为非欧几里得几何;以及基于与所述非欧几里得几何关联的因果损失函数,迭代地更新基于转换后的所述非欧几里得几何中的节点的嵌入模型,其中,所述因果损失函数包括链接预测函数。
45、在第十方面,如本文所描述的和/或如应用所要求的,提供了一种包括程序数据或指令代码的计算机可读介质、对其的修改、其组合;当所述程序数据或指令代码在处理器上执行时,使得所述处理器实施根据第一、第二、第三、第四和/或第五方面中的任何方面所述的计算机实现的方法的一个或多个步骤。
46、作为一种选择,所述图谱的所述节点在伪黎曼空间中相对于空间和时间参数区别地分开。
47、作为一种选择,所述图谱以拓扑方式嵌入流形中。
48、作为一种选择,所述因果损失函数或所述链接预测函数被配置为通过改变所述函数的衰减率来基于时间替换所述图谱的节点。
49、作为一种选择,所述因果损失函数或所述链接预测函数被配置为基于所述函数的时间衰减来放松节点的传递。
50、本文描述的方法可以由软件以机器可读形式在有形存储介质上执行,例如以计算机程序的形式,该计算机程序包括计算机程序代码模块,该计算机程序代码模块适于当程序在计算机上运行时实施本文描述的任何方法的所有步骤,并且其中计算机程序可以体现在计算机可读介质上。有形的(或非瞬时性的)存储介质的示例包括磁盘、拇指驱动器、存储卡等,并且不包括传播的信号。软件可适于在并行处理器或串行处理器上执行,使得可以以任何合适的顺序或同时实施方法步骤。
51、本技术认可固件和软件可以是有价值的、可单独交易的商品。它旨在包括在“非智能”或标准硬件上运行或控制“非智能”或标准硬件的软件,以实施所需的功能。它还旨在包括“描述”或定义硬件的配置的软件,如硬件描述语言(hdl,hardware descriptionlanguage)软件,其用于设计硅芯片或配置通用可编程芯片,以实施期望的功能。
52、优选的特征或选项可以适当地组合,这对于本领域技术人员而言是显而易见的,并且可以与本发明的任何方面组合。