基于知识图谱的合成致死基因对预测方法、系统、终端及介质

文档序号:26397567发布日期:2021-08-24 16:08阅读:260来源:国知局
基于知识图谱的合成致死基因对预测方法、系统、终端及介质

本发明数据处理领域,特别是涉及一种基于知识图谱的合成致死基因对预测方法、系统、终端及介质。



背景技术:

复杂的生物系统通过基因相互作用的形式进行运作。合成致死(syntheticlethality,sl)就是众多相互作用关系中的一种,即存在合成致死关系的两个基因同时失活会导致细胞死亡,而任意一个基因失活都不会对细胞造成影响。合成致死基因对是发现抗癌药物靶点的关键,当发现肿瘤中存在特定基因失活时,那么用药物来抑制该失活基因的合成致死基因,就可以特异性地杀死癌细胞,而不危害健康细胞。因此,合成致死基因对的预测不仅有助于提高靶向药物治疗的疗效,开发新的有效治疗方案并规避药物的耐药性,而且还可以为那些暂时不能用于靶向治疗的基因或生物通路提供机会。

目前用来筛选sl基因对的方法主要可以分为高通量湿实验和计算方法两大类。湿实验的方法包括rna阻断、化学小分子抑制及基于crispr的基因编辑技术,它们的核心思想是通过改变某个基因的表达,观察细胞的存活情况以筛选sl基因对。湿实验方法的优势是结果的真实度高,但面临着成本高昂、脱靶效应、不同细胞系间缺乏一致性和底层机理不清晰等挑战,因此,设计有效的计算方法弥补湿实验技术的缺点显得尤为必要。

基于计算方法的sl基因对筛选又可分为以下三类。第一种是建模基因代谢网络反应单个或一对基因的敲除效应;第二种是基于知识构建基因特征,结合网络拓扑结构预测潜在的sl基因对。上述两种方法依赖于代谢网络模型、特定领域的知识和基因组数据,没有充分挖掘已知的sl基因对信息。为了更好地利用这些已知数据,机器学习算法近年来被广泛用于sl基因对的预测问题中。有研究者从蛋白质相互作用网络中提取输入特征,建立传统机器学习模型(如:支持向量机);也有研究者基于图表示学习构建编码器-解码器的学习框架。其中编码器用来将sl基因作用网络中的节点映射到一个低维空间,解码器则试图描述节点间的相似性,发掘可能存在sl的关系。然而,这些机器学习方法在表示基因特征时,没有充分考虑sl基因对背后共同的生物学机制,比如两者是否参与同一基因通路、是否在某个生物学过程中发挥相似的作用等。因此需要加入额外的知识以获得描述更为全面的基因特征。



技术实现要素:

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于知识图谱的合成致死基因对预测方法、系统、终端及介质,用于解决现有技术中通过湿实验的方法来筛选sl基因对存在成本高、批次效应和脱靶等问题,而且现有的用来预测sl基因对的计算方法忽略了sl基因对背后共同的生物学机制等问题。

为实现上述目的及其他相关目的,本发明提供一种基于知识图谱的合成致死基因对预测方法,所述方法包括:从知识图谱中提取分别以待预测基因对为中心基因节点且分别从所述中心基因节点一或多级衍生的子图;其中,所述子图包括:表示各基因节点的邻域关系的子图特征表示信息;基于所述子图特征表示信息,分别更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息;根据所述待预测基因对的特征表示更新信息计算得到对应所述待预测基因对存在合成致死关系的概率值,并获得对应所述所述待预测基因对是否存在合成致死关系的预测结果。

于本发明的一实施例中,所述子图特征表示信息包括:处于各级的各基因节点的特征表示信息、各基因节点分别所对应的邻居节点的特征表示信息以及各基因节点与其分别所对应的邻居节点之间的关系特征表示信息中的一种或多种。

于本发明的一实施例中,所述基于所述子图特征表示信息,分别更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息包括:基于所述子图特征表示信息,按向所述中心基因节点衍生方向依次将各子图中处于各级的各基因节点的所有邻域关系进行聚合,并逐级依次更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息。

于本发明的一实施例中,所述基于所述子图特征表示信息,按向所述中心基因节点衍生方向依次将各子图中处于各级的各基因节点的所有邻域关系进行聚合,并逐级依次更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息的方式包括:基于所述各基因节点与其分别所对应的邻居节点之间的关系特征表示信息以及所述中心基因节点的特征表示信息,分别获得各基因节点与其分别所对应的邻居节点之间关系权重值;基于各关系权重值以及各基因节点的特征表示信息,按向所述中心基因节点衍生方向依次对各子图中处于各级的各基因节点的所有邻域关系进行权重聚合,并逐级依次更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息。

于本发明的一实施例中,所述基于各关系权重值以及各基因节点的特征表示信息,按向所述中心基因节点衍生方向依次对各子图中处于各级的各基因节点的所有邻域关系进行权重聚合,并逐级依次更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息的方式包括:按向所述中心基因节点衍生方向依次根据各基因节点与其分别所对应的邻居节点之间关系权重值以及各基因节点的特征表示信息获得对应各基因节点的邻域关系的邻域关系特征表示信息;聚合对应每个基因节点所对应的邻域关系特征表示信息,并将聚合后的特征表示信息替代各子图中处于各级的各基因节点的特征表示信息;将经过聚合对应所述中心基因节点分别所对应的邻域关系特征表示信息而获得的特征表示信息分别作为对应所述待预测基因对的特征表示更新信息。

于本发明的一实施例中,根据所述待预测基因对的特征表示更新信息计算得到对应所述待预测基因对存在合成致死关系的概率值,并获得对应所述所述待预测基因对是否存在合成致死关系的预测结果的方式包括:基于内积函数,根据所述待预测基因对的特征表示更新信息计算得到对应所述待预测基因对存在合成致死关系的概率值;基于relu函数以及设定的判断阈值,根据所述概率值获得预测结果特征值;基于预测结果判断条件,根据所述预测结果特征值获得对应所述待预测基因对是否存在合成致死关系的预测结果。

于本发明的一实施例中,所述基于预测结果判断条件包括:若预测结果特征值为0,则获得对应所述待预测基因对不存在合成致死关系的预测结果;若预测结果特征值为1,则获得对应所述待预测基因对存在合成致死关系的预测结果。

为实现上述目的及其他相关目的,本发明提供一种基于知识图谱的合成致死基因对预测系统,所述系统包括所述系统包括:知识图谱提取模块,用于从知识图谱中提取分别以待预测基因对为中心基因节点且分别从所述中心基因节点一或多级衍生的子图;其中,所述子图包括:表示各基因节点的邻域关系的子图特征表示信息;聚合更新模块,连接所述知识图谱提取模块,用于基于所述子图特征表示信息,分别更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息;预测模块,连接所述聚合更新模块,用于根据所述待预测基因对的特征表示更新信息计算得到对应所述待预测基因对存在合成致死关系的概率值,并获得对应所述所述待预测基因对是否存在合成致死关系的预测结果。

为实现上述目的及其他相关目的,本发明提供一种基于知识图谱的合成致死基因对预测终端,包括:存储器,用于存储计算机程序;处理器,用于执行所述的基于知识图谱的合成致死基因对预测方法。

为实现上述目标及其他相关目标,本申请提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被一个或多个处理器运行时执行所述的基于知识图谱的合成致死基因对预测方法。

如上所述,本发明是一种基于知识图谱的合成致死基因对预测方法、系统、终端及介质,具有以下有益效果:本发明通过在知识图谱中提取子图的方式,并基于提取的子图的基础上完成知识整合和特征提取的过程,取得了最高的预测准确率。尤其在表示基因特征时,根据利用的包含与sl基因对相关的生物过程、疾病、通路等因素的知识图谱,达到了充分考虑sl基因对背后共同的生物学机制的效果,进而使得预测结果更具有参考性,并解决了现有技术的问题。

附图说明

图1显示为本发明一实施例中的基于知识图谱的合成致死基因对预测方法的流程示意图。

图2显示为本发明一实施例中的子图的部分示意图。

图3显示为本发明一实施例中的基于知识图谱的合成致死基因对预测系统的结构示意图。

图4显示为本发明一实施例中的kg4sl模型的结构示意图。

图5显示为本发明一实施例中的基于知识图谱的合成致死基因对预测终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

本发明提供一种基于知识图谱的合成致死基因对预测方法,本发明通过在知识图谱中提取子图的方式,并基于提取的子图的基础上完成知识整合和特征提取的过程,取得了最高的预测准确率。尤其在表示基因特征时,根据利用的包含与sl基因对相关的生物过程、疾病、通路等因素的知识图谱,达到了充分考虑sl基因对背后共同的生物学机制的效果,进而使得预测结果更具有参考性,并解决了现有技术的问题。

下面以附图为参考,针对本发明的实施例进行详细说明,以便本发明所述技术领域的技术人员能够容易地实施。本发明可以以多种不同形态体现,并不限于此处说明的实施例。

如图1所示,展示本发明实施例中的基于知识图谱的合成致死基因对预测方法的流程示意图。

所述方法包括:

步骤s11:从知识图谱中提取分别以待预测基因对为中心基因节点且分别从所述中心基因节点一或多级衍生的子图。

详细来说,所述子图包括:表示各基因节点的邻域关系的子图特征表示信息;优选的,所述子图特征表示信息包括:处于各级的各基因节点的特征表示信息、各基因节点分别所对应的邻居节点的特征表示信息以及各基因节点与其分别所对应的邻居节点之间的关系特征表示信息中的一种或多种。

可选的,所述知识图谱包括各基因之间的调控关系、基因之间的相互作用关系以及基因之间的共表达关系;优选的,所述知识图谱基于synlethdb构建;具体的,从synlethdb提取具有11种实体和24种关系的知识图谱。其中,在这24种关系中,有16关系直接与基因相关。在11种实体中,有6种实体直接与基因相关。知识图谱中的实体和关系可以(实体,关系,实体)三元组的形式呈现。举例来说,构建了一个包含54012个节点以及2231921条边关系的知识图谱,其中所述知识图谱中的孤立点已被移除。

可选的,从知识图谱中提取分别分别以待预测基因对为中心基因节点且分别从各中心基因节点一或多级衍生的两个子图;还可以从所述子图中提取各基因节点的邻居节点,如果子图上存在的各基因节点的邻居个数不满足预设要求,则采用重复采样的方法来弥补。举例来说,根据给定的待预测基因对ei和ej,分别以两点为中心基因节点提取与这两个基因节点相互连接的子图。由于计算资源的限制,这里的子图只选取从该特定基因衍生出去的2级基因节点;并对每个基因随机提取k个邻居,如果子图上存在某些节点的邻居不足k个,则采用重复采样的方法来弥补。

步骤s12:基于所述子图特征表示信息,分别更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息。

可选的,步骤s12包括:基于所述子图特征表示信息,按向所述中心基因节点衍生方向依次将各子图中处于各级的各基因节点的所有邻域关系进行聚合,并逐级依次更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息;

具体的,针对任何一个子图中的基因节点,基于所述子图特征表示信息,以ei为中心基因节点的子图为例,对于该子图上的任何一个节点e,按向所述中心基因节点ei衍生方向依次聚合各基因节点e的所有邻居节点的邻域关系,以此聚合结果来更新基因节点e本身的特征表示信息,以获得对应所述中心基因节点ei的特征表示更新信息,对于另外一个ej采用同样的方式,以获得对应所述待预测基因对ei和ej的特征表示更新信息。

需要说明的是,按向所述中心基因节点ei衍生方向依次聚合具体是说,先从距离所述中心基因节点最远级的基因节点进行邻域关系聚合,并将其聚合结果来更新在该级基因节点本身的特征表示信息;基于这一级经过更新的基因节点本身的特征表示信息,开始对该级上一级的基因节点进行邻域关系聚合,以更新当前级的基因节点本身的特征表示信息;则再根据本级获得的基因节点的特征表示信息再对上一级的基因节点进行邻域关系聚合,逐级更新基因节点的特征表示信息,直至对中心基因节点进行邻域关系聚合,以更新中心基因节点的特征表示信息,两个子图都同样采用该种方式,最终获得对应所述待预测基因对的特征表示更新信息。

可选的,所述基于所述子图特征表示信息,按向所述中心基因节点衍生方向依次将各子图中处于各级的各基因节点的所有邻域关系进行聚合,并逐级依次更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息的方式包括:

基于所述各基因节点与其分别所对应的邻居节点之间的关系特征表示信息以及所述中心基因节点的特征表示信息,分别获得各基因节点与其分别所对应的邻居节点之间关系权重值;基于各关系权重值以及各基因节点的特征表示信息,按向所述中心基因节点衍生方向依次对各子图中处于各级的各基因节点的所有邻域关系进行权重聚合,并逐级依次更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息;

优选的,基于关系权重值算法,根据所述各基因节点与其分别所对应的邻居节点之间的关系特征表示信息以及所述中心基因节点的特征表示信息,分别获得各基因节点与其分别所对应的邻居节点之间关系权重值;

其中,所述关系权重值算法,即以ej为中心基因节点的子图中的任何一个节点e和其任一邻居节点e’之间的关系特征表示信息re,e′的关系权重值的计算方式包括:

其中,ej表示中心基因节点ej的特征表示信息,函数g为内积函数,关系权重值表示了关系特征表示信息re,e′对于基因ej的重要程度。

可选的,所述方法包括:按向所述中心基因节点衍生方向依次计算对应各基因节点的邻域关系的邻域关系特征表示信息;其具体方式包括:根据各基因节点与其分别所对应的邻居节点之间关系权重值以及各基因节点的特征表示信息获得对应各基因节点的邻域关系的邻域关系特征表示信息;聚合对应每个基因节点所对应的邻域关系特征表示信息,并将聚合后的特征表示信息替代各子图中处于各级的各基因节点的特征表示信息;将经过聚合对应所述中心基因节点分别所对应的邻域关系特征表示信息而获得的特征表示信息分别作为对应所述待预测基因对的特征表示更新信息。

可选的,根据各基因节点e与其分别所对应的邻居节点e’之间关系权重值进行标准化,获得标准化关系权重值根据所述标准化权重值以及各基因节点e’的特征表示信息e’获得对应各基因节点的邻域关系的邻域关系特征表示信息基于权重聚合公式,聚合对应每个基因节点e所对应的邻域关系特征表示信息并将聚合后的特征表示信息ep替代各子图中处于各级的各基因节点e的特征表示信息e;

其中,所述权重聚合公式包括:

并且其中,p(e)表示基因e的所有邻居节点。

对于具有h级衍生的子图来说,如图2举例来说,基因节点e[h+1]处于节点e[h]以及ep的上一级,通过聚合后获得每个子图中个基因节点的特征表示信息e[h]以及ep之后,训练得到子图中实体的特征表示算法,用于计算上一级基因节点e[h+1]的特征表示信息e[h+1],该算法包括:

e[h+1]=σ(w(e[h]+ep)+b);(4)

其中,w和b是网络的训练参数,激活函数σ采用的是relu函数。经过h层的计算,得到待检测基因对ei和ej的特征表示更新信息

步骤s13:根据所述待预测基因对的特征表示更新信息计算得到对应所述待预测基因对存在合成致死关系的概率值,并获得对应所述所述待预测基因对是否存在合成致死关系的预测结果。

可选的,步骤s13包括:基于内积函数f(x,y),根据所述待预测基因对的特征表示更新信息计算得到对应所述待预测基因对存在合成致死关系的概率值基于relu函数σ以及设定的判断阈值s,根据所述概率值获得预测结果特征值基于预测结果判断条件,根据所述预测结果特征值获得对应所述待预测基因对是否存在合成致死关系的预测结果。

优选的,设定的判断阈值s为0.5,若所述概率值小于0.5,则输出值为0,若大于等于0.5,则则输出值为1。

可选的,所述基于预测结果判断条件包括:若预测结果特征值为0,则获得对应所述待预测基因对不存在合成致死关系的预测结果;若预测结果特征值为1,则获得对应所述待预测基因对存在合成致死关系的预测结果。

与上述实施例原理相似的是,本发明提供一种基于知识图谱的合成致死基因对预测系统。

以下结合附图提供具体实施例:

如图3展示本发明实施例中的一种基于知识图谱的合成致死基因对预测系统的结构示意图。

所述系统包括:

知识图谱提取模块31,用于从知识图谱中提取分别以待预测基因对为中心基因节点且分别从所述中心基因节点一或多级衍生的子图;其中,所述子图包括:表示各基因节点的邻域关系的子图特征表示信息;

聚合更新模块32,连接所述知识图谱提取模块31,用于基于所述子图特征表示信息,分别更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息;

预测模块33,连接所述聚合更新模块32,用于根据所述待预测基因对的特征表示更新信息计算得到对应所述待预测基因对存在合成致死关系的概率值,并获得对应所述所述待预测基因对是否存在合成致死关系的预测结果。

需说明的是,应理解图3系统实施例中的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现;

例如各模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(applicationspecificintegratedcircuit,简称asic),或,一个或多个微处理器(digitalsignalprocessor,简称dsp),或,一个或者多个现场可编程门阵列(fieldprogrammablegatearray,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessingunit,简称cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。

可选的,所述聚合更新模块32用于基于所述子图特征表示信息,以ei为中心基因节点的子图为例,对于该子图上的任何一个节点e,按向所述中心基因节点ei衍生方向依次聚合各基因节点e的所有邻居节点的邻域关系,以此聚合结果来更新基因节点e本身的特征表示信息,以获得对应所述中心基因节点ei的特征表示更新信息,对于另外一个ej采用同样的方式,以获得对应所述待预测基因对ei和ej的特征表示更新信息。需要说明的是,所述聚合更新模块32用于按向所述中心基因节点ei衍生方向依次聚合具体是说,先从距离所述中心基因节点最远级的基因节点进行邻域关系聚合,并将其聚合结果来更新在该级基因节点本身的特征表示信息;基于这一级经过更新的基因节点本身的特征表示信息,开始对该级上一级的基因节点进行邻域关系聚合,以更新当前级的基因节点本身的特征表示信息;则再根据本级获得的基因节点的特征表示信息再对上一级的基因节点进行邻域关系聚合,逐级更新基因节点的特征表示信息,直至对中心基因节点进行邻域关系聚合,以更新中心基因节点的特征表示信息,两个子图都同样采用该种方式,最终获得对应所述待预测基因对的特征表示更新信息。

可选的,所述聚合更新模块32用于基于所述各基因节点与其分别所对应的邻居节点之间的关系特征表示信息以及所述中心基因节点的特征表示信息,分别获得各基因节点与其分别所对应的邻居节点之间关系权重值;基于各关系权重值以及各基因节点的特征表示信息,按向所述中心基因节点衍生方向依次对各子图中处于各级的各基因节点的所有邻域关系进行权重聚合,并逐级依次更新各子图中处于各级的各基因节点的特征表示信息,以获得对应所述待预测基因对的特征表示更新信息。

优选的,所述聚合更新模块32用于基于关系权重值算法,根据所述各基因节点与其分别所对应的邻居节点之间的关系特征表示信息以及所述中心基因节点的特征表示信息,分别获得各基因节点与其分别所对应的邻居节点之间关系权重值;其中,所述关系权重值算法,即以ej为中心基因节点的子图中的任何一个节点e和其任一邻居节点e’之间的关系特征表示信息re,e′的关系权重值的计算方式包括:

其中,ej表示中心基因节点ej的特征表示信息,函数g为内积函数,关系权重值表示了关系特征表示信息re,e′对于基因ej的重要程度。

可选的,所述聚合更新模块32用于按向所述中心基因节点衍生方向依次计算对应各基因节点的邻域关系的邻域关系特征表示信息;其具体方式包括:根据各基因节点与其分别所对应的邻居节点之间关系权重值以及各基因节点的特征表示信息获得对应各基因节点的邻域关系的邻域关系特征表示信息;聚合对应每个基因节点所对应的邻域关系特征表示信息,并将聚合后的特征表示信息替代各子图中处于各级的各基因节点的特征表示信息;将经过聚合对应所述中心基因节点分别所对应的邻域关系特征表示信息而获得的特征表示信息分别作为对应所述待预测基因对的特征表示更新信息。

可选的,所述聚合更新模块32用于根据各基因节点e与其分别所对应的邻居节点e’之间关系权重值进行标准化,获得标准化关系权重值根据所述标准化权重值以及各基因节点e’的特征表示信息e’获得对应各基因节点的邻域关系的邻域关系特征表示信息基于权重聚合公式,聚合对应每个基因节点e所对应的邻域关系特征表示信息并将聚合后的特征表示信息ep替代各子图中处于各级的各基因节点e的特征表示信息e;

其中,所述权重聚合公式包括:

并且其中,p(e)表示基因e的所有邻居节点。

对于具有h级衍生的子图来说,如图2举例来说,基因节点e[h+1]处于节点e[h]以及ep的上一级,通过聚合后获得每个子图中个基因节点的特征表示信息e[h]以及ep之后,训练得到子图中实体的特征表示算法,用于计算上一级基因节点e[h+1]的特征表示信息e[h+1],该算法包括:

e[h+1]=σ(w(e[h]+ep)+b);(4)

其中,w和b是网络的训练参数,激活函数σ采用的是relu函数。经过h层的计算,得到待检测基因对ei和ej的特征表示更新信息

可选的,所述预测模块33用于基于内积函数f(x,y),根据所述待预测基因对的特征表示更新信息计算得到对应所述待预测基因对存在合成致死关系的概率值基于relu函数σ以及设定的判断阈值s,根据所述概率值获得预测结果特征值基于预测结果判断条件,根据所述预测结果特征值获得对应所述待预测基因对是否存在合成致死关系的预测结果。优选的,设定的判断阈值s为0.5,若所述概率值小于0.5,则输出值为0,若大于等于0.5,则则输出值为1。

可选的,所述基于预测结果判断条件包括:若预测结果特征值为0,则获得对应所述待预测基因对不存在合成致死关系的预测结果;若预测结果特征值为1,则获得对应所述待预测基因对存在合成致死关系的预测结果。

为了更好的描述所述基于知识图谱的合成致死基因对预测系统,提供一具体实施例;

实施例1;基于知识图谱的合成致死基因对预测模型(kg4sl模型)。如图4所示为kg4sl模型的结构示意图。

利用该模型进行预测的方式主要是通过将待检测基因节点输入至训练好的kg4sl模型中,可以直接获得获得对应所述所述待预测基因对是否存在合成致死关系的预测结果。

对于模型构建之前的知识图谱构建以及数据预处理步骤,包括:

从synlethdb(上获取合成致死基因对。其中,synlethdb中包含36402对人类基因对。在这些基因对中,有些基因对之间存在合成致死关系,而有些基因对之间并不存在合成致死关系,前者可以作为训练模型中的正样本,而后者则作为模型训练中的负样本。除此之外,synlethdb中还包含一个具有11种实体和24种关系的知识图谱。在这24种关系中,有16关系直接与基因相关,包括基因之间的调控关系,基因之间的相互作用关系,基因之间的共表达关系。在11种实体中,有6种实体直接与基因相关。知识图谱中的实体和关系以(实体,关系,实体)三元组的形式呈现。为了平衡正负样本之间的比例,随机采样基因之间关系未知的基因对,作为负样本。除此之外,移除知识图谱中的孤立点。最终,构建了72804对基因对,涉及到10004种基因,并且构建了一个包含54012个节点以及2231921条边关系的知识图谱。

给定构建好的基因对s∈(0,1)n×n以及知识图谱g=(ve,vr),其中,知识图谱中的每一条边定义为三元组t=(h,r,t)。我们的目标是构建一个图神经网络模型来学习一个函数(概率大小计算模型)利用该函数来计算基因ei和基因ej之间存在合成致死关系的概率,根据设置的阈值来判定是否存在合成致死关系。

再准备好以上数据后,对所述kg4sl模型进行构建,基于知识图谱的合成致死基因对预测模型(kg4sl模型)框架包括::

gene-specificweightedsubgraph模块,用于根据给定的两个基因ei和ej,分别提取与这两个基因相互连接的子图。由于计算资源的限制,这里的子图只选取从该特定基因衍生出去的2层基因,并对每个基因随机提取k个邻居;

aggregation模块,用于对于每个sl基因对,选择与该基因直接相连的基因节点和边关系。基于生物信息可以在所提取的子图节点之间流动的假设,聚合子图中每个基因节点的邻居节点信息从而构成该基因的特征表示;具体的,针对任何一个子图中的基因节点,以ei为中心节点的子图为例,对于该子图上的任何一个节点e,聚合该节点的所有邻居节点的特征表示,以此聚合结果来更新该节点本身的特征表示;计算该子图上的每条边的权重,每条边re,e′的权重计算方法如下:这里e表示以ei为中心的子图中的任何一个节点,e’表示节点e的邻居节点,re,e′表示e和e’之间的关系的特征表示,ej表示基因ej的特征表示,函数g这里采用的是内积的方式。权重表示了关系re,e′对于基因ej的重要程度;其中,聚合的方式采用的是权重加和的方式,其计算公式为:其中,表示的是标准化之后的边权重值p(e)表示基因e的邻居节点,ep表示节点e聚合邻居节点之后的特征表示。在通过聚合操作获得每个子图中基因的特征表示之后,利用神经网络模型训练得到子图中实体的特征表示e[h+1]=σ(w(e[h]+ep)+b),其中w和b是网络的训练参数,激活函数σ采用的是relu函数,经过h层的训练,得到基因ei和ej的最终特征表示

scorecomputation模块,用于利用得到的两个基因的特征表示来计算基因之间存在合成致死关系的概率大小,具体的计算方式包括:同样这里采用relu作为激活函数σ,采用内积函数作为函数f。阈值设置为0.5,即当f小于0.5时,为0,表示基因之间不存在合成致死关系,当f大于等于0.5时,为1,表示基因之间存在合成致死关系。

由具体实验对比可知,利用以上的方式来构建的kg4sl模型的表现在auc,aupr以及f1指标上均优于现有的基本模型;例如,transe以及transe+gcn模型;并且kg4sl模型对sl关系和非sl关系有更强的鉴别能力;kg4sl模型揭示了从sylethdb数据库中提取的知识图谱对sl基因对预测任务的贡献。kg4sl通过在gnn中加入了一个合适的知识图谱,考虑了知识图谱上所存储的与sl基因对背后的生物机制相关的信息,克服了现有方法中认为每个sl基因对都是一个独立样本的假设。聚合知识图谱的信息后,与所有基本模型相比,kg4sl在auc、aupr和f1上的性能分别提高了3.11%、2.16%和6.4%。

如图5展示本发明实施例中的基于知识图谱的合成致死基因对预测终端50的结构示意图。

所述基于知识图谱的合成致死基因对预测终端50包括:存储器51及处理器52所述存储器51用于存储计算机程序;所述处理器52运行计算机程序实现如图l所述的基于知识图谱的合成致死基因对预测方法。

可选的,所述存储器51的数量均可以是一或多个,所述处理器52的数量均可以是一或多个,而图5中均以一个为例。

可选的,所述基于知识图谱的合成致死基因对预测终端50中的处理器52会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器51中,并由处理器52来运行存储在第一存储器51中的应用程序,从而实现如图1所述基于知识图谱的合成致死基因对预测方法中的各种功能。

可选的,所述存储器51,可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备;所述处理器52,可能包括但不限于中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选的,所述处理器52可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供计算机可读存储介质,存储有计算机程序,所述计算机程序运行时实现如图1所示的基于知识图谱的合成致死基因对预测方法。所述计算机可读存储介质可包括,但不限于,软盘、光盘、cd-rom(只读光盘存储器)、磁光盘、rom(只读存储器)、ram(随机存取存储器)、eprom(可擦除可编程只读存储器)、eeprom(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。

综上所述,本发明基于知识图谱的合成致死基因对预测方法、系统、终端及介质,通过在知识图谱中提取子图的方式,并基于提取的子图的基础上完成知识整合和特征提取的过程,取得了最高的预测准确率。尤其在表示基因特征时,根据利用的包含与sl基因对相关的生物过程、疾病、通路等因素的知识图谱,达到了充分考虑sl基因对背后共同的生物学机制的效果,进而使得预测结果更具有参考性,并解决了现有技术的问题。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1