1.本发明涉及药物技术领域,更具体地说,特别涉及一种基于生物网络全局结构的药物与药物相互作用预测方法。
背景技术:2.药物与药物相互作用会增加患者死亡或停药的风险,研究表明美国有6.7%的住院患者出现严重的药物不良反应,药物不良反应导致0.32%的病死率。然而,同时服用多种药物对于治疗复杂疾病是必要的因此,预测药物与药物相互作用是药物警戒中关键的任务。但是传统的湿实验昂贵且时间周期长,无法大规模预测了药物与药物相互作用预测。此外,利用计算机技术快速有效的预测药物与药物相互作用具有重要的科学意义和价值。
3.随着深度学习技术在计算机视觉、自然语言、语音识别等领域的快速发展,近些年来越来越多的研究开始利用深度学习技术进行药物发现,包括药物与靶标相互作用预测,药物与药物相互作用预测等。尤其是图深度学习技术被广泛的应用到药物与药物相互作用预测领域。这主要是因为高通量技术生成了海量的生物医学网络数据,例如药物与药物相互作用网络、药物与蛋白相互作用网络、药物与疾病相互作用网络,这些网络不仅可以模拟复杂的生命系统,也非常适用于图神经网络模型。同时人工智能技术快速发展,带来了很多先进的图神经网络模型,例如图卷积网络,图注意力网络,图同构网络。这些图网络模型具有强大的表征能力,可以自然地集成了图结构数据的连接模式和特征属性。
4.然而,众所周知,包括图神经网络在内深度神经网络严重依赖大量标记数据。对于具有稀疏标记节点的图,在许多实际场景中可能无法满足大规模数据的要求。同样生物医学网络具有较高的稀疏性,具有很少的标注数据,所以难于直接利用图神经网络进行药物与药物相互作用预测;其次,现有的图神经网络,仅局限于聚合局部领域的信息,忽略了远距离节点之间的关联关系,因此容易导致过平滑现象。为此,有必要开发一种基于生物网络全局结构的药物与药物相互作用预测方法。
技术实现要素:5.本发明的目的在于提供一种基于生物网络全局结构的药物与药物相互作用预测方法,以克服现有技术所存在的缺陷。
6.为了达到上述目的,本发明采用的技术方案如下:
7.一种基于生物网络全局结构的药物与药物相互作用预测方法,包括以下步骤:
8.s1、获取提取药物与药物相互作用网络、药物与靶标相互作用网络、蛋白质与蛋白质相互作用网络、药物与疾病关联网络和疾病与蛋白质关联网络,并将其进行比对融合,获得包含药物、蛋白和疾病的生物异质网络;
9.s2、在生物异质网络中选择设定数量的节点对,根据节点对之间最短路径的长度,将节点对标注成不同的四类,并将所选的节点对和对应的标签当作自监督学习的训练样本;
10.s3、计算每个节点邻居的个数,并将所有节点的邻居个数转换成独热编码向量以作为节点的初始特征;
11.s4、将生物网络的邻接矩阵和节点的初始特征输入到图注意力神经网络预测步骤s2中训练样本的节点对的最短路径类别,并与节点对原有的路径标签进行比较;
12.s5、将药物与药物相互作用网络中具有相互作用的所有药物对当作正样本,并且从药物与药物相互作用网络中随机选择同等数量的未知的药物对作为负样本,将所有的正样本和负样本混合在一起并按照一定的比例划分为训练集和测试集,将训练集中的样本表征和标签一起输入到深度神经网络中进行模型训练,直至达到最大次数以后停止迭代获得药物与药物相互作用预测模型,并利用训练好的药物与药物相互作用预测模型进行预测药物与药物相互作用。
13.进一步地,所述步骤s1中以drugbank、uniprot、hprd、sider、ctd、ndfrt、repodb、huri、drugcentral、biogrid、omim和string生物医药大数据为基础,提取药物与靶标相互作用网络、蛋白质与蛋白质相互作用网络、药物与疾病关联网络和疾病与蛋白质关联网络。
14.进一步地,所述步骤s2中根据节点对之间最短路径的长度,将节点对标注成不同的四类具体为:计算节点对之间的最短路径,若最短路径小于设定值则将路径长度标记为对应节点的类标签,若最短路径大于或等于设定值则将对应节点划分到路径为4的一类。
15.进一步地,所述步骤s4中在图注意力网络中采用多头注意力机制进行节点自身和邻居节点的特征聚合,其公式为:
[0016][0017]
式中,δ是代表非线性激活relu函数,k是多头注意力的个数,||表示将特征向量进行拼接,wk代表第k注意机制中可学习的参数矩阵,代表节点j的输入特征,ni是节点i的所有邻居,是第k注意机制中学习得到的注意力系数,计算公式为:
[0018][0019]
式中,是个超参数,ε(
·
)代表非线性激活函数leakyrelu,其计算公式为:
[0020][0021]
式中,θ是超参数。
[0022]
进一步地,所述步骤s4中采用交叉熵函数计算损失,利用adam优化器进行训练和更新参数。
[0023]
进一步地,所述步骤s5中深度神经网络包含一个输入层、一个隐藏层和一个输出层,隐藏层采用relu激活函数,输出层采用sigmod激活函数。
[0024]
与现有技术相比,本发明的优点在于:本发明提供的一种基于生物网络全局结构的药物与药物相互作用预测方法,首先集成了多个网络数据,进而可以捕获多模态的网络信息;其次设计了基于生物网络路径长度分类的表征学习任务,指导图注意网络模型生成高质量的药物表征向量,进而降低了深度神经网络模型对标签数据的依赖性;同时该表征学习样本集成了来自于网络中全局结构的生物实体对,因此,导致生成的表征向量捕获了网络的全局结构信息,进一步提高了药物与药物相互作用的预测性能。
附图说明
[0025]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]
图1是本发明基于生物网络全局结构的药物与药物相互作用预测方法的框架图。
[0027]
图2是本发明的实验结果图。
具体实施方式
[0028]
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
[0029]
参阅图1和图2所示,本实施例公开了一种基于生物网络全局结构的药物与药物相互作用预测方法,包括以下步骤:
[0030]
步骤s1、构建生物异构网络:以drugbank、uniprot、hprd、sider、ctd、ndfrt、repodb、huri、drugcentral、biogrid、omim和string生物医药大数据为基础,提取药物与靶标相互作用网络、蛋白质与蛋白质相互作用网络、药物与疾病关联网络和疾病与蛋白质关联网络,并将其进行比对融合,获得包含药物、蛋白和疾病的生物异质网络。
[0031]
步骤s2、构建自监督表征学习的训练样本:在生物异质网络中选择设定数量的节点对,根据节点对之间最短路径的长度,将节点对标注成不同的四类,并将所选的节点对和对应的标签当作自监督学习的训练样本。
[0032]
具体的,将节点对标注成不同的四类具体为:根据节点对之间最短路径的长度,将节点对标注成不同的四类具体为:计算节点对之间的最短路径,若最短路径小于设定值4则将路径长度标记为对应节点的类标签,若最短路径大于或等于设定值4,则将对应节点划分到路径长度为4的一类。例如:小于4的时候,分别标记为1,2或3,大于等于4标记为4,(总共4类,跟s2的四类一致。
[0033]
步骤s3、初始特征设置:计算每个节点邻居的个数,并将所有节点的邻居个数转换成独热编码向量以作为节点的初始特征。
[0034]
步骤s4、将生物网络的邻接矩阵和节点的初始特征输入到图注意力神经网络预测步骤s2中训练样本的节点对的最短路径类别,并与节点对原有的路径标签进行比较。
[0035]
本实施例中,在图注意力网络中采用多头注意力机制进行节点自身和邻居节点的特征聚合,其公式为:
[0036][0037]
式中,δ是代表非线性激活relu函数,k是多头注意力的个数,||表示将特征向量进行拼接,wk代表第k注意机制中可学习的参数矩阵,代表节点j的输入特征,ni是节点i的所有邻居,是第k注意机制中学习得到的注意力系数,计算公式为:
[0038][0039]
式中,是个超参数,ε(
·
)代表非线性激活函数leakyrelu,其计算公式为:
[0040][0041]
式中,θ是超参数。
[0042]
本实施例中,采用交叉熵函数计算损失,利用adam优化器进行训练和更新参数。
[0043]
步骤s5、将药物与药物相互作用网络中具有相互作用的所有药物对当作正样本,并且从药物与药物相互作用网络中随机选择同等数量的未知的药物对作为负样本,将所有的正样本和负样本混合在一起并按照一定的比例划分为训练集和测试集,将训练集中的样本表征和标签一起输入到深度神经网络中进行模型训练,直至达到最大次数以后停止迭代获得药物与药物相互作用预测模型,并利用训练好的药物与药物相互作用预测模型进行预测药物与药物相互作用,并进行评估。
[0044]
其中,深度神经网络包含一个输入层、一个隐藏层和一个输出层,隐藏层采用relu激活函数,输出层采用sigmod激活函数。
[0045]
本实施例以drugbank数据库中的721个药物为实施例,运用以上方法预测药物-药物相互作用,在热启动的测试场景中接受者操作曲线下面积(auroc)为0.817,精确召回曲线下面积(aupr)为0.851;在冷启动的测试场景中接受者操作曲线下面积(auroc)为0.779,精确召回曲线下面积(aupr)为0.841,如图2所示。
[0046]
本实施例首先集成了多个网络数据,进而可以捕获多模态的网络信息;其次设计了基于生物网络路径长度分类的表征学习任务,指导图注意网络模型生成高质量的药物表征向量,进而降低了深度神经网络模型对标签数据的依赖性;同时该表征学习样本集成了来自于网络中全局结构的生物实体对,因此,导致生成的表征向量捕获了网络的全局结构信息,进一步提高了药物与药物相互作用的预测性能。
[0047]
虽然结合附图描述了本发明的实施方式,但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改,只要不超过本发明的权利要求所描述的保护范围,都应当在本发明的保护范围之内。