1.本发明涉及药物研发技术领域,具体为一种基于超图卷积神经网络的药物重定位方法及系统。
背景技术:2.药物重定位是指从现有药物中发现新的和可靠的适应病症,作为药物开发的重要内容,可以让制药行业和研究人员减少时间和成本,可以识别现有药物的适应病症,为现有药物确定和开发新的治疗效果,并能有效降低药物的开发成本。但随着更多药物与疾病相关的生物网络涌现,如何有效地融合这些生物实体数据并准确地实现药物疾病重定位仍是挑战难题。
3.目前药物重定位主要方法有基于网络扩散的方法、基于机器学习的方法和基于深度学习的方法,虽然基于网络扩散的方法具有很好的可解释性,但性能表现一般,此外机器学习主要基于对特征的提起,而特征的分类方法严重依赖于特征的提取和阴性样本的选择。深度学习作为如今主流的方法有着显著的优越性,它不仅有着丰富的多样性,且可融合多种特征并达到优秀的效果,通过端对端的训练更利于简化药物重定位以往复杂提取特征的过程。本文提出的基于超图卷积神经网络的模型mahgnn充分利用了以上的优点。
4.针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现要素:5.(一)解决的技术问题
6.针对现有技术的不足,本发明提供了一种基于超图卷积神经网络的药物重定位方法及系统,具备运行稳定且效果优秀,运行快速等优点,解决了当前方法预测效率低下且精度低的问题。
7.(二)技术方案
8.为解决当前方法预测效率低下且精度低的技术问题,本发明提供如下技术方案:
9.一种基于超图卷积神经网络的药物重定位方法,包括如下步骤:
10.s1、药物-疾病关联数据的选取和药物-疾病关联网络g
dr
的构建:
11.分别从两个药物-疾病关联数据库中筛选出第一数据集和第二数据集;
12.将第一数据集和第二数据集中的多种药物特征相似性数据构建药物多元相似性矩阵,并把通过筛选后的已知的药物-疾病关联,构建药物-疾病网络g
dr
;
13.s2、蛋白质网络的构建:
14.蛋白质网络包括:药物-蛋白质关联网络g
rp
、疾病-蛋白质关联网络g
dp
和蛋白质-蛋白质关联网络g
p
三个关联网络;
15.从已有的数据库、第一数据集和第二数据集中选取药物-蛋白质、疾病-蛋白质、蛋白质-蛋白质关联信息,分别构建药物-蛋白质关联网络g
rp
、疾病-蛋白质关联网络g
dp
、蛋白质-蛋白质关联网络g
p
;
16.s3、药物-药物网络gr的构建:
17.从药物-药物关联数据库进行药物-药物域内的相似特征提取,构建药物-药物网络gr;
18.s4、疾病-疾病网络gd的构建:
19.根据疾病的相似性矩阵构建疾病-疾病相似性网络gd;
20.s5、高级多模态异构网络的构建:
21.在药物-疾病关联网络g
dr
,疾病-疾病相似度网络gd,药物-药物相似度网络gr三个网络形成初级多模态异构网络的基础上;
22.额外添加药物-蛋白质关联网络g
rp
,疾病蛋白质关联网络g
dp
,蛋白质-蛋白质网络g
p
关联网络加强域间消息传递,形成高级多模态异构网络;
23.s6、构建基于局域超图卷积的药物与疾病关联预测算法模型,对高级多模态异构网络的数据进行处理,获取药物和疾病关联的概率。
24.进一步地,s1步骤中,从两个药物-疾病关联数据库中筛选出第一数据集和第二数据集,其中,定义筛选的原则为每一种药物至少关联一种蛋白质。
25.进一步地,s2步骤具体包括:
26.s2.1、药物-蛋白质关联信息的获得:在药物-蛋白质关联数据库中,筛选出药物-蛋白质关联数据库中的部分药物-蛋白质关联信息;
27.s2.2、疾病-蛋白质关联信息的获得:在疾病-蛋白质数据库中,提取特定疾病的蛋白质编码基因,将特定疾病的蛋白质编码基因映射到相应的产物上,获得其中的疾病-蛋白质关联信息;
28.s2.3、蛋白质-蛋白质信息的获得:在蛋白质-蛋白质数据库中,获得蛋白质-蛋白质信息;
29.s2.4、根据s2.1-s2.3中获取的药物-蛋白质关联信息、疾病-蛋白质关联信息、蛋白质-蛋白质关联信息,分别构建出药物-蛋白质关联网络g
rp
、疾病-蛋白质关联网络g
dp
、蛋白质-蛋白质关联网络g
p
。
30.进一步地,s2.1步骤中,在药物-蛋白质关联数据库中,筛选出药物-蛋白质关联数据库中的部分药物-蛋白质关联信息,其中,筛选原则为选取至少具有一个蛋白质关联的药物。
31.进一步地,s3步骤具体包括:
32.s3.1、在药物-药物关联数据库中,选取其中一种或者多种药物特征作为二进制特征向量,将选取的部分药物特征转换成特征向量xi、xj;
33.s3.2、对s3.1步骤中选取的药物特征作为二进制特征向量的部分特征,使用jaccard指数作为该药物特征相似性度量,计算各种药物之间的多元二值相似性特征
34.s3.3、利用药物的多元二值相似性特征构建药物-药物网络gr。
35.进一步地,s4步骤包括:
36.首先构建疾病和其祖先的有向无环图dag(t(d),e(d));
37.然后依照有向无环图dag(t(d),e(d))构建疾病间语义贡献dv(d)=∑
o∈t(d)dd
(o);
38.然后计算获取任意两个疾病d(i)和d(j)的相似性矩阵s(d(i),d(j));
39.最后根据任意两个疾病的相似性矩阵s(d(i),d(j))构建疾病-疾病网络gd。
40.进一步地,基于局域超图卷积的药物与疾病关联预测算法模型,其使用步骤如下:
41.s6.1、根据药物和疾病的相似度矩阵sr、sd,并且基于超图卷积的域内信息传递构建疾病和药物域内特征
42.s6.2、将已获得的疾病和药物域内特征利用多元特征信息进行域内特征增强,获取增强后的疾病和药物域内特征
43.s6.3、从已知的药物-疾病域间信息传递,对域间信息传递模块进行改进,获取改进后的疾病和药物域内特征和
44.s6.4、将改进后的疾病和药物域内特征和通过蛋白质网络域间特征传递进行增强,获取药物与疾病的强化特征
45.s6.5、将获得的各个药物与疾病的特征求和,计算获取药物和疾病关联的概率;
46.s6.6、引入损失函数对药物和疾病关联的概率进行修正。
47.一种基于超图卷积神经网络的药物重定位系统,所述系统包括计算机可读介质,所述计算机可读介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于超图卷积神经网络的药物重定位方法步骤。
48.(三)有益效果
49.与现有技术相比,本发明提供了一种基于超图卷积神经网络的药物重定位方法,具备以下有益效果:
50.1、该种基于超图卷积神经网络的药物重定位方法,通过构造g
dr
,gr,gd,g
dp
,g
rp
,g
p
关系网络,并结合超图卷积来加强药物和药物之间,药物和疾病之间,疾病和疾病之间的信息传递。然后将药物和疾病的相似性特征当作初始特征并结合注意力机制计算得到的来聚合6种多关系网络学习得到药物和疾病的域内更新特征这样使得学习得到的特征信息包含了丰富的生物特性,对预测药物-疾病的关联提供了极大的帮助,并取得良好的效果。
51.2、该种基于超图卷积神经网络的药物重定位方法,通过超图卷积充分提取疾病和药物的高阶特征,如靶点、酶、药物-药物相互作用、途径和亚结构等药物的相似性特征和疾病语义相似性,从而根据这些高阶特征,使得学习到的特征更加充分和更具代表性,从而增强了该方法的泛化能力,提高了模型的适应性。
52.3、该种基于超图卷积神经网络的药物重定位方法,通过注意力机制实现了药物的多种同质特征的融合,如靶点、酶、药物-药物相互作用、途径和亚结构等药物的同质特征和疾病语义同质特征,因为可以从不同特征视图学习,从而使得学习的特征更加充分和更具代表性,因为学习的特征更具有代表性,因此提高了采用本模型的方法更具代表性,并且使得模型能够进行进一步地效果的优化。
53.4、该种基于超图卷积神经网络的药物重定位方法,通过加入蛋白质网络来增强域间的消息传递,使得交叉验证中auc,aupr的值得到提升,也提高了药物-疾病关联的能力,从而使得模型更具鲁棒性,通过融合域内和域间特征,从而使得模型能学习到的信息量更大,使得结果更具说服力。
54.5、该种基于超图卷积神经网络的药物重定位方法,通过采用端到端的深度学习模型,深度学习近年来在各个领域都十分流行,有着学习能力强,覆盖范围广,适应力强,可移植性好等优点,我们把深度学习运用到药物重定位中,使得药物重定位更加便捷,效果更加优良。
55.6、该种基于超图卷积神经网络的药物重定位方法,通过引入损失函数对药物和疾病关联的概率进行修正,采用带权重的二元交叉熵作为损失函数来平衡正负样本比例,由于实验证实的关联的数量比药物-疾病对的数量要少得多,又因为不同的药物-疾病数据集的稀疏性不一致;采用带权重的二元交叉熵作为损失函数来平衡正负样本比例,提高模型的计算精度,进而提高对药物和疾病关联的准确度,并使得模型的鲁棒性进一步提高。
附图说明
56.图1为本发明的方法流程图;
57.图2为本发明的s2步骤的方法流程图;
58.图3为本发明的s3步骤的方法流程图;
59.图4为本发明的s6步骤的方法流程图;
60.图5为本发明的高级多模态异构网络的示意图;
61.图6为本发明的mahgnn模型的整体框架图;
62.图7为本发明的域内消息传递模块的构造图;
63.图8为本发明的域间消息传递的流程示意图;
64.图9为本发明的不同模型以及数据集十倍交叉验证结果比对图;
65.图10为本发明的不同模型以及数据集十倍交叉验证结果的箱线图;
66.图11为本发明的不同模型在t1上的roc曲线对比图;
67.图12为本发明的不同模型在t2上的roc曲线对比图。
具体实施方式
68.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
69.正如背景技术所介绍的,现有技术中存在的不足,为了解决如上的技术问题,本技术提出了一种基于超图卷积神经网络的药物重定位方法。
70.实施例一:
71.一种基于超图卷积神经网络的药物重定位方法,包括如下步骤:
72.s1、药物-疾病关联数据的选取和药物-疾病关联网络g
dr
的构建:
73.分别从两个药物-疾病关联数据库中筛选出第一数据集和第二数据集;
74.其中,为了能确保消息传递,定义筛选的原则为每一种药物至少关联一种蛋白质(即一种药物至少需要针对一种特征蛋白质做靶点关联);
75.在公开的药物-疾病关联数据库(zhang数据库)中进行检索,选取其中部分药物-疾病关联信息构成第一数据集(t1),在公开的药物-疾病关联数据库(repodb数据库)
中进行检索,选取其中部分药物-疾病关联信息构成第二数据集(t2);
76.其中,t1包括263种药物、480种疾病和13460种蛋白质节点,并且分别包括15630个药物-疾病、5620个药物-蛋白质、20019个疾病-蛋白质和49406个蛋白质-蛋白质连接关系;t2包括850种药物、339种疾病和13460种蛋白质节点,并且分别包括1921个药物-疾病、10872个药物-蛋白质、12625个疾病-蛋白质和41903个蛋白质-蛋白质连接关系;
77.上述的所有连接关系均由定义的筛选原则在对应的数据库中选出特定的药物,疾病,蛋白质以后,从对应的数据库中得到选出特定的药物,疾病,蛋白质之间的连接关系(数据库中已经包含该连接关系)。
78.将第一数据集和第二数据集中的多种药物特征相似性数据(药物-疾病连接关系)构建的药物多元相似性矩阵,并把通过筛选后的已知的药物-疾病关联,构建药物-疾病网络记为g
dr
,其中g表示网络,d表示疾病、r表示药物、dr表示药物-疾病;
79.s2、蛋白质网络的构建:
80.蛋白质网络包括:药物-蛋白质关联网络(g
rp
)、疾病-蛋白质关联网络(g
dp
)和蛋白质-蛋白质关联网络(g
p
)三个关联网络;
81.其中,其中g表示网络,d表示疾病、r表示药物、p表示蛋白质,dr表示药物-疾病、dp表示疾病-蛋白质、rp表示药物-蛋白质;
82.从已有的数据库、第一数据集和第二数据集中选取药物-蛋白质、疾病-蛋白质、蛋白质-蛋白质关联信息,分别构建药物-蛋白质关联网络(g
rp
)、疾病-蛋白质关联网络(g
dp
)、蛋白质-蛋白质关联网络(g
p
),蛋白质网络能加强消息传递;
83.s2.1、药物-蛋白质关联信息的获得:在药物-蛋白质关联数据库中,选取至少具有一个蛋白质关联的药物,筛选出药物-蛋白质关联数据库中的部分药物-蛋白质关联信息(其中,药物-蛋白质关联数据库为dgidb数据库,选取具有至少1个蛋白质的药物,即在数据集t1中筛选出263种药物与6059种蛋白质,包含5620个药物-蛋白质关联,在数据集t2中筛选出850种药物与6059种蛋白质,包含10872个药物-蛋白质关联);
84.上述的所有关联均由筛选原则(选取至少具有一个蛋白质关联的药物)在对应的数据库(dgidb数据库)中选出特定的药物、蛋白质以后,从对应的数据库中得到选出特定的药物,蛋白质之间的关联(数据库中已经包含该关联)(以下的蛋白质关联获取原理同理)。
85.s2.2、疾病-蛋白质关联信息的获得:在疾病-蛋白质数据库中,提取特定疾病(特定疾病即任意选定的任意一种疾病)的蛋白质编码基因,将特定疾病的蛋白质编码基因映射到相应的产物上,获得其中的疾病-蛋白质关联信息(其中,疾病-蛋白质数据库为disgenet数据库,提取特定疾病的蛋白质编码基因,将特定疾病的蛋白质编码基因映射到相应的产物上,在数据集t1的疾病-蛋白质相互作用网络中获取480种疾病和6059种蛋白质之间的20019种疾病-蛋白质关联;数据集t2的疾病-蛋白质相互作用网络中获取339种疾病和5204种蛋白质之间的12625种疾病-蛋白质关联);
86.s2.3、蛋白质-蛋白质信息的获得:在蛋白质-蛋白质数据库中,获得蛋白质-蛋白质信息(其中,蛋白质-蛋白质数据库为人类ppi数据库,以具有t1,t2数据集中已有的蛋白质作为筛选标准,从蛋白质-蛋白质数据库-人类ppi数据库中筛选出具有上述蛋白质的蛋白质-蛋白质关联);
87.s2.4、根据s2.1-s2.3中获取的药物-蛋白质关联信息、疾病-蛋白质关联信息、
蛋白质-蛋白质关联信息,分别构建出药物-蛋白质关联网络(g
rp
)、疾病-蛋白质关联网络(g
dp
)、蛋白质-蛋白质关联网络(g
p
);
88.其中,药物-蛋白质关联网络(g
rp
)、疾病-蛋白质关联网络(g
dp
)、蛋白质-蛋白质关联网络(g
p
)的具体内容为分别为:全部药物-蛋白质关联信息、全部疾病-蛋白质关联信息、全部蛋白质-蛋白质关联信息。
89.表1第一数据集和第二数据集中药物、疾病、蛋白质关联信息的对应关系
[0090][0091]
如表1所示;
[0092]
其中,t1包括263种药物、480种疾病和13460种蛋白质节点,并且分别包括15630个药物-疾病、5620个药物-蛋白质、20019个疾病-蛋白质和49406个蛋白质-蛋白质连接关系;t2包括850种药物、339种疾病和13460种蛋白质节点,并且分别包括1921个药物-疾病、10872个药物-蛋白质、12625个疾病-蛋白质和41903个蛋白质-蛋白质连接关系。
[0093]
s3、药物-药物网络gr的构建:
[0094]
从药物-药物关联数据库进行药物-药物域内的相似特征提取,构建药物-药物网络gr;
[0095]
s3.1、在药物-药物关联数据库(zhang数据库,zeng数据库)中,选取其中一种或者多种药物特征(药物特征如药物结构相似性,药物副作用相似性,药物蛋白质通路相似性,药物相互作用相似性),(本实施例中选取一种,即药物结构相似性)作为二进制特征向量,将选取的部分药物特征转换成特征向量xi、xj;
[0096]
其中xi表示药物数据库中,第i种药物的特征向量,xj表示药物数据库中,第j种药物的特征向量;
[0097]
s3.2、对s3.1步骤中选取的药物特征作为二进制特征向量的部分特征,使用jaccard指数作为该药物特征相似性度量(jaccard指数也被称为并交比,是一个用于比较样本集的相似性和多样性的统计量;jaccard指数用于测量有限样本集合之间的相似性,并被定义为相交的大小除以样本集合的大小),计算各种药物之间的多元二值相似性特征
[0098][0099]
其中,表示药物xi和药物xj的多元二值相似性特征,|xi∩xj|表示药物xi中的元素和药物xj中对应的元素都等于1的情况的个数,|xi∪xj|表示xi的元素或xj对应的元素等于1的情况的个数;
[0100]
s3.3、利用药物的多元二值相似性特征构建药物-药物网络gr:
[0101]
把药物多元相似性特征的集合记为其中sr表示药物多元相似性矩阵,为全部药物中第i种药物的多元相似性矩阵,然后把药物-药物网络gr的集合表示为:
[0102]
其中,其邻接矩阵
[0103]
其中,gr为以sr作为邻接矩阵的特征矩阵;
[0104]
s4、疾病-疾病网络gd的构建:
[0105]
根据疾病的相似性矩阵构建疾病-疾病相似性网络(gd);
[0106]
首先获取疾病的相似性矩阵sd:
[0107]
其中,取sd=s(d(i),d(j));s(d(i),d(j))为i疾病节点和j疾病节点的相似性矩阵;
[0108]
其中,m表示疾病的数量,
[0109]
使用d(i,j)值表示第i个疾病和第j个疾病的相似值,d(i,j)值范围在0到1之间,疾病与疾病间的相似性从疾病与疾病数据库中获得;
[0110]
首先将疾病划分成不同的类别,然后构建疾病和其祖先的有向无环图dag(t(d),e(d));
[0111]
其中,t(d)代表疾病节点d()以及它的祖先节点的节点集合,e(d)表示在这个集合中所有父亲节点和子节点的直接连线的集合,那么,图dag(t(d),e(d))中的节点o(o可以是任意一种疾病节点)对疾病d的语义价值的贡献dd(o)可以计算为
[0112][0113]
dv(d)=∑
o∈t(d)dd
(o)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3.2)
[0114]
其中,表示是o的子节点之一;δ是语义贡献衰减因子,表示随着疾病节点d和其祖先节点之间的距离增加,它们对疾病节点d的语义贡献逐渐衰弱,这里δ设置为0.5,表示节点对疾病d的语义价值的贡献,dv(d)表示疾病节点d()获得的贡献值。
[0115]
因此,任意两个疾病d(i)和d(j)的相似性矩阵表达式为:
[0116][0117]
其中,节点t∈t(d(i))∩t(d(j)),t(d(i))表示疾病i的节点d(i)以及它的祖先节点的节点集合,t(d(j))表示疾病j的节点d(j)以及它的祖先节点的节点集合;d
d(i)
(t)表示节点t对疾病i的节点d(i)的语义价值贡献,d
d(j)
(t)表示节点t对疾病j的节点d(j)的语义价值贡献;dv(d(i))表示疾病i节点d(i)获得的贡献值,dv(d(j))表示疾病j的节点d(j)获得的贡献值。
[0118]
根据上式计算得到的疾病相似矩阵sd;
[0119]
gd表示具有m种疾病的疾病语义相似性网络,
[0120]
gd的邻接矩阵由疾病相似矩阵sd组成,即ad=sd;
[0121]
其中,gd为以sd作为邻接矩阵的特征矩阵。
[0122]
s5、高级多模态异构网络的构建:
[0123]
请参考图5,在药物-疾病关联网络g
dr
,疾病-疾病相似度网络gd,药物-药物相似度网络gr三个网络形成初级多模态异构网络的基础上,额外添加药物-蛋白质关联网络g
rp
,疾病蛋白质关联网络g
dp
,蛋白质-蛋白质网络g
p
关联网络加强域间消息传递,形成高级多模态异构网络,从而提高预测性能;
[0124]
其中,已知的药物-疾病关联网络g
dr
表示为包含n种药物和m种疾病的g
dr
,其相邻矩阵为a
dr
∈{0,1}n×m,(从已知的数据库t1和t2中的数据集一和数据集二中获得药物和疾病之间是否相关)如果药物ri与疾病dj相关则如果药物与疾病之间的关联未知或未观察到,则
[0125]
除了上文构造的gr,gd和g
dr
,将s2步骤中获取的蛋白质-药物,蛋白质-疾病,蛋白质-蛋白质的邻接关系同样按照药物-疾病关联网络g
dr
的构建方式,构建蛋白质-药物关联网络g
dp
,蛋白质-疾病网络g
rp
,蛋白质-蛋白质网络g
p
,其中,g
dp
为以a
dp
作为邻接矩阵的特征矩阵,g
rp
为以a
rp
作为邻接矩阵的特征矩阵,g
p
为以a
p
作为邻接矩阵的特征矩阵;
[0126]
同理,若疾病i与蛋白质j相关,则如果关联未知或未观察到则
[0127]
若药物i与蛋白质j相关,则如果关联未知或未观察到则
[0128]
若蛋白质i与蛋白质j相关,则,如果关联未知或未观察到则,
[0129]
s6、构建局域超图卷积的药物与疾病关联预测算法模型,获取药物和疾病关联的概率:
[0130]
请参考图6,局域超图卷积的药物与疾病关联预测算法模型使用mahgnn深度学习框架,预测药物与疾病之间的关联;
[0131]
其使用步骤如下:
[0132]
s6.1、根据药物和疾病的相似度矩阵sr,sd基于超图卷积的域内信息传递构建疾病和药物第l层的域内特征
[0133]
根据s2步骤和s3步骤得到的模型初始输入图gr,gd分别构建超图,在关联预测任务中每条超边都是根据图上的邻接关系将一个顶点与其相邻的k个顶点连接起来建立的,所以如果有n个节点就能构建n条超边,其关联矩阵为以此分别得到药物和疾病的超图关联矩阵hr,hd作为模型的初始输入
[0134][0135]
首先,分别构建药物和疾病的域内相似性矩阵
[0136][0137]
其中,sr,sd分别为药物和疾病的相似度矩阵。由公式6.2可得到疾病和药物域内更新的特征分别为
[0138]
[0139][0140]
其中,dv是超图的度矩阵为dv=diag(∑
jhij
),其中diag()为对角矩阵函数,∑
jhij
表示药物i的超图关联矩阵hi和疾病j的超图关联矩阵的hj集合矩阵;θ为可学习的权重,de为正则化的拉普拉斯矩阵,y为超图卷积层式传播规则特征嵌入。
[0141]
由公式6.3,可计算出疾病和药物各个相似性矩阵经过超图卷积所得到的域内信息特征
[0142]
其中,域内消息传递部分包括药物-药物,疾病-疾病之间的特征传递,通过超图卷积网络分别提取药物和疾病的域内特征;超图则可以使用其无度超图来编码高阶数据相关性(超出成对连接),即超图具有其灵活的超边特性易于扩展为多模态和异构数据表示;
[0143]
对于超图网络结构,可将其定义为g=(v,e),包括一个顶点集v,一个超边集e,关联矩阵表示超图顶点之间的连接,nv为图g中所有节点的个数,ne为超边的个数,h中的每个元素h定义为:
[0144][0145]
对任意一个节点v,当超边e∈e同节点v存在关联时,h(v,e)=1,否则为0;同时,节点v的度d(v)和超边e的度δ(e)可分别用对角矩阵和来表示,那么节点的度和超边的度可分别定义为d(v)=∑
e∈e
h(v,e),δ(e)=∑
v∈v
h(v,e)。
[0146]
关联矩阵h和顶点特征x可以被送入超图神经网络,超图卷积层定义如下:
[0147][0148]
其中,在关联预测任务中每条超边都是根据图上的邻接关系将一个顶点与其相邻的k个顶点连接起来建立的,所以如果有n个节点就能构建n条超边,其关联矩阵为
[0149]
s6.2、利用多元特征信息进行域内特征增强:
[0150]
将由公式6.3得到的多通道药物嵌入进行聚合操作,然后获得特定的嵌入zr。使用注意力机制att(zr)来学习它们对应的重要性αr,其中分别表示嵌入zr的n个节点的注意力值;
[0151]
具体地,对于药物i,它在zr中的嵌入是(即zr的第i行)。首先通过非线性变换对嵌入进行变换,然后使用一个共享注意力向量得到第i个疾病的注意力值
[0152][0153]
其中角标t为转置操作,tanh()为tanh激活函数,b为偏置量;
[0154]
最后把所有视图的特征相加得到:
[0155][0156]
同理求出其中,作为下一层网络输入的药物嵌入。
[0157]
请参考图7,图中为域内消息传递模块(即步骤s6.1和s6.2的处理流程),根据药物多种特征构造的药物-药物网络gr,并通过超图卷积结合注意力机制,来对增强药物的域内消息传递。关于注意力机制,采用通道注意力机制来融合药物不同视图的嵌入,首先把拼接得到的特征进行平均池化(即对邻域内特征点只求平均),再通过一维卷积和激活函数得到注意力系数,最后与初始嵌入内积并求和得到药物域内嵌入。
[0158]
s6.3、从已知的药物-疾病域间信息传递,对域间信息传递模块进行改进,获取改进后的疾病和药物域内特征和
[0159]
将节点嵌入与边的嵌入相结合,通过使用可训练的权重矩阵更新边的特征,然后通过两个向量逐元素相乘操作把边的特征与节点特征相结合;
[0160]
其中,表示第l层边(edge)嵌入的可训练的权重矩阵;
[0161]
将和作为可训练权重,其中,表示第l层中将b域中的节点嵌入投影到a域中的节点嵌入的可训练的权重矩阵,表示第l层中将a域中的节点嵌入投影到b域中的节点嵌入的可训练的权重矩阵(其中,将b域中的节点嵌入投影到a域中的节点嵌入即边edge);
[0162]
有效的保证特征传递和提升关联预测性能,对域间信息传递模块进行改进;
[0163][0164][0165]
其中,nr为药物r域间邻居的集合,nd分别为疾病d的域间邻居的集合,图神经网络(gcn)是一种能对图数据进行深度学习的方法,是图神经网络(gcn)的正则化形式(这可以避免随着传播的进行嵌入的规模爆炸),
⊙
为向量点积操作,表示第l层边(edge)嵌入后的特征向量;
[0166]
相对于传统的gcn方法对药物-疾病域间进行信息传递,传统的gcn方法在使用过程中通常只考虑节点嵌入,忽略了边的作用,本实施例通过将节点嵌入与边的嵌入相结合,对域间信息传递模块进行改进,有效的保证特征传递和提升关联预测性能。
[0167]
s6.4、通过蛋白质网络域间特征传递进行增强,获取药物与疾病的强化特征
[0168]
在域间消息传递中,加入蛋白质与疾病,蛋白质与药物之间的关系网络,并将蛋白质-药物相关信息结合通过gat传播得到域间消息传递加强后的疾病、药物的嵌入;
[0169]
其中,gat是图卷积加入注意力机制的一种变体,蛋白质-药物相关信息结合通过gat传播得到域间消息传递加强后的疾病、药物的嵌入。整体过程的传播公式如下:
[0170]
[0171]
其中,分别为第k层的疾病和药物特征,为第k层从药物的特征通过gat传递回蛋白质的特征;为第k层从疾病的特征通过gat传递回蛋白质的特征,gat
rp
表示药物通过gat传递回蛋白质的特征,gat
dp
表示疾病通过gat传递回蛋白质的特征,将上述两者合并得到最终蛋白质特征嵌入
[0172]
其中,gat更新公式为:
[0173][0174]
其中wv为可训练的权重矩阵,代表输入的特征,注意力权重系数为,ui代表u域中的第i个节点特征,代表ui的邻居节点,vj代表中的第j个节点:
[0175][0176]
其中,ρ为leakyrelu激活函数,leakyrelu激活函数为了解决神经元“死亡”问题,leakyrelu激活函数输入小于0的部分,值为负,且有微小的梯度。
[0177]
然后用gat更新公式6.9中得到的蛋白质嵌入,再重复6.7操作把蛋白质特征分别传递回药物与疾病得到
[0178][0179]
其中,gat
ε
为gat更新公式,表示最终蛋白质特征嵌入经过gat更新公式传递回药物的特征表示最终蛋白质特征嵌入经过gat更新公式传递回疾病的特征
[0180]
请参考图8,图中域间消息传递的过程(即步骤s6.3和s6.4的处理流程),其有两部分:第一个为已知药物-疾病关联的域间信息传递;第二个是由蛋白质、药物、疾病三者组成的异构网络,通过gat加强域间消息传递。
[0181]
s6.5、将获得的各个药物与疾病的特征求和,计算获取药物和疾病关联的概率:
[0182]
将s6.2、s6.3、s6.4获得的各个特征进行相加:
[0183][0184][0185]
其中分别为药物、疾病下一层的特征,同理能得到
[0186]
由此,可以分别得到药物和疾病最终嵌入:
[0187][0188][0189]
最后,通过矩阵乘法得到重建药物和疾病之间的联系,公式如下:
[0190]
[0191]
矩阵是预测的得分概率矩阵,中的数值代表了药物和疾病关联的概率。
[0192]
s6.6、引入损失函数对药物和疾病关联的概率进行修正:
[0193]
采用带权重的二元交叉熵作为损失函数来平衡正负样本比例;
[0194]
在包含n种药物和m种疾病的数据集中,将药物-疾病关联对作为正样本记为y,将剩下的负样本记为损失函数如下定义:
[0195][0196]
其中平衡因子和y分别为负样本和正样本的数量;
[0197]
使用adam优化器来最小化损失函数(adam优化器是深度学习中常用的一种优化器,adam优化器可以根据历史梯度的震荡情况和过滤震荡后的真实历史梯度对变量进行更新,可以解决梯度稀疏的问题)mahgnn模型分为两个隐藏层,该框架参数涉及如下:第一层隐藏层嵌入维数k1,第二层隐藏层嵌入维数k2,优化器初始学习率lr,注意力机制卷积核大小α,迭代次数μ。其中,本实施例中的参数取值如下:k1=266,k2=128,lr=0.002,α=3
×
1,μ=4000。
[0198]
由于实验证实的关联的数量比药物-疾病对的数量要少得多,又因为不同的药物-疾病数据集的稀疏性不一致;采用带权重的二元交叉熵作为损失函数来平衡正负样本比例,提高模型的计算精度,进而提高对药物和疾病关联的准确度,并使得模型的鲁棒性进一步提高。
[0199]
通过构造6种关系网络g
dr
,gr,gd,g
dp
,g
rp
,g
p
,并结合超图卷积来加强药物和药物之间,药物和疾病之间,疾病和疾病之间的信息传递。首先通过g
dr
,gr,gd,g
dp
,g
rp
,g
p
,并把药物和疾病的相似性特征当作初始特征并结合注意力机制计算得到的来聚合6种多关系网络学习得到药物和疾病的域内更新特征这样使得学习得到的特征信息包含了丰富的生物特性,对预测药物-疾病的关联提供了极大的帮助,并取得良好的效果。
[0200]
实施例二:
[0201]
一种基于超图卷积神经网络的药物重定位系统,所述系统包括计算机可读介质,所述计算机可读介质内存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述的基于超图卷积神经网络的药物重定位方法步骤。
[0202]
实施例三:
[0203]
本实施例采用实施例一中的一种基于超图卷积神经网络的药物重定位方法,通过使用该种方法内嵌的mahgnn模型与现有技术中的其他模型相比较,比较结果如下:
[0204]
在10倍交叉验证过程中,随机选取数据集中10%的已知药物-疾病关联对和10%的随机未知药物-疾病关联对作为测试集;其余10%临床报告的药物-疾病关联对和未知的药物-疾病关联对用于训练模型。考虑到交叉验证可能存在的数据偏差,每个模型重复测试5次,以获得一个平均结果。所有方法的性能如表2以及图9、图10所示。
[0205]
表2 mahgnn其它方法+药物-疾病关联在t1,t2数据集下的十倍交叉验证对比
[0206][0207]
其中,请参考表2和图9、图10,mahgnn在两个数据集(t1、t2)上获得了最高的aupr,auc,其中在t2数据集上mahgnn的性能明显优于其他6种模型,mahgnn得到的最终平均auc为0.962,比第二优方法drhgcn分别高出2.4%,最终平均aupr为0.490,比第二优方法bnnr分别高出3.2%。
[0208]
通过比较验证mahgnn模型预测新的疾病关联对应药物的能力(即对新疾病没有药物关联信息):
[0209]
首先取出10%的疾病节点作为测试集,对于集合中的每一种疾病,删除所有已知的与该疾病相关的药物-疾病关联,并把剩余的90%的疾病节点对应的已知药物-疾病关联作为训练集,该方法确保在测试样本中的疾病节点是未知的新节点。对每个模型重复测试5次,以获得一个平均结果。对应结果以及roc曲线如表3和图11-图12可知。
[0210]
表3 mahgnn在t1,t2数据集下与其他方法的新疾病关联预测结果对比
[0211]
[0212][0213]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。