本发明属于生物医学,尤其涉及一种ncrna-疾病-药物潜在关联度预测方法。
背景技术:
1、传统的药物研发基于生化实验,周期漫长、成本高昂,且面临很高的失败风险。基于医学、生化科学、计算机科学等多学科交叉融合的网络医学应运而生,通过挖掘海量生物医药数据构建生物信息网络,并利用人工智能技术预测网络中的潜在药物关联,从而加速疾病诊断和药物研发流程。其中,预测潜在的疾病-药物关联、ncrna-疾病关联和ncrna-药物关联都是十分重要且热门的研究应用方向,基于人工智能技术的关联预测模型可以提升药物筛选的速度和准确性,帮助研究人员快速获取药物靶向信息,加快推进药物研发流程。
2、目前,常见的关联预测模型主要分为两类:基于网络方法和基于机器学习方法。基于网络方法的预测模型利用生物信息网络中节点的邻域信息和同类节点间的相似性,去计算节点间的关联分数,例如基于k最相似邻居的hdmp、基于随机游走的rwrmda和基于相似性度量的predict。随着生物医药数据的不断发掘,生物信息网络的不断扩大,基于网络方法的模型不能准确高效地满足预测任务,而结合机器学习的模型可以有效解决这个问题,并在特征提取和预测性能上取得一定的提升。基于机器学习方法的模型既有支持向量机(svm)、随机森林(rf)、奇异值分解(svd)等传统算法,也有卷积神经网络(cnn)、图神经网络(gnn)、图卷积神经网络(gcn)、图注意力网络(gat)等深度学习算法。
3、但是,目前的关联预测模型存在以下两个不足:(1)模型预测任务单一,只能预测一种关联,例如ncrna-疾病关联或药物-疾病关联,因而无法有效集成多样的生物数据,导致泛化能力较弱。(2)由于关联网络是稀疏的,所以在单一关联的二分网络上进行训练无法准确捕捉节点和潜在关联的全局特征,导致模型对于潜在关联度的预测性能不足。
技术实现思路
1、为解决上述技术问题,本发明提出了一种ncrna-疾病-药物潜在关联度预测方法,以解决上述现有技术存在的问题。
2、为实现上述目的,本发明提供了一种ncrna-疾病-药物潜在关联度预测方法,包括:
3、获取ncrna、疾病及药物的相关数据,其中所述相关数据包括ncrna数据、疾病数据及药物数据、关联数据、相似性数据及高斯相似性数据;
4、根据所述相关数据,构建异构生物网络的特征矩阵;
5、基于图注意力网络构建深度学习模型,通过特征矩阵对所述深度学习模型进行训练,得到训练好的深度学习模型;
6、获取待预测关联度的ncrna、疾病及药物的待预测数据,将所述待预测数据转换为待预测矩阵,通过训练好的深度学习模型对待预测矩阵进行预测,得到待预测关联度的ncrna、疾病及药物的潜在关联度。
7、可选的,所述高斯相似性数据通过高斯相互作用轮廓核对所述ncrna、疾病及药物的相关数据计算获取。
8、可选的,所述异构生物网络为包含网络节点与用于表征网络节点存在连接的边的图数据,所述异构生物网络的每个网络节点分别对应一个ncrna、疾病或药物,所述异构生物网络的边的类型包括关联、相似性和高斯相似性;所述异构生物网络的基本网络数据为相关数据,根据所述基本网络数据构建特征矩阵;其中所述特征矩阵包括:ncrna、疾病及药物的节点特征矩阵、关联矩阵、相似性矩阵及高斯相似性矩阵。
9、可选的,所述关联矩阵的构建过程包括:
10、对所述关联数据进行邻接矩阵的构建,得到关联矩阵:
11、
12、其中,基于关联数据,如果异构生物网络中的第i个网络节点和第j个网络节点之间有关联的话,在关联矩阵中,第i个和第j个网络节点对应的关联矩阵中矩阵元素a(i,j)设为1,其对应元素位置为第i行第j列,否则为0,其中i,j表示网络节点不同的标号。
13、可选的,所述相似性矩阵的构建过程包括:
14、对所述关联数据进行对称矩阵的构建,得到关联矩阵:
15、其中,基于相似性数据,如果第i个网络节点和第j个网络节点之间有相似性的话,在相似度矩阵,第i个和第j个网络节点对应的相似度矩阵中矩阵元素s(i,j)设为相似性分数,其对应位置为第i行第j列,否则设为0。
16、可选的,所述高斯相似性矩阵的构建过程包括:
17、根据ncrna-疾病关联数据和ncrna数据计算ncrna之间的高斯相似性矩阵:
18、
19、其中,r-di代表ncrna-疾病关联,下标r-r代表ncrna之间,表示在基于ncrna-疾病关联的ncrna之间的高斯相似性矩阵中,第i个和第j个网络节点对应的矩阵元素,||·||是求节点数量的操作,ar-di是ncrna-疾病关联矩阵,ar-di(m,n)2表示第m个网络节点和第n个网络节点对应ncrna-疾病关联矩阵中矩阵元素,是高斯核的带宽,r表示ncrna数据、di表示疾病数据;
20、根据ncrna-疾病关联数据和疾病数据计算疾病之间的高斯相似性矩阵:
21、
22、
23、其中,表示在基于ncrna-疾病关联的ncrna之间的高斯相似性矩阵中,第i个和第j个网络节点对应的矩阵元素;
24、根据疾病之间的高斯相似性矩阵和ncrna之间的高斯相似性矩阵的计算方式分别计算得到基于ncrna-药物关联的ncrna之间的高斯相似性矩阵和药物之间的高斯相似性矩阵基于疾病-药物关联的疾病之间的高斯相似性矩阵和药物之间的高斯相似性矩阵
25、对基于关联数据的同一数据类型的高斯相似性矩阵分别进行均值计算,得到,ncrna高斯相似性矩阵、疾病高斯相似性矩阵及药物高斯相似性矩阵:
26、
27、
28、
29、其中,gsr-r表示ncrna高斯相似性矩阵,gsdi-di表示疾病高斯相似性矩阵,gsdr-dr表示药物高斯相似性矩阵。
30、可选的,深度学习模型依次包括输入层、归一化层、两个依次连接的gat层和输出层,其中gat层采用图注意力网络结构。
31、与现有技术相比,本发明具有如下优点和技术效果:
32、本发明提出了一种ncrna-疾病-药物潜在关联度预测方法。该方法集成了ncrna-疾病-药物的关联数据及其相似性信息,构建了一个异构生物网络,结合多任务学习策略和图注意力网络(gat),能够有效提取节点和关联的特征信息,同时准确地预测三种关联(ncrna-疾病关联、ncrna-药物关联和药物-疾病关联),显著提升了模型的对于多种信息关联的泛化能力和上述潜在关联度的预测性能。具体的:
33、(1)本发明基于图注意力网络和多任务学习策略,聚合了多样的生物医学数据,构建了一个复杂的异构生物信息网络,包括三种生物节点、三种关联、三种相似性和三种高斯相似性。
34、(2)本发明搭建了异构的图注意力网络模型hbnmm,通过消息传递和特征聚合机制有效地学习了每个节点和每条边的特征,获得了每个节点的特征向量。
35、(3)基于多任务学习策略,所述模型hbnmm能够同时预测三种不同的潜在关联:ncrna-疾病、ncrna-药物和药物-疾病。相较于已有技术,本发明展现了优异的预测性能和较强的泛化能力,可以为医学研究、药物发现和疾病治疗做出贡献。