一种基于多任务学习和深度跨域的药物重定位方法及系统

文档序号:34860099发布日期:2023-07-23 06:23阅读:142来源:国知局
一种基于多任务学习和深度跨域的药物重定位方法及系统

本发明涉及计算生物学,更具体的,涉及一种基于多任务学习和深度跨域的药物重定位方法及系统。


背景技术:

1、药物重定位是指通过预测药物—靶点的相互作用和药物—疾病的关联,实现“老药新用”[1]目前大多数的研究可分别归类为“以靶点为中心”和“以疾病为中心”的方法。传统的制药方法中,据东方研究集团(erg)统计,开发一种候选药物通常需要10—15年的时间和8—15亿美元的资金,平均成功率低于10%[2]。而使用药物重定位的方法能极大地提高效率和安全性,因为已被药物监管部门批准的药物安全性和药代动力学等不确定性显著减小[3]。因此采用药物重定位的方法能够更加显著地加快药物的研究进程,节约成本,具有重要的应用价值和研究意义。

2、现有技术有一种“以靶点为中心”的药物重定位方法,在“以靶点为中心”的药物重定位方法中,luo等人通过采用无监督的方法从异构网络中学习药物和靶点的低维向量表示,然后采用矩阵补全的方法预测新的药物—靶点关联对[4]。liu等人提出了一种使用异构网络进行药物—靶点相互作用预测的图自编码器方法gadti,该方法结合了随机游走、图卷积神经网络和矩阵分解[5]。

3、现有技术有一种“以疾病为中心”的药物重定位方法,在“以疾病为中心”的药物重定位方法中,jarada等人通过集成了相似性度量、相似选择、相似网络融合(snf)和集体变分自编码器(cave)进行非线性分析,提高了药物—疾病关联预测的准确性,该方法称为snf—cvae[6]。此外,xuan等人提出了基于cnn和双向lstm的药物重定位方法,该方法使用cnn模块从药物—疾病关联矩阵中学习药物和疾病的原始表示,用于预测药物—疾病关联[7]。

4、但以上的模型没有考虑多任务学习,即没有将药物—靶点相互作用的预测和药物—疾病关联预测两项任务统一起来,而是单独针对药物—靶点相互作用进行预测或对药物—疾病关联进行预测。一方面,药物与细胞中的靶标相互作用以调节靶标活性,从而改变生物途径以促进功能恢复并治疗疾病。另一方面,药物—疾病预测、药物—靶点预测和疾病—基因预测是三个密切相关的任务,仅单独研究其中一个任务难以全面地揭示药物的潜在作用机制。此外,对于新的药物和疾病出现,仅从单个任务进行研究难以取得良好的预测性能,因为这相当于推荐系统中的“冷启动”问题。

5、综上所示,针对现有技术没有将药物—靶点相互作用的预测和药物—疾病关联预测两项任务统一,导致预测效果差的问题,如何发明一种引入多任务学习和图神经网络的药物重定位方法,实现统一地预测药物—靶点相互作用和药物—疾病关联,是本技术领域亟需解决的技术问题。

6、参考文献:

7、[1]jourdan j p,bureau r,rochais c,et al.drug repositioning:a briefoverview[j].journal of pharmacy and pharmacology,2020,72(9):1145-1151.

8、[2]wong h h,jessup a,sertkaya a,et al.examination of clinical trialcosts and barriers for drug development final[j].office of the assistantsecretary for planning and evaluation,us department of health&human services,2014.

9、[3]pushpakom s,iorio f,eyers p a,et al.drug repurposing:progress,challenges and recommendations[j].nature reviews drug discovery,2019,18(1):41-58.

10、[4]luo y,zhao x,zhou j,et al.a network integration approach fordrug—target interaction prediction and computational drug repositioning fromheterogeneous information[j].nature communications,2017,8(1):1—13.

11、[5]liu z,chen q,lan w,et al.gadti:graph autoencoder approach for dtiprediction from heterogeneous network[j].frontiers in genetics,2021,12:650821.

12、[6]jarada t n,rokne j g,alhajj r.snf–cvae:computational method topredict drug–disease interactions using similarity network fusion andcollective variational autoencoder[j].knowledge-based systems,2021,212:106585.

13、[7]xuan p,ye y,zhang t,zhao l,sun c.convolutional neural network andbidirectional long short—term memory—based method for predicting drug—disease associations.cell.2019;8(7):705.

14、[8]chen h,cheng f,li j.idrug:integration of drug repositioning anddrug—target prediction via cross—network embedding[j].plos computationalbiology,2020,16(7):e1008040.

15、[9]zitnik,m.et al.biosnap datasets:stanford biomedical networkdataset collection.http://snap.stanford.edu/biodata.2018.


技术实现思路

1、本发明为了解决现有技术没有将药物—靶点相互作用的预测和药物—疾病关联预测两项任务统一的问题,提供了一种引入多任务学习和图神经网络的药物重定位方法及系统,其具有准确、鲁棒性强的特点。

2、为实现上述本发明目的,采用的技术方案如下:

3、一种基于多任务学习和深度跨域的药物重定位方法,包括以下步骤:

4、s1.收集具有“靶点节点—药物节点—疾病节点”三元关系的数据并构成数据集;在数据集中,药物节点分别连接疾病节点、靶点节点,构成“药物—靶点”域和“药物—疾病”域;将“药物—疾病”域作为目标域,“药物—靶点”域作为辅助域;在目标域,构建原始的药物相似度矩阵、原始的疾病相似度矩阵,并根据已知的药物、疾病的关联构建药物—疾病关联矩阵;在辅助域,构建原始的药物相似度矩阵、原始的靶点相似度矩阵,并根据已知的药物、靶点的相互作用构建药物—靶点关联矩阵;并构建了目标域药物、疾病节点的k近邻相似度矩阵及辅助域药物、靶点节点的k近邻相似度矩阵;

5、s2.将目标域和辅助域的原始的相似度矩阵输入特征提取网络中进行特征提取;具体为:通过特征提取网络对目标域的原始的药物相似度矩阵、原始的疾病相似度矩阵进行降维,得到目标域特征矩阵;通过特征提取网络对辅助域的原始的药物相似度矩阵、原始的靶点相似度矩阵进行降维得到辅助域特征矩阵;

6、s3.根据药物—疾病关联矩阵及目标域药物、疾病节点的k近邻相似度矩阵、药物—靶点关联矩阵及辅助域药物、靶点节点的k近邻相似度矩阵,构建目标域邻接矩阵、辅助域邻接矩阵;根据目标域邻接矩阵、辅助域邻接矩阵,分别对目标域和辅助域搭建两层的图注意力神经网络;将目标域特征矩阵输入目标域的图注意力神经网络,提取深层次的目标域特征向量;将辅助域特征矩阵输入辅助域的图注意力神经网络,提取深层次的辅助域特征向量;

7、s4.对深层次的目标域特征向量和辅助域特征向量进行数据增强,利用多头自注意力机制计算权重参数,以加权求和的方式对增强后的深层次的目标域特征向量和辅助域特征向量进行融合,实现深度跨域融合;

8、s5.设置目标域和辅助域的图注意力神经网络的损失函数,对图注意力神经网络进行多任务学习,迭代更新图注意力神经网络的参数;

9、s6.迭代更新后使用内积解码器对得到的深度跨域融合后的特征向量进行解码,输出最终预测的药物—疾病关联矩阵,完成药物重定位。

10、首先的,所述的步骤s1中:

11、若收集的数据中包括有原始的药物相似度矩阵、原始的疾病相似度矩阵、原始的靶点相似度矩阵,则直接使用;

12、若不含有相似度矩阵,则按照以下方法进行计算:

13、根据数据集中药物的化学结构smiles编码信息,使用tanimoto相似性计算方法进行计算,构建原始的药物相似度矩阵;

14、根据数据集中靶点的蛋白质序列信息,使用smith—waterman相似性计算方法进行计算,构建原始的靶点相似度矩阵;

15、根据数据集中疾病的语义信息,计算描述疾病的mesh术语之间的语义相似性,构建原始的疾病相似度矩阵。

16、进一步的,所述的步骤s1中,并构建了目标域药物、疾病节点的k近邻相似度矩阵及辅助域药物、靶点节点的k近邻相似度矩阵,具体为:

17、分别构建目标域的药物、疾病、辅助域药物和靶点的k近邻相似度矩阵

18、计算k邻近相似矩阵s′ij的方法如下:

19、

20、其中,n(i)代表节点i的k近邻集合,sij为节点i和节点j的相似度矩阵,i和j为节点序号;

21、所述的步骤s3中,分别根据药物—疾病关联矩阵、目标域药物和疾病节点的k近邻相似度矩阵及药物—靶点关联矩阵、辅助域药物和靶点节点的k近邻相似度矩阵,构建目标域邻接矩阵、辅助域邻接矩阵,得到目标域邻接矩阵adj1、辅助域邻接矩阵adj2:

22、其中,yd为药物—疾病关联矩阵,ye为药物—靶点关联矩阵,其中m1为目标域药物节点的数量;n1为疾病节点的数量,m2为辅助域药物节点的数量,n2为靶点节点的数量。

23、更进一步的,所述的步骤s2中,所述的特征提取网络由两层全连接神经网络组成;

24、第一层网络的输入维度为节点原始特征的维度,即相似矩阵的列数,输出维度为512,选用relu激活函数进行非线性激活;第二层网络的输入维度为512,输出维度为128;经过特征提取后,分别得到目标域药物、疾病、辅助域药物和靶点的降维之后的特征矩阵将(xd)mlp、(xd)mlp作为目标域特征矩阵;(xe)mlp、(xe)mlp作为辅助域特征矩阵。

25、更进一步的,所述的步骤s3,具体为:

26、设目标域的两层的图注意力神经网络为g1;设辅助域的两层的图注意力神经网络为g2,设置输出的特征维度fout,并设置多头注意力的数目ngat,使用elu激活函数进行非线性激活;图网络使用目标域和辅助域邻接矩阵作为图的存储,并将辅助域特征矩阵和目标域特征矩阵作为图神经网络的节点特征输入;图神经网络对节点特征进行更新,分别得到目标域药物和疾病的更深层次的特征矩阵并分别得到辅助域药物和靶点的更深层次的特征矩阵

27、更进一步的,图神经网络对节点特征进行更新,具体步骤为:

28、s301.使用自注意力机制计算节点i和节点j之间的注意力系数αij:

29、

30、其中leakyrelu为激活函数,||表示拼接操作,w为权重矩阵,a表示参数化的更深层次的特征向量,n(i)表示节点i的邻居节点;

31、s302.根据注意力系数,得到节点特征的更新公式:

32、

33、其中,为输出的更深层次的特征向量;

34、s303.使用多头注意力机制,使用ngat个独立的注意力机制对节点特征的更新公式进行转换,从而将节点特征连接起来得到最终的输出的更深层次的特征向量:

35、

36、其中,表示第n个通过注意力机制计算得到的归一化注意力系数,wn表示相应输入的线性变换矩阵。

37、更进一步的,所述的步骤s4中,通过自注意力计算,对增强后的深层次的目标域特征向量和辅助域特征向量进行融合,实现深度跨域融合,具体为:

38、将目标域特征向量和辅助域特征向量分别经过一次线性变换映射到同一分布;

39、对于只存在于目标域的药物节点,则保留其自身的特征向量,不进行特征融合;对于目标域和和辅助域共同存在的药物节点,将目标域的药物节点的特征向量通过加权求和的方式融合辅助域中药物节点的特征向量,得到深度跨域融合后的特征;其中,加权求和的权重通过多头自注意力进行计算。

40、更进一步的,多头自注意力使用缩放点积注意力,具体为:

41、用分别表示目标域第i个药物和辅助域第j个药物经过图注意力神经网络后生成的特征向量,药物j与药物i为相同的药物;将特征向量按照多头注意力的数目n分成的形式;

42、a1.计算缩放点积注意力的方式如下:

43、目标域药物与辅助域药物的注意力

44、目标域药物与其自身的注意力

45、其中,d是一个比例因子,d=fout*ngat/n;

46、a2.计算得到的目标域第i个药物节点对于其自身的注意力系数对于辅助域药物节点的注意力系数

47、目标域药物经过加权组合得到药物的特征向量

48、其中,

49、a3.将目标域药物特征向量更新为xd′,得到深度跨域融合后的特征。

50、更进一步的,所述的步骤s5中,设置目标域和辅助域的图注意力神经网络的损失函数,对图注意力神经网络进行多任务学习,具体步骤为:

51、s501.目标域和辅助域的图注意力神经网络的损失函数中同时设置目标域和辅助域的损失,从而进行多任务学习:

52、将目标域的损失函数设置为:

53、

54、将辅助域的损失函数设置为:

55、

56、其中,tr(·)为矩阵的求迹操作,||·||f为f范数,⊙为矩阵对应元素相乘,α为网络平滑项正则化系数,β为特征向量正则化系数;ds为相似度矩阵s的度矩阵;

57、s502.目标域权重矩阵辅助域权重矩阵负样本的权重设置为w,正样本的权重设置为1;将目标域权重矩阵辅助域权重矩阵负样本的权重设置为w,正样本的权重设置为1;使用pagerank算法对药物节点的中心性进行度量,得到药物节点的重要性系数矩阵w′并进行归一化;目标域药物节点的重要性系数矩阵辅助域药物节点的重要性系数矩阵赋予不同药物节点不同的权重,将权重矩阵变为:

58、w1=w1*w′1,w2=w2*w′2

59、s503.为损失函数中辅助域损失设置小权重;同时将目标域和辅助域的相同药物的特征向设置为尽量相似;将最终的损失函数设置为:

60、min lossdd+τ·lossde+γ·

61、exp(-(cosine_similarity((xd′)com,(xe)com)))。

62、一种基于多任务学习和深度跨域的药物重定位系统包括数据输入层、特征提取层、图注意力神经网络层、数据增强和特征融合层、预测层;

63、所述的数据输入层用于收集具有“靶点节点—药物节点—疾病节点”三元关系的数据并构成数据集;在数据集中,药物节点分别连接疾病节点、靶点节点,构成“药物—靶点”域和“药物—疾病”域;将“药物—疾病”作为目标域,“药物—靶点”域作为辅助域;在目标域,构建原始的药物相似度矩阵、原始的疾病相似度矩阵,并根据已知的药物、疾病的关联构建药物—疾病关联矩阵;在辅助域,构建原始的药物相似度矩阵、原始的靶点相似度矩阵,并根据已知的药物、靶点的相互作用构建药物—靶点关联矩阵;并构建了目标域药物、疾病节点的k近邻相似度矩阵及辅助域药物、靶点节点的k近邻相似度矩阵;

64、所述的特征提取层用于将目标域和辅助域的原始的相似度矩阵输入特征提取网络中进行特征提取;具体为:通过特征提取网络对目标域的原始的药物相似度矩阵、原始的疾病相似度矩阵进行降维,得到目标域特征矩阵;通过特征提取网络对辅助域的原始的药物相似度矩阵、原始的靶点相似度矩阵进行降维得到辅助域特征矩阵;

65、所述的图注意力神经网络层用于根据药物—疾病关联矩阵及目标域药物、疾病节点的k近邻相似度矩阵、药物—靶点关联矩阵及辅助域药物、靶点节点的k近邻相似度矩阵,构建目标域邻接矩阵、辅助域邻接矩阵;根据目标域邻接矩阵、辅助域邻接矩阵,分别对目标域和辅助域搭建两层的图注意力神经网络;将目标域特征矩阵输入目标域的图注意力神经网络,提取深层次的目标域特征向量;将辅助域特征矩阵输入辅助域的图注意力神经网络,提取深层次的辅助域特征向量;设置目标域和辅助域的图注意力神经网络的损失函数,对图注意力神经网络进行多任务学习,迭代更新图注意力神经网络的参数;

66、所述的数据增强和特征融合层用于对深层次的目标域特征向量和辅助域特征向量进行数据增强,利用多头自注意力机制计算权重参数,以加权求和的方式对增强后的深层次的目标域特征向量和辅助域特征向量进行融合,实现深度跨域融合;

67、所述的预测层用于使用内积解码器对得到的深度跨域融合后的特征向量进行解码,输出最终预测的药物—疾病关联矩阵,完成药物重定位。

68、本发明的有益效果如下:

69、本发明公开了一种基于多任务学习和深度跨域的药物重定位方法,通过将药物—靶点相互作用预测和药物—疾病关联预测统一起来,运用多任务学习实现深度跨域,使得两个域的生物信息能够相互传递,从而提升模型的性能。由此,本发明解决了现有技术没有将药物—靶点相互作用的预测和药物—疾病关联预测两项任务统一的问题,提供了一种引入多任务学习和图神经网络的药物重定位方法及系统,其具有准确、鲁棒性强的特点。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1