基于图表示多任务学习的代谢动力学及毒性预测方法

文档序号:34643922发布日期:2023-06-29 17:33阅读:43来源:国知局
基于图表示多任务学习的代谢动力学及毒性预测方法

本发明属于图表示学习辅助先导化合物优化,具体涉及为一种基于图表示多任务学习的代谢动力学及毒性预测方法。


背景技术:

1、药物的发现和开发,特别是大量基于动物实验室的测试和实验的数据,占用了很长的时间和大量的成本。不理想的药代动力学(pk)特性或较高的毒性是候选药物在临床试验阶段失败的主要原因。因此,在药物开发的早期阶段通过计算方法特别是人工智能(ai)技术进行吸收、分布、代谢、排泄和毒性(adme-tox)研究,有助于降低新药开发的成本,提高成功率。

2、近年来,基于计算方法预测化合物adme-tox取得了很大的进展。总的来说,大多数方法,特别是机器学习和深度学习模型,已经被证明可以有效地分析当前大量的adme-tox数据,传统的机器学习(ml)算法模型,如多元线性回归(mlr)、随机森林(rf),被普遍用于构建adme-tox预测。虽然以前基于机器学习的方法需要大量可靠的专业知识来设计特征,但在分子结构和adme-tox数据方面的专业知识往往是不充分和主观的。

3、随着adme-tox数据的增加和深度学习(dl)技术的发展,特别是图神经网络(gnn)的发展,adme-tox预测的性能比传统的机器ml有了很大的提高。一般来说,这些方法对adme-tox端点数据进行单独建模。在这种情况下,多任务学习(mtl)可能是一个很好的解决方案,可以利用从相关adme-tox端点学到的信息。mtl的目的是通过联合学习多个相关任务来提高预测的准确性。

4、近几年来,得益于图表示学习算法的快速发展及其在其它领域成功应用,通过adme-tox的研究积累也促进了深度学习在先导化合物优化的应用前景,诸如药物此类的结构型数据可以被图神经网络进行自动特征提取。这些结构化的深度学习模型结合多层神经网络被成功应用在药物设计领域中。然而,尽管在adme-tox预测方面科研人员做出了非常大的努力,取得了显著的成就,但是在实际工作中仍然存在着不小的挑战,主要表现在以下几方面:

5、1)当多任务学习不能建立一个可以推广到所有任务的共享表征时,它也可能导致严重的性能下降。此外,现有的基于mtl的adme-tox方法忽略了对任务关系建模的影响。

6、2)对adme(吸收、分布、代谢、排泄)的可解释性不足,目前的方法主要关注毒性(tox)终点的解释,而很少关注adme终点的解释。实际上,大多数adme终点通常与某些化合物亚结构的存在有关。

7、鉴于此,有必要设计一种新的预测方法。


技术实现思路

1、本发明的目的在于解决现有技术所存在的不足之处,而提供了一种基于图表示多任务学习的代谢动力学及毒性预测方法。

2、本发明的构思:

3、提出一个基于图表示多任务学习的模型,即mtl-admetox。通过训练单个和成对的任务,建立了一个任务间关联网络;然后,利用有向图的状态理论和最大流策略为每个任务收集近似的辅助任务;最后,为了训练主任务和它的辅助任务,采用上述图表示多任务学习模型,包括特定任务的分子特征模块、以主要任务为中心的门控模块及任务预测器模块。

4、鉴于上述发明构思,本发明为实现发明目的所提供的技术解决方案是:

5、基于图表示多任务学习的代谢动力学及毒性预测方法,其特征在于,包括以下步骤:

6、1)构建adme-tox预测模型mtl-admetox

7、adme-tox预测模型mtl-admetox自输入至输出包括分子特征模块、门控模块(用于进行特征的融合)以及任务预测器模块;

8、所述分子特征模块用于获得分子特征,包括两层图卷积网络层gcn以及任务特定的注意力层(注意力层用来学习化合物的特定任务分子表征,以从相同的原子表征中产生不同的分子表征);

9、所述任务预测器模块采用全连接神经网络层;

10、2)采集样本数据,对步骤1)构建的adme-tox模型进行训练

11、2.1)采集药物分子的结构信息以及其对应的adme-tox的类型信息,构建训练数据集、验证数据集及测试数据集;

12、2.2)将步骤2.1)获得数据中涉及药物分子的smiles(简化分子线性输入规范,simplified molecular input line entry specification)序列信息转换为化合物图,得到化合物结构数据;

13、2.3)利用步骤2.1)中所采集得到的药物分子对应的adme-tox的类型信息及步骤2.2)中得到的化合物结构数据作为输入,执行以下步骤:

14、首先,依次进行单任务和双任务的训练,并计算任务间相互影响,得到(反映)任务间的相互作用关系,采用两个单任务和双任务图学习方法之间的性能差异程度作为任务间效应的衡量标准,为每个任务挑选各自的辅助任务,建立一个任务间关联网络图;

15、其次,利用有向图的状态理论和最大流策略为每个任务挑选有效的辅助任务组合;

16、这两步主要就是为了给主要任务选择最佳的辅助任务组合,以两个单一任务和双任务图学习方法之间的性能差异程度作为任务间效应的衡量标准;其中,主要任务的最佳任务组合需要满足端点间的结构平衡,而且需要在传递性三边中传递给主要任务,之后,收集主要任务的所有促进任务以加强主要任务的稳定性和提高性能,此外,把所有的促进任务放在一起不一定能优化主任务的性能,因此,需要根据训练结果选择辅助任务的最佳组合。

17、最后,将每个主任务及其辅助任务组合中辅助任务对应的信息和数据共同作为输入通过分子特征模块得到主任务及辅助任务的分子特征;

18、2.4)通过门控模块将辅助任务的分子特征分别与主任务的分子特征进行融合,并相加,得到主任务的最终分子特征;

19、2.5)采用全连接层神经网络层对步骤2.3)得到的辅助任务分子特征和2.4)中得到的主任务最终分子特征进行预测输出特征向量;

20、2.6)利用交叉熵损失函数计算步骤2.5)得到的输出特征向量与原始标签之间的损失,再通过负反馈调节更新adme-tox预测模型中可训练的参数,经过多次训练后得到最终adme-tox预测模型;

21、3)利用步骤2)训练好的adme-tox预测模型,对药物分子的adme-tox进行预测。

22、进一步地,步骤2.2)具体为:

23、使用开源化学工具箱rdkit将smiles序列转换为原子之间的相互作用图;化合物图被表示为g=(v,e),其中v是n个节点的集合,e是边的集合;

24、此处,每个节点是一个多维的二进制特征向量,表达了原子符号、度、电荷、芳香度及相邻氢的数量结构中的信息。

25、进一步地,步骤2.3)中,单任务和双任务的训练均指通过adme-tox预测模型mtl-admetox中分子特征模块和全连接神经网络层进行的训练;

26、任务间相互影响则是通过单任务与双任务训练结果的差值计算得到。

27、进一步地,步骤2.3)中,

28、图卷积网络层gcn为半监督节点分类设计的,其基本思想是通过节点之间的信息传播来更新节点的表示;多层图卷积网络层gcn的层级传播规则如下:

29、

30、其中,为添加自连接的无向图的邻接矩阵,a∈rn×n是表示e的邻接矩阵;in是单位矩阵,σ(·)为激活函数,和w(l)是一层特定的可训练权矩阵;分层卷积操作可以近似如下:

31、

32、其中,q为过滤器或特征映射,b为粗粒度类别,为节点输出;

33、任务特定的注意力层表示如下:

34、az=σ(wz·hc+bz)

35、其中,wz是权重矩阵,bz是注意力层中的偏置向量,在模型训练中学习,σ是激活函数(即sigmoid);hc是共享原子特征矩阵;因此,化合物c在任务tz中的最终特征可按以下形式计算:

36、

37、对于具体的主要任务tk和它的最佳辅助任务tz,tw...,经过多个注意力层,了解哪些子结构对提高主要任务至关重要,最后,得到主任务hk和辅助任务hz,hw...的分子特征。

38、进一步地,步骤2.4)中,

39、以主任务为中心的门控模块,以单层前馈网络(随机初始化输入)为基础,使用sofimax作为激活函数;得到主任务tk和辅助任务{tz,tw...}的加权和,这是门控网络中目标任务的输出;

40、具体地,tz中的门控网络对任务tk的输出表述如下:

41、

42、其中,是加权函数,通过线性变换、softmax层计算出主任务tk和辅助任务tz的权重向量;

43、

44、其中,h∈rd,d输入表示的维度,d’是门中dnn后输出表示的维度,是一个由向量组成的矩阵,包括主任务tk和辅助任务tz,

45、因此,主任务tk最终的表示为:

46、

47、进一步地,步骤2.6)中,每个任务都有一个独特的预测器,更好的学习特定任务的非线性表示,全连接神经网络层采用两层,分别为分类和回归指定损失;

48、

49、fc_k为主任务的全连接层,fc_w和fc_z为辅助任务的全连接层。

50、进一步地,步骤2.7)中,分类任务的交叉熵损失和回归任务的平均平方误差损失都被使用,定义如下:

51、

52、式中,yc和分别是化合物cn的真实标签和预测值(相对于分类任务tc),yr是cn的真实属性值(相对于回归任务tr),是相应的预测值,c是分类任务的数量,mc是分类任务中化合物的数量;r是回归任务的数量,mr是回归任务中化合物的数量;为了缓解分类任务中正负样本的不平衡,在损失函数中使用了一个权重pc,表示负样本的数量与正样本的数量之比。

53、同时,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于:所述计算机程序被处理器执行时实现上述方法的步骤。

54、一种电子设备,其特殊之处在于:包括处理器和计算机可读存储介质;所述计算机可读存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时执行上述方法的步骤。

55、本发明的优点是:

56、1.本发明提出了一种基于图表示多任务学习的代谢动力学及毒性预测方法预测模型,即mtl-admetox,通过构建吸收、分布、代谢、排泄及毒性表示来解决这些问题。mtl-admetox由特定任务的分子特征模块、以主要任务为中心的门控模块及任务预测器模块(即全连接神经网络层)构成,通过全连接层神经网络进行各个任务的预测。这个模型可以挖掘各个端点任务直接的潜在关系来提高模型的性能,同时也使得药物admetox分类及回归任务具有可解释性。此外,mtl-admetox提供了一种基于注意力的关键特征选择,以便更准确地预测admetox类型。在基准数据集上对mtl-admetox的评价表明,mtl-admetox具有较好的药物吸收、分布、代谢、排泄及毒性预测性能,本发明可以提供一个计算预测工具,推动先导化合物的优化。

57、2.本发明提出一个通过基于有效门的相关辅助任务的多任务图学习框架,即mtl-admetox,以筛选有效的正向辅助任务来共同训练目标任务并优化辅助任务的贡献。利用基于有效辅助任务的关系,设计基于多任务的图神经网络,研究基于吸收、分类、代谢、排泄及毒性预测方法,探索化合物子结构与adme的关联规律,它可以促进候选药物筛选或药物设计的发展。

58、3.本发明利用门控网络,获得主任务的特征及辅助任务的特征,由于增加了辅助任务的特征,模型的性能也能得到很好的改善,提高了预测的精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1