一种基于循环神经网络和多任务强化学习的药物分子生成与优化方法与流程

文档序号:30987800发布日期:2022-08-03 01:48阅读:251来源:国知局
一种基于循环神经网络和多任务强化学习的药物分子生成与优化方法与流程

1.本发明属于药物分子生成技术领域,具体涉及一种基于循环神经网络和多任务强化学习的药物分子生成与优化方法。


背景技术:

2.药物研发是一项投资大、周期长、风险高的高技术产业。一个药物从最初的发现到上市,再到进入临床为患者带来生存获益,都要经历大量、严格的数据验证,通常需要花费10~20年时间,投入金额高达5亿~26亿美元。
3.传统的分子设计通常需要专家知识来指导,这样可以保证设计分子的有效性,但是该方法严重依赖专家知识,设计的分子通常缺乏新颖性,限制了分子设计的空间。近年来,随着人工智能技术的不断发展,各种深度生成模型已经被引入药物分子的从头设计领域。这类模型大多是无规则的,完全可以以数据驱动的方式来训练,这样不仅减少了对专家知识的依赖,同时也可以帮助专家拓宽分子设计的思路,在10的60次方的化学空间中快速地生成特定靶点的药物分子化合物库,从而大幅提升新药研发的效率和降低成本。
4.一般地,生成的药物分子在保证合理有效性和新颖性的前提下,还需要满足特定的药化性质需求,比如满足基本的lipinski五原则等。近几年,基于深度学习方法的药物分子生成取得显著进展,目前常用的深度生成模型主要有循环神经网络(rnn)、生成对抗网络(gan)、变分自编码器(vae)和图神经网络(gnn)模型等。然而,由于分子化学空间的巨大和离散性,在这个巨大的空间中去快速搜索符合期望药化性质的化合物分子仍然是一个具有挑战的任务。通过穷举方法或者简单随机搜索算法在这个空间中寻找目标化合物分子是非常困难的。


技术实现要素:

5.针对上述现有技术中描述的不足,本发明提供一种基于循环神经网络和多任务强化学习的药物分子生成与优化方法。
6.本发明所采用的技术方案为:
7.一种基于循环神经网络和多任务强化学习的药物分子生成与优化方法,步骤为:
8.s1,获得先验知识分布:
9.构建有效药物分子库;
10.从已知的化合物数据库中按照设定的筛选条件筛选出化合物分子,并存储在有效药物分子库,所述有效药物分子库中药物分子以smiles表征;所述的筛选条件为期望的理化性质和类药分子筛选规则。期望的理化性质包括分子量、分子的重原子数量、辛水分配系数的对数值、分子结构中氢键受体和供体的数量、可旋转键的数量、体系中环的数量、限定的原子类型等中的一种或多种。
11.此处主要是根据给定的靶点按照所想要得到的药物分子的理化性质从已公开的
数据库中下载符合条件的化合物分子。
12.构建循环神经网络架构:
13.所述循环神经网络架构的输入为有效药物分子库中药物分子的smiles序列,输出为新生成药物分子的smiles序列;所述循环神经网络架构学习类药分子的分子表征和类药化学空间的分布;
14.所述的循环神经网络架构,包括3层循环神经网络;每层循环神经网络包含1024个门循环单元(gru),并且采用adam优化方法;建立的循环神经网络架构主要学习类药分子的分子表征和类药化学空间的分布。
15.所述的循环神经网络架构,在训练时可以自动捕捉到训练数据库中大量分子的化学结构特性并且利用学到的信息生成新颖有效的全新化合物分子。
16.先验训练:
17.将有效药物分子库中药物分子进行数据处理后按批次以嵌入向量形式输入到循环神经网络架构中循环训练,有效药物分子库中药物分子都被训练一次完成一个epoch训练;
18.所提到的数据处理,是将有效药物分子库中药物分子的smiles转换成循环神经网络可读取的数据,具体可以是将药物分子的smiles字符串的字符逐一按照字典转换为对应的数字,进而将药物分子的smiles转换为一个设定长度的数字列表;
19.然后将转换后的将进行数据转换后的数据集先转换为tensordataset类型,再转换为dataloader类型。
20.一个epoch训练时,每一批次的药物分子数据以嵌入向量形式输入到循环神经网络架构中,输出得到新生成的药物分子表征数据和药物化学空间分布;将当前批次的新药物化学空间分布与当前批次的原药物化学空间分布比对,判断当前循环神经网络架构的训练效果并优化更新循环神经网络架构的参数;
21.并根据循环神经网络架构的分子生成能力判断是否结束循环,最后一个epoch训练得到的循环神经网络架构作为最终循环神经网络架构,并且最后一个epoch训练得到的新药物化学空间分布作为先验知识分布;
22.所述的新药物化学空间分布,是最终循环神经网络新生成的所有药物分子表征数据的表征。
23.并且分子生成能力可以用生成分子的新颖性、多样性、有效性、骨架相似性和类药性中的一种或多种来表征。
24.先验训练后最终循环神经网络可以根据给定的化合物分子结构能够生成新的化合物分子以及对应的化学空间;
25.s2,采用无监督的强化学习优化搜索化学空间:
26.根据期望的药化性质设计强化学习网络的奖励函数;所述的药化性质包括分子对特定靶点的活性、分子的吸收、分布、代谢、排泄、毒性等性质中的一种或多种;
27.所述的强化学习网络是无监督且基于策略的强化学习网络;且所述先验知识分布作为强化学习网络的初始概率分布;
28.强化学习网络的智能体根据奖励函数和先验知识分布进行循环迭代,得到期望的化学空间;
29.所述的循环迭代可以是:智能体从当前时刻的概率分布中随机采样得到当前时刻的smiles序列,获取当前时刻smiles序列的奖励函数并传输给智能体,智能体作出决策并执行,得到下一时刻对应的smiles序列以及新的概率分布,智能体循环操作直至得到期望的概率分布,在循环过程中,如果智能体搜索到的概率分布收敛到一致,即智能体获得的当前时刻新的概率分布与上一时刻对应的概率分布相等,就可以判断智能体已经找到了期望的概率分布,这时候循环就可以停止了;所述期望的概率分布对应的化学空间就是期望的化学空间;并且所述的智能体采用循环神经网络构架。
30.无监督强化学习网络利用强化学习的优化搜索功能,根据期望分子的药化性质设计合理的混合奖励函数,对先验知识分布通过多轮的迭代搜索不断最大化该奖励函数,最终得到期望的化学空间,即既新颖有效又满足期望性质的化合物分子库。
31.s3,目标药物分子库的获取:
32.从期望的化学空间随机采样并依据设置的筛选条件筛选得到目标药物分子库。
33.具体是:从期望的化学空间随机采样并依据设置的筛选条件筛选得到目标药物分子库。
34.从期望的化学空间随机采样得到的smiles序列存入到采样库;
35.将采样库中的smiles序列还原为分子结构,并将有效分子结构存入待筛选库;
36.按照期望的理化性质从待筛选库中筛选出符合的药物分子并存入目标药物分子库中。
37.本发明充分利用循环神经网络提取有效药物分子的结构化学特征的优势,同时利用多任务强化学习将离散的药化性质设计成智能体的奖励函数,通过不断迭代探索高回报的概率分布,从而优化和缩小分子化学空间,最终从化学空间中采样出期望的分子结构并构建药物分子库。本发明结合循环神经网络和多任务强化学习,创新地自定义奖励函数以探索满足需求的全新分子,能够大幅度地降低全新药物分子的研发时间。
附图说明
38.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1为本发明的流程示意图。
具体实施方式
40.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
41.一种基于循环神经网络和多任务强化学习的药物分子生成与优化方法,如图1所示,步骤为:
42.s1,获得先验知识分布:
43.构建有效药物分子库;
44.从已知的化合物数据库中按照设定的筛选条件筛选出化合物分子,并存储在有效药物分子库,所述有效药物分子库中药物分子以smiles表征;所述的筛选条件为期望的理化性质和类药分子筛选规则。期望的理化性质包括分子量、分子的重原子数量、辛水分配系数的对数值、分子结构中氢键受体和供体的数量、可旋转键的数量、体系中环的数量、限定的原子类型等中的一种或多种。
45.此处主要是根据给定的靶点按照所想要得到的药物分子的理化性质从已公开的数据库中下载符合条件的化合物分子。
46.构建循环神经网络架构:
47.所述循环神经网络架构的输入为有效药物分子库中药物分子的smiles序列,输出为新生成药物分子的smiles序列;所述循环神经网络架构学习类药分子的分子表征和类药化学空间的分布;
48.所述的循环神经网络架构,包括3层循环神经网络;每层循环神经网络包含1024个门循环单元(gru),并且采用adam优化方法;建立的循环神经网络架构主要学习类药分子的分子表征和类药化学空间的分布。
49.所述的循环神经网络架构,在训练时可以自动捕捉到训练数据库中大量分子的化学结构特性并且利用学到的信息生成新颖有效的全新化合物分子。
50.先验训练:
51.将有效药物分子库中药物分子进行数据处理后按批次以嵌入向量形式输入到循环神经网络架构中循环训练,有效药物分子库中药物分子都被训练一次完成一个epoch训练;
52.所提到的数据处理,是将有效药物分子库中药物分子的smiles转换成循环神经网络可读取的数据,具体可以是将药物分子的smiles字符串的字符逐一按照字典转换为对应的数字,进而将药物分子的smiles转换为一个设定长度的数字列表;
53.然后将转换后的将进行数据转换后的数据集先转换为tensordataset类型,再转换为dataloader类型。
54.一个epoch训练时,每一批次的药物分子数据以嵌入向量形式输入到循环神经网络架构中,输出得到新生成的药物分子表征数据和药物化学空间分布;将当前批次的新药物化学空间分布与当前批次的原药物化学空间分布比对,判断当前循环神经网络架构的训练效果并优化更新循环神经网络架构的参数;
55.并根据循环神经网络架构的分子生成能力判断是否结束循环,最后一个epoch训练得到的循环神经网络架构作为最终循环神经网络架构,并且最后一个epoch训练得到的新药物化学空间分布作为先验知识分布;
56.所述的新药物化学空间分布,是最终循环神经网络新生成的所有药物分子表征数据的表征。
57.并且分子生成能力可以用生成分子的新颖性、多样性、有效性、骨架相似性和类药性中的一种或多种来表征。
58.先验训练后最终循环神经网络可以根据给定的化合物分子结构能够生成新的化合物分子以及对应的化学空间;
59.s2,采用无监督的强化学习优化搜索化学空间:
60.根据期望的药化性质设计强化学习网络的奖励函数;所述的药化性质包括分子对特定靶点的活性、分子的吸收、分布、代谢、排泄、毒性等性质中的一种或多种;
61.所述的强化学习网络是无监督且基于策略的强化学习网络;且所述先验知识分布作为强化学习网络的初始概率分布;
62.强化学习网络的智能体根据奖励函数和先验知识分布进行循环迭代,得到期望的化学空间;
63.所述的循环迭代可以是:智能体从当前时刻的概率分布中随机采样得到当前时刻的smiles序列,获取当前时刻smiles序列的奖励函数并传输给智能体,智能体作出决策并执行,得到下一时刻对应的smiles序列以及新的概率分布,智能体循环操作直至得到期望的概率分布,在循环过程中,如果智能体搜索到的概率分布收敛到一致,即智能体获得的当前时刻新的概率分布与上一时刻对应的概率分布相等,就可以判断智能体已经找到了期望的概率分布,这时候循环就可以停止了;所述期望的概率分布对应的化学空间就是期望的化学空间;并且所述的智能体采用循环神经网络构架。
64.无监督强化学习网络利用强化学习的优化搜索功能,根据期望分子的药化性质设计合理的混合奖励函数,对先验知识分布通过多轮的迭代搜索不断最大化该奖励函数,最终得到期望的化学空间,即既新颖有效又满足期望性质的化合物分子库。
65.s3,目标药物分子库的获取:
66.从期望的化学空间随机采样并依据设置的筛选条件筛选得到目标药物分子库。
67.具体是:从期望的化学空间随机采样并依据设置的筛选条件筛选得到目标药物分子库。
68.从期望的化学空间随机采样得到的smiles序列存入到采样库;
69.将采样库中的smiles序列还原为分子结构,并将有效分子结构存入待筛选库;
70.按照期望的理化性质从待筛选库中筛选出符合的药物分子并存入目标药物分子库中。
71.下面以某gpcr的小分子拮抗剂开发为例,对本发明进行进一步阐述。
72.针对某个已知的可成药gpcr靶点,我们期望找到一个化合物小分子,其理化性质满足类药分子的一些基本属性,并且能够和gpcr的活性口袋有很好的相互作用,即其对应的binding affinity(pic50 or pec50)尽可能高。
73.s1,从chembl数据库中下载公开数据集,并根据期望的理化性质以及一些类药分子筛选的规则,将chembl中百万级别的原始数据过滤筛选到60万左右,用这60万个的精选分子结构作为有效药物分子数据库。
74.所述的期望的理化性质以及一些类药分子筛选的规则,比如分子量在100到600,辛水分配系数的对数值(logp)不大于5,分子结构中氢键受体和供体的数量分别不超过12和7,分子中可旋转的键的数量不超过11个,体系中环的数量不超过6个,不允许除c、n、s、o、f、cl、br、h、b、i、p以外的元素出现在分子中等等。
75.s2,预训练
76.首先将步骤s1得到的有效药物分子数据库中的60万个分子结构输入到循环神经网络架构中进行训练,训练参数设置为:
77.参数参数值learning rate0.001(decay 0.03every 500steps)epochs30batch size128layers3gru1024optimizeradam
78.在完成30个epochs的迭代训练后,循环神经网络架构可以学习到smiles表征化合物分子的语法规则,建立隐含的映射关系,并逆向生成生成新的smiles序列。
79.最后一个epoch训练得到的新药物化学空间分布作为先验知识分布;
80.所述的新药物化学空间分布,是最终循环神经网络新生成的所有药物分子表征数据的表征。
81.并且分子生成能力可以用生成分子的新颖性、多样性、有效性、骨架相似性和类药性中的一种或多种来表征。
82.s3,无监督化学空间优化搜索
83.在本实例中,我们期望小分子和靶点口袋的binding affinity尽可能高。因此,我们首先收集这个靶点口袋已有实验活性数据(ic50 or ec50)的小分子,建立了一个简单的全连接神经网络预测模型,然后将预测模型的打分当作强化学习的奖励函数。
84.强化学习算法在探索化学空间时,当找到好的分子时会给出高的奖励反馈,而当找到差的分子时会给出惩罚低分,如此逐渐训练智能体不断做出优化的决策,并反馈到循环神经网络上调节分子生成器的网络层权重,最终不断接近小分子结合能高的化学空间,得到期望的化学空间。
85.s4,采样与分子过滤筛选
86.对期望的化学空间进行随机采样,将采样得到的smiles还原为分子结构,分子结构为有效结构的smiles为生成的有效分子,其后再通过多重理化性质过滤器,比如分子量在400到700范围内、符合lipinski五原则、不能含有一些有毒的子结构(mcfs)以及一些常见的假阳性的子结构(pains)等。
87.最终,通过筛选得到符合预期性质的10万个全新的化合物分子,其中大部分分子的预测活性可达纳摩尔级别(pic50~9),这些从头生成的分子可以作为针对该靶点的化合物分子库,帮助后续的苗头化合物筛选以及候选药物分子的开发。
88.本发明所提出的基于循环神经网络和多任务强化学习的药物分子生成与优化方法,就是针对疾病或靶点预设药效等对药物分子的期望属性,根据相关已有的药分子结构进行新药分子的设计,并且新药分子结构在生成训练时采用循环神经网络架构,该循环神经网络架构可以很好的学习到分子结构的结构化学性质,并且将药物分子与特定药物属性之间难以量化的关系映射到多任务强化学习的奖励函数,从而智能体能够以更高的效率采取行动搜索最优化学空间,最终采样生成可满足新药设计需求的候选药物分子,且其生成分子的有效性和新颖性均可获得提升。
89.本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例
或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
90.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1