本发明属于分子逆合成,具体涉及一种基于无模板的分子多步逆合成预测方法和装置。
背景技术:
1、分子逆合成是有机合成领域的一项重要技术,它允许化学家从目标分子出发,通过一系列逆向的化学反应步骤,最终合成所需的目标化合物。逆合成方法在新药研发、材料科学、农业化学和化学生物学等领域具有广泛的应用价值。随着计算机辅助合成(cas)技术和机器学习方法的发展,逆合成领域取得了显著进展,为加速有机合成化学的发展和新化合物的发现提供了新的途径。
2、传统的有机合成通常采用线性的合成路线,从较简单的原料出发,通过连续的反应步骤逐步构建目标分子。然而,在合成复杂分子的过程中,传统方法可能会面临许多挑战,如底物选择受限、低产率、不可避免的副反应和繁琐的纯化过程等问题。因此,寻求高效、高选择性、经济可行的分子多步逆合成方法是化学合成学领域的一项重要挑战。
3、近年来,计算机辅助合成(cas)技术的发展为逆合成领域带来了新的机遇。cas技术结合了计算化学、机器学习和人工智能的方法,能够在大规模数据库中筛选和预测化合物的合成路径和反应条件。这种计算辅助方法为化学家提供了高效快捷的逆合成路线规划和分子设计工具,极大地加速了分子逆合成的过程。
4、现有的多步逆合成方法多是基于模板的多步逆合成方法。这种基于模板的方法依赖人工设计的反应模板库,覆盖面有限,例如论文文献1(retrosynthesis predictionwith conditional graph logic network)和论文文献2(computer-assistedretrosynthesis based on molecular similarity),这两篇论文文献中采用基于模板的逆合成方法,其覆盖面只有人工设计好的模板,覆盖面有限。
5、在搜索算法上,之前的搜索算法的价值函数都是手工设计启发式,而且得多次调用单步逆合成模型。例如论文文献3(depth-first proof-number search with heuristicedge cost and application to chemical synthesis planning)这篇文章的搜索算法的价值函数就是采用手工设计启发式方法,预测准确率有限。
技术实现思路
1、鉴于上述,本发明的目的是提供一种基于无模板的分子多步逆合成预测方法和装置,基于无模板的单步逆合成模型实现在更大的反应空间内进行逆合成推理,不依赖模板,覆盖面更广,将该无模板的单步逆合成模型的逆合成过程结合到retro*搜索算法中,实现更准确预测。
2、为实现上述发明目的,本发明实施例提供的一种基于无模板的分子多步逆合成预测方法,包括以下步骤:
3、获取包括原子字符串和键特征矩阵的药物分子数据,药物分子数据对应的反应物数据,组成训练数据;
4、构建无模板的单步逆合成模型,包括编码模块、反应中心检测模块以及解码模块,编码模块采用全局注意力头对药物分子数据进行全局编码,同时采用局部注意力头对药物分子数据中每个原子的一跳邻域原子进行局部编码,综合全局编码结果和局域编码结果作为总编码结果,反应中心检测模块基于总编码结果预测反应中心原子,解码模块采用全局注意力头对重编码结果进行全局解码,同时采用局部注意力头对每个原子的一跳邻域反应中心原子进行局域解码,综合全局解码结果和局域解码结果的总解码结果作为反应物预测结果;
5、利用训练数据对单步逆合成模型进行参数优化,利用优化后的单步逆合成模型进行多步逆合成。
6、优选地,所述编码模块包含多层编码层,每层编码层均包括用于全局编码的全局注意力头和用于局域编码的局部注意力头;
7、全局注意力头的编码过程用公式表示为:
8、
9、局部注意力头的编码过程用到键特征矩阵,用公式表示为:
10、
11、其中,和分别表示第i个原子在第l+1层的全局编码结果和局部编码结果,j∈n(i)表示第j个原子属于第i个原子的邻居原子,σ(·)表示softmax操作,和表示第i个原子和第j个原子在第l层的总编码结果,wq、wk、wv表示用于查询q、键k和值v的投影矩阵,上标t表示转置,符号⊙表示点乘操作,d表示向量k的维度,表示第l层中第i个原子和第j个原子之间的键特征矩阵,引入键特征矩阵参与局部注意力能够实现对每个原子的一跳邻域原子进行局部编码;
12、综合全局编码结果和局域编码结果作为总编码结果,用公式表示为:
13、
14、其中,hl+1表示第l+1层的总编码结果,符号[;]表示拼接,linear(·)表示线性映射。
15、优选地,在编码模块的每层编码层中,还包含键特征矩阵的更新过程,用公式表示为:
16、
17、其中,表示第l层中第i个原子和第j个原子之间的键特征矩阵,ffn(·)表示全连接操作,更新后的键特征矩阵参与下一层的局域编码过程。
18、优选地,所述反应中心检测模块中,采用全连接层分别针对原子和键进行反应中心的预测,用公式表示为:
19、prc(si)=σ(ffnatom(hi))
20、prc(eij)=σ(ffnbond(aij))
21、其中,hi和aij分别表示编码模块最后一编码成输出的第i个原子si的总编码结果和第i个原子与第j个原子之间键eij的键特征矩阵,ffnatom(hi)表示对hi进行全连接操作,ffnbond(aij)表示对aij进行全连接操作,σ(·)表示softmax操作,prc(si)和prc(eij)分别表示对si和eij的预测结果;
22、依据预测结果prc(si)和prc(eij)预测反应中心原子,包括:如果存在一个反应性的键,即prc(eij)>β,并且原子本身也是反应性的,即prc(si)>β,则认为原子si是反应中心原子,β为预设阈值。
23、优选地,所述解码模块包含多层编码层,每层解码层均包括用于全局解码的全局注意力头和用于局域解码的局部注意力头;
24、全局注意力头的解码过程用公式表示为:
25、
26、局部注意力头的解码过程用到一跳邻域反应中心原子,用公式表示为:
27、
28、其中,和分别表示表示第i个原子在第l+1层的全局解码结果和局部解码结果,j∈n(i)表示第j个原子属于第i个原子的邻居原子,σ(·)表示softmax操作,上标t表示转置,符号⊙表示点乘操作,d表示向量k的维度,sj∈src表示第j个反应中心原子sj属于反应中心原子集合src,wq、wk、wv表示用于查询q、键k和值v的投影矩阵,hj表示第j个原子在编码模块最后一编码层输出的总编码结果,为第l层的总解码结果,第0层为药物分子数据中原子字符串的onehot编码向量;
29、综合全局解码结果和局域解码结果得到总解码结果,用公式表示为:
30、
31、其中,gl+1表示第l+1层的总解码结果,符号[;]表示拼接,linear(·)表示线性映射,最后一层总解码结果作为反应物预测结果。
32、优选地,所述键特征包括是否是芳香键、是否是共轭键、是否是环的一部分。
33、优选地,所述方法还包括:采用retro*搜索算法对给定的目标药物分子进行多步逆合成,在retro*搜索算法的扩展步骤中采用参数优化的单步逆合成模型进行多步逆合成预测。
34、为实现上述发明目的,实施例还提供了一种基于无模板的分子多步逆合成预测装置,包括获取单元、构建单元、训练及应用单元;
35、所述获取单元用于获取包括原子字符串和键特征矩阵的药物分子数据,药物分子数据对应的反应物数据,组成训练数据;
36、所述构建单元用于构建无模板的单步逆合成模型,包括编码模块、反应中心检测模块以及解码模块,编码模块采用全局注意力头对药物分子数据进行全局编码,同时采用局部注意力对药物分子数据中每个原子的一跳邻域原子进行局部编码,综合全局编码结果和局域编码结果作为总编码结果,反应中心检测模块基于总编码结果预测反应中心原子,解码模块采用全局注意力头对重编码结果进行全局解码,同时采用局部注意力对每个原子的一跳邻域反应中心原子进行局域解码,综合全局解码结果和局域解码结果的总解码结果作为反应物预测结果;
37、所述训练及应用单元用于利用训练数据对单步逆合成模型进行参数优化,利用优化后的单步逆合成模型进行多步逆合成。
38、优选地,还包括搜索合成单元,用于采用retro*搜索算法对给定的目标药物分子进行多步逆合成,在retro*搜索算法的扩展步骤中采用参数优化的单步逆合成模型进行多步逆合成预测。
39、为实现上述发明目的,实施例还提供了一种基于无模板的分子多步逆合成预测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现上述基于无模板的分子多步逆合成预测方法的步骤。
40、与现有技术相比,本发明具有的有益效果至少包括:
41、构建基于无模板的单步逆合成模型,可以在更大的反应空间内进行逆合成推理,不依赖模板,覆盖面更广,通过对单步逆合成模型进行端到端的学习获得反应推理能力,可以泛化到模板库之外的新反应,可以识别反应中心,明确反应发生的关键区域,并基于该区域生成反应物,解释性更强;
42、引入retro*搜索算法进行药物分子的逆合成,retro*搜索算法使用and-or树明确表示反应和分子间的关系,可以更好利用搜索子问题的结构,同时将参数优化的单步逆合成模型结合到retro*搜索算法的扩展步骤中,提升逆合成的准确性。