本发明属于有机反应逆合成,具体涉及一种多样化的逆合成分析模型评价方法及装置。
背景技术:
1、利用计算机技术辅助发现目标化合物的合成路线,即逆合成,它的目标是将目标化合物逐步分解至市场在售的可购买分子。随着深度学习的发展,利用深度学习实现逆合成路线开发的方法取得了很大的进步。逆合成主要包含单步逆合成预测和多步路径规划,前者预测目标产物的单步反应物,后者用于从前者预测的大量反应物中发现可行的合成路线。单步逆合成预测包含基于模板的和无模板的,前者从化学反应中抽象出反应规则作为模板,预测目标产物与模板的匹配概率,后者利用翻译模型直接对smiles编码并学习产物嵌入,然后用解码器预测反应物。
2、目前,这些方法在逆合成领域都有可观的表现,然而由于目前使用的数据集(如uspto等)往往存在很大的偏见,这一点在基于模板的方法中体现最明显---从数据集中提取的模板的使用频率存在很大差距。基于这样的数据集训练使模型具有偏见,模型往往倾向于给频率更大的模板更高的评分,使低频率模板难以被模型发现,导致现在的逆合成模型在现实应用中体验不佳,造成数据冗余,多样性差的问题。
3、此外,现在的方法都追求准确性,而测试的数据集存在偏见,因此准确性不足以体现其在实际应用中的效果,多样性能够体现逆合成方法能否给出不同的结果,给予使用者更多样的选择,是一项体现方法现实可行性的重要指标,然而,目前并没有明确的评价方法可以衡量逆合成方法的多样性。
4、因此,发明一种可以衡量逆合成方法的多样性的方法,解决逆合成模型在现实应用中体验不佳,造成数据冗余,多样性差的问题,成为亟需解决的问题。
技术实现思路
1、为此,本发明提供一种多样化的逆合成分析模型评价方法及装置,可以明确的衡量逆合成方法的多样性,解决逆合成模型在现实应用中体验不佳,造成数据冗余,多样性差的问题。
2、为了实现上述目的,本发明提供如下技术方案:一种多样化的逆合成分析模型评价方法,包括:
3、对原始数据集进行预处理,生成数据标签,并根据数据标签划分所述原始数据集,得到反应分类训练数据集;
4、构造反应分类模型,将所述反应分类训练数据集输入所述反应分类模型,对所述反应分类模型进行训练;
5、选定开源的逆合成模型,基于所述逆合成模型,对所述原始数据集进行预处理,生成数据标签,并根据数据标签划分所述原始数据集,得到逆合成训练数据集;
6、采用权重的损失平衡方法,通过训练好的所述反应分类模型,对所述逆合成训练数据集中的反应进行分类;统计每个类型出现的频率;根据频率计算每个类型的损失权重;将所述逆合成训练数据集中的训练样本输入所述逆合成模型中,得到所述逆合成模型输出的预测结果;根据真实标签计算损失、所述训练样本所属的类型,通过频率计算得到所述训练样本的损失权重,将所述训练样本的损失权重与所述预测结果的损失相乘,并将乘积进行反向传播,对所述逆合成模型进行参数优化;
7、将所述逆合成训练数据集的数据样本按照批次输入所述逆合成模型,通过权重的损失平衡方法,对所述逆合成模型进行迭代训练,直至所述逆合成训练数据集中的验证集的验证集损失保持不下降时停止训练;
8、将目标产物输入训练好的所述逆合成模型中,输出预测反应物;
9、对所述逆合成模型进行多样性评估,评估指标包含:覆盖率、信息熵、基尼系数;根据指标数据完成对所述逆合成模型完成多样性评估。
10、作为一种多样化的逆合成分析模型评价方法优选方案,所述反应分类模型通过根据已知的反应类别数量和反应的smiles进行构造;通过工具包,将所述反应的smiles转化为所述反应分类模型理解的输入;所述反应分类模型通过全连接层和relu非线性激活函数,将原子特征和键特征的向量维度保持一致;通过在<原子,键>二分图迭代执行图卷积,使原子和键学习局部邻域的信息;构造注意力模块,基于所述反应类别数量,通过mlp和softmax,获得预测的反应类别。
11、作为一种多样化的逆合成分析模型评价方法优选方案,所述反应分类模型的数据预处理,通过rxnmapper工具包将所述原始数据集中的反应smiles进行原子映射;将原子映射后的数据集通过rdchiral工具包进行提取模板,获得模板库;将模板设定从0开始的连续id,将反应对应的模板作为反应的类别,模板id为类别标签,获得包含反应smiles及反应类别标签的所述反应分类训练数据集。
12、作为一种多样化的逆合成分析模型评价方法优选方案,所述反应分类模型通过划分好的所述反应分类训练数据集进行训练;所述反应分类训练数据划分为训练集、验证集和测试集;所述训练集用于优化所述反应分类模型参数;所述验证集用于判断损失是否收敛,测试集用于验证所述反应分类模型的性能。
13、作为一种多样化的逆合成分析模型评价方法优选方案,所述权重的损失平衡方法,通过训练完成的所述反应分类模型对数据集中的反应进行分类,获得每个反应的反应类别;对每个反应类别所对应的反应数量进行统计,得到反应类别频率;根据所述反应类别频率计算类别所对应的损失权重,计算公式如下:
14、;
15、式中,为反应类别频率;为损失权重;为一个超参数;
16、将所述逆合成训练数据集中的训练样本按照批次输入所述逆合成模型中,得到所述逆合成模型的预测结果,根据真实标签计算损失、所述训练样本所属的类型,通过频率计算得到所述训练样本的损失权重,将所述训练样本的损失权重与所述预测结果的损失相乘,得到的乘积;将所述乘积进行反向传播,对所述逆合成模型进行参数优化。
17、作为一种多样化的逆合成分析模型评价方法优选方案,所述覆盖率,用于衡量所述逆合成模型的预测结果中包含的反应类型占类型总数的比例;所述信息熵,用于衡量所述反应类别频率分布的均衡性;所述基尼系数,用于衡量所述反应类别频率分布的平均性。
18、作为一种多样化的逆合成分析模型评价方法优选方案,所述覆盖率,统计所述逆合成模型输出的预测结果中的反应类别数量,将统计的反应类别数量和已知反应类别总量进行计算,获得覆盖率;计算公式如下:
19、;
20、式中:m为覆盖率;c为统计的反应类别数量;d为已知反应类别总量。
21、作为一种多样化的逆合成分析模型评价方法优选方案,所述信息熵的计算公式如下:
22、;
23、式中:h为信息熵;为反应类别频率;c为统计的反应类别数量。
24、作为一种多样化的逆合成分析模型评价方法优选方案,所述基尼系数的计算公式如下:
25、;
26、式中,g为基尼系数;c为统计的反应类别数量;为第一个类别到第c个类别频率的总数与预测结果总数的比值。
27、本发明还提供一种多样化的逆合成分析模型评价装置,采用上述的一种多样化的逆合成分析模型评价方法,包括:
28、原始数据预处理模块,对原始数据集进行预处理,生成数据标签,并根据数据标签划分所述原始数据集,得到反应分类训练数据集;
29、反应分类模型构建模块,用于构造反应分类模型,将所述反应分类训练数据集输入所述反应分类模型,对所述反应分类模型进行训练;
30、逆合成训练数据集生成模块,用于选定开源的逆合成模型,基于所述逆合成模型,对所述原始数据集进行预处理,生成数据标签,并根据数据标签划分所述原始数据集,得到逆合成训练数据集;
31、逆合成模型参数优化模块,用于采用权重的损失平衡方法,通过训练好的所述反应分类模型,对所述逆合成训练数据集中的反应进行分类;统计每个类型出现的频率;根据频率计算每个类型的损失权重;将所述逆合成训练数据集中的训练样本输入所述逆合成模型中,得到所述逆合成模型输出的预测结果;根据真实标签计算损失、所述训练样本所属的类型,通过频率计算得到所述训练样本的损失权重,将所述训练样本的损失权重与所述预测结果的损失相乘,并将乘积进行反向传播,对所述逆合成模型进行参数优化;
32、逆合成模型训练模块,用于将所述逆合成训练数据集的数据样本按照批次输入所述逆合成模型,通过权重的损失平衡方法,对所述逆合成模型进行迭代训练,直至所述逆合成训练数据集中的验证集的验证集损失保持不下降时停止训练;
33、预测反应物生成模块,用于将目标产物输入训练好的所述逆合成模型中,输出多样化的预测反应物;
34、逆合成模型多样性评估模块,用于对所述逆合成模型进行多样性评估,评估指标包含:覆盖率、信息熵、基尼系数;根据指标数据完成对所述逆合成模型完成多样性评估。
35、本发明具有如下优点:通过对原始数据集进行预处理,生成数据标签,并根据数据标签划分所述原始数据集,得到反应分类训练数据集;构造反应分类模型,将所述反应分类训练数据集输入所述反应分类模型,对所述反应分类模型进行训练;选定开源的逆合成模型,基于所述逆合成模型,对所述原始数据集进行预处理,生成数据标签,并根据数据标签划分所述原始数据集,得到逆合成训练数据集;采用权重的损失平衡方法,通过训练好的所述反应分类模型,对所述逆合成训练数据集中的反应进行分类;统计每个类型出现的频率;根据频率计算每个类型的损失权重;将所述逆合成训练数据集中的训练样本输入所述逆合成模型中,得到所述逆合成模型输出的预测结果;根据真实标签计算损失、所述训练样本所属的类型,通过频率计算得到所述训练样本的损失权重,将所述训练样本的损失权重与所述预测结果的损失相乘,并将乘积进行反向传播,对所述逆合成模型进行参数优化;将所述逆合成训练数据集的数据样本按照批次输入所述逆合成模型,通过权重的损失平衡方法,对所述逆合成模型进行迭代训练,直至所述逆合成训练数据集中的验证集的验证集损失保持不下降时停止训练;将目标产物输入训练好的所述逆合成模型中,输出预测反应物;对所述逆合成模型进行多样性评估,评估指标包含:覆盖率、信息熵、基尼系数;根据指标数据完成对所述逆合成模型完成多样性评估。本发明可以明确的衡量逆合成方法的多样性,解决逆合成模型在现实应用中体验不佳,造成数据冗余,多样性差的问题。