本发明涉及计算机辅助合成领域,特别涉及一种单步反应预测模型的评价方法及系统。
背景技术:
1、现有技术中,存在许多关注到模型评价方法重要性的发明专利,如已公布的在先专利cn110956261a、cn113704082a等,然而这些模型评价方法所提出的背景领域不同,导致其所提出的评测方案本身纵使在整体流程设计上有通用之处,但具体到逆合成领域单步反应预测模型方面,则缺少一些与逆合成相关的,至关重要的评价指标和评价办法。换言之,方法论上溯本同源,但却对逆合成领域的单步反应预测模型评价却缺少针对性,无法直接引鉴使用。在逆合成领域,围绕单步反应预测模型相关的专利,关注点基本都在于各不相同的模型技术方案本身,而对于如何评测这些模型的效果并无过多涉及。单步反应预测领域的研究方案众多,且每一个方案内也存在大量可调参数。与此同时,模型效果通常依赖化学家们的标注评测,具有高主观、难量化、不准确、不稳定等特点。在实际从事相关研发的过程中,若缺乏一套科学、完善、规范、可量化的评测方法,往往容易陷入模型的改动效果难以衡量,评估过程费时费力,研发效率低下等问题。
技术实现思路
1、本发明要解决的技术问题是提供一种单步反应预测模型的评价方法及系统,能够全面评价待测单步反应预测模型在各维度上的性能表现,并以分数形式呈现,能更好的帮助用户客观、全面的看待待测单步反应预测模型。
2、为解决上述技术问题,本发明提供的单步反应预测模型的评价方法,包括:
3、s1,输入待评价的单步反应预测模型,并对其进行接口适配和统一抽象以便于调用;
4、s2,利用测试集对s1中构建的单步反应预测模型进行测试,其包括逆向覆盖度测试、正向覆盖度测试、roundtrip覆盖度测试、多样度测试和confidence score相关性测试;
5、s3,输出单步反应预测模型的测试结果。
6、进一步地,所述单步反应预测模型为:
7、单步正向模型;或
8、单步逆向模型;或
9、单步正向模型和单步逆向模型组合后形成的组合模型;
10、所述单步正向模型进行正向覆盖度测试和confidence score相关性测试;
11、所述单步逆向模型进行逆向覆盖度测试和多样度测试;
12、所述单步正向模型和单步逆向模型组合后形成的组合模型进行roundtrip覆盖度测试。
13、进一步地,所述单步反应预测模型的构建方法包括通式模板法和基于ai深度网络模型的方法。
14、进一步地,所述ai深度网络模型包括transformer模型、gpt2模型、gnn模型。
15、进一步地,s2中的测试集包括:
16、在训练模型所使用的原始数据集的基础上采样构建与训练数据同分布的测试集,该测试集用以评价单步反应预测模型对原始数据空间的拟合能力;
17、在业务场景积累的数据中采样构建的测试集,该测试集用以评价单步反应预测模型对实际业务场景数据的泛化能力;
18、由从基础到困难不同层次反应构建而成的测试集,该测试集用以从难度方面评价单步反应预测模型对化学知识掌握能力;
19、由从反应分类角度构建的具有多种反应类型的测试集,该测试集用以从反应类别方面评价单步反应预测模型对化学知识掌握能力;
20、根据模型迭代过程中产生过的错误反应,经确认后构建的错题测试集,该测试集用于回顾单步反应预测模型对已知常见的错误反应的改善情况;以及
21、从前述五个测试集中按规则抽选出部分化学反应组成的组合测试集,该测试集用于测试confidence score相关性。
22、为了解决上述技术问题,本发明还提供了一种单步反应预测模型的评价系统,包括:
23、模型管理模块,其用于对输入的待评价单步反应预测模型进行接口适配和统一抽象以便后续调用;
24、测试集管理模块,其用于构建和提供多种类型的测试集,并对测试集进行接口适配和统一抽象以便后续使用;
25、评测与分析模块,其用于根据测试需求调用所述测试集管理模块中的测试集对输入所述模型管理模块中的单步反应预测模块进行测试,并输出:逆向覆盖度测试和/或正向覆盖度测试的测试结果、roundtrip覆盖度测试的测试结果、多样度测试的测试结果和confidence score相关性测试的测试结果。
26、进一步地,所述模型管理模块允许输入的单步反应预测模型包括:
27、通式模板法生成的单步反应预测模型;
28、基于ai深度网络模型生成的单步反应预测模型。
29、进一步地,所述ai深度网络模型包括transformer模型、gpt2模型、gnn模型。
30、进一步地,所述测试集管理模块构建的测试集包括:
31、在训练模型所使用的原始数据集的基础上采样构建与训练数据同分布的测试集,该测试集用以评价单步反应预测模型对原始数据空间的拟合能力;
32、在业务场景积累的数据中采样构建的测试集,该测试集用以评价单步反应预测模型对实际业务场景数据的泛化能力;
33、由从基础到困难不同层次反应构建而成的测试集,该测试集用以从难度方面评价单步反应预测模型对化学知识掌握能力;
34、由从反应分类角度构建的具有多种反应类型的测试集,该测试集用以从反应类别方面评价单步反应预测模型对化学知识掌握能力;以及
35、根据模型迭代过程中产生过的错误反应,经确认后构建的错题测试集,该测试集用于回顾单步反应预测模型对已知常见的错误反应的改善情况;以及
36、从前述五个测试集中按规则抽选出部分化学反应组成的组合测试集,该测试集用于测试confidence score相关性。
37、本发明提供的评价方法涵盖了多个维度的可量化指标,能够全面评价待测单步反应预测模型在各维度上的性能表现,并以分数形式呈现,能更好的帮助用户客观、全面的看待待测单步反应预测模型。
1.一种单步反应预测模型的评价方法,其特征在于,包括:
2.如权利要求1所述的评价方法,其特征在于,所述单步反应预测模型为:
3.如权利要求2所述的评价方法,其特征在于,所述单步反应预测模型的构建方法包括通式模板法和基于ai深度网络模型的方法。
4.如权利要求3所述的评价方法,其特征在于,所述ai深度网络模型包括transformer模型、gpt2模型、gnn模型。
5.如权利要求1所述的评价方法,其特征在于,s2中的测试集包括:
6.一种单步反应预测模型的评价系统,其特征在于,包括:
7.如权利要求6所述的评价系统,其特征在于,所述模型管理模块允许输入的单步反应预测模型包括:
8.如权利要求7所述的评价系统,其特征在于,所述ai深度网络模型包括transformer模型、gpt2模型、gnn模型。
9.如权利要求6所述的评价系统,其特征在于,所述测试集管理模块构建的测试集包括: