本发明涉及化合物合成,更具体地,涉及一种利用谱数据确定有机化合物结构的方法及系统。
背景技术:
1、谱数据可用于分析有机化合物结构或状态,例如核磁共振碳谱数据(carbon-13nuclear magnetic resonance,13c-nmr)具有精确度高,分布范围宽,重叠少,易辨认等优点,已被广泛应用于化合物结构分析。然而,一直以来,利用核磁共振碳谱数据确定未知化合物的结构都是人工完成,即依靠个人经验确定,或者结合手工查阅、比对文献资料中的核磁共振数据来确定。这种人工做法费时费力,准确性不高。
2、在现有技术中,专利申请cn103728330a提出了利用核磁共振碳谱数据确定有机化合物结构的方法及系统,其技术方案是:预先存储参考有机化合物的结构,以及每个所述参考有机化合物对应的核磁共振碳谱数据,以及获得每个所述参考有机化合物对应的核磁共振碳谱数据时所用的溶剂;获取待测有机化合物的核磁共振碳谱数据,容差rc,以及获得所述待测有机化合物的磁共振碳谱数据时所用的溶剂;确定所述待测有机化合物的核磁共振碳谱数据中的化学位移的个数m;从所述参考有机化合物对应的核磁共振碳谱数据中筛选出化学位移的个数等于m的核磁共振碳谱数据,得到一级筛选的核磁共振碳谱数据;将每一个所述一级筛选的核磁共振碳谱数据中的化学位移以及所述待测有机化合物的核磁共振碳谱数据中的化学位移按照相同的排序规则进行排序;将每一个排序后的所述一级筛选的核磁共振碳谱数据中的化学位移与排序后的所述待测有机化合物的核磁共振碳谱数据中的化学位移一一对应地进行比较,得到多个化学位移差值的绝对值,将所述多个化学位移差值的绝对值中在rc以下的化学位移差值的绝对值的个数s除以m,得到每一个所述一级筛选的核磁共振碳谱数据对应的所述参考有机化合物对应所述待测有机化合物的匹配率;将所述匹配率为100%且溶剂与所述获得所述待测有机化合物的磁共振碳谱数据时所用的溶剂相同的参考有机化合物的结构确定为待测有机化合物的结构。
3、在上述技术方案中,通过比较待测有机化合物碳谱和参考有机化合物的碳谱的方式,进行匹配筛选,所以作为参考的有机化合物必须是已获得对应碳谱的化合物,而碳谱的获得需要计算和仪器测量,并不容易,能够获得碳谱的有机化合物在整体已知的有机化合物中的比例并不大。这种方案限制了参考有机化合物的数目,待测有机化合物很大可能并不在参考有机化合物范围内,限制了确定待测有机化合物结构的准确性。此外,筛选参考有机化合物对应的核磁共振碳谱数据中化学位移的个数等于待测有机化合物的核磁共振碳谱数据中的化学位移的个数的有机化合物,作为一级筛选出来的有机化合物再去和待测有机化合物进行匹配。这个筛选在“有机物相似度”的匹配上并不科学。在参考有机物并不包含待测有机化合物的情况下,可能一级筛选产物都是和待测有机化合物个数相同,但是结构并不相关的化合物,返回不出正确的结果。而客户对于此类系统的期待可能也包括如果底库中没有正确的结果,希望返回相似的结果,以帮助判断。
技术实现思路
1、本发明的目的是克服上述现有技术的缺陷,提供一种利用谱数据确定有机化合物结构的方法及系统。
2、根据本发明的第一方面,提供一种利用谱数据确定有机化合物结构的方法。该方法包括以下步骤:
3、步骤s1:构建训练集,该训练集反映有机化合物表达式和谱数据之间的对应关系;
4、步骤s2:初始化谱数据编码模型和有机化合物编码模型;
5、步骤s3:以设定的损失函数为目标,利用所述训练集训练谱数据编码模型和有机化合物编码模型,监督信号选取谱数据与有机化合物表达式编码的对应关系;
6、步骤s4,对于目标谱数据,将其输入到经训练的谱数据编码模型,输出第一向量,并有机化合物表达式输入到经训练的有机化合物表达式编码模型,输出第二向量,以第一向量和第二向量之间的距离作为谱数据与有机化合物分子结构的相似度度量,以确定有机化合物结构。
7、根据本发明的第二方面,提供一种利用谱数据确定有机化合物结构的系统。该系统包括:
8、数据获取单元:用于构建训练集,该训练集反映有机化合物表达式和谱数据之间的对应关系;
9、模型构建单元:用于初始化谱数据编码模型和有机化合物编码模型;
10、模型训练单元:用于以设定的损失函数为目标,利用所述训练集训练谱数据编码模型和有机化合物编码模型,监督信号选取谱数据与有机化合物表达式编码的对应关系;
11、化合物结构确定单元:用于对于目标谱数据,将其输入到经训练的谱数据编码模型,输出第一向量,并有机化合物表达式输入到经训练的有机化合物表达式编码模型,输出第二向量,以第一向量和第二向量之间的距离作为谱数据与有机化合物分子结构的相似度度量,以确定有机化合物结构。
12、与现有技术相比,本发明的优点在于,利用深度学习模型,能够将任意有机化合物波谱和有机化合物结构表达式映射到统一的多模态向量空间,编码成向量,用于后续匹配搜索或获得多种化合物的合成产物,提高了确定有机化合物结构的精确度和效率,并且普适性强。
13、通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
1.一种利用谱数据确定有机化合物结构的方法,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,还包括:
3.根据权利要求1所述的方法,其特征在于,所述损失函数选用infonce损失。
4.根据权利要求1所述的方法,其特征在于,步骤s3包括以下子步骤:
5.根据权利要求1所述的方法,其特征在于,在步骤s4中,距离函数选用模长归一化后的向量内积,或者余弦距离。
6.根据权利要求1所述的方法,其特征在于,所述谱数据是碳谱、氢谱、质谱中的一种或多种的组合。
7.根据权利要求1所述的方法,其特征在于,所述有机化合物表达式是smiles表达式。
8.根据权利要求1所述的方法,其特征在于,所述谱数据编码模型是深度学习模型,该模型首层为卷积结构,后面接多层具有残差连接的全连接结构。
9.一种利用谱数据确定有机化合物结构的系统,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。