分子指纹的提取及基于其的相关度的计算的方法及装置与流程

文档序号:23583038发布日期:2021-01-08 14:13阅读:157来源:国知局
分子指纹的提取及基于其的相关度的计算的方法及装置与流程

本发明涉及数据处理与分析领域,具体涉及一种分子指纹的提取及基于其的相关度的计算的方法及装置。



背景技术:

寻找有活性的潜在分子是药物设计和发现过程中很关键的一环,可以将有活性的潜在分子命名为hit分子。通常药化专家会利用计算机等相关技术来进行辅助,加速寻找hit分子的过程,虚拟筛选便是其中很重要的技术之一。一般利用分子指纹来确定参考配体与候选配体的相似性,也就是进行分子的虚拟筛选过程。分子指纹是分子的抽象表征,将分子转换为一串比特串,根据各种向量相似性的计算方式,在分子之间进行比较。

现有技术中的分子指纹如下:(1)基于子结构的分子指纹,根据给定结构列表中某些子结构或特征的存在与否来设置比特串;(2)基于拓扑或路径的分子指纹(topologicalorpathbasedfingerprint),可以是通过分析从一个原子直至到达指定数量键的路径上所有的分子片段,哈希每个路径中的片段,产生指纹;(3)圆形分子指纹(circularfingerprint),以某个重原子为中心,搜寻一个固定半径长度的分子片段,然后将这些片段的结构特征进行哈希;(4)药效团指纹(pharmacophorefingerprint),以类似于基于子结构的指纹方式编码分子的结构特征,以及特征之间的距离,按照距离范围对其进行分类生成比特串。

由此看出,不同的分子指纹有不同的实现方式,也有不同侧重的方面,但是在虚拟筛选的过程中,使用分子指纹的目的是为了找到活性比较接近的分子。且现有的分子指纹都是基于人工设计的分子特征所确定的,对分子整体结构的描述不够完全,因此导致即使结构上较为相似,但是在分子潜在活性方面并不接近。



技术实现要素:

因此,本发明要解决的技术问题在于克服现有技术中的对分子整体结构的描述不够完全,导致挑选出的分子,即使结构上较为相似,但是在分子潜在活性方面并不接近的缺陷,从而提供一种分子指纹的提取及基于其的相关度的计算的方法及装置。

根据第一方面,本发明实施例提供了一种分子指纹的提取方法,包括:获取待测分子的多个字符;根据多个字符以及预设字符字典,分别确定各所述字符对应的特征向量;根据所述特征向量及分子指纹提取模型提取所述待测分子的分子指纹。

结合第一方面,在第一方面第一实施方式中,根据所述特征向量及分子指纹提取模型提取所述待测分子的分子指纹,具体包括:根据初始字符的特征向量以及预设输入状态,生成所述初始字符的隐状态以及所述初始字符对应的初始编码长短期记忆链单元的输出状态;根据第n-1个字符对应的特征向量以及第n-2个字符对应的编码长短期记忆链单元的输出状态,生成所述第n-1个字符的隐状态以及第n-1个字符对应的第n-1个编码长短期记忆链单元的输出状态,n≥3;根据第n个字符对应的特征向量以及第n-1个字符对应的编码长短期记忆链单元的输出状态,生成所述第n个字符的隐状态以及所述待测分子的分子指纹。

结合第一方面,在第一方面第二实施方式中,构建所述分子指纹提取模型的步骤,包括:获取目标分子集合,将所述目标分子集合划分为训练集及测试集,所述训练集包括多个训练子集;获取所述训练子集中的多个样本分子的多个样本字符;根据多个样本字符以及预设字符字典,分别确定各样本字符对应的样本特征向量;根据初始样本字符的样本特征向量以及预设输入状态,生成所述初始样本字符的隐状态以及所述初始样本字符对应的初始编码长短期记忆链单元的输出状态;根据第n-1个样本字符对应的样本特征向量以及第n-2个样本字符对应的编码长短期记忆链单元的输出状态,生成所述第n-1个样本字符的隐状态以及第n-1个样本字符对应的第n-1个编码长短期记忆链单元的输出状态,n≥3;根据第n个样本字符对应的样本特征向量以及第n-1个样本字符对应的编码长短期记忆链单元的输出状态,生成所述第n个样本字符的隐状态以及所述样本分子的分子指纹;

根据所述样本分子的分子指纹以及预设开始标志符,得到初始解码长短期记忆链单元的输出状态以及初始隐状态;根据所述初始隐状态以及编码隐状态集合,生成初始采样字符概率矩阵;根据所述初始采样字符概率矩阵,筛选生成初始采样字符;所述编码隐状态集合用于表征所述初始样本字符的隐状态,直至所述第n个样本字符的隐状态的集合;根据第n-2个采样字符对应的采样特征向量以及第n-2个解码长短期记忆链单元的输出状态,得到第n-1个解码长短期记忆链单元的输出状态以及第n-1个隐状态;根据所述第n-1个隐状态以及编码隐状态集合,生成第n-1个采样字符概率矩阵;根据所述第n-1个采样字符概率矩阵,筛选生成第n-1个采样字符,n≥3;根据第n-1个样本字符对应的样本特征向量以及第n-1个样本字符对应的解码长短期记忆链单元的输出状态,生成所述第n个样本字符的隐状态,根据所述第n个隐状态以及编码隐状态集合,生成第n个采样字符概率矩阵;根据所述第n个采样字符概率矩阵,筛选生成第n个采样字符;根据多个采样字符,生成样本复原分子;根据所述样本分子及样本复原分子构建所述分子指纹提取模型。

结合第一方面第二实施方式,在第一方面第三实施方式中,在获取目标分子集合的步骤之前,还包括:获取预设数据库中的分子集合;根据预设条件清洗所述分子集合,生成清洗后的分子集合;将所述清洗后的分子集合转换为预设字符格式,生成目标分子集合。

结合第一方面第三实施方式,在第一方面第四实施方式中,通过下述公式,计算第n个采样字符概率矩阵:

其中,weight表示所述编码隐状态集合的权重,表示第t个隐状态,表示第i个样本字符的隐状态,linear表示线性函数,concat表示拼接函数。

结合第一方面第四实施方式,在第一方面第五实施方式中,所述根据所述样本分子及样本复原分子构建所述分子指纹提取模型的步骤,包括:根据所述训练子集中样本分子的数量、各样本分子的长度、预设字符字典的长度、各样本分子的特征数据,计算得到所述样本分子及样本复原分子的重构损失,所述特征数据用于表征所述样本复原分子任一位置采样字符的预设标签以及所述样本复原分子任一位置采样字符的出现概率;根据所述重构损失,确定训练集的目标训练次数;当所述训练集的训练次数达到目标训练次数时,确定生成分子指纹提取模型。

结合第一方面第五实施方式,在第一方面第六实施方式中,通过下述公式,计算样本分子及样本复原分子的重构损失值:

其中,n表示所述训练子集中的样本分子的数量,l表示样本分子的长度,d表示预设字符字典的长度,表示在第n个样本复原分子的第i个位置对应采样字符j的预设标签,表示在第n个样本复原分子的第i个位置对应采样字符j的出现概率。

结合第一方面第六实施方式,在第一方面第七实施方式中,该方法还包括:获取标杆分子及其活性指标值;获取所述测试集中的测试分子及其活性指标值;根据所述分子指纹提取模型、所述标杆分子及所述测试分子,生成标杆分子指纹及测试分子指纹;根据所述标杆分子指纹及所述标杆分子的活性指标值、所述测试分子指纹及所述测试分子的活性指标值,计算得到所述标杆分子与所述测试分子的相似度;根据所述相似度以及预设斯皮尔曼相关系数函数,计算得到所述测试分子和所述标杆分子的相似度与所述活性指标差值之间的相关度;当所述相关度大于预设相关度阈值时,确定所述分子指纹提取模型有效。

结合第一方面第七实施方式,在第一方面第八实施方式中,通过下述公式,计算所述标杆分子与所述测试分子的相似度:

其中,similarity表示所述标杆分子与所述测试分子的相似度,fps1表示标杆分子指纹,fps2表示测试分子指纹;

通过下述公式计算所述相关度:

corr=spearman(similarity,|ic501-ic502|),

其中,corr表示测试分子和标杆分子的相似度与所述活性指标差值之间的相关度,spearman表示预设斯皮尔曼相关系数函数。

根据第二方面,本发明实施例提供了一种基于分子指纹的相关度的计算方法,包括:获取标杆分子及待测分子,根据所述标杆分子及待测分子,提取所述标杆分子指纹以及待测分子指纹,所述标杆分子指纹以及待测分子指纹是根据权利要求1-9任一项所述的分子指纹的提取方法得到的;获取所述待测分子的第一活性指标值以及所述标杆分子的第二活性指标值;根据所述标杆分子指纹、所述待测分子指纹,计算得到活性指标差值以及所述标杆分子与所述待测分子的相似度;根据所述活性指标差值、所述待测分子的相似度及预设斯皮尔曼相关系数函数,计算得到目标相关度,所述目标相关度用于表征所述待测分子和所述标杆分子的相似度与所述活性指标差值之间的关联程度。

结合第二方面,在第二方面第一实施方式中,通过下述公式,计算所述标杆分子与所述待测分子的相似度:

其中,similarity表示所述标杆分子与所述待测分子的相似度,fps1表示标杆分子指纹,fps3表示待测分子指纹;

通过下述公式计算所述相关度:

corr=spearman(similarity,|ic501-ic502|),

其中,corr表示待测分子和标杆分子的相似度与所述活性指标差值之间的相关度,spearman表示预设斯皮尔曼相关系数函数。

根据第三方面,本发明实施例提供了一种分子指纹的提取装置,包括:待测分子字符获取模块,用于获取待测分子的多个字符;特征向量确定模块,用于根据多个字符以及预设字符字典,分别确定各所述字符对应的特征向量;第一分子指纹提取模块,用于根据所述特征向量及分子指纹提取模型提取所述待测分子的分子指纹。

根据第四方面,本发明实施例提供了一种基于分子指纹的相关度的计算装置,包括:第二分子指纹提取模块,用于获取标杆分子及待测分子,根据所述标杆分子及待测分子,提取所述标杆分子指纹以及待测分子指纹,所述标杆分子指纹以及待测分子指纹是根据第一方面或第一方面任一实施方式所述的分子指纹的提取方法得到的;活性指标值获取模块,用于获取所述待测分子的第一活性指标值以及所述标杆分子的第二活性指标值;相似度计算模块,用于根据所述标杆分子指纹、所述待测分子指纹,计算得到活性指标差值以及所述标杆分子与所述待测分子的相似度;目标相关度计算模块,用于根据所述活性指标差值、所述待测分子的相似度及预设斯皮尔曼相关系数函数,计算得到目标相关度,所述目标相关度用于表征所述待测分子和所述标杆分子的相似度与所述活性指标差值之间的关联程度。

根据第五方面,本发明实施例提供了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一实施方式所述的分子指纹的提取方法的步骤,以及第二方面或第一方面第二实施方式所述的基于分子指纹的相关度的计算方法的步骤。

根据第六方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一实施方式所述的分子指纹的提取方法的步骤,以及第二方面或第一方面第二实施方式所述的基于分子指纹的相关度的计算方法的步骤。

本发明技术方案,具有如下优点:

本发明提供的一种分子指纹的提取及基于其的相关度的计算的方法及装置,其中,该分子指纹的提取方法包括:获取待测分子的多个字符;根据多个字符以及预设字符字典,分别确定各字符对应的特征向量;根据特征向量及分子指纹提取模型提取待测分子的分子指纹。通过实施本发明,解决了相关技术中存在的基于人工设计的分子特征确定的分子指纹无法描述分子的整体结构,导致的即使结构较为相似,但是分子的潜在活性方面并不相关的问题,分子指纹的相似性越高,可以表明分子的潜在活性相似度越高,也就是学习到了分子的关键特征信息,获得了较为精准的分子活性相关度信息,可以准确地评价分子相似性,从而可以使基于配体的虚拟筛选会更加准确和高效,从而有效缩减虚拟筛选所需时间。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中分子指纹的提取方法的一个具体示例的流程图;

图2为本发明实施例中分子指纹的提取方法中分子的结构示意图;

图3为本发明实施例中分子指纹的提取方法的转换为smiles格式后分子中字符特征向量的位置示意图;

图4为本发明实施例中分子指纹的提取方法中构建分子指纹提取模型中,编码器的结构示意图;

图5为本发明实施例中分子指纹的提取方法中分子指纹提取模型中编码器与解码器的结构示意图;

图6为本发明实施例中分子指纹的提取方法中分子指纹的应用效果比较图;

图7为本发明实施例中基于分子指纹的相关度的计算方法的一个具体示例的流程图;

图8为本发明实施例中分子指纹的提取装置的一个具体示例的原理框图;

图9为本发明实施例中基于分子指纹的相关度的计算装置的一个具体示例的原理框图;

图10为本发明实施例中计算机设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在比较两个分子之间的相似性时,最重要的问题之一是分子表征的复杂性。为了使分子的比较在计算层面更加容易,需要对分子进行一定程度的简化或抽象;分子指纹即为分子的抽象表征,为了解决现有的分子指纹提取技术中存在的基于人工设计的分子特征确定的分子指纹无法描述分子的整体结构,导致的即使结构较为相似,但是分子的潜在活性方面并不相关的问题,本发明实施例提供了一种分子指纹的提取及基于其的相关度的计算的方法及装置,目的是获得更为精准的分子关键信息,进而可以通过比较分子指纹的相似性,进而确定分子潜在活性的相似度,缩短虚拟筛选的时间,提高虚拟筛选的效率。

本发明实施例提供了一种分子指纹的提取方法,如图1所示,包括:

步骤s11:获取待测分子的多个字符;在本实施例中,待测分子可以是任一分子数据库中的待评价分子;将待测分子转换为预设字符格式之后,生成待测分子的多个字符,具体地,可以是将待测分子转换为smiles(simplifiedmolecular-inputline-entrysystem)格式,smiles格式可以是基于字符的分子结构表示形式,能够全面地表示分子的整体结构特征信息。例如,如图2所示的分子,转换为smiles格式后,表示形式可以是cn(c)ccc(c1ccccc1)c2ccccn2。

步骤s12:根据多个字符以及预设字符字典,分别确定各字符对应的特征向量;在本实施例中,预设字符字典可以是预先存储的,用于存储相对应的分子字符与字符的特征向量的数据库;如图3所示,字符的特征向量可以是表示分子中各字符的具体位置信息;具体地,将待测分子转换为smiles格式,分子中各字符可以是按照转换顺序排列的,根据预设字符字典,确定各字符对应的特征向量。

步骤s13:根据特征向量及分子指纹提取模型提取待测分子的分子指纹。在本实施例中,分子指纹提取模型可以是用于提取各种分子的分子指纹的模型,可以是通过预设数据库中的测试分子集以及测试分子集经过训练而生成的;获取待测分子的各字符,确定各字符对应的特征向量,将各字符的特征向量依次输入至分子指纹提取模型中,提取出待测分子的分子指纹。

本发明提供的一种分子指纹的提取方法,包括:获取待测分子的多个字符;根据多个字符以及预设字符字典,分别确定各字符对应的特征向量;根据特征向量及分子指纹提取模型提取待测分子的分子指纹。通过实施本发明,解决了相关技术中存在的基于人工设计的分子特征确定的分子指纹无法描述分子的整体结构的问题,分子指纹的相似性越高,可以表明分子的潜在活性相似度越高,可以更加精准的把握分子的关键信息,完整且全面描述分子的结构信息,从而可以使基于配体的虚拟筛选会更加准确和高效,从而有效缩减虚拟筛选所需时间。

作为本发明一个可选地实施方式,上述步骤s13,根据特征向量及分子指纹提取模型提取待测分子的分子指纹的步骤,具体包括:

首先,根据初始字符的特征向量以及预设输入状态,生成初始字符的隐状态以及初始字符对应的初始编码长短期记忆链单元的输出状态;在本实施例中,通过所述分子指纹提取模型提取待测分子的分子指纹的过程可以是通过编码器实现的,编码器的具体示意图可以是如图4所示,具体地,编码器可以是lstm链,其中可以包含多个lstm单元,且lstm单元的数量可以根据待测分子的字符长度确定;待测分子的多个字符对应的特征向量依次输入相应的lstm单元内,进行编码,也就是说编码器的输入可以是整个待测分子的smiles以及预先设置的初始输入状态。初始字符的特征向量可以是待测分子第一位字符对应的特征向量;预设输入状态可以是预先设置的,编码器内编码长短期记忆链(longshort-termmemory,lstm)单元的初始状态;初始字符的隐状态可以是待测分子第一位字符的隐状态,隐状态可以是lstm单元的一个输出,可以是包含该字符及该字符之前字符的集合;初始字符对应的初始编码长短期记忆链单元的输出状态可以是编码器内第一位lstm单元的输出状态。也就是说,第一位lstm单元的输入为待测分子第一位字符对应的特征向量以及预先设置的输入状态s0,第一位lstm单元的输出为所述第一位lstm单元的输出状态以及待测分子第一位字符的隐状态。

然后,根据第n-1个字符对应的特征向量以及第n-2个字符对应的编码长短期记忆链单元的输出状态,生成第n-1个字符的隐状态以及第n-1个字符对应的第n-1个编码长短期记忆链单元的输出状态,n≥3;在本实施例中,编码器中包含多个lstm单元,第2位lstm单元直至第n-1位lstm单元的执行过程可以是如下所示,根据本lstm单元对应位置的字符的特征向量以及上一lstm单元的输出状态,生成本lstm单元对应位置的字符的隐状态以及本lstm单元的输出状态。

然后,根据第n个字符对应的特征向量以及第n-1个字符对应的编码长短期记忆链单元的输出状态,生成第n个字符的隐状态以及待测分子的分子指纹。在本实施例中,在编码器内末位lstm单元内,根据待测分子的末位字符对应的特征向量以及上一lstm单元的输出状态,在末位lstm单元内进行编码,最后可以生成待测分子的末位字符的隐状态以及待测分子的分子指纹。

本发明实施例提供了一分子指纹的提取方法,结合编码器中的多个lstm单元组成以及smiles格式的待测分子,得到待测分子各字符的隐状态以及待测分子的分子指纹。可以提取出精准表征分子整体结构特征信息的分子指纹,可以提高分子潜在活性与分子结构相似度之间的相关度,也就是说,通过上述实施例所提取的待测分子的分子指纹,在与标杆分子的分子指纹比较相似的情况下,待测分子与标杆分子的其他关键指标信息也会较为相似,由此,可以缩短基于配体相似性的虚拟筛选所需要的时间,提高虚拟筛选的效率。

作为本发明一个可选地实施方式,上述步骤s13中的构建分子指纹提取模型的步骤,具体包括:

首先,获取目标分子集合,将目标分子集合划分为训练集及测试集,训练集包括多个训练子集;在本实施例中,目标分子集合可以是在预设数据库中,经过预先设置的步骤对预设数据库中的分子进行清洗以及筛选,并转换为smiles格式的,符合构建分子指纹提取模型的要求的分子集合;训练集可以是对分子指纹提取模型进行训练的一些目标分子集合;测试集可以是对经由训练集训练而成的分子指纹提取模型,进行测试的分子集合;训练集中可以包括多个训练子集,也就是说,训练集中可以包括多个训练批次,即多个batch包,每个batch包含分子数目可以是预先设置的。

具体地,将目标分子集合随机划分为训练集以及测试集,继而可以根据训练集中的分子以及预先设置的集成语言翻译模型(sequencetosequence,seq2seq)和注意力机制模型(attention)的初始模型进行训练,生成分子指纹提取模型。

然后,获取训练子集中的多个样本分子的多个样本字符;在本实施例中,训练子集中的分子可以称之为样本分子。对于每一个样本分子,首先获取各样本分子的smiles,也就是依次获取样本分子的所有样本字符,例如,样本分子的字符可以是cn(c)ccc(c1ccccc1)c2ccccn2。

然后,根据多个样本字符以及预设字符字典,分别确定各样本字符对应的样本特征向量;在本实施例中,根据预先存储的字符字典,一一确定样本字符对应的样本特征向量。

然后,根据初始样本字符的样本特征向量以及预设输入状态,生成初始样本字符的隐状态以及初始样本字符对应的初始编码长短期记忆链单元的输出状态;在本实施例中,如图5所示,分子指纹提取模型的训练过程可以分为编码器以及解码器;在编码器中存储有多个编码lstm单元,编码lstm单元的数量可以根据样本分子的字符数量确定,当样本分子的字符为15个时,此时,编码器内的lstm单元的数量即为15个,相应地,解码器中的解码lstm单元的数量也是为15个,与样本分子的样本字符是对应的。

具体地,在编码器内,第一位编码lstm单元的输入可以是预设初始输入状态,以及样本分子的第一位样本字符对应的样本特征向量,在第一位的编码lstm单元中,生成上述第一位的编码lstm单元的输出状态以及样本分子的第一位样本字符的隐状态。

然后,根据第n-1个样本字符对应的样本特征向量以及第n-2个样本字符对应的编码长短期记忆链单元的输出状态,生成第n-1个样本字符的隐状态以及第n-1个样本字符对应的第n-1个编码长短期记忆链单元的输出状态,n≥3;在本实施例中,当样本分子的样本字符的数量为15时,编码器内lstm单元的数量为15个,则针对于第2位编码lstm单元直至于第14位编码lstm单元,上述编码lstm单元的输入为上一lstm单元的输出状态以及样本分子对应位置的样本字符对应的样本特征向量。输出为本lstm单元的输出状态以及样本分子对应位置的样本字符的隐状态。

然后,根据第n个样本字符对应的样本特征向量以及第n-1个样本字符对应的编码长短期记忆链单元的输出状态,生成第n个样本字符的隐状态以及样本分子的分子指纹;在本实施例中,在编码器中的末位lstm单元时,末位lstm单元的输入为上一lstm单元的输出状态以及样本分子末位样本字符对应特征向量,末位lstm单元的输出为样本分子的分子指纹以及样本分子末位字符的隐状态。

然后,根据样本分子的分子指纹以及预设开始标志符,得到初始解码长短期记忆链单元的输出状态以及初始隐状态;根据初始隐状态以及编码隐状态集合,生成初始采样字符概率矩阵;根据初始采样字符概率矩阵,筛选生成初始采样字符;编码隐状态集合用于表征初始样本字符的隐状态,直至第n个样本字符的隐状态的集合;在本实施例中,样本分子经过编码器后生成样本分子的分子指纹,以及样本分子的各样本字符的编码器隐状态集合。

示例性地,根据经过编码器生成的样本分子的分子指纹以及开始标志符,在第一位解码lstm单元中,生成上述第一位解码lstm单元的输出状态以及第一隐状态;解码器中包括多个解码lstm单元、注意力层以及线性层,具体地,在注意力层,根据第一位解码lstm单元输出的第一隐状态,以及编码器输出的编码器隐状态集合,进行隐状态挑选以及随机组合,生成线性矩阵,也就是初始采样字符概率矩阵,用于表征各采样字符的输出概率;根据上述初始采样字符概率矩阵,采样获得第一位采样字符。

具体地,当分子指纹提取模型训练完成后,初始解码lstm单元输出的初始采样字符与样本分子的初始样本字符是一致的。

然后,根据第n-2个采样字符对应的采样特征向量以及第n-2个解码长短期记忆链单元的输出状态,得到第n-1个解码长短期记忆链单元的输出状态以及第n-1个隐状态;根据第n-1个隐状态以及编码隐状态集合,生成第n-1个采样字符概率矩阵;根据第n-1个采样字符概率矩阵,筛选生成第n-1个采样字符,n≥3;在本实施例中,对于第2位解码lstm单元至第n-1位解码lstm单元来说,训练过程可以是,根据上一解码lstm单元的输出状态以及上一解码lstm单元输出的采样字符对应的采样特征向量,生成本解码lstm单元的输出状态以及本隐状态,即第2位隐状态至第n-1隐状态。根据第2位隐状态至第n-1隐状态生成相应的采样字符与生成初始采样字符的过程相似,在此不再赘述。

然后,根据第n-1个样本字符对应的样本特征向量以及第n-1个样本字符对应的解码长短期记忆链单元的输出状态,生成第n个隐状态,根据第n个隐状态以及编码隐状态集合,生成第n个采样字符概率矩阵;根据第n个采样字符概率矩阵,筛选生成第n个采样字符;根据多个采样字符,生成样本复原分子;在本实施例中,在末位解码lstm单元中,根据前一位解码lstm单元的输出状态以及经过注意力挑选以及采样字符概率矩阵,采样生成第n-1个采样字符对应的采样特征向量,在末位解码lstm单元,生成末位解码长短期记忆链单元的输出状态以及第n个隐状态。经过注意力层的注意力挑选以及线性层的采样字符概率矩阵,生成末位采样字符。根据各解码lstm单元生成采样字符,依次排列生成smiles格式的样本复原分子。

具体地,在集成语言翻译模型和注意力机制模型的初始模型训练完成后,生成分子指纹提取模型,此时,输入至初始模型的smiles格式的样本分子与,经过初始模型的生成smiles格式的样本复原分子一致。

然后,根据样本分子及样本复原分子构建分子指纹提取模型。在本实施例中,根据输入的样本分子与所述初始模型生成的样本复原分子,生成分子指纹提取模型。

本发明实施例提供了一种分子指纹的提取方法,结合预设的集成语言翻译模型和注意力机制模型的初始模型,根据输入的smiles格式的样本分子,来复原所述smiles,实现了分子的解析与重构,可以使初始模型学习到分子背后关键特征信息,因此,基于上述实施例所述的方法获得的分子指纹可以精准把握分子关键指标信息,可以更加精准的把握分子的关键信息,完整且全面描述分子的结构信息,从而可以使基于配体的虚拟筛选会更加准确和高效,从而有效缩减虚拟筛选所需时间。

作为本发明一个可选地实施方式,上述步骤获取目标分子集合之前,该分子指纹的提取方法,还包括:

获取预设数据库中的分子集合;根据预设条件清洗分子集合,生成清洗后的分子集合;将清洗后的分子集合转换为预设字符格式,生成目标分子集合。在本实施例中,预设数据库可以是存储有存在较大概率可以成药的分子集合库,例如chembl-25数据库;根据预设条件清洗所述分子集合可以是,去除rdkit无法识别的分子、去除重原子数目在小于10且大于50的分子、去除键数大于65的分子、去除包含非常见元素类型的分子(例如,常见元素类型可以包括p,s,n,o,c,cl,br,f,i,h)、去除包含非常见键类型(常见键类型是单键、双键、三键和芳香键)的分子;预设字符格式可以是将经过清洗的分子集合均转换为smiles格式。

具体地,在将上述分子集合转换为smiles格式时,由于随机性情况的存在,导致同一分子的smiles会有不同的字符串,会影响分子提取模型的训练,因此会对分子的smiles进行归一化处理。同时对归一化后的smiles进行去重。例如,归一化的流程可以是赋予分子中每个原子一个编号,然后根据每个原子本身特征以及周边环境特征进行迭代,更新编号,直到所有原子编号已经不再变化。例如上述提到的chembl-25数据库,在经过上述处理之后,剩余分子数量为1,607,036个。

本发明实施例提供了一种分子指纹的提取方法,结合预设清洗条件,对预设数据库中的分子进行清洗、格式转换、归一化以及去重处理,生成可以用于分子指纹提取模型的训练的目标分子集合。可以为模型训练提供干净且规范的分子数据。

具体地,可以通过下述公式计算注意力层与线性层的第n个采样字符概率矩阵:

其中,weight表示编码隐状态集合中各个样本字符的权重,表示解码器输出的第t个隐状态,表示编码器lstm单元输出的第i个样本字符的隐状态,linear表示线性函数,concat表示拼接函数。

作为本发明一个可选地实施方式,上述步骤根据样本分子及样本复原分子构建分子指纹提取模型,具体可以包括:

首先,根据训练子集中样本分子的数量、各样本分子的长度、预设字符字典的长度、各样本复原分子的特征数据,计算得到样本分子及样本复原分子的重构损失,特征数据用于表征样本复原分子任一位置采样字符的预设标签以及样本复原分子任一位置采样字符的出现概率;在本实施例中,在对分子指纹提取模型的训练过程中,由于输入的样本分子与输出的样本复原分子并不是一直完全一致的,因此,需要针对于所述样本分子与样本复原分子之间存在的误差调节或者是优化分子指纹提取模型的训练过程。

具体地,根据各训练批次中的样本分子的数量,各smiles格式样本分子的字符长度,预设字符字典的长度,第n个样本复原分子中第i位字符对应的字符标签,第n个样本复原分子中第i位字符对应的输出概率,计算生成复原样本分子的训练损失,也就是对样本分子进行解析与重构过程中出现的训练误差值,可以根据所述训练误差值对编码器以及解码器中的训练参数进行优化与调整。

然后,根据重构损失在训练过程中的变化,确定训练集的目标训练次数;当训练集的训练次数达到目标训练次数时,确定生成分子指纹提取模型。具体地,根据计算出的样本分子的重构损失值,可以计算得出整个训练集的目标训练次数,当对训练集的训练次数达到目标训练次数时,可以认为分子指纹提取模型训练完成。

具体地,根据计算出的重构损失值对训练过程中的编码器以及解码器中的训练参数进行调整的具体过程可以是:根据自适应矩估计方法(adaptivemomentestimation,adam),也就是一种对随机目标函数执行一阶梯度优化的算法,根据重构损失函数的一阶梯度来优化训练参数,优化初始学习率lr的步长及其权重可以根据重构损失函数的一阶和二阶矩估计确定的。

具体地,当对一个训练批次的样本分子的模型训练时,根据上述实施例所述的方法,计算该训练批次的所有样本分子的平均损失;一个训练批次中样本分子数量可以是根据batch_size综合决定;继而计算平均重构损失对训练参数的一阶导数,并根据优化初始学习率(lr)的步长及其权重对所有训练参数进行更新;直到训练集被训练至目标训练次(num_epochs),可以认为此时分子指纹提取模型已经训练完成。

其中,1个epoch代表根据训练集中的所有样本分子对分子指纹提取模型已经训练完成1次;5个epoch表示已经完成训练5次。在预设学习率衰减的步长(decay_step)后,会对所述步长进行衰减,用以保证分子指纹提取模型的训练过程的稳定性,衰减程度可以根据学习率衰减系数(decay)确定,但是衰减程度是有限度的,最低值可以根据所允许的最小学习率(min_lr),此外,为了保证分子指纹提取模型训练过程的稳定,所有训练参数的一阶导数会存在限制范围,可以是[-clip_grad,clip_grad]区间范围,即为训练过程中梯度的阈值(clip_grad)。

本发明实施例提供了一种分子指纹的提取方法,结合根据训练过程中计算出的样本分子的重构损失值的变化,可以计算得出整个训练集的目标训练次数,当对训练集的训练次数达到目标训练次数时,可以认为分子指纹提取模型训练完成。还可以根据计算出的重构损失值对训练过程中的编码器以及解码器中的训练参数进行调整,保证分子指纹提取模型训练的准确性以及稳定性,减小上述模型在训练过程中产生的误差。

具体地,各训练参数的表示及其含义可是如下表1所示:

表1

具体地,可以通过下述公式,计算样本分子及样本复原分子的重构损失值:

其中,n表示训练子集中的样本分子的数量,l表示样本分子的长度,d表示预设字符字典的长度,表示在第n个样本复原分子的第i个位置对应采样字符j的预设标签,表示在第n个样本复原分子的第i个位置对应采样字符j的出现概率。

作为本发明一个可选地实施方式,该分子指纹的提取方法,还包括:

首先,获取标杆分子及其活性指标值;在本实施例中,标杆分子可以是预先设置的潜在活性较为理想的分子;活性指标值可以是标杆分子的潜在活性指标值;具体地,预先设置一标杆分子并确定其相应的潜在活性指标值。

然后,获取测试集中的测试分子及其活性指标值;在本实施例中,测试集可以是将目标分子集合随机划分而生成的测试所述分子指纹提取模型的分子集合,获取所述测试集中的各测试分子及其相应的潜在活性指标值,也就是活性指标值。

然后,根据分子指纹提取模型、标杆分子及测试分子,生成标杆分子指纹及测试分子指纹;在本实施例中,通过上述实施例所述的方法,构建而生成的分子指纹提取模型,将所述标杆分子的smiles输入至所述分子指纹提取模型,经过所述分子指纹提取模型中的编码器模型,生成所述标杆分子的分子指纹,即标杆分子指纹;经过类似的过程,生成测试分子指纹,在此不再赘述。

然后,根据标杆分子指纹及测试分子指纹,计算得到标杆分子与测试分子的相似度;在本实施例中,根据提取出的标杆分子指纹以及测试分子指纹,计算生成标杆分子与测试分子之间的分子结构相似度。

然后,根据相似度以及预设斯皮尔曼相关系数函数,计算得到测试分子和标杆分子的相似度与活性指标差值之间的相关度;在本实施例中,可以根据计算出的相似度以及标杆分子与测试分子的活性指标值之间的差值,确定标杆分子与测试分子的结构相似度与上述分子活性指标差值之间的相关度。

接下来,当相关度大于预设相关度阈值时,确定分子指纹提取模型有效。在本实施例中,当根据经过所述分子指纹提取模型提取的分子指纹,计算出的分子结构相似度与所述分子潜在活性指标差值之间的相关度大于预设相关度阈值时,可以认为分子指纹提取模型可以实际进行应用。具体地,预设相关度阈值可以是经过其他传统分子指纹计算出的相关度平均值,当基于上述实施例所述的方法,提取出的分子指纹,计算出的相关度大于基于其他传统分子指纹计算出的相关度时,可以认为分子指纹提取模型可以进行实际应用,例如,应用于配体的相似性筛选上。

以下结合一具体实施例,详细描述通过上述实施例所述的方法生成的分子指纹提取模型,提取出的分子指纹与其他传统分子指纹在活性相关度之间的表现比较。

根据本发明实施例所述的方法提取出的分子指纹(deepfp),根据deepfp计算分子结构相似性与活性的相关度,同时对比根据ecfp指纹、erg指纹和maccskeys指纹计算分子结构相似性与活性的相关度,计算结果如表2所示:

表2

如上表2所示,根据deepfp及三种常见指纹计算相似度与活性之间的spearman相关系数,由表2数据可以看出,deepfp在测试集301个靶点上的平均spearman相关系数为0.43,均高于其他三个指纹。

具体地,根据测试集中的301个靶点中随机挑选了39个靶点,将其spearman相关系数进行可视化,如图6所示,从图中可以看出deepfp的曲线大部分会包住其他三个指纹的曲线,由此也可说明deepfp在活性相关度上表现更好,优于其他常见分子指纹。

具体地,可以通过下述公式,计算标杆分子与测试分子的相似度:

其中,similarity表示标杆分子与测试分子的相似度,fps1表示标杆分子指纹,fps2表示测试分子指纹;

通过下述公式计算相关度:

corr=spearman(similarity,|ic501-ic502|),

其中,corr表示测试分子和标杆分子的相似度与活性指标差值之间的相关度,spearman表示预设斯皮尔曼相关系数函数。

本发明实施例提供了一种基于分子指纹的相关度的计算方法,如图7所示,包括:

步骤s21:获取标杆分子及待测分子,根据标杆分子及待测分子,提取标杆分子指纹以及待测分子指纹,标杆分子指纹以及待测分子指纹是根据上述任意实施例所述的分子指纹的提取方法得到的;

步骤s22:获取待测分子的第一活性指标值以及标杆分子的第二活性指标值;

步骤s23:根据标杆分子指纹、待测分子指纹,计算得到活性指标差值以及标杆分子与待测分子的相似度;

步骤s24:根据活性指标差值、待测分子的相似度及预设斯皮尔曼相关系数函数,计算得到目标相关度,目标相关度用于表征待测分子和标杆分子的相似度与活性指标差值之间的关联程度。

本发明实施例提供了一种基于分子指纹的相关度的计算方法,包括:获取标杆分子及待测分子,根据标杆分子及待测分子,提取标杆分子指纹以及待测分子指纹,获取待测分子的第一活性指标值以及标杆分子的第二活性指标值;根据标杆分子指纹、待测分子指纹,计算得到活性指标差值以及标杆分子与待测分子的相似度,根据活性指标差值、待测分子的相似度及预设斯皮尔曼相关系数函数,计算得到目标相关度,目标相关度用于表征待测分子和标杆分子的相似度与活性指标差值之间的关联程度。利用深度学习方法来从海量分子中提取特征向量,形成分子指纹,从而能够提升分子相似性与其活性差值之间的相关性。

具体地,通过下述公式,计算标杆分子与待测分子的相似度:

其中,similarity表示标杆分子与待测分子的相似度,fps1表示标杆分子指纹,fps3表示待测分子指纹;

通过下述公式计算相关度:

corr=spearman(similarity,|ic501-ic502|),

其中,corr表示待测分子和标杆分子的相似度与活性指标差值之间的相关度,spearman表示预设斯皮尔曼相关系数函数。

本发明实施例提供了一种分子指纹的提取装置,如图8所述,该装置包括:

待测分子字符获取模块31,用于获取待测分子的多个字符;详细实施内容可参见上述方法实施例中步骤s11的相关描述。

特征向量确定模块32,用于根据多个字符以及预设字符字典,分别确定各字符对应的特征向量;详细实施内容可参见上述方法实施例中步骤s12的相关描述。

第一分子指纹提取模块33,用于根据特征向量及分子指纹提取模型提取待测分子的分子指纹。详细实施内容可参见上述方法实施例中步骤s13的相关描述。

本发明提供的一种分子指纹的提取装置,包括:通过待测分子字符获取模块31,获取待测分子的多个字符;通过特征向量确定模块32,根据多个字符以及预设字符字典,分别确定各字符对应的特征向量;通过第一分子指纹提取模块33,根据特征向量及分子指纹提取模型提取待测分子的分子指纹。通过实施本发明,解决了相关技术中存在的基于人工设计的分子特征确定的分子指纹无法描述分子的整体结构的问题,可以更加精准的把握分子的关键信息,完整且全面描述分子的结构信息,从而可以使基于配体的虚拟筛选会更加准确和高效,从而有效缩减虚拟筛选所需时间。

本发明实施例提供了一种基于分子指纹的相关度的计算装置,如图9所示,该装置包括:

第二分子指纹提取模块41,用于获取标杆分子及待测分子,根据标杆分子及待测分子,提取标杆分子指纹以及待测分子指纹,标杆分子指纹以及待测分子指纹是根据上述实施例所述的分子指纹的提取方法得到的;详细实施内容可参见上述方法实施例中步骤s21的相关描述。

活性指标值获取模块42,用于获取待测分子的第一活性指标值以及标杆分子的第二活性指标值;详细实施内容可参见上述方法实施例中步骤s22的相关描述。

相似度计算模块43,用于根据标杆分子指纹、待测分子指纹、第一活性指标值及第二活性指标值,计算得到活性指标差值以及标杆分子与待测分子的相似度;详细实施内容可参见上述方法实施例中步骤s23的相关描述。

目标相关度计算模块44,用于根据活性指标差值、待测分子的相似度及预设斯皮尔曼相关系数函数,计算得到目标相关度,目标相关度用于表征待测分子和标杆分子的相似度与活性指标差值之间的关联程度。详细实施内容可参见上述方法实施例中步骤s24的相关描述。

本发明实施例提供了一种基于分子指纹的相关度的计算装置,包括:通过第二分子指纹提取模块41,获取标杆分子及待测分子,根据标杆分子及待测分子,提取标杆分子指纹以及待测分子指纹;通过活性指标值获取模块42,获取待测分子的第一活性指标值以及标杆分子的第二活性指标值;通过相似度计算模块43,根据标杆分子指纹、待测分子指纹,计算得到活性指标差值以及标杆分子与待测分子的相似度,通过目标相关度计算模块44,根据活性指标差值、待测分子的相似度及预设斯皮尔曼相关系数函数,计算得到目标相关度,目标相关度用于表征待测分子和标杆分子的相似度与活性指标差值之间的关联程度。利用深度学习方法来从海量分子中提取特征向量,形成分子指纹,从而能够提升分子相似性与其活性差值之间的相关性。

本发明实施例还提供了一种计算机设备,如图10所示,该计算机设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图10中以通过总线连接为例。

处理器51可以为中央处理器(centralprocessingunit,cpu)。处理器51还可以为其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的分子指纹的提取方法对应的程序指令/模块(例如,图8所示的待测分子字符获取模块31、特征向量确定模块32、第一分子指纹提取模块33,以及图9所示的第二分子指纹提取模块41、活性指标值获取模块42、相似度计算模块43、目标相关度计算模块44)。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的分子指纹的提取方法。

存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1所示实施例中的分子指纹的提取方法或者图7所示实施例中的基于分子指纹的相关度的计算方法。

上述计算机设备具体细节可以对应参阅图1以及图7所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。

可选地,本发明实施例还提供了一种非暂态计算机可读介质,非暂态计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行如上述实施例中任意一项描述的分子指纹的提取方法或者基于分子指纹的相关度的计算方法,其中,存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)、随机存储记忆体(randomaccessmemory,ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive,缩写:hdd)或固态硬盘(solid-statedrive,ssd)等;存储介质还可以包括上述种类的存储器的组合。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1