基于单独注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质与流程

文档序号:24383230发布日期:2021-03-23 11:17阅读:132来源:国知局
基于单独注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质与流程

本发明涉及化合物蛋白质分子结构与性质领域,具体涉及一种基于单独注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质。



背景技术:

识别化合物和蛋白质之间的相互作用对发现和开发安全有效的药物具有重要意义。揭示未知的化合物蛋白质相互作用(cpi)有助于预测潜在的副作用,并发现现有药物的新用途,如药物重定位。单纯依靠传统实验识别cpi既费时又昂贵,因此基于临床试验已经测量到的相互作用,使用统计和机器学习的模型来预测化合物蛋白质相互作用强度是一个重要的替代方法。如从化学基因组学角度开发出的机器学习预测方法,该方法将化学空间、基因组空间及其相互作用考虑到统一的框架内。

深度学习的引入被证明是预测药物靶点结合亲和力的最佳模型之一。深度学习的主要优点是通过在每一层中进行非线性转换,它们能够更好的表示原始数据进而便于学习数据中隐藏的模式。然而很多模型的化合物表示仅仅是分子指纹、单一的smiles字符串。这样会使编码的化合物特征表示丢失许多化合物原有的重要信息,造成最终预测化合物蛋白质亲和力值的不准确性。



技术实现要素:

本发明的目的是为了解决上述化合物分子重要信息丢失并提高预测准确率等问题,本发明实施例提供了一种基于单独注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质,能够将化合物分子的结构性质编码到smiles字符串中,从而可以提取到更多关于化合物分子的信息,并且在化合物蛋白质特征表示过程中分别加入注意力模型即单独注意力机制使得获取更精确的特征表示向量,并且使用深度学习方法提高预测化合物蛋白质亲和力值的准确率。

根据本发明实施例的第一方面,提供了基于单独注意力机制的预测化合物蛋白质亲和力方法。

在一些可选实施例中,所述方法包括双向门控循环单元(bigru)模型和卷积神经网络(cnn)模型,整个网络架构为bigru/bigru-cnn,其中bigru/bigru模型中加入了单独注意力机制(separate_attention)。所述的双向门控循环单元模型包括两个门控循环单元(gru)组成的序列处理模型,一个输入是向前输入,另一个输入是反向输入,是一个只有输入门和忘记门双向递归神经网络。模型的输入为化合物序列与蛋白质序列,二者输入到bigru/bigru模型里。其中化合物序列表示为加入化合物分子理化性质的smiles字符串称为smiles#,蛋白质序列表示由蛋白质的结构属性编码而成。bigru/bigru输出为经过单独的注意力模型表示的化合物特征向量和蛋白质特征向量。所述的cnn模型由卷积层、池化层、全连接层组成,该模型的输入为化合物特征向量、蛋白质特征向量;该bigru/bigru-cnn模型的最终输出为预测化合物蛋白质亲和力值的根均方误差值。

可选的,所述的双向门控循环单元(bigru)模型能够让数据从正反两个方向同时输入,使每一时刻的信息都包含了前后时刻的序列信息,相当于网络在某个特定时刻的序列信息增多,充分利用历史数据的信息,从而使预测更加准确。bigru的基本思想是将每个训练序列向前和向后呈现给两个单独的隐藏层,这两个层都连接到相同的输出层。因此输出层就具有了输入序列中每个点的完整过去和未来的信息。其中门控循环单元(gru)对多元时间序列进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控(resetgate)和控制更新的门控(updategate),得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到-1~1的范围内,最后使用上文所述的更新门控进行“遗忘”和“记忆”功能,将状态进行更新到0~1之间,门控信号越接近1,代表“记忆”下来的数据越多。

可选的,所述的单独注意力机制(separate_attention)将注意力分别放在化合物原子和蛋白质二级结构上,可使模型在化合物和蛋白质的字母级别上具有可解释性。

可选的,所述的卷积神经网络(cnn)模型由卷积(convolution),激活(activation),池化(pooling)三种结构组成。cnn输出的结果是对应化合物蛋白质的特定特征空间,再将cnn输出的特征空间作为全连接层或全连接神经网络(fullyconnectedneuralnetwork,fcn)的输入,用全连接层来完成从输入化合物特征向量和蛋白质特征向量的亲和力值得映射。

可选的,所述方法的输入为选定的2个变量,输入变量含有来自uniref数据库的蛋白质结构属性序列、来自stitch数据库的化合物smiles#。其中蛋白质结构属性序列由蛋白质的二级结构、蛋白质氨基酸序列的长度、蛋白质的理化性质(极性/非极性、酸性/碱性)和蛋白质的溶剂可及性编码而成。其中化合物smiles#序列由smiles字符串、化合物拓扑极性表面积和化合物复杂度编码而成。

可选的,对所述的带有单独注意力机制的bigru/bigru-cnn模型利用已有的大量蛋白质化合物亲和力值进行训练,并获得了完善的模型参数。

根据本发明的实施的第二方面,提供一种计算机设备。

在一些可选实施例中,所述计算机设备,包括存储器,显卡,中央处理器,以及存储在所述存储器上的可被所述中央处理器以及显卡并行处理的可执行程序,存储器特征在于,所述中央处理器所执行所述程序时实现以下步骤:构建目标检测与目标预测模型,所述目标检测与目标预测模型包括:特征提取网络和预测网络。首先利用特征提取网络对输入的化合物smiles#序列和蛋白质结构属性序列进行特征提取;将提取的特征向量矩阵利用目标预测模型,目标预测模型是利用卷积、池化和全连接对特征向量矩阵进行操作,输出结合亲和力的预测值与实际值的根均方误差值。

可选的,所述的双向门控循环单元(bigru)模型能够让数据从正反两个方向同时输入,使每一时刻的信息都包含了前后时刻的序列信息,相当于网络在某个特定时刻的序列信息增多,充分利用历史数据的信息,从而使预测更加准确。bigru的基本思想是将每个训练序列向前和向后呈现给两个单独的隐藏层,这两个层都连接到相同的输出层。因此输出层就具有了输入序列中每个点的完整过去和未来的信息。其中门控循环单元(gru)对多元时间序列进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控(resetgate)和控制更新的门控(updategate),得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到-1~1的范围内,最后使用上文所述的更新门控进行“遗忘”和“记忆”功能,将状态进行更新到0~1之间,门控信号越接近1,代表“记忆”下来的数据越多。

可选的,所述的单独注意力机制(separate_attention)将注意力分别放在化合物原子和蛋白质二级结构上,可使模型在化合物和蛋白质的字母级别上具有可解释性。

可选的,所述的卷积神经网络(cnn)模型由卷积(convolution),激活(activation),池化(pooling)三种结构组成。cnn输出的结果是对应化合物蛋白质的特定特征空间,再将cnn输出的特征空间作为全连接层或全连接神经网络(fullyconnectedneuralnetwork,fcn)的输入,用全连接层来完成从输入化合物特征向量和蛋白质特征向量的亲和力值得映射。

可选的,所述方法的输入为选定的2个变量,输入变量含有来自uniref数据库的蛋白质结构属性序列、来自stitch数据库的化合物smiles#。其中蛋白质结构属性序列由蛋白质的二级结构、蛋白质氨基酸序列的长度、蛋白质的理化性质(极性/非极性、酸性/碱性)和蛋白质的溶剂可及性编码而成。其中化合物smiles#序列由smiles字符串、化合物拓扑极性表面积和化合物复杂度编码而成。

可选的,对所述的带有单独注意力机制的bigru/bigru-cnn模型利用已有的大量蛋白质化合物亲和力值进行训练,并获得了完善的模型参数。

利用人工智能技术对药物领域时空序列进行智能处理,能够解决由于新药开发成本高、耗时长并且常常存在安全等问题。能够在已确定安全的旧药物和放弃使用的化合物中筛选新的药物和治疗目标,这种趋势正在改变药物研发的局面,并形成一种新药研发的药物重定位模式。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

图1是本发明中双向gru的具体流程图

图2是本发明的系统主题方案图

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法、产品等而言,由于其与实施例公开的方法部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

图2出示了基于单独注意力机制的预测化合物蛋白质亲和力方法一个可选实施架构。

该可选实例中,所述方法包括双向门控循环单元(bigru)模型和卷积神经网络(cnn)模型,整个网络架构为bigru/bigru-cnn,其中bigru/bigru模型中加入了单独注意力机制(separate_attention)。所述的双向门控循环单元模型包括两个门控循环单元(gru)组成的序列处理模型,一个输入是向前输入,另一个输入是反向输入,是一个只有输入门和忘记门双向递归神经网络。模型的输入为化合物序列与蛋白质序列,二者输入到bigru/bigru模型里。其中化合物序列表示为加入化合物分子理化性质的smiles字符串称为smiles#,蛋白质序列表示由蛋白质的结构属性编码而成。bigru/bigru输出为经过单独的注意力模型表示的化合物特征向量和蛋白质特征向量。所述的cnn模型由卷积层、池化层、全连接层组成,该模型的输入为化合物特征向量、蛋白质特征向量;该bigru/bigru-cnn模型的最终输出为预测化合物蛋白质亲和力值的根均方误差值。

可选的,所述的双向门控循环单元(bigru)模型能够让数据从正反两个方向同时输入,使每一时刻的信息都包含了前后时刻的序列信息,相当于网络在某个特定时刻的序列信息增多,充分利用历史数据的信息,从而使预测更加准确。bigru的基本思想是将每个训练序列向前和向后呈现给两个单独的隐藏层,这两个层都连接到相同的输出层。因此输出层就具有了输入序列中每个点的完整过去和未来的信息。其中门控循环单元(gru)对多元时间序列进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控(resetgate)和控制更新的门控(updategate),得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到-1~1的范围内,最后使用上文所述的更新门控进行“遗忘”和“记忆”功能,将状态进行更新到0~1之间,门控信号越接近1,代表“记忆”下来的数据越多。

可选的,所述的单独注意力机制(separate_attention)将注意力分别放在化合物原子和蛋白质二级结构上,可使模型在化合物和蛋白质的字母级别上具有可解释性。

可选的,所述的卷积神经网络(cnn)模型由卷积(convolution),激活(activation),池化(pooling)三种结构组成。cnn输出的结果是对应化合物蛋白质的特定特征空间,再将cnn输出的特征空间作为全连接层或全连接神经网络(fullyconnectedneuralnetwork,fcn)的输入,用全连接层来完成从输入化合物特征向量和蛋白质特征向量的亲和力值得映射。

可选的,所述新型编码方式的输入为选定的2个变量,输入变量含有来自uniref数据库的蛋白质结构属性序列、来自stitch数据库的化合物smiles#。其中蛋白质结构属性序列由蛋白质的二级结构、蛋白质氨基酸序列的长度、蛋白质的理化性质(极性/非极性、酸性/碱性)和蛋白质的溶剂可及性编码而成。其中化合物smiles#序列由smiles字符串、化合物拓扑极性表面积和化合物复杂度编码而成。

可选的,所述的单独注意力机制(separate_attention)将注意力分别放在化合物原子和蛋白质二级结构上,可使模型在化合物和蛋白质的字母级别上具有可解释性。

可选的,所述模型还包括双向门控循环单元模型训练过程,下边给出双向门控循环单元模型的训练过程的一个具体实施例。

该实施例中,在目标检测与目标预测模型的训练过程中,首先,将化合物分子序列输入一个bigru模型中,将蛋白质序列输入另一个bigru模型中,再将二者融合进入cnn模型,以此构成训练数据,训练过程中化合物bigru模型和蛋白质bigru模型的单元数分别设置为128(cell)和256(cell),然后将两个bigru模型即bigru/bigru模型与cnn模型一起训练,为了减小模型的复杂度,将bigru/bigru模型预先训练固定好参数,再将二者一起训练确定cnn模型的参数。bigru/bigru使用单独注意力机制(separate_attention),单独注意力机制(separate_attention)将注意力分别放在化合物原子和蛋白质二级结构上,可使模型在化合物和蛋白质的字母级别上具有可解释性。整个模型训练的初始学习率为0.0001,并设置损失函数(lossfuction)为平均绝对误差损失(maeloss),在训练过程中通过计算预测值与真实值之间的误差,利用adam优化器调节网络参数,调整模型参数的权重,然后通过不断迭代,不断降低损失函数值,使网络最终收敛。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由处理器执行以完成以下步骤:构建双向门控循环单元(bigru)模型,所述的双向门控循环单元模型包括两个门控循环单元(gru)组成的序列处理模型,一个输入是向前输入,另一个输入是反向输入,是一个只有输入门和忘记门双向递归神经网络。模型的输入为化合物特征表示与蛋白质特征表示,其中化合物特征表示为加入化合物分子理化性质的smiles字符串称为smiles#,化合物分子的理化性质包括化合物的拓扑极性表面积、化合物的复杂度等;蛋白质的特征表示由蛋白质的结构属性编码而成。最终输出为表示化合物的特征向量和表示蛋白质的特征向量。所述的cnn模型由卷积层、池化层、全连接层组成,该模型的输入为化合物的特征向量、蛋白质的特征向量;该bigru-cnn模型的最终输出预测化合物蛋白质亲和力值的均方误差值。

可选的,所述的双向门控循环单元(bigru)模型能够让数据从正反两个方向同时输入,使每一时刻的信息都包含了前后时刻的序列信息,相当于网络在某个特定时刻的序列信息增多,充分利用历史数据的信息,从而使预测更加准确。bigru的基本思想是将每个训练序列向前和向后呈现给两个单独的隐藏层,这两个层都连接到相同的输出层。因此输出层就具有了输入序列中每个点的完整过去和未来的信息。其中门控循环单元(gru)对多元时间序列进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控(resetgate)和控制更新的门控(updategate),得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到-1~1的范围内,最后使用上文所述的更新门控进行“遗忘”和“记忆”功能,将状态进行更新到0~1之间,门控信号越接近1,代表“记忆”下来的数据越多。

可选的,所述的单独注意力机制(separate_attention)将注意力分别放在化合物原子和蛋白质二级结构上,可使模型在化合物和蛋白质的字母级别上具有可解释性。

可选的,所述的卷积神经网络(cnn)模型由卷积(convolution),激活(activation),池化(pooling)三种结构组成。cnn输出的结果是对应化合物蛋白质的特定特征空间,再将cnn输出的特征空间作为全连接层或全连接神经网络(fullyconnectedneuralnetwork,fcn)的输入,用全连接层来完成从输入化合物特征向量和蛋白质特征向量的亲和力值得映射。

可选的,所述新型编码方式的输入为选定的2个变量,输入变量含有来自uniref数据库的蛋白质结构属性序列、来自stitch数据库的化合物smiles#。其中蛋白质结构属性序列由蛋白质的二级结构、蛋白质氨基酸序列的长度、蛋白质的理化性质(极性/非极性、酸性/碱性)和蛋白质的溶剂可及性编码而成。其中化合物smiles#序列由smiles字符串、化合物拓扑极性表面积和化合物复杂度编码而成。

可选的,对所述的带有单独注意力机制的bigru/bigru-cnn模型利用已有的大量蛋白质化合物亲和力值进行训练,并获得了完善的模型参数。

上述非临时性计算机可读存储介质可以是只读存储器(readonlymemory,rom)、随机存取存储器(randomaccessmemory,ramd、磁带和光存储设备等。

利用人工智能技术对药物领域时空序列进行智能处理,能够解决由于新药开发成本高、耗时长并且常常存在安全等问题。能够在已确定安全的旧药物和放弃使用的化合物中筛选新的药物和治疗目标,这种趋势正在改变药物研发的局面,并形成一种新药研发的药物重定位模式。

本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。所属技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本文所披露的实施例中,应该理解到,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

应当理解的是,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本发明并不局限于上面已经描述并在附图中示出的流程及结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1