蛋白质处理方法、设备、存储介质和计算机程序产品

文档序号:31625379发布日期:2022-09-24 00:27阅读:127来源:国知局
蛋白质处理方法、设备、存储介质和计算机程序产品

1.本发明涉及蛋白质处理技术领域,尤其涉及一种蛋白质处理方法、设备、存储介质和计算机程序产品。


背景技术:

2.同源蛋白是指在不同生物体中,由相同祖先的蛋白序列进化而来的蛋白质序列集合。通常意义上讲,两条蛋白质序列的相似程度超过30%,就判定两条蛋白质为同源蛋白。同源蛋白序列中包含共进化的信息,即一同突变的两个氨基酸位点通常在空间中是有接触的,这对于蛋白质的结构预测非常重要。目前,通常采用的蛋白质结构预测模型包括alphafold2等预测算法。但是,现有的蛋白质结构预测模型需要在大量同源蛋白的基础上完成结构预测,在没有同源蛋白或者同源蛋白数量少的情况下面性能表现差。同时,在结构预测之前的同源蛋白检索阶段,现有技术中的蛋白质检索方法都不能解决低资源同源蛋白检索的问题。当同源蛋白数目很少时,这些序列不足以为建立统计模型提供足够充分的信息,因此这些检索算法都会很快的在搜索的过程中结束,无法得到足够的蛋白质同源序列,进而导致蛋白质结构预测过程不能顺利进行。


技术实现要素:

3.本发明提供一种蛋白质处理方法、设备、存储介质和计算机程序产品,用以解决现有技术中同源蛋白数量少,导致结构蛋白质结构预测结果不准确的缺陷,提高蛋白质结构预测性能。
4.本发明提供一种蛋白质处理方法,包括:获取待处理蛋白质;根据所述待处理蛋白质,生成所述待处理蛋白质对应的至少一个自生成蛋白质,其中,所述待处理蛋白质与所述自生成蛋白质为同源蛋白;将至少一个所述自生成蛋白质存储至蛋白质数据库,以基于所述蛋白质数据库中的所述待处理蛋白质和/或所述自生成蛋白质,对所述待处理蛋白质进行结构预测。
5.根据本发明提供的一种蛋白质处理方法,所述根据所述待处理蛋白质,生成所述待处理蛋白质对应的至少一个自生成蛋白质,包括:获取所述待处理蛋白质中,每一个氨基酸位点排列的待处理序列信息;根据所述待处理序列信息,分别获取每一个所述氨基酸位点对应的位点排列概率;根据每一个所述位点排列概率,生成所述待处理蛋白质对应的至少一个自生成蛋白质。
6.根据本发明提供的一种蛋白质处理方法,所述根据每一个所述位点排列概率,生成所述待处理蛋白质对应的至少一个自生成蛋白质,包括:将每一个所述位点排列概率,输入至预设的序列生成模型,获得所述序列生成模型输出的所述待处理蛋白质对应的至少一个自生成蛋白质;其中,所述序列生成模型为采用第一样本同源蛋白,对基于自注意力的自回归模型进行训练得到,所述第一样本同源蛋白包括a个样本待处理蛋白质,以及a个所述样本待处理蛋白质分别对应的至少一个第一样本自生成蛋白质,其中,a为大于1的整数。
7.根据本发明提供的一种蛋白质处理方法,所述根据每一个所述位点排列概率,生成所述待处理蛋白质对应的至少一个自生成蛋白质,包括:获取预设的控制因子;通过所述控制因子对每一个所述位点排列概率进行加权;根据加权后的每一个所述位点排列概率,生成所述待处理蛋白质对应的至少一个所述自生成蛋白质。
8.根据本发明提供的一种蛋白质处理方法,所述根据所述待处理蛋白质,生成所述待处理蛋白质对应的至少一个自生成蛋白质,包括:将所述待处理蛋白质输入预设的隐变量处理模型,其中,所述隐变量处理模型包括编码器模块、先验网络模块和解码器模块;所述隐变量处理模型的处理过程如下:将所述待处理蛋白质输入所述编码器模块,获得所述编码器输出的、所述待处理蛋白质对应的原始隐变量分布期望;将所述原始隐变量分布期望输入所述先验网络模块,获得所述先验网络模块输出的采样隐变量分布期望;将所述采样隐变量分布期望输入所述解码器模块,获得所述解码器模块输出的一个所述自生成蛋白质;获得所述待处理蛋白质对应的所述自生成蛋白质的数量;确定所述数量未达到预设的数量阈值时,将所述自生成蛋白质作为新的所述待处理蛋白质,重新输入所述隐变量处理模型,获得所述隐变量处理模型重新输出的新的自生成蛋白质。
9.根据本发明提供的一种蛋白质处理方法,所述隐变量处理模型采用第二样本同源蛋白对原始隐变量处理模型训练得到,其中,所述原始隐变量处理模型包括原始编码器模块、原始先验网络模块和原始解码器模块,所述第二样本同源蛋白包括b个第二蛋白质,所述每一个第二蛋白质互为同源蛋白,b为大于1的整数;所述原始隐变量处理模型的训练过程如下:将b个所述第二蛋白质依次输入所述原始编码器模块,获得所述原始编码器模块分别输出的b个所述第二蛋白质的预测原始隐变量分布期望;依次将每一个预测原始隐变量分布期望输入所述原始先验网络模块,获得所述原始先验网络模块输出的预测采样隐变量分布期望;将每一个所述预测采样隐变量分布期望依次输入所述原始解码器模块,获得所述原始解码器模块输出的第二预测自生成蛋白质;根据所述预测原始隐变量分布期望和所述预测采样隐变量分布期望,计算信息散度;以所述第二预测自生成蛋白质和所述信息散度作为监督信号,调整所述原始隐变量处理模型的参数,直至所述第二预测自生成蛋白质和所述信息散度均能符合预设的监督条件时,确定所述原始隐变量处理模型为所述隐变量处理模型。
10.根据本发明提供的一种蛋白质处理方法,所述根据所述待处理蛋白质,生成所述待处理蛋白质对应的至少一个自生成蛋白质之后,所述将至少一个所述自生成蛋白质存储至蛋白质数据库之前,还包括:对每一个所述自生成蛋白质进行筛选,获得筛选后的所述待处理蛋白质对应的至少一个目标自生成蛋白质;所述将至少一个所述自生成蛋白质存储至蛋白质数据库,包括:将筛选后的所述待处理蛋白质对应的至少一个目标自生成蛋白质,存储至所述蛋白质数据库。
11.根据本发明提供的一种蛋白质处理方法,所述对每一个所述自生成蛋白质进行筛选,获得筛选后的所述待处理蛋白质对应的至少一个目标自生成蛋白质,包括:分别对每一个所述自生成蛋白质进行以下处理:获取所述自生成蛋白质的第一序列概率密度;当所述第一序列概率密度大于预设密度阈值时,确定所述自生成蛋白质为所述目标自生成蛋白质。
12.根据本发明提供的一种蛋白质处理方法,所述对每一个所述自生成蛋白质进行筛
选,获得筛选后的所述待处理蛋白质对应的至少一个目标自生成蛋白质,包括:获取所述待处理蛋白质的第一序列向量;分别对每一个所述自生成蛋白质进行以下处理:获取所述自生成蛋白质的第二序列向量;当所述第一序列向量与所述第二序列向量的差值,小于预设向量阈值时,确定所述自生成蛋白质为所述目标自生成蛋白质。
13.根据本发明提供的一种蛋白质处理方法,所述对每一个所述自生成蛋白质进行筛选,获得筛选后的所述待处理蛋白质对应的至少一个目标自生成蛋白质,包括:通过对偶抽样法,获取每一个所述自生成蛋白质的质量参考值;按照所述质量参考值从大到小的顺序,将每一个所述自生成蛋白质排序,生成蛋白序列;根据预设多样性选择法,从所述蛋白序列中确定至少一个所述目标自生成蛋白质,其中,至少一个所述同源蛋白在所述蛋白序列中的排列顺序不连续。
14.根据本发明提供的一种蛋白质处理方法,所述对每一个所述自生成蛋白质进行筛选,获得筛选后的所述待处理蛋白质对应的至少一个目标自生成蛋白质,包括:获取所述待处理蛋白质的第二序列概率密度;根据所述第二序列概率密度,生成目标概率密度比;分别对每一个所述自生成蛋白质进行以下处理:获取所述自生成蛋白质的第一序列概率密度;获取所述第一序列概率密度与所述第二序列概率密度的比值;当所述比值大于所述目标概率密度比时,确定所述自生成蛋白质为所述目标自生成蛋白质。
15.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述蛋白质处理方法的步骤。
16.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述蛋白质处理方法的步骤。
17.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述蛋白质处理方法的步骤。
18.本发明提供的蛋白质处理方法、设备、存储介质和计算机程序产品,获取待处理蛋白质之后,根据待处理蛋白质,生成待处理蛋白质对应的至少一个自生成蛋白质,其中,待处理蛋白质与自生成蛋白质为同源蛋白;将至少一个自生成蛋白质存储至蛋白质数据库,以基于蛋白质数据库中的待处理蛋白质和/或自生成蛋白质,对待处理蛋白质进行结构预测。在没有同源蛋白或者同源蛋白数量少的情况下,通过上述过程生成待处理蛋白质对应的至少一个自生成蛋白质,增多同源蛋白的数量,以便于后续使用蛋白质结构预测模型对同源蛋白的结构预测,避免无同源蛋白或者同源蛋白数量少造成结构预测不准确的情况,提高蛋白质结构预测的准确性。
附图说明
19.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1是本发明提供的蛋白质处理方法的流程示意图;
21.图2是本发明提供的基于自注意力的自回归模型结构示意图;
22.图3是本发明提供的序列生成模型加入控制因子时的原理示意图;
23.图4是本发明提供的隐变量处理模型的原理示意图;
24.图5是本发明提供的原始隐变量处理模型的训练示意图;
25.图6是本发明提供的蛋白质处理方法装置的结构示意图;
26.图7是本发明提供的电子设备的结构示意图。
具体实施方式
27.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.下面结合图1-图5描述本发明的蛋白质处理方法。
29.一个实施例中,如图1所示,蛋白质处理方法实现的流程步骤如下:
30.步骤101,获取待处理蛋白质。
31.本实施例中,待处理蛋白质指的是同源蛋白数量较少,无法进行结构预测的蛋白质。此时,需要通过本发明提供的方法生成待处理蛋白质对应的至少一个自生成蛋白质。
32.本实施例中,对蛋白质进行结构预测时,首先需要通过预设的蛋白质检索方法,检索蛋白质数据库中的同源蛋白,然后才能进行同源蛋白的结构预测。但是,但蛋白质数据库中,一个蛋白质的同源蛋白数目过少时,检索出的同源蛋白不足以为结构预测提供足够的信息。此时,即可将该数目较少的蛋白质中的至少一个,依次作为待处理蛋白质,采用本发明提供的方法进行处理。
33.步骤102,根据待处理蛋白质,生成待处理蛋白质对应的至少一个自生成蛋白质,其中,待处理蛋白质与自生成蛋白质为同源蛋白。
34.本实施例中,获取待处理蛋白质后,生成该待处理蛋白质对应的至少一个自生成蛋白质。该待处理蛋白质和每一个自生成蛋白质互为同源蛋白。同源蛋白指的是在不同生物体中,由相同祖先的蛋白序列进化而来的序列集合。例如,两条蛋白质的序列相似程度超过30%,该两条蛋白质互为同源蛋白。
35.步骤103,将至少一个自生成蛋白质存储至蛋白质数据库,以基于蛋白质数据库中的待处理蛋白质和/或自生成蛋白质,对待处理蛋白质进行结构预测。
36.本实施例中,获得自生成蛋白质之后,将自生成蛋白质保存至蛋白质数据库中,使蛋白质数据库中待处理蛋白质的同源蛋白数量增多,此时再采用预设的蛋白质检索方法,即可通过检索出的同源蛋白提供的足够信息,完成结构预测。
37.一个实施例中,提供一种具体的蛋白质生成方法,具体的,根据待处理蛋白质,生成待处理蛋白质对应的至少一个自生成蛋白质,实现过程如下:获取待处理蛋白质中,每一个氨基酸位点排列的待处理序列信息;根据待处理序列信息,分别获取每一个氨基酸位点对应的位点排列概率;根据每一个位点排列概率,生成待处理蛋白质对应的至少一个自生成蛋白质。
38.本实施例中,蛋白质是由至少一个氨基酸按照一定顺序排列组成的。每一个氨基酸排列的位置为该氨基酸在该蛋白质中的位点,各个氨基酸位点组成该蛋白质的序列信
sequence),输入至双向编码器(bidirection encoder)的同时,也输入控制因子(control factor),该控制因子表示为μ。图中的m、d、s、r、t分别表示一种氨基酸,cls代表该待处理蛋白质的全局表示,s和e为计算机程序中用于标识蛋白序列的特殊标记,s代表开始字符,e代表结束字符。控制因子μ作用于待处理蛋白质每一个氨基酸位点上,即通过控制因子对每一个位点排列概率进行加权。双向编码器对待处理蛋白质进行编码,使待处理蛋白质的信息转化为便于分析和计算的信息。
56.序列生成模型主要实现三个学习目标函数上的设计。每个目标函数均会存在响应的函数损失(loss)。具体的,第一,序列生成(sequence generation)目标。该目标函数与自然语言处理领域的常用的文本生成目标函数基本一致。要求自生成蛋白质,(又称同源蛋白序列,homology protein sequence)与给定的待处理蛋白质(又称目标蛋白序列,target protein sequence)尽可能一致。第二,msa分类(classification)任务。待处理蛋白质(又称目标蛋白序列,target protein sequence)通过编码器编码后,会得到一个基于整个序列的全局表示。我们要求同一个同源蛋白集合(msa)中不同蛋白质序列间的这个全局表示尽可能接近,而不同源蛋白集合(msa)中的蛋白质序列间的这个全局表示尽可能远。第三,循环一致性(cycle consistency)目标。该目标要求在直接根据待处理蛋白质生成自生成蛋白质的基础上,若反过来,将自生成蛋白质输入序列生成模型,也可以生成新的待处理蛋白质,并要求生成的新的待处理蛋白质与原始的待处理蛋白质尽可能一致。
57.本实施例中,通过控制因子的加入,使同源蛋白生成的过程更加灵活可控,能够实现通过需要的控制因素,灵活的影响同源蛋白的生成过程,提高同源蛋白生成的效率。
58.一个实施例中,提供另一种具体的蛋白质生成方法,具体的,根据待处理蛋白质,生成待处理蛋白质对应的至少一个自生成蛋白质,具体过程如下:将待处理蛋白质输入预设的隐变量处理模型,其中,隐变量处理模型包括编码器模块、先验网络模块和解码器模块;隐变量处理模型的处理过程如下:将待处理蛋白质输入编码器模块,获得编码器输出的、待处理蛋白质对应的原始隐变量分布期望;将原始隐变量分布期望输入先验网络模块,获得先验网络模块输出的采样隐变量分布期望;将采样隐变量分布期望输入解码器模块,获得解码器模块输出的一个自生成蛋白质;获得待处理蛋白质对应的自生成蛋白质的数量;确定数量未达到预设的数量阈值时,将自生成蛋白质作为新的待处理蛋白质,重新输入隐变量处理模型,获得隐变量处理模型重新输出的新的自生成蛋白质。
59.本实施例中,隐变量指的是辅助变量,表示的是样本属于哪一个高斯分布,隐变量是一个离散的随机变量。如图4所示,表示通过隐变量处理模型对待处理蛋白质进行处理的过程。图4中,x表示输入变量处理模型的指蛋白质序列,q(z|x)是指由编码器网络定义的后验分布,c是后验分布的均值;p(z|c)是条件先验网络定义的先验分布,其输入为c;r(x|z)是指重构网络,其输入为条件先验分布中采样得到的样本z;sample是指采样过程。待处理蛋白质输入编码器模块(encoder network),编码器模块用于将待处理蛋白质进行编码,并进行采样,由编码器模块输出原始隐变量分布期望。该原始隐变量分布期望随后输入至先验网络模块(prior network),该先验网络模块用于完成对原始隐变量分布期望对应的分布曲线进行采样,并输出采样隐变量分布期望。该采样隐变量分布期望随后输入至解码器模块(decoder network),由解码器模块通过采样隐变量分布期望,生成并输出一个自生成蛋白质。
60.本实施例中,如图4所示,通过隐变量处理模型生成自生成蛋白质的过程,为一个有限循环的过程。当一个待处理蛋白质输入至隐变量处理模型后,经过编码器模块、先验网络模块和解码器模块的一次处理,即可生成一个自生成蛋白质,此时,统计该待处理蛋白质对应的自生成蛋白质的数量。当解码器模块输出一个自生成蛋白质时,数量则加一,然后和预设的数量阈值进行比较,若数量未达到数量阈值时,则保存本次输出的自生成蛋白质的同时,将将本次循环中输出的该自生成蛋白质重新输入编码器模块,启动下一个循环处理过程,由解码器模块输出一个新的自生成蛋白质;若数量达到数量阈值时,则停止隐变量模型的循环。至此,隐变量处理模型输出的待处理蛋白质对应的自生成蛋白质的数量为数量阈值。
61.一个实施例中,隐变量处理模型是基于隐变量理论构造的模型。该隐变量处理模型可以基于上述实施例提到的原始的transformer模型来实现,例如,图2中给出的transformer模型。具体的,隐变量处理模型包括三个部分,即编码器模块、先验网络模块和解码器模块,每一个模块均可以采用一个单独的transformer模型作为骨架结构,即原始编码器模块、原始先验网络模块和原始解码器模块,分别以transformer模型作为骨架结构构建,然后对整个原始隐变量处理模型进行训练得到隐变量处理模型。
62.本实施例中,隐变量处理模型采用第二样本同源蛋白对原始隐变量处理模型训练得到,其中,原始隐变量处理模型包括原始编码器模块、原始先验网络模块和原始解码器模块,第二样本同源蛋白包括b个第二蛋白质,每一个第二蛋白质互为同源蛋白,b为大于1的整数。
63.原始隐变量处理模型的训练过程如下:将b个第二蛋白质依次输入原始编码器模块,获得原始编码器模块分别输出的b个第二蛋白质的预测原始隐变量分布期望;依次将每一个预测原始隐变量分布期望输入原始先验网络模块,获得原始先验网络模块输出的预测采样隐变量分布期望;将每一个预测采样隐变量分布期望依次输入原始解码器模块,获得原始解码器模块输出的第二预测自生成蛋白质;根据预测原始隐变量分布期望和预测采样隐变量分布期望,计算信息散度;以第二预测自生成蛋白质和信息散度作为监督信号,调整原始隐变量处理模型的参数,直至第二预测自生成蛋白质和信息散度均能符合预设的监督条件时,确定原始隐变量处理模型为隐变量处理模型。
64.本实施例中,如图5所示的原始隐变量处理模型的训练过程,其中,abhphlslqy、achphlslpy、cbhqhlslpy分别为不同蛋白质序列的示例。假设同源蛋白集合(第二样本同源蛋白的集合)中至少包括abhphlslqy、achphlslpy、cbhqhlslpy三个蛋白质序列(即第二蛋白质)。将同源蛋白集合中的abhphlslqy输入原始编码器模块(即图5中左侧的编码器),获得编码器模块输出的abhphlslqy的预测原始隐变量分布(即隐变量后验分布),从预测原始隐变量分布中采样得到预测原始隐变量分布期望,预测原始隐变量分布期望表示为p_1。然后预测原始隐变量分布经过原始解码器模块。(即图5中的解码器),输出第二预测自生成蛋白质,实现重构损失函数。
65.本实施例中,将同源蛋白集合中的achphlslpy输入预设的另一编码器(即图5中右侧的编码器)中,利用该编码器得到achphlslpy的隐变量向量(即achphlslpy的隐变量分布的期望),并将该隐变量期望输入至条件先验网络,获得预测采样隐变量分布(即条件先验分布),从预测采样隐变量分布中采样得到预测采样隐变量分布期望,预测采样隐变量分布
期望表示为p_2。
66.在这个训练过程中,通过将p_2和p_1计算信息散度。信息散度又称kullback-leibler散度,简称kl散度。将kl散度作为原始隐变量模型的一个监督信号,将第二预测自生成蛋白质作为另一个监督信号,使用第二样本同源蛋白对原始隐变量处理模型进行训练,直至第二预测自生成蛋白质和信息散度均能符合预设的监督条件时,确定原始隐变量处理模型为隐变量处理模型。
67.本实施例中,预设的监督条件可以根据实际情况和需要进行设定,本技术的保护范围不以监督条件的具体实现形式为限制。
68.一个实施例中,根据待处理蛋白质,生成待处理蛋白质对应的至少一个自生成蛋白质之后,将至少一个自生成蛋白质存储至蛋白质数据库之前,对每一个自生成蛋白质进行筛选,获得筛选后的待处理蛋白质对应的至少一个目标自生成蛋白质;将至少一个自生成蛋白质存储至蛋白质数据库,包括:将筛选后的待处理蛋白质对应的至少一个目标自生成蛋白质,存储至蛋白质数据库。
69.本实施例中,将筛选后的至少一个目标自生成蛋白质,存储至蛋白质数据库之后,基于蛋白质数据库中的待处理蛋白质和/或自生成蛋白质,对待处理蛋白质进行结构预测时,则可以基于蛋白质数据库中的待处理蛋白质和/或目标自生成蛋白质,对待处理蛋白质进行结构预测。对待处理蛋白质对应的至少一个自生成蛋白质进行筛选,能够避免因偶然因素造成某一个自生成蛋白质质量较差,或不符合要求,造成蛋白质数据库混乱的情况。
70.一个实施例中,根据实际情况和具体需求,可以采用需要的筛选方法实现自生成蛋白质的筛选。一种方式下,对每一个自生成蛋白质进行筛选,获得筛选后的待处理蛋白质对应的至少一个目标自生成蛋白质,具体实现过程如下:分别对每一个自生成蛋白质进行以下处理:获取自生成蛋白质的第一序列概率密度;当第一序列概率密度大于预设密度阈值时,确定自生成蛋白质为目标自生成蛋白质。
71.本实施例中,一个蛋白质的概率密度,可以根据该蛋白质每一个氨基酸位点上氨基酸的排列概率得到。例如,一个蛋白质包括x1,x2,x3,......,xn个氨基酸,p(x|y)表示一个氨基酸位点对应的排列概率,则该蛋白质的概率密度计算原理如式(1)所示:
72.p(x1,x2,x3,

,xn|y)=p(x1|y)p(x2|x1,y)

p(xn|x(n-1)

x1,y)
ꢀꢀꢀ
(1)。
73.本实施例中,预设密度阈值可以根据待处理蛋白质的概率密度,结合实际情况和需要进行设定。
74.一个实施例中,对每一个自生成蛋白质进行筛选,获得筛选后的待处理蛋白质对应的至少一个目标自生成蛋白质,具体实现过程如下:获取待处理蛋白质的第一序列向量;分别对每一个自生成蛋白质进行以下处理:获取自生成蛋白质的第二序列向量;当第一序列向量与第二序列向量的差值,小于预设向量阈值时,确定自生成蛋白质为目标自生成蛋白质。
75.本实施例中,可以采用预先训练的向量处理模型,对待处理蛋白质和每一个自生成蛋白质进行处理,得到相应的第一序列向量和第二序列向量。通过两个向量的比较,可以判断每一个自生成蛋白质和待处理蛋白质的相似程度,两个向量的差值越小,表明该自生成蛋白质和待处理蛋白质越相似。
76.一个实施例中,对每一个自生成蛋白质进行筛选,获得筛选后的待处理蛋白质对
应的至少一个目标自生成蛋白质,具体实现过程如下:通过对偶抽样法,获取每一个自生成蛋白质的质量参考值;按照质量参考值从大到小的顺序,将每一个自生成蛋白质排序,生成蛋白序列;根据预设多样性选择法,从蛋白序列中确定至少一个目标自生成蛋白质,其中,至少一个同源蛋白在蛋白序列中的排列顺序不连续。
77.本实施例中,通过对偶抽样法(antithetic sampling method),得到每一个自生成蛋白质的质量参考值后,按照质量参考值从大到小的顺序,将每一个自生成蛋白质排序,即按照自生成蛋白质的质量进行了排序。在蛋白序列中,排列位置越靠前,表明该自生成蛋白质的质量越高,越接近待处理蛋白质。
78.本实施例中,根据预设多样性选择法,例如,基于待处理蛋白质质量参考值的离散选择方法,能够通过筛选出的目标自生成蛋白质,最大化待处理蛋白质和目标自生成蛋白质之间的区别,提高同源蛋白的多样性,避免只取质量参考值更大的自生成蛋白质,导致的多样性不足问题,进而提高根据目标自生成蛋白质对待处理蛋白质进行结构预测的准确性。
79.一个实施例中,对每一个自生成蛋白质进行筛选,获得筛选后的待处理蛋白质对应的至少一个目标自生成蛋白质,具体实现过程如下:获取待处理蛋白质的第二序列概率密度;根据第二序列概率密度,生成目标概率密度比;分别对每一个自生成蛋白质进行以下处理:获取自生成蛋白质的第一序列概率密度;获取第一序列概率密度与第二序列概率密度的比值;当比值大于目标概率密度比时,确定自生成蛋白质为目标自生成蛋白质。
80.本实施例中,第一序列概率密度和第二序列概率密度可以基于上述实施例中的式(1)获得。根据第一序列概率密度与第二序列概率密度的比值,以及目标概率密度比,可以筛选出与待处理同源蛋白相似度更高的目标自生成蛋白质,即接受与待处理同源蛋白相似度更高的目标自生成蛋白质,将与待处理同源蛋白相似度低的目标自生成蛋白质去除,即拒绝与待处理同源蛋白相似度低的目标自生成蛋白质,进而提高根据目标自生成蛋白质对待处理蛋白质进行结构预测的准确性。
81.本实施例中,目标概率密度比根据待处理蛋白质的第二序列概率密度,结合实际情况和需要进行设定,本技术的保护范围不以目标概率密度比的具体数值为限制。
82.上述实施例中对自生成蛋白质进行筛选的过程,能够筛除生成的所有的中,对结构预测不利的一些同源蛋白,确定出更加符合结构预测要求的目标自生成蛋白质,相当于去除噪声的过程,进一步提高根据目标自生成蛋白质对待处理蛋白质进行结构预测的准确性。
83.一个实施例中,通过上述实施例的方法生成目标自生成蛋白质之后,将目标自生成蛋白质存储至待处理蛋白质对应的蛋白质数据库中,通过蛋白质检索方法对数量增加后的同源蛋白进行检索。进行同源蛋白检索的模型主要基于检索框架hhblist和多对多序列搜索(即mmseq)。其中,hhblist为通过对于已有序列已经检索的中间结果构建隐马尔可夫模型,来进行序列模糊匹配。hhblist可以实现在大规模的数据库入uniprot进行高质量以及快速的搜索。mmseq相比于hhblist有速度快的优势,它基于对于序列的聚类和统计来实现更加快速的序列搜索。
84.本实施例中,通过上述方式对同源蛋白进行检索后,通过预设的蛋白质结构预测模型,例如alphafold2模型,对蛋白质的结构进行预测。
85.本实施例中,结合深度学习的序列生成模型,利用模型产生的目标自生成蛋白质加入整个检索的流程,强化检索的信号,从而搜索到高质量的可以提高下游任务的同源蛋白序列。
86.本发明提供的蛋白质处理方法,获取待处理蛋白质之后,根据待处理蛋白质,生成待处理蛋白质对应的至少一个自生成蛋白质,其中,待处理蛋白质与自生成蛋白质为同源蛋白;将至少一个自生成蛋白质存储至蛋白质数据库,以基于蛋白质数据库中的待处理蛋白质和/或自生成蛋白质,对待处理蛋白质进行结构预测。在没有同源蛋白或者同源蛋白数量少的情况下,通过上述过程生成待处理蛋白质对应的至少一个自生成蛋白质,增多同源蛋白的数量,以便于后续使用蛋白质结构预测模型对同源蛋白的结构预测,避免无同源蛋白或者同源蛋白数量少造成结构预测不准确的情况,提高蛋白质结构预测的准确性。
87.下面对本发明提供的蛋白质处理装置进行描述,下文描述的蛋白质处理装置与上文描述的蛋白质处理方法可相互对应参照。重复之处不再重复。如图6所示,蛋白质处理装置包括:
88.获取模块601,用于获取待处理蛋白质;
89.生成模块602,用于根据待处理蛋白质,生成待处理蛋白质对应的至少一个自生成蛋白质,其中,待处理蛋白质与自生成蛋白质为同源蛋白;
90.存储模块603,用于将至少一个自生成蛋白质存储至蛋白质数据库,以基于蛋白质数据库中的待处理蛋白质和/或自生成蛋白质,对待处理蛋白质进行结构预测。
91.一个实施例中,生成模块602,具体用于获取待处理蛋白质中,每一个氨基酸位点排列的待处理序列信息;根据待处理序列信息,分别获取每一个氨基酸位点对应的位点排列概率;根据每一个位点排列概率,生成待处理蛋白质对应的至少一个自生成蛋白质。
92.一个实施例中,生成模块602,具体用于将每一个位点排列概率,输入至预设的序列生成模型,获得序列生成模型输出的待处理蛋白质对应的至少一个自生成蛋白质;其中,序列生成模型为采用第一样本同源蛋白,对基于自注意力的自回归模型进行训练得到,第一样本同源蛋白包括a个样本待处理蛋白质,以及a个样本待处理蛋白质分别对应的至少一个第一样本自生成蛋白质,其中,a为大于1的整数。
93.一个实施例中,生成模块602,具体用于获取预设的控制因子;通过控制因子对每一个位点排列概率进行加权;根据加权后的每一个位点排列概率,生成待处理蛋白质对应的至少一个自生成蛋白质。
94.一个实施例中,生成模块602,具体用于将待处理蛋白质输入预设的隐变量处理模型,其中,隐变量处理模型包括编码器模块、先验网络模块和解码器模块;隐变量处理模型的处理过程如下:将待处理蛋白质输入编码器模块,获得编码器输出的、待处理蛋白质对应的原始隐变量分布期望;将原始隐变量分布期望输入先验网络模块,获得先验网络模块输出的采样隐变量分布期望;将采样隐变量分布期望输入解码器模块,获得解码器模块输出的一个自生成蛋白质;获得待处理蛋白质对应的自生成蛋白质的数量;确定数量未达到预设的数量阈值时,将自生成蛋白质作为新的待处理蛋白质,重新输入隐变量处理模型,获得隐变量处理模型重新输出的新的自生成蛋白质。
95.一个实施例中,生成模块602,具体用于采用第二样本同源蛋白对原始隐变量处理模型训练得到隐变量处理模型,其中,原始隐变量处理模型包括原始编码器模块、原始先验
网络模块和原始解码器模块,第二样本同源蛋白包括b个第二蛋白质,每一个第二蛋白质互为同源蛋白,b为大于1的整数;原始隐变量处理模型的训练过程如下:将b个第二蛋白质依次输入原始编码器模块,获得原始编码器模块分别输出的b个第二蛋白质的预测原始隐变量分布期望;依次将每一个预测原始隐变量分布期望输入原始先验网络模块,获得原始先验网络模块输出的预测采样隐变量分布期望;将每一个预测采样隐变量分布期望依次输入原始解码器模块,获得原始解码器模块输出的第二预测自生成蛋白质;根据预测原始隐变量分布期望和预测采样隐变量分布期望,计算信息散度;以第二预测自生成蛋白质和信息散度作为监督信号,调整原始隐变量处理模型的参数,直至第二预测自生成蛋白质和信息散度均能符合预设的监督条件时,确定原始隐变量处理模型为隐变量处理模型。
96.一个实施例中,蛋白质处理装置还包括筛选模块604。
97.筛选模块604,用于根据待处理蛋白质,生成待处理蛋白质对应的至少一个自生成蛋白质之后,将至少一个自生成蛋白质存储至蛋白质数据库之前,对每一个自生成蛋白质进行筛选,获得筛选后的待处理蛋白质对应的至少一个目标自生成蛋白质。
98.存储模块603,具体用于将筛选后的待处理蛋白质对应的至少一个目标自生成蛋白质,存储至蛋白质数据库。
99.一个实施例中,筛选模块604,具体用于分别对每一个自生成蛋白质进行以下处理:获取自生成蛋白质的第一序列概率密度;当第一序列概率密度大于预设密度阈值时,确定自生成蛋白质为目标自生成蛋白质。
100.一个实施例中,筛选模块604,具体用于获取待处理蛋白质的第一序列向量;分别对每一个自生成蛋白质进行以下处理:获取自生成蛋白质的第二序列向量;当第一序列向量与第二序列向量的差值,小于预设向量阈值时,确定自生成蛋白质为目标自生成蛋白质。
101.一个实施例中,筛选模块604,具体用于通过对偶抽样法,获取每一个自生成蛋白质的质量参考值;按照质量参考值从大到小的顺序,将每一个自生成蛋白质排序,生成蛋白序列;根据预设多样性选择法,从蛋白序列中确定至少一个目标自生成蛋白质,其中,至少一个同源蛋白在蛋白序列中的排列顺序不连续。
102.一个实施例中,筛选模块604,具体用于获取待处理蛋白质的第二序列概率密度;根据第二序列概率密度,生成目标概率密度比;分别对每一个自生成蛋白质进行以下处理:获取自生成蛋白质的第一序列概率密度;获取第一序列概率密度与第二序列概率密度的比值;当比值大于目标概率密度比时,确定自生成蛋白质为目标自生成蛋白质。
103.图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)701、通信接口(communications interface)702、存储器(memory)703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令,以执行蛋白质处理方法,该方法包括:根据待处理蛋白质,生成待处理蛋白质对应的至少一个自生成蛋白质,其中,待处理蛋白质与自生成蛋白质为同源蛋白;将至少一个自生成蛋白质存储至蛋白质数据库,以基于蛋白质数据库中的待处理蛋白质和/或自生成蛋白质,对待处理蛋白质进行结构预测。
104.此外,上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
105.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的蛋白质处理方法,该方法包括:根据待处理蛋白质,生成待处理蛋白质对应的至少一个自生成蛋白质,其中,待处理蛋白质与自生成蛋白质为同源蛋白;将至少一个自生成蛋白质存储至蛋白质数据库,以基于蛋白质数据库中的待处理蛋白质和/或自生成蛋白质,对待处理蛋白质进行结构预测。
106.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的蛋白质处理方法,该方法包括:根据待处理蛋白质,生成待处理蛋白质对应的至少一个自生成蛋白质,其中,待处理蛋白质与自生成蛋白质为同源蛋白;将至少一个自生成蛋白质存储至蛋白质数据库,以基于蛋白质数据库中的待处理蛋白质和/或自生成蛋白质,对待处理蛋白质进行结构预测。
107.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
108.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
109.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1