专利名称:一种蛋白质侧链预测的层次化建模方法
技术领域:
本发明涉及蛋白质结构预测技术领域,尤其涉及蛋白质侧链预测的层次化建模方法。
背景技术:
蛋白质侧链(Side-chain)空间结构是影响蛋白质分子结构及功能的重要因素。一方面,不同氨基酸残基的“R”基团构成存在很大差异;另一方面,受蛋白质主链(Main-chain,或Backbone)构成及构象、分子溶液环境等影响,同一种氨基酸残基“R”基团也将呈现不同构象。通常将一种氨基酸残基“R”基团的特定结构状态称为该残基的旋转异构体(rotational isomer,或称rotamer)。为便于侧链预测,通常采用化学键的扭转角(torsion angles,或称二面角,dihedral angles)来描述旋转异构体。氨基酸残基中除参与肽键形成这一部分(主链)的二面角Φ、Ψ、ω外,侧链上还存在xl、χ2、χ3、χ4等O到4个不等的二面角。一组二面角序列可以确定蛋白质特定的空间结构。蛋白质结构预测就是找出最接近天然结构的这组二面角序列。通常认为蛋白质的结构组成单元——氨基酸残基的侧链形态与蛋白质主链形态密切相关。通常的蛋白质侧链预测分为两大阶段:一是基于主链形态分别为每个残基位置生成侧链旋转异构体库;二是基于该库进行采样,并结合主链形态组装最终构象。侧链旋转异构体库的生成实际上是一个机器学习问题,从大量已知数据集(训练集)中学习一个连续模型,然后基于该模型进行采样,从而构建所需的旋转异构体库,作为侧链预测离散空间的表达。目前广泛采用的侧链预测方法基于侧链形态与主链形态的关联性,通过机器学习的手段,将主链形态信息作为系统的重要输入,从而导出侧链形态的二面角描述。通常采用的主链信息包括残基类型aa、二级结构类型ss、主链扭转角Φ、主链扭转角Ψ四种。而描述侧链的信息则根据残基类型采用O 4个二面角:xl、x2、x3、x4。发明人认为,除主链对侧链的影响外,侧链二面角之间也有相互影响,而这种影响从侧链根部(靠近主链部分)到末梢逐级递减。换言之,残基侧链扭转角一方面受到残基类型以及主链信息的影响,另一方面还受到侧链内部接近主链一侧扭转角的影响。而目前常用的侧链预测方法往往忽略了这种影响。如果考虑到这种影响关系,在建模时就应当将4个X角的推理分别放在不同层次上。本发明基于动态贝叶斯网络(DynamicBayesianNetworks, DBN),结合xl、x2、x3、x4对旋转异构体结构贡献的不同,设计了蛋白质侧链预测层次化建模方法。
发明内容
针对现有技术的不足,本发明所要解决的技术问题在于提供一种用于蛋白质结构侧链预测的层次化建模方法,能够有效提高蛋白质侧链预测质量。为此,本发明采用以下技术方案,它包括以下步骤:(I).以主链信息作为输入,执行第一层推理单元,输出侧链扭转角Xl ;
(2).以主链信息、侧链扭转角Xl作为输入,执行第二层推理单元,输出侧链扭转角x2 ;(3).以主链信息、侧链扭转角xl、x2作为输入,执行第三层推理单元,输出侧链扭转角x3 ;(4).以主链信息、侧链扭转角xl、x2、x3作为输入,执行第四层推理单元,输出侧链扭转角x4。本发明基于侧链形态既与主链形态有关,又受侧链上相邻二面角的影响这种认识,设计了蛋白质侧链预测的层次化建模方法。建模方法总体流程如图1所示。该方法输入为当前残基所对应的主链信息:残基类型aa、二级结构类型SS、主链扭转角0、主链扭转角V,输出为当前残基的侧链二面角描述:xl、x2、x3、x4。图中实线矩形为推理单元。所有推理单元按层次进行组织。在每一层中,分别根据各层的实际需求设计了数量不等的输入数据,而各层只有一个输出。只保留一个未知结点,有利于降低模型复杂程度,缓解数据稀疏现象。同时,对每一个侧链扭转角的推理,既考虑到主链信息的影响,又考虑到主链一侧X角的影响,符合对蛋白质侧链形态的认识。该方法针对各个层次分别单独操作。在第一层中,选取残基类型aa、二级结构类型ss、主链二面角0、主链二面角V4个属性作为推理输入,侧链扭转角xl为推理输出;第二层的输入在第一层基础上增加了 xl,侧链扭转角x2为推理输出。以下各层依次类推。由于氨基酸的侧链二面角个数可能为0 4,为便于模型操作,对于侧链二面角个数不足4个的情况,通过标记特殊值的方法加以区别,即在整理输出数据时,过滤掉特殊值,从而得到符合实际氨基酸结构特点的输出数据。本发明基于动态贝叶斯网络(DBN)设计推理单元。本发明还针对上述各层推理单元,提供了层次化建模方法的训练流程。训练流程的输入为蛋白质三维构象集合,输出为各层推理单元的最优DBN模型。其中,no Improve表示训练质量未提高次数,convergentlter表示收敛迭代阈值,bestLL表示最好似然值,bestBic表示最好Bic值,具体训练流程如下:(2.1).为当前层推理单元创建DBN模型对象,记为dbn ;(2.2).为该dbn对象创建EM引擎,记为em ;(2.3).将训练数据装入em引擎;(2.4).当 nolmprove < convergentlter 时,进入(2.5),否则退出训练流程;
(2.5).执行 em 的 E 步骤;(2.6).计算em的似然值11 ;(2.7).执行 em 的 M 步骤;(2.8).如果 11 > bestLL,则用 11 更新 bestLL,同时将 nolmprove 清 0,否贝丨Jnolmprove 自增;(2.9).根据 bestLL 计算 bic 值;(2.10).如果 bic > bestBic,则用 bic 更新 bestBic。具体训练流程如图2所示。训练过程中,采用贝叶斯信息标准BIC打分函数评价DBN模型质量。随着训练参数的增加,模型极大似然值越来越大,因此只能依靠极大似然值来进行模型选择。而BIC是大样本前提下对边缘似然函数的一种逼近,是一种用于模型选择的统计方法。其公式如下:BIC = 21n(L)-pin(η) (公式 I)其中,L表示模型极大似然估计,P表示训练时参数个数,η表示训练集数据条数。BIC打分函数考虑了惩罚机制,使得没有出现似然值显著增长的参数增加被忽略掉。从而在给定数据情况下得到最优参数个数,避免得到过拟合模型。本发明采用Mocappy++l.0工具训练模型。Mocappy是一个通过MCMC (MarkovChain Monte Carlo)来进行动态贝叶斯网络参数学习和推理的工具。该工具可以方便地描述与蛋白质结构有关的概率模型,便于程序员将精力集中于模型本身,而不用过多考虑参数选择和学习算法。训练过程的输出是针对各层推理单元的最优DBN模型(根据bestBic确定),这些模型将用于下一步采样过程中。本发明将训练过程中获得的上述4个层次推理单元所对应的最优DBN模型分别标记为nip m2、m3、m4。本发明还提供了层次化建模方法的采样流程。基于训练流程所获 得的各层推理单元DBN模型,本发明针对目标主链构象,通过各层推理单元进行采样,以获得目标主链各个残基位置处的旋转异构体库。为此设计了层次化建模方法的采样流程。采样流程的输入为已知目标主链构象信息,包括上述残基类型aa、二级结构类型ss、主链扭转角Φ、主链扭转角Ψ等四种;输出为主链各残基位置处所对应的旋转异构体库。由于输出的侧链扭转角逐层叠加,最终的旋转异构体信息集中在第四层输出当中。在米样过程中,本发明将用于第一层米样的输入信息称为b1;仅包含aa、ss、Φ、Ψ等已知数据,隐结点信息设置为0,xl为空(用O表示)。接下来对第一层采样的结果进行调整,增加已知的xl角度,并设置x2为空。调整之后,将其作为第二层采样的输入信息,本发明称其为b2。同样,在第二层采样结果的基础上增加x2角度,并设置x3为空,作为第三层输入信息,称为b3 ;在第三层采样结果的基础上增加x3角度,并设置x4为空,作为第四层输入信息,称为b4。每层通过采样的方式,依次增加已知信息,并向下一层传递。具体采样步骤如下:(3.1).参数初始化,包括采样信息Id1初始化为主链信息,符号1^、m2、m3、m4表示训练流程输出的针对第I 4层推理单元的DBN模型,采样次数t由用户输入,该流程中用符号S表示采样结果集合,即最终的旋转异构体库;(3.2).为第I层推理单元的DBN模型Hi1计算Viterbi路径P1 ;(3.3).设置循环计数器i = 1,j = I ;(3.4).基于Viterbi路径p]和采样信息bp采用模型n^_进行一次采样,采样结果记入Sj ;(3.5).基于Sj为第j+Ι层构建米样信息bj+1,该米样信息在权利要求1中描述为各层的输入信息;(3.6).为第j+Ι层推理单元的DBN模型计算Viterbi路径pJ+1 ;(3.7).计数器 j增 I;(3.8).如果 j < 4,转第(3.4)步;(3.9).将采样结果S4累计保存到结果集合S中;
(3.10).计数器i 增 I ;(3.11) 如果 i ≤ t,转第(3.4)步。具体采样流程如图3所示。每一次采样结果保存在S4中,而最终的采样结果累积到S中。S的结构可分为t个部分,每部分对应目标蛋白质一条完整的采样结构。在每一部分中,整条蛋白质主链每个残基位置对应I个旋转异构体,每个旋转异构体占I行。这样,对于长度为n的主链的每个位置i而言,其所对应的t个旋转异构体分别位于结果S中的第nX (j-l)+i行,其中j =l,2,...,t。S的结构如图4所示。对结构预测而言,获取采样结果之后,接下来将进行结构装配,具体到侧链预测就是为目标主链结构添加侧链,形成最终的三维构象。本发明重点在于提供侧链预测的层次化建模方法,在装配结构之前还进行了层次化建模方法的评价。对层次化建模方法的评价包括两个方面:各层推理单元的DBN模型质量;最终采样的旋转异构体库质量。两个方面的评价结果表明本发明所提出的层次化建模方法能够更准确地模拟天然蛋白质侧链扭转角状态,生成质量更高的DBN模型;并基于这些DBN模型采样获得了质量更高的旋转异构体库。因此,本发明对于提高蛋白质侧链预测质量具有基础意义。
为了更清楚地说明本发明,下面将对本发明和现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明所针对的方法原理及本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1是蛋白质侧链预测层次化建模方法的总体流程图。图2是层次化建模方法训练阶段的流程图。图3是层次化建模方法采样阶段的流程图。图4是最终采样结果S的结构示意图。图5a、5b、5c、5d分别是本发明实施例提供的训练方法实验结果图:DBN模型BIC值。图5a是为第一层推理单元训练而得到的49个DBN模型所对应的BIC值。横坐标为模型编号,纵坐标为BIC值。与图5a类似,图5b、5c、5d分别对应于第二、三、四层推理单元DBN模型的BIC值。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明公开了一种蛋白质侧链预测层次化建模方法,通过对蛋白质结构数据库中所提供的结构数据进行分类,分别用于不同层次上的训练。该方法既考虑到主链形态对侧链结构的影响,又考虑到侧链扭转角之间的影响关系。对每一个层次而言,由于有针对性地选择了适合的训练数据,相对减少了训练数据的稀疏性,提高了各层次上的训练质量,并成功获得了质量较高的DBN模型。同时,基于每一层所对应的最好DBN模型进行采样,将采样结果封装为下一次所需要的采样数据,依次对每一层进行采样。本发明在蛋白质侧链预测层次化建模方法的采样中,获得了质量较高的旋转异构体库,表明本发明的方法有望组装出质量较高的蛋白质三维结构。下面结合实施例对本发明提供的蛋白质侧链预测层次化建模方法进行详细描述。实施例一采用的训练数据是与Dunbrack库所采用的训练集相同的850个蛋白质。这些数据是PDB库中通过X射线晶体学方法得到的。如果PDB结构中含有多条链,则只取其中的A链,且保证任意两条链之间相似性不超过50%。训练流程需要用到以下8种数据:残基类型aa、二级结构类型ss、主链扭转角Φ、主链扭转角¥、侧链扭转角11、12、13和14。训练之前需要将信息数字化,将连续数据离散化。首先是蛋白质类型,目前已知参与蛋白质组成的常见氨基酸只有20种,因此蛋白质类型本身就是离散化的信息,分别用整数O 19表示。同样,主链二级结构也是离散信息。本发明所考虑的蛋白质二级结构只有α螺旋、β折叠、Loop三种,分别用整数O 2表示。而扭转角信息是连续值,本发明以1°为单位将连续值离散化,即舍弃小数位。这样即方便训练模型,又不会因过度离散化而丢失太多信息。此外,由于20种氨基酸的侧链各不相同,有些氨基酸没有侧链或侧链各种形态等价,即X角不存在,本发明将这种情况下的X角度值用数值360表示。因此,X角度值离散化之后有361个可能数值(O 360)。本发明在16核1.6-GHz AMD CPU的AMD机群上并行对四个层次进行训练。实验设置模型编号H < 50,因此每层分别训练了 49个DBN模型。训练结果中每个DBN模型的BIC如图5所示。图5a 5d分别描述了第I 4层的训练结果。横坐标是DBN模型编号H,纵坐标是其BIC值。由图中可以看出,在整个训练过程中,各DBN模型的BIC值先上升,最高值分别位于曲线前半段,然后逐渐下降,并趋于稳定。由于训练过程相当耗时,因此确定合理的H值有助于有效节约训练时间。根据当前实验数据的变化趋势,当H > 50时应该难以有更高的BIC出现。说明设置H < 50比较合理。最终根据BIC选择的最优DBN模型及相关训练情况如表I所示。表I层次化建模方法训练结果
权利要求
1.一种蛋白质侧链预测的层次化建模方法,其特征在于它包括以下步骤: (1).以主链信息作为输入,执行第一层推理单元,输出侧链扭转角Xl; (2).以主链信息、侧链扭转角Xl作为输入,执行第二层推理单元,输出侧链扭转角x2 ; (3).以主链信息、侧链扭转角xl、x2作为输入,执行第三层推理单元,输出侧链扭转角x3 ; (4).以主链信息、侧链扭转角xl、x2、x3作为输入,执行第四层推理单元,输出侧链扭转角x4。
2.根据权利要求1所述的一种蛋白质侧链预测的层次化建模方法,其特征在于,针对上述各层推理单元,还提供了层次化建模方法的训练流程;训练流程输入为蛋白质三维构象集合,输出为对应于各层推理单元的DBN模型;训练流程涉及以下参数moImpiOve表示训练质量未提高次数,convergentlter表示收敛迭代阈值,bestLL表示最好似然值,bestBic表示最好Bic值;所述训练流程包括以下过程: (2.1).为当前层推理单元创建DBN模型对象,记为dbn ; (2.2).为该dbn对象创建EM引擎,记为em ; (2.3).将训练数据装入em引擎; (2.4).当 no Improve < convergentlter 时,进入(2.5),否则退出训练流程; (2.5).执行em的E步骤; (2.6).计算em的似然值11 ; (2.7).执行em的M步骤;(2.8).如果 11 > bestLL,则用 11 更新 bestLL,同时将 no Improve 清 O,否则 no Improve自增; (2.9).根据 bestLL 计算 bic 值; (2.10).如果 bic > bestBic,则用 bic 更新 bestBic。
3.根据权利要求1所述的一种蛋白质侧链预测的层次化建模方法,其特征在于,针对所述各层推理单元,并结合权利要求2所述训练流程输出的对应于各层推理单元的DBN模型,它还提供了层次化建模方法的采样流程;采样流程输入为目标骨架信息,并结合对应于各层推理单元的DBN模型进行采样,输出为目标骨架各残基位置处的旋转异构体库;采样流程包括: (3.1).参数初始化,包括采样信息Id1初始化为主链信息,符号m2、m3、m4表示训练流程输出的针对第I 4层推理单元的DBN模型,采样次数t由用户输入,该流程中用符号S表示采样结果集合,即最终的旋转异构体库; (3.2).为第I层推理单元的DBN模型Iii1计算Viterbi路径P1 ; (3.3).设置循环计数器i = 1,j = I ; (3.4).基于Viterbi路径p]和采样信息Iv采用模型π^_进行一次采样,采样结果记入Sj ; (3.5).基于Sj为第j+Ι层构建米样信息bj+1,该米样信息在权利要求1中描述为各层的输入信息; (3.6).为第j+Ι层推理单元的DBN模型计算Viterbi路径pj+1 ;(3.7).计数器j增1;(3.8).如果j <4,转第(3.4)步;(3.9).将采样结果S4累计保存到结果集合S中;(3.10).计数器i增I;(3.11).如 果 i ( t,转第(3.4)步。
全文摘要
本发明提供了一种蛋白质侧链预测的层次化建模方法。它包括以下步骤(1)以主链信息作为输入,执行第一层推理单元,输出侧链扭转角x1;(2)以主链信息、侧链扭转角x1作为输入,执行第二层推理单元,输出侧链扭转角x2;(3)以主链信息、侧链扭转角x1、x2作为输入,执行第三层推理单元,输出侧链扭转角x3;(4)以主链信息、侧链扭转角x1、x2、x3作为输入,执行第四层推理单元,输出侧链扭转角x4。在该层次化建模方法基础上,针对上述各层推理单元,本发明还提供了层次化建模方法的训练流程。同时,针对所述各层推理单元,并结合训练流程输出的对应于各层推理单元的DBN模型,还提供了层次化建模方法的采样流程。
文档编号G06F19/12GK103093117SQ20131001549
公开日2013年5月8日 申请日期2013年1月16日 优先权日2013年1月16日
发明者蒋云良, 黄旭, 吕强, 缪大俊, 钱培德, 范婧 申请人:湖州师范学院