一种用于蛋白质结构预测的距离谱构建方法
【技术领域】
[0001] 本发明设及生物信息学、计算机应用领域,尤其设及的是一种用于蛋白质结构预 测的距离谱构建方法。
【背景技术】
[0002] 生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研 究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基 因表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。基因 组规定了所有构成该生物体的蛋白质,基因规定了组成蛋白质的氨基酸序列。虽然蛋白质 由氨基酸的线性序列组成,但是,它们只有折叠形成特定的空间结构才能具有相应的活性 和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认 识蛋白质是如何执行功能的。确定蛋白质的结构的是非常重要的。目前,蛋白质序列数据 库的数据积累的速度非常快,但是,已知结构的蛋白质相对比较少。尽管蛋白质结构测定技 术有了较为显著的进展,但是,通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较 高。因此,实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面,随着DNA测序 技术的发展,人类基因组及更多的模式生物基因组已经或将要被完全测序,DNA序列数量将 会急增,而由于DNA序列分析技术和基因识别方法的进步,我们可W从DNA推导出大量的蛋 白质序列。该意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质结构数 据库PDB中的数据)的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生 蛋白质序列的速度,或者减小两者的差距。
[0003] 传统的方法是通过基于物理场的能量模型或者基于知识的能量模型指导捜索的, 而该样存在着采样效率低、复杂度较高、预测精度较低的不足。所W该里引入了一种用于蛋 白质结构预测的距离谱的构建方法,提高了采样效率、降低了复杂度、提高了预测精度。
【发明内容】
[0004] 为了克服现有的构象空间优化方法存在采样效率较低、复杂度较高、预测精度较 低的不足,本发明提出一种蛋白质结构预测中距离谱的构建方法,蛋白质具有特定的空间 结构,相似的蛋白质具有相似的空间结构,其各个位置上残基间的距离也是相近的,所W可 W通过距离谱来指导预测蛋白质结构的捜索。距离谱是根据查询序列中残基和模板中残基 的序列谱、二级结构类型、溶剂可达性、中屯、原子二面角等等构建查询序列中各位置残基上 得分较高的片段,然后遍历每个位置上来自于同一个模板的片段,计算出模板中残基的距 离,该个距离和查询序列的空间构象中残基间的距离是相近的。本发明在蛋白质结构预测 中应用,可W得到预测精度较高、复杂度较低的构象。
[0005] 本发明解决其技术问题所采用的技术方案是:
[0006] 一种用于蛋白质结构预测的距离谱构建方法,所述构建过程包括W下步骤;1)构 建非冗余模板库:
[0007] 1. 1)从蛋白质数据库网站(ht化://www. rcsb. org)上下载分辨率小于2.0A的精 度较高的已知蛋白质序列;
[000引 1. 2)将下载得到的蛋白质序列分裂成单链;
[0009] 1. 3)计算每条链相对于其他链的累计相似度total_identity:
[0010]
(1)
[0011] 在公式(1)中,N为所有单链的总数,total_identityi为第i条链的累计相似度, identity^为第i条链与第j条链的相似度得分;
[0012] 1. 4) W 1000条链为一个单位将所有链分成多个组,在每个组中根据累计相似度 从大到小排列,从累计相似度大的开始依次与其他所有链进行比对剔除相似度大于30%的 链;
[001引1. W在所有组都比对完后,扩大分组中链的数量再进行相似度剔除,最终合成一 个组;
[0014] 1. 6)根据保留下来氨基酸链的PDB名称从蛋白质数据库网站上下载相应的蛋白 质结构,构成了非冗余的模板库;
[00巧]。生成片段库:
[0016] 2. 1)通过PSI-BLAST软件可W得到查询序列查询序列中每个残基相对于20个氨 基酸的特征频率谱P。和模板中残基相对于20个氨基酸的对数谱L t;
[0017]2. 2)通过PSSpred软件得到查询序列中残基的二级结构类型SS。和模板中残基的 二级结构类型SSt;
[001引 2.扣通过邸TSu计软件得到查询序列中残基的溶剂可达性sa。和模板中残基的溶 剂可达性sat;
[0019] 2. 4)通过ANGL0R软件得到查询序列中残基二面角Pg、iD。和模板中残基的二面角 奶、i])t;
[0020] 2. 5)计算模板片段相对于查询序列的相似度得分函数f(i,j):
[0021]
[0022] 在公式(2)中,i为查询序列中的残基位置,j为模板中残基的位置,k为20个氨 基酸的索引序号;巧1,'\¥2,'\¥3,'\¥4,*5为权重参数;
[0023] 2. 6)取得分高的前300个片段构成片段库;
[0024] 3)构建距离谱:
[0025] 3. 1)选取查询序列第i个位置的残基和第j个位置的残基,j〉i巧;
[0026] 3. 2)遍历i和j位置上的片段,选出来自于同个模板的片段;
[0027] 3. 3)计算该两个片段在模板构象上的距离dy;
[00測 3. 4)若馬<成》苗,W0.5A为距离间隔进行计数统计;否,则返回3. 2 ;
[0029] 4)绘制残基对的距离谱图:
[0030] 4. 1)图的横坐标为来自于同个模板的片段间的距离du,dyG (dmi。,dmJ ;
[0031] 4.2)图的纵坐标为落入相应区间的片段对个数。
[0032] 本发明的有益效果为;蛋白质具有特定的空间结构,相似的蛋白质具有相似的空 间结构,其各个位置上残基间的距离也是相近的,所W可W通过距离谱来指导预测蛋白质 结构的捜索。距离谱是根据查询序列中残基和模板中残基的序列谱、二级结构类型、溶剂可 达性、中屯、原子二面角等等构建查询序列中各位置残基上得分较高的片段,然后遍历每个 位置上来自于同一个模板的片段,计算出模板中残基的距离,该个距离和查询序列的空间 构象中残基间的距离是相近的。本发明在蛋白质结构预测中应用,可W得到预测精度较高、 复杂度较低的构象。
【附图说明】
[0033] 图1是1VII第5个残基E和第24个残基W的距离谱实验结果
[0034] 图2是1VII第13个残基M和第18个残基F的距离谱实验结果
【具体实施方式】
[0035] 下面结合附图对本发明作进一步描述。
[0036] 参照图1和图2,一种用于蛋白质结构预测的距离谱构建方法,所述构建过程包括 W下步骤:
[0037] 1)构建非冗余模板库:
[003引 1. 1)从蛋白质数据库网站化ttp://www. rcsb. org)上下载分辨率小于2.0A的精 度较高的已知蛋白质序列;
[0039]1. 2)将下载得到的蛋白质序列分裂成单链;
[0040]1. 3)计算每条链相对于其他链的累计相似度total_identity:
[0041]
(1)
[0042] 在公式(1)中,N为所有单链的总数,total_identityi为第i条链的累计相似度, identity^为第i条链与第j条链的相似度得分;
[0043] 1. 4) W 1000条链为一个单位将所有链分成多个组,在每个组中根据累计相似度 从大到小排列,从累计相似度大的开始依次与其他所有链进行比对剔除相似度大于30%的 链;
[0044]1. 5)在所有组都比对完后,扩大分组中链的数量再进行相似度剔除,最终合成一 个组;
[0045] 1. 6)根据保留下来氨基酸链的PDB名称从蛋白质数据库网站上下载相应的蛋白 质结构,构成了非冗余的模板库;
[0046] 2)生成片段库:
[0047] 2. 1)通过PSI-BLAST软件可W得到查询序列查询序列中每个残基相对于20个氨 基酸的特征频率谱P。和模板中残基相对于20个氨基酸的对数谱L t;
[0048]