一种非核糖体蛋白质-rna复合物近天然结构的筛选方法
【专利摘要】一种非核糖体蛋白质-RNA复合物近天然结构的筛选方法,属于蛋白质-RNA分子对接复合物结构预测领域。首先,通过构象搜索获得蛋白质-RNA各种可能的结合模式;然后,对其合理性进行评价,其间综合考虑了蛋白质-RNA分子间的静电和范德华相互作用能,以及复合物界面上氨基酸-核苷酸成对偏好势。各项的权重是通过采用线性回归的方法,来对对接结构的配体均方根偏差和其能量项的加权组合值进行拟合得到的;最后,根据分值从小到大进行排序,从而判断近天然结构。该方法在非核糖体蛋白质-RNA分子对接近天然结构的筛选中有很好的效果,成功率较高,可用于该类蛋白质-RNA复合物结构预测领域,为分子改造和设计提供重要的依据。
【专利说明】—种非核糖体蛋白质-RNA复合物近天然结构的筛选方法
【技术领域】
[0001]本发明属于蛋白质-RNA分子对接复合物结构预测领域,是一种用于筛选非核糖 体蛋白质-RNA对接近天然结构的方法。
【背景技术】
[0002]细胞内RNA众多功能的发挥,如mRNA剪接、tRNA转运、以及蛋白质的翻译调控等, 都必须与一定的蛋白质形成特异性相互作用才能实现[I]。目前,随着实验技术的发展, 通过X射线衍射和核磁共振等实验手段获得蛋白质单体或RNA单体结构相对容易实现,然 而要得到蛋白质-RNA复合物结构却非常困难。因此,通过蛋白质-RNA复合物结构预测方 法——分子对接,来得到蛋白质-RNA近天然结构就尤为重要。该方法不仅可用于复合物结 构预测领域,而且可为分子改造和设计提供重要依据。
[0003]分子对接由构象搜索和打分筛选两个部分组成,其中前者用于产生大量复合物结 合模式,而后者是对前者产生的结构模式进行评价,从而给出可能的近天然结构(近天然结 构为与天然结构的配体均方根偏差小于10.0 A的结合模式)。对于蛋白质-RNA结合模式 的构象搜索,目前已有一些现成的软件可以实现,如FTDockt2]和RossetaDock等。对于打 分筛选,如何设计合理有效的打分函数具有一定的挑战性[3]。
[0004]国际上发展的对接打分方法主要是针对蛋白质-蛋白质复合物进行的[4]。对于蛋 白质-RNA对接打分,目前存在的主要是一些统计势模型。2004年,Chen等人[5]提出了一个 距离和方位依赖的氢键统计势,并将其用于复原蛋白质-RNA界面上的氨基酸。由于界面上 氨基酸-核苷酸接触中通过氢键接触的数量只占总体接触数的23.0%,因此单独的氢键统 计势并不能完全反应蛋白质-RNA相互作用的信息[6]。Zhao等人m从97个RNA-配体复合物 结构中提取了原子接触势模型,用于药物设计。但是,该模型并不适用于蛋白质-RNA复合 物近天然结构的筛选。比起原子水平的接触势模式,粗粒化的残基水平的接触势模型因其 计算量较小而有更加广泛的应用空间。Jones[8]>Treger[6]>Kim[9]>Ellis[10]和P6rez_Cano[3] 五个小组分别从32,45,51,89和282个蛋白质-RNA相互作用对中获得了氨基酸-核苷酸 成对偏好势,其中P6rez-Can0获得的模型在分子对接打分中的成功率最高,为42.4%[3'11]。
[0005]通过调研文献,我们认为在成对偏好势中,考虑复合物功能类型及蛋白质和RNA 的二级结构信息,能进一步提高氨基酸-核苷酸成对偏好势区分正确与错误结构的能力。 因为有统计分析显示,在蛋白质-RNA复合物界面上,蛋白质和RNA都有一定的二级结构偏 好,且这种偏好与复合物功能类型有关[8’9]。据此,2010年我们构建了一个非冗余非核糖体 的蛋白质-RNA相互作用数据库,其中包含252个界面。在此基础上发展了一个考虑复合 物功能类型及蛋白质和RNA 二级结构信息的氨基酸-核苷酸成对偏好势[11]。该统计势具 有60X8的矩阵形式,即60X8氨基酸-核苷酸成对偏好势。其近天然结构筛选成功率为 65.5%,比P6rez-Cano小组获得的统计势模型的成功率提高了 23.1%[11]。
[0006]为了进一步提高蛋白质-RNA分子对接中近天然结构筛选的成功率,我们在60X8 氨基酸-核苷酸成对偏好势模型的基础上又考虑了分子间静电和范德华相互作用的影响,发展了一种新的非核糖体蛋白质-RNA复合物近天然结构的筛选方法。测试结果表明,该方法的成功率比60X8氨基酸-核苷酸成对偏好势的成功率又有9.0%的提高。
[0007]参考文献:
[0008]1.T.W.Nilsenj and B.R.Graveley,“Expansion of the Eukaryotic Proteome byAlternative Splicing”,Nature, vol.463,n0.7280,pp.457-463,2010.[0009]2.E.Katchalsk1-Katzirj 1.Sharivj M.Eisensteinj A.Friesemj C.Aflaloj 1.Vakserj “Molecular Surface Recognition:Determination of Geometric Fit betweenProtein and Their Ligands by Correlation Techniques,,,Proc Natl Acad SciUSA, vol.89,pp.2195-2199,1992.[0010]3.L.Perez-Canoj A.Solernouj C.Pons, and J.Fernandez-Recioj “StructuralPrediction of Protein-RNA Interaction by Computational Docking withPropensity-Based Statistical Potentials,,,Pac Symp Biocomputj vol.15, pp.269-280,2010.[0011]4.M.F.Lensinkj and S.J.Wodakj “Docking and Scoring Protein Interactions:CAPRI2009,Proteins, vol.78,n0.15,pp.3073-3084,2010.[0012]5.Y.Chen, T.Kortemmej T.Robertson, D.Baker, and G.Varanij “A NewHydrogen-Bonding Potential for the Design of Protein - RNA Interactions PredictsSpecific Contacts and Discriminates Decoys”,Nucleic Acids Res, vol.32, n0.17,pp.5147 - 5162,2004.[0013]6.M.Tregerj and E.Westhofj “Statistical Analysis of Atomic Contacts atRNA-Protein Interfaces,,,J Mol Recognitj vol.14, n0.4, pp.199-214,2001.[0014]7.X.Y.Zhao, X.F.Liuj Y.Y.Wang, Z.Chen, L.Kang, H.L.Zhang, X.M.Luoj W.L Zhuj Κ.X.Chen, H.L Li,X.C.Wang, and H.L Jiang, “An Improved PMF Scoring Functionfor Universally Predicting the Interactions of a Ligand with Protein, DNAj andRNA”,J Chem Inf Model, vol.48,n0.7,pp.1438-1447,2008.[0015]8.S.Jones, D.T.A.Daley, N.M.Luscombe,H.M.Berman,andJ.M.Thornton, “Protein - RNA Interactions: a Structural Analysis,,,Nucleic AcidsRes, vol.29,n0.4,pp.`943-954,2001.[0016]9.H.Kimj E.Jeongj S.W.Lee, and K.Hanj “Computational Analysis of HydrogenBonds in Protein-RNA Complexes For Interaction Patterns,,,FEBS Lett, vol.552, n0.2_3,pp.231-239,2003.[0017]10.J.J.Ellis, M.Broom, and S.Jones,“Protein - RNA Interactions:StructuralAnalysis and Functional Classes,,,Proteins,vol.66,n0.4,pp.903-911,2007.[0018]11.C.H.Li,L.B.Cao,J.G.Su,Y.X.Yang,and C.X.Wang, “A NewResidue-Nucleotide Propensity Potential with the Structure InformationConsidered for Discriminating Protein-RNA Docking Decoys,,,Proteins,vol.80,n0.1,pp.14-24,2012.
【发明内容】
[0019]本发明的目的是提供一种非核糖体蛋白质-RNA复合物近天然结构的筛选方法, 用于筛选复合物近天然结构,达到高的成功率。
[0020]一种非核糖体蛋白质-RNA复合物近天然结构的筛选方法,其特征在于,包括以下步骤:
[0021]步骤(1):
[0022]采用FTDock软件对蛋白质-RNA结合模式进行构象搜索。
[0023]由于FTDock是一个用于蛋白质-蛋白质分子对接的软件,构象搜索中静电效应计算不适用于RNA,但是这里我们不考虑静电效应,只是利用了 FTDock中的快速傅里叶变换搜索方法进行构象搜索。具体命令为:
[0024]ftdock-static protein, parsed-mobiIe rna.parsed-noelec
[0025]其中,protein, parsed为蛋白质结构文件,rna.parsed为RNA结构文件,noelec表示在构象搜索中不考虑静电效应。其他构象搜索参数,如分子表面厚度和角度采样步长等都采取默认参数设置(参考【背景技术】中文献[2])。对于每一个蛋白质-RNA体系,用FTDock 进行构象搜索优选获得10000个结合模式,以用于下一步的分值计算。
[0026]步骤(2):
[0027]对步骤(1)获得的结合模式进行分值计算。该分值是一个加权组合打分函数的结果,涵盖了分子间静电和范德华相互作用能,和考虑了复合物类型和分子二级结构信息的氨基酸-核苷酸成对偏好势。打分函数为:
[0028]分值=0.01017XEelesa+0.01198XEelesr+0.01148XEelela+0.01071 XEelelr+0.02421 XVattr+0.00215XVrep+0.12786 XErp (I)
[0029]其中,Eelesa, Eelesr, Eelela, Eelelr, Vattr, Vrep, Erp依次代表静电短程吸引、静电短程排斥、静电长程吸引、静电长程排斥、范德华吸引、范德华排斥和氨基酸-核苷酸成对偏好势; 最终,根据复合物体系不同结合模式的打分值的大小由低到高排序,分值较低的结构被认为是近天然结构。公式(I)中每一项前面都有一个权重系数,体现了各项贡献的重要程度。 下面列出各项具体的计算公式。
[0030]静电相互作用能为:
[0031]
【权利要求】
1.则为短程作用,rg 5.0 A则为长程作用;范德华吸引和排斥相互作用能分别为:
2.按照权利要求1的方法,其特征在于,步骤(1)用FTDock进行构象搜索获得10000个结合模式。
3.按照权利要求1的方法,其特征在于,步骤(1)利用了FTDock中的快速傅里叶变换搜索方法进行构象搜索。
4.按照权利要求1的方法,其特征在于,采用FTDock软件对蛋白质-RNA结合模式进行构象搜索,具体命令为:
ftdock-static protein, parsed-mobile rna.parsed—noelec 其中,protein, parsed为蛋白质结构文件,rna.parsed为RNA结构文件,noelec表不在构象搜索中不考虑静电效应。
【文档编号】G06F19/22GK103500293SQ201310400300
【公开日】2014年1月8日 申请日期:2013年9月5日 优先权日:2013年9月5日
【发明者】李春华, 张弘古村, 刘斌, 谢小露, 张蕾, 谭建军, 张小轶, 王存新 申请人:北京工业大学