构建植物蛋白质互作网络的方法

文档序号:9598078阅读:1471来源:国知局
构建植物蛋白质互作网络的方法
【技术领域】
[0001 ] 本发明涉及生物技术,尤其涉及一种构建植物蛋白质互作网络的方法。
【背景技术】
[0002] 蛋白质之间的相互作用几乎对所有细胞过程必不可少,大部分基因在蛋白质水平 通过与其它蛋白质的相互作用来行使生物学功能。目前,已发展一些实验手段,如酵母双杂 交、亲和纯化等技术方法来解析蛋白质的相互作用关系。随着已完成基因组序列信息的急 剧增加,对基因/蛋白质之间的相互关系的认识已远远落后基因序列的增长,而解析蛋白 质互作的实验方法不仅通量较低、而且技术要求较高,难以大规模开展相关研究工作。
[0003] 过去十几年发展了许多基于计算机方法来预测蛋白质之间的相关作用关系,包括 基因融合、基因进化谱、基因共表达、基因邻位、同源映射等方法。尽管这些方法利用不同类 型的生物数据资源来预测蛋白质相互作用关系,但这些方法均基于非结构特征的间接依据 进行预测,限制了方法的准确性。

【发明内容】

[0004] 本发明的目的,就是为了解决上述问题,提供一种构建植物蛋白质互作网络的方 法。
[0005] 为了达到上述目的,本发明采用了以下技术方案:一种构建植物蛋白质互作网络 的方法,包括如下步骤:
[0006] 步骤1、在全基因组水平,用Modeller同源建模软件对植物基因进行同源结构 建模,同源模型筛选标准为BLAST的E值〈10 5、或ModPipe的MPQS(ModPipe quality score)质量分值彡 0.5、或 GA341 值彡 0.5(Melo et al.,2007)、或 z-DOPE 值 <0(Shen et al. , 2006) 〇
[0007] 步骤2、从PDB与PISA数据库收集同源或异源蛋白质复合体空间结构数据,用 PIBASE软件包计算蛋白质复合体各链间互作界面的结构(interface structures)及对应 互作残基。用TM-Align软件对蛋白质同源结构与复合体模板进行空间结构比对叠加。
[0008] 步骤3、筛选模板建模分值(TM-Score)大于0. 4的蛋白质同源结构与复合体模板 间的空间叠加结果(Zhang et al.,2004),计算结构特征,具体包括基因同源结构与复合体 模板之间的均方根偏差(Root-mean-square deviation)、模板建模分值、以及蛋白质同源 结构之间互作界面保守残基数目以及互作界面保守残基比例。
[0009] 步骤4、非结构特征计算,包括基因共表达,G0三类属性的基因功能相似性,基因 系统发生谱,蛋白质相互作用的跨物种保守性(Interolog)以及基因融合。
[0010] 步骤5、构建蛋白质相互作用阳性数据集与非相互作用蛋白质对阴性数据集, 根据每一蛋白质对的4类结构与7类非结构特征,利用R软件包中的随机森林(Random Forests)算法训练目标植物蛋白质互作模型,选择分裂属性的个数mtry为4,生成决策树 的数目为500。
[0011] 步骤6、利用训练后的蛋白质互作分类器对植物整个基因组所有蛋白质两两之间 的相互作用关系进行预测,随机森林模型的筛选阈值多0. 5。
[0012] 步骤7、使用Cytoscape (http://www. cytoscape. org/)软件构建植物全基因组水 平的蛋白质相互作用关系网络。
[0013] 本发明针对现有技术存在的不足,提供了一种将蛋白质空间结构与非结构特征相 结合,利用随机森林算法预测蛋白质之间相互作用关系的方法,提高了蛋白质之间相互作 用关系预测的准确性,并可以此构建植物全基因组水平的基因相互作用网络。
【附图说明】
[0014] 图1为本发明构建植物蛋白质互作网络方法的流程图。
[0015] 图2是水稻蛋白质互作网络拓扑结构。
【具体实施方式】
[0016] 下面以水稻全基因组水平的蛋白质互作网络构建为例,参照图1,具体说明本发明 构建植物蛋白质互作网络方法的具体实施步骤。
[0017] 步骤1、从水稻基因组中分离非转座子相关基因,用Modeller同源建模软件构建 稳定的水稻蛋白质结构模型,其筛选标准符合下述条件之一:局部序列比对工具BLAST E 值〈105、或 MPQS(ModPipe quality score)值彡 0.5、或 GA341 值彡 0.5、或 z-DOPE 值〈0。
[0018] 步骤2、从PDB与PISA数据库收集同源或异源蛋白质复合体空间结构数据,用 PIBASE软件包计算蛋白质复合体各链间互作界面的结构(interface structures)及对应 互作残基。用TM-Align软件对水稻蛋白质同源结构与复合体模板进行空间结构比对叠加, 筛选稳定的水稻蛋白质同源结构与复合体模板间的空间叠加结果,其筛选标准为模板建模 分值TM-Score大于0. 4。
[0019] 步骤3、计算水稻蛋白质同源结构与复合体模板之间的均方根偏差RMSD值、同源 结构与复合体模板之间的建模分值、水稻蛋白质同源结构间互作界面保守残基数目以及互 作界面保守残基比例。
[0020] 步骤 4、从 NCBI (http://www. ncbi. nlm. nih. gov/)的 SRA 数据库中下载获得水稻 RNA-seq样本数据,过滤低质量及污染序列后,获得高质量的RNA测序reads,采用TopHat2 与Htseq-count连用计算上述各个样本中水稻基因表达丰度,并基于表达数据,计算水稻 基因两两之间的皮尔逊相关系数(Pearson correlation coefficient)。
[0021] 步骤 5、根据 Gene Ontology 数据,分 Biological process,Molecular function 及Cellular component三类属性计算水稻基因之间功能相似性分值。基因功能相似性分 值定义为S = log (n/N)/log (2/N),其中η是Gene Ontology中包含有这两个基因的最低层 次G0类别所含基因数目,N是水稻基因组注释基因总数。
[0022] 步骤6、收集已完成测序的真核和原核基因组,筛选去除进化类似的基因组数据。 对水稻基因与已完成测序基因组的与所有编码蛋白质序列进行BLAST比对(设定E值 〈10,。如有匹配序列为1,反之为0,结果产生一个代表同源序列存在与否的η维向量的 基因系统进化谱。
[0023] 步骤7、从BioGRID、IntAct、DIP、MINT及BIND数据库中收集大肠杆菌、酵母、线 虫、果蝇、小鼠、人以及拟南芥7个物种的蛋白质互作数据,并根据InParanoid方法计算获 Λ厂 得的与上述物种直系同源的水稻基因,按公式S = x )计算水稻基因之间互作 Ml 可能性大小的Interolog分值,其中ISai是水稻基因 A与上述各物种直系同源基因 A' i 的InParanoid值,ISbi是水稻基因 B与上述各物种直系同源基因 V i的InParanoid值。
[0024] 步骤8、对水稻蛋白质与NCBI (http://www. ncbi. nlm. nih. gov/)的nr蛋白质数据 库进行BLAST比对,如水稻两个非同源蛋白质序列与nr数据库中的第三条蛋白质序列的不 同区域存在至少70%的序列相似性,该两个水稻基因为Rosetta Stone蛋白质。
[0025] 步骤9、从BioGRID、IntAct、DIP、MINT及BIND数据库中收集水稻蛋白质互作数据 为阳性数据集,非相互作用蛋白质对则由软件随机产生。计算每一蛋白质对的4类结构与 7类非结构特征数值,利用R软件包中的随机森林(Random Forests)算法训练水稻蛋白质 互作模型,选择分裂属性的个数mtry为4,生成决策树的数目为500。
[0026] 步骤10、计算水稻所有非转座子相关蛋白质两两之间的4类结构与7类非结构特 征值,利用训练后的水稻蛋白质互作分类器对水稻全基因组水平的蛋白质相互作用关系进 行的预测,获得708819对水稻蛋白质互作关系,并用Cytoscape构建水稻蛋白质互作网络。
[0027] 水稻蛋白质互作网络拓扑结构如图2所示。
【主权项】
1. 一种构建植物蛋白质互作网络的方法,其特征在于:包括以下步骤: 一、植物基因同源结构建模,同源结构模型筛选标准为BLAST的E值〈105、或MPQS值 彡0· 5、或GA341值彡0· 5、或z-DOPE值〈0 ; 二、 蛋白质同源结构与复合体模板进行空间结构比对叠加; 三、 选择模板建模分值大于〇. 4的空间叠加结果,计算结构特征,具体包括蛋白质同源 结构与复合体模板之间的均方根偏差、同源结构与复合体模板之间的模板建模分值、蛋白 质同源结构间互作界面保守残基数目以及互作界面保守残基比例; 四、 非结构特征计算,具体包括基因共表达,GO三类属性的基因功能相似性,基因系统 发生谱,蛋白质相互作用关系的跨物种保守性以及基因融合; 五、 利用随机森林算法进行植物蛋白质互作模型训练,随机森林算法选择分裂属性的 个数为4,生成决策树的数目为500 ; 六、植物蛋白质相互作用关系预测,其筛选阈值多0. 5 ; 七、 构建植物蛋白质相互作用关系网络。2. 如权利要求1所述的构建植物蛋白质互作网络的方法,其特征在于:步骤一中所述 植物基因同源结构建模,是在全基因组水平,用Modeller同源建模软件对植物基因进行同 源结构建模。3.如权利要求1所述的构建植物蛋白质互作网络的方法,其特征在于:步骤二所述蛋 白质同源结构与复合体模板进行空间结构比对叠加,是从PDB与PISA数据库收集同源或异 源蛋白质复合体空间结构数据,用PIBASE软件包计算蛋白质复合体各链间互作界面的结 构及对应互作残基,用TM-Align软件对蛋白质同源结构与复合体模板进行空间结构比对 置加。4.如权利要求1所述的构建植物蛋白质互作网络的方法,其特征在于:步骤五中所述 利用随机森林算法进行植物蛋白质互作模型训练,是构建蛋白质相互作用阳性数据集与非 相互作用蛋白质对阴性数据集,根据每一蛋白质对的4类结构与7类非结构特征,利用R软 件包中的随机森林算法训练目标植物蛋白质互作模型。5.如权利要求1所述的构建植物蛋白质互作网络的方法,其特征在于:步骤六中所述 植物蛋白质相互作用关系预测,是利用训练后的蛋白质互作分类器对植物整个基因组所有 蛋白质两两之间的相互作用关系进行预测。6. 如权利要求1所述的构建植物蛋白质互作网络的方法,其特征在于:步骤七中所述 构建植物蛋白质相互作用关系网络,是使用Cytoscape软件构建植物全基因组水平的蛋白 质相互作用关系网络。
【专利摘要】一种构建植物蛋白质互作网络的方法,该方法将蛋白质结构与非结构特征相结合,利用随机森林算法训练蛋白质互作模型,并用训练后的蛋白质互作分类器对植物蛋白质相互作用关系进行预测,而后构建植物蛋白质相互作用关系网络。与现有方法相比,该方法极大地提高了植物蛋白质相互作用关系预测的准确性。
【IPC分类】G06F19/18
【公开号】CN105354441
【申请号】CN201510697708
【发明人】张利达, 刘诗薇, 刘奕慧
【申请人】上海交通大学
【公开日】2016年2月24日
【申请日】2015年10月23日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1