一种基于邻接蛋白的蛋白功能注释方法

文档序号:9911474阅读:324来源:国知局
一种基于邻接蛋白的蛋白功能注释方法
【技术领域】
[0001] 本发明属于生物信息学技术领域,涉及一种基于邻接蛋白的蛋白功能注释方法。
【背景技术】
[0002] 随着基因测秩序技术逐步提升,新发现的蛋白序列也在日益增多,虽然对于蛋白 的功能注释已经进行了大量的研究,目前仍然存在大量功能无法预知的蛋白,由于许多生 物体生命活动机理的分析和研究需建立在对蛋白功能进行分析的基础上,因此未知蛋白的 存在对于这些研究产生了阻碍。因此,近些年来,越来越多的研究针对蛋白功能预测展开。 对于一个新测序的蛋白,其功能可以通过与已知的蛋白序列数据库(如Uniprot)进行 BLASTP比对来预测,或利用其蛋白编号或名称从Gene Ontology数据库查询其功能注释,而 通过数据库比对无法找到功能注释的蛋白,则需通过其他方法进行进一步的分析。利用蛋 白互作网络进行功能注释的研究在这样的背景下展开,对于蛋白互作网络中未知蛋白的功 能的注释,目前大多采用聚类方法进行,如通过结合分类树和模块化指标进行功能模块划 分,将模块中所有已知蛋白的功能注释赋予未知蛋白,从而对未知蛋白进行功能注释的方 法(参考文南犬:Lecture Notes In Electrical Engineering, Volume 322, 2015, pp 831-837),该类方法的注释结果全面性较好,而准确性不足。本文提出了基于邻接蛋白对未 知蛋白进行功能注释的方法,该方法在功能注释过程中综合考虑未知蛋白周边各已知邻居 蛋白的功能,从而决定未知蛋白的功能,该方法设计更为符合生物体中相互作用的蛋白倾 向于具有相似功能的原理,能够得到高质量的蛋白功能注释。
[0003] 运用此方法需具备蛋白互作网络、G0术语信息和Perl软件。该方法利用"就近一 致"的中心思想,形成了为蛋白网络中未知功能蛋白添加 G0注释的方法,为进一步预测蛋白 功能以及研究子网络参与的生物过程奠定基础。

【发明内容】

[0004] -种基于邻接蛋白的蛋白功能注释方法,其特征在于它是由确定未知功能蛋白、 统计未知功能蛋白邻接节点注释信息以及添加未知功能蛋白G0注释组成,使用perl语言实 现该算法,具体步骤如下: (1)确定未知功能蛋白:蛋白质互作网络中,相互作用的两个蛋白称之为节点,其相互 之间的作用称之为边,蛋白互作网络中的已知蛋白是指在Gene Ontology数据库中能够根 据蛋白编号找到相应的G0功能注释的蛋白,而相对的,无法找到G0功能注释的蛋白即为未 知功能蛋白。
[0005] (2)统计未知功能蛋白邻接节点注释信息:确定未知功能蛋白后,分别统计他们邻 接蛋白的G0注释信息。对于一个未知功能蛋白,首先找到该蛋白所有的邻接蛋白,统计这些 邻接蛋白都有哪些G0注释,并统计在所有邻接蛋白包含的G0注释中,每个G0注释标注了多 少个邻接蛋白,其标注的邻接蛋白数占所有有G0注释的邻接蛋白总数的百分比,将该百分 比设为P。即
(3) 添加未知功能蛋白GO注释,具体步骤如下: 1) 若A为未知功能蛋白,且A仅有一个邻接蛋白B,则将B的所有功能注释赋给蛋白A; 2) 若A有多于一个邻接节点,此时需要确定一个合适的临界值,并计算邻接蛋白包含的 每一个GO注释的p值,当某个GO注释的p值大于等于临界值时,就将这个GO注释赋予A; (4) 重复步骤(1)-(3),直到已添加注释个数不再发生变化为止。
[0006] 以图1为例,其中A、B、C是未知蛋白,D、E、F、G、H是已知蛋白。在第一轮循环中,未知 蛋白A具有功能注释的邻接蛋白(D和E)个数为2,D蛋白的功能注释是2,3,4,E蛋白的功能注 释是1,2,6,7,如果设定的临界值为0.75,则在A的邻接蛋白的所有功能注释1,2,3,4,6,7 中,仅有2的p=l,满足p 2 0.75的条件,那么A这一未知蛋白被赋予的功能注释则为2;同理, 未知蛋白C的邻接蛋白所具有的功能注释中,仅有功能9的p值满足p 2 0.75的条件,因此将 功能9赋予C蛋白;B蛋白仅有一个邻接节点F具有功能注释,则将F的功能注释4,5,6全部赋 予B蛋白。综上,在第一次循环中A蛋白的功能注释为2,B蛋白的功能注释为4,5,6,C蛋白的 功能注释为9。在第二次循环中A蛋白有三个具有功能注释的邻接蛋白B、D、E,根据同样的原 贝1J,该轮循环中A蛋白新添加功能注释4和6,即具有功能注释2,4和6,同理,C蛋白新添加功 能注释6,具有功能注释6和9。按照这个方法不断循环,直至所有未知蛋白都不再添加新功 能注释为止。
[0007] 本发明公开的基于邻接蛋白的蛋白功能注释方法的有益效果在于: 该方法用于凡纳滨对虾蛋白网络中未知蛋白的注释,具体步骤: (1)确定未知功能蛋白:凡纳滨对虾蛋白互作网络包含蛋白3866个,蛋白相互作用关系 46475条,首先对每个蛋白的G0注释进行搜索,确定其中没有任何G0注释的蛋白,这些蛋白 即为未知功能蛋白,凡纳滨对虾蛋白互作网络中有未知功能蛋白881个,占总蛋白数的23%。 [0008] (2)统计未知功能蛋白邻接节点注释信息:确定未知功能蛋白后,分别统计他们邻 接蛋白的G0注释信息。对于一个未知功能蛋白,首先找到该蛋白所有的邻接蛋白,统计这些 邻接蛋白都有哪些G0注释,并统计在所有邻接蛋白包含的G0注释中,每个G0注释了多少个 邻接蛋白,其注释的邻接蛋白数占所有有G0注释的邻接蛋白总数的百分比,将该百分比设 为P。即
(3)添加未知蛋白功能信息:未知蛋白功能添加时有以下两种情况:1、如果未知功能蛋 白周围只有一个已知功能的邻接蛋白,此时就将此邻接蛋白的G0注释全部赋给未知功能蛋 白;2、如果未知功能蛋白周围有多个已知功能邻接节点,则计算邻接蛋白包含的每一个G0 注释的P值,当P 2 0.25时,则将该GO注释赋予未知功能蛋白。
[0009] (4)重复步骤(1)-(3),直到网络中不再产生新注释蛋白。最终得到G0功能注释的 未知蛋白为625个,占未知蛋白个数的70.9%(如图2)。该结果可以解决未知蛋白功能注释阻 碍凡纳滨对虾生长、发育、免疫等生理机制研究的问题。为之后进行更精细的蛋白功能研究 奠定基础,同时也为蛋白网络子网络的划分提供有效的帮助。
【附图说明】
[0010]图1为添加未知蛋白功能方法;注:A、B、C表示未知功能的蛋白,D、E、F、G、H表示已 知功能的蛋白,1~10各数字表示不同的功能注释编号; 图2凡纳滨对虾蛋白互作网络中未知功能蛋白添加注释百分比; 图3基于邻接蛋白的蛋白功能注释方法流程图。
【具体实施方式】
[0011]下面通过具体的实施方案叙述本发明。除非特别说明,本发明中所用的技术手段 均为本领域技术人员所公知的方法。另外,实施方案应理解为说明性的,而非限制本发明的 范围,本发明的实质和范围仅由权利要求书所限定。对于本领域技术人员而言,在不背离本 发明实质和范围的前提下,对这些实施方案中的物料成分和用量进行的各种改变或改动也 属于本发明的保护范围。
[0012] 实施例1 具备一个含有未知功能蛋白的蛋白互作网络,实施者需要具备运用Perl语言编程的能 力。
[0013] (1)确定未知功能蛋白:凡纳滨对虾蛋白互作网络包含蛋白3866个,蛋白相互作用 关系46475条,首先对每个蛋白的G0注释进行搜索,确定其中没有任何G0注释的蛋白,这些 蛋白即为未知功能蛋白,凡纳滨对虾蛋白互作网络中有未知功能蛋白881个。
[0014] (2)统计未知功能蛋白邻接节点注释信息:确定未知功能蛋白后,分别统计他们邻 接蛋白的G0注释信息。对于一个未知功能蛋白,首先找到该蛋白所有的邻接蛋白,统计这些 邻接蛋白都有哪些G0注释,并统计在所有邻接蛋白包含的G0注释中,每个G0注释了多少个 邻接蛋白,其注释的邻接蛋白数占所有有G0注释的邻接蛋白总数的百分比,将该百分比设 为P。即
(3)添加未知蛋白功能信息:未知蛋白功能添加时有以下两种情况:1、如果未知功能蛋 白周围只有一个已知功能的邻接蛋白,此时就将此邻接蛋白的G0注释全部赋给未知功能蛋 白;2、如果未知功能蛋白周围有多个已知功能邻接节点,则计算邻接蛋白包含的每一个G0 注释的P值,当P 2 〇. 25时,则将改GO注释赋予未知功能蛋白。
[0015] (4)重复步骤(1)-(3),直到网络中不再产生新注释蛋白。最终得到G0功能注释的 未知蛋白为625个,占未知蛋白个数的70.9%(如图2)。该结果可以解决未知蛋白功能注释阻 碍凡纳滨对虾生长、发育、免疫等生理机制研究的问题。为之后进行更精细的蛋白功能研究 奠定基础,同时也为蛋白网络子网络的划分提供有效的帮助。
【主权项】
1. 一种基于邻接蛋白的蛋白功能注释方法,其特征在于它是由确定未知功能蛋白、统 计未知功能蛋白邻接节点注释信息以及添加未知功能蛋白GO注释组成,使用perl语言实现 该算法,具体步骤如下: (1)确定未知功能蛋白:蛋白质互作网络中,相互作用的两个蛋白称之为节点,其相互 之间的作用称之为边,蛋白互作网络中的已知蛋白是指在Gene Ontology数据库中能够根 据蛋白编号找到相应的GO功能注释的蛋白,而相对的,无法找到GO功能注释的蛋白即为未 知功能蛋白; (2 )统计未知功能蛋白邻接节点注释信息:寻找未知功能蛋白邻接节点中有G 0注释的 蛋白,统计所有的GO注释中,每一个GO注释标注的邻接节点个数; 添加未知功能蛋白GO注释,具体步骤如下: 1) 若A为未知功能蛋白,且A仅有一个邻接蛋白B,则将B的所有功能注释赋给蛋白A; 2) 若A有多于一个邻接节点,此时需要确定一个合适的临界值,当被某个GO注释的邻接 节点个数与被GO注释邻接节点个数的百分比大于等于这个临界值的时候,就将这个GO注释 赋予A; 3 )重复步骤(1)和(2 ),直到已添加注释个数不再发生变化为止。2. 权利要求1所述基于邻接蛋白的蛋白功能注释方法在预测蛋白功能方面的应用。
【专利摘要】本发明公开了一种基于邻接蛋白的蛋白功能注释方法,其特征在于它是由确定未知功能蛋白、统计未知功能蛋白邻接节点注释信息以及添加未知功能蛋白GO注释组成,使用perl语言实现该算法,直到已添加注释个数不再发生变化为止。本发明进一步公开了基于邻接蛋白的蛋白功能注释方法在预测蛋白功能方面的应用。本发明可以解决未知蛋白功能注释阻碍凡纳滨对虾生长、发育、免疫等生理机制研究的问题。为之后进行更精细的蛋白功能研究奠定基础,同时也为蛋白网络子网络的划分提供有效的帮助。
【IPC分类】G06F19/18
【公开号】CN105678109
【申请号】CN201610012805
【发明人】郝彤, 彭玮, 孙金生
【申请人】天津师范大学
【公开日】2016年6月15日
【申请日】2016年1月11日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1