一种基于蛋白质-域异构网络的关键蛋白预测方法与流程

文档序号:20154527发布日期:2020-03-24 20:25阅读:405来源:国知局
一种基于蛋白质-域异构网络的关键蛋白预测方法与流程

本发明属于生物信息领域,具体涉及关键蛋白预测方法。



背景技术:

越来越多的证据表明,蛋白质几乎参与了所有的生命活动,而不同蛋白质在生命活动中的功能和重要性是不同的。关键蛋白作为一类重要的蛋白质,在生物体的发育和生存中起着至关重要的作用,不仅能为维持生命提供基本的需求,而且在合成生物学中具有一定的实用价值。缺乏关键蛋白会导致蛋白质复合体的生物功能丧失,甚至导致机体死亡。因此,预测关键蛋白逐渐成为一个热点问题,这有利于疾病的治疗和药物的发展。在生物学中,识别关键蛋白主要通过生物学实验进行,如单基因敲除rna干扰、条件敲除等。然而,生物实验是非常耗时和昂贵的。近年来,大量的计算方法相继被提出。其中,预测关键蛋白的准确性仍是一个具有挑战性的难题。



技术实现要素:

为了解决上述问题,本发明提供一种准确性较高的基于异构蛋白质域网络的基本蛋白质预测方法,包括以下步骤,

s1:从两个不同的公共数据库分别下载的已知ppis数据集,分别构建两个原始的ppi网络,对于给定的原始ppi网络中的每一对蛋白质,计算它们之间基因表达的高斯交互作用谱核相似性作为它们之间的权重,构建了一个新的加权ppi网络。

s2:根据从公共数据库下载的域信息和已知的蛋白质域关联,分别构建加权域-域关联网络ndd和初始蛋白质-域网络npd,对npp、ndd、npd三种新构建的网络进行整合,得到蛋白质-域异构网络nhpd。

s3:在原有的ppi网络ni的基础上,根据初始的ppi网络提取每个蛋白质的拓扑特征,结合从公共数据库下载的与蛋白质相关的亚细胞定位信息和直系同源信息,计算nhpd中每个蛋白质和域的初始得分。

原有的ppi网络是指从数据库中直接下载的蛋白质所构成的网络。

初始的ppi网络是指把原有的ppi网络在本方法中进行初始化后的网络。

加权ppi网络是指根据ndd、npd所计算的信息对初始化后的ppi网络的各条过的权值修正。

npp为ppi网络,即从数据库中直接下载的蛋白质所构成的网络。

s4:基于蛋白质-域异构网络nhpd,设计基于pagerank的迭代算法来预测潜在的关键蛋白质。

进一步的,所述步骤s1包括以下步骤:

s101:从两个不同的公共数据库分别下载ppis数据集,基于所述ppis数据集,分别构建了两个不同的原始ppi网络,将ni={pi,li}定义为基于从数据库i下载的已知ppis的原始ppi网络,其中pi={p1,p2,…,pk}表示从数据库i下载的蛋白质集合,li表示pi中蛋白质的边集合,根据获得的原始ppi网络ni,,构造k×k维邻接矩阵ni=(aij)k×k,当且仅当pi和pj有一个边时,aij=1,否则aij=0;

s102:对于每个蛋白质p∈pi,令ex(p,i)表示其第i个时间点的基因表达数据,蛋白质p的基因表达数据表示为ex(p)={ex(p,1),ex(p,2),…,ex(p,m)},对于pi中任意两个给定的蛋白质pj和pj,它们之间的权重赋值采用以下公式定义:

其中,

γp表示归一化新的内核带宽参数,γ′p表示内核带宽参数nep表示存在基因表达的蛋白质数量,α表示参数分布比例,其中α∈[0,1]。

进一步的,所述步骤s2包括以下步骤:

s201:从数据库下载关于域的数据集,采用d={d1,d2,…,dn}表示数据集中的域,lpd代表域和蛋白质之间的边的集合,构造初始蛋白质-域网络npd={pi,lpd},基于初始蛋白质-域网络npd,构建k×n维邻接矩阵npd=(bij)k×n,当且仅当蛋白质pi∈pi和域dj∈d有一条边时,bij=1,否则bij=0;

s202:对于d中任意两个给定的域di和dj,采用di和dj分别表示di和dj中的蛋白质集合,di∩dj表示di和dj中的共同蛋白质,采用以下公式计算di和dj域之间的权重:

构造n×n维邻接矩阵ndd;

s203:基于k×k维邻接矩阵npp、k×n维邻接矩阵npd和n×n维邻接矩阵ndd,采用以下公式得到(k+n)×(k+n)维异构矩阵nhpd:

构建异构蛋白质域网络nhpd。

进一步的,所述步骤s3包括以下步骤:

s301:分别从两个不同的数据库下载亚细胞定位信息和同源信息,采用s={s1,s2,…,sn}表示一组亚细胞定位信息,pro(si)代表与亚细胞定位si相关的蛋白质集合和|pro(si)|表示在pro(si)中蛋白质的数量,采用以下公式获得pro(si)的平均数量:

s302:采用以下公式定义亚细胞定位si∈s的评分:

其中,

s303:对于给定的蛋白质pi∈pi,采用以下公式计算其在亚细胞定位方面的评分:

s(pi)是与pi相关的一组亚细胞定位;

s304:对于每个蛋白质pi∈pi,令ort(pi)表示蛋白质pi对应的其直系同源信息分数,采用以下公式计算初始分数:

s305:对于ni={pi,li}中的任意给定的蛋白质pi,采用以下公式定义其相邻节点集合:

s306:采用以下公式计算ni中与pi相关的三角形数量:

其中,|ns(pi)∩ns(pj)|是ns(pi)∩ns(pj)中节点的数量;

s307:对于ni={pi,li}中的每个蛋白质pi,采用以下公式定义平均三角形的拓扑特征:

其中,

|ns(pi)|是ns(pi)中节点的数量;

s308:对于ni={pi,li}中的每个蛋白质pi,采用以下公式定义其初始得分:

其中,β∈[0,1],γ∈[0,1],δ∈[0,1],β+γ+δ=1;

s309:对于nhpd中任意给定的域di,采用以下公式定义初始得分:

进一步的,所述步骤s4包括以下步骤:

s401:基于新构建的加权ppi网络npp,对于pi中任意给定的蛋白质pi,采用以下公式定义一组与pi相关的蛋白质集合:

n_np(pi)={pj|npp(pi,pj)≠0,pj∈pi};

s402:令bn(pi,pj=npp(pi,pj)/(1+mnpp)2,对于两个给定的蛋白质pi和pj,采用以下公式定义它们之间的分配率npp:

s403:对于给定的蛋白质pi∈pi和域dj∈d,采用以下公式定义它们之间的权值:

s404:对于给定的蛋白质pi∈pi和域dj∈d,采用以下公式定义它们之间的分配率在npd:

s405:对于给定的域di和dj,令采用以下公式定义它们之间的权重:

s406:对于d中的任意给定域di,采用以下公式定义了一组与di相关的域集合:

n_d(di)={dj|ndd(di,dj)≠0,dj∈d};

s407:对于d中的任意给定域di和dj,采用以下公式定义它们在ndd中的分配率:

s408:采用以下公式得到新的分配率矩阵drm:

s409:基于pagerank算法,设a表示异构蛋白质域网络nhpd中任意的蛋白质节点或域节点,采用以下公式迭代计算蛋白质和域的分数:

其中,npra(t)是第t次迭代后的得分向量,为比例调整参数。

本发明的有益效果是,将ppi网络与亚细胞定位、直系同源数据、基因表达等与蛋白质相关的生物数据相结合构建新的加权ppi网络来推断关键蛋白质,具有较高的预测准确率。

附图说明

图1为本发明流程图。

图2为本发明流程图。

具体实施方式

预测关键蛋白的计算模型大致可以分为两大类。第一类模型侧重于利用ppi网络(ppi网络表示蛋白质相互作用网络)的拓扑特征来预测关键蛋白。例如,受centrality-lethality规则的启发,一些预测关键蛋白的方法被陆续的提出,其中包括dc(degreecentrality),ic(informationcentrality),cc(closenesscentrality),bc(be-tweennesscentrality),sc(subgraphcentrality),nc(neighborcentrality)。这些基于ppi网络拓扑的方法都不需要额外的生物数据,打破了传统生物实验的局限性,取得了很大的进展。然而,由于ppi网络的不完整性,ppi网络中的假阳性和假阴性数据可能会对预测结果产生负面影响。因此,这些基于ppi网络拓扑特征的预测方法在预测关键蛋白的过程中,并不能获得令人满意的预测结果。第二类预测方法是将ppi网络与亚细胞定位、直系同源数据、基因表达等与蛋白质相关的生物数据相结合构建新的加权ppi网络来推断关键蛋白质,以此来提高预测准确率。

综上所述,将生物学数据与ppi网络相结合,可以显著提高关键蛋白质的预测准确性。但考虑到单纯的ppi网络不能很好地反映蛋白质的多样性,所以构建了一个名为npri的新预测模型来识别关键蛋白。npri模型将加权ppi网络与初始蛋白质-域关联网络和域-域关联网络相结合构建蛋白质-域异构网络。此外,对于异构蛋白质-域网络中的每一个蛋白质,都将从原始ppi网络中提取的一些关键的拓扑特性,和与蛋白质相关的亚细胞定位信息、同源信息和整合在一起,得到其初始得分。然后,基于异构蛋白质域网络,进一步构建基于pagerank的迭代算法来检测潜在的关键蛋白质。

本发明先将加权ppi网络、域-域网络和初始蛋白质域网络三种网络结合起来,构建一个新的蛋白质-域异构网络。其中,这三种网络分别根据基因表达数据、原始ppi网络以及已知的蛋白质-域关联关系网络建立起来的。然后根据提取的每个蛋白质的功能特征和拓扑特征计算出每个蛋白质和域的初始分数。接下来,在新构建的蛋白质-域异构网络的基础上,根据蛋白质和域的初始分数进一步构建新的分配率网络。最后,在构建的分配率网络的基础上,本发明设计了一种改进的pagerank算法来预测关键蛋白,并且预测的精度得到了很大的提高。

如图1所示本发明包括以下步骤:

s1:根据从两个公共数据库分别下载的已知ppis数据集,构建两个原始的ppi网络。然后,对于任意给定的原始ppi网络中的每一对蛋白质,计算它们之间基因表达的高斯交互作用谱核相似性作为它们之间的权重。这样就构建了一种新的加权ppi网络。

s2:根据从公共数据库下载的域信息和已知的蛋白质域关联,分别构建加权域-域关联网络ndd和初始蛋白质-域网络npd。然后,对npp、ndd、npd三种新构建的网络进行整合,得到一种新型的蛋白质-域异构网络nhpd。

s3:在原有的ppi网络ni的基础上,可以先根据初始的ppi网络提取每个蛋白质的拓扑特征,然后结合从公共数据库下载的与蛋白质相关的亚细胞定位信息和直系同源信息,计算nhpd中每个蛋白质和域的初始得分。

s4:基于蛋白质-域异构网络nhpd,设计一种新的基于pagerank的迭代算法来预测潜在的关键蛋白质。

pagerank是google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由larrypage和sergeybrin在20世纪90年代后期发明。pagerank实现了将链接价值概念作为排名因素。

所述步骤s1包括以下步骤:

s101:从两个公共数据库(如gavin数据库和dip数据库)分别下载两个已知的ppis数据集。经过筛选,最终获得了来自dip数据库的5093个蛋白质之间的1167个基本蛋白质和24743个关联关系;来自gavin数据库的1855个蛋白质之间的617个基本蛋白质和7669个关联关系。基于以上两个数据库下载的已知ppi数据集,分别构建了两个不同的原始ppi网络。为方便起见,将ni={pi,li}定义为基于从数据库i下载的已知ppis的原始ppi网络,其中pi={p1,p2,…,pk}表示从数据库i下载的蛋白质集合,li表示pi中蛋白质间的边集合。在pi中对于任何给定的蛋白质pi、pj之间有一条边,当且仅当它们之间有一个已知的关联关系。根据获得的原始ppi网络ni,,构造k×k维邻接矩阵ni=(aij)k×k。当且仅当pi和pj有一个边时,有aij=1;否则aij=0。

s102:将下载基因表达数据集。对于每个蛋白质p∈pi,令ex(p,i)表示其第i个时间点的基因表达数据,则蛋白质p的基因表达数据可以表示为ex(p)={ex(p,1),ex(p,2),…,ex(p,m)}。因此,受高斯相互作用谱核相似性概念的启发,对于pi中任意两个给定的蛋白质pj和pj,它们之间的权重可以赋值如下:

其中,

在γp表示归一化新的内核带宽参数γ′p,nep表示存在基因表达的蛋白质数量,α表示参数分布比例,其中α∈[0,1]。

显然,根据上式(2),可以得到一个k×k维邻接矩阵npp。

所述步骤s2包括以下步骤:

s201:从pfam数据库下载关于域的数据集。经过筛选,获得4936个蛋白质域关联,包括3630个蛋白质和1107个蛋白质域。为方便起见,让d={d1,d2,…,dn}表示数据集中的域,lpd代表域和蛋白质之间的边的集合,然后构造出一个初始蛋白质-域网络npd={pi,lpd}:对于任何给定的蛋白质pi∈pi和域dj∈d,它们之间存在一条边pi和dj当且仅当它们之间有一个已知的关联关系。

显然,基于初始蛋白质-域网络npd,可以进一步构建一个k×n维邻接矩阵npd=(bij)k×n,当且仅当蛋白质pi∈pi和域dj∈d有一条边时,bij=1;否则bij=0。

s202:对于d中任意两个给定的域di和dj,让di和dj分别表示di和dj中的蛋白质集合,di∩dj表示di和dj中的共同蛋白质,那么可以计算di和dj域之间的权重如下:

显然,基于上述式(3),可以构造一个新的域-域关联网络ndd,同时得到一个相应的n×n维邻接矩阵ndd。

s203:基于新构建的k×k维邻接矩阵npp、k×n维邻接矩阵npd和n×n维邻接矩阵ndd,可以很容易地得到一个(k+n)×(k+n)维异构矩阵nhpd如下:

显然,根据(4)式,可以得到异构蛋白质域网络nhpd。

所述步骤s3包括以下步骤:

s301:为了对nhpd中的蛋白质和域节点进行初始评分,分别从compart-ments数据库和inparanoid数据库(version7)下载亚细胞定位信息和同源信息。然后,让s={s1,s2,…,sn}表示一组亚细胞定位信息,pro(si)代表与亚细胞定位si相关的蛋白质集合和|pro(si)|表示在pro(si)中蛋白质的数量,从下式可以获得的平均数量:

s302:根据上式(5),对于每个亚细胞定位si∈s的评分可以定义为:

其中,

s303:由上式(6)可知,对于任意给定的蛋白质pi∈pi,其在亚细胞定位方面的评分为:

s(pi)是与pi相关的一组亚细胞定位。

s304:对于每个蛋白质pi∈pi,令ort(pi)表示蛋白质pi对应的其直系同源信息分数,其直系同源信息分数从inparanoid数据库下载的,基于蛋白质的同源信息,它的初始分数如下:

s305:对于ni={pi,li}中的任意给定的蛋白质pi,我们定义其相邻节点集合为:

s306:由上式(10)可知,考虑到三角形具有稳定性的特点,对于ni={pi,li}中的每一个蛋白质pi,我们可以得到ni中与pi相关的三角形数量如下:

其中,|ns(pi)∩ns(pj)|是ns(pi)∩ns(pj)中节点的数量。

s307:根据上式(11),对于ni={pi,li}中的每个蛋白质pi,我们可以定义其平均三角形的拓扑特征如下:

其中,

|ns(pi)|是ns(pi)中节点的数量。

s308:根据上式(8)(9)(12),对于ni={pi,li}中的每个蛋白质pi,我们定义其初始得分为:

其中,β∈[0,1],γ∈[0,1],δ∈[0,1],它们三个为调整比例参数,其中β+γ+δ=1。

s309:根据上式(14),对于nhpd中任意给定的域di,我们将其初始得分定义为:

所述步骤s4包括以下步骤:

s401:基于新构建的加权ppi网络npp,对于pi中任意给定的蛋白质pi,我们首先定义一组与pi相关的蛋白质集合,如下:

n_np(pi)={pj|npp(pi,pj)≠0,pj∈pi}(16)

s402:令bn(pi,pj)=npp(pi,pj)/(1+mnpp)2,然后对于任意两个给定的蛋白质pi和pj,我们可以进一步定义它们之间的分配率npp如下:

s403:根据构建的初始蛋白质-域关联网络npd,对于任意给定的蛋白质pi∈pi和域dj∈d,我们可以定义它们之间的权值为:

s404:基于公式(18),让那么,对于任何给定的蛋白质pi∈pi和域dj∈d,我们可以定义它们之间的分配率在npd如下:

s405:基于域-域网络ndd,对于任何给定的域di和dj,让然后我们可以定义它们之间的权重如下:

s406:对于d中的任意给定域di,我们定义了一组与di相关的域集合,如下所示:

n_d(di)={dj|ndd(di,dj)≠0,dj∈d}(21)

s407:对于d中的任意给定域di和dj,我们可以定义它们在ndd中的分配率为:

s408:由(17)(19)(22)式可得新的分配率矩阵drm如下:

s409:基于pagerank算法,设a表示异构蛋白质域网络nhpd中任意的蛋白质节点或域节点,则根据式(24)迭代计算蛋白质和域的分数:

其中,npra(t)是第t次迭代后的得分向量,为比例调整参数。

最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1