结合蛋白质序列与结构信息的ATP绑定位点预测方法与流程

文档序号:11775108阅读:1329来源:国知局

本发明涉及生物信息学预测蛋白质-atp相互作用领域,具体是一种结合蛋白质序列与结构信息的atp绑定位点预测方法。



背景技术:

蛋白质与atp之间的交互作用在生命活动中是屡见不鲜的,它广泛存在于大量的生命体中。这种交互作用通常表现为atp绑定蛋白质中的某些固定残基(即atp绑定位点),使得atp可以与蛋白质共同协作为生命活动提供必需的能量。蛋白质中的atp绑定位点通常也是化学药物的重要靶点。想要彻底弄清楚生命活动的过程,尤其是有关蛋白质与atp生命活动的细节,精确地定位蛋白质中的atp绑定位点具有重要生物学意义。

然而,通过生物实验的方法来确定蛋白质中的atp绑定位点需要耗费大量的时间和资金,并且效率较低;而且,随着测序技术的飞速发展和蛋白质结晶技术的不断推进,蛋白质组学中已经累积了大量未进行atp绑定位点标定的蛋白质信息。因此应用生物信息学的相关知识,直接从蛋白质序列与结构出发,研发一种能够准确预测蛋白质中的atp绑定位点的智能计算方法有着迫切需求,且对于发现和认识蛋白质结构、生理功能以及有关atp生命活动的细节都有着重大的研究意义。

目前,针对基于蛋白质信息的atp绑定位点的高精度预测模型还很欠缺。通过查阅相关文献,可以发现,目前专门设计来预测蛋白质中atp绑定位点的计算模型都是从蛋白质序列信息出发的,它们包括:atpint(chauhan,jagats.,nitishk.mishra,andgajendrapsraghava."identificationofatpbindingresiduesofaproteinfromitsprimarysequence."bmcbioinformatics10.1(2009):434.)、atpsite(chen,ke,marcinj.mizianty,andlukaszkurgan."atpsite:sequence-basedpredictionofatp-bindingresidues."proteomescience9.1(2011):s4.)、targetatp(yu,dong-jun,etal."improvingprotein-atpbindingresiduespredictionbyboostingsvmswithrandomunder-sampling."neurocomputing104(2013):180-190.),以及targetatpsite(yu,dong‐jun,etal."targetatpsite:atemplate‐freemethodforatp‐bindingsitespredictionwithresidueevolutionimagesparserepresentationandclassifierensemble."journalofcomputationalchemistry34.11(2013):974-985.)等。它们通过使用不同的蛋白质序列特征信息(如:蛋白质进化信息、蛋白质二级结构信息、蛋白质溶剂可及性信息等)结合支持向量机(svm)算法在不同的数据集合上来训练预测模型,取得了一定的预测精度。

尽管在基于蛋白质信息的atp绑定位点预测研究中已经取得部分成果,但该项研究任务还远远没有结束。已有的研究成果都是从蛋白质序列信息出发的,并没有使用蛋白质的结构信息。事实上,蛋白质结构中包含的信息量远远大于序列中的。结合蛋白质序列与结构信息是提高atp绑定位点预测精度的有效途径。此外,蛋白质序列信息无法给出atp绑定位点预测结果的直观展示,从而导致现有的基于蛋白质序列的atp绑定位点预测模型的可解释性差。因此atp绑定位点预测任务迫切需要进一步研究。



技术实现要素:

本发明的目的在于提供一种结合蛋白质序列与结构信息的atp绑定位点预测方法,用于解决上述基于蛋白质信息的atp绑定位点预测问题中由于未使用蛋白质结构信息而导致的预测精度距离实际应用差距较大且可解释性较差的缺点。

实现本发明目的的技术解决方案为:一种结合蛋白质序列与结构信息的atp绑定位点预测方法,包括以下步骤:

步骤1:特征提取,根据待预测蛋白质序列与结构信息,使用psi-blast、psipred、sann、ssite以及tmsite程序分别提取该蛋白质进化信息、二级结构信息、溶剂可及性信息、序列模板匹配信息以及结构模板匹配信息,在此基础上使用滑动窗口技术构建每个氨基酸残基的特征向量;

步骤2:使用随机下采样技术,对非atp绑定位点样本进行多次下采样,得到多个非atp绑定位点样本子集,将每一个非atp绑定位点样本子集与atp绑定位点样本集合合并后训练一个svm子模型,得到多个svm子模型;

步骤3:使用均值集成方法,将步骤2中得到的多个svm子模型进行集成,得到最终的atp绑定位点预测模型,用于预测待预测蛋白质中的atp绑定位点;以及

步骤4:使用pymol软件在三维空间中显示预测的atp绑定位点。

进一步,在上述步骤1中,对于任意一个由n个氨基酸残基组成的蛋白质,通过使用psi-blast程序提取得到该蛋白质的进化信息特征,即位置特异性得分矩阵,大小为n×20;再对所述位置特异性得分矩阵使用sigmoid函数,即f(x)=1/(1+e-x),进行逐行规范化,然后使用大小为winsize的滑动窗口得到每个氨基酸残基的进化特征矩阵,将进化特征矩阵拉成长度为20×winsize的特征向量。

进一步,在上述的步骤1中,将一个由n个氨基酸组成的蛋白质输入到psipred程序,得到蛋白质的二级结构特征,即预测的二级结构概率矩阵,矩阵大小为n×3;再使用长度为winsize的滑动窗口,得到每个氨基酸残基的二级结构信息矩阵;最后将二级结构信息矩阵拉成长度为3×winsize的特征向量。

进一步,在上述的步骤1中,将一个由n个氨基酸组成的蛋白质输入到sann程序,得到蛋白质序列的溶剂可及性特征,即预测的溶剂可及性概率矩阵,矩阵大小为n×3;再使用长度为winsize的滑动窗口,得到每个氨基酸残基的溶剂可及性信息矩阵;最后将溶剂可及性信息矩阵拉成长度为3×winsize的特征向量。

进一步,在上述的步骤1中,将一个由n个氨基酸组成的蛋白质输入到ssite程序,得到一个长度为n的包含蛋白质序列模板匹配信息向量;再使用长度为winsize的滑动窗口,得到每个氨基酸残基的序列模板匹配信息的特征向量,特征向量的长度为winsize。

进一步,在上述的步骤1中,将一个由n个氨基酸组成的蛋白质输入到tmsite程序,得到一个长度为n的包含蛋白质结构模板匹配信息向量;再使用长度为winsize的滑动窗口,得到每个氨基酸残基的结构模板匹配信息的特征向量,特征向量的长度为winsize。

本发明与现有技术相比,其显著优点:1.提高模型的预测精度:从蛋白质序列与结构信息出发,抽取得到了多个视角特征,挖掘出更多有效的预测信息,使用随机下采样技术与均值集成技术相结合,避免了非atp绑定位点与atp绑定位点样本之间的不平衡性所带来的干扰,提高了预测蛋白质中atp绑定位点的预测精度;

2.提升模型的可解释性:通过使用pymol软件直观地在三维空间中显示高精度的atp绑定位点预测结果,提升了模型的可解释性。

附图说明

附图1为本发明结合蛋白质序列信息特征与蛋白质结构信息特征的atp绑定位点预测方法的示意图。

具体实施方式

附图给出了本发明的预测方法系统结构示意图。结合附图所示,根据本发明的实施例,一种结合蛋白质序列与结构信息的atp绑定位点预测方法,包括了以下步骤:

首先,使用psi-blast、psipred、sann、ssite以及tmsite程序分别提取该蛋白质进化信息、二级结构信息、溶剂可及性信息、序列模板匹配信息以及结构模板匹配信息;其次,使用滑动窗口技术,从蛋白质进化信息、二级结构信息、溶剂可及性信息、序列模板匹配信息以及结构模板匹配信息中抽取每一个氨基酸残基的多视角特征向量,并将它们进行串行组合得到最终用于预测的特征向量;再次,使用随机下采样技术,对非atp绑定位点样本进行多次下采样,将每次下采样得到的非atp绑定位点样本子集与atp绑定位点样本构成一个训练集,在该训练集上训练一个svm子模型,得到多个svm子模型;然后,使用均值集成方法,将上述多个svm子模型进行集成,得到最终的atp绑定位点预测模型;最后在得到atp绑定位点预测结果后,使用pymol软件进行三维结构展示。

下面将结合附图所示,更加具体地描述前述过程。

步骤1:特征提取

对于一个包含n个氨基酸残基的蛋白质,通过psi-blast程序可得到蛋白质进化信息特征,即位置特异性得分矩阵(positionspecificscoringmatrix,pssm),大小为n×20(n行20列),将蛋白质序列信息转化成矩阵表达形式,如下:

对pssm中的每个值进行归一化:

使用大小为winsize的滑动窗口,来提取每个氨基酸残基的pssm特征矩阵:

然后,将该氨基酸残基的特征矩阵拉成维数为20×winsize的特征向量:

对于一个包含n个氨基酸残基的蛋白质,通过psipred程序可以得到其二级结构信息特征,即预测概率矩阵(predictedsecondarystructure,pss),大小为n×3(n行3列):

使用上述同样大小的滑动窗口技术,可以得到每个氨基酸残基的pss特征矩阵:

然后,将该氨基酸残基的pss特征矩阵拉成维数为3×winsize的特征向量:

对于一个包含n个氨基酸残基的蛋白质,通过sann程序可得到其溶剂可及性特征,即预测概率矩阵(predictedsolventaccessibility,psa),大小为n×3(n行3列):

使用上述同样大小的滑动窗口技术,可以得到每个氨基酸残基的psa特征矩阵:

然后,将该氨基酸残基的psa特征矩阵拉成维数为3×winsize的特征向量:

对于一个包含n个氨基酸残基的蛋白质,通过ssite程序可得到其序列模板匹配信特征,即序列模板投票结果(sequencetemplatevotingresults,seqtvr):

seqtvr=(seqtvr1,…,seqtvri,…,seqtvrn)(11)

使用上述同样大小的滑动窗口技术,可以得到每个氨基酸残基的seqtvr特征向量:

对于一个包含n个氨基酸残基的蛋白质,通过tmsite程序可得到其结构模板匹配信特征,即结构模板投票结果(structuretemplatevotingresults,strtvr):

strtvr=(strtvr1,…,strtvri,…,strtvrn)(13)

使用上述同样大小的滑动窗口技术,可以得到每个氨基酸残基的strtvr特征向量:

步骤2:使用随机下采样技术,对非atp绑定位点的样本进行多次下采样,将每一次下采样得到的非atp绑定位点子集与atp绑定位点样本构成一个训练集,在该训练集合上训练一个svm子模型,最终得到多个svm子模型。通过对atp非绑定位点样本集合的多次随机下采样,可以在保证样本分布均匀的前提下,尽可能少的丢失非atp绑定位点信息。

步骤3:使用均值集成算法将步骤2中得到的多个svm子模型联合成最终的预测模型,用于预测待预测蛋白质中每个氨基酸残基是否为atp绑定位点。

步骤4:使用pymol软件在三维空间中显示最终的atp绑定位点预测结果。

综上所述,本发明与现有的预测方法相比,本方法可以有效的利用蛋白质序列与结构两种不同视角信息,并使用支持向量机(svm)算法有效地利用两种不同视角的信息,并且该方法还拥有解决存在于非atp绑定位点与atp绑定位点样本之间的不平衡性问题的能力与在三维空间中直观地显示atp绑定位点预测结果的能力。在增强预测模型可解释的同时,还使得最终的预测精度得到提升。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1