一种蛋白激酶磷酸化特异位点计算识别方法

文档序号:6581536阅读:637来源:国知局

专利名称::一种蛋白激酶磷酸化特异位点计算识别方法
技术领域
:本发明涉及一种蛋白质修饰化位点识别方法,特别是一种蛋白激酶磷酸化特异位点计算识别方法。
背景技术
:蛋白质磷酸化和去磷酸化过程调节着细胞信号转导、细胞分化、细胞生长、细胞凋亡等几乎所有生命活动。蛋白质磷酸化位点主要发生于酪氨酸(Y)、丝氨酸(S)与苏氨酸(T)残基(Wuetal.,JProteomeRes,2007,6(5):1812)。蛋白质磷酸化的异常往往导致细胞生命活动的异常,甚至产生细胞损伤或细胞癌变(Yangetal.,JProteomeRes,2006,5(5):252)。因此,探索生理和病理状态下蛋白质磷酸化规律对于阐述生命本质和疾病发生机制及研发新药至关重要。实验手段鉴定激酶特异性磷酸化位点是了解磷酸化机制以及药物设计的基础。目前已发展多种实验鉴定蛋白质磷酸化位点方法,传统鉴定方法如P32标记法和埃德曼降解法常用于磷酸化位点测定(Campbelletal.,JBiomolTech,2002,13:119),但其费时、费力、灵敏度低以及需要大量提纯蛋白质。基于质谱高通量磷酸化位点鉴定方法是最近涌现出的检测蛋白磷酸化强有力手段(Philipetal.,CellCo匪nAdhes,2006,13:249)。但该类方法大多仍处于实验室研究阶段未得到广泛应用。随着高通量鉴定蛋白质磷酸化技术发展,特别是质谱技术在蛋白组学上应用,磷酸化位点的数据不断积累,已有多种计算机预测方法预测磷酸化位点,如遗传算法-神经网络(Tangetal.,ProteinEngineering.Design&Selection,2007,20(8):405),支持向量机(Kimetal.,Bioinformatics,2004,20:3179),隐Markov模型(Huangetal.,NucleicAcidsRes,2005,33:W226)及贝叶斯决策理论(Xueetal.,BMCBioinformatics,2006,7:163)等。但现有的磷酸化位点预测方法都存在无法同时获得较高灵敏度和特异性的问题,并且预测正确率仍然不高(Tangetal.,ProteinEngineering.Design&Selection,2007,20(8):405),因此有必要开发具有高灵敏度、特异度和预测正确率的蛋白激酶磷酸化特异位点识别方法。
发明内容有鉴于此,为了解决上述问题,本发明提供了一种蛋白激酶磷酸化特异位点计算识别方法,可用于蛋白激酶磷酸化特异位点识别。本发明的目的是这样实现的一种蛋白激酶磷酸化特异位点计算识别方法,包括如下步骤a)具体包括al)精选20种天然氨基酸的629种三维性质参数;a2)对629种性质参数做主成分分析,得到12个主成分;a3)计算各主成分得分,建立氨基酸三维性质得分;b)用氨基酸三维性质得分表征蛋白激酶磷酸化特异位点的结构特征,其中的每个氨基酸用12个氨基酸三维性质得分表征;c)用费歇尔准则得分方法挑选与蛋白激酶磷酸化特异位点特征密切相关的性质参数,并作为模型的输入变量;d)应用径向基核支持向量机建立蛋白激酶磷酸化特异位点识别模型,以自取代检验,留1/10法交互检验以及外部检验验证模型的预测能力,将每个样本的输入变量带入模型并识别蛋白激酶磷酸化特异位点。本发明的一种蛋白激酶磷酸化特异位点计算识别方法,其中选取的氨基酸三维性质得分所含信息量大、表征能力强、拓展性能好及操作简便;费歇尔准则得分可以很好地挑选与蛋白激酶磷酸化特异位点特征密切相关的性质参数;径向基核支持向量机通过核函数技术,可以有效的防止模型的过拟合,并具有良好的泛化性能;同时,采用的自取代检验,留1/10法交互检验及外部检验验证方法可以较大程度地保证方法的预测能力。本发明的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。具体实施例方式以下将对采用本发明的方法用于蛋白激酶磷酸化特异位点识别为例进行详细的描述,包括以下步骤a)精选20种天然氨基酸的629种三维性质参数,包括Randic分子剖面参数,几何特征参数,基于不同原子间距的径向基函数描述子(RDF),基于电衍射法的分子结构表征(MoRSE)得到的描述子,加权整体不变分子的(WHIM)描述子及几何、拓扑与原子重量的集合(GETAWAY)参数。采用主成分分析处理629种性质参数,得到12个主成分,其累计解释原始数据矩阵(20X629)95.82%的方差,各主成分得分见表1,因此,可用此12个主成分得分矩阵(20X12)代替原始变量矩阵(20X629)。为方便,称此12个主成分得分为氨基酸三维性质得分,因为此12个得分矢量综合了629种三维性质参数的大部分信息,因此,可将其用于肽或蛋白质结构表征。表120种天然氨基酸的629种三维性质参数的12个主成分得分<table>tableseeoriginaldocumentpage5</column></row><table>a20种天然氨基酸用常规的单个英文字母表示。b)用氨基酸三维性质得分表征蛋白激酶磷酸化特异位点的结构特征,其中的每个氨基酸用12个氨基酸三维性质得分表征;所选数据来自Tang等(Tangetal.,Design&Selection,2007,20(8):405)的研究报道,该数据首先从Phospho.ELM(Version5.0)数据库提取已知磷酸化位点,并过滤掉不含激酶蛋白信息的位点,然后,将所得到磷酸化位点按激酶家族进行分类后去除冗余位点。这些磷酸化位点是经实验充分验证,将其作为正样本集。晶体结构研究表明激酶与磷酸化位点(S,T或Y)旁侧712氨基酸残基发生相互作用(Songyangetal.,CurrBiol,1994,4:973)。所选择的每个样本是由位点和旁侧序列组成25肽序列。由于数据集的负样本过多不利于磷酸化预测,这里采用1:1比例选取正负样本。为了验证预测性能,将样本划分训练集和外部验证测试集,其中训练集样本与测试集样本的比例为l:1。25-肽序列中的每个氨基酸残基用12个氨基酸三维性质得分表征。每个25-肽序列以25X12个二300个变量表征。c)用费歇尔准则得分方法挑选与蛋白激酶磷酸化特异位点特征密切相关的性质参数,并作为模型的输入变量;经比较,以300个原始自变量作为支持向量机的输入,无论建模还是外部预测效果都较差,故用费歇尔准则得分(Webb-Robertsonetal.,Bioinformatics,2008,24:1503)选择与蛋白激酶磷酸化特异位点特征密切相关的变量,共得到68个费歇尔准则得分大于等于2.0的变量变量,作为模型的输入变量。d)应用径向基核支持向量机建立蛋白激酶磷酸化特异位点识别模型,以自取代检验,留1/10法交互检验以及外部检验验证模型的预测能力,将每个样本的输入变量带入模型并识别蛋白激酶磷酸化特异位点。分别定义A。。为计算识别正确样本数目所占总样本数目百分比,Sp为识别正确的蛋白激酶磷酸化特异位点样本数目的百分比,Sn为识别正确的非蛋白激酶磷酸化特异位点样本数目的百分比,MCC为马休斯相关系数。用格点搜索法确定支持向量机的参数C,e和Y,经自取代检验,留1/10法交互检验,外部检验验证模型的预测能力,将每个样本的自变量带入模型并计算,识别结果如表2所示,可以看出,所得模型对于S、T和Y磷酸化位点识别都产生较高的预测正确率、灵敏度、特异度和MCC。特别地,外部验证识别的MCC都大于0.600,这表明,所建模型具有较高的蛋白激酶磷酸化特异位点识别能力。经比较,本方法对于S、T和Y磷酸化位点识别结果明显优于Tang等(ProteinEngineering.Design&Selection,2007,20(8):405)报道的结果。有四个原因可解释为什么本方法具有较高的识别正确率,一是氨基酸三维性质得分具有良好的蛋白质信息表达能力;二是费歇尔准则得分可以很好的选择与蛋白激酶磷酸化特异位点特征密切相关的结构参数;三是支持向量机具有良好的拟合和泛化能力;四是所采用的三种检验方法可以最大限度地保证方法的预测识别能力。表2蛋白激酶磷酸化特异位点识别结果位点支持向量机参数自取代检验留1/10法交互检验外部检验C£YAccSnSpMCCAccSnSpMCCAccsspMCCs640.03O扁89.986.588.20.80083.784.186.30.72]82.583.785.90.612T80.020.00589.679.383.50.75287.377.582.90.68983.676.8訓0.631Y1280.03O扁86.974.389.80.70883.377.187.00.67980.876,785.80.632以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求一种蛋白激酶磷酸化特异位点计算识别方法,其特征在于包括如下步骤a)具体包括a1)精选20种天然氨基酸的629种三维性质参数;a2)对629种性质参数做主成分分析,得到12个主成分;a3)计算各主成分得分,建立氨基酸三维性质得分;b)用氨基酸三维性质得分表征蛋白激酶磷酸化特异位点的结构特征,其中的每个氨基酸用12个氨基酸三维性质得分表征;c)用费歇尔准则得分方法挑选与蛋白激酶磷酸化特异位点特征密切相关的性质参数,并作为模型的输入变量;d)用径向基核支持向量机建立蛋白激酶磷酸化特异位点识别模型,以自取代检验,留1/10法交互检验以及外部检验验证模型的预测能力,将每个样本的输入变量带入模型并识别蛋白激酶磷酸化特异位点。全文摘要本发明公开了一种蛋白激酶磷酸化特异位点计算识别方法,其特征是a)基于主成分分析方法,建立一种新的蛋白质序列结构表征方法-氨基酸三维性质得分;b)用氨基酸三维性质得分表征蛋白激酶磷酸化特异位点的结构特征;c)用费歇尔准则得分方法挑选与蛋白激酶磷酸化特异位点特征密切相关的参数;d)以径向基核支持向量机建立蛋白激酶磷酸化特异位点识别模型,分别以自取代检验,留1/10法交互检验以及外部检验验证方法的预测能力。该发明方法可用于蛋白激酶磷酸化特异位点识别,可为探索生理和病理状态下蛋白质磷酸化规律,进一步阐述生命本质和疾病发生机制及研发新药提供重要支持。文档编号G06F19/00GK101710365SQ200910191888公开日2010年5月19日申请日期2009年12月14日优先权日2009年12月14日发明者杨力,梁桂兆,梅虎,赵巍,马秀岩申请人:重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1