一种蛋白质翻译后修饰定位的方法
【技术领域】
[0001] 本发明涉及一种蛋白质分析方法,尤其是涉及一种蛋白质翻译后修饰定位的方 法,属于与生物质谱相关的蛋白质组学与生物信息学领域。
【背景技术】
[0002] 随着软电离技术(如电喷雾电离)及高分辨质量分析器(如轨道阱)的发展和商 业化,质谱越来越多地用于蛋白质组学的研宄与分析。
[0003] 中国专利CN103389335A公布了一种通过分析生物大分子质谱数据来鉴定生物 大分子一级结构和组成的分析装置和方法。该分析装置和方法基于所述生物大分子的原始 一级和二级质谱,通过同位素峰质荷比及轮廓指纹比对从而对该生物大分子进行鉴定。上 述分析方法直接利用质谱仪所采集的原始实验质谱数据,对前体离子和碎片离子同位素轮 廓中每个原始实验同位素峰的精确质荷比和相对强度与相应的理论值进行比对,分别用于 从数据库中找到候选生物大分子和利用串级质谱确认其中可信度最高的一个,从而对生物 分子进行高可信度的定性、定量分析。
[0004] 在生物信息学技术方面,与肽段的质谱鉴定方法相似,完整蛋白质的鉴定同样也 是主要采用数据库搜索的方法。在蛋白质鉴定中,我们需要考虑蛋白质不同的变体形式 (包括修饰、氨基酸突变等)。
[0005] 蛋白质通过其完整的结构来实现其生物功能,其中,一级结构主要包含了蛋白质 的氨基酸序列信息以及蛋白质的翻译后修饰的信息。对于每一个完整蛋白质,发生翻译后 修饰的位点和种类很多,由翻译后修饰不同组合产生的该完整蛋白质的变体的数量很大; 且每一个变体蛋白是完全独立的,有着自己独有的结构和功能。因此,有效地区分与鉴定这 些结构上很接近但功能完全不同的蛋白质变体是必需的;但同时也是很艰难的。在蛋白质 序列相同的情况下,具有不同的修饰组合及位点,这些蛋白质被称为蛋白质变体。其中,在 现有质谱仪器分辨率下,无法有效分辨其完整蛋白质的质量差异的蛋白质变体,被称为同 重异构体(可以是相同分子式,也可以是不同的分子式)。根据修饰种类的组合是否相同, 同重异构体可以分为两类:一类为组合异构体,组合异构具有不同的修饰种类组合,但其修 饰组合总的分子质量相同或十分接近;另一类为位置异构体,位置异构具有相同的修饰,但 其修饰发生的位点不同。由蛋白质翻译后修饰带来的复杂多样,但又极其相似的蛋白质变 体及同重异构体是高通量的蛋白质精确鉴定的一个巨大挑战。
[0006] 现有搜索引擎,如ProsightPC,对蛋白质翻译后修饰的定位没有设置独立的打分 与评价指标或参数,而是通过鉴定结果蛋白质的最佳匹配次序进行评价,无法提供高可信 度的准确定位翻译后修饰的位点的鉴定结果。
[0007] 中国专利CN104134015A公布了一种蛋白质翻译后修饰的定位方法,包括对于 一条蛋白质序列,计算发生的修饰的总质量,得到该总质量对应的一个或多个修饰组合;将 与所述蛋白质序列上的每个氨基酸对应的一个或多个修饰集合作为图中的顶点,根据所述 一个或多个修饰组合连接该顶点,并且根据与所述蛋白质序列对应的谱图设置该顶点的权 值。其中,所述修饰集合是从所述蛋白质序列的第一个氨基酸到对应的氨基酸上能够发生 的修饰的集合并且是所述一个或多个修饰组合中的一个修饰组合的子集。所述方法还包括 根据路径上所有顶点的权值选择所述图中的路径,并且将该路径转换为修饰位点信息。
[0008] 上述专利提供了一种翻译后修饰快速组合的方法,但在修饰组合与位点的确定上 采用的策略,与上文中的ProsightPC相似,用所有匹配的碎片离子进行统计打分,该打分 本质上是对修饰后的序列打分,不是专门针对修饰的打分方法,最后只将打分最高的蛋白 质变体进行输出。但是,实验中往往是一张二级质谱图中包含了多种蛋白质变体,该方法只 输出一个结果,追求的是最佳匹配的蛋白质变体,丢失了许多的信息。而且,由于多种蛋白 质变体的数据混杂,部分所谓最佳匹配的蛋白质变体的准确性仍有待讨论。
【发明内容】
[0009] 本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种直接的、高可信 度的蛋白质翻译后修饰定位的方法。
[0010] 本发明的目的可以通过以下技术方案来实现:
[0011] 一种蛋白质翻译后修饰定位的方法,包括以下步骤:
[0012] (1)根据标准蛋白质序列数据库中的序列与修饰信息,分别生成所有对应蛋白变 体的理论一级质谱数据库与二级质谱数据库;
[0013] (2)将实验的一级质谱与理论的一级质谱相比较,找出所有与该一级质谱匹配的 候选蛋白质变体;
[0014] (3)将实验的二级质谱数据与所有候选蛋白质变体的理论的二级质谱数据进行匹 配,得到各候选蛋白质变体的匹配碎片离子信息;
[0015] (4)选取一条侯选蛋白质变体,若其不包含翻译后修饰,则不进行翻译后修饰定位 打分;若包含翻译后修饰,则在所有候选蛋白质变体中寻找是否存在同重异构体;
[0016] (5)若该条侯选蛋白质变体不存在同重异构体,则该翻译后修饰唯有一种可能,匹 配的碎片离子的总数为该蛋白质翻译后修饰定位的得分;若存在同重异构体,则将所有同 重异构体作为干扰;
[0017] (6)在同重异构体中判断是否存在同重等效异构体,若存在,将同重等效异构体从 作为干扰的同重异构体列表中排除;
[0018] (7)获取该候选蛋白质变体的所有匹配的碎片离子,不考虑价态,去除重复的碎片 离子,对每个不重复的碎片离子,若为该候选蛋白质变体独有的特征碎片,则该蛋白质翻译 后修饰定位的得分加一,否则,不加分;
[0019] (8)循环步骤(4)-(7),对所有候选蛋白质变体逐一进行翻译后修饰定位的打分;
[0020] (9)根据设定的最低翻译后修饰的得分数值,对所有候选蛋白质变体进行筛选,得 到实验二级质谱匹配的结果列表。
[0021] 步骤(1)中生成所有对应生物大分子变体的理论一级质谱数据库的方法为:根据 对应生物大分子变体的序列、修饰等信息,计算出对应前体离子的分子式,并根据该分子式 计算出与实验一级质谱对应的单同位素质量或同位素轮廓。
[0022] 步骤(1)中生成所有对应生物大分子变体的理论二级质谱数据库的方法为:根据 二级质谱中生物大分子解离的规律,将该生物大分子进行碎裂,计算出所有理论的碎片离 子的分子式,并根据该分子式计算出与实验二级质谱对应的单同位素质量或同位素轮廓。
[0023] 步骤(2)中匹配指:实验数据的前体离子的单同位素质量或同位素轮廓与候选蛋 白质理论的前体离子的单同位素质量或同位素轮廓的差异在仪器的精度范围内。
[0024] 步骤⑷中判断是否存在同重异构体的条件是:(a)蛋白质变体的序列相同;(b) 修饰的种类组合及位点不同;(c)总的蛋白质变体的质量相同或差异在仪器精度范围内。
[0025] 步骤(6)中判断是否存在同重等效异构体的条件是:(a)比较的范围为指定蛋白 质变体的所有同重异构体;(b)包含翻译后修饰种类的数目相同;(c)所有翻译后修饰的位 点依次相同;(d)所有相同位点对应的修饰的单同位素质量或同位素轮廓的差异在仪器的 精度范围之内。
[0026] 步骤(7)中判断是否为独有的碎片离子的条件是:(a)比较的范围为指定蛋白质 变体的所有同重异构体;(b)碎片离子的离子类型相同;(c)碎片离子的断裂位点相同;(d) 碎片离子对应的单同位素质量或同位素轮廓的差异在仪器的精度范围之外。
[0027] 步骤(9)中筛选的结果为:蛋白质翻译后修饰得分大于或等于设定值的所有蛋白 质变体。
[0028] 本发明的方法基于所述质谱的原始一级和二级质谱的数据库搜索,通过特征的碎 片离子,特征地对每个候选的蛋白质变体进行翻译后修饰组合及位点进行打分,输出所有 得分通过的蛋白质变体,得到更综合、更全面的、更准确的翻译后修饰的定位结果。包含了 那些用现有方法虽然打分稍差,但却真实存在的匹配结果。由于本方法选用了特征的碎片 离子,准确性可以得到保证。而且,本方法中的打分模型独立于现有方法,专对翻译后修饰 的打分,具有很好的兼容性。
[0029] 本发明通过特征匹配离子,来确定蛋白质翻译后修饰的位点,对质谱数据进行数 据库搜索和蛋白质鉴定过程中,利用特征离子,实现对不同蛋白质翻译后修饰的位置异构 或组合异构的高效、准确的区分,实现蛋白质翻译后修饰的定位。与现有技术相比,本发明 的解析方法对高通量的蛋白质翻译后修饰的精确定位有着显著的提升,可以得到综合全面 的翻译后修饰鉴定结果、精确的确定蛋白质的翻译后修饰位点,适用于高通量的蛋白质组 的解析,特别是具有大量翻译后修饰的蛋白质(如组蛋白等)质谱及串级质谱高效解析及 结构准确鉴定。
【附图说明】
[0030] 图1为实验测得组