基于泊松分布模型的蛋白质二级质谱鉴定方法
【专利摘要】本发明公开了一种基于泊松分布模型的蛋白质二级质谱鉴定方法,该方法的步骤轮廓如下:虚拟酶解蛋白质数据库序列并对酶解后的肽段建立肽段数据库索引,建立肽段数据库,接着根据待分析实验图谱中母离子去电荷后的质量数在建立的肽段数据库中找出符合要求的候选肽段,对实验图谱进行去同位素峰和去噪处理,将待分析的实验图谱与数据库中的理论图谱进行匹配打分,选择得分最高的肽段作为此实验图谱的鉴定结果,对鉴定结果进行整体的假阳性控制。本发明涉及的基于泊松分布模型的蛋白质二级质谱鉴定方法可动态选峰,运行速度较快,同时鉴定的有效图谱数量和肽段数量均高于目前算法。
【专利说明】
基于泊松分布模型的蛋白质二级质谱鉴定方法
技术领域
[0001] 本发明设及蛋白质二级质谱鉴定领域,特别是设及一种基于泊松分布模型的蛋白 质二级质谱鉴定方法。
【背景技术】
[0002] 生物质谱技术目前已经成为蛋白质组研究的支撑技术之一,质谱技术的开发可追 溯到20世纪初期,由J.J.化omson创制的抛物线质谱装置。之后,在1919年Aston制成的速度 聚焦型质谱仪又为质谱的发展创造奇迹。接着80年代末期,基质辅助激光解吸(matrix- assisted laser desorption ionization,MALDI)和电喷雾(Electrospray Ionization, ESI)两种软电离技术的出现,使生物质谱引入较少的杂质同时保持肤段分子的完整性,运 些改变使得生物质谱技术可W大规模的应用于蛋白质分析中。主要是利用串联质谱或者二 级质谱化C-MS/MS)从带有复杂噪声或者部分信息缺失的数据中推断样品的蛋白质组成。在 运些质谱数据的处理中我们主要应用数据库捜索,其基本过程如图1所示,即将实验图谱和 数据库中产生的理论图谱进行比对、打分,选择分值最高的匹配作为捜索结果的候选肤段。
[0003] 我们知道一次蛋白质组实验可产生许多的LC-MS/MS图谱,运些图谱具有如下特 点:实验图谱碎片峰离子复杂且丰富,同位素峰存在,生物质谱仪器本身的误差。如何快速 的提取对我们有用的信息成为生物学研究的新课题,蛋白质二级质谱鉴定算法的不断创新 为研究核巧酸序列提供了新的方法。
[0004] 蛋白质二级质谱鉴定主要包括:母离子价态的确定、有效质谱峰的选取、匹配打分 模型构建W及整体鉴定结果的假阳性率控制。随机数据库方法是目前针对整体鉴定结果假 阳性率控制的主要方法。其基本思想是:先给定的蛋白质数据库和实验数据集构建一个随 机数据库,然后同时或者分别捜索真实蛋白质数据库和新构建的随机数据库,进而通过随 机数据库肤段匹配来模拟正常数据库中的随机匹配,最终估计正常数据库中随机匹配的特 征分布,确定不同过滤标准。目前求取整体数据集假阳性率(False Positive Rate,FPR)的 方法多样。其中Kail's在Proteome上公开的计算假阳性率的方法被广泛采用,计算公式如 下:
[0005]
[0006] 打分模型是蛋白质二级质谱鉴定算法的核屯、问题,目前的许多算法并不能提高蛋 白质有效质谱数量和蛋白质肤段数。
【发明内容】
[0007] 基于此,有必要提供一种能明显提高蛋白质有效质谱数量和蛋白质肤段数量的基 于泊松分布模型的蛋白质二级质谱鉴定方法。
[000引一种基于泊松分布模型的蛋白质二级质谱鉴定方法,包括如下步骤:
[0009] (1)虚拟酶解蛋白质数据库序列,并根据肤段的质量数对酶解后的肤段建立肤段 数据库和肤段数据库索引;
[0010] (2)根据待分析实验图谱中母离子的核质比在步骤(1)所述的肤段数据库中找出 符合要求的候选肤段,将选出符合要求的候选肤段作为理论图谱;
[0011] (3)对待分析实验图谱进行去同位素峰和去噪处理;
[0012] (4)将步骤(3)中的待分析实验图谱和步骤(2)中每张候选肤段的理论图谱进行匹 配打分,选择得分最高的候选肤段作为本次实验图谱的鉴定结果;
[0013] (5)针对所有实验的鉴定结果进行整体的假阳性控制。
[0014] 在其中一个实施例中,步骤(1)具体包括如下步骤:
[0015] (1.1)读取待分析二级质谱样本中物种蛋白质序列库文件的一条蛋白质序列;
[0016] (1.2)根据提前设定的蛋白酶确定蛋白质序列的酶切位点,在该酶切位点进行断 裂,区别出无漏切位点的肤段和存在漏切位点的断裂肤段;
[0017] (1.3)由每个氨基酸的分子量计算步骤(1.2)中其所对应的酶切后的肤段的质量 数;
[0018] (1.4)将经过步骤(1.3)处理过的肤段存入肤段数据库,同时W该肤段取整后质量 数命名该数据库中的文件,并将该条肤段的信息存入该文件;
[0019] (1.5)重复步骤(1.2)-(1.4),对每一条蛋白质进行相同的处理,直到所有的蛋白 序列被酶解且被存入已建立的所述肤段数据库;
[0020] (1.6)依据所述肤段数据库中的文件名数字从小到大读出文件中的肤段信息,每 读一个文件,按照文件中所存肤段的质量数从小到大进行排序,并将其存入到 database, ind文件中;并Wlda为单位对所有肤段建立查找索引database, index,该查找索 引具体包括:肤段质量数、肤段在database. ind文件中的开始位置W及某区间内的肤段的 个数。
[0021] 在其中一个实施例中,步骤(2)在肤段数据库中找出符合要求的候选肤段并W此 建立理论图谱的具体步骤是:
[0022] (2.1.1)加载步骤(1.6)中的database, index文件信息到内存数组index中,读取 待分析二级质谱的母离子核质比值和电荷信息,并计算其母离子去电荷后的质量数;
[0023] (2.1.2)根据容许的质量误差和步骤(2.1)所述的质量数在index数组中查找相应 肤段在文件database. ind中的开始位置和行数,然后加载此区间内的所有肤段信息;
[0024] (2.1.3)根据用户所采用质谱仪的精确度,对步骤(2.1.2)加载到内存的肤段进行 进一步的筛选,作为此待分析二级质谱的候选肤段;
[0025] (2.1.4)步骤(2.1.3)得到的候选肤段在离子碎裂过程中产生理论碎片b、y离子。 [00%]在其中一个实施例中,步骤(2.1.4)所述的候选肤段在离子碎裂过程中产生理论 碎片b、y离子包括如下步骤:
[0027] (2.1.4.1)产生候选肤段产生的理论碎片b、y离子;
[0028] (2.1.4.2)若步骤(2.1.4.1)产生b、y离子中包含S、T、E和D四种氨基酸中的一种, 则产生对应的丢水碎片离子b-出0和y-出0;
[00巧](2.1.4.3)若步骤(2.1.4.1)产生b、y离子中包含R、K、Q和N四种氨基酸中的一种, 则产生对应的丢氨碎片离子b-N出和y-N出;
[0030] (2.1.4.4)若待分析二级质谱母离子价态是1价,则考虑产生一价碎片离子;
[0031] (2.1.4.5)若待分析二级质谱母离子价态大于或等于2,并且对应的碎片离子中包 含R,K和ΗΞ种氨基酸其中一种时,则考虑二价碎片离子峰。
[0032] 在其中一个实施例中,步骤(3)所述的对待分析实验图谱进行去同位素的具体步 骤是:
[0033] (3.1)进行初始化,Ξ个比较峰的m/z值及其强度,全部设为0,设Ξ个峰m/z值分别 是:m/z_l = 0,m/z_2 = 0,m/z_3 = 0,其峰强对应是 m/z_l_in = 0,m/z_2_in = 0,m/z_3_in = 0,并设置保留峰的容器,已知测量质量误差m;
[0034] (3.2)读取一个峰的信息,把目前的峰放入第^个峰的位置,即111八_3,111八_3_111, 把第Ξ个峰与第一个峰和第二个峰比较,判断是否是前两个峰的同位素峰:
[0035] (3.2.1)如果W下Ξ个条件的任意一个条件成立,则认为是同位素峰,
[0036] a. I m/z_3-m/z_2-l I < =m并且m/z_2_in〉m/z_3_in;
[0037] b. |m/z_3-m/z_l-l I <=m并且m/z_l_in〉m/z_3_in;
[0038] c. |m/z_2-m/z_l I <=m并且m/z_2_in〉m/z_3_in,此为相同峰信息,记录误差,
[0039] 执行Ξ个峰向前平移一位,空出第Ξ个峰的位置,即:
[0040] m/z_l =m/z_2 ,m/z_l_in=m/z_2_in ;
[0041 ] m/z_2 =m/z_3 ,m/z_2_in=m/z_3_in ;
[0042] (3.2.2)如果步骤(3.2.1)中的Ξ个条件均不成立,则认为目前进入第Ξ位置的峰 不是同位素峰,将其作为保留峰存入保留峰容器中,并把Ξ个峰向前平移一位,空出第Ξ个 峰的位置,良P ;m/z一1 =m/z一2,m/z一1一in=m/z一2一in;
[0043] (3.3)逐个读取下一个峰的信息,重复步骤(3.2)直到处理完一张二级质谱图所用 峰信息,其保留峰容器中的峰即为去同位素峰之后的非同位素峰。
[0044] 在其中一个实施例中,步骤(3)所述的对待分析实验图谱进行去噪的具体步骤如 下:
[0045] (3.4)寻找实验图谱m/z的最大值和最小指分别为maxm/z和mi皿/z,W及峰强度的 最大值max_intensity和对应的m/z值;
[0046] (3.5)将实验图谱划分为k个窗口,其中k = max(;round([(maxm/z-m/z)/50,(m/z- minm/z)/50]+0.5));
[0047] (3.6似111日义_;[]11日]13;[17对应的111八为基准,并向左、右延伸,每次分别开启500日的 窗口,直到窗口数等于k结束;
[0048] (3.7)对每一窗口的峰进行归一化,用每个峰除W该窗口中的最强峰,并选择该窗 口下最强的6个峰作为有效峰。
[0049] 在其中一个实施例中,所述步骤(4)将待分析实验图谱和理论图谱进行匹配打分 包括:基于泊松分布的连续匹配打分,基于泊松分布的b、y离子的匹配打分,具体如下:
[0050] (3)基于泊松分布的连续匹配打分:
[0化1 ]
[0052]其中ki是实验图谱匹配数,Κι是实验图谱连续匹配上的个数,引是连续匹配的得 分,0.1789是随机匹配的概率值,等于实际连续错误匹配数除W理论连续错误匹配数;
[0053] (4)基于泊松分布的b、y离子的匹配打分:
[0化4]
[0化5]其中拉是实验图谱和理论图谱中b/V离子的匹配个数,S2是b/V匹配的得分,0.2110 是随机匹配的概率,等于实际错误匹配数除W理论错误匹配数;
[0056] (3)基于泊松分布模型的总的打分:
[0化7]
[0058] 在其中一个实施例中,所述步骤(5)针对所有实验图谱鉴定结果进行整体假阳性 控制,具体包括W下步骤:
[0059] (5.1)统计待分析图谱所有二级图谱鉴定结果肤段得分最小值和最大值;
[0060] (5.2)统计在最小值和最大值之间,其中大于等于每个分值的鉴定结果中真实 (佩)和随机库(Nr)肤段的个数,并计算每个分值为阀值时的FDR的值,如下公式:
[0061]
[0062] (5.3)寻找每个分值的阔值,直至找到FDR< = 0.01时,将此分值为待分析图谱的整 体阀值;
[0063] (5.4)根据步骤(5.3)找到全局的阔值,并且W此阀值过滤待分析图谱的鉴定结 果,将小于此阀值结果被过滤掉,其结果作为最终的待分析图谱最终鉴定结果。
[0064] 本发明设及的泊松分布模型的蛋白质二级质谱鉴定方法具有如下的优点及效果:
[0065] (1)本发明主要对生物质谱产生的二级质谱数据进行解释和鉴定,其鉴定有效质 谱的数量和蛋白质肤段数量均高于目前的常用的国外商业软件的算法。现被广泛使用的技 术中,Mascot鉴定的有效质谱的数量和蛋白质肤段数量最多,本鉴定方法结果要优于 Mascot〇
[0066] (2)本发明方法的打分模型主要是基于泊松分布模型进行打分。其方法在考虑连 续匹配W及b,y离子匹配的基础上融入了峰强度运一特征信息。
[0067] (3)该发明鉴定有效质谱峰的效果要远远高于目前的商业软件Mascot和Sequest, 而且本鉴定算法鉴定效率较之前算法大大提高了。
【附图说明】
[0068] 图1为二级质谱鉴定的基本流程图;
[0069] 图2为本发明实施例中基于候选肤段区分度的蛋白质二级质谱鉴定方法流程图;
[0070] 图3为本发明实施例蛋白质虚拟酶解示意图;
[0071] 图4为本发明实施例原始4个峰的去同位素执行过程中Ξ个峰和保留峰的状态改 变过程。
【具体实施方式】
[0072] W下将结合实施例及附图对本发明作进一步详细的说明。
[0073] 参见图2所示,本实施例中的基于泊松分布模型的蛋白质二级质谱鉴定方法,具体 步骤如下:
[0074] (1)虚拟酶解蛋白质数据库序列,并根据肤段的质量数对酶解后的肤段建立肤段 数据库和肤段数据库索引;
[0075] (2)根据待分析实验图谱中母离子的核质比在步骤(1)所述的肤段数据库中找出 符合要求的候选肤段,将选出符合要求的候选肤段作为理论图谱;
[0076] (3)对待分析实验图谱进行去同位素峰和去噪处理(即选取有效峰);
[0077] (4)将步骤(3)中的待分析实验图谱和步骤(2)中每张候选肤段的理论图谱进行匹 配打分,选择得分最高的候选肤段作为本次实验图谱的鉴定结果;
[0078] (5)针对所有实验的鉴定结果进行整体的假阳性控制。
[0079] 上述步骤具体实施如下:
[0080] ①所述的虚拟酶解蛋白质数据库序列并对酶解后肤段建立肤段数据库和肤段数 据库索引,具体包括如下步骤:
[0081] 1)读取质谱分析样本(即待分析二级质谱的样本)的物种蛋白质序列库文件中的 一条蛋白质序列。
[0082] 2)根据用户设定蛋白酶和容许的漏切位点个数对此蛋白质序列进行虚拟理论酶 切。目前使用Trypsin进行蛋白质酶解实验最多。在酶切过程中应遵循W下规则:
[0083] A.根据表1找到蛋白质序列中包含符合上面规则的理论酶切位点;
[0084] B.在复合符合规则的酶切位点产生断裂,产生没有漏切位点的肤段;
[0085] C.产生存在漏切位点的断裂肤段;
[0086] 表1蛋白酶酶切位点表
[0087]
[008引从表1可知化ypsin是对蛋白质C-Term敏感的,也就是说蛋白质序列C端可能会被 切掉一个氨基酸;其酶切位点KR,也就是说其酶在序列的K和R上发生酶切作用;其限制酶切 位点是P,也就是说序列K和R上发生酶切时,如果其后面一个氨基酸是P则不能发生酶切作 用。其一个蛋白质虚拟酶解(WTrypsin酶解为例)示意图如图3所示。
[0089] 3)根据每个氨基酸的分子量计算每个虚拟酶切后肤段的质量数;在计算质量数之 前首先对每个氨基酸的质量建立索引。如表2所示,对20个氨基酸的索引和翻译后修饰的索 引方法如下:
[0090] A.启用一个与ASCII码相同大小的数组(大小为250);此数组的下标与氨基酸单字 母简写的ASCn码数值一致,其数组中保存其氨基酸的分子量。除了 20种氨基酸的位置放置 没有修饰的氨基酸(除了 20种氨基酸,还有碳氨氧氮的),其它位置(大概有230)个可W处理 翻译后修饰,该方法可W同时处理230种修饰。
[0091] 表2氨基酸索引表
[0092]
[0093] B把肤段字母转换成ASCII码的数值,根据氨基酸索引表的数值计算肤段的质量, 例如:假设有一个肤段为ACD,那么肤段ACD的ASCn码数值是65,67,68;那么其肤段的质量 数为数组AA下标为65,67,68的值之和并加上水的分子量,因为肤段有C端化)和N端(0H),所 W该肤段的质量数为:
[0094] 巧AA(3)+AA(2)+AA(65)+AA(67)+AA(68)=巧1.007825+15.99491+71.037114+ 103.009化115.026943 = 307.0838
[0095] 4)将计算所得质量数的肤段放入肤段数据库中,即W每da为单位对所有酶解后肤 段分别存入相应的文件中。同时将肤段的质量数取整,例如307.0838取整后为307,之后将 肤段的信息存入质量数取整的文件中末尾追加,即在文件名为307的文件末尾追加一行存 入肤段的信息。按照上面方法依次将每条肤段放入肤段数据库。
[0096] 5)读取下一条蛋白质序列,重复步骤2),3),4),直至所有的蛋白序列被酶解和存 入肤段数据库。
[0097] 6)合并W每da为单位文件的肤段信息并对其建立索引文件:按文件名的数字从小 到大读出文件中的肤段信息,每读一个文件,按照文件中肤段的质量数从小到大进行排序, 之后从小到大顺序存入database, ind文件中,并删除每个读取肤段信息文件。例如文件名 为1000文件存入质量数为lOOOda-lOOlda所有肤段的信息,读取其文件的肤段信息,并排 序,之后排序后肤段信息存入database. ind文件中,并删除1000文件。将信息da化base. ind 每行存入一个肤段,其文件格式如表3所示,与此同时,按照Ida对酶解所有肤段建立查找索 引database, index,其查找索引记录下信息:第一列保存其质量数,例如1000,表示质量数 位为lOOOda-100Ida肤段,第二列是运些肤段在da化base, ind文件开始位置,第Ξ列是酶解 肤段在lOOOda-100Ida的个数,即lOOOda-100Ida肤段在database. ind文件中的行数。根据 database . index可W知道lOOOda-100Ida在文件database . ind中的位置,其结果如表4所 /J、- 〇
[009引表3 da1:abase.ind索引表 [0099]
[0102] ②根据待分析实验图谱母离子去电荷后的质量查找肤段数据库,找出符合要求的 候选肤段,具体包括如下步骤:
[0103] 根据待分析二级质谱母子荷质比(m/z)值查找符合要求的候选肤段的方法:
[0104] 1)加载database, index文件信息到内存数组index,读取待分析二级质谱的母离 子的m/z值和电荷信息,并计算其母离子去电荷后的质量数,例如有一个m/z = 2100.2, charge = 2的母离子信息,其去电荷后的质量数为m/z巧-2 = 4198.2。
[0105] 2)根据容许的质量误差查找index数组记录并读取相应肤段信息,假设质量误差 为0.1,4198.2-0.1 = 4198.1 和4198.2+0.1 = 4198.3,4198.1 和4198.3取整都为4198da,查 找index数组找到其在文件database . ind中的开始位置和行数,由此位置开始顺序读取相 应的行数加入内存中,即加载了4198~4199化内的所有肤段信息。
[0106] 3)对内存加载肤段进行逐步的精细筛选,即筛选出质量数范围在4198.1~ 4198.3化之间的的肤段,作为此待分析二级质谱的候选肤段。
[0107] ③对待分析实验图谱进行去同位素峰和去噪处理,具体包括如下步骤:
[010引1)去同位素峰:
[0109] 同位素峰在实验图谱中是普遍存在的,理论上讲同位素峰之间质荷比m/z相差1且 同位素峰之间的峰强受自然界同位素丰度控制,同时由于质谱仪类型不同,其测量的精确 度也不同。由于一张质谱的系统误差一样,也就是说同位素峰要么总是向右或向左偏离理 论值,因此认为两个峰m/zl和m/z2符合|m/zl-m/z2-l I <0.25da既为同位素峰。去同位素峰 理论上应该构建同位素峰群,选取峰群中最强的峰,为了提高速度,本发明实现方法是同时 把Ξ个峰反复比较取最高峰(CID 1+0.25da),不断重复选取。
[0110] 具体操作方法如下:
[0111] 1.1)进行初始化,Ξ个比较峰的m/z值及其强度,全部设为0(假设Ξ个峰m/z值分 别是:m/z_l = 0,m/z_2 = 0,m/z_3 = 0,其峰强对应是 m/z_l_in = 0,m/z_2_in = 0,m/z_3_in =0,并设置保留峰的容器(用于存储非同位素峰));
[0112] 1.2)读取一个峰的信息,假设m/z_cu;rr = 245, in_cu;rr = 80,测量质量误差m = 0.25,
[0113] 1.2.1)把目前的峰放入第Ξ个峰的位置,即m/z_3 = m/z_curr,m/z_3_in = in_ curr;
[0114] 1.2.2)把第Ξ个峰与第一个峰和第二个峰比较,判断是否是前两个峰的同位素 峰。即
[0115] 如果W下Ξ个条件的任意一个条件成立,则认为是同位素峰,
[0116] ① I m/z_3-m/z_2-l I < =m并且m/z_2_in〉m/z_3_in;
[0117] ② |m/z_3-m/z_l-l I <=m并且m/z_l_in〉m/z_3_in;
[0118] ③ |m/z_2-m/z_l I <=m并且m/z_2_in〉m/z_3_in(此为相同峰信息,记录误差),
[0119] 执行Ξ个峰向前平移一位,空出第Ξ个峰的位置,即:
[0120] m/z_l =m/z_2,m/z_l_in=m/z_2_in;
[0121 ] m/z一2=m/z一3,m/z_2_in=m/z_3_in;
[0122] 否则,认为目前进入第Ξ位置的峰不是同位素峰,将其作为保留峰存入保留峰容 器中,并把Ξ个峰向前平移一位,空出第Ξ个峰的位置,即:
[0123] m/z_l =m/z_2,m/z_l_in=m/z_2_in;
[0124] 1.3)逐个读取下一个峰的信息,重复步骤1.2)直到处理完一张二级质谱图所用峰 信息,其保留峰容器中的峰即为去同位素峰之后的非同位素峰。
[0125] 如图4出示了原始4个峰的去同位素执行过程中Ξ个峰和保留峰的状态改变过程。
[0126] 2)去噪处理(即选取有效质谱峰)
[0127] 本发明鉴定方法在选取有效质谱峰方面与W前鉴定方法有了很大不同,此算法采 取W下选取有效峰的方法:
[0128] 2.1)寻找实验图谱m/z的最大值和最小指分别为maxm/z和minm/z,W及峰强度的 最大值max_intensity和对应的m/z值;
[0129] 2.2)将实验图谱划分为k个窗口,其中k = max(;round( [ (maxm/z-m/z)/50 , (m/z- minm/z)/50]+0.5));;
[0130] 2.3) Wmax_intensity对应的m/z为基准,并向左右延伸,每次分别开启50化的窗 口(即m 00化为1个窗口),直到窗口数等于k结束;
[0131] 2.4)对每一窗口的峰进行归一化,也即用每个峰除W该窗口中的最强峰,并选择 该窗口下最强的6个峰作为有效峰。
[0132] ④产生符合要求的候选肤段的理论图谱,即对实验图谱进行去同位素峰处理和选 取有效峰后产生符合要求的候选肤段的理论图谱:
[0133] 1)产生候选肤段可能产生的理论碎片b、y离子;
[0134] 2)如果步骤1)产生b、y离子中包含S、T、E和D四种氨基酸中的一种则产生对应的丢 水砕片罔子6-出0和y-H2〇;
[0135] 3)如果步骤1)产生b、y离子中包含R、K、Q和N四种氨基酸中的一种则产生对应的丢 氨砕片罔子b-NH3和y-N出;
[0136] 4)待分析二级质谱母离子价态是1价,则考虑产生一价碎片离子;
[0137] 5)若待分析二级质谱母离子价态大于等于2,并且对应的碎片离子中包含R,K和Η Ξ种氨基酸其中一种时,则考虑二价碎片离子峰;
[0138] 根据步骤上述步骤产生所有理论碎片离子的方法规则,得到候选肤段的理论图 谱。
[0139] ⑤待分析实验图谱和理论图谱进行匹配打分包括:基于泊松分布的连续匹配打 分,基于泊松分布的b、y离子的匹配打分,具体如下:
[0140] (1)基于泊松分布的连续匹配打分
[0141]
[0142] 其中ki是实验图谱匹配数,Κι是实验图谱连续匹配上的个数,引是连续匹配的得 分,0.1789是随机匹配的概率值,等于实际连续错误匹配数除W理论连续错误匹配数。
[0143] (2)基于泊松分布的b、y离子的匹配打分
[0144]
[0145] 其中拉是实验图谱和理论图谱中b/y离子的匹配个数,&是6分匹配的得分,0.2110 是随机匹配的概率,等于实际错误匹配数除W理论错误匹配数。
[0146] (3)基于泊松分布模型的总的打分
[0147]
[0148] ⑥根据总打分函数选择得分最高的肤段作为此实验图谱的鉴定结果。
[0149] ⑦对鉴定结果采用FDR?0.01进行质量控制并得出成最终鉴定结果,具体方法如 下步骤:
[0150] 1)统计待分析图谱所有二级图谱中的鉴定结果肤段得分最小值和最大值;
[0151] 2)统计在最小值和最大值之间,其中大于每个分值的鉴定结果中真实库和随机库 肤段的个数,并计算每个分值为阀值时的FDR的值;
[0152] 3)按得分值从小到大寻找每个分值,直到找到FDR< = 0.01时,此分值为待分析图 谱的整体阀值;
[0153] 4)根据步骤3)找到整体阀值,W此阀值过滤待分析图谱的鉴定结果,也就是说小 于此阀值结果被过滤掉,其结果作为最终的待分析图谱最终鉴定结果。
[0154] 本发明设及的泊松分布模型的蛋白质二级质谱鉴定算法主要对生物质谱产生的 二级质谱数据进行解释和鉴定,其鉴定有效质谱的数量和蛋白质肤段数量均高于目前的常 用的国外商业软件的算法。该方法在考虑连续匹配W及b,y离子匹配的基础上融入了峰强 度运一特征信息,鉴定有效质谱峰的效果要远远高于目前的商业软件Mascot、Sequest和 SQID,而且本鉴定算法鉴定效率较之前算法大大提高。
[0155] W上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并 不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员 来说,在不脱离本发明构思的前提下,还可W做出若干变形和改进,运些都属于本发明的保 护范围。因此,本发明专利的保护范围应W所附权利要求为准。
【主权项】
1. 一种基于泊松分布模型的蛋白质二级质谱鉴定方法,其特征在于,包括如下步骤: (1) 虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据 库和肽段数据库索引; (2) 根据待分析实验图谱中母离子的核质比在步骤(1)所述的肽段数据库中找出符合 要求的候选肽段,将选出符合要求的候选肽段作为理论图谱; (3) 对待分析实验图谱进行去同位素峰和去噪处理; (4) 将步骤(3)中的待分析实验图谱和步骤(2)中每张候选肽段的理论图谱进行匹配打 分,选择得分最高的候选肽段作为本次实验图谱的鉴定结果; (5) 针对所有实验的鉴定结果进行整体的假阳性控制。2. 根据权利要求1所述的基于泊松分布模型的蛋白质二级质谱鉴定方法,其特征在于, 步骤(1)具体包括如下步骤: (1.1) 读取待分析二级质谱样本中物种蛋白质序列库文件的一条蛋白质序列; (1.2) 根据提前设定的蛋白酶确定蛋白质序列的酶切位点,在该酶切位点进行断裂,区 别出无漏切位点的肽段和存在漏切位点的断裂肽段; (1.3) 由每个氨基酸的分子量计算步骤(1.2)中其所对应的酶切后的肽段的质量数; (1.4) 将经过步骤(1.3)处理过的肽段存入肽段数据库,同时以该肽段取整后质量数命 名该数据库中的文件,并将该条肽段的信息存入该文件; (1.5) 重复步骤(1.2)-(1.4),对每一条蛋白质进行相同的处理,直到所有的蛋白序列 被酶解且被存入已建立的所述肽段数据库; (1.6) 依据所述肽段数据库中的文件名数字从小到大读出文件中的肽段信息,每读一 个文件,按照文件中所存肽段的质量数从小到大进行排序,并将其存入到database, ind文 件中;并以Ida为单位对所有肽段建立查找索引database . index,该查找索引具体包括:肽 段质量数、肽段在database, ind文件中的开始位置以及某区间内的肽段的个数。3. 根据权利要求2所述的基于泊松分布模型的蛋白质二级质谱鉴定方法,其特征在于, 步骤(2)在肽段数据库中找出符合要求的候选肽段并以此建立理论图谱的具体步骤是: (2.1.1) 加载步骤(1.6)中的database . index文件信息到内存数组index中,读取待分 析二级质谱的母离子核质比值和电荷信息,并计算其母离子去电荷后的质量数; (2.1.2) 根据容许的质量误差和步骤(2.1)所述的质量数在index数组中查找相应肽段 在文件database. ind中的开始位置和行数,然后加载此区间内的所有肽段信息; (2.1.3) 根据用户所采用质谱仪的精确度,对步骤(2.1.2)加载到内存的肽段进行进一 步的筛选,作为此待分析二级质谱的候选肽段; (2.1.4) 步骤(2.1.3)得到的候选肽段在离子碎裂过程中产生理论碎片b、y离子。4. 根据权利要求3所述的基于泊松分布模型的蛋白质二级质谱鉴定方法,其特征在于, 步骤(2.1.4)所述的候选肽段在离子碎裂过程中产生理论碎片b、y离子包括如下步骤: (2.1.4.1) 产生候选肽段产生的理论碎片b、y离子; (2.1.4.2) 若步骤(2.1.4.1)产生b、y离子中包含S、T、E和D四种氨基酸中的一种,则产 生对应的丢水碎片离子b-H20和y-H 20; (2.1.4.3) 若步骤(2.1.4.1)产生b、y离子中包含R、K、Q和N四种氨基酸中的一种,则产 生对应的丢氨碎片离子b-NH3和y-NH 3; (2.1.4.4) 若待分析二级质谱母离子价态是1价,则考虑产生一价碎片离子; (2.1.4.5) 若待分析二级质谱母离子价态大于或等于2,并且对应的碎片离子中包含R, K和Η三种氨基酸其中一种时,则考虑二价碎片离子峰。5. 根据权利要求1-4任意一项所述的基于泊松分布模型的蛋白质二级质谱鉴定方法, 其特征在于,步骤(3)所述的对待分析实验图谱进行去同位素的具体步骤是: (3.1) 进行初始化,三个比较峰的m/z值及其强度,全部设为0,设三个峰m/z值分别是: m/z_l = 0,m/z_2 = 0,m/z_3 = 0,其峰强对应是 m/z_l_in = 0,m/z_2_in = 0,m/z_3_in = 0,并 设置保留峰的容器,已知测量质量误差m; (3.2) 读取一个峰的信息,把目前的峰放入第三个峰的位置,即m/z_3,m/z_3_in,把第 三个峰与第一个峰和第二个峰比较,判断是否是前两个峰的同位素峰: (3.2.1) 如果以下三个条件的任意一个条件成立,则认为是同位素峰, a · | m/z_3-m/z_2_l |〈=m并且m/z_2_in>m/z_3_in; b · I m/z_3-m/z_l_l I〈=m并且m/z_l_in>m/z_3_in; c. |m/z_2_m/z_l I <=m并且m/z_2_in>m/z_3_in,此为相同峰信息,记录误差, 执行三个峰向前平移一位,空出第三个峰的位置,即: m/z_l =m/z_2,m/z_l_in=m/z_2_in; m/z_2=m/z_3,m/z_2_in=m/z_3_in; (3.2.2) 如果步骤(3.2.1)中的三个条件均不成立,则认为目前进入第三位置的峰不是 同位素峰,将其作为保留峰存入保留峰容器中,并把三个峰向前平移一位,空出第三个峰的 位置,即:m/z_l =m/z_2,m/z_l_in=m/z_2_in; (3.3) 逐个读取下一个峰的信息,重复步骤(3.2)直到处理完一张二级质谱图所用峰信 息,其保留峰容器中的峰即为去同位素峰之后的非同位素峰。6. 根据权利要求1-4任意一项所述的基于泊松分布模型的蛋白质二级质谱鉴定方法, 其特征在于,步骤(3)所述的对待分析实验图谱进行去噪的具体步骤如下: (3.4) 寻找实验图谱111/2的最大值和最小指分别为1]^11]1/2和1]11111]1/2,以及峰强度的最大 值max_intensity和对应的m/z值; (3 · 5)将实验图谱划分为k个窗口,其中k=max(round([ (maxm/z-m/z)/50,(m/z-minm/ z)/50]+0.5)); (3.6) 以max_intensity对应的m/z为基准,并向左、右延伸,每次分别开启50Da的窗口, 直到窗口数等于k结束; (3.7) 对每一窗口的峰进行归一化,用每个峰除以该窗口中的最强峰,并选择该窗口下 最强的6个峰作为有效峰。7. 根据权利要求1-4任意一项所述的基于泊松分布模型的蛋白质二级质谱鉴定方法, 其特征在于,所述步骤(4)将待分析实验图谱和理论图谱进行匹配打分包括:基于泊松分布 的连续匹配打分,基于泊松分布的b、y离子的匹配打分,具体如下: (1)基于泊松分布的连续匹配打分:其中h是实验图谱匹配数,h是实验图谱连续匹配上的个数,Si是连续匹配的得分, 0.1789是随机匹配的概率值,等于实际连续错误匹配数除以理论连续错误匹配数; (2) 基于泊松分布的b、y离子的匹配打分:其中K2是实验图谱和理论图谱中b/y离子的匹配个数,&是b/y匹配的得分,0.2110是随 机匹配的概率,等于实际错误匹配数除以理论错误匹配数; (3) 基于泊松分布模型的总的打分:8.根据权利要求1-4任意一项所述的基于泊松分布模型的蛋白质二级质谱鉴定方法, 其特征在于,所述步骤(5)针对所有实验图谱鉴定结果进行整体假阳性控制,具体包括以下 步骤: (5.1) 统计待分析图谱所有二级图谱鉴定结果肽段得分最小值和最大值; (5.2) 统计在最小值和最大值之间,其中大于等于每个分值的鉴定结果中真实(Nn)和随 机库(Nr)肽段的个数,并计算每个分值为阀值时的H)R的值,如下公式:(5.3) 寻找每个分值的阈值,直至找到H)R〈 = 0.01时,将此分值为待分析图谱的整体阀 值; (5.4) 根据步骤(5.3)找到全局的阈值,并且以此阀值过滤待分析图谱的鉴定结果,将 小于此阀值结果被过滤掉,其结果作为最终的待分析图谱最终鉴定结果。
【文档编号】G01N33/68GK105823883SQ201510799996
【公开日】2016年8月3日
【申请日】2015年11月19日
【发明人】陈晓舟, 肖传乐, 朱思敏, 陈君华
【申请人】云南民族大学