串联质谱数据母离子检测模型训练方法及母离子检测方法

文档序号:6237662阅读:1095来源:国知局
串联质谱数据母离子检测模型训练方法及母离子检测方法
【专利摘要】本发明提供一种串联质谱母离子检测模型训练方法,包括下列步骤:1)获取母离子已知的谱图数据集,对于其中每张二级谱图,确定该二级谱图的候选母离子;2)提取每个二级谱图-候选母离子组合的特征向量,并根据二级谱图和候选母离子配对正确与否进行相应的赋值;其中,特征向量的元素包括:同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似度和虚拟色谱相似度;3)将所有二级谱图-候选母离子组合的特征向量作为输入,将二级谱图和候选母离子配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。本发明还提供了相应的母离子检测方法。本发明能够提高母离子召回率并提高母离子的检测速度。
【专利说明】串联质谱数据母离子检测模型训练方法及母离子检测方法

【技术领域】
[0001] 本发明涉及生物信息学【技术领域】,具体地说,本发明涉及一种蛋白质组学中串联 质谱数据母离子检测模型训练方法及母离子检测方法。

【背景技术】
[0002] 鸟枪法是生物信息学中鉴定蛋白质的重要方法之一,它将生物样品中的蛋白质先 酶切为肽段,然后送入串联质谱仪中,得到相应的质谱数据集,再通过串联质谱数据库搜索 算法,如SEQUEST、Mascot、pFind等,可以从串联质谱数据中鉴定得到肽段,进一步进行肽 段到蛋白质的推断,就可以获得样品中的蛋白质信息。
[0003] 由肽段生物样品到质谱数据的产生分为两个阶段:第一阶段,肽段分批进入质谱 仪,质谱仪对当前时刻进入质谱仪的所有肽段进行扫描,测量每条肽段的质荷比,由此产生 的质谱图为一级谱图(MSI),第二阶段,选中一级谱图中谱峰强度较高的肽段进行碎裂,获 得碎片离子,质谱仪对所有碎片离子进行第二次扫描得到二级谱图(MS2),也就是串联谱 图。本文中,将由一级谱图和二级谱图组成的数据集称为串联质谱数据集。
[0004] 在当前的基于串联质谱数据集鉴定肽段的方法中,通常需要先检测二级谱图所对 应的母离子,然后再根据给定母离子质量来确定候选肽段,如果母离子信息判断错误,就会 导致谱图鉴定错误,因此母离子的检测至关重要。现有技术中,基于串联质谱数据的母离子 检测方法包括:Hardklor、pParse、MaxQuant等算法,它们都是从串联质谱数据中提取出一 系列特征(包括色谱保留曲线和同位素峰簇相似度),然后再由这一系列特征来推断该二 级谱图所对应的母离子。然而,目前的Hardklor、pParse、MaxQuant等算法均需要人工挑 选各个特征的相关参数,并在多个数据集合上反复对比,逐渐调节各项参数数值,才能达到 一定的召回率,因此使用起来十分繁琐。在检测速度方面,即便是最快的Hardklor算法,导 出9000张谱图的母离子也需要15min以上,难以满足实时数据分析的要求。并且,现有的 母离子检测算法的召回率也有待于进一步地提高。
[0005] 综上所述,当前迫切需要一种召回率高、检测速度快的在串联质谱数据中检测母 离子的方法。


【发明内容】

[0006] 因此,根据本发明的一个方面,提供一种串联质谱数据母离子检测模型训练方法, 包括下列步骤:
[0007] 1)获取母离子已知的谱图数据集,对于其中每张二级谱图,确定该二级谱图的候 选母离子;
[0008] 2)提取每个二级谱图-候选母离子组合的特征向量,并根据二级谱图和候选母离 子配对正确与否进行相应的赋值;其中,特征向量的元素包括:同位素峰簇相似度、碎裂窗 口内的谱峰强度比、色谱相似度和虚拟色谱相似度;
[0009] 3)将所有二级谱图-候选母离子组合的特征向量作为输入,将二级谱图和候选母 离子配对正确与否的赋值作为输出,训练MRS模型,得到串联质谱母离子检测模型。
[0010] 其中,所述步骤1)中,对于每张二级谱图,确定候选母离子的过程包括下列子步 骤:
[0011] 11)找到与当前二级谱图匹配的一级谱图;
[0012] 12)从匹配的一级谱图中提取出当前二级谱图对应的碎裂窗口内的谱峰集合并将 其作为候选单同位素峰集合;
[0013] 13)根据与当前二级谱图匹配的一级谱图以及母离子的可能电荷范围,确定当前 二级谱图的候选母离子。
[0014] 其中,所述步骤11)中,与二级谱图匹配的一级谱图包括:与该二级谱图直接匹配 的一级谱图,在该直接匹配的一级谱图前最近的一张一级谱图,以及在该直接匹配的一级 谱图后最近的一张一级谱图。
[0015] 其中,所述步骤2)中,对于每个二级谱图-候选母离子组合,根据该二级谱图和与 其关联的一级谱图,以及组合中的候选母离子得出该二级谱图-候选母离子组合的特征向 量。
[0016] 其中,所述特征向量的元素还包括:单同位素峰质量、单同位素峰电荷、碎裂窗口 内的谱峰个数、同位素峰簇长度、色谱保留曲线长度、同位素峰簇强度和、单同位素峰精度 中的一项或多项。
[0017] 根据本发明的另一方面,还提供一种基于上述串联质谱母离子检测模型的母离子 检测方法,包括下列步骤:
[0018] 4)对于待检测串联质谱数据集中的每张二级谱图,确定该二级谱图的候选母离 子;
[0019] 5)提取每个二级谱图-候选母离子组合的特征向量;
[0020] 6)将每种二级谱图-候选母离子组合的特征向量依次输入上述串联质谱母离子 检测模型训练方法所得的串联质谱母离子检测模型,根据匹配打分得出与当前二级谱图正 确配对的母离子。
[0021] 其中,所述步骤4)中还包括:对待检测串联质谱数据集进行预处理,删去噪音谱 峰。
[0022] 其中,所述步骤4)中,对于每张二级谱图,确定候选母离子的过程包括下列子步 骤:
[0023] 41)找到与当前二级谱图匹配的一级谱图;
[0024] 42)从匹配的一级谱图中提取出当前二级谱图碎裂窗口内的谱峰集合并将其作为 候选单同位素峰集合;
[0025] 43)根据与当前二级谱图匹配的一级谱图以及母离子的可能电荷范围,确定当前 二级谱图的候选母离子。
[0026] 其中,所述步骤4)中,与二级谱图匹配的一级谱图包括:与该二级谱图直接匹配 的一级谱图,在该直接匹配的一级谱图前最近的一张一级谱图,以及在该直接匹配的一级 谱图后最近的一张一级谱图。
[0027] 其中,所述步骤5)和步骤6)之间执行步骤:
[0028] 51)对于当前二级谱图,当候选母离子数目超过预设的阈值时,对候选母离子进行 初步过滤,取排序靠前的母离子作为当前二级谱图的候选母离子,然后执行步骤6)。
[0029] 与现有技术相比,本发明具有下列技术效果:
[0030] 1、本发明的母离子召回率高。
[0031] 2、本发明的检测速度快。

【专利附图】

【附图说明】
[0032] 以下,结合附图来详细说明本发明的实施例,其中:
[0033] 图1示出了本发明一个实施例的训练母离子检测模型的流程图;
[0034] 图2示出了示出了一组互相匹配的一级谱图和二级谱图的示例;
[0035] 图3示出了一个同位素峰簇的示例;
[0036] 图4示出了本发明一个实施例中,基于串联质谱母离子检测模型对已标记的测试 谱图数据集进行匹配打分的分布图;
[0037] 图5示出了本发明一个实施例在串联质谱数据中检测母离子的流程图。

【具体实施方式】
[0038] 根据本发明的一个实施例,提供了一种串联质谱数据的母离子检测模型训练 方法。本实施例中,采用多元自适应回归样条(MARSpline:Multivariate Adaptive Regression Spline,本文中简称MARS)分类模型作为基础模型,基于二级谱图-母离子组 合的11维特征向量进行训练,得到串联质谱母离子检测模型,进而实现快速灵敏的母离子 检测。
[0039] 图1示出了本实施例的串联质谱母离子检测模型训练方法。包括下列步骤:
[0040] 步骤1 :获取母离子标注谱图数据集。谱图数据集中含有大量的二级谱图和一级 谱图,并且每张二级谱图的母离子已标注,即母离子已知。
[0041] 步骤2 :对于每张二级谱图,找到与其匹配的一级谱图。
[0042] 在串联质谱实验过程中,肽段离子从色谱仪中分批进入质谱仪,同一时刻内进入 的肽段离子被质谱仪扫描后形成了一张一级谱图。扫描到一张一级谱图后,质谱仪会从一 级谱图中选择强度较高的若干个谱峰信号分别进行碎裂(fragmentation)。每一次碎裂都 是在当前待碎裂的信号峰的质荷比附近开设一个窗口,碎裂窗口(isolation window,直 译为隔离窗),对隔离窗口内的所有谱峰进行碎裂。每一次碎裂后得到的碎片信息分别记 录,形成二级谱图。图2示出了一组互相匹配的一级谱图和二级谱图的示例。从图2中可 以看出,该二级谱图是从一级谱图中选择533Th附近一个碎裂窗口碎裂而获得的。图2中 一级谱图和二级谱图之间的虚线表示了这一匹配关系。所有的质谱数据,包括一级谱图和 二级谱图,都是由一系列的谱峰信号构成的。每一个谱峰就是坐标图中的一个坚线,坚线的 横坐标是谱峰质荷比(mass-to-charge ratio, m/z),纵坐标是谱峰强度(Intensity,又名 Abundance,直译为丰度,本文统一用强度,图2是Xcalibur软件截图,该软件采用Relative Abundance命名强度)。
[0043] 质谱仪不断扫描进入其中的离子,或者某些离子形成的碎片,每扫描一次,就赋予 一个扫描号。所以在质谱数据中,每一张谱图可以被一个扫描号唯一确定,而生成谱图的过 程有时也称为是一次扫描。所有的一级谱图和二级谱图谱图按照被扫描的时间从先到后顺 序排列,依次编号为1,2,…n,就得到了扫描号(Scan Number)。扫描号可以用来确定二级 谱图的前一张谱图(Preceding Scan)。因此,在具体实现上,可以用给定的串联质谱图的扫 描号,找到对应的前一个最近的一级谱图作为匹配的一级谱图。在一个实施例中,为了避免 发生谱峰遗漏,在找到直接匹配的一级谱图后,再在一级谱图前后各寻找最近的一张一级 谱图,将这三张一级谱图均作为与当前二级谱图相匹配的一级谱图。三张谱峰可以形成互 补,避免某一个重要的信号(例如谱峰)遗漏。
[0044] 步骤3 :从匹配的一级谱图中提取出当前二级谱图碎裂窗口内的谱峰集合并将其 作为候选单同位素峰集合。碎裂窗口是质谱仪的一个参数,表示选择做碎裂的谱峰区间。 每一张二级谱图(串联质谱)都对应于一个或者多个母离子(本文中专指肽段母离子)。 每一个母离子都表现为位于一个碎裂窗口内的一个(实验)同位素峰簇。任何一个母离 子,只要被质谱仪扫描,就会在相应的一级谱图上出现一个对应的同位素峰簇,也就是说, 母离子与一级谱图上的同位素峰簇存在严格的对应关系。由于质谱仪是在时间上连续采 集信号的,同一个母离子可能被多次采集到,所以把所有的一级谱图关联起来,在邻近的一 级谱图上查找当前母离子的同位素峰簇信号可以对母离子信号识别提供更加有力的证据, 下文中提及的同位素峰簇相似度和色谱曲线相似度都考虑了母离子信号在多张一级谱图 上连续出现。一个同位素峰簇是指一个强度按照一定规律变化、质荷比呈现等量递增的谱 峰系列,图3示出了一个同位素峰簇的示例。同位素峰簇具有两个关键特征:单同位素峰 (monoisotopic peak)和谱峰间隔。单同位素峰是指同位素峰簇中最左侧的谱峰,图3中单 同位素峰是指601. 05Th处的谱峰;谱峰间隔是指相邻谱峰之间的质荷比之差的绝对值,图 3中谱峰间隔大约是0.25Th。谱峰间隔与母离子所带的电荷有关,如果母离子电荷为c,那 么谱峰间隔大约为1. 〇〇3/c,所以0. 25Th意味着+4电荷。
[0045] 在一个实施例中,提取候选单同位素峰集合的过程包括下列子步骤:
[0046] 步骤31 :合并所匹配的三张一级谱图的谱峰,得到一个候选一级谱图谱峰集合。
[0047] 步骤32:根据串联质谱图(即当前二级谱图)的扫描号,获得当前串联质谱图的 母离子碎裂中心质荷比(下文中简称为碎裂中心)。
[0048] 步骤33 :设定碎裂中心±3Th区间,从步骤31的一级谱图谱峰集合内提取出在这 个区间的谱峰,得到候选单同位素峰集合。
[0049] 步骤4:根据与当前二级谱图关联的一级谱图以及母离子的可能电荷范围,确定 当前二级谱图的候选母离子。母离子是指肽段落入到质谱仪后形成的带电离子,因此可由 单同位素峰和电荷唯一地确定。而母离子的可能电荷是有限制的,所以可以预先设定母离 子的电荷范围,在该范围内枚举所有电荷并分别与候选单同位素峰集合中的每个单同位素 峰配对,即可得到当前二级谱图的多个候选母离子。在一个实施例中,母离子的电荷范围为 +2?+7电荷。
[0050] 步骤5 :对于每个候选母离子,从当前二级谱图和与其相关联的一级谱图中提取 特征向量,这个特征向量实际上就是每个候选母离子和当前二级谱图配对的特征向量。如 前文所述,由于质谱仪是在时间上连续采集的,同一个母离子可能被多次采集到,所以把所 有的一级谱图关联起来,在邻近的一级谱图上查找当前母离子的同位素峰簇信号可以对母 离子信号识别提供更加有力的证据。因此,本实施例中将当前二级谱图扫描号前后最邻近 的五张一级谱图,共十张谱图,定义为和当前二级谱图关联的一级谱图。本实施例中,特征 向量包括11个特征,分别是:同位素峰簇相似度(Simlso)、碎裂窗口内的谱峰强度比、色谱 相似度、虚拟色谱相似度、单同位素峰质量、单同位素峰电荷、碎裂窗口内的谱峰个数、同位 素峰簇长度、色谱保留曲线长度、同位素峰簇强度和、单同位素峰精度。
[0051] 其中,同位素峰簇相似度(Simlso)按下述方式提取:对于给定的单同位素峰,分 别根据当前谱图的十张关一级联谱图重构出对应的同位素峰簇。对其中一张一级谱图,寻 找到落在当前母离子单同位素峰一定误差范围内的谱峰,本实施例中,这个误差范围通常 非常小,在0. 〇2Th以内。如果找到了在该误差范围内的谱峰,就标记为单同位素峰,并记录 下来。然后寻找单同位素峰右侧1/c间隔处的谱峰,同样允许一个小的误差,比如0. 02Th。 依此类推,从左到右找到多个谱峰,从而构成类似于图3那样的同位素峰簇。对于每张一级 谱图,按上述方法重构一次就得到一个同位素峰簇。这样十张一级谱图就可以得到十个同 位素峰簇,这些来自于真实的一级谱图,所以也称为实验同位素峰簇。进一步地,利用Emass 算法和平均氨基酸模型可以根据实验单同位素峰质量快速估计出理论同位素峰簇,然后计 算实验同位素峰簇与理论同位素峰簇的强度变化相似度。把实验和理论同位素峰簇的强度 变化分别记为两个向量(ΙοΑ?,…,I n)和(I 'o,〗',〗'2,1'3,…,I 'J,接着,计算 它们的皮尔逊相关系数,作为相似度。由于存在着十个理论同位素峰簇,所以得到十个同位 素峰簇相似度simp i = 1,…,10,本实施例中,选择最大的那一个作为最终的同位素峰簇相 "f以度特征° 艮口 Simlso = max {sinii,sim2, sim3, ...,sim10} 〇
[0052] 本实施例中,色谱相似度(SimLQ)含义如下:同位素峰簇中某一根谱峰在多个一 级谱图上在一定的允许误差范围内(比如〇.〇2Th)连续出现,就构成了一个色谱曲线。把 单同位素峰,第一同位素峰,第二同位素峰等等,各自在多张一级谱图上持续出现的谱峰信 号写到一起,就形成了各自的色谱曲线,分别是:单同位素峰的色谱曲线,第一同位素峰的 色谱曲线,第二同位素峰的色谱曲线等等。每一个色谱曲线都是一个向量。色谱相似度是 单同位素峰色谱曲线和第一同位素峰色谱曲线的相似度。计算两个色谱曲线相似度时采用 向量夹角余弦值计算方法。
[0053] 虚拟色谱相似度(SimLCj含义如下:虚拟色谱相似度是单同位素峰的色谱曲线和 虚拟同位素峰的色谱曲线相似度。这里计算两个色谱曲线相似度时也采用是向量夹角余 弦值计算方法。虚拟同位素峰是和第一同位素峰关于单同位素峰轴对称的谱峰。第一同 位素峰位于单同位素峰的右侧,而虚拟同位素峰位于单同位素峰左侧。参考图3,假设单同 位素峰为601. 30,电荷为4+,那么同位素峰簇的起点就是601. 30,相邻谱峰的间隔大约是 0. 25Th,那么同位素峰簇包含601. 30,601. 56,601. 81,602. 06等四个谱峰,它们分别是单 同位素峰,第一同位素峰,第二同位素峰,第三同位素峰。单同位素峰左侧间隔〇.25Th的谱 峰601. 05就是虚拟同位素峰。
[0054] 碎裂窗口内的谱峰强度比(PIF)是指当前候选母离子的碎裂窗口内的实验同位 素峰簇与碎裂窗口内所有谱峰的强度比。实验同位素峰簇的强度是指落在碎裂窗口内的实 验同位素峰簇谱峰的强度之和,碎裂窗口内所有谱峰的强度是指碎裂窗口内所有谱峰的强 度之和。
[0055] 单同位素峰质量(Mass)是指当前候选母离子的单同位素谱峰的质量。它对应于 同位素峰簇中最左侧的谱峰。
[0056] 单同位素峰电荷(Charge)是指当前候选母离子的同位素峰簇电荷。电荷信息与 同位素峰簇中相邻谱峰的间隔有关,如果电荷为C,那么间隔大约是1. 003/C。
[0057] 碎裂窗口内的谱峰个数(PeakNum)是指当前候选母离子的实验同位素峰落在碎 裂窗口内的谱峰个数。
[0058] 同位素峰簇长度(Lenlso)是指实验同位素峰簇中包含的谱峰个数。如果谱峰偏 少,则说明信号较差。
[0059] 色谱保留曲线长度(LenLC)是指当前候选母离子的实验同位素峰簇中每一根谱 峰在一级谱图中持续出现的时间。通常噪音峰不会稳定出现,所以谱峰持续存在时间越长, 说明母离子越可靠。
[0060] 同位素峰簇强度和(Sumlnt)是指实验同位素峰簇中所有谱峰的强度和。这个特 征和PIF有差异,差别在于前者把碎裂窗口之外的谱峰也加入计数了。
[0061] 单同位素峰精度(StdMono)是指实验同位素峰簇中单同位素峰的测量值的标准 差。由于单同位素峰通常持续出现在多张关联的一级谱图上,那么每一张关联一级谱图 相当于对单同位素峰的一次测量值,计算出对应于多张关联一级谱图的多次测量值的标准 差,该标准差就是单同位素峰精度。
[0062] 步骤6 :根据当前二级谱图和候选母离子配对正确与否进行相应的赋值。由于当 前二级谱图的母离子实际上是已知的,因此前文生成的每个候选母离子是正确还是错误也 是已知的,对每个二级谱图-候选母离子组合进行赋值来表示配对正确还是错误。例如,二 级谱图-候选母离子正确配对时可赋值1,错误配对时可赋值-1。
[0063] 步骤7 :将所有二级谱图-候选母离子组合的特征向量作为输入,将二级谱图和候 选母离子配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。
[0064] 本实施例中,将MARS模型作为母离子检测的基础模型。MARS是一种类似决策树的 加法模型,由斯坦福大学教授Friedman提出。
[0065] MARS分类的本质类似于分段线性拟合,差异是分段线性拟合相当于用线性函数的 片段去逼近函数的局部变化趋势,而MARS的基函数是笛卡尔坐标系xOy内的折线,转折点t 被称为基函数的扭结(Knot),在扭结的一侧,函数取值为0,在另一侧取值为x-t或者t-x, 其数学形式如下: 「 π r *、_Γχ_? if x> t r , 、 (t-x if x <t
[0066] (x - t)+ - I " .和_ 尤)+ = 1 n , . ^ U otherwise 、 t 0 otherwise
[0067] 对于给定的母离子正负样本矩阵X,在第i个母离子的第j个特征h.处,可以给 出关于未知变元&的单变量基函数对(X」- Xip+,(Xu-xp+。所以,全体基函数的集合是:
[0068] ^ = \(Xj - t)+l (? - Xj) + } ( , i f,X2jI…I又jy j j,J 一 …,p
[0069] 其中N是母离子样本总个数,p是每一个母离子的特征个数。本实施例采用了 11 个特征,所以P = 11。MARS的训练目标就是把分类函数表示为S中的函数以及它们的乘积 形式构成的函数的叠加形式。所以采用MARS方法构建的模型具有如下形式: Μ
[0070] f(X) =β〇+^ m=l
[0071] 其中,每一个hm属于基函数集合S,或是S中两个或多个函数的乘积形式。在训练 阶段,MARS方法会考虑每一个的基函数对以及它们中任意两个的乘法组合形式,尝试把这 个基函数加入到分类模型中,通过最小化分类函数输出值和真实分类答案之间的差异,求 出不同的权重β π。现实中训练MARS模型包括一个前向过程和一个后向过程,其中前向过 程中,每一轮从S中挑选最好的一个基函数加入到f (X)中,训练得到基函数的参数,然后再 进一步挑选,直到模型的分类能力达到要求的精度,而后向过程是从所有已经被选中的基 函数中,删去一些基函数,使得分类效果不发生明显下降。这两个过程综合起来就是MARS 方法学习的基本流程。在一个实施例中,还通过广义交叉验证(GCV:Generalized Cross Validation)来控制模型训练过程的过拟合倾向。
[0072] 上文中介绍了训练串联质谱母离子检测模型的方法,进一步地,图5示出了基于 该串联质谱母离子检测模型进行母离子检测的方法,包括下列步骤:
[0073] 步骤al :获取待检测的串联质谱数据集。
[0074] 步骤a2 :对于待检测串联质谱数据集中的每张二级谱图,根据与该二级谱图关联 的一级谱图以及母离子的可能电荷范围,确定该二级谱图的候选母离子。本步骤与前文步 骤2至步骤4 一致,此处不再赘述。
[0075] 步骤a3 :提取每个二级谱图-候选母离子组合的特征向量。本步骤提取特征向量 的方法与前文步骤5 -致,此处不再赘述。
[0076] 步骤a4 :将每种二级谱图-候选母离子组合的特征向量依次输入串联质谱母离子 检测模型,根据匹配打分得出与当前二级谱图正确配对的母离子。
[0077] 在实验中,发明人采用Mann实验室公开的数据集合,采用pFind搜索引擎搜索得 到标注的正、负母离子样本。然后采用MARS开源工具包ARESLab训练得到串联质谱母离 子检测模型,再用已标记的测试谱图数据集进行匹配打分。图4示出了基于串联质谱母离 子检测模型对已标记的测试谱图数据集进行匹配打分的分布图。图4的横坐标代表MARS 模型的返回值,即匹配打分,用MARS Score表示。纵坐标表示每一个打分出现的频数。整 个图给出了正、负母离子样本的MARS打分频率分布直方图,其中实心直方条表示正样本 (Positive Samples)的频数(Frequency),空心直方条表示负样本(Negative Samples)的 频数。从图4可以看出,正负样本基本上被正确地分开,如果选择一个比较保守的阈值,例 如-0. 5,可以保证所有的正样本都被保留下来,同时绝大部分的负样本打分低于-0. 5,因 此都被删除。这就证明了所训练的串联质谱母离子检测模型具有优异的分类效果,能够有 效地将候选母离子集合中的错误母离子剔除,同时保留正确的母离子。
[0078] 进一步地,在一个实施例中,获取待检测的串联质谱数据集后还进行预处理,删去 噪音谱峰,然后再进行母离子检测。删去噪音谱峰的过程包括 :
[0079] 步骤all,对于给定的一级谱图计算噪音基线,删去强度低于噪音基线的谱峰。
[0080] 步骤al2,对于给定的一级谱图,在步骤al 1的基础上,删去强度低于最高谱峰2% 的谱峰。
[0081] 在一个实施例中,所述步骤a3中,还包括对于单张二级谱图,采用排序打分法对 候选母离子进行过滤,只取一定数目以内的候选母离子执行下一步操作。本实施例特别适 合于候选母离子较多的情形,例如可以将候选母离子数目阈值定为50,对于每张二级谱图, 当候选母离子超过50个时,只取排序在前50的候选母离子。排序方法可以依据特征向量 中的重要维度取值分别进行简单排序,再综合简单排序的结果重新进行综合排序。例如首 先分别基于PIF,Simlso, SimLQ的取值对各候选母离子进行排序,然后对于每个候选母离 子将PIF,Simlso,SimLCu下的序号直接相乘得到综合序号,最后基于综合序号对各候选母 离子重新排序。
[0082] 另外,需要说明的是上述步骤5和步骤a3中的特征向量的组成并不是唯一的,在 别的实施例中,特征向量也可以是同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似 度、虚拟色谱相似度组成的特征向量,或者是包含了同位素峰簇相似度、碎裂窗口内的谱峰 强度比、色谱相似度、虚拟色谱相似度四个元素的5至11维向量。
[0083] 本发明能够显著地提升母离子检测的检测速度,同时提高召回率。在不同的数 据集上进行测试,本发明相对于Hardklor算法,检测速度能够提高到十倍,召回率提高到 99%。
[0084] 最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法 进行限制,本发明在应用上可以延伸为其它的修改、变化、应用和实施例,并且因此认为所 有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。
【权利要求】
1. 一种串联质谱母离子检测模型训练方法,包括下列步骤: 1) 获取母离子已知的谱图数据集,对于其中每张二级谱图,确定该二级谱图的候选母 离子; 2) 提取每个二级谱图-候选母离子组合的特征向量,并根据二级谱图和候选母离子配 对正确与否进行相应的赋值;其中,特征向量的元素包括:同位素峰簇相似度、碎裂窗口内 的谱峰强度比、色谱相似度和虚拟色谱相似度; 3) 将所有二级谱图-候选母离子组合的特征向量作为输入,将二级谱图和候选母离子 配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。
2. 根据权利要求1所述的串联质谱母离子检测模型训练方法,其特征在于,所述步骤 1) 中,对于每张二级谱图,确定候选母离子的过程包括下列子步骤: 11) 找到与当前二级谱图匹配的一级谱图; 12) 从匹配的一级谱图中提取出当前二级谱图碎裂窗口内的谱峰集合并将其作为候选 单同位素峰集合; 13) 根据与当前二级谱图匹配的一级谱图以及母离子的可能电荷范围,确定当前二级 谱图的候选母离子。
3. 根据权利要求2所述的串联质谱母离子检测模型训练方法,其特征在于,所述步骤 11)中,与二级谱图匹配的一级谱图包括:与该二级谱图直接匹配的一级谱图,在该直接匹 配的一级谱图前最近的一张一级谱图,以及在该直接匹配的一级谱图后最近的一张一级谱 图。
4. 根据权利要求3所述的串联质谱母离子检测模型训练方法,其特征在于,所述步骤 2) 中,对于每个二级谱图-候选母离子组合,根据该二级谱图和与其关联的一级谱图,以及 组合中的候选母离子得出该二级谱图-候选母离子组合的特征向量。
5. 根据权利要求4所述的串联质谱母离子检测模型训练方法,其特征在于,所述特征 向量的元素还包括:单同位素峰质量、单同位素峰电荷、碎裂窗口内的谱峰个数、同位素峰 簇长度、色谱保留曲线长度、同位素峰簇强度和、单同位素峰精度中的一项或多项。
6. -种基于串联质谱母离子检测模型的母离子检测方法,包括下列步骤: 4) 对于待检测串联质谱数据集中的每张二级谱图,确定该二级谱图的候选母离子; 5) 提取每个二级谱图-候选母离子组合的特征向量; 6) 将每种二级谱图-候选母离子组合的特征向量依次输入权利要求1?5中任意一项 的串联质谱母离子检测模型训练方法所得的串联质谱母离子检测模型,根据匹配打分得出 与当前二级谱图正确配对的母离子。
7. 根据权利要求6所述的基于串联质谱母离子检测模型的母离子检测方法,其特征在 于,所述步骤4)中还包括:对待检测串联质谱数据集进行预处理,删去噪音谱峰。
8. 根据权利要求6所述的基于串联质谱母离子检测模型的母离子检测方法,其特征在 于,所述步骤4)中,对于每张二级谱图,确定候选母离子的过程包括下列子步骤 : 41) 找到与当前二级谱图匹配的一级谱图; 42) 从匹配的一级谱图中提取出当前二级谱图碎裂窗口内的谱峰集合并将其作为候选 单同位素峰集合; 43) 根据与当前二级谱图匹配的一级谱图以及母离子的可能电荷范围,确定当前二级 谱图的候选母离子。
9. 根据权利要求8所述的基于串联质谱母离子检测模型的母离子检测方法,其特征在 于,所述步骤4)中,与二级谱图匹配的一级谱图包括:与该二级谱图直接匹配的一级谱图, 在该直接匹配的一级谱图前最近的一张一级谱图,以及在该直接匹配的一级谱图后最近的 一张一级谱图。
10. 根据权利要求7所述的基于串联质谱母离子检测模型的母离子检测方法,其特征 在于,所述步骤5)和步骤6)之间还包括步骤: 51)对于当前二级谱图,当候选母离子数目超过预设的阈值时,对候选母离子进行初步 过滤,取排序靠前的母离子作为当前二级谱图的候选母离子,然后执行步骤6)。
【文档编号】G01N30/86GK104215729SQ201410406562
【公开日】2014年12月17日 申请日期:2014年8月18日 优先权日:2014年8月18日
【发明者】邬龙, 曾文锋, 袁作飞, 刘超, 孟佳明, 贺思敏 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1