1.本发明涉及质谱仪及信号处理的领域,特别是一种基于碎片树的现场质谱目标物识别以及衍生物预测方法。
背景技术:2.质谱仪是将物质粒子(原子、分子)电离成离子,通过适当的电场或磁场将他们分离,并检测其强度,从而进行定性、定量分析的仪器。因其具有直接测量的本质和高分辨、高灵敏、大通量、高准确度的特性,质谱仪在生命科学、材料科学、食品安全、环境监测、医疗卫生、国家安全等领域具有不可代替的作用和举足轻重的地位。由于现阶段需求的质谱仪主要用于研究的目的,仪器功能复杂、使用和维护要求高,需要专业人员操作,所以只能在实验室里使用。食品安全检测、各种野外环境的现场检测、现场诊断、流程监控、排放物检测与控制、突发事件的处理、尤其是化学和生物武器的检测等诸多需要现场使用质谱仪的场合都对小型便携、操作简单的质谱仪提出了迫切的要求。显然,这样的发展将鼓励质谱拓宽应用领域,成为简化质谱系统,目标操作以及开发各种优化的专业形式的大容量/低利润仪器的驱动力。
3.目前现场质谱仪的研究尚处于对仪器各部分进行不断改进以满足社会需求的阶段,仪器的小型化通常需要产品架构简单、稳定性强,这将导致仪器的精度和分辨率都无法达到很高的标准,只能进行简单的定性分析。对于质谱信号的分析仍处于初始阶段,并没有充分挖掘并发挥质谱信号的全部价值信息。
4.国内外提出许多技术和方法用于鉴定小分子,但是大部分的目标识别算法都是针对高精度、高分辨率的大型质谱仪而言。现有的对现场质谱仪的目标识别主流的方法有:(1)质谱库搜索;(2)碎裂搜索法;(3)机器学习;(4)碎片树。
5.质谱库搜索是鉴定代谢物的一种传统方法。它是将未知化合物在给定条件下的质谱图与含有大量参考质谱图的数据库进行比较。根据数据库中的候选分子质谱图和未知化合物质谱图的相似性进行排序,并返回最佳匹配的候选分子。质谱库搜索的主要缺点是只能识别已知中的未知化合物,即如果数据库中不包含目标化合物的参考谱,则匹配结果不可靠。
6.碎裂搜索法是从数据库中参考化合物的化学结构生成模拟质谱,并将它们与未知化合物的质谱进行比较。该方法可以帮助鉴定质谱数据库中没有的化合物,提高质谱数据库识别未知化合物的能力。碎裂搜索法适用于识别先验知识较少的化合物,比如不清楚该化合物的碎裂规则。但是,该方法主要基于从分子中断开键生成片段。这些都是近似的估计,实际上键的解离能要复杂得多。
7.机器学习方法基于机器学习对代谢物进行鉴定的原理是学习和预测质谱和化合物之间的中间表示,然后使用这种表示对质谱库进行匹配或检索。机器学习方法需要大量的数据和基于专家知识进行结构注释,这是复杂的和消耗时间的。此外,它还需要大量的算力,对计算机对较高的性能要求。
8.碎片树由一组节点表示,每个节点对应于一个片段或前体离子,并用其分子式标注。连接节点对的边表示裂解反应,并以中性丢失的分子式进行标注。现有的碎片树方法对于质谱的质量要求较高,目前仅适于高精度、高分辨率的实验室质谱仪的应用。
9.目标物识别能够扩展现场质谱的应用场景,让现场质谱的定性检测更加智能,降低现有人工误判和未知新型衍生物的漏检所带来的风险。但是相比于实验室的大型质谱仪器,现场质谱谱图分辨率和质量精度较低,这对后续准确识别和聚类目标物非常不利。
10.需要说明的是,在上述背景技术部分公开的信息仅用于对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:11.本发明的主要目的在于克服上述背景技术的缺陷,提供一种基于碎片树的现场质谱目标物识别以及衍生物预测方法。
12.为实现上述目的,本发明采用以下技术方案:
13.一种基于碎片树的现场质谱目标物识别以及衍生物预测方法,包括如下步骤:
14.s1、对目标物的多级电压碎裂谱图进行峰形校准;
15.s2、对步骤s1处理后的多张谱图进行合并,生成一张包含母离子和所有碎片的谱图;
16.s3、对每个碎片峰进行候选分子式预测,通过非带电分子分子式过滤黄金规则、质谱精度排序和碎片树的形成三层筛选,得到最终的候选分子式,再根据中性丢失和峰值相似度对节点和边赋值权重,生成候选分子碎片图;
17.s4、计算最大得分的彩色碎片树;
18.s5、通过碎片树对齐来进行聚类。
19.进一步地:
20.步骤s1包括:
21.s11、对质量轴进行分段,通过分段处理的方式,将每一段近似线性误差进行处理;
22.s12、计算标样的理论谱图;
23.其中,同位素的分布可通过将某一特定原子的同位素比值信息逐步加到整个分子中计算得到;可以将原子的同位素函数表示为δ函数,将其与卷积相联系,即将某一特定原子的同位素函数逐步卷积到整个分子中计算得到;
24.s13、通过解卷积求得校准滤波器;
25.s14、通过将所述校准滤波器和目标物原始信号卷积,对原始谱图的信号峰形进行校准。
26.步骤s13包括:
27.质谱仪实际测量的数据表示为理论同位素分布y0和实际峰值函数p之间的卷积操作,如式(1)所示:
[0028][0029]
实际的峰形函数p通过与滤波器函数f的卷积转换成数学上可定义的函数d,如式(2)所示:
[0030][0031]
式中,y表示实际质谱,y0表示理论质谱,p表示实际峰形,d表示理论峰形,f表示校准滤波器;
[0032]
对式(1)和(2)整理得式(3)
[0033][0034]
通过rl解卷积算法求得校准滤波器f。
[0035]
步骤s2包括:
[0036]
s21、将不同碎裂能量的质谱峰归一化后进行排序,保留峰值强度最大的10个峰;
[0037]
s22、根据质谱仪的质量精度设置阈值,并判断满足阈值条件的峰是否处于相邻碰撞能量的谱图中,在同时满足上述两个条件的情况下合并峰。
[0038]
步骤s3包括:
[0039]
s31、识别分子式:根据每个峰值对应的质量,在质量偏差范围内求取符合该质量的分子式;
[0040]
s32、分子式筛选:通过非带电分子分子式过滤黄金规则,质谱精度排序,从元素个数或元素个数比值对候选分子式进行筛选;
[0041]
s33、判断子分子:根据各个元素个数的大小判断每个峰所对应候选分子式的子分子,并用有向线段进行连接,由此,生成以各个峰的候选分子式为节点通过有向线段进行连接的碎片图;
[0042]
s34、设置节点、边权重:根据各个候选分子式的理论质量和实验质谱的质量的差值大小赋予每个节点不同的权重;根据中性丢失、不可能中性丢失、自由基丢失对实际的中性丢失,对前体离子到子离子的边进行权重计算。
[0043]
步骤s4包括:
[0044]
在碎片图中寻找权值和最大的彩色子树,保证每个颜色只保留一个分子,即每个峰只有一个解释。
[0045]
步骤s4包括:
[0046]
利用改进的prim算法,从任意一个顶点开始,将这个顶点作为最初的最小生成树的子树,通过逐步地为当前的子树添加新边来生成最终的最小生成树,添加的策略是,每次只添加从外部连接到该子树的所有边中的最短边;其中,选择权值最小、且弧头y在子图t中入度为0的有向边<x,y>,将x和y中不属于u的顶点加入到集合u中。
[0047]
步骤s5包括:
[0048]
通过计算两个碎片树之间的对齐距离来对碎片树之间的相似度进行衡量。
[0049]
步骤s5包括:
[0050]
s51、插入空节点和空路径,使其在没有标签的情况下,结构相似。
[0051]
s52、然后根据碎片和中性丢失两个维度,对两棵树的相似度进行打分。
[0052]
一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实现所述的步骤s1至s5。
[0053]
本发明具有如下有益效果:
[0054]
本发明提供一种基于碎片树的现场质谱目标物识别以及衍生物预测方法,实现自
动化的目标物识别,该方法能够提取衍生物的一级二级质谱特征,训练出分类模型,进而实现对衍生物的鉴定归类,实现对原始信号预处理的基础上进一步实现对质谱信息的挖掘,大大地弥补了传统的现场质谱技术在质谱信号预测方面的不足。本发明尤其适于小质谱平台的应用。
附图说明
[0055]
图1为本发明一种实施例的现场质谱目标物识别以及衍生物预测方法流程图
[0056]
图2为本发明一种实施例的计算质谱信号同位素分布流程图。
[0057]
图3为本发明一种实施例的罗通定碎片校准结果。
[0058]
图4为测试双胍类口服降血糖药片三种物质的碎片树以及对齐效果示意图。
具体实施方式
[0059]
以下对本发明的实施方式做详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
[0060]
本发明中,碎片树模型利用不同碎裂电压下的二级质谱图建立化合物和所有碎片离子之间的关系。本发明实施例提供一种现场质谱目标物识别以及衍生物预测方法,图1为其流程示意图。
[0061]
首先,对目标物的多级电压碎裂谱图进行峰形校准,提高其精度和分辨率。
[0062]
然后,对处理后的多张谱图进行合并,生成一张包含母离子和所有碎片的谱图。
[0063]
接下来,对每个碎片峰进行候选分子式预测,通过非带电分子分子式过滤黄金规则、质谱精度排序和碎片树的形成这三层筛选,得到最终的候选分子式,并根据中性丢失和峰值相似度对节点和边赋值,生成候选分子碎片图。
[0064]
随后,计算最大得分的彩色碎片树。
[0065]
最后,通过碎片树对齐来进行聚类。
[0066]
以下通过优选实施例对上述各步骤进行具体的说明:
[0067]
现场质谱谱图校准
[0068]
(1)对质量轴进行分段:
[0069]
由于质谱仪的峰形误差不是线性的,通过分段处理的方式,将每一段近似线性误差进行处理。
[0070]
(2)计算标样的理论谱图:
[0071]
同位素的分布可通过将某一特定原子的同位素比值信息逐步加到整个分子中计算得到。可以将原子的同位素函数表示为δ函数,将其与卷积相联系,即将某一特定原子的同位素函数逐步卷积到整个分子中计算得到。一个实施例的计算流程如图2所示。
[0072]
(3)通过解卷积求得校准滤波器:
[0073]
如式(1)质谱仪实际测量的数据可以表示为理论同位素分布y0和实际峰值函数p之间的卷积操作。
[0074][0075]
实际的峰形函数p可以通过与滤波器函数f的卷积转换成数学上可定义的函数d,如式(2)所示。
[0076][0077]
式中,实际质谱y,理论质谱y0,实际峰形p,理论峰形d,校准滤波器f。
[0078]
对上述两式整理得式(3)
[0079][0080]
通过rl解卷积算法可求得校准滤波器f。
[0081]
(4)通过卷积对原始谱图进行校准:
[0082]
将校准滤波器和目标物原始信号卷积,可以对信号的峰形进行很好得校准。图3展示了罗通定得二级碎片实际谱图、理论谱图和校准谱图的结果,可以看出,谱图得到了很好的校准,与理论质谱非常接近。
[0083]
合并峰
[0084]
合并峰具体分以下两个步骤进行:
[0085]
(1)将不同碎裂能量的质谱峰归一化后进行排序,保留峰值强度最大的10个峰。如此可以保留谱图95%以上的信息。
[0086]
(2)根据质谱仪的质量精度设置阈值,并判断满足阈值条件的峰是否处于相邻碰撞能量的谱图中,在同时满足上述两个条件的情况下合并峰。
[0087]
例如,如果满足阈值条件的峰值出现在碰撞能量为15ev和35ev的质谱中,但不在碰撞能量为25ev的质谱中,程序不会合并它们,因为它们很有可能有不同的解释,只是质量偶然相同。
[0088]
生成碎片图
[0089]
(1)识别分子式
[0090]
根据每个峰值对应的质量,在质量偏差范围内求取符合该质量的分子式。
[0091]
(2)分子式筛选
[0092]
通过非带电分子分子式过滤黄金规则、质谱精度排序和碎片树的形成三个方面从元素个数、元素个数比值等方面对候选分子式进行筛选。
[0093]
(3)判断子分子
[0094]
根据各个元素个数的大小判断每个峰所对应候选分子式的子分子,并用有向线段进行连接。由此,生成以各个峰的候选分子式为节点通过有向线段进行连接的碎片图。
[0095]
(4)设置节点、边权重
[0096]
根据各个候选分子式的理论质量和实验质谱的质量的差值大小赋予每个节点不同的权重。根据常见中性丢失、不可能中性丢失和自由基丢失等对实际的中性丢失,即前体离子到子离子的边进行权重计算。
[0097]
生成最大彩色碎片树
[0098]
利用改进的prim算法在图中寻找权值和最大的彩色子树,保证每个颜色只保留一个分子,即每个峰只有一个解释。
[0099]
prim算法是从任意一个顶点开始,把这个顶点作为最初的最小生成树的子树,通过逐步地为当前的子树添加新边来生成最终的最小生成树。添加的策略是,每次只添加从外部连接到该子树的所有边中的最短边。由于prim算法是针对全连接无向图的,因此基于生成树性质:数据元素具备唯一前驱、多个后继的特点对其进行改进。改进思路为选择权值
最小、且弧头y在子图t中入度为0的有向边<x,y>,把x和y中不属于u的顶点加入到集合u中。
[0100]
碎片树对齐
[0101]
通过计算两个碎片树之间的对齐距离来对碎片树之间的相似度进行衡量,具体计算分以下两个步骤进行:
[0102]
(1)插入空节点和空路径,使其在没有标签的情况下,结构相似。
[0103]
(2)然后根据碎片和中性丢失两个维度,对两棵树的相似度进行打分。
[0104]
测试效果
[0105]
本发明实施例测试了多组现场质谱谱图同类别衍生物的预测及聚类效果。图4展示了双胍类口服降血糖药片三种物质的碎片树以及对齐效果,从图中可以看出这三种物质的碎片树非常相似,得到了较好的对齐与聚类。
[0106]
本发明的背景部分可以包含关于本发明的问题或环境的背景信息,而不一定是描述现有技术。因此,在背景技术部分中包含的内容并不是申请人对现有技术的承认。
[0107]
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中,参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点,但应当理解,在不脱离专利申请的保护范围的情况下,可以在本文中进行各种改变、替换和变更。