基于HPLC-MS的去除代谢物离子峰表中假阳性质谱特征的方法与流程

文档序号:17849562发布日期:2019-06-11 22:05阅读:616来源:国知局

本发明属于分析化学和代谢组学领域,涉及一种基于hplc-ms的去除代谢物离子峰表中假阳性质谱特征并提高峰表质量的方法。



背景技术:

代谢组学是继基因组学和蛋白组学之后迅速发展起来的一门学科,是系统生物学的一个重要分支学科。通过对生物体内的小分子代谢物进行定性定量分析,寻找代谢物与生理病理变化的相对关系,反映机体的当前生理状态。随着分析技术的发展,代谢组学已经渗透到疾病的早期诊断和治疗、临床标志物的发现、医药研制开发、营养食品科学、毒理学、环境学、植物学等等多个领域。

代谢组学的单个样本中包含几万,甚至几十万种代谢成分。使用高分辨液相色谱质谱联用技术检测出色谱质谱峰,通过峰匹配分析,得到表示质谱特征在不同样本内含量的峰表。由于非样本源化合物和噪声的存在,峰表中存在大量假阳性特征,会影响后续的统计学分析、标志物的筛选和生物学解释。因此去除峰表中的假阳性特征并保留真实存在的质谱特征,提高峰表的质量,对代谢组学的数据分析具有重要意义。

在代谢组学中,非样本源化合物来自流动相、色谱柱和实验残留等等。对于峰表中非样本源化合物对应的假阳性特征,可以比对特征在空白与实际样本原始数据中的强度予以去除。但是峰匹配分析也可能将空白样本中的噪声错误地识别成特征,而这些噪声可能在实际样本中对应真实的代谢物,导致一些真实特征被当作非样本源化合物去除。对于噪声对应的假阳性特征,可以通过多次检测并保留可重复的特征、逐一查看离子色谱图、删去rsd(相对标准偏差)大于30%的特征等方法来去除。对于假阳性特征的处理,已有的方法需要较多的人工干预,不能由仪器或软件自动化实现。

本发明对真实化学信号与噪声在离子色谱图中的差异性进行研究,提出了去除代谢物离子峰表中假阳性特征的方法rfpf。该方法利用离子色谱图的信息熵指标和相关性系数找出真实的化学信号。首先去除仅在空白样本中表现为真实化学信号的非样本源质谱特征,然后在实际样本中去除表现为噪声的质谱特征。本发明从程序自动化实现的角度,去除代谢物峰表中的假阳性特征,减少人工干预,有利于后续统计分析和生物学解释,在基于hrlc-ms的代谢组学数据处理中有着广泛的实际应用价值。



技术实现要素:

峰表中的假阳性特征会干扰机器学习分类模型的构建,影响特征选择方法对生物标志物的筛选,甚至给代谢物的定性分析带来错误的结果。因此,去除假阳性特征,保留真实存在的质谱特征,更有利于标志物的筛选、疾病的分型以及代谢物的定性分析等等。本发明通过研究真实化学信号与噪声在离子色谱图中的差异性,提出一种去除代谢物离子峰表中假阳性特征的方法,该方法通过离子色谱图的信息熵指标和相关性系数找出真实的化学信号,根据样本的原始数据去除峰表中非样本源化合物和噪声对应的假阳性质谱特征。

为了达到上述目的,本发明采用的技术方案如下:

一种基于hplc-ms的去除代谢物离子峰表中假阳性质谱特征的方法,包括:首先,利用新定义的信息熵指标(entropyindex)和色谱图相关性系数,给出能够识别真实化学信号的方法;其次,采用空白样本中的原始数据去掉非样本源化合物对应的质谱特征;最后,根据实际样本的原始数据去掉对应为噪声的质谱特征,完成对假阳性特征的处理。该方法具体如下:

1)样本的制作及hrlc-ms分析:采集样本,通过高分辨液相色谱质谱仪对样本进行分析,至少要有2个空白样本。

2)代谢组学数据获取:采用峰匹配软件对样本(包括空白样本)进行峰匹配处理,得到代谢物离子峰表。

3)计算质谱特征的离子色谱图:设si(1≤i≤n)为某一质谱特征在样本i中的离子色谱图,n为样本总数,其中si=(ii,1,ii,2,…,ii,n(i)),n(i)是离子色谱图si中点的数量,ii,l(1≤l≤n(i))是样本i的离子色谱图中第l个点的强度。理想色谱峰中,强度最高点左侧,每个点的强度值依次增加,其右侧点的强度依次下降。若受到噪声干扰或者重叠峰,会出现变化点,即最高点左侧某个点的强度低于其前一个点,最高点右侧某个点强度高于前一个点,这样的点为变化点,如图1所示。

4)计算质谱特征的信息熵指标(entropyindex):令imax_i为离子色谱图si中所有点的最大强度,即(imax_i=max{ii,1,ii,2,…,ii,n(i)},1≤max_i≤n(i))。公式(1)和(2)给出hi,j(1≤j≤d(i))的计算方法。hi,j(1<j≤d(i))表示离子色谱图si中变化点与其前一个点的强度之差(如图1所示),d(i)-1为色谱图中变化点的数量。

如果色谱图si中存在变化点,则根据变化点与其前一个点的强度值之差计算hi,j(1<j≤d(i))。如果色谱图中不存在变化点,则d(i)=1。

hi,1=imax_i(1)

其中,k用于表示离子色谱图si中某个强度i对应的位置。

根据公式(3)计算离子色谱图si中hi,j(1≤j≤d(i))的信息熵:

则信息熵指标(entropyindex)定义为所有样本的entropy_si(1≤i≤n)的中位数,即:

entropyindex=median{entropy_si,1≤i≤n}(5)

信息熵指标(entropyindex)计算方法的流程图如图3所示。

5)计算离子色谱图的相关性系数:在计算色谱图在样本间的相关性系数之前,需修正色谱保留时间的漂移。

6)去除非样本源化合物对应的假阳性质谱特征:使用步骤3-5中介绍的方法(判别质谱特征对应的化学信号是否为噪声,该方法流程如图3所示),根据空白样本的原始数据去除峰表中非样本源化合物对应的质谱特征。信息熵指标阈值的参考范围:0.01-0.1,相关性系数的参考范围:0.8-1。

7)去除噪声:使用步骤3-5中介绍的方法(判别质谱特征对应的化学信号是否为噪声,该方法流程如图3所示),根据实际样本的原始数据去除峰表中的噪声。信息熵指标阈值的参考范围:0.01-0.1,相关性系数的参考范围:0.8-1。

与现有技术相比,本发明采用的有益效果为:

本发明去除峰表中的假阳性特征并保留真实存在的质谱特征,减少噪声和非样本源化合物对代谢组学中分类模型的构建、生物标志物筛选以及代谢物定性的干扰,可应用于化学计量学和代谢组学中质谱特征的处理。本发明可以通过计算机程序自动化实现,不需要重复的化学实验以及肉眼判断等人工干预。

附图说明

图1为三种色谱图及“信息熵指标”的计算方式;(a)为理想情况下的色谱峰及其变化点,(b)为受到噪声干扰的色谱峰及其变化点;(c)为噪声及其变化点。

图2为判断质谱特征是否为真实化学信号的流程。

图3为信息熵指标(entropyindex)计算方法的流程图。

图4为去除假阳性质谱特征的过程;(a)为原始数据,包括实际样本和空白样本的色谱峰分布,(b)为去除非样本源化合物后的实际样本中色谱峰分布,(c)为去除噪声后的实际样本中的色谱峰分布。

图5为本发明处理标样数据的结果图;(a)为原始峰表的散点图,(b)为去除假阳性质谱特征后峰表的散点图;(c)为离子融合后的峰表散点图;(d)为去除非样本源化合物、去除噪声和离子融合三步各自去掉的特征数量。

图6为本发明处理尿样数据的结果;(a)为原始峰表的散点图,(b)为去除假阳性质谱特征后峰表的散点图;(c)为离子融合后的峰表散点图;(d)为去除非样本源化合物、去除噪声和离子融合三步各自去掉的特征数量。

具体实施方式

以下结合技术方案,进一步说明本发明的具体实施方式。以混合标样和尿样数据为例,说明本发明的使用方法和效果。

1样品

本例以混合标样和尿样为样品。制备混合标样,包含42种代谢物(混合标样);制备尿液样品,样品采自于健康志愿者,向60μl尿液样品中加入240μl甲醇,用于去除蛋白质,涡旋2分钟,将混合物在4℃,13000rpm转速的条件下分离10分钟。取250μl上层液并置于新试管中,冷冻,干燥,用于后续分析。用250μl的10%乙腈-90%水对其进行复溶,并制备10份相同该样品。对混合标样和尿样进行hrlc-ms检测分析。

2去除代谢物峰表中假阳性质谱特征的方法

2.1代谢组学数据获取

使用sieve软件对质谱原始数据进行峰匹配处理,得到代谢物离子峰表。混合标样对应的峰表中共有998个质谱特征(峰表散点图如图5(a)所示),包括来自42个标样的共113个离子碎片和加合离子,这些均被视为真实存在的离子。尿样对应的峰表中有7182个质谱特征(峰表散点图如图6(a)所示)。

2.2计算质谱特征的离子色谱图

分别对混合标样和尿样峰表中的每一个质谱特征,计算其离子色谱图,用于后续分析。

2.3计算质谱特征的信息熵指标(entropyindex)

用本发明中的方法分别计算混合标样和尿样峰表中所有质谱特征的信息熵指标数值,用于后续分析。

2.4计算离子色谱图的相关性系数

对混合标样和尿样峰表,计算每个质谱特征的离子色谱图相关性系数,用于后续分析。

2.5去除非样本源化合物对应的假阳性质谱特征

使用步骤3)-5)中介绍的方法(判别质谱特征对应的化学信号是否为噪声),根据空白样本的原始数据去除非样本源化合物对应的质谱特征。去除假阳性特征的过程如图4(a)-(b)所示:如果峰表中的特征在空白样本原始数据中表现为真实的化学信号,即离子色谱图表现为色谱峰(例如,图4(a)中特征(t2,m/z2)),则该特征对应为非样本源化合物,将其去除。

对于混合标样数据,本发明提出的方法利用空白去除40个非样本源化合物对应的假阳性特征。此步骤的两个主要参数entropy_fpfnss(信息熵指标阈值)和correlation_fpfnss(相关性系数阈值)分别设为0.05和0.95。对于尿样数据,本发明提出的方法利用空白去除46个非样本源化合物对应的假阳性特征。此步骤的两个主要参数entropy_fpfnss和correlation_fpfnss分别设为0.05和0.96。

2.6去除噪声

使用步骤3-5中介绍的方法(判别质谱特征对应的化学信号是否为噪声),根据实际样本的原始数据去除峰表中的噪声。如图4中(b)-(c):如果峰表中的特征在实际样本原始数据中表现为真实的化学信号,即离子色谱图表现为色谱峰(例如,图4(b)中特征(t1,m/z1)),则该特征对应为代谢物,否则为噪声(例如,图4(b)中特征(t3,m/z3)),将其去除。

对于混合标样数据,本发明提出的方法去除641个噪声对应的假阳性特征,结果如图5(b)所示。此步骤的两个主要参数entropy_fpfn(信息熵指标阈值)和correlation_fpfn(相关性系数阈值)分别设为0.15和0.92。对于尿样数据,本发明提出的方法去除4614个噪声对应的假阳性特征,结果如图6(b)所示。此步骤的两个主要参数entropy_fpfn和correlation_fpfn分别设为0.15和0.8。

2.7以混合标样和尿样的结果说明本发明的有效性

为了对混合标样中剩余的273个特征进行说明,对317个特征使用离子融合方法去除了131个加合离子、中性丢失离子和同位素,剩余186个特征,结果如图5(c)所示。这186个特征包括92个来自标样的离子,94个可能来自样品中的杂质(35个有确定分子式的特征,50个离子色谱图表现为色谱峰型的特征),剩余的9个特征为假阳性特征。剩余的9个假阳性特征对应离子融合前的60个特征,即317个特征中,有257个真实特征。因此,在原始峰表的998个特征中有257个真实特征,741个假阳性特征,其中60个未能删除,681个被删除,即超过88%(681/741/)的假阳性特征被本发明提出的方法删除,并且所有真实的特征(113个)均被保留。图5(d)展示了去除非样本源化合物、去除噪声和离子融合过程中分别去掉的特征数量。

对于尿样数据,原始峰表中有115个特征可以定性,去除假阳性特征后,在剩余的2522个特征中,113个可定性的特征被保留下来,说明了本发明提出方法能够去伪存真。图6(c)展示了离子融合后的结果。图6(d)展示了去除非样本源化合物、去除噪声和离子融合过程中分别去掉的特征数量。

以上所述实施例仅表达本发明的实施方式,本发明适用于代谢组学各种样本数据(例如血液、尿液、脂类数据等等),对于混合标样数据不限制加入的标样数量,同时本发明不限制使用的峰匹配方法,对于任何峰匹配方法得到的代谢物离子峰表均可以处理。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1