本发明涉及石油化工领域,具体地涉及一种用于对样品进行分子识别的方法。
背景技术:
:高分辨质谱广泛应用于石油、化工、生物、环境等领域,主要用于测试各类复杂组分和重质组分,可以得到复杂体系所含化合物的类型、碳数、等效双键数(或缺氢数)等分子组成信息。常用的高分辨质谱主要有飞行时间质谱(tofms)、轨道阱质谱(orbitrap)、傅里叶变换离子回旋共振质谱(ft-icrms)等。这些高分辨质谱通常与各种软电离源联用,包括基质辅助激光解吸电离源(maldi)、场电离/场解吸电离源(fi/fd)、大气压光致电离源(appi)、大气压化学电离源(apci)、电喷雾电离源(esi)等。在软电离的条件下,样品分子基本上不发生断裂,主要形成分子离子峰,便于进行分子识别。由于高分辨质谱的质量分辨率通常在10000~1000000之间,质量准确度也在0.5ppm~5ppm之间,因此根据测得的m/z往往可以确定出目标化合物的精确分子式cchhssnnoo(其中c、h、s、n、o分别为c原子、h原子、s原子、n原子、o原子的个数),还可以计算出该化合物的等效双键数(dbe,dbe=c-0.5h+0.5n+1)或缺氢数(z值,z=h-2c)。对于复杂的石油、化工、生物、环境样品,高分辨质谱的谱图中往往有数千个质谱峰,因此需要借助计算机程序进行快速、准确、自动化的分子式识别。通常采用的自动识别方法是依次读取原始数据中的每一个质谱峰,然后再依次判定该质谱峰所对应化合物的类型、碳数、dbe(或z值)。该方法实现起来较为直接,不需要过多的人工干预,但是计算量较大、数据处理速度慢。史权等在《石油组分高分辨质谱的数据处理》(分析测试学报,2008,27(s1):246~248)一文中提出了一种人工识别和计算机检索相结合的高分辨质谱数据处理方法,首先在化合物丰度较高的区域人工鉴定出各类型的代表化合物(对应化合物类型),然后再借助计算机程序快速识别出同系物系列(对应碳数)和不同缩合度的化合物系列(对应dbe或z值)。该方法处理速度较快,但是要求使用者在石油分子识别方面有一定的经验。技术实现要素:本发明实施例的目的是提供一种用于对样品进行分子识别的方法,其将实验测得的有关样品的高分辨质谱数据列表与有关各类型化合物的理论数据列表混合在一起,并重新排序得到新的数据列表,然后依次比较新列表中相邻的两组数据,找到对应同一质谱峰的数据,从而实现高分辨质谱的快速、准确、自动化的分子识别。为了实现上述目的,本发明实施例提供一种用于对样品进行分子识别的方法,该方法包含:获取样品的质谱数据列表,该列表包含所述样品的各个质谱峰的质荷比;获取有关各类型化合物的理论数据列表,该列表包含所述各类化合物的理论质荷比;将所述质谱数据列表与所述理论数据列表进行合并,并以所述质荷比及所述理论质荷比作为排序依据对合并所产生的新的数据列表内的行进行排序;以及遍历所述排序后的新的数据列表内的各个行,并在相邻两行符合以下条件的情况下,确定该相邻两行内来自所述质谱数据列表的行内的质谱峰对应于该相邻两行内来自所述理论数据列表的行内的化合物类型:相邻两行分别来自所述质谱数据列表及所述理论数据列表、以及该相邻两行所指示的质荷比偏差小于最大误差值。可选的,所述质谱数据列表还包含与所述各个质谱峰相对应的以下信息中的一者或多者:质谱峰编号、丰度、以及信噪比。可选的,所述有关各类型化合物的理论数据列表还包含有关各类化合物的以下信息中的一者或多者:化合物类型编号、碳数、等效双键数、以及缺氢数。另一方面,本发明提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行本申请上述用于对样品进行分子识别方法。本发明通过建立有关各类型化合物的理论数据列表,并与高分辨质谱实际测得的样品的质谱数据列表进行比对,从而快速、准确、自动的识别出高分辨质谱数据中各个质谱峰所对应的化合物分子组成信息(例如,可包括化合物类型、碳数、dbe或z值)。该方法可以避免大量不必要的数据比对,大幅提高数据处理速度;在数据处理过程中,不需要人工的过多干预,对操作者的要求显著降低。另外,所述有关各类型化合物的理论数据列表的使用具有很强的灵活性,可以根据研究领域、研究对象、所用电离方式等因素制定合适的理论数据列表,而无需对计算程序进行大的改动。本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:图1为本发明一实施例提供的用于对样品进行分子识别的方法的流程图;以及图2为本发明一实施例内的样品的高分辨质谱图。具体实施方式以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。图1为本发明一实施例提供的用于对样品进行分子识别的方法的流程图。如图1所示,发明一实施例提供的用于对样品进行分子识别的方法,该方法包括:步骤s110,获取样品的质谱数据列表,该列表包含所述样品的各个质谱峰的质荷比。其中,所述样品可为石油样品、化工样品、生物样品、或环境样品。所述质谱数据列表可包含以下质谱的质谱峰:傅里叶变换离子回旋共振质谱、轨道阱质谱、离子阱质谱、或飞行时间质谱。图2为本发明一实施例内的样品的高分辨质谱图,各个质谱峰可如图2所示。除了所述各个质谱峰的质荷比(m/z)之外,所述质谱数据列表还可包含与所述各个质谱峰相对应的以下信息中的一者或多者:质谱峰编号、丰度、以及信噪比(s/n)。步骤s120,获取有关各类型化合物的理论数据列表,该列表包含所述各类化合物的理论质荷比。其中,所述各类型化合物的理论数据列表应该能够覆盖质谱图中主要化合物,化合物类型优选为hc、s1、s2、s3、s4、s1o1、s1o2、s1o3、s1o4、n1、n1o1、n1o2、n1o3、n1o4、n2、n1s1、n1s1o1、o1、o2、o3、o4这二十一类化合物(以上符号代表化合物中s、n、o等杂原子的个数。例如hc表示分子中不含杂原子,只含有c、h两种元素;s1o2表示分子中除了c、h元素外,还含有1个s原子和2个o原子),其类型编号依次为-1~-21。除了各类化合物的理论质荷比之外,所述有关各类型化合物的理论数据列表还可包含有关各类化合物的以下信息中的一者或多者:化合物类型编号、碳数、等效双键数(dbe)、以及缺氢数(z)。步骤s130,将所述质谱数据列表与所述理论数据列表进行合并,并以所述质荷比及所述理论质荷比作为排序依据对合并所产生的新的数据列表内的行进行排序。步骤s140,遍历所述排序后的新的数据列表内的各个行,依次比较相邻行的数据,判断其是否满足以下步骤s150及步骤s160的条件。在同时满足该两个条件的情况下,进行至步骤s170,否则比较下一相邻行的数据。步骤s150,相邻两行分别来自所述质谱数据列表及所述理论数据列表?例如,可以通过相邻两个行内的峰编号与化合物类型编号的乘积来反映,即当相邻两个数据的峰编号(可取正值)与化合物类型编号(可取负值)的乘积为负值时,表明相邻两个行分别来自质谱数据列表与所述理论数据列表。步骤s160,该相邻两行所指示的质荷比偏差小于最大误差值?该最大误差至可由用户进行设定,例如可为1ppm。步骤s170,确定该相邻两行内来自所述质谱数据列表的行内的质谱峰对应于该相邻两行内来自所述理论数据列表的行内的化合物类型。步骤s180,遍历结束?如未结束,继续执行上述步骤s140-s170,直至遍历完所述排序后的新的数据列表内的每一行。否则,程序结束,可得出样品内的所包含的化合物类型。需要说明的是,在确定所述样品的质谱数据列表及所述有关各类型化合物的理论数据列表时,需考虑根据电离源的类型确定质谱图中各个离子的形式,例如大气压光致电离源在正离子模式下可能存在m+·(失电子)、[m+h]+(加质子)等形式,电喷雾电离源在正离子模式下可能存在[m+h]+(加质子)、[m+na]+(加钠离子)等形式,电喷雾电离源在负离子模式下可能存在[m-h]-(失质子)等形式。为了使所述样品的质谱数据列表及所述有关各类型化合物的理论数据列表中的质荷比m/z具有可比性,在生成所述样品的质谱数据列表及所述有关各类型化合物的理论数据列表时,还需要对m/z数值进行相应的扣减或补偿,以保持一致性。下面结合具体实施例进一步详细说明本发明,但本发明并不限于此。实施例(1)原油样品的高分辨质谱测试条件取10mg塔河原油,溶于1ml色谱纯甲苯中配制成母液。用色谱纯甲苯稀释至0.2mg/ml得到待测样品溶液,使用布鲁克·道尔顿公司的15tsolarixr型ft-icrms进行测试,电离源为appi+。雾化气和干燥气均为高纯氮气,雾化气流速为1l/min,干燥气流速为4l/min,干燥气温度为200℃,appi源温度为400℃,spray电压为2500~3000v,skimmer电压为15v,质荷比(m/z)检测范围为150~1500,采样内存为8m,扫描次数为256次。(2)高分辨质谱测试原油样品得到质谱数据列表a按照步骤(1)中条件测得的塔河原油高分辨质谱图如图2所示,图中共有10132个信噪比(s/n)高于5.5的质谱峰。仪器自带的数据处理软件可以给出各个质谱峰的编号、m/z、丰度i和信噪比s/n,以此作为质谱数据列表a。作为简化,只给出了m/z=470~471之间的质谱数据列表a,如下表1所示。(3)获取各类型化合物的理论数据列表b建立各类型化合物的理论数据列表b,表b中至少应包含hc、s1、s2、s3、s4、s1o1、s1o2、s1o3、s1o4、n1、n1o1、n1o2、n1o3、n1o4、n2、n1s1、n1s1o1、o1、o2、o3、o4这二十一类化合物,化合物类型编号依次为-1~-21。每一类化合物的碳数范围均为1~100,dbe范围为1~60。根据化合物类型、碳数、dbe这几个参数可以计算出每一个化合物所对应的理论m/z。在生成理论数据列表b时还应注意分子式的合理性,例如当h原子个数小于等于0时,表明该化合物的碳数-dbe组合不合理,应当舍去。由于步骤(1)中采用的是appi+电离源,化合物分子在电离过程中主要是失去电子,因此在生成理论数据列表时还应扣除电子的质量。最终的理论数据列表中包含化合物类型、化合物类型编号、理论m/z、碳数、dbe这五项参数。作为简化,只给出了m/z=470~471之间的理论数据列表b,如表2所示。(4)混合表a和表b并重新排序得到新数据列表c将表a和表b混合在一起,并按照m/z由低到高进行排序,得到新数据列表c。表c中既包含高分辨质谱测试得到的m/z、丰度、信噪比s/n等信息,也包含理论数据列表中的化合物类型、碳数、dbe等信息。通过计算机程序可以自动计算出相邻两个数据之间m/z的相对偏差。检验表c中的数据是否同时符合以下两个条件:(1)相邻两个数据分别来自表a和表b,该条件可以通过相邻两个数据的峰编号与化合物类型编号的乘积来反映,即当相邻两个数据的峰编号与化合物类型编号的乘积为负值时,表明相邻两个数据分别来自表a和表b;(2)相邻两个数据之间的相对偏差小于用户设定的最大误差值,在本实施例中该最大误差值设定为1ppm。作为简化,只给出了m/z=470~471之间的新数据列表c,如表3所示。(5)对表a进行分子识别根据步骤(4)中的限定条件,对表a进行自动化的分子识别,可以得到高分辨质谱图中各质谱峰所对应的化合物类型、碳数、dbe、丰度、信噪比s/n、与理论m/z的相对偏差等信息。作为简化,只给出了m/z=470~471之间主要质谱峰的分子识别,如表4所示。表1高分辨质谱测得的质谱数据列表a(m/z=470~471)峰编号测得质荷比(m/z)丰度(i)信噪比(s/n)1470.1697371509710.22470.173029307157.63470.189023265625.54470.2063767185123.75470.20971005777231.86470.237826583626.67470.260728263097.28470.2640465517513.49470.287827505477.010470.29671803272658.811470.300044361816148.112470.3033629154619.013470.341827587657.014470.3544539864315.915470.378226399996.616470.390849817732166.617470.394132409734107.618470.435628345877.219470.4803530449715.620470.48471416619445.721471.2015443649412.722471.209828595387.323471.213023209155.524471.255631278488.225471.263923332285.526471.2919815365825.327471.295428288597.228471.3000631455719.129471.30351270841540.730471.3080565612916.831471.3656416828511.832471.3860760688723.433471.39411714852255.834471.39831075262134.135471.40181365463844.036471.4882457589613.237471.4925867804227.138471.615923605335.6表2理论数据列表b(m/z=470~471)表3混合表a和表b并重新排序后得到的新数据列表c(m/z=470~471)表4表a中各质谱峰的分子识别(m/z=470~471)以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。当前第1页12