1.本发明涉及质谱信息处理领域,特别涉及一种质谱的数据序列在质量评估中的分析方法、装置和存储介质。
背景技术:2.随着质谱仪器的不断升级换代,基于质谱高通量、大队列的蛋白质组学的研究可以更加容易地展开。而原始文件的质量评估是质谱分析中关注的重点。
3.基于质谱的定量蛋白质组学研究,通过表征蛋白质组丰度的动态变化规律,对生命科学及人类许多疾病的发生、发展的诊断有重大意义。非标记定量蛋白质组学技术,因具有实验操作简单等优势而被广泛应用。虽然基于质谱的非标记定量蛋白质组学技术日新月异,但是在大队列的实验分析中,质谱运行异常也会带来原始文件重复性低的问题,因此建立自动化的仪器质量控制流程来保证仪器稳定性在大队列分析过程中也显得尤为重要。
4.基于非数据依赖模式的非标记定量蛋白质组学技术,因具有较好的定量准确性,因此在近几年逐渐流行。但是,该技术使用数据非依赖模式,这会增加数据分析的困难程度。目前,多数实验室使用数据依赖模式方法产生的原始文件的分析结果,例如肽段和蛋白鉴定数目,评估在非数据依赖模式下采集数据的质谱仪器状态。这个过程中,缺少详细的色谱分离(liquid chromatography,简称:lc)和质谱(mass spectrometer,简称:ms)的定量层面的评估指标,例如色谱峰宽分布、保留时间分布、色谱峰容量、肽段丰度等定量结果。
5.目前,基于数据依赖模式方法产生的原始文件的评价方案包含以上参数的部分内容。然而,这些方法没有利用实际产出的结果形成一个定量结果,而这一定量结果是仪器性能状态变化的直接体现。
技术实现要素:6.发明人经过分析后发现,在相关技术中,对总离子流色谱图的分析仅仅停留在统计分析层面,无法挖掘到其深层次的特征和信息。并且,由于不同仪器类型存在质量分析器差异以及质谱采集频率差异,导致形成轮廓图的谱图叠加数量存在差异。并且,对于不同的质谱仪器产生的总离子流色谱图,相同的特征的数值甚至会有数倍、甚至数个数量级的差异。但是,这些特征对于质谱文件的质量控制(quality control,简称:qc)是非常重要的。
7.因此,相关技术无法准确地将总离子流色谱图用于质谱文件的质量评估。
8.本发明实施例所要解决的一个技术问题是:如何对质谱文件进行更准确的质量评估。
9.根据本发明一些实施例的第一个方面,提供一种质谱的数据序列在质量评估中的分析方法,包括:获取包括多种类型的质谱的数据序列的集合,其中,每个质谱的数据序列包括多个质谱数据、并具有质谱的数据序列的质量标记,每个质谱数据包括质谱信号的产生时刻和信号强度;对于集合中的每个质谱的数据序列:将质谱的数据序列中的质谱数据映射到预设的多个产生时刻;以及将质谱的数据序列中的质谱数据的信号强度进行归一化
处理;根据集合中的质谱的数据序列、质谱的数据序列的类型以及质量标记,对待测的质谱的数据序列进行质量评估。
10.在一些实施例中,质谱的数据序列是由仪器产生的,多种类型中的每一种对应一种型号的仪器。
11.在一些实施例中,质谱的数据序列为总离子流色谱图中的数据构成的序列。
12.在一些实施例中,将质谱的数据序列中的质谱数据映射到预设的多个产生时刻包括:将质谱的数据序列中的质谱数据的产生时刻进行归一化处理;将对产生时刻进行归一化处理后的质谱数据映射到预设的多个产生时刻。
13.在一些实施例中,将对产生时刻进行归一化处理后的质谱数据映射到预设的多个产生时刻包括:在进行归一化处理后的质谱数据中,对于每个预设的产生时刻,如果存在预设的产生时刻的质谱数据,将质谱数据作为映射后的质谱数据;如果不存在预设的产生时刻的质谱数据,对与预设的产生时刻邻近的质谱数据进行线性插值,获得映射后的质谱数据。
14.在一些实施例中,质谱的数据序列在质量评估中的分析方法还包括:在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后,基于同一类型的、具有相同质量标记的多个质谱的数据序列,生成新的质谱的数据序列,其中,新的质谱的数据序列与多个质谱的数据序列属于同一类型、并且具有相同的质量标记。
15.在一些实施例中,基于同一类型的、具有相同质量标记的多个质谱的数据序列,生成新的质谱的数据序列包括:获取基于同一类型的、具有相同质量标记的质谱的数据序列q1和q2;生成随机数r,其中,0≤r≤1;生成新的质谱的数据序列q=r*q1+(1-r)*q2。
16.在一些实施例中,重复基于同一类型的、具有相同质量标记的多个质谱的数据序列、生成新的质谱的数据序列的步骤,直到同一类型的质谱的数据序列的数量达到预设值。
17.在一些实施例中,质谱的数据序列在质量评估中的分析方法还包括:对于集合中的至少一个质谱的数据序列,在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后:复制质谱的数据序列;随机删除复制的质谱的数据序列中的预设数量个质谱数据;在被删除的质谱数据的产生时刻维度的邻域范围内,随机选择一个质谱数据;以及根据被删除的质谱数据的产生时刻、以及随机选择的质谱数据的信号强度,生成新的质谱数据。
18.在一些实施例中,邻域范围包括被删除的质谱数据产生时刻维度的相邻质谱数据。
19.在一些实施例中,质谱的数据序列在质量评估中的分析方法还包括:对于集合中的至少一个质谱的数据序列,在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后,复制质谱的数据序列,并随机选择复制的质谱的数据序列中的一个或多个质谱数据,进行信号强度的随机波动。
20.在一些实施例中,质谱的数据序列在质量评估中的分析方法还包括:对于集合中的至少一个质谱的数据序列,在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后,复制质谱的数据序列,任意选择复制的质谱的数据序列中多对相邻的质谱数据,并将每对相邻的质谱数据的信号强度进行交换。
21.在一些实施例中,对待测的质谱的数据序列进行质量评估包括:根据集合中的每个质谱的数据序列、质谱的数据序列的类型以及预先确定的质量标记,对机器学习模型进
行训练,其中,训练后的机器学习模型用于确定待测的质谱的数据序列的质量。
22.在一些实施例中,对机器学习模型进行训练包括:对于集合中的每个质谱的数据序列:将质谱的数据序列输入到双向lstm模型中;将质谱的数据序列的类型进行编码;将双向lstm模型的输出和编码的结果进行拼接,获得拼接向量;以及将拼接向量输入到全连接层,获得全连接层的预测结果;根据集合中的质谱的数据序列对应的预测结果和质量标记确定损失值;根据损失值,对双向lstm模型和全连接层的参数进行调整。
23.在一些实施例中,质谱的数据序列在质量评估中的分析方法还包括:获取待测的质谱的数据序列和待测的质谱的数据序列的类型;将待测的质谱的数据序列中的质谱数据映射到预设的多个产生时刻;将待测的质谱的数据序列中的质谱数据的信号强度进行归一化处理;以及利用机器学习模型,对待测的质谱的数据序列和待测的质谱的数据序列的类型进行处理,获得对待测的质谱的数据序列的质量评估结果。
24.根据本发明一些实施例的第二个方面,提供一种质谱的数据序列在质量评估中的分析装置,包括:获取模块,被配置为获取包括多种类型的质谱的数据序列的集合,每个质谱的数据序列包括多个质谱数据、并具有质谱的数据序列的质量标记,每个质谱数据包括质谱信号的产生时刻和信号强度;质谱的数据序列处理模块,被配置为对于集合中的每个质谱的数据序列:将质谱的数据序列中的质谱数据映射到预设的多个产生时刻;以及,将质谱的数据序列中的质谱数据的信号强度进行归一化处理;质量评估模块,被配置为根据所述集合中的质谱的数据序列、所述质谱的数据序列的类型以及所述质量标记,对待测的质谱的数据序列进行质量评估。
25.在一些实施例中,获取模块进一步被配置为获取待测的质谱的数据序列和待测的质谱的数据序列的类型;质谱的数据序列处理模块进一步被配置为将待测的质谱的数据序列中的质谱数据映射到预设的多个产生时刻,以及将待测的质谱的数据序列中的质谱数据的信号强度进行归一化处理;质量评估模块进一步被配置为利用机器学习模型,对待测的质谱的数据序列和待测的质谱的数据序列的类型进行处理,获得对待测的质谱的数据序列的质量评估结果,其中,所述机器学习模型是利用所述集合中的质谱的数据序列训练的。
26.在一些实施例中,获取模块和质谱的数据序列处理模块位于前端设备,质量评估模块位于后台设备,并且质量评估模块进一步被配置为将质量评估的结果返回给前端设备。
27.根据本发明一些实施例的第三个方面,提供一种质谱的数据序列在质量评估中的分析装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种质谱的数据序列在质量评估中的分析方法。
28.根据本发明一些实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意一种质谱的数据序列在质量评估中的分析方法。
29.上述发明中的一些实施例具有如下优点或有益效果。通过在训练机器学习模型时,对用于训练的质谱的数据序列进行处理,使其在时间维度和信号强度的数量级方面进行统一。从而,在模型对数据进行特征提取等处理时避免了这些干扰,因此能够降低不同类型总离子流图轮廓图的差异性,使训练过程更容易收敛,并且具有更高的性能。使用训练后的模型能够更准确地预测质谱的数据序列的质量评估结果,从而能够对质谱文件进行更准
确的质量评估。
30.通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
31.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
32.图1示出了根据本发明一些实施例的质谱的数据序列在质量评估中的分析方法的流程示意图。
33.图2a~2d示出了几种总离子流色谱图的示意图。
34.图3示出了机器学习模型架构的示意图。
35.图4a示出了根据本发明一些实施例的质谱的数据序列的产生时刻处理方法的流程示意图。
36.图4b示出了根据本发明一些实施例的线性插值前后tic ms1 area的变化示意图。
37.图5a~5d示出了根据本发明一些实施例的数据增广方法的流程示意图。
38.图6示出了根据本发明另一些实施例的质谱的数据序列分析方法的流程示意图。
39.图7示出了根据本发明一些实施例的质谱的数据序列在质量评估中的分析装置的结构示意图。
40.图8示出了根据本发明另一些实施例的质谱的数据序列在质量评估中的分析装置的结构示意图。
41.图9示出了根据本发明又一些实施例的质谱的数据序列在质量评估中的分析装置的结构示意图。
具体实施方式
42.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
43.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
44.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
45.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
46.在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
47.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
48.图1示出了根据本发明一些实施例的质谱的数据序列在质量评估中的分析方法的流程示意图。如图1所示,该实施例的分析方法包括步骤s102~s108。
49.在步骤s102中,获取包括多种类型的质谱的数据序列的集合,每个质谱的数据序列包括多个质谱数据、并具有该质谱的数据序列的质量标记,每个质谱数据包括质谱信号的产生时刻和信号强度。
50.在一些实施例中,质谱的数据序列是由仪器产生的,多种类型中的每一种对应一种型号的仪器。
51.在一些实施例中,质谱的数据序列中的质谱数据按照产生时刻依次排序。例如,某个质谱的数据序列为{(t0,i0),(t1,i1),
…
,(ti,ii),
…
,(tk,ik)},其中,t0《t1《
…
《ti《
…
《tk,ti表示第i个质谱数据的产生时刻、ii表示第i个质谱数据的信号强度。
52.在一些实施例中,质谱的数据序列为总离子流色谱图中的数据构成的序列。总离子流色谱图的横坐标例如为产生时刻,纵坐标例如为信号强度。
53.质量标记用于评价该质谱的数据序列的质量。该质量评估可以分为“高质量”“低质量”两类,也可以根据需要划分更多的等级。
54.图2a~2d示出了几种总离子流色谱图的示例性的示意图。图2a和2b为lc液相系统结合timstof pro仪器使用diapasef采集方法产生的总离子流色谱图。图2a代表仪器处于异常状态下产生的总离子流色谱图,该图对应的质谱的数据序列的标记为低质量(poor);图2b代表仪器处于正常状态下产生的总离子流色谱图,该图对应的质谱的数据序列的标记为高质量(good)。图2c和2d为液相系统结合q exactive hf仪器使用dia采集方法产生的总离子流图。图2c代表仪器处于异常状态下产生的总离子流色谱图,该图对应的质谱的数据序列的标记为低质量(poor);图2d代表仪器处于正常状态下产生的总离子流色谱图,该图对应的质谱的数据序列的标记为高质量(good)。
55.图2a~2d的横坐标均为肽段洗脱时间,即质谱信号的产生时刻;纵坐标均为肽段在质谱中的信号强度。图2a为低质量文件,因为在保留时间较晚的时候,疏水肽段的信号偏低。这主要来自于色谱的柱效下降。相比于图2a,图2b的整个色谱图的疏水肽段呈现较好的信号,因此为高质量。图2c为低质量文件是因为整个色谱图中信号波动非常大,喷雾异常。而相比于图2c,图2d图表现出相对稳定的喷雾。
56.对于集合中的每个质谱的数据序列,执行步骤s104~s108。
57.在步骤s104中,将质谱的数据序列中的质谱数据映射到预设的多个产生时刻。
58.由于不同类别的质谱的数据序列的时间跨度和相邻数据的时间间隔都可能不同,因此将各个质谱的数据序列都映射到相同的多个产生时刻上。例如,有些质谱的数据序列涉及的时间跨度是2n分钟(n为正整数)、并且相邻质谱数据的时间间隔为1分钟,有些质谱的数据序列涉及的时间跨度是3n分钟、并且相邻质谱数据的时间间隔为2分钟,则映射后的质谱的数据序列所涉及的时间跨度例如为n分钟、并且相邻质谱数据的时间间隔为2分钟。从而,将不同类型的质谱的数据序列在时间维度上进行统一。
59.在一些实施例中,通过归一化和插值的方法进行产生时刻的映射。后文将更详细地描述一种示例性的处理方式。
60.在步骤s106中,将质谱的数据序列中的质谱数据的信号强度进行归一化处理。
61.在一些实施例中,归一化后的信号强度等于原信号强度与相应质谱的数据序列中的信号强度最大值的比值。
62.在步骤s108中,根据所述集合中的质谱的数据序列以及所述质谱的数据序列的类型,对待测的质谱的数据序列进行质量评估。
63.例如,利用集合中的质谱数据确定判断阈值,以根据阈值评价待测质谱数据的质量;或者,利用集合中的质谱数据训练机器学习模型,以采用模型预测待测质谱数据的质量。
64.下面示例性地描述一种通过训练机器学习模型进行质量评估的实施例。在一些实施例中,根据集合中的每个质谱的数据序列、质谱的数据序列的类型以及预先确定的质量标记,对机器学习模型进行训练,其中,训练后的机器学习模型用于确定待测的质谱的数据序列的质量。机器学习模型例如为神经网络模型。
65.在一些实施例中,对质谱的数据序列的类型进行编码,并根据质谱的数据序列和类型的编码生成输入数据。对质谱数据的类型进行编码例如为独热(one-hot)编码。
66.在一些实施例中,机器学习模型为lstm模型、双向lstm模型、多层感知器(multilayer perception,简称:mlp)模型、支持向量机(support vector machine,简称:svm)模型、随机森林模型或极端梯度提升(extreme gradient boosting,简称:xgboost)模型。
67.下面以基于双向lstm的神经网络模型为例描述一种机器学习模型的训练方式。在一些实施例中,对于集合中的每个质谱的数据序列:将质谱的数据序列输入到双向lstm模型中;将质谱的数据序列的类型进行编码;将双向lstm模型的输出和该编码的结果进行拼接,获得拼接向量;以及将拼接向量输入到全连接层,获得全连接层的预测结果。然后,根据集合中的质谱的数据序列对应的预测结果和质量标记确定损失值,并根据损失值,对双向lstm模型和全连接层的参数进行调整。图3示出了该实施例的机器学习模型架构的示意图。
68.在一些实施例中,机器学习模型根据输入的数据,确定相应的质谱的数据序列对应各个质量评估结果的概率,例如,质谱的数据序列属于高质量的概率以及属于低质量的概率。在计算损失值时,可以计算质量评估结果的概率与质量标记对应的数值之间的差距。例如,质量标记使用0表示低质量、1表示高质量,则可以计算质谱的数据序列属于高质量的概率与1之间的差距。
69.在图3中,质谱的数据序列301输入到双向lstm模型302中,获得输出结果303;该质谱的数据序列的类型的编码结果304与输出结果303进行拼接,得到拼接向量305;拼接向量305输入到全连接层306中,获得全连接层306的预测结果307。
70.由于lstm模型更适用于处理序列数据,因此通过该实施例,能够更准确地学习各类型质谱的数据序列的特点。
71.在一些实施例中,采用基于adam(adaptive momentum,自适应动量)的梯度下降法更新网络的参数。例如,将初始学习率设定为0.05、令adam中的参数betas=(0.95,0.9995)。通过计算机器学习模型得到概率值并通过计算其与质量标记之间的分类bce loss(二分类交叉熵损失)作为损失函数。通过最小化损失函数,可以计算误差梯度并通过反向传播更新网络的梯度。
72.在训练机器学习模型时,用于训练的质谱的数据序列已经经过了前述步骤的处理,使其在时间维度和信号强度的数量级方面进行了统一。从而,在模型对数据进行特征提取等处理时避免了这些干扰,因此能够降低不同类型总离子流图轮廓图的差异性,使训练过程更容易收敛,并且具有更高的性能。使用训练后的模型能够更准确地预测质谱的数据序列的质量评估结果,从而能够对质谱文件进行更准确的质量评估。
73.质谱仪器本身在数据采集上一定时间内保持一定稳定性。临床样本在使用质谱仪器的分析中,存在连续分析物等其他可能的污染。因此,导致质谱仪在一定时间内采集相同的样本,所产生的数据的数据质量会下降。因此通过上述实施例,可以分析相同型号的仪器在不同时间内的产生的文件的质量,适用于蛋白质组学分析的多种仪器。
74.下面参考图4a描述本发明质谱的数据序列的产生时刻处理方法的实施例。
75.图4a示出了根据本发明一些实施例的质谱的数据序列的产生时刻处理方法的流程示意图。如图4a所示,该实施例的流程包括步骤s402~s404。
76.在步骤s402中,将质谱的数据序列中的质谱数据的产生时刻进行归一化处理。
77.例如,某个质谱的数据序列为{(t0,i0),(t1,i1),
…
,(ti,ii),
…
,(tk,ik)},其中,t0《t1《
…
《ti《
…
《tk,ti表示第i个质谱数据的产生时刻、ii表示第i个质谱数据的信号强度,欲将该序列中的所有质谱数据映射到n+1个时刻那么,将质谱的数据序列的产生时刻映射到(0,1)的范围内,变为由于原质谱的数据序列中包括k个产生时刻的数据,而k与n+1不一定相等,因此需要继续将归一化处理后的质谱数据映射到n+1个时刻。
78.在步骤s404中,将对产生时刻进行归一化处理后的质谱数据映射到预设的多个产生时刻。
79.在一些实施例中,在进行归一化处理后的质谱数据中,对于每个预设的产生时刻,如果存在预设的产生时刻的质谱数据,将质谱数据作为映射后的质谱数据;如果不存在预设的产生时刻的质谱数据,对与预设的产生时刻邻近的质谱数据进行线性插值,获得映射后的质谱数据。
80.例如,设映射到(0,1)的范围内的质谱数据构成了集合p。对于每个预设的产生时刻t∈如果集合p中存在时刻t对应的质谱数据,即,如果存在(t,i
′
)∈p,则将(t,i
′
)添加到序列q中;如果集合p中不存在时刻t对应的质谱数据,则确定集合p中,产生时刻与t相邻的两个点(t
′k,i
′k)和(t
′
k+1
,i
′
k+1
),并对这两个点进行线性插值,获得新的数据对这两个点进行线性插值,获得新的数据然后将i(t)添加到序列q中。序列q即为映射后的质谱数据所在的质谱的数据序列。
81.图4b示出了根据本发明一些实施例的线性插值前后tic ms1profiling(一级离子流图)的变化示意图。在图4b中,横坐标代表仪器编号(instrument id),其中横坐标示出的18台仪器为示例性仪器;纵坐标代表不同原始文件插值前和插值后的ms1峰面积的比值
(ratio of raw to linear interpolation)。每个box plot在纵坐标轴向上跨度越小,说明当前仪器的所有文件在比值(ratio)上的一致性越高。从图4中可以看到,相同仪器的不同原始文件在插值前后的ms1峰面积基本一致(ratio基本一致)。因此,上述插值方法对原始数据整体表现的影响较小,从而不会改变原始数据的数据特性。
82.通过上述实施例,不同类型的质谱的数据序列中的质谱信号产生时刻能够得到统一。从而,能够有效地将由于类型不同而导致产生时刻的范围和间隔不统一的质谱数据应用到机器学习模型的训练。
83.在一些实施例中,在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后,还可以对训练的数据集合进行数据增广,以进一步提高训练效果。下面参考图5描述本发明一些实施例的数据增广方法。
84.图5a~5d示出了根据本发明一些实施例的数据增广方法的流程示意图。这些实施例在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后执行。
85.图5a的实施例的数据增广方法包括步骤s502。
86.在步骤s502中,基于同一类型的、具有相同质量标记的多个质谱的数据序列,生成新的质谱的数据序列,其中,新的质谱的数据序列与多个质谱的数据序列属于同一类型、并且具有相同的质量标记。
87.在一些实施例中,获取基于同一类型的、具有相同质量标记的质谱的数据序列q1和q2;生成随机数r,其中,0≤r≤1;生成新的质谱的数据序列q=r*q1+(1-r)*q2。
88.在一些实施例中,重复基于同一类型的、具有相同质量标记的多个质谱的数据序列、生成新的质谱的数据序列的步骤,直到同一类型的质谱的数据序列的数量达到预设值。例如,通过步骤s502的方法,将每个类别的质谱的数据序列的数量都增加到500个。
89.通过该实施例,能够融合相同类型的、具有相同质量标记的不同质谱的数据序列的特点生成新的质谱的数据序列,使得生成的新序列具备该种类型和具有该质量标记的质谱的数据序列的特点,因此生成的新序列更贴近实际生成的数据,适用于后续的训练过程。
90.图5b的实施例的数据增广方法包括步骤s504~s510。该实施例的方法可以对集合中的至少一个质谱的数据序列执行。
91.在步骤s504中,复制质谱的数据序列。
92.在步骤s506中,随机删除复制的质谱的数据序列中的预设数量个质谱数据。
93.在一些实施例中,被删除的数据不为质谱的数据序列的第一个和最后一个数据
94.在步骤s508中,在被删除的质谱数据的产生时刻维度的邻域范围内,随机选择一个质谱数据。
95.在一些实施例中,邻域范围包括被删除的质谱数据在产生时刻维度的相邻质谱数据。
96.例如,设与被删除的数据在产生时刻维度相邻的质谱数据为r1和r2,则根据相邻的质谱数据确定浮动值o=(r
2-r1)*0.2,并基于浮动值对r1和r2之间的范围进行扩展,得到邻域范围[r
1-o,r2+o]。
[0097]
在步骤s510中,根据被删除的质谱数据的产生时刻、以及随机选择的质谱数据的信号强度,生成新的质谱数据。
[0098]
例如,新的质谱数据的产生时刻等于被删除的质谱数据的产生时刻、信号强度等
于随机选择的质谱数据的信号强度。
[0099]
通过上述随机删除和随机插值的处理,能够通过随机删除和随机插值的方式生成新的质谱的数据序列。
[0100]
图5c的实施例的数据增广方法包括步骤s512~s514。该实施例的方法可以对集合中的至少一个质谱的数据序列执行。
[0101]
在步骤s512中,复制质谱的数据序列。
[0102]
在步骤s514中,随机选择复制的质谱的数据序列中的一个或多个质谱数据,进行信号强度的随机波动。
[0103]
例如,任选复制的质谱的数据序列中的m个数据,对于每一个数据qn,q
n-》qn*(1-x),其中x服从均值为0、方差为0.05的正态分布。
[0104]
从而,能够实现随机向数据加噪声的效果。
[0105]
图5d的实施例的数据增广方法包括步骤s516~s520。该实施例的方法可以对集合中的至少一个质谱的数据序列执行。
[0106]
在步骤s516中,复制质谱的数据序列。
[0107]
在步骤s518中,任意选择复制的质谱的数据序列中多对相邻的质谱数据。
[0108]
在步骤s520中,将每对相邻的质谱数据的信号强度进行交换。
[0109]
从而,能够实现数据随机交换的效果。
[0110]
图5a~5d实施例的方法可以部分或全部执行,本领域技术人员可以根据需要选择。
[0111]
在完成训练后,可以利用该模型进行质谱数据的质量评估。下面参考图6描述本发明质谱的数据序列分析方法的实施例。
[0112]
图6示出了根据本发明另一些实施例的质谱的数据序列在质量评估中的分析方法的流程示意图。如图6所示,该实施例的分析方法包括步骤s602~s608。
[0113]
在步骤s602中,获取待测的质谱的数据序列和待测的质谱的数据序列的类型。
[0114]
待测的质谱的数据序列例如为某仪器产生的总离子流色谱图对应的数据序列。
[0115]
在步骤s604中,将待测的质谱的数据序列中的质谱数据映射到预设的多个产生时刻。该映射方法可以参考训练阶段的映射方法,这里不再赘述。
[0116]
在步骤s606中,将待测的质谱的数据序列中的质谱数据的信号强度进行归一化处理。该信号强度归一化方法可以参考训练阶段的归一化方法,这里不再赘述。
[0117]
在步骤s608中,利用机器学习模型,对待测的质谱的数据序列和待测的质谱的数据序列的类型进行处理,获得对待测的质谱的数据序列的质量评估结果。
[0118]
例如,对质谱的数据序列的类型进行编码,并根据质谱的数据序列和类型的编码生成输入数据。下面以基于双向lstm的神经网络模型为例描述一种预测方式。在一些实施例中,将待测的质谱的数据序列输入到双向lstm模型中;将待测的质谱的数据序列的类型进行编码;将双向lstm模型的输出和该编码的结果进行拼接,获得拼接向量;将拼接向量输入到全连接层,获得全连接层的预测结果,作为待测的质谱的数据序列的质量评估结果。
[0119]
为了验证上述实施例的有效性,本发明选取了一个数据集进行验证。在验证中,获取了若干复杂生物样本的数据非依赖采集技术(data-independent acquisition,简称:dia)数据文件,这些文件属于多种不同类型的质谱(不同仪器型号或者同系列仪器但存在
扫描速度差异),每个复杂生物样本的dia数据文件对应一个总离子流色谱图。将其中的一部分数据作为训练集、另一部分数据作为测试集。在采用本发明的上述实施例的方法进行训练之后,使用测试集中的数据对完成训练的神经网络模型进行测试。在完成训练的阶段,神经网络模型对于训练集的auc(area under curve,曲线下面积)为0.95;在测试阶段,神经网络模型对于测试集的auc为0.92。
[0120]
下面参考图7描述本发明质谱的数据序列在质量评估中的分析装置的实施例。
[0121]
图7示出了根据本发明一些实施例的质谱的数据序列在质量评估中的分析装置的结构示意图。如图7所示,该实施例的分析装置70包括:获取模块710,被配置为获取包括多种类型的质谱的数据序列的集合,其中,每个质谱的数据序列包括多个质谱数据、并具有质谱的数据序列的质量标记,每个质谱数据包括质谱信号的产生时刻和信号强度;质谱的数据序列处理模块720,被配置为对于集合中的每个质谱的数据序列:将质谱的数据序列中的质谱数据映射到预设的多个产生时刻;以及,将质谱的数据序列中的质谱数据的信号强度进行归一化处理;质量评估模块730,被配置为根据所述集合中的质谱的数据序列、所述质谱的数据序列的类型以及所述质量标记,对待测的质谱的数据序列进行质量评估。
[0122]
在一些实施例中,质量评估模块730进一步被配置为对于集合中的每个质谱的数据序列:将质谱的数据序列输入到双向lstm模型中;将质谱的数据序列的类型进行编码;将双向lstm模型的输出和编码的结果进行拼接,获得拼接向量;以及将拼接向量输入到全连接层,获得全连接层的预测结果;根据集合中的质谱的数据序列对应的预测结果和质量标记确定损失值;根据损失值,对双向lstm模型和全连接层的参数进行调整。
[0123]
在一些实施例中,质谱的数据序列是由仪器产生的,多种类型中的每一种对应一种型号的仪器。
[0124]
在一些实施例中,质谱的数据序列为总离子流色谱图中的数据构成的序列。
[0125]
在一些实施例中,质谱的数据序列处理模块720进一步被配置为将质谱的数据序列中的质谱数据的产生时刻进行归一化处理;将对产生时刻进行归一化处理后的质谱数据映射到预设的多个产生时刻。
[0126]
在一些实施例中,质谱的数据序列处理模块720进一步被配置为在进行归一化处理后的质谱数据中,对于每个预设的产生时刻,如果存在预设的产生时刻的质谱数据,将质谱数据作为映射后的质谱数据;如果不存在预设的产生时刻的质谱数据,对与预设的产生时刻邻近的质谱数据进行线性插值,获得映射后的质谱数据。
[0127]
在一些实施例中,质谱的数据序列处理模块720进一步被配置为在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后,基于同一类型的、具有相同质量标记的多个质谱的数据序列,生成新的质谱的数据序列,其中,新的质谱的数据序列与多个质谱的数据序列属于同一类型、并且具有相同的质量标记。
[0128]
在一些实施例中,质谱的数据序列处理模块720进一步被配置为获取基于同一类型的、具有相同质量标记的质谱的数据序列q1和q2;生成随机数r,其中,0≤r≤1;生成新的质谱的数据序列q=r*q1+(1-r)*q2。
[0129]
在一些实施例中,质谱的数据序列处理模块720进一步被配置为重复基于同一类型的、具有相同质量标记的多个质谱的数据序列、生成新的质谱的数据序列的步骤,直到同一类型的质谱的数据序列的数量达到预设值。
[0130]
在一些实施例中,质谱的数据序列处理模块720进一步被配置为对于集合中的至少一个质谱的数据序列,在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后:复制质谱的数据序列;随机删除复制的质谱的数据序列中的预设数量个质谱数据;在被删除的质谱数据的产生时刻维度的邻域范围内,随机选择一个质谱数据;以及根据被删除的质谱数据的产生时刻、以及随机选择的质谱数据的信号强度,生成新的质谱数据。
[0131]
在一些实施例中,邻域范围包括被删除的质谱数据产生时刻维度的相邻质谱数据。
[0132]
在一些实施例中,质谱的数据序列处理模块720进一步被配置为对于集合中的至少一个质谱的数据序列,在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后,复制质谱的数据序列,并随机选择复制的质谱的数据序列中的一个或多个质谱数据,进行信号强度的随机波动。
[0133]
在一些实施例中,质谱的数据序列处理模块720进一步被配置为对于集合中的至少一个质谱的数据序列,在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后,复制质谱的数据序列,任意选择复制的质谱的数据序列中多对相邻的质谱数据,并将每对相邻的质谱数据的信号强度进行交换。
[0134]
在一些实施例中,获取模块710进一步被配置为获取待测的质谱的数据序列和待测的质谱的数据序列的类型;质谱的数据序列处理模块720进一步被配置为将待测的质谱的数据序列中的质谱数据映射到预设的多个产生时刻,以及将待测的质谱的数据序列中的质谱数据的信号强度进行归一化处理;质量评估模块730进一步被配置为利用机器学习模型,对待测的质谱的数据序列和待测的质谱的数据序列的类型进行处理,获得对待测的质谱的数据序列的质量评估结果,其中,所述机器学习模型是利用所述集合中的质谱的数据序列训练的。
[0135]
在一些实施例中,获取模块710和质谱的数据序列处理模块720位于前端设备,质量评估模块730位于后台设备,并且质量评估模块730进一步被配置为将质量评估的结果返回给前端设备。
[0136]
图8示出了根据本发明另一些实施例的质谱的数据序列在质量评估中的分析装置的结构示意图。如图8所示,该实施例的分析装置80包括:存储器810以及耦接至该存储器810的处理器820,处理器820被配置为基于存储在存储器810中的指令,执行前述任意一个实施例中的质谱的数据序列在质量评估中的分析方法。
[0137]
其中,存储器810例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(boot loader)以及其他程序等。
[0138]
图9示出了根据本发明又一些实施例的质谱的数据序列在质量评估中的分析装置的结构示意图。如图9所示,该实施例的质谱的分析装置90包括:存储器910以及处理器920,还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930,940,950以及存储器910和处理器920之间例如可以通过总线960连接。其中,输入输出接口930为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口950为sd卡、u盘等外置存储设备提供连接接口。
[0139]
本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种质谱的数据序列在质量评估中的分析方
法。
[0140]
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0141]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0142]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0143]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0144]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。