专利名称:对样本进行分析以提供表征数据的方法、系统和指令程序的制作方法
技术领域:
本发明涉及通过实施两种或两种以上的技术来分析至少一个样本来提供表征数据的一种方法和一种系统,其中所述的表征数据在其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及由至少一种所述技术所产生的生成物方面来表征所述的样本。其中所涉及的一种方法包含以下的步骤a)实施至少一种第一分析技术i)用于分离成分,或者ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,针对所述的样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)针对已经被分离或者正在被分离的成分或生成物来实施至少一种另外的技术,其中所述的另外的技术至少是一种分析和探测技术之一,用于根据i)通过实施至少一次步骤a)所实现的至少一次分离以及ii)至少一个另外的区别特征中的至少一种来表征被分离的成分或生成物。
在这样一种方法中,至少在步骤b)中、也可能在步骤a)中使用探测硬件,其中该探测硬件提供测量数据,其中该测量数据在至少两个表征测量量方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量反映了所述的或者通过实施至少一次步骤a)而实现的至少一次分离,并且所述表征测量量的至少一个另一量反映了i)通过实施至少一次步骤a)所实现的至少另一分离以及ii)所述另外的区别特征或者至少一个另外的区别特征中的至少一种。
根据所实施的技术以及所期望的表征,由所述探测硬件所提供的所述测量数据可能或者可能不包括量化的测量数据,其中该量化的测量数据在关于与之相关联的至少一个表征测量量的至少一个量化的测量量方面代表了由所述探测硬件所探测的并且由所述探测硬件提供的至少一种量化。
在本发明所提及的上下文中,按照整体方面,还涉及了关于通过实施所述两种或两种以上技术而获得的数据的数据操作、数据处理和数据预处理领域。按照整体方面,本发明尤其涉及了在这些数据的非信息和信息内容之间的差别或区分,其中这些数据具有一个至少两维、一般至少三维或更高的固有维数。其中一个例子就是通过一种液体色谱法与电离质谱法的组合、比如电喷雾质谱法而获得的三维数据集。在这样的上下文中以及在其他的上下文中,需要一种图形识别分析或者至少一种所谓的峰值选择来合适地表征一个相应的样本或者样本组。通常,这样一种图形识别分析或者峰值选择已经由一个操作者或者科学家根据相应数据的目测而完成了。技术发展水平是允许从这些数据中提取相关信息的某些方法和算法。一些现有技术方法的概括将在下文中描述。
本文中的另一整体方面的问题是,比如通过液体色谱法-电离质谱法(LC-MS)、也可能是液体色谱法-电喷雾电离-质谱法(LC-ESI-MS)所获得的多维数据集至少在很多的实际应用中需要巨大的存储容量。从而,通过只存储代表相关信息的数据或者一般把相关信息合适地镜像为数据来减少所需要的存储空间,以及一些种类的数据压缩以减少存储空间,这方面是一个关键。
背景技术:
本发明的背景将基于一个不受限的例子来描述,也即所提及的液体色谱法与电离质谱法的组合,也即电喷雾质谱法。这种分析技术组合是一种非常有效的、高度实用的分析手段。
用于把数据量减少为相关信息、也即从诸如一个LC-MS数据集或者多个LC-MS数据组的多维或高维数据中提取相关信息的一种数据预处理方法是任何数据分析(比如图形识别分析或者仅仅一些种类的峰值选择)的一个至关重要的步骤。一个LC-MS数据集(或者一组MS图谱)包含具有一个大的质量范围的几百次扫描、比如以质量/电荷(m/z)值表示的从约50-100Da到几千Da(典型地为2000-10000Da)。这意味着,单次测量的一个数据集包含了几百万个数据点,其中很大一部分代表了冗余信息(电噪声和化学噪声、来自移动相位元件的、非相关的“真实”信号、离子源污染、色谱材料的渗出信号)。由于单个数据点的数量巨大,至少在实际应用中人工选择相关信息是不可想象的,从而必须采用合适的算法。
对于很多2维、3维或更高维的数据集(象LC-MS数据),发现在两个维上进行运行到运行的变化对于图形识别分析具有明显不利的影响。在数据集的集合中,相同物质的正确的信号分配(如多于一种样本的测量)是正确实施图形识别的一个重要前提。为图形中的一个化学单体错误地确定峰值减低了找到“正确”图形的可能性。
在一个LC-MS数据集中,保持时间的变化可能由多种原因造成,比如梯度形成的不均匀性、流动速度的波动、色谱列的过载、由于色谱材料的老化而造成的化学和机械的变化。所述质量/电荷测量的变化依赖于比如质量检测、质量-电荷值、强度值或者信号/噪声比、从连续光谱中生成有形心的图谱的精度。
有很多化学统计方法用来进行所述的LC-MS数据的预处理(见下文)。这些方法中的大多数采用仅仅在一维中对数据进行分析的算法来提取数据组的信息部分。所述方法中的一些同时在两维中对数据进行分析而实现实质上较高质量的数据预处理。
下列所考虑的所公开的方法中没有一个把整个分析集(样本组)作为一个具有非常相似的信息内容的相容数据集,而是进行单独的分析。
一些现有技术方法JChromatogr A 771,1997,1-7中的David C.Muddiman等人的“Application of sequential paired covariance to liquidchromatography-mass spectrometry data;Enhancements in boththe signal-to-noise ratio and resolution of analyte peaks inthe chromatogram”(连续对协方差在液体色谱法-质谱数据中的应用;在色谱中信号与噪声比以及分析物峰值分辨率的提高)中,通常,所述的连续对协方差(SPC)方法生成一系列虚拟放大的质谱。在质谱中每个数据点乘以后面的质谱中的相应数据点,从而形成几何放大的光谱;在每个乘法运算中所采用的光谱的数量决定了所述协方差算法的阶。从而,实现了所述S/N比和色谱中分辨率的显著提高,然而该算法只能用于定性分析,其原因在于绝对量化信息(峰值区域和高度)由于连续数据点的相乘而丢失。
Analytica Chemica Acta 446,2001,467-476中的W.Windig等人的“Fast interpretation of complex LC-MS data usingchemometrics”(采用色谱法对复杂LC-MS数据的快速描述),US5,672,869(Noise and background reduction method for componentdetection in chromatography/spectrometry(在光谱法/色谱法中用于单体检测的减低噪声和背景的方法),Windig等)中,一个单体探测算法(CODA)通过消除随机噪声、尖峰和移动相位峰值而从LC-MS数据中提取复合信息。它利用具有0到1之间值的一个近似指数在原始色谱和其平滑形式之间采用差值评估来消除尖峰。使用者应当确定该近似指数的界限值。为了检测代表溶剂背景的一个色谱,在所选择的质量色谱中进行所有数据点的平均值的比较。
所述的已知方法基本上包含以下的步骤1.平滑光谱数据2.获得变量的强度的平均值3.从步骤1中所获得的数据中减去步骤2中所获得的平均值4.使步骤3的输出和所述的原始变量标准化5.对近似性进行比较并设定阈值6.选择超过所述阈值的所有变量7.画出被选择的变量的和以获得所选择的色谱在JChromatogr A 849,1999,71-85中的C.M.Fleming等人的“Windowed mass selection methodA new data processingalgorithm for liquid chromatography-mass spectrometry data”(窗口质量选择方法用于液体色谱法-质谱法数据的一种新的数据预处理算法)中,提出了称为“窗口质量选择方法”(WMSM)的一种改进的SPC方法,用于消除在所述数据中产生的随机噪声。所述的预处理方法包含两个步骤来除去随机背景噪声,并且所基于的主要设想是通过峰值宽度中的差别可以把分析物与噪声区别开来。
该方法的设想是1.任何峰值具有超过窗口长度的一个非零的信号。
2.随机噪声的一个特征就是它超过由一个窗口所确定的多个扫描时不具有恒定的信号,而是间断地显示零强度。超过一个窗口范围内的强度相乘将形成零信号。
3.通过从该色谱中减去每个色谱的平均值而把低的恒定背景去除。
4.通过选择(设定理论峰值的最大长度的)标准而把移动相位峰值去除。如果该峰值长于所述的最大允许值,那么它将被从数据组中去除。
该方法的设想没有完全包括在LC-MS数据组中所产生的所有不测事件(比如重叠峰值、具有波动强度值的长噪声区域)。原则上,超出SPC方法的一个优点就是原则上保持了绝对强度值,然而将需要在减去背景之后进行强度值的修正。
单值分解方法单值分解方法(SVD)是一种通过矩阵特征值之类的分解而用于数据压缩和噪音降低的普通方法。
(在JChromatogr A 849,1999,71-85及其参照中的Fleming等人的本方法的特征)WO 02/13228 A2(Vogels等人的Method and system foridentifying and quantifying chemical components of amixture(用于识别和量化一种混合物中的成分的方法和系统))公开了一种数据处理和评估方法,其中所包含的步骤是平滑色谱的数据点并确定被平滑的色谱的熵值(色谱可能是一种所选择的物质或全部离子色谱)。在为每个平滑后的、所述数据组中的质量色谱进行质量因子评估之后(根据熵值),该算法从被选择的、具有大于一个确定阈值的IQ值的质量色谱中生成一个修复的全部离子色谱。
US 5,995,989 A1(Gedcke等人的Method and apparatus forcompression and filtering of data associated withspectrometry(用于压缩和过滤与色谱法有关的数据的方法和装置))公开了用于压缩和过滤与色谱法有关的数据的方法和装置。该方法监测每个数据点的值并把它与前一数据点相比较以判定它是否处于或非常接近峰值。一个指定数量的数据的强度值被相加并被平均以确定背景噪声的平均值。通过把所述的偏差乘以一个经验确定的常数k来确定一个阈值,把每个数据与该阈值相比较。
US 2002/0193950 A1(Gavin等人的Method for analyzing massspectra(用于分析质谱的方法))公开了一种用于分析质谱的方法。该分析包括探测超过S/N界限的信号、集合信号、特征预选择、识别被选择的集合的质量值、创建一个分类模型以及未知样本的赋值。优先于光谱检测,该方法被预定用于1维信号、象不具有时间依赖性分离的MALDI、SELDI或者ESI-MS光谱。
该文件着重于创建具有由不同生物学状态表征的类的一个分类模型。在本文中描述了采用集合分析的特征预选择。具有一个预定数目信号的信号集合(这里为提供信号的生物学样本)被选择用于分类模型,而具有较少信号的集合被丢弃。
在本文中只简要地考虑了对原始数据进行预处理的可能性。最后提到数据分析可以包括的步骤为确定一个被探测的标志的信号强度(比如信号的高度)并去除“离群值”(偏离预定统计分布的数据)。
US 2003/0040123 A1(Hastings的Peak selection inmultidimensional data(多维数据中的峰值选择))该方法为数据的每个一维单体计算局部噪声阈值。每个点都具有一个局部噪声阈值,为数据组的每一维都施加了局部噪声阈值,一个点只有当其值超过所有的被施加的局部噪声阈值时才被选择作为峰值候选。接近的候选峰值被集合成为实际的峰值(这意味着探测的真实的色谱峰值)。
从围绕特定点的点窗口中可以计算出噪声阈值。在峰值选择之后,在峰值被收入峰值数据库附加的标准可以被应用到所述峰值上。考虑到实际峰值的选择,认为也可以应用附加的峰值识别算法,比如质量色谱线形分析或者贝叶斯定理/最大概似法分析、或者质谱同位素分布分析。这没有详细描述。考虑到峰值选择,还认为通过使用一种合适的过滤器根据一个已知的噪声分布可以降低噪声,以便可以探测峰值。US 2003/0040123中公开的方法通过给数据的不同维采用不同的噪声阈值对噪声问题、尤其LC-MS数据中的噪声特性编址。
一般关注的文章的回顾回顾可以用于质量色谱数据方面的样本的所谓数据采集技术在Curent Opinion in Drug Discovery&Development 20014(3),325-331中的S.M.Norton等人的“Data mining ofspectroscope data for biomarker discovery”(用于生物标志化合物的分光镜数据的数据采集)。一般关注的文章也参见IEEETransactions on Pattern Analysis and MachineIntelligence,22(1),2000,4-37中的A.K.Jain等人的“Statistical Pattern RecognitionA Review”(统计图形识别回顾),其所认同的要点是比如特征提取和选择、集合分析以及基于包括贝叶斯定理统计的统计方法的一般所谓的数据采集。
现有技术的问题在LC-MS光谱法的情况下的现有算法的缺点一般是1.峰值选择所需要的所有的信息(噪声消除、尖峰识别、移动相位集合消除)需要基于一个特定的单个数据组的分析。所获得的、数据属性的信息不会被传输给下一数据组,从而必须为所述下一数据组开始新的峰值选择过程。
2.这些算法的大多数都不保存保持时间的不精确性的信息以及一个特定峰值的质量/电荷值。在将由图形识别方法来进行分析的数据组集合中正确地分配相同的物质(峰值)的信号是至关重要的一点。在图形中给同样的物质错误地分配峰值可能导致错误的正的或负的结果。
3.上述方法的大多数所假设的非常精确的质量-电荷值没有反映实际值。随一段时间后的单个峰值的m/z值具有不精确性,这是源于MS分析仪的质量精确性,所述形心质量值相对于噪声峰值的原始值发生了质量偏移。
这种将数据“固定收集槽”到质量轨迹没有考虑到实际上真实的分子可能在所测量的质量-电荷比中的第一小数位上就产生变化。这可能由于质量轴测量的不精确性而导致一个峰值分裂为连续的轨迹,这导致以下的错误-错误地给峰值分配收集槽,-峰值中错误的整体强度值,
-在保持时间轴中所产生的间隙甚至可能导致正确的峰值根本不被识别为一个峰值。
甚至在质量测量精确性较高的情况下(象在TOF分析仪中),还有几种原因会导致所述被探测信号的重叠并随后导致把数据点错误地分配给所述的相应峰值(收集槽),比如在较高电荷状态的同位素的重叠信号,对具有非常近似的分子重量的物质造成不完全的色谱学的分离。
在选择“宽”的质量轨迹的情况下,其危险是有可能把不同峰值的数据点汇合到一个收集槽中,另一方面选择非常“窄”的质量轨迹导致了单个峰值分裂到两个或更多收集槽中。
4.上述方法中的大多数沿着具有确定的Δm/z的质量轨迹来进行峰值选择(对于四极分析仪的数据默认为0.5-1Da,对TOF分析仪的数据为Δm/z 0.1-0.01)。通常,操作者根据关于质量精确性和数据组中有关信息的位置来评估所获得的数据。
然而,对于非常复杂样本的大集合的图形识别分析,象血清或尿液样本的LC提取、组织均浆提取、细胞培养介质,沿质量轨迹进行峰值选择所用的这种策略会导致大量的计算时间。除了把一个峰值分裂为两个连续的质量轨迹这个问题之外,这对于复杂数据组的数据预处理来说也是一个非常乏味的策略,这是由于在不知道提供信息的信号的位置的原始信息的情况下,需要不论什么信息内容都要监控每个质量轨迹。
5.上述方法中的大多数在单个质量轨迹(m/z值)上实施噪声减少并且没有在整个数据组上表征噪声的一般属性。连同所述的常规的“固定收集槽”,其危险是有可能删除提供信息的数据点。
发明内容
本发明的目的是提供一种如上文所述的、适合对多维测量数据进行有效的数据处理或数据预处理以区分不提供信息的和提供信息的数据信息的方法。本发明的目的尤其在于提供克服上述现有技术的至少一些缺陷的基础。该目的以及更进一步的目的通过所附的独立权利要求所定义的所述发明而得到实现。优选的实施方案以及进一步改进通过所附权利要求组的从属权利要求以及在后面的发明摘要中来解释。
下文将参照一个不受限的示例、也即参照液体色谱法与离子质谱法的组合(比如电喷雾质谱法)和相应的测量数据来给出按照不同方面的本发明的摘要以及获得更多优点的优选实施方案和进一步改进,还给出了补充解释。这种数据一般具有三个维,也即关于一种相应物质在色谱图列中的保持时间的一个第一维、关于相应离子的质量-电荷比的一个第二维、以及关于在一个确定的保持时间和一个确定的质量-电荷比(也即关于一个(保持时间、质量-电荷比)坐标)所测量的离子强度或离子数目的一个第三维。一种特定物质的保持时间在所述列中一般以扫描数的形式来表示,其中该扫描数表明了质谱仪相应的测量扫描或者在探测时间内所探测的特定离子强度,并且该扫描数具有确定的质量-电荷比。为了根据这些测量数据来对一个相应的样本或者多个样本进行分析,必须把表明是可以归属于同一物质的那些数据点的数据(结果生成物的样本的成分)进行分组,这一般由操作者或科学家根据经验查看这些数据的直观表示,而且这在前述的现有技术文档中是设法通过不同的峰值选择和图样识别算法来实现。源自同一物质的数据点位于一个确定的扫描数目间隔中或者检测时间间隔和一个确定的质量-电荷比间隔中。这样的一个扫描数目间隔可以被表示为[NION-ΔNdev,NION+ΔNdev],这样的一个探测时间间隔可以被表示为[tION-Δtdev,tION+Δtdev],而这样的一个质量-电荷比可以被表示为[m/zION-Δm/zdev,m/zION+Δm/zdev],其中NION、tION和m/zION一般仅仅是一个相应的测量值间隔的中心值,而该测量值间隔具有边界NION-ΔNdev、NION+ΔNdev或tION-Δtdev、tION+Δtdev或m/zION-Δm/zdev、m/zION+Δm/zdev。但是为了更好地理解,可以认为所述的值NION、tION和m/zION是真正的、表征的或平均的测量一个特定物质得到的扫描数、探测时间或质量-电荷比,但是,只有所述的单个的数据点围绕平均值或真实值对称地分布时,它才对应于所述相应间隔的中心值。
为便于理解,在下文的本发明的、以及优选实施方案和进一步的改进的摘要和解释中,通过包括该例的参照明确地涉及这里所考虑的不受限示例。在所述的摘要和解释中包含了参照SCAN NUMBER(指的是所述的扫描数),以及可能包括参照DETECTION TIME(指的是所述的探测时间),还有参照MASS-TO-CHARGE RATIO(指的是所述的质量-电荷比),并且如果适用,还有通过质谱仪测量的参照ION INTENSITY(指的是所述的离子强度或者离子数量)。另外还包含在上述表示中的作为参照的相应测量值间隔,以及所述扫描数和探测时间的相应的测量值Ni和ti(这些是可选择的,有可能用到)、所述质量-电荷比的相应的测量值m/zi、如果适用还有所述离子强度的相应的测量值Ii。
另外还包括基于所述不受限的示例的一些其他的参照,其中的含义在相应的上下文中应当是明显的比如NION、tIon(指的是相应的一种离子的真正的或表征的或平均的扫描数或探测时间)、m/zION(指的是一种相应离子的真正的或表征的或平均的质量-电荷比)、Δm/zi(指的是质量-电荷比的一个相应的测量值与所述相应离子的真正的或表征的或平均的质量-电荷比的偏差)。所包括的参考就权利要求书中的参照符号的刊登与惯例类似。因此,由“逗号”分隔的参照必须看作是一系列一般可以普遍适用的参照,而被“分号”分隔的参照必须看作是一系列一般选择适用的参照。
应当着重强调的一点是,这些参照仅仅为了便于理解本发明,并且对于其他测量情况以及其他分析和探测技术,当然将必须提出其他的术语和参照而不是当前所使用的术语和参照。
还要注意的是在下文中尽量完全区分要测量或确定的一个数量(或变量)或多个数量(或多个变量)与为相应的数量或变量所测量或确定的值或多个值。比如,如果将关注一个特定的电压,那么所述数量或变量VOLTAGE(电压)将作为QUANTITY(数量)来访问,而从相应的测量或确定中获得的电压值(比如具有单位“volt”(伏))将作为VALUE(值)来访问。在前面所述的不受限例子中,术语SCAN NUMBER(扫描数)、DETECTION TIME(探测时间)、MASS-TO-CHARGE RATIO(质量-电荷比)和ION INTENSITY(离子强度)在这种意义上指的是QUANTITY(量),而术语Ni、ti、M/Zi和Ii在这种意义上指的是VALUE(值)。这些差别主要是为了便于理解,并且在任何情况下都不应当认为是对本发明范围的限制。
按照第一方面,本发明提供了(提议1)用于通过实施两种或更多种技术来提供表征数据以用于分析至少一个样本的一种方法,其中所述的表征数据在其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及由至少一种所述技术所产生的生成物方面来表征所述的样本,其中所述的方法包含以下的步骤
a)实施至少一种第一分析技术i)用于分离成分,或者ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,针对所述的样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)针对已经被分离或者正在被分离的成分或生成物来实施至少一种另外的技术,其中所述的另外的技术是一种分析和探测技术至少之一,用于根据i)通过实施至少一次步骤a)所实现的至少一次分离以及ii)至少一个另外的区别特征中的至少一种来表征被分离的成分或生成物。
其中至少在步骤b)中使用探测硬件,其中该探测硬件提供测量数据,该测量数据在至少两个表征测量量(SCAN NUMBER(扫描数)、MASS-TO-CHARGE RATIO(质量-电荷比);DETECTION TIME(探测时间)、MASS-TO-CHARGE RATIO(质量-电荷比))方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量(SCANNUMBER(扫描数);DETECTION TIME(探测时间))反映了所述的或者通过实施至少一次步骤a)而实现的至少一次分离,并且所述表征测量量的至少一个另一量(MASS-TO-CHARGE RATIO(质量-电荷比))反映了i)通过实施至少一次步骤a)所实现的至少一次另一分离以及ii)所述另外的区别特征或者至少一个另外的区别特征中的至少一种;其中所述的方法还包括以下步骤c)根据由所述探测硬件提供的所述测量数据,通过相互关联至少一个相应的第一表征测量值(Ni;ti)与至少一个相应的另外表征测量值(m/zi)来提供数据元组((Ni,m/zi);(ti,m/zi)),其中所述的第一表征测量值(Ni;ti)在所述表征测量量的所述至少一个第一量(SCAN NUMBER(扫描数);DETECTION TIME(探测时间))方面代表了所述的表征或者至少一个表征,而其中所述的表征测量值(m/zi)在所述表征测量量的所述至少一个另一量(MASS-TO-CHARGERATIO(质量-电荷比))方面代表了所述表征或至少一个表征;d)把所述的数据元组针对至少一个所述表征测量量的所述表征测量值而分组到表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中,其中所述的间隔每一个都被确定与所述成分或生成物中的特定一种潜在地相关联;其中是根据所述相应表征测量值(m/zi)与关联于特定一种所述成分或生成物的一个真正的或表征的或平均的表征测量值(m/zION)之间的偏差(Δm/zi)的至少一种统计分布来实施所述的分组;其中所述的方法还包括至少一个以下的步骤e)对数据或数据可视化进行存储、显示和打印的至少一种,其中这些数据或数据可视化反映或包括了i)从所述分组中获得的数据元组组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项;f)还分析所述至少一种样本或所述成分或生成物中的至少一种,其所基于的是i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项,或者基于如步骤e)所述的存储、显示或打印的数据或可视化。
根据本发明的所述第一方面,根据所述相应表征测量值与关联于特定一种所述成分或生成物的一个真正的或表征的或平均的表征测量值之间的偏差的至少一种统计分布来实施所述的分组。根据这种方法可以获得非常有效的分组。对于所述的LC质谱学的例子(LC-MS分析),该技术可以有利地用于确定所述质量-电荷数据部分的合适的间隔,也即沿可以根据所述测量数据而定义的相应坐标系统的质量-电荷比轴来找到合适的间隔。在本文中,可以有利地采用传统的或常规的统计学以及贝叶斯定理的统计学或者非频率论统计学。
应当指出的是,步骤a)可以同时或连续地被实施多次。步骤b)可以包括类似于如步骤a)所述分离的一种分离,或者可以至少适合于实施这样的一种分离。质谱学是适合于实施一种分离的例子。但是,如果不同的物质已经被分离,那么关于所述的物质实施质谱学就不一定造成额外的分离,而是有可能通过使用至少一个色谱列等只会把对于反映在步骤a)中实施的分离的某一检测时间或扫描数目的所述物质绘制在所述的m/z轴上。
也可以同时或连续地实施多次步骤b)。而且,根据测量状况和所使用的技术,也有可能同时或者与步骤a)重叠地实施步骤b)。例如电泳是通过诱导荧光来使用电泳带的在线检测。在这样一种测量状况下所述的电泳对物质进行分离。由此,根据该分离按照步骤b)就可能获得代表所述分离的测量数据。
另一种可能是,步骤a)中也包括了使用探测硬件来提供测量数据。再次涉及到采用电泳带在线探测的电泳的例子,其中所述的电泳带可以通过合适的方法来探测。除了通过探测所述的荧光带所获得的表征之外,基于所实现的分离不可以根据步骤b)来实现一种另外的表征。
关于步骤c)应当注意的是,有很多可能的方法来组织所述的数据。对于所使用的数据结构没有什么限制。关于一个相应的数据元组的表征测量值相互之间以及与相应表征测量量之间的关联足够可以鉴别相应测量数据元组的表征测量值,如此使得这些表征测量值可以被访问以进行分组。因此,对所述术语“数据元组”和所述表征测量值相互之间的关联必须就其功能来进行理解,并且将包含实现或反映或允许这种关联和访问可能的任意可能的数据组织。
也可能同时、或者可能以某些方式交错地实施步骤c)和d)。步骤d)和e)也一样。而且,也可能同时、或者可能以某些方式交错地一方面实施步骤d)或/和步骤e),而另一方面实施步骤f)。
应当注意的是,通常确定真的与所述成分或生成物中的特定一种相关联的所述间隔。按照本发明,所述分组的工作前提是,所述的分组有效地确定间隔,其中这些间隔每一个都与所述成分或生成物中的特定一种相关联。但是,如果存在假象或者如果没有使用最佳分析和探测技术,那么就并不总是能够排除错误的确定。如果考虑到错误的可能性,那么根据本发明所述的分组在任何情况下都能确定与所述成分或生成物中的特定一种潜在地相关联的间隔。这些间隔是否真的与所述成分或生成物中的特定一种相关联可以在一个附加的验证步骤中被确定,这可能考虑了对被分析的所述样本或者样本组的现有了解以及在一个参照数据库中所包含的参照数据。
关于步骤e)应当补充的是,优选地只有反映或者包括从所述分组中所获得的数据元组集合、或/和从所述分组所获得的相应表征测量值间隔的数据或数据可视化被存储或/和被显示或/和被打印,而其他没有位于所述组或间隔中的数据被丢弃。这导致较多的数据缩减。如果存储的不是一个相应组的或者处于一个相应间隔中的数据元组,而是存储描述所述组或所述间隔的数据,在LC-MS数据的情况中,存储的比如是一个平均的m/z值、平均的t值或者N值和可能一个相加强度值(比如所有单个强度的总和、由所述数据元组所确定的曲线下的面积积分、平均强度值等),那么在某种数据压缩的意义上,可以实现附加的数据缩减。另外,对所述的平均m/z值和t值或N值而言,附加地或有可能交替地可以存储所述的m/z间隔和t间隔或N间隔,其方式可能是通过存储所述相应间隔的边缘或者存储所述相应间隔的中心值和宽度。但是,应当强调的是,这样一种数据缩减以及甚至数据压缩并不总是必须的,尤其是如果具有大的数据存储空间并且如果具有高速处理器的情况下。在这样的状况下,如此的数据分组可能非常有利于数据分析。例如,属于同一组的数据元组可能在数据可视化中通过给不同的组赋予不同的颜色来进行鉴别,比如用假彩色或阴影颜色来区分,如此使得所述相应样本或多个样本定性的分析便于科学家或操作者在显示装置或打印输出装置上观察所述可视化。
至少根据步骤d)的所述分组以及通常步骤e)的存储、显示、打印以及进一步分析以及通常根据步骤c)的数据元组的提供一般由诸如数据处理单元或数据处理系统的一个合适的数据处理装置、也许由通用计算机或由测量和分析系统的控制单元自动地实施。尽管有可能由科学家或操作者输入触发特定动作的或者作为特定处理步骤基础的特定的数据,但是这种分组一般将在没有人为干涉的情况下根据由实施所述技术而获得的测量原始数据来实施,也可能在本发明所包含的一种程序指令的控制下实施。
优选地,步骤d)中的所述分组根据测量偏差的至少一种统计分布来进行实施,其中所述的测量偏差的统计分布表示相应的表征测量值与真正的或表征的或平均的、与所述特定成分或生成物相关联的表征测量值(m/zION)之间的偏差(Δm/zi)的统计分布(提议2)。
另外还提议,与所述的间隔相对应的是根据所述偏差(Δm/zi)统计分布而包括了所有相应表征测量值的物质数量的间隔,其中所述的表征测量值来自于所述的特定成分或生成物(提议3)。
所述间隔可以有利地是预测间隔,其中该预测间隔通过所述偏差(Δm/zi)统计分布来预测以包括所有相应表征测量值的物质数量,其中所述的表征测量值来自于所述的特定成分或生成物(提议4)。
如果所述的间隔是预测间隔或者置信间隔,其中该预测间隔或置信间隔通过所述偏差(Δm/zi)统计分布根据初始化数据以及根据已经被分组的数据元组(在步骤d)的分组过程中)来预测以包括了所有相应表征测量值的物质数量,其中所述的表征测量值来自于所述的特定成分或生成物并且属于没有被分组的数据元组,那么就可以实现非常有效的分组(提议5)。在本文中优选地使用贝叶斯定理统计。所谓的贝叶斯学习或更新可以有利地用于改善当前的表征测量值间隔。
可以给根据步骤c)所提供的所述的数据元组赋予维数。对此提议所述数据元组在步骤c)中生成以包括绘制在所述数据元组的至少一个第一维上的所述至少一个相应的第一表征测量值(Ni;ti),还包括绘制在所述数据元组的至少另一维上的所述至少另一相应的第一表征测量值(m/zi)(提议6)。可以有利地使用反映这些维数的数据结构、比如具有适当维数的阵列。
关于步骤d)还提议,在步骤d)中所述数据元组针对至少两个不同的表征测量量的表征测量值被分组到表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中,其中如此实施所述的分组使得包含了每个所述至少两个不同表征测量量的一个表征测量值间隔的间隔组([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])被确定与所述成分或生成物中的特定一种潜在地相关联,其中所述分组的实施是根据关于至少一个所述表征测量量的表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev])的所述偏差(Δm/zi)的至少一个统计分布(提议7)。参照提议6,与至少两个不同的表征测量量相关联的所述的表征测量值将被绘制在所述数据元组的不同维上。
优选地,所述分组的实施是根据关于所述另一表征测量量或者至少另一表征测量量的另外的表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev])的所述偏差(Δm/zi)的至少一个统计分布,其中这里所述的另外的表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev])也被表示为另外的表征测量值间隔(提议8)。
根据测量状况和所使用的技术,由所述探测硬件提供的所述测量数据有时、常常或者通常会包括量化测量数据,其中该量化测量数据在关于与之相关联的至少一个表征测量量的至少一个量化测量量(IONINTENSITY,离子强度)方面而代表了由所述探测硬件探测的、并由所述探测硬件提供的至少一个量化(ION INTENSITY,离子强度)。在这种情况下,所述的数据元组可以包括至少一个相应的量化测量值。对此提议,通过至少一个相应的第一表征测量值(Ni;ti)、所述至少一个相应的另一表征测量值(m/zi)和至少一个相应的量化测量值(Ii)之间的相互关联而提供所述数据元组((Ni,m/zi,Ii);(ti,m/zi,Ii)),其中所述的量化测量值(Ii)在至少一个量化测量量(ION INTENSITY,离子强度)方面代表了所述的量化或者至少一个量化(IONINTENSITY,离子强度)(提议9)。在这种情况下,所述的数据元组可以在步骤c)中生成,并包括绘制在所述数据元组的至少一个第一维上的、所述至少一个相应的第一表征测量值(Ni;ti),还包括绘制在所述数据元组的至少一个另一维上的、所述至少一个相应的另外表征测量值(m/zi),以及还包括绘制在所述数据元组的至少一个其他维上的、所述至少一个相应的量化测量值(Ii)(提议10)。
关于本发明的第二方面,另外还提议,在步骤d)中还根据多个量化测量值(Ii)的至少一个共同特征来实施所述的分组,其中所述的量化测量值(Ii)的每一个都属于所述数据元组中的相应一个(提议11)。
所述的分组尤其可以根据至少一个共同特征被有利地实施,其中所述的共同特征包括从所述多个所述量化测量值中确定的一个整体量化计量值(提议12)。比如,作为整体量化计量值,一个平均量化测量值可以用于所述多个量化测量值,或者用于所述多个量化测量值的总和或乘积等。在术语“overall quantitative measure value(整体量化计量值)”中的子术语“measure(计量)”表示,所述的整体量化计量值可以用作表明所述量化测量值所共同考虑的一个整体特征的一个计量。因此,不能排除如果所述量化测量值或一些量化测量值的平均值增加那么所述整体量化计量值则减小,反之亦然。比如,在一方面所述整体量化计量值和另一方面所述量化测量值之间可能存在一个倒数关系。
另外,所述的分组可以附加地或可选地根据至少一个共同特征被有利地实施,其中所述的共同特征包含有由那些数据元组直接或间接确定的至少一条曲线或直方图的一个形状,其中所述的那些数据元组中的每一个都包括了所述多个量化测量值中的至少相应一个(提议13)。关于这方面所考虑的是,所述至少一条曲线或直方图的所述形状是由那些数据元组的值子元组、可能值对来确定的,其中所述的值子元组、可能值对中的每一个都包括了至少所述的所述多个量化测量值中的至少相应一个和至少一个相应的所述表征测量值,其中所述的至少一个相应的表征测量值在所述至少一个表征测量量方面代表了至少一个所述的表征,其中所述的至少一个表征测量量与所述的或至少一个相应的量化测量量相关联(提议14)。
参照提议11至14中的至少一个另外还提议,在步骤d)中所述数据元组针对至少两个不同的表征测量量的表征测量值而在表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中被分组,其中如此实施所述的分组使得包含了每个所述至少两个不同表征测量量的一个表征测量值间隔的间隔集([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])被确定与所述成分或生成物中的特定一种潜在地相关联,其中所述分组根据关于至少一个所述表征测量量的表征测量值的表征测量值间隔([NION-ΔNdev,NION+ΔNdev];[tION-Δtdev,tION+Δtdev])的所述多个量化测量值(Ii)的所述共同特征来实施(提议15)。参照提议10,与至少两个不同的表征测量量相关联的所述的表征测量值将被绘制在所述数据元组的不同维上。
有利地,所述分组可以根据关于所述第一表征测量量的、或者至少一个第一表征测量量的第一表征测量值的表征测量值间隔([NION-ΔNdev,NION+ΔNdev];[tION-Δtdev,tION+Δtdev])的所述多个量化测量值(Ii)的共同特征来实施,其中这里所述的第一表征测量值的表征测量值间隔([NION-ΔNdev,NION+ΔNdev];[tION-Δtdev,tION+Δtdev])也被表示为第一表征测量值间隔(提议16)。
参照提议9至16,另外还建议,在步骤e)中被存储、打印或显示的所述数据包括有量化信息,其中该量化信息在所述量化测量量或至少一个量化测量量方面代表所述的量化或至少一个量化(提议17)。另外还建议,根据在所述相应组的数据元组中所包含的量化测量值,为从所述分组中获得的每个数据元组的组导出至少一个相应的累积量化值,用于在所述量化测量量方面或者至少一个量化测量量方面代表所述的量化或者至少一个量化(提议18)。比如,一个平均量化值或者量化值的总和可以被用作累积量化值。在步骤e)中优选地存储所述相应的累积量化值,而不是所述累积量化值所基于的所述量化测量值(提议19)。可以获得实际数据压缩。这里涉及关于提议1的步骤e)的上述注释。
按照第二方面(在提议11的文中已经进行了描述),本发明提供了(提议20)用于通过实施两种或更多种技术来分析至少一个样本以提供表征数据的一种方法,其中所述的表征数据关于其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及由至少一种所述技术所产生的生成物来表征所述的样本,其中所述的方法包含以下的步骤a)实施至少一种第一分析技术i)用于分离成分,或者ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,针对所述的样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)针对已经被分离或者正在被分离的成分或生成物来实施至少一种另外的技术,其中所述的另外的技术是分析和探测技术至少之一,用于根据i)通过实施至少一次步骤a)所实现的至少一次分离以及ii)至少一个另外的区别特征中的至少一种来表征被分离的成分或生成物。
其中至少在步骤b)中使用探测硬件,其中该探测硬件提供测量数据,其中该测量数据在至少两个表征测量量(SCAN NUMBER(扫描数)、MASS-TO-CHARGE RATIO(质量-电荷比);DETECTION TIME(探测时间)、MASS-TO-CHARGE RATIO(质量-电荷比))方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量(SCANNUMBER(扫描数);DETECTION TIME(探测时间))反映了通过实施至少一次步骤a)而实现的所述的或者至少一次分离,并且所述表征测量量的至少一个另一量(MASS-TO-CHARGE RATIO(质量-电荷比))反映了i)通过实施至少一次步骤a)所实现的至少一次另一分离以及ii)所述区别特征或者至少一个另外的区别特征中的至少一种;其中由所述探测硬件提供的测量数据包括量化测量数据,其中该量化测量数据在关于与之相关联的至少一个表征测量量的至少一个数量测量量(ION INTENSITY,离子强度)方面代表了由所述探测硬件探测的并且由所述探测硬件提供的至少一个量化(ION INTENSITY,离子强度);其中所述的方法还包括以下步骤c)根据由所述探测硬件提供的所述测量数据,通过相互关联至少一个相应的第一表征测量值(Ni;ti)、至少一个相应的另外表征测量值(m/zi)和至少一个相应的量化测量值(Ii)来提供数据元组((NI,m/zi,Ii);(tI,m/zI,Ii)),其中所述的第一表征测量值(NI;ti)在所述表征测量量的所述至少一个第一量(SCAN NUMBER(扫描数);DETECTION TIME(探测时间))方面代表了所述的表征或者至少一个表征,而其中所述的表征测量值(m/zi)在所述表征测量量的所述至少一个另一量(MASS-TO-CHARGE RATIO(质量-电荷比))方面代表了所述表征或至少一个表征,而其中所述的量化测量值(Ii)在所述至少一个量化测量量(ION INTENSITY(离子强度))方面代表了所述的或至少一个量化(ION INTENSITY(离子强度));d)把所述的数据元组针对至少一个所述表征测量量的所述表征测量值而分组到表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中,其中所述的间隔每一个都被确定与所述成分或生成物中的特定一种潜在地相关联;其中所述分组根据多个所述量化测量值(Ii)的一个共同特征来实施,其中所述量化测量值(Ii)中的每一个都属于所述数据元组的相应一个;其中所述方法还包括至少一个以下的步骤e)对数据或数据可视化进行存储、显示和打印的至少一种,其中这些数据或数据可视化反映或包括了i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项;f)还分析所述至少一种样本或所述成分或生成物中的至少一种,其所基于的是i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项,或者基于如步骤e)所述的存储、显示或打印的数据或可视化。
根据所述第二方面,本发明提议根据多个所述量化测量值的至少一个共同特征来对所述的测量数据实施分组,其中所述多个所述量化测量值的每一个都属于所述数据元组的相应一个。根据这种方法可以非常有效地实施分组。对于所述的LC-MS分析,该方法可以有利地用于确定所述时间或扫描数据数据部分的相关间隔,也即沿可以关于所述测量数据而定义的相应坐标系统的时间或扫描数目轴来找到相关间隔。
应当指出的是,步骤a)可以同时或连续地被实施多次。步骤b)可以包括类似于如步骤a)所述分离的一种分离,或者可以至少适合于实施这样的一种分离。质谱学是适合于实施一种分离的例子。但是,如果不同的物质已经被分离,那么关于所述的物质实施质谱学就不一定造成额外的分离,而是有可能通过使用至少一个色谱列等只会把对于反映在步骤a)中实施的分离的某一检测时间或扫描数目的所述物质绘制在所述的m/z轴上。
在步骤b)也可以同时或连续地被实施多次。而且,根据测量状况和所使用的技术,也有可能同时或者与步骤a)重叠地实施步骤b)。例如电泳、尤其是毛细管电泳(CE)通过诱导荧光来使用电泳带的在线探测。在这样一种测量状况下所述的电泳对物质进行分离。根据这种分离按照步骤b)可以获得代表所述分离的测量数据。
另一种可能是,步骤a)中也包括了使用探测硬件来提供测量数据。这里再次涉及到采用电泳带在线探测的电泳的例子,其中所述的电泳可以通过合适的方法来探测。除了通过探测所述的荧光带所获得的表征之外,基于所实现的分离还可以根据步骤b)来实现一种另外的表征。
关于步骤c)应当注意的是,有很多可能的方法来组织所述的数据。对于所使用的数据结构没有什么限制。关于一个相应的数据元组的表征测量值相互之间的以及与相应表征测量量之间的关联足够可以鉴别该相应测量数据元组的表征测量值,如此使得这些表征测量值可以被访问以进行分组。因此,所述术语“数据元组”和所述表征测量值相互之间的关联必须就其功能来进行理解,并且将包含实现或反映或允许这种关联和访问可能的任意可能的数据组织。
也可以同时、或者可能以某些方式交错地实施步骤c)和d)。所述同样的应用于步骤d)和e)。而且,也可以同时、或者可能以某些方式交错地一方面实施步骤d)或/和步骤e),而另一方面实施步骤f)。
应当注意的是,通常确定真的与所述成分或生成物中的特定一种相关联的所述间隔。按照本发明,所述分组的工作前提是,所述的分组有效地确定间隔,其中这些间隔每一个都与所述成分或生成物中的特定一种相关联。但是,如果存在假象或者如果没有使用最佳分析和探测技术,那么就并不总是能够排除错误的确定。如果考虑到错误的可能性,那么根据本发明所述的分组在任何情况下都能确定与所述成分或生成物中的特定一种潜在地相关联的间隔。这些间隔是否真的与所述成分或生成物中的特定一种相关联可能在一个附加的验证步骤中被确定,这可能考虑了对被分析的所述样本或者样本组的现有了解以及在一个参照数据库中所包含的参照数据。
关于步骤e)应当补充的是,优选地只有反映或者包括从所述分组中获得的数据元组的组的、或/和从所述分组所获得的相应表征测量值间隔的数据或数据可视化被存储或/和被显示或/和被打印,而其他没有位于所述组或间隔中的数据被丢弃。这导致较大的数据缩减。如果存储的不是一个相应组的或者处于一个相应间隔中的数据元组,而是存储描述所述组或所述间隔的数据,在LC-MS数据的情况中,存储的比如是平均的m/z值、平均的t值或者N值和可能一个相加强度值(比如所有单体强度的总和、由所述数据元组所确定的曲线下的面积积分、平均强度值等),那么在某种数据压缩的意义上,可以实现附加的数据缩减。另外,对所述的平均m/z值和t值或N值而言,附加地或可替换地可能以存储所述的m/z间隔和t间隔或N间隔,其方式可能是通过存储所述相应间隔的边缘或者存储一个中心值和所述相应间隔的宽度。但是,应当强调的是,这样一种数据缩减以及甚至数据压缩并不总是必须的,尤其是如果具有大的数据存储空间并且如果具有高速处理器的情况下。在这样的状况下,如此的数据分组可能非常有利于数据分析。例如,属于同一组的数据元组可能在数据可视化中通过给不同的组赋予不同的颜色来进行鉴别,比如用假彩色或阴影颜色来区分,如此使得所述相应样本或多个样本定性的分析便于科学家或操作者在显示装置或打印输出装置上观察所述可视化。
至少根据步骤d)的所述分组以及通常步骤e)的存储、显示、打印以及进一步分析以及通常根据步骤c)的数据元组的提供一般自动地由诸如数据处理单元或数据处理系统的一个合适的数据处理装置、也许由通用计算机或者测量和分析系统的控制单元自动地实施。尽管有可能由科学家或操作者输入触发特定动作的或者作为特定处理步骤基础的特定的数据,但是这种分组一般将在没有人为干涉的情况下根据由实施所述技术而获得的测量原始数据来实施,也可能在本发明所包含的一种程序指令的控制下实施。
所述的分组可以优选地根据至少一个共同特征被有利地实施,其中所述的共同特征包括从所述多个所述量化测量值中确定的一个整体量化计量值(提议21)。比如,作为整体量化计量值,一个平均量化测量值可以用于所述多个量化测量值,或者用于所述多个量化测量值的总和或乘积等。在术语“overall quantitative measure value(整体量化计量值)”中的组成术语“measure(计量)”表示,所述的整体量化计量值可以用作表明所述量化测量值所共同考虑的一个整体特征的一个计量。因此,不能排除如果所述量化测量值或一些量化测量值的平均值增加那么所述整体量化计量值则减小,反之亦然。比如,在一方面所述整体量化计量值和另一方面所述量化测量值之间可能存在一个倒数关系。
可选地或附加地,所述的分组可以根据至少一个共同特征被有利地实施,其中所述的共同特征包含有由那些数据元组直接或间接确定的至少一条曲线或直方图的一个形状,其中所述的那些数据元组中的每一个都包括了所述多个量化测量值中的至少相应一个(提议22)。
所述至少一条曲线或直方图的形状可以由那些数据元组的值子元组、可能值对来确定,其中所述的值子元组、可能值对中的每一个都包括了至少所述的所述多个量化测量值中的至少相应一个和至少一个相应的所述表征测量值,其中所述的至少一个相应的表征测量值在所述至少一个表征测量量方面代表了至少一个所述的表征,其中所述的至少一个表征测量量与所述的或至少一个相应的量化测量量相关联(提议23)。
对于步骤c),建议所述的数据元组可以在步骤c)中生成,并包括绘制在所述数据元组的至少一个第一维上的、所述至少一个相应的第一表征测量值(Ni;ti),还包括绘制在所述数据元组的至少一个另一维上的、所述至少一个相应的另外表征测量值(m/zi),以及还包括绘制在所述数据元组的至少一个其他维上的、所述至少一个相应的量化测量值(Ii)(提议24)。
对于步骤d),建议在步骤d)中所述数据元组针对至少两个不同的表征测量量的表征测量值而在表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中被分组,其中如此实施所述的分组使得包含了每个所述至少两个不同表征测量量的一个表征测量值间隔的间隔集([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])被确定与所述成分或生成物中的特定一种潜在地相关联,其中所述分组根据关于至少一个所述表征测量量的表征测量值的表征测量值间隔([NION-ΔNdev,NION+ΔNdev];[tION-Δtdev,tION+Δtdev])的(提议25)所述多个量化测量值(Ii)的所述共同特征来实施。参照提议24,与至少两个不同的表征测量量相关联的所述的表征测量值将被绘制在所述数据元组的不同维上。
优选地,所述分组可以根据关于所述第一表征测量量的、或者至少一个第一表征测量量的第一表征测量值的表征测量值间隔([NION-ΔNdev,NION+ΔNdev];[tION-Δtdev,tION+Δtdev])的所述多个量化测量值(Ii)的共同特征来实施,其中这里所述的第一表征测量值的表征测量值间隔([NION-ΔNdev,NION+ΔNdev];[tION-Δtdev,tION+Δtdev])也被表示为第一表征测量值间隔(提议26)。
通常,在步骤e)中被存储、打印或显示的所述数据会包括有量化信息,其中该量化信息在所述量化测量量或至少一个量化测量量方面代表所述的量化或至少一个量化(提议27)。
另外还建议,根据在所述相应组的数据元组中所包含的量化测量值,为从所述分组中获得的每个数据的组导出至少一个相应的累积量化值,用于在所述量化测量量方面或者至少一个量化测量量方面代表所述的量化或者至少一个量化(提议28)。在步骤e)中优选地存储所述相应的累积量化值,而不是所述累积量化值所基于的所述量化测量值(提议29)。可以获得实际数据压缩。这里涉及关于提议20的步骤e)的上述注释。
关于本发明的第一方面,还建议步骤d)中的所述分组还根据偏差(Δm/zi)的至少一种统计分布来进行实施,其中所述的偏差指的是相应的表征测量值(m/zi)与真正的或表征的或平均的、与所述特定成分或生成物相关联的表征测量值(m/zION)之间的偏差(提议30)。
在步骤e)中的所述分组可以有利地根据测量偏差的至少一种统计分布来进行实施,其中所述的测量偏差的统计分布表示相应的表征测量值与真正的或表征的或平均的、与所述特定成分或生成物相关联的表征测量值(m/zION)之间的偏差(Δm/zi)的统计分布(提议31)。
所述分组所涉及的所述间隔可以对应于根据所述偏差(Δm/zi)统计分布包括了所有相应表征测量值的物质数量的间隔,其中所述的表征测量值来自于所述的特定成分或生成物(提议32)。
如果所述的间隔是预测间隔,其中该预测间隔通过所述偏差(Δm/zi)统计分布来预测以包括了所有相应表征测量值的物质数量,其中所述的表征测量值来自于所述的特定成分或生成物,那么就可以实现非常有效的分组(提议33)。
尤其,所述的间隔可以是预测间隔或者置信间隔,其中该预测间隔或置信间隔通过所述偏差(Δm/zi)统计分布根据初始化数据以及根据已经被分组的数据元组(在步骤d)的分组过程中)来预测以包括了所有相应表征测量值的物质数量,其中所述的表征测量值来自于所述的特定成分或生成物并且属于没有被分组的数据元组(提议34)。
参照提议32至34的至少之一,还建议在步骤d)中所述数据元组针对至少两个不同的表征测量量的表征测量值被分组到表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中,其中如此实施所述的分组使得包含了每个所述至少两个不同表征测量量的一个表征测量值间隔的间隔组([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])被确定与所述成分或生成物中的特定一种潜在地相关联,其中所述分组的实施是根据关于至少一个所述表征测量量的表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev])的所述偏差(Δm/zi)的至少一个统计分布(提议35)。参照提议24,与至少两个不同的表征测量量相关联的所述的表征测量值将被绘制在所述数据元组的不同维上。
优选地,所述分组的实施是根据关于所述另一表征测量量或者至少另一表征测量量的另外的表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev])的所述偏差(Δm/zi)的至少一个统计分布,其中这里所述的另外的表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev])也被表示为另外的表征测量值间隔(提议36)。
关于根据本发明所述第一方面的所述提议1至19以及根据本发明所述第二方面的提议20至36,应当注意的是,根据所述第一方面和根据所述第二方面的方法正如根据提议11至16和提议30至36所明确建议的一样而共同实现。但是,还根据所述方法(根据本发明第一方面的方法或者根据本发明第二方面的方法)的仅仅之一就可以实现比先前种类的解决方案更大的改进。
参照所述提议中的任意一个还提议,所述的数据元组根据一个预定的访问时间表在所述分组过程中被访问(提议37)。尤其,所述数据元组或者一个数据元组的至少一个子集的数据元组可以按照一个顺序被访问,其中所述的顺序是由所述表征测量量中的至少之一的表征测量值来决定,优选地由所述第一表征测量量来决定(提议38)。有利地,所述数据元组或者所述数据元组的所述至少一个子组的所述数据元组可以按照表征测量值增加或减少的顺序被访问(提议39)。
参照本发明的所述第二方面(比较提议11和20),以及参照在本方面附加的提议(比较提议12至16和提议21至29),在下文中还提及了其他的提议,其中这些提议提供了另外的优点。
至少参照提议14至23还建议,所述直方图或曲线直接或间接地由所述多个量化测量值以及至少一个相应的表征测量值来确定,其中所述的至少一个相应的表征测量值与所述多个的量化测量值的每一个相关联,而所述的量化测量值的每一个都被解释为关于至少一个量化测量量,诸如强度、产出、总数、次数、概率等而计量的以及关于相应的至少一个表征测量值而计量的强度值、产出值、总数值、次数值、概率值或者其他量化值,(提议40)。附加地或可选地还建议,所述分组所基于的所述曲线或者至少一条曲线由那些数据元组或者由所述值子元组、或者值对直接地确定为一条离散的曲线,其中所述的离散的曲线在下述两方面的至少之一是离散的i)所述至少一个表征测量量,其中所述表征测量量的所述的表征测量值被包括在所述数据元组或者值子元组、或者值对之中ii)所述至少一个量化测量量,其中所述量化测量量的所述的量化测量值被包括在所述数据元组或者值子元组、或者值对之中(提议41)。另外附加地或可选地还建议,所述分组所基于的所述曲线或者至少一条曲线由那些数据元组或者由所述值子元组、或者值对直接或间接地确定为一条连续的曲线,其中所述的连续的曲线在下述两方面的至少之一是连续的i)所述至少一个表征测量量,其中所述表征测量量的所述的表征测量值被包括在所述数据元组或者值子元组、或者值对之中ii)所述至少一个量化测量量,其中所述量化测量量的所述的量化测量值被包括在所述数据元组或者值子元组、或者值对之中(提议42)。
根据所述至少一个共同特征可以实现非常有效的分组,其前提是如果所述的分组涉及到实施至少一个峰度检查以确定对于那些其中每一个均包括所述多个所述量化测量值至少相应之一的数据元组、或者对于所述的值子元组、或者值对、或者对于所述的曲线或直方图是否满足至少一个峰度条件(提议43)。可选地或附加地还建议,所述的分组涉及到实施至少一个单峰性检查以确定对于那些其中每一个均包括所述多个所述量化测量值至少相应之一的数据元组、或者对于所述的值子元组、或者值对、或者对于所述的曲线或直方图是否满足至少一个单峰性条件(提议44)。如果只有一个单独的最大值,那么一个直方图或者曲线以及具有所述多个量化测量值的相应的所述数据元组就是单峰的。所述的单峰性检查非常有效地区别真正来自于所述成分或生成物中的特定一种的峰值与由应用技术等的赝象所引起的峰值。
原则上,具有不同的可能来执行这种单峰性检查。根据一个优选的实施方案所述的单峰性检查涉及到一方的那些数据元组或者所述值子元组、或者值对、或者所述曲线或直方图与另一方的一个参照函数之间的比较,其中所述的参照函数根据那些数据元组或者所述值子元组、或者值对、或者所述曲线或直方图而被确定,其中为与所述多个所述量化测量值相关联的、一定数目的或多个表征测量值的全部而计算在一方的那些数据元组或者所述值子元组、或者值对、或者所述曲线或直方图与另一方的所述参照函数之间的点方式的差,其中所述的参照函数如此根据那些数据元组或者所述值子元组、或者值对、或者所述曲线或直方图而被确定,使得所述被计算的点方式的差中的一个最大点方式的差或者所述被计算的点方式的差中的一个点方式的差的总和是用于满足或不满足所述单峰性条件的计量(提议45)。所述的参照函数按下述来计算可以从那些数据元组或者从所述值子元组集、可能值对、或者从所述曲线或直方图中通过积分或求和来获得一个第一中间函数,通过找到一个与所述第一中间函数最接近的单峰函数的第二中间函数,并且对所述第二中间函数微分或者通过计算与所述第二中间函数的差以获得所述的参照函数(提议46)。
参照提议45或46还建议,在所述分组中至少一个偏差计量值被计算,其中所述的偏差计量值反映了所述多个所述量化测量值或者所述曲线或直方图的相应值与所述参照函数相应之间的偏差(提议47)。
通常可以如此来进行所述的单峰性检查如果所述的偏差计量值达不到一个阈值偏差计量值,那么就确定满足所述的单峰性条件,如果所述的整体偏差计量值超出所述的阈值偏差计量值,那么就确定不满足所述的单峰性条件,或者,如果所述的整体偏差计量值达不到一个阈值偏差计量值,那么就确定不满足所述的单峰性条件,如果所述的整体偏差计量值超出所述的阈值偏差计量值,那么就确定满足所述的单峰性条件(提议48)。应当补充的是,在所述术语“deviationmeasure value(偏差计量值)”中的子术语“measure(计量)”用于表示以某种方式反映所述量化测量值与所述参照函数之间偏差的任何值原则上都可以用作偏差计量值。因而,所述的偏差计量值可以随一个整体偏差(比如某些点方式的差)而增加,或者如果存在倒数关系,那么可能随偏差增加而减小。但是,所述的最大点方式的差或者所述的点方式的差的总和优选地作为所述偏差计量值来进行计算(提议49)。另外,除了所述的峰度检查或/和单峰性检查之外还可以优选地应用另外的检查,以避免错误地确定与所述成分或生成物中的特定一种相关联的数据点或间隔。比如,所述的分组可以涉及实施至少一种中心矩检查,以确定对于那些其中每一个均包含所述多个所述量化测量值中的至少相应一个的数据元组,或者对于所述的值子元组、或者值对,或者对于所述曲线或直方图是否满足至少一个第r阶中心矩条件(提议50)。尤其建议,所述的分组涉及实施至少一种组合中心矩检查,以确定对于那些其中每一个均包含所述多所述量化测量值中的至少相应一个的数据元组,或者对于所述的值子元组、或者值对,或者对于所述曲线或直方图是否满足基于多个不同分组中心矩之间的一种关系的至少一个条件(提议51)。
根据一个优选的实施方案,所述的集合过程涉及实施至少一种峰态检查,以确定对于那些其中每一个均包含所述多个所述量化测量值中的至少相应一个的数据元组,或者对于所述的值子元组、或者值对,或者对于所述曲线或直方图是否满足至少一个峰态条件(提议52)。基于为所述测量值而确定的所谓峰态的一种分组非常有效地区别真正来自所述成分或生成物中特定一种的所述数据中的峰值与可能由所应用技术的赝象而引起的其他峰值。
这里对于峰态的参照应当包括所述测量值的这样一种表征,其中该表征反映或对应于峰态在统计学中的定义,也即一个分布的四阶中心矩除以该分布的二阶中心矩的平方。
但是,原则上有多种方式来进行所述的峰态检查。对此优选的是如果一个峰态计量值达不到一个阈值计量值,那么就确定满足所述的峰态条件,如果所述的峰态计量值超出所述的阈值峰态计量值,那么就确定不满足所述的峰态条件,或者,如果一个峰态计量值达不到一个阈值峰态计量值,那么就确定不满足所述的峰态条件,如果所述的峰态计量值超出所述的阈值峰态计量值,那么就确定满足所述的峰态条件(提议53)。
通常,基于所述至少一个共同特征的所述分组可以涉及根据那些数据元组或者根据所述值子元组、或者值对,或者根据所述曲线或直方图来计算阶中心矩和四阶中心矩中的至少之一(提议54)。优选地,所述的分组涉及根据那些数据元组或者根据所述值子元组、或者值对,或者根据所述曲线或直方图来计算所述二阶的中心矩和所述四阶的中心矩,并涉及确定所述四阶中心矩与所述二阶中心矩的平方之间的比率(提议55)。关于所述的峰态检查和所述的峰态条件建议,所述四阶中心矩与所述二阶中心矩的平方之间的所述比率被用作所述的峰态计量值(提议56)。
通常所述的分组,尤其是根据本发明的第二方面的所述分组也可能涉及一方面所述多个的并且关联与表征测量值的所述量化测量值、或者那些(其中每一个均包括所述多个所述量化测量值中的至少相应一个的)数据元组的所述量化测量值、或者所述值子元组或值对的所述量化测量值、或者所述曲线或直方图的所述量化测量值与另一方面在至少一个真正的、表征的或平均的表征测量值(NION;tION)周围的表征测量值的期望量化测量值这上述两方面之间直接或间接的比较(提议57)。
如果所述的分组涉及实施至少一种集中趋势检查,以确定对于那些其中每一个均包含所述多个所述量化测量值中的至少相应一个的数据元组,或者对于所述的值子元组、或者值对,或者对于所述曲线或直方图是否满足至少一个集中趋势条件,那么这可能是合适的(提议58)。所述术语“central tendency(集中趋势)”指的是所述分布的所谓“location(定位)”。所述定位的计量量可以比如是一些“平均值”(比如算术平均值、几何平均值、调和平均值或广义平均值)或者相应测量值的简单的求和。
根据一个优选的实施方案,所述的分组涉及实施至少一种量化检查或者强度检查,以确定对于那些其中每一个均包含所述多个所述量化测量值中的至少相应一个的数据元组,或者对于所述的值子元组、或者值对,或者对于所述曲线或直方图是否满足至少一个量化条件或强度条件(提议59)。
参照提议58和59至少之一建议,在所述分组中所述多个所述量化测量值被组合成所述的或一个整体量化计量值、或者整体强度计量值(提议60)。把所述的量化测量值组合成所述的整体量化计量值、或者整体强度计量值可以有利地共同确定至少一个背景或基线值,其中所述的整体量化计量值对应于差值的一个组合,其中所述差值指的是所述多个中的所述量化测量值与所述背景或基线值或一个相应背景或基线值之差(提议61)。优选地,所述多个中的所述量化测量值或所述差值附加地被组合成所述的整体量化计量值、或者整体强度计量值(提议62)。
原则上有很多可能性来执行所述的集中趋势条件和所述的量化条件。在这方面提议如果所述的整体量化计量值或整体强度计量值超出一个阈值量化计量值或阈值强度计量值,那么就确定满足所述的集中条件或所述的量化条件或强度条件,如果所述的整体量化计量值或整体强度计量值达不到所述的阈值量化计量值或阈值强度计量值,那么就确定不满足所述条件,或者,如果所述的整体量化计量值或整体强度计量值超出一个阈值量化计量值或阈值强度计量值,那么就确定不满足所述的集中趋势条件或所述的量化条件或强度条件,如果所述的整体量化计量值或整体强度计量值达不到所述的阈值量化计量值或阈值强度计量值,那么就确定满足所述条件(提议63)。再一次,所述的子术语“measure(计量)”用于考虑这种可能性,即如何来定义“measure value(计量值)”原则上是没有限制的,如此使得“measurevalue(计量值)”的增加或降低都表示能较好地满足相应的条件。
根据本发明的第二方面(比较提议11和提议20),所述的分组可能有利地包含以下的步骤(提议64)d3)根据所述的或者一个预定的访问时间表来访问所述数据元组的或者所述的或者所述数据元组的一个子组的至少一个数据元组;d5)把至少一个被访问的数据元组认为是与所述成分或生成物中的特定一种相关联的相应一个数据元组的组的第一或者另一候选成员,其前提是如果期望的所述识别取决于满足至少一个识别条件;d6)如果满足一个终止标准或者多个终止标准中的至少一个,那么i)终止所述的分组;其中重复步骤d3)至d5)直到达到步骤d6)。
根据步骤d3)、d5)和d6)所述的分组可能还包括根据本发明的第一方面所述的分组。
一个终止标准可以基于所述的识别条件。比如如果所述被访问的数据元组或者连续或同时被访问的一个预定数目的数据元组不满足所述的识别条件,那么根据一个终止标准,就终止所述的分组(提议64a)。另外,根据所述测量数据的组织,可能有一个终止标准,其中该标准是基于在访问步骤d3)中是否有至少一个相应的数据元组出现。如果在一个访问步骤d3)中或者在一个预定数目的访问步骤d3)中没有发现包含表示所述探测硬件的一种检测的相关测量数据的数据元组,根据这样的一个终止标准来终止所述的分组(提议64b)。
应当补充的是,与所述成分或生成物中相应特定一种相关联的(或潜在关联的)多个组或数据元组可以同时地被考虑。根据步骤d3)所述的访问可以导致一个相应被访问的数据元组被加入到已建立的所述数据元组的组中,或者加入到已建立的所述数据元组的组之一中,或者根据该数据元组建立数据元组的第一组或另外一组。
优选地(提议65),步骤d5)还包括以下的子步骤iii)给数据元组的相应组的多个候选成员应用至少一个确认条件,其中所述的数据元组与所述成分或生成物的特定一种相关联,如果对于所述候选成员共同满足所述的至少一个确认条件,那么所述多个候选成员就被确认为所述组的成员;或者子步骤iii’)给数据元组的相应组的多个候选和确认成员应用至少一个确认条件,其中所述的数据元组与所述成分或生成物的特定一种相关联,如果对于所述候选和确认成员共同满足所述至少一个确认条件,那么一个相应的候选成员就是所述组的一个确认成员。
另外建议,如果对于所述多个候选成员没有共同满足所述至少一个确认条件,那么就从所述组中删除加入到所述组中的至少所述第一候选成员,或者其中删除所述的组(提议66)。如果对于所述多个确认及候选成员没有共同满足所述至少一个确认条件,那么就优选地从所述组中删除至少一个候选成员(提议67)。
参照步骤d6)建议,一个终止标准包括所述至少一个确认条件,如果对于所述多个候选成员或者对于多个确认成员连同至少一个附加的候选成员没有共同满足所述的确认条件,那么就确认满足所述的终止标准(提议68)。
所述的确认条件以及从而所述的分组可以有利地基于多个量化测量值的至少一个共同特征,其中所述多个量化测量值中的每一个均属于所述候选成员或确认成员中的相应一个(提议69)。该提议可以被认为是根据提议11和提议20(比较步骤d))的共同手段的一个特殊实施方案,也即根据本发明的第二方面的解决方法的一个特殊实施方案。所述的确认条件尤其可以基于一个共同特征,其中该特征包括从所述多个量化测量值中确定的一个整体量化计量值,而所述的多个量化测量值属于所述候选或确认成员(提议70;比较提议12和提议21)。另外,所述的确认条件还可以基于包含至少一条曲线或直方图的形状的至少一个共同特征,其中该形状由所述候选或确认成员直接或间接地确定(提议71;比较提议13和提议22)。对于根据本发明第二方面所述的手段,或者对于所述的确认条件也可以对所述候选或确认成员应用其他的提议。从而,可以根据提议12至16中的至少一个的、或者提议21至26中的至少一个的、或者比如提议40至63中至少之一的其他提议中的任意一个的属性和方法步骤来对是否满足所述的确认条件进行判定(提议72)。
所述方法的其他实施方案也是有利的。关于步骤d6)建议,该步骤还包括以下的子步骤(提议73)ii)如果已经发现一个候选成员或确认成员或者候选和确认成员的组,那么就关闭所述的组以防止再加入候选成员。
根据一个优选的实施方案,所述的方法步骤d3)至d6)被重复几次,直到所有的数据元组或者数据元组的所述子集的所有数据元组已经被访问(提议74)。另外还建议,提供几个子集,并且对所述数据元组的所述几个子集的每一个都重复步骤d3)至d6)至少一次,通常是几次,直到所述数据元组的相应子集的全部数据元组被访问完(提议75) 。
所述的识别条件以及从而所述的分组可以有利地基于关于所述相应表征测量值的偏差的至少一个统计分布(提议76)。所述的识别条件尤其可以涉及根据本发明第一方面所述的集合过程(比较提议1、步骤d)和提议30)。如果被访问的相应数据元组的至少一个表征测量值落于一个预定表征测量值间隔中或者落于一个当前表征测量值间隔中,其中所述的当前表征测量值间隔是基于所述偏差的至少一个统计分布而得出的,那么尤其关于本发明的所述第一方面、但是通常也可以确定满足所述的识别条件(提议77)。应当补充的是,在本文中,在传统的“固定收集槽”间隔的意义上可以使用预定的表征测量值间隔。但是,在所述分组过程期间确定的间隔关于它们的间隔边界以及他们与所述成分或生成物的特定一种之间的关联而优选地被使用,所述间隔从根据本发明第一方面的所述分组中必然发生。
关于本发明的第一方面(比较提议1和30)以及也关于在这一方面的附加的提议(比较提议2至20和31至36),在下文中还提及了另外的提议,这些提议能提供另外的优点。
尤其参照提议1至5或30至34中的至少一个而建议,根据偏差(Δm/zi)的至少一个统计分布,尤其根据测量偏差的至少一个统计分布(比较提议2和31),所述的分组涉及判定一个相应数据元组的至少一个表征测量值(Δm/zi)是否落于一个当前表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev])中,其中所述的当前表征测量值间隔由所述的偏差的统计分布而得出(提议78)。优选地,所述的偏差统计分布(±Δm/zi)根据所述判定的至少之一来进行更新,其中所述的判定指的是所述相应的至少一个表征测量值(Δm/zi)落于所述当前表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev])中以及所述相应的至少一个表征测量值没有落于所述当前表征测量值间隔中,并且其中从所述被更新的偏差统计分布中得到一个更新的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev])以在所述分组中被用作当前表征测量值间隔(提议79)。优选地,在本文中使用了贝叶斯更新或学习方案。对于所述的直观的、没有限制的例子LC-MS分析、比如NC-ESI-MS分析,在沿所述的质量-电荷比轴来确定相应的间隔方面可以有利地实施这种更新或学习。
参照提议5或提议34或任意一个基于这些提议之一的其他提议,所述的分组可以涉及以下的步骤(提议80)d1)把基于初始化数据的测量偏差的前验分布假定作为测量偏差的当前分布;d2)根据所述测量偏差的当前分布(Δm/zi)来获得(比如计算或确定)至少一个当前预测间隔、或者当前置信间隔;d3)根据所述的或者一个预定的访问时间表来访问所述数据元组的或者所述的或者所述数据元组一个子集的至少一个数据元组、或者所述第一数据元组或下一数据元组;d4)确定所访问的所述相应数据元组的至少一个表征测量值(m/zi)是否落于所述当前预测间隔中;d5)如果所述的表征测量值落于所述的当前预测间隔中i)把其中包括所述表征测量值的所述数据元组认为是与所述成分或生成物中的特定一种相关联的数据元组的一个相应组的第一或者另一候选成员;ii)至少根据所述的测量偏差的当前分布,优选地也根据所述表征测量值在所述当前预测间隔中的位置,计算出一个测量偏差的后验分布来作为更新的测量偏差的当前分布,其中所述的测量偏差的后验分布对于还没有被访问的数据元组来说是前一个测量偏差的前验分布;d6)如果满足一个终止标准或者多个终止标准中的至少一个,那么i)终止基于所述测量偏差的当前分布的所述分组;其中重复步骤d2)至d5)直到达到步骤d6)。
根据步骤d1)至d6)所述的分组可能还包括根据本发明的第二方面的一个分组。
对于步骤d6)建议,如果所述的表征测量值或者在连续或同时被访问的数据元组中所包含的一个预定数目的表征测量值没有落于所述的当前预测间隔中,那么根据一个终止标准,就终止所述的分组(提议81)。另外,根据所述测量数据的组织,可能有一个终止标准,其中该标准是基于在访问步骤d3)中是否有至少一个相应的数据元组被访问。如果在一个访问步骤d3)中或者在一个预定数目的访问步骤d3)中没有发现包含表示所述探测硬件探测的相关测量数据的数据元组,根据这样的一个终止标准来终止所述的分组(提议81a)。
应当补充的是,与所述成分或生成物中相应特定一种相关联的(或潜在关联的)多个组或数据元组可以同时地被考虑。根据步骤d3)所述的访问可以导致一个相应被访问的数据元组被加入到已建立的数据元组所述组中,或者加入到已建立的数据元组所述组之一中,或者根据该数据元组建立数据元组的第一或另一组。
有利地,步骤d5)还包括以下的子步骤(提议82)iii)给数据元组的所述相应组的多个候选成员应用至少一个确认条件,其中所述数据元组与所述成分或生成物的特定一种相关联,如果对于所述候选成员共同满足所述的至少一个确认条件,那么所述多个候选成员就是所述组的确认成员;或者子步骤iii’)给数据元组的所述相应组的多个候选和确认成员应用至少一个确认条件,其中所述数据元组与所述成分或生成物的特定一种相关联,如果对于所述候选和确认成员共同满足所述的至少一个确认条件,那么一个相应的候选成员就是所述组的一个确认成员。
所述的确认条件可以基于所述候选成员的或者共同和候选成员的共同特征。
在确认成员与候选成员之间的所提出的差别可以实现非常有效的分组,其原因在于,根据某些测试条件已经被确定与所述成分或生成物的特定一种相关联、并从而被认为是确认成员的数据点可以被保留,而其他数据点可以连同所述确认成员一起进行所述条件的测试,以确定这些其他数据点是否也与所述同一成分或生成物相关联。
关于应当被得到的结果,如果对于所述多个候选成员或者所述多个候选和确认成员,没有共同满足所述至少一个确认条件或所述多个确认条件的至少之一,那么就可以采用不同的解决方法。按照一种手段,如果对于所述多个候选成员没有共同满足所述至少一个确认条件或者没有共同满足所述多个确认条件中的至少特定一个确认条件,那么就从所述组中删除被加入到所述组的至少第一候选成员,或者其中删除所述的组(提议83)。另外还建议,如果对于所述多个确认和候选成员没有共同满足所述至少一个确认条件或者没有共同满足所述多个确认条件中的至少一个特定确认条件,那么就从所述组中删除至少一个候选成员(提议84)。
根据一个优选的实施方案,一个终止标准包括所述至少一个确认条件或者多个确认条件中的至少之一,如果对于所述多个候选成员或者对于多个确认成员连同至少另外一个候选成员没有共同满足所述的确认条件,那么就确定满足所述的终止条件(提议85)。
如果所述的确认条件以及从而所述的分组是基于多个量化测量值(Ii)的至少一个共同特征,其中所述多个量化测量值的每一个均属于所述候选成员或确认成员中的相应之一,那么就可以实现非常有效的分组(提议86)。所述的确认条件尤其可以涉及根据本发明的第二方面所述的分组(比较提议11和提议20、步骤d))。把所述分组所基于的所述共同特征与所述候选成员或者所述候选和确认成员联系起来是根据本发明的第二方面所述的分组的一个优选实施方案。从而,所述的确认条件可以基于至少一个共同特征,其中该特征包括从所述多个所述量化测量值中确定的一个整体量化计量值,而所述的多个所述量化测量值属于所述候选成员或确认成员(提议87)。另外,所述的确认条件还可以基于包含至少一条曲线或直方图的一个形状的至少一个共同特征,其中该形状由所述候选或确认成员直接或间接地确定(提议88)。在本文中也可以应用关于本发明的第二方面的其他提议。从而,可以根据提议12至16中的至少一个的、或者提议21至26中的至少一个的、或者比如提议40至77中至少之一的其他提议中的任意一个的属性和方法步骤来对是否满足所述的确认条件进行判定(提议89)。
再次关于根据所述测量偏差的当前分布的所述分组还建议,步骤d6)还包括以下的子步骤ii)如果已经发现一个候选或确认成员或者候选和确认成员的一个组,那么就关闭所述的组以防止再加入候选成员。
提议把所述的步骤d1)至d6)重复几次,直到所有的数据元组或者数据元组的所述子集的所有数据元组已经被访问(提议91)。另外还提建,对所述数据元组的所述几个子集的每一个都重复步骤d1)至d6)至少一次,通常是几次,直到所述数据元组的相应子集的全部数据元组被访问(提议92)。
提议对于数据元组的至少一个参照子集,在步骤d1)中基于预定的或假定的初始化数据对所述测量偏差的先验分布进行初始化,所述初始化数据优选地包括理论初始化数据、基于采用至少一个外部标准进行测量而获得或提供的初始化数据、根据以前的实际经验而假定的初始化数据这三种数据至少之一,其中数据元组的所述参照子集包括了被确定由被加入到所述样本中用于参照目的的或者作为内部标准的一种参照成分潜在形成的、或者由与这样一种参照成分有关的一种生成物而潜在形成的数据元组(提议93)。另外还建议,对于数据元组的至少一个表征子集,在步骤d1)中基于预定的或假定的初始化数据对所述测量偏差的前验分布进行初始化所,所述初始化数据优选地包括理论初始化数据、基于采用至少一个外部标准样品进行测量而获得或提供的初始化数据、根据以前的实际经验而假定的初始化数据和关于所述参照子集的所述数据元组而实施的所述分组中获得的初始化数据这四种数据至少之一,其中数据元组的所述表征子集包括了被确定由包括在样本中的感兴趣的成分或未知成分潜在形成的、或者由与这样一种参照成分有关的生成物潜在形成的数据元组(提议94)。
提议93和94允许在包含于所述分组中的诸如贝叶斯更新学习方案的一种更新或学习方案中,所述的更新或学习从合适的起始值开始。
很多上述提议直接或间接地与本发明的特定一个方面或两个方面有关,也即直接或间接地与根据所述第一方面的发明或者/以及根据所述第二方面的发明有关。很多额外的优点也可以从属性或方法步骤中获得,其中所述的属性或方法步骤与本发明的这些手段的执行没有关系,或者不是很直接地针对这些手段的执行。比如,可以执行给所述测量数据实现降噪的方法步骤。尤其建议,所述的方法包括给所述测量数据或所述数据元组降噪的所述步骤,其中通过消除被确定由关联于或由所述技术或所述探测硬件至少之一引起的、诸如电子噪声或化学噪声的至少一种噪声潜在地产生的数据点或数据元组来实现所述降噪(提议95)。优选地在实施所述分组之前实施所述的降噪(提议96),如此使得所述噪声对所述分组没有不利影响。
参照提议9或提议20,所述降噪可以包括确定所测量的量化测量值(Ii)的分布和去除那些其中相应至少一个量化测量值没达到量化值阈值或强度阈值的数据点或数据元组,其中所述量化值阈值或强度阈值是从所测量的量化测量值的所述分布中得到的(提议97)。如果所述的量化值阈值或者强度阈值对应于表示所述分布的量化测量值的对数或量化测量值的直方图中的一个最小值,其中所述的最小值是一方面归属于真实信号的至少一个直方图峰值以及另一方面归属于噪声的至少一个直方图峰值之间的一个最小值,那么至少对于某些测量状况就可以获得一个非常有效的噪声过滤(提议98)。
根据本发明的第一或/和第二方面所述的方法可能还包括依赖过滤所述测量数据或所述数据元组来表征所述测量值的所述步骤,其中所述的过滤是通过去除一些数据点或数据元组,其中这些数据点或数据元组是指被确定为由被加入到所述样本中用于参照目的的或者作业内部标准的一种参照成分所潜在形成的、或者由与这样一种参照成分有关的一种生成物潜在形成的数据点或数据元组,或者是指被确定对应于所述技术或所述探测硬件至少之一的系统假象的数据点或数据元组(提议99)。可以在所述分组之前或之后或期间实施依赖过滤的对测量值进行所述表征,这是合适的。在关于与一个参照成分有关的数据点实施过滤的情况下,其中这些数据点在所述分组中被用于更新或学习方案的初始化,这些数据点或数据元组当然必须被保留,直到所述初始化已经被实施。保留这样一些数据点或数据元组作为参照数据连同被存储或被显示或被打印的其他数据,并可能用于根据步骤e)和f)的其他分析,这通常会是合适的。
根据本发明的第一或第二方面或两方面所述的方法还可能还包括不依赖过滤所述测量值或所述数据元组来表征所述测量值的所述步骤,其中所述的过滤是通过去除一些数据点或数据元组,其中这些数据点或数据元组是指被确定对应于所述技术或所述探测硬件至少之一的非系统假象的数据点或数据元组(提议100)。比如,可以去除诸如尖峰的假象。这种过滤可以在所述分组中被实施。优选地,根据应用于所述数据点或数据元组的至少一个分布标准而去除所述测量数据或所述数据元组(提议101)。
通常,根据本发明的第一方面或者第二方面或者两方面所述的分组可以关于多个数据元组整体而涉及实施一个相应的分组,其中所述的整体是根据不同的样本或者通过关于所述同一样本重复地实施所述两种或更多种技术而获得的(提议102)。在这种情况中,为每个整体所实现的所述分组结果可以是感兴趣的,或者是把关于每个整体所实现的所述分组结果进行合并而实现的第二分组结果。对于所述第二可能性提议,所述分组涉及将从关于所述整体之一所实施的分组中获得的数据元组的至少一个相应组与从关于至少另一所述整体所实施的分组中获得的数据元组的至少一个相应的组进行合并,以获得一个合并的数据元组的组或者合并的数据元组的多个组作为所述分组的结果(提议103)。作为选择或附加的是,所述分组可能涉及将从关于所述整体之一的所实施的分组中获得的数据元组的至少一个相应表征测量值间隔与从关于至少另一所述整体所实施的分组中获得的至少一个相应表征测量值间隔进行合并,以获得一个合并的表征测量值间隔或者多个合并的表征测量值间隔作为所述分组的结果(提议104)。
在前文中,通常涉及比如LC-ESI-MS光谱学的LC-MS光谱学的测量状态作为唯一一个不受限的示例。原则上,对于所使用的技术(至少一个第一分析技术、比如第一分析和探测技术,以及至少一种另外的技术、比如另外的分析技术或另外的探测技术或另外的分析和探测技术)是没有限制的。
对于一个第一技术,本发明认为可以使用任何适用于对所述成分或生成物中的至少一种实施分离的技术。更概括一点,本发明建议,所述第一技术或至少一个第一技术被配置用于优选地根据化学效应、物理效应、动力学属性和平衡属性对所述成分或生成物的至少一种实施分离(提议105)。根据一个优选的实施方案,所述第一分析技术或至少一个第一分析技术包括色谱分析技术和电泳技术至少之一(提议106) 。
应当注意的是,所述第一分析技术或者至少一个第一分析技术也可能包括一种质谱技术,或者包括一种离子技术,优选的是电喷雾技术或者/以及MALDI技术(提议107)。
关于所述的另外的技术,本发明提议,所述的另外的技术或者至少一种另外的技术包括一种光谱测定技术(提议108)。比如,所述另外的技术或至少一种另外的技术可能包括一种照相光谱测定技术(提议109)。另一种可能性是,所述另外的技术或者至少一种另外的技术包括电化学和库仑测定技术中的至少一种(提议110)。
所述另外的技术或者至少一种另外的技术也可以被配置用于优选地根据化学效应、物理效应、动力学属性和平衡属性对所述成分或生成物的至少一种实施分离(提议111)。
优选地,所述另外的技术或者至少一种另外的技术包括一种质谱技术,或者包括一种离子化技术,优选的是电喷雾技术或者/以及MALDI技术(提议112)。作为选择或补充也可以使用其他的分析技术。
所述另外的技术或者至少一种另外的技术可能包括一种粒子探测技术、或者离子探测技术(提议113)。另外,所述另外的技术或者至少一种另外的技术还可能包括光子探测技术、辐射探测技术和电子探测技术中的至少一种(提议114)。
按照本发明的第一方面,本发明还提供了(提议115)用于通过实施两种或更多种技术来分析至少一个样本以提供表征数据的一种系统,其中所述的表征数据关于其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及实施根据本发明方法所述的技术至少之一所产生的生成物来表征所述的样本,其中所述的系统包含以下部分a)至少一个第一分析部分或单元被配置用于实施至少一种第一分析技术i)用于分离成分,或者ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,所述第一分析部分或单元被配置用于针对一个样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,所述第一分析部分或单元被配置用于根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)至少一个另外的部分或单元适用于实施至少一种另外的技术以根据i)通过所述的或一个第一分析部分或单元实现至少一次分离以及ii)至少一个另外的区别特征中的至少之一来表征被分离的成分或生成物,其中所述的另外技术是分析和探测技术的至少一种其中所述的另外的部分或单元至少是一种分析和探测部分或单元的至少一个。
其中所述至少另外的部分或单元至少包括或者联接有探测硬件,其中该探测硬件被配置用于提供测量数据,其中该测量数据在至少两个表征测量量(SCAN NUMBER(扫描数)、MASS-TO-CHARGE RATIO(质量-电荷比);DETECTION TIME(探测时间)、MASS-TO-CHARGE RATIO(质量-电荷比))方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量(SCAN NUMBER(扫描数);DETECTIONTIME(探测时间))反映了由所述的或一个第一分析部分或单元而实现的所述的或至少一次分离,并且所述表征测量量的至少一个另一量(MASS-TO-CHARGE RATIO(质量-电荷比))反映了i)由所述的或一个第一分析部分或单元所实现的至少另一分离以及ii)所述另外的区别特征或者至少一个另外的区别特征中的至少一种;其中所述探测硬件可以或者也可以不被配置用于提供包括量化测量数据的所述测量数据,其中该量化测量数据在关于与之相关联的至少一个表征测量量的至少一个量化测量量(ION INTENSITY,离子强度)方面代表了由所述探测硬件探测的并且由所述探测硬件提供的至少一个量化(ION INTENSITY,离子强度);其中所述的系统还包括具有至少一个处理器的至少一个控制单元,所述的控制单元包括或联接有至少一个数据存储单元,所述控制单元优选地还联接有显示单元和打印单元的至少一个,并且该控制单元被优选地配置或编程以控制所述至少一个第一分析部分或单元以及所述至少一个另外的部分或单元;其中所述控制单元被配置或编程以用于c)根据由所述探测硬件提供的所述测量数据,通过相互关联至少一个相应的第一表征测量值(Ni;ti)与至少一个相应的另外表征测量值(m/zi)来提供数据元组((Ni,m/zi);(ti,m/zi)),其中所述的第一表征测量值(Ni;ti)在所述表征测量量的所述至少一个第一量(SCAN NUMBER(扫描数);DETECTION TIME(探测时间))方面代表了所述的表征或者至少一个表征,而其中所述的表征测量值(m/zi)在所述表征测量量的所述至少一个另一量(MASS-TO-CHARGERATIO(质量-电荷比))方面代表了所述表征或至少一个表征;d)把所述的数据元组针对至少一个所述表征测量量的所述表征测量值而分组到表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中,其中所述的间隔每一个都被确定与所述成分或生成物中的特定一种潜在地相关联;其中所述的控制单元被配置或编程以用于根据所述相应表征测量值(m/zi)与关联于所述成分或生成物的特定一种的一个真正的或表征的或平均的表征测量值(m/zION)之间的偏差(Δm/zi)的至少一种统计分布来实施所述的分组;其中所述的控制单元还被配置或编程以用于提供以下之一e)数据或数据可视化的存储、显示和打印至少之一,其中这些数据或数据可视化反映或包括了i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的所述的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项;f)还分析所述至少一种样本或所述成分或生成物中的至少一种,其所基于的是i)从所述分组获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项,或者基于如步骤e)所述的存储、显示或打印的数据或可视化。
按照本发明的第二方面,本发明还提供了(提议116)用于通过实施两种或更多种技术来分析至少一个样本以提供表征数据的一种系统,其中所述的表征数据关于其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及实施根据本发明方法所述的技术至少之一所产生的生成物来表征所述的样本,其中所述的系统包含以下部分a)至少一个第一分析部分或单元被配置用于实施至少一种第一分析技术i)用于分离成分,或者ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者
iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,所述第一分析部分或单元被配置用于针对一个样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,所述第一分析部分或单元被配置用于根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)至少一个另外的部分或单元被配种用于实施至少一种另外的技术并根据i)通过所述的或一个第一分析部分或单元实现至少一次分离以及ii)至少一个另外的区别特征中的至少之一来表征被分离的成分或生成物,其中所述的另外技术是分析和探测技术的至少一咎其中所述的另外的部分或单元是分析和探测部分或单元至少一个。
其中至少所述另外的部分或单元包括或者联接有探测硬件,其中该探测硬件被配置用于提供测量数据,其中该测量数据在至少两个表征测量量(SCAN NUMBER(扫描数)、MASS-TO-CHARGE RATIO(质量-电荷比);DETECTION TIME(探测时间)、MASS-TO-CHARGE RATIO(质量-电荷比))方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量(SCAN NUMBER(扫描数);DETECTIONTIME(探测时间))反映了由所述的或一个第一分析部分或单元而实现的所述的或至少一次分离,并且所述表征测量量的至少一个另一量(MASS-TO-CHARGE RATIO(质量-电荷比))反映了i)由所述的或一个第一分析部分或单元所实现的至少另一分离以及ii)所述另外的区别特征或者至少一个另外的区别特征中的至少一种;其中所述探测硬件被配置用于提供包括数量测量数据的所述测量数据,其中该量化测量数据在关于与之相关联的至少一个表征测量量的至少一个量化测量量(ION INTENSITY,离子强度)方面代表了由所述探测硬件探测的并且由所述探测硬件提供的至少一个量化(IONINTENSITY,离子强度);其中所述的系统还包括具有至少一个处理器的至少一个控制单元,所述的控制单元包括或联接有至少一个数据存储单元,所述控制单元优选地还联接有显示单元和打印单元的至少一个,并且该控制单元被优选地配置或编程以控制所述至少一个第一分析部分或单元以及所述至少一个另外的部分或单元;
其中所述控制单元被配置或编程以用于c)根据由所述探测硬件提供的所述测量数据,通过相互关联至少一个相应的第一表征测量值(Ni;ti)、至少一个另外的表征测量值(m/zi)和至少一个相应的量化测量值(Ii)来提供数据元组((Ni,m/zi,Ii);(ti,m/zi,Ii)),其中所述的第一表征测量值(Ni;ti)在所述表征测量量的所述至少一个第一量(SCAN NUMBER(扫描数);DETECTION TIME(探测时间))方面代表了所述的表征或者至少一个表征,而其中所述的表征测量值(m/zi)在所述表征测量量的所述至少一个另一量(MASS-TO-CHARGE RATIO(质量-电荷比))方面代表了所述表征或至少一个表征,而所述的量化测量值(Ii)在所述至少一个量化测量量(ION INTENSITY(离子强度))方面代表了所述的或至少一个量化(ION INTENSITY(离子强度));d)把所述的数据元组针对至少一个所述表征测量量的所述表征测量值而分组到表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中,其中所述的间隔每一个都被确定与所述成分或生成物中的特定一种潜在地相关联;其中所述的控制单元被配置或编程以用于根据多个所述数量测量值(Ii)的至少一个共同特征来实施所述的分组,其中多个所述数量测量值(Ii)每一个都属于所述数据元组相应之一;其中所述的控制单元还被配置或编程以用于提供以下之一e)数据或数据可视化的存储、显示和打印至少之一,其中这些数据或数据可视化反映或包括了i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的所述的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项;f)还分析所述至少一种样本或所述成分或生成物中的至少一种,其所基于的是i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项,或者基于如计量e)所述的存储、显示或打印的数据或可视化。
对于根据本发明所述的第一方面或第二方面或两方面的所述系统,本发明还提议,所述第一分析部分或单元、所述探测硬件、或者该系统和所述控制单元的相应其他部件根据提议1至114中之一或多个的所述的方法被配置、布置或编程来用于实施所述技术、用于提供所述数据元组、用于实施所述的分组以及用于提供所述计量e)和f)的至少之一(提议117)。
应当补充的是,根据本发明所述的系统可以是以多个结构独立的子系统的形式,或者这些子系统位于不同的位置。可以提供一个子系统、测量子系统来仅仅用于实施所述的测量,并且可以提供另一子系统、分组子系统来仅仅用于根据由所述测量子系统提供的并以某种方式传输给所述分组子系统的测量数据来实施所述的数据分组。这种数据传输可以通过一种通信链路或者通过数据载体来实现。
按照本发明的第一方面,本发明还提供了(提议118)可以由一种系统执行的一种指令程序,其中该系统用于通过实施两种或更多种技术来分析至少一个样本以提供表征数据,其中所述的表征数据关于其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及实施根据本发明方法所述的技术至少之一所产生的生成物来表征所述的样本,其中所述的系统包含以下部分a)至少一个第一分析部分或单元被配置用于实施至少一种第一分析技术i)用于分离成分,或者ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,所述第一分析部分或单元被配置用于针对一个样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,所述第一分析部分或单元被配置用于根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)至少一个另外的部分或单元被配置用于实施至少一种另外的技术以根据i)通过所述的或一个第一分析部分或单元实现至少一次分离以及ii)至少一个另外的区别特征中的至少之一来表征被分离的成分或生成物,其中所述的另外技术是分析和探测技术的至少一种,其中所述的另外的部分或单元是分析和探测部分或单元的至少一个。
其中至少所述另外的部分或单元包括或者联接有探测硬件,其中该探测硬件被配置用于提供测量数据,其中该测量数据在至少两个表征测量量(SCAN NUMBER(扫描数)、MASS-TO-CHARGE RATIO(质量-电荷比);DETECTION TIME(探测时间)、MASS-TO-CHARGE RATIO(质量-电荷比))方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量(SCAN NUMBER(扫描数);DETECTIONTIME(探测时间))反映了由所述的或一个第一分析部分或单元而实现的所述的或至少一次分离,并且所述表征测量量的至少一个另一量(MASS-TO-CHARGE RATIO(质量-电荷比))反映了i)由所述的或一个第一分析部分或单元所实现的至少另一分离以及ii)所述另外的区别特征或者至少一个另外的区别特征中的至少一种;其中所述探测硬件可以或者也可以不被配置用于提供包括量化测量数据的所述测量数据,其中该量化测量数据在关于与之相关联的至少一个表征测量量的至少一个量化测量量(ION INTENSITY,离子强度)方面并代表了由所述探测硬件探测的并且由所述探测硬件提供的至少一个量化(ION INTENSITY,离子强度);其中所述的系统还包括具有至少一个处理器的至少一个控制单元,所述的控制单元包括或联接有至少一个数据存储单元,所述控制单元优选地还联接有显示单元和打印单元的至少一个,并且该控制单元被优选地配置或编程以控制所述至少一个第一分析部分或单元以及所述至少一个另外的部分或单元;其中所述控制单元按照所述指令来实施以下步骤c)根据由所述探测硬件提供的所述测量数据,通过相互关联至少一个相应的第一表征测量值(Ni;ti)与至少一个相应的另外表征测量值(m/zi)来提供数据元组((Ni,m/zi);(ti,m/zi)),其中所述的第一表征测量值(Ni;ti)在所述表征测量量的所述至少一个第一数量(SCAN NUMBER(扫描数);DETECTION TIME(探测时间))方面代表了所述的表征或者至少一个表征,而其中所述的表征测量值(m/zi)在所述表征测量量的所述至少一个另一量(MASS-TO-CHARGERATIO(质量-电荷比))方面代表了所述表征或至少一个表征;d)把所述的数据元组针对至少一个所述表征测量量的所述表征测量值而分组到表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中,其中所述的间隔每一个都被确定与所述成分或生成物中的特定一种潜在地相关联;其中所述的控制单元按照所述指令根据所述相应表征测量值(m/zi)与关联于所述成分或生成物特定一种的一个真正的或表征的或平均的表征测量值(m/zION)之间的偏差(Δm/zi)的至少一种统计分布来实施所述的分组;其中所述的控制单元按照所述指令还实施以下步骤至少之一e)对数据或数据可视化进行存储、显示和打印至少之一,其中这些数据或数据可视化反映或包括了i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项;f)还分析所述至少一种样本或所述成分或生成物中的至少一种,其所基于的是i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项,或者基于如步骤e)所述的存储、显示或打印的数据或可视化。
按照本发明的第二方面,本发明还提供了(提议119)可由一种系统执行的一种指令程序,其中该系统用于通过实施两种或更多种技术来分析至少一个样本以提供表征数据,其中所述的表征数据关于其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及实施根据本发明方法所述的技术至少之一所产生的生成物来表征所述的样本,其中所述的系统包含以下部分a)至少一个第一分析部分或单元被配置用于实施至少一种第一分析技术i)用于分离成分,或者
ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,所述第一分析部分或单元被配置用于针对一个样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,所述第一分析部分或单元被配置用于根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)至少一个另外的部分或单元被配种用于实施至少一种另外的技术以根据i)通过所述的或一个第一分析部分或单元实现至少一次分离以及ii)至少一个另外的区别特征中的至少之一来表征被分离的成分或生成物,其中所述的另外技术是分析和探测技术的至少一种其中所述的另外的部分或单元是分析和探测部分或单元的至少一个。
其中至少所述另外的部分或单元包括或者联接有探测硬件,其中该探测硬件被配置用于提供测量数据,其中该测量数据在至少两个表征测量量(SCAN NUMBER(扫描数)、MASS-TO-CHARGE RATIO(质量-电荷比);DETECTION TIME(探测时间)、MASS-TO-CHARGE RATIO(质量-电荷比))方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量(SCAN NUMBER(扫描数);DETECTIONTIME(探测时间))反映了由所述的或一个第一分析部分或单元而实现的所述的或至少一次分离,并且所述表征测量量的至少一个另一量(MASS-TO-CHARGE RATIO(质量-电荷比))反映了i)由所述的或一个第一分析部分或单元所实现的至少另一分离以及ii)所述另外的区别特征或者至少一个另外的区别特征中的至少一种;其中所述探测硬件被配置用于提供包括数量测量数据的所述测量数据,其中该量化测量数据在关于与之相关联的至少一个表征测量量至少一个量化测量量(ION INTENSITY,离子强度)方面代表了由所述探测硬件探测的并且由所述探测硬件提供的至少一个量化(IONINTENSITY,离子强度);其中所述的系统还包括具有至少一个处理器的至少一个控制单元,所述的控制单元包括或联接有至少一个数据存储单元,所述控制单元优选地还联接有显示单元和打印单元的至少一个,并且该控制单元被优选地配置或编程以控制所述至少一个第一分析部分或单元以及所述至少一个另外的部分或单元;其中所述控制单元按照所述指令实施以下步骤c)根据由所述探测硬件提供的所述测量数据,通过相互关联至少一个相应的第一表征测量值(Ni;ti)、至少一个另外的表征测量值(m/zi)和至少一个相应的量化测量值(Ii)来提供数据元组((Ni,m/zi,Ii);(ti,m/zi,Ii)),其中所述的第一表征测量值(Ni;ti)在所述表征测量量的所述至少一个第一量(SCAN NUMBER(扫描数);DETECTION TIME(探测时间))方面代表了所述的表征或者至少一个表征,而其中所述的表征测量值(m/zi)在所述表征测量量的所述至少一个另一量(MASS-TO-CHARGE RATIO(质量-电荷比))方面代表了所述表征或至少一个表征,而所述的量化测量值(Ii)在所述至少一个量化测量量(ION INTENSITY(离子强度))方面代表了所述的或至少一个量化(ION INTENSITY(离子强度));d)把所述的数据元组针对至少一个所述表征测量量的所述表征测量值而分组到表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中,其中所述的间隔每一个都被确定与所述成分或生成物中的特定一种潜在地相关联;其中所述的控制单元按照所述指令根据多个所述数量测量值(Ii)的至少一个共同特征来实施所述的分组,其中多个所述数量测量值(Ii)每一个都属于相应一个数据元组;其中所述的控制单元按照所述指令还实施以下步骤至少之一e)对数据或数据可视化进行存储、显示和打印至少之一,其中这些数据或数据可视化反映或包括了i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项;f)还分析所述至少一种样本或所述成分或生成物中的至少一种,其所基于的是i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项,或者基于如步骤e)所述的存储、显示或打印的数据或可视化。
对于根据本发明的第一方面或第二方面或两方面所述的程序,本发明还提议,所述控制单元按照所述指令提供数据元组,根据如由提议1至114中的一个或多个所确定的方法来实施所述分组并实施步骤e)和f)至少之一(提议120)。所述程序可以由根据提议115至117所述的系统来执行,以实现由提议1至114中的一个或多个所确定的方法(提议121)。
应当注意的是,根据本发明所述的指令程序可以用于只控制一个总系统的一个分组子系统,其中该总系统包括至少一个测量子系统和至少一个分组子系统。在这种情况下,所述分组子系统的控制单元将对由所述测量子系统的探测硬件提供的并且以某种方式(比如通过一个通信链路或者依靠数据载体)传输给所述分组子系统的数据进行处理。一个附加的程序模块可以用于控制所述的测量子系统。
本发明还涉及实现根据提议118至121之一所述的程序的一种计算机程序产品(提议122)。所述计算机程序产品可以以一种携带所述的指令程序计算机可读媒体的形式(提议123)。
本发明还涉及存储根据提议118至121之一所述的程序的一种服务器计算机系统,用于通过一种通信链路、或者通过因特网进行下载(提议124)。
由独立权利要求所定义的和关于带来其他优点的优选实施方案和设计、由从属权利要求和前文中的不同提议所定义的本发明允许并明确地规定把所有维中的所有信号或测量值明确地作为变量来对待,也即作为随机变量。与把诸如一个相应的量化测量量(比如离子强度)当作在相关联的表征测量值(比如质量-电荷比和时间或扫描数目值)的一个预定栅格(固定收集槽)上的变量相比,这体现出所实施的测量过程通常更正确。
另外,本发明在其不同的方面以及附加的提议中允许合适地从一次测量运行的所有测量中获取关于所述变量属性的信息,其中所述变量包括质量样本或参照样本、比如内部标准样本。从而可以获得更可靠的信息。
在已公开的关于LC-MS光谱测定法的方法中,数据点被集中到所述质量轴和时间轴的一个预定栅格的收集槽中。从而,由于质量轴的测量不精确性而使得一种成分的信号可能位于/被探测在两个不同的收集槽中,这导致以下的错误-把收集槽错误地分配给峰值,-在峰值中总体强度值错误,-在所述保持时间轴中所产生的间隙甚至可能导致正确的峰值根本没有被识别为峰值。
总之,本发明目的在于脱离栅格的方案,并且由信号和测量数据在从相应的样本中获得它们时来确定收集槽的位置和大小。从而,避免了不探测峰值,并且被探测的峰值的测量在所有的、可能三个或更多维中变得更精确。
根据关于所应用技术的知识、比如关于色谱分析的过程以及质谱法探测,数据预处理和处理过程的许多设定参数可以被自动地找到,尤其对于所述分组所基于的一种统计建模。根据按照所述的建模哪种具有代表性来应用专门地对单个样本以及整体地对多个样本的两种样本对所述设定参数进行评估。从而,很大程度上可以避免人工地设定数据预处理和处理的重要参数,或者考虑到测量状况和要被分析的一个样本或多个样本而至少可以适当而精确地实施人工设定。这使得更容易地把所述的数据预处理和处理从一台仪器传输给另一台,从一个操作者传输给另一个。
根据关于所应用的技术的知识(比如关于色谱分析的过程和质谱法探测)、有关参数、条件和假定(比如在统计建模中的假定)和防护措施的最小要求,所述测量结果的精确性可以自动地在质量控制意义上在所有维中进行检查。
本发明并不局限于某些应用领域。下文中给出了分析系统和方法一些的例子,还给出了适合应用本发明的两方面的、以及根据所述不同提议的所述方法、系统和程序的数据格式A)任意可能地组合至少一种分析方法,所述分析方法借助一个质谱探测器通过离子源单元在线耦合,或者借助多个质谱探测器通过一个公共的离子源单元或者通过一个相应的离子源单元在线耦合而生成分离的(比如时间分辨的)信号。
-比如色谱分析法、电子色谱分析法或电泳法直接被耦合到MS分析仪,比如液体色谱法(LC)、气体色谱法(GC)、电子色谱法(EC)、电泳法(EF)、等速电泳法(ITP)。
-比如ESI(电喷雾电离)、APCI-MS(大气压化学电离)、PI-MS(光电离)、MALDI(矩阵辅助激光吸附电离)、FAB(快速原子轰击)、EI(电子撞击)电离技术。
-比如四极、三重四极、TOF(飞行时间)、离子阱和线性离子阱、FT(傅立叶变换)质量分析器。
所有共同类型的质谱数据可以用作一种数据输入,比如连续的光谱数据-该数据强度在所述光谱轴中由MS探测的参数来设定(比如每道尔顿的数据点的数目);以及矩心光谱数据-通过质量峰值的平均质量-电荷比值及其高度来表征的连续数据的简化形式。
B)任意可能地组合至少一种分析技术,所述分析技术结合在每个测量的离散点或时间点获得多种信号方面生成光谱信号或者多种信号的至少一种探测器来生成分离的(比如时间分辨的)信号。
-比如分光光度法(比如DAD、IR、荧光、光学二向色性、激光散射)。
-比如电子化学(比如库仑测定)对分光光度法探测器,在如对于诸如LC-MS数据的数据方面所建议的一些预测间隔(比如置信间隔)内采用测量/不测量的一种数字建模可以被替换成对测量的数目在一些合适的光谱中的信号光谱带的期望宽度内实施一些连续的或者离散的建模。
用于贝叶斯学习的一种初始置信间隔将不仅由测量的期望误差由于其值通常可以被忽略来确定,而且由信号在一个合适的光谱中的信号图谱带的期望宽度来确定。
C)任意可能地组合至少一种分析技术,所述分析技术结合串联或并联的两个或多个探测器来生成分离的(比如时间分辨的)信号。
-比如结合两个或多个质谱探测器或者结合两个或多个例子A)和B)中的探测器。
例子分析物(比如提取液)的流在色谱分析分离之后被分裂成具有相同或不同流速的两个或多个特定的流,并且被并行地导入不同类型的探测器。来自这两个探测器的结果信号代表了在所测量的质量/特征(比如质量-电荷比、波长)和量(比如强度/数目/吸收率)中独立的每个分析时间点中的补充信息。
组合两个或多个探测器的一些技术特征(比如毛细管长度、不同的流速、贯流分析池或离子源设计)对于分析物流的同一部分的信号获取产生不同的延迟,其造成相同运行的数据集的时间轴的不相容性。通过把来自所有测量结果的内部标准信号调整到一个相对时间轴上而实现时间轴的协调,这样使得他们具有相同的相对保持时间。这种处理已经被公开,并且通常用于色谱分析应用中(比如洗脱索引)。
在所有的以及其他的测量状况中,可以关于相关信号的提取以及关于降噪方面实现分离的(比如时间分辨的)信号的实际数据缩减。
独立地或者结合应用于根据本发明而实现的所述分组结果的一种合适的图形识别算法,本发明的所述方法和系统可以应用于比如生物学、生物化学、临床化学或者人体诊断。例如1.在毒物学、细胞生物学和组织生物学中外部刺激在生物系统上的多元效应的研究。
2.新陈代谢的研究、新代谢物的鉴别、代谢路径和代谢紊乱的描述。
3.在探索研究以及预测/预期研究中对患病个体中的常态、未治疗中的已治疗的、疾病的不同阶段、疾病的不同类型(活性的与非活性的、缓慢的与快速发展的)的辨别/区别。
4.在人体诊断中的标志的显示。
下面将根据所述的、不受限制的LC-MS光谱测定法、尤其是LC-ESI-MS光谱测定法的例子,并根据一个LC-MS数据、尤其是LC-ESI-MS数据的适当的统计建模,以及根据一个优选的根据本发明的第一和第二方面所述的分组的实施方案来对本发明在其两个方面以及不同的提议中进行详细解释。对此参见以下的附图、图表和流程图附图1示出了为一个样本所获得的一组数据点的全部数据点的强度的对数值的直方图,其中可以区分出一族由噪声引起的低强度数据点和一族由实信号引起的较高强度值。
附图2示出了为不同的原始数据群而获得的分组结果,以及为获得次级分组结果的这些分组结果的组合。
附图3示出了允许根据经验分布数据来检查质量偏差分布的一种盆型图。
附图4a至4d示出了一种流程图或者数据流类型图以及所产生的分组数据,从而描述了用于找到内部标准的特定离子的峰值的一种分组的实施方案。
附图5示出了一种流程图或者数据流类型图,从而描述了用于找到一种样本的成分的未知离子的峰值的分组的实施方案。
附图6示出了在一种单峰性条件下所使用的所谓“DIP”测量的图(来自1996年Gabler和Borg的图)。
附图7通过附图7a至7g中的图示而示出了用于通过所述分组来找到一些峰值的一个例子,其中所述的分组是基于贝叶斯学习的。
附图8通过附图8a至8b中的图示而示出了用于在所述的分组中在m/z轴上的观测被遗漏的情况下而进行处理的一个例子。
附图9示出了测量数据的一个例子,其中尽管较小地偏离所述的单峰性条件,但所述的测量数据被鉴别为峰值。
附图10示出了一个峰值重叠的例子,其中所述的峰值可以在所述的分组中根据所述的单峰性条件而被分离。
附图11示出了另一个关于峰值重叠的例子,其中所述的峰值尽管相互关系不清楚地高度重叠,但是也可以根据所述的单峰性条件而被分离。
附图12示出了在所述测量数据中一个尖峰值的例子。
附图13图解地示出了根据相应的数据点与一个平均的或者表征值m/zION之间的偏差Δm/zi的分布而沿所述的m/z轴的分组过程。
附图14示出了两个图表,用于对根据所述“硬装仓”方法(附图14a)的一种分组与根据如附图13中所示分组过程所述的可变仓(附图14b)的所述分组之间进行比较。
附图15至23示出了三维图,其中这些三维图说明了原始数据的降噪以及根据所述被降噪的原始数据所进行的分组,以用于鉴别一个色谱峰值和从中获取的相关信息。
附图24示出了根据本发明所述的一种系统的一个实施方案的框图。
附图25示出了两个图表所述图表使得一个原始LC-MS数据组在根据本发明的(附图25a)数据预处理和处理之前与由根据本发明的所述数据预处理和处理而获得的一个数据组之间进行比较。
附图26示出了三维图表,所述图表说明通过基于贝叶斯学习的一种分组鉴别数据点属于一个峰值。
附图27至78示出了在根据附图26的所述分组结果的情况下,在所述分组过程中所产生的一种分组协议的分组协议页1至104。
具体实施例方式
在下文中对于LC-MS光谱测定法、尤其是LC-ESI-MS光谱测定法的这样一种测量状况,本文假定,获取所述的三维测量数据,其中通过-第一维-扫描数目(Ni)或者保持时间值(ti)或者检测时间值(ti),并且通过-第二维-质量-电荷比值(m/zi),并且通过-第三维-强度值(Ii)或者计数数目来确定一个数据点或者数据元组。本发明实现了所述的数据预处理和处理是基于把一个信号的这些测量值作为一个三维随机向量来的实现(一般是一个多维随机向量)。
基本条件为了根据一个特定的测量状况来实施本发明,应当针对所述信号或从中产生的测量数据的特征来对所使用的技术和硬件的特征进行分析。对此应当对根据所使用的技术或者硬件所获得的测量值的三维(一般是多维)分布的特征进行分析。
通常,信号源确定了相应测量值分布的形状和参数。根据源自不同源的信号分布的这些特征通常可以过滤出多数来自无关源的信号。可以特定地为单独的样本或者全部地为多个样本根据所假定的源来估计所述相关分布的参数。
离子的信号具有取决于所述LC处理的所述保持时间的分子特性的分布,并且具有取决于所述MS处理的所述m/z值的离子特性的分布。(在确定的扫描时间和在确定的m/z中)在一个确定源的离子可以被测量的情况下,所述强度的分布取决于a)与所述物质的平均保持时间的接近程度;b)所述电离处理;c)在所述样本中物质的组成。不仅在该样本中物质的浓度对所测量的强度有重大影响,而且在不同物质之间的相互作用也对其有重大影响,比如象具有同一洗脱峰物质的抑制机理。这些影响所造成的可测量的结果潜在地提供了关于在所述样本中物质组成的感兴趣信息。
这里一般只涉及相应样本的成分,其中所述的成分形成了所述测量数据中的特定数据部分,并且为此必须在所述的测量数据中找出峰值。但是,不应当排除使用分析技术,所述分析技术产生了在所述原始样本中还未包含有的某些其他物质。甚至有可能在所述的样本中甚至本来就不包含构成这种物质(这里称为生成物)的原材料。然而,所述的另外的物质或者生成物可以在一定程度上反映了所述样本的特征,如此使得源自这些另外的物质或生成物的峰值的鉴别可以给出表征所述样本的信息。当然,在一个普通的LC-MS分析中,通常除所述样本的成分之外还没有另外的生成物要被表征。
噪声消除在所述第一步骤中,作为电子或化学噪声的信号可以被过滤出。区分那些信号的一种可能的标准是所测量的强度值的高度。电子噪声不是来自于被检测的离子,并且在此所述m/z值和所述的保持时间没有什么意义。化学噪声的特征在于,在任何时间和任何位置(指的是保持时间和m/z值)都测量到比如可以解释为通过一个LC-MS系统的所有部件的不可避免的污染而造成的弱信号。所述化学噪声的对数强度值的分布可以简单地通过一个正态分布来描述,其中所述正态分布的期望值典型地小于另一信号组的期望值,并且大于属于所述电噪声的一个第三信号组的期望值。附图1示出了一个相应的例子。在所述的强度值对数的直方图中,在所述实信号和所述化学噪声及电噪声之间有一个峰谷或最小值。因此,通过在所述强度值对数的直方图中找到所述的峰谷,就可以在噪声信号和非噪声信号之间画一条区分明晰的线。通过根据常规的数据处理技术在所述峰谷中的找到所述最小值,就可以自动地为每个单独的样本确定所述的分界线。
所述技术的系统假象不是来自所述样本的物质几乎不提供或者不提供关于所述样本物质组成的相关信息所述移动相位的离子以及所加入的标准物的离子的信号就是所述测量方法的假象。它们的分布参数可以通过为多个样本或者为多个样本组进行空白测量以及标准测量而全部地被确定。可以根据这些测量来确定鉴别和删除模板,其中所述的测量鉴别并且如果需要可以删除在所述质量和保持空间(区域)中的及有可能来自所述加入的标准或来自所述移动相位的信号,正如他们典型地为此示出m/z值和保持时间。其中典型地包括了强度的3D鉴别和删除模板,另外还会允许探测并且如果需要还可以删除同一洗脱峰分子和相互作用现象的信号。
尖峰消除在所述色谱分析过程中既不具有噪声的典型属性也不具有物质的典型属性的所有其他信号被称为尖峰。形成的主要原因可能是在所述测量仪器中的各种“块状”污染,比如在移动相位中、支持柱、毛细管或者离子源中。这导致根据离子的色谱分析属性不时地不可预料地出现一些离子。这些信号不能被重现,并且从而不应当被用于实际的统计模型。所述尖峰的信号根据它们不符合真实峰值的假定分布这个事实而可以被消除。相应的匹配标准的阈值可以在单独的样本中或者全部地为多个样本而被确定。如果所述的分组是基于合适的条件,那么就可以在所述的分组中自动地实施峰值的消除。
分布模型的应用在下文中给出了可以用于这里假定的说明性上下文的分布模型的例子电噪声优选地只有所述强度的分布被建模,而不考虑所述的时间轴和质量轴。换句话说,所述的随机向量仅仅考虑用于表征电子噪声的强度的边界分布。这里假定存在该分布的所述期望值。
I(e1)~F(μ(e1))(F1)化学噪声再次优选地只有所述强度的分布被建模,而不考虑所述的时间轴和质量轴。这里假定一个标准的分布来作为所述强度的对数的分布类型。
Log10I(ch)~N(μ(ch),σ(ch)) (F2)在质量-电荷比的测量中质量误差的分布为一种离子M*的质量-电荷比的测量假定一个标准的分布测量偏差,并考虑存在一个小的失真的可能性MZ-mz(M*)~N(δ(M*),σ(M*)) (F3)
在最简单的情况下,假定所述的测量偏差对于所有的离子都是相同的,也即对于所有M*,δ(M*)≡δ,σ(M*)≡σ是正确的。尽管如此,根据所述强度的或者离子的质量-电荷比来对所述测量偏差进行建模也应该是合适的。
保持时间和强度的分布最初事件是在所述时间T时(也即具有保持时间T)所述物质的单个分子的洗脱。
在最简单的建模中,可以在一个色谱分析过程中为某一物质的单个的保持时间假定一个正态分布T~N(μt(M),σt(M))(F4)由此得出在扫描时间ts-1和ts之间用于某一物质的一种分子的洗脱事件的一种柏努利分布I(M)|ts~BIN(1,p(M,ts)) (F5)其中p(M,ts)=Ф(ts|μt(M),σt(M))-Ф(ts-1|μt(M),σt(M))(F6)正态分布的所述假定是所述运行过程的一种总体简化。其基本模型(在根据经向扩散过程、质量转换的动力学和湍流扩散的vanDeemter理论中)已经通过使用一种梯度洗脱而被破坏,而且还通过在所述色谱分析过程中运行的各种其他过程而被破坏(比如具有所述非移动的或静止的相位、混合保持机构、所述非移动相位由于老化而产生的机械和化学变化的所述物质的次要的相互作用)。当测量某一单独的物质时所述保持时间的分布具有很多复杂的建模,其中这些建模更详细地描述了上述的过程。所有的模型所共同具有的是,所述的基本分布是单峰性的,并且在它们的变形或失真方面比在它们的峰态方面要更偏离所述的正态分布。
通常把(F6)写成p(M,ts)=F(ts|M,Δts)-F(ts-1|M,Δts-1) (F7)其中F来自于一个单峰性分布类,并且在其准确形式中通过分子特性参数和洗脱特性(并从而与时间有关的)参数来确定。
对于所述的最初事件,由(F6)或(F7)得出在两个扫描时间之间探测某一物质的某一种离子,但是一种柏努利分布具有很小的成功可能性,这是因为在所述的离子化过程中这种离子被生成这一事件另外必定会发生。
I(M)|ts~BIN(1,p(M*,ts))(F8)其中p(M*,ts)=p(M*,M)p(M,ts) (F6)在所述LC-MS过程中一个“真实”信号的强度是在两次扫描时间之间具有一种物质的某一电荷数目的离子的探测频率。出于简化而假定所述柏努利分布的最初事件是独立的,并且如果NM分子在所述色谱分析过程中被处理,那么就描述为一个二项式分布I(M*)|ts~BIN(NM,p(M*,ts)) (F10)应当注意的是,抑制机构可能会削减p(M*,M)。所述MS仪器的灵敏度以及所述的噪声消除可以导致对这种随机变量实现经删除的观测。
移动相位的物质所述移动相位连续地流入到所述质谱仪的离子源中,多数情况都非常敏感地使得溶剂簇离子出现在一个LC-MS数据组的背景中。这些信号不显示真正发生的色谱分析过程的任何属性,如此使得在两个扫描时间ts-1和ts之间所出现的那些离子之一的频率是一个二项式分布,其中该二项式取决于(先前发生的)输入NM(Δts)的数量和离子化的概率I(M*)|ts~BIN(NM(Δts),p(M*,M)) (F11)其中NM(Δts)对所有Δts都大。
生成物如果所应用的一种分析技术或多种分析技术生成了确定的生成物,那么合适的分布模型取决于所述的生成机理。本领域的技术人员可以建立合适的分布模型。
根据本发明的数据预处理和处理根据这些理论条件和模型,可以执行测量数据的分组以用于找到已知和未知的成分或生成物的峰值,在当前所述的情况中是用于找到已知和未知的离子的峰值。
在所述处理开始时,优选地所述的数据被降噪,比如根据一个假定的按照附图1所述的强度值的对数分布。在通过所述真实数据获得的所述密度直方图中,在真实信号和电噪声及化学噪声之间搜索最小值,并且然后属于噪声的信号被消除。没有必要应用“统计图样识别”或者“贝叶斯学习”。在本文所提议的优选的方法中,根据分布F1和F2的所述的理论建模仅仅用于给噪声背景提供消除方法。所述的理论模型预测到必须在所述直方图的峰谷中搜索噪声信号和真实信号之间的边界,仅仅在这种情况下才应用“统计建模”。
然而,为了在所述降噪之后保持信号的分组,优选地应用贝叶斯学习以把数据在组合或间隔中进行分组,其中这些组或间隔大概关联于所述样本或者一系列样本的一种相应成分,或者关联于由应用于所述一个样本或多个样本的一种或多种技术而生产的一种生成物。
在一个优选的实施方案中,所述的贝叶斯学习基本上用于在置信间隔内分组感兴趣重要的信号或数据元组,其中这些信号或数据元组大概关联于一种相应成分或生成物,其中所述的置信间隔具有取决于所用技术的宽度,比如对于四极质谱仪约为±0.2Da的宽度、对于飞行时间质谱仪约为±0.002Da、对于傅立叶变换质谱仪约为±0.0002Da。所述置信间隔的选择(并从而所期望的测量精度)取决于在所述MS分析仪中分离离子的方法。这里所提到的值在通常的测量条件下是典型的、所期望的测量不精确度。如果所述的质量参数设置不同,则所述值中的一部分也将不同。
对于从所述分组中所获得的这些信号组,通过相应的时间值或扫描数目的结果置信间隔内将所有数据点合并到m/z维,就可以实现在这种选择性离子监测(SIM)色谱中维数的缩减。不仅在贝叶斯学习所获得的置信间隔上,而且根据附加的条件来优选地实施所述的分组。尤其可以实现与一种相应成分或生成物相关联的信号和其他诸如假象的信号之间的区别,其所基于的条件是所述的强度值在一个相应的置信间隔内应当满足强度分界条件、单峰性条件和峰态条件中的至少一个或多个。所述的强度边界条件基于的假设是在一个真实峰值之下的面积应当超过一个用于确认是真实信号的阈值。所述的单峰性条件和所述的峰态条件所基于的假设是所述真实信号和其他诸如假象的信号可以根据信号的形状来区分。
从给定的起始值开始、比如从来自于根据外部标准的测量的起始值开始,所述相应的置信间隔通过贝叶斯学习而被确定或改善(尤其变窄)。通过有选择地给可归属于所述内部标准的信号施加算法,来自根据外部标准测量的起始值可以适用于基于内部标准的一种特定测量状况或系统,在LC-MS光谱测定法的情况下,所基于的内部标准是连同所述相应的样本一起被洗脱的或者被被加入到所述相应样本中的内部标准。然后,如果需要可以通过应用一种相应的删除模板来消除所述的信号。
应当补充的是,必须归属于所述移动相位的信号也可以通过使用一种相应的删除模板来进行消除。这优选地在对来自感兴趣的成分或生成物的或者来自未知成分或生成物的信号分组之前实施。
测量偏差分布N(δ,σ)的样本特性学习所述的测量偏差分布可以借助被分配给加入的标准的信号而被学习。那些真实的质量-电荷比是已知的,如此使得任何异常都可以被观测到。优选地使用一种贝叶斯的后验估计,假定所述测量偏差分布对于所有的物质和离子都是相同的。因此,被选择作为贝叶斯学习的所述先验分布隐含地被检查,其原因在于,在太高信息度的情况下并且如果所述假定的测量偏差太小,那么就不能找到在所述分组过程中被收集作为所述标准的离子峰值的信号。所述的后验分布可以用于测试在一个相应样本中的所述测量偏差是否可以被允许。如果是这种情况或者如果决定不进行这样一种测试就执行所述算法,那么从关于所述被加入的标准的数据的贝叶斯学习所获得的所述测量偏差的后验分布就用作前验分布,来用于检测未知物质中的离子的峰值(比较附图3)。
另一种选择是假定在所述被观测的测量区域中测量偏差分布不相同情况下的所述测量偏差分布的贝叶斯后验估计。
一种已知物质的信号检测初始假定在应用所述LC-MS技术的所述物质或样本中,一种或多种离子的质量-电荷比以及相关的峰值的保持时间比如从用同一系统所实施的较早的测量中获知。关于质谱仪方面的经验可以不确定地描述所述测量偏差的置信间隔,比如“具有90%的确定性95%的观测以最大±0.4Da与所述离子的真正的质量-电荷比偏离”。这用于为所述测量偏差分布的未知参数确定一个前验分布,借助所述的前验分布可以为离子信号的m/z值(m/z窗口)建立一个预测置信间隔。
在所述已知保持时间之前的一个起始扫描时间,开始在所述m/z窗口内在已知真实的m/z值附近进行观测搜索。当找到这样一个信号,就立即根据所述的贝叶斯更新方案为下一次扫描中相同类型的离子的m/z值形成一个新的预测置信间隔。如果在连续的或者当前的m/z窗口中在至少一次或多次扫描中没有观测到,那么所述的峰值就被完全认可,并且沿该m/z轨迹左右的其他信号就被认为不属于同一种离子。扫描时间包括所述预定保持时间的信号组被鉴别为相应标准离子的峰值(比较附图13)。
作为一种未知离子的多个信号的分组根据用于测量偏差分布的参数的一个前验分布来开始搜索具有一个未知m/z值的离子。当在所述第一次扫描中开始时,对在下一次扫描中的相同类型离子的一个预定间隔可以为每一个被观测的m/z值通过贝叶斯学习而被计算。在探测到所述第一信号之后,所述的信号根据用于已知物质的同一方案来被分组。由于没有与在所述已知物质的情况下所找到的“类似的”信号就是一个真正峰值的相同确定性,所以使用其他的准则把真正的峰值从诸如所应用技术的假象的其他可能的事件中区分开来。
在建模方面,当在连续的扫描中在一系列m/z窗口内找到多个信号,那么就可能已经发生了以下的事件1.噪声事件位于所述噪声截止位置之上的化学噪声离子的不规则的接近2.峰值(峰值事件)该信号属于所述样本的用色谱分析分离的分子的一种离子。
3.多个重叠的峰值(峰值事件)4.固定不变的峰值该信号属于移动相位的离子5.尖峰(尖峰事件)测量到某些不同的、比如一种溶解的污染的多个信号,或者其他非系统假象。
从噪声事件中区分峰值为了从所述噪声事件中区分一个峰值,可以设定一个强度截止值,其值可以在所述样本的一个峰谷的直方图中被确定(比较附图1)。
用于确定一个强度截止值的例子
所述用于确定强度截止值的被观测的强度值应当尽可能地低,并且应当全部是噪声事件。实际情况是比如它们的最大值或者它们的平均值超出噪声强度的3-σ区域。所述噪声强度的方差可以在相应单个样本的峰谷直方图中被探测到。
由此也可以确定应用于所述强度值的和的一个较弱一些的强度条件,其中所述的强度值的和根据所述的强度条件应当超过被鉴别为真正峰值的最小值。这对于从尖峰区分是有用的,因为它们典型地比较短并且具有小于真正峰值的强度。
从尖峰中区分峰值为了从尖峰中区分峰值可以沿所述的时间窗口使用所述强度值的形状,其中所述的时间窗口应当对应于具有近似标准峰态的一个单峰性分布的直方图。这是由于在所述分布模型(F10)中成功概率的时间上的变化。
因此,所述直方图的,在一定程度上描述了与所述单峰性的偏差或者描述了所述峰态的每个参数都可以用于实施区分。
用于这些参数的阈值应当从多个样本中一起比如在所述空白测量和标准测量中被确定。
从重叠峰值中区分峰值合适的标准为与单峰性的偏差模型(F11)的贝叶斯系数以及类型(F11)的多个模型的混合从恒定的峰值中区分峰值合适的标准为与单峰性的偏差在空白测量中与学习的m/z值的近似模型(F11)和模型(F10)的贝叶斯系数贝叶斯学习或更新方案根据由一个可利用的分布所确定的一个当前m/z窗口,来确定当所述第一或下一个数据点被找到时该数据点是否有可能属于一种相应的成分或生成物。如果所述的数据点位于所述的当前的质量窗口中,那么就确定该数据点在相应组的候选成员的意义上属于一种相应的成分或生成物,如果所述的数据点没有位于所述的当前的质量窗口中,那么就确定该数据点不属于所述的成分或生成物。
在采用一个内部标准的情况下,所述的初始m/z窗口对应于一个m/z间隔,其中该间隔在所述已知的m/z值附近被建立,如此使得所述内部标准的已知的m/z值以及在该已知值附近的m/z值被包括在该间隔中。以所述已知m/z值为中心的一个正态分布被假定作为测量偏差分布。
在物质(成分或生成物)未知的情况下,所述的初始m/z窗口覆盖了m/z轴的整个区域,在该窗口中来自未知成分或生成物的信号都是所期望的。由于所述“真正的”m/z值还是未知的,所以假定了正态分布的、对应于所谓t分布的一个分布来代替所述的正态分布。
当找到所述第一数据点时,那么就确定该数据点是否可能属于一种相应的成分或生成物。如果该数据点位于所述初始m/z窗口中,那么就确定该数据点属于一种成分或生成物,并且根据该数据点通过基于该数据点设定的所述分布的相应参数来更新所述可使用的分布(在物质已知的情况下是正态分布,在物质未知的情况下是t分布)。然后根据这个被更新的分布来确定一个新的m/z窗口。如果沿所述时间轴或扫描轴的下一个数据点落入该m/z窗口中,那么就假定该数据点也属于同一物质。
所述m/z窗口优选地如此来确定,使得比如属于同一物质的所有数据点中的99%的大多数,落入根据当前分布的这个m/z窗口中。
找到位于所述当前m/z间隔或窗口中的数据点的集合,通常还不是一个充分的条件来把这些数据点鉴别为属于一种相应物质的一个峰值,其中所述的间隔或窗口是根据测量偏差的一个分布来建立的。因而,还应当应用附加的条件。
一种条件就是所提及的强度截止条件或强度条件。
另一条件是所述的单峰性条件,其中该条件可以非常有效地区分真正的峰值和其他的现象。不仅峰值可以被找到,而且重叠的峰值也可以被分解。可以如下地实施一种是否满足所述单峰性条件的检查所述测量值的直方图被积分或相加而形成一个第一曲线,其中该曲线理想地对应于所述的S曲线。这个第一曲线然后被微分以获得代表所述原始离散数据点的一个第二曲线。通过把在所述第二曲线和所述直方图(分布)的测量值之间的正的差值相加,获得与下一个单峰曲线偏离的量。该量与一个阈值进行比较。如果该量小于比如10%,那么就可以假定满足所述的单峰性条件。
单峰性检查不是找到真正峰值的唯一合适的方法。所述测量值的假定分布的其他特征也可以被考虑,比如所述分布或直方图的峰态。所述术语峰态指的是一个分布或直方图的第四中心矩除以第二中心矩的平方。根据所述正态分布的三个峰态值中的一个,一个约±0.1的偏差可以被认为满足一个相应的峰态条件。
根据一个这里所述的优选的实施方案,不采用贝叶斯学习、贝叶斯学习或更新方案来沿着所述的时间轴或扫描数目轴寻找测量值。所述的贝叶斯学习或更新仅仅用于沿所述m/z轴来找到测量值,然而,在其他情况下,贝叶斯学习关于所有相关的轴可以是适用的。
通常的贝叶斯学习在贝叶斯统计中,当假定(未来的)事件时概率分布对不确定性进行量化,并且它们也可以用于对假定世界上的未知“真正”状态的不确定性进行量化。
贝叶斯学习理论是一个框架,该框架规定了如果得到关于未来事件或世界上的未知状态的新的证据或信息(数据),所述不确定性的当前水平是如何被更新的。这种更新机制的基本公式是所谓的贝叶斯公式。该公式在1763年,也即贝叶斯死后两年第一次出版,作者是R·托马斯·贝叶斯。Philosophical Transactions of the RoyalSociety(皇家学会哲学学报)(1963)53370-418托马斯·贝叶斯的“An essay towards solving a problem in the doctrine ofchances(用于解决机会学说中的一个难题的一个尝试)”。在其最简单的形式中,如果H是一个假定并且E是证据,那么就规定Pr(H|E,C)=Pr(H|C)Pr(E|H,C)/Pr(E|C),如此使得Pr(H|E,C)是具有一个当前关系C的E被获得之后在H下的置信概率(H的不确定性的状态),Pr(H|C)是在具有C的E被考虑之前H的先验概率。该定理的左手侧、Pr(H|E)通常指的是H的后验概率。
如果数据被重复地收集或者以流的形式输入,在一个点上的任一后验分布(这是一组假定和其中任一子组的后验概率的集合)是在下一点上的一个先验分布。两个后验分布也可以组合构成一个组合的后验分布。
关于一些仪器的质量-电荷测量误差的所述先验分布的确定对于一个被要求详细描述一些m/z间隔长度的专家来说,一般给出一个相应的估计是不成问题的。所述专家会期望相同类型的离子的“多数”测量被显现出来,另外当专家被要求确定他(她)关于所述信息的确认程度(比如C=80或90%)时,那么他(她)一般会很容易地给出一个估计。就象一个人将考虑对一些实验的结果进行猜测一样。为了关于在所有测量的一个百分比(1-α)*100%的一些预测间隔方面来解释“多数”,用于确定一个先分布作为贝叶斯学习或更新方案的基础的基本信息可用的。这些陈述可以容易地通过贝叶斯统计的方法来组合以形成一个先分布。所述给定的确定性的作用是,它越小,所述输入数据在所述后分布上的影响越大。贝叶斯统计的批评者常常声明最好让“数据自己说话”,这样会使得在很多贝叶斯统计的应用中设法减小先分布的影响。但是在本文中,至关紧要的是所述的确定性C不能太小,因为需要一些类型的测量值或离子接近于离子的真正m/z值的一些确定性,这样所述的算法就可以以某种方式把标准的特定离子的测量与同时被洗脱的并且具有稍微不同m/z值的离子的测量区分开来。并且这对于专家来说就容易地做出这样的陈述“使用一个四极分析仪,我有90%的确定性来期望±0.2Da的质量精度。”这样一个陈述在本文中就足以对贝叶斯更新或学习方案进行初始化。
一些未知离子的质量-电荷值的贝叶斯学习贝叶斯更新或学习算法的一个优选实施方案是基于具有一个共轭先验分布的标准数据的贝叶斯建模,这在Gelman、Carlin、Stern和Rubin(1995,3.3章节)的Bayesian Data Analysis(贝叶斯数据分析),ChapmanHall/CRC中有叙述。页码参见CRC再版,2000。
所述贝叶斯学习过程开始于给具有参数μ0、σ20、K0和v0的一些给定的N-Inv-X2先分布(公式(3.6),71页)。
所述参数σ20和v0已经通过使用关于专家的质量误差分布的描述而被建立,并且已经潜在地为一些样本的一个给定LC-MS测量通过具有已知的真正质量-电荷比的内部标准的离子的观测峰值而被更新。
为了描述未知物质的μ0和K0,采用了一个平直的先验,这样在质量-电荷的观测间隔[L,U]上所述正态分布在其所期望的值处(也即该间隔的中央)的最大概率与最小值(也即在L和U中)之比等于1/0.9999。
现在假定检测到一些离子在扫描时间t1具有质量-电荷值y1。在方差σ2下所测量未知真正质量-电荷值μ的所述更新联合分布也是根据72页公式(3.7)中的公式所述的具有更新参数μ1、σ21、K1和v1的一些N-Inv-X2分布。
由此可以相应地根据72页的公式(3.9)以及73页的所述第一公式来计算σ2和μ的边缘后验分布。关于所述真正方差σ2的不确定性从而通过具有v1自由度和比例σ12的一些变比的Inv-X2来描述。关于所述真正参数μ的不确定性从而通过具有v1自由度并具有位置μ1和比例(σ12/K0)-0.5的一些t分布来描述。
由此可以计算所述后期预测分布,其中该分布用32页的公式(2.7)和(2.8)在下一扫描中被检测的是相同类型离子的情况下而对关于所述质量-电荷值的期望进行编码。关于下一质量-电荷值的不确定性也象关于这些离子的真正质量-电荷值μ的不确定性一样通过t分布来描述。所述分布象描述μ的不确定性的分布一样具有相同的自由度v1和位置μ1,但是具有一个较大的比例,这是由于知道所测量的值根据所述未知方差σ2散布于所述真正参数附近。从而该比例为(σ12+σ12/K0)-0.5。
该分布的一个(1-α)间隔通过相应t分布的α/2百分位数和(1-α/2)百分位数来给出。该间隔确定了扫描时间t2的所述质量窗口。
如果那里检测到一些离子,那么μ1、σ21、K1和v1就替换μ0、σ20、K0和v0,并且如上所述地再次开始相同的学习过程。
另外,本文参照了前文所述Gelman、Carlin、Stern和Rubin的(2003,ChapmanHall&CRC)Bayesian Data Analysis(贝叶斯数据分析)的第二版教科书,还参照了D.S.Sivia的(1996,牛津大学出版)“Data AnalysisA Bayesian Tutorial”(数据分析贝叶斯指南)教科书。所述教科书包括了适合在本文所述的测量状况中以及在其他测量状况中对测量数据进行分组的用于建立一个贝叶斯学习方案所需要的所有信息。
除了在本文中作为关于所述m/z轴的分布模型的所谓“具有共轭先验的标准模型”之外,还可以采用其他的分布模型、比如所谓的“具有共轭先验的多标准建模”,其中可考虑到可测量的m/z值的离散性。
应当补充的是,比如来自“Bayesian Data Analysis(贝叶斯数据分析)”教科书的不同的公式不能总是以逼近的方式精确地解答,这样可能必需一种数字解答。对于处理效率,比如用于计算学生t累积分布函数的逆函数,计算近似的解答甚至可能是有用的。所述相关公式的这种数字解答或近似解答可以由本领域技术人员来容易地实施。
贝叶斯学习方案的优选的实施上文所阐述的用于关于成分或生成物、尤其是未知成分和生成物来表征样本的测量数据的分组是基于一种贝叶斯学习方案,其中该方案考虑了用于标准的测量所获得的分组结果。另外,还优选地考虑了关于空白测量的分组结果。
在这方面,本文提议了如下的一种“整体”的处理方案1.对仅包含内部标准的样本的一系列测量(“标准的测量”)的处理输出a)对于每个标准物质s=1,...,S,在所述m/z轴上的一个自动确定的间隔的数目,其中在所述轴上找到由相应物质的离子所产生的数据点。
b)所述质量测量误差的一个后验分布。
2.在不注入任何样本的情况下一系列背景测量(“空白测量”)的处理输出在所述m/z轴上的一个自动确定的间隔的数目,其中在所述轴上找到由在所述移动相位中的物质的离子所产生的数据点。
3.所述的被测量样本的系列的处理输出为每个样本由所述样本中的离子所形成峰值的一个自动确定的数目。
一个峰值是通过以下来描述的a)在所述m/z轴(质量窗口)上的一个间隔以及
b)在所述时间轴(时间窗口)上的一个间隔。
这两个间隔描述了在时间轴和m/z轴上的空间,在该空间中根据所述的峰值找到算法出现了同一类型的离子的测量,并且在该空间中那种类型的多数测量被期望也在其他被测量的样本中出现。
另外,一个峰值还通过以下来描述c)其强度,即引起所述峰值的全部数据点的强度值的和。
关于所述的标准物的处理,下文提议了“局部”的处理方案或者下列步骤对于一个单独的测量,实施1)噪声消除2)找到标准物质的特定离子的峰值a.检查质量测量误差分布b.如果足够,就更新质量误差分布3)找到在象所述特定离子一样的时间间隔中出现的离子的峰值。这些峰值又被认为是由内部标准物潜在地引起的。
4)时间标准化对于在一系列标准测量中的信息的一个组合5)找到那些以测量的某个百分比(比如80%或50%)出现的峰值,其中所述矩形时间窗口和质量窗口至少重叠到某特定的程度。所述质量窗口被组合来构成所述“标准物删除模板”。在新的测量中的所述“标准物删除模板”的时间窗口将在相应的测量中单独地被确定,其方式是在所述相应的测量中使用该测量中的内部标准物的特定离子的峰值。
6)组合所有的标准物测量,关于所述工具(贝叶斯学习)的质量误差分布的信息用于获得一个最终的后验质量误差分布。
作为“单独的测量”,这里对为包括至少一种内部标准物的一个样本而获得的一个完整的测量数据组进行平均。通常,这样的标准的测量是为多个样本而实施的,或者为相应一个样本实施若干次、比如50次。这里所假定的“单独的测量”指的是应用所述算法以找到所述时间和质量窗口的这样的数据组之一。如果所述的标准测量已经为多个样本而被实施,或者如果所述的标准测量已经为相应的样本而被实施了若干次,那么为每个单独的测量而获得的所述时间和质量窗口可以被组合为一个相应的组合时间和质量窗口以比如对应于包括所有相应独立的窗口的一个相应包络窗口,或者对应于覆盖了全部面积的某一百分比的或者基于所述窗口重叠的一个平均窗口(比较步骤5)。所述独立窗口的组合有利地可以根据贝叶斯统计来实施,这样关联于所述相应的独立窗口的那些置信值被组合为所述结果的组合窗口的一个置信值。在附图2中示出了为多个不同的单独测量而进行的相应窗口的组合。
对于空白的处理,下文提议了“局部”处理方案或下列步骤对于一个单独的测量1)噪声消除2)找到在所述移动相位中物质的离子的质量轨迹对于在一系列空白测量中的所述信息的一个组合3)找到那些以测量的某一百分比(比如80%或50%)出现的质量轨迹,其中所述的质量窗口至少重叠到某特定的程度。这些窗口组合构成所述的“移动删除模板”。
所述术语“单独测量”再次指的是一个完整的空白测量数据组。为一组空白测量而获得的所述分组结果可以根据步骤3)进行组合。
对于需要关于成分或生成物来进行表征的样本的处理,下文提议了“局部”处理方案或下列步骤对于一个单独的测量,实施1)噪声消除2)找到标准物质的特定离子的峰值a.检查质量测量误差分布b.如果足够,就更新质量偏误分布3)找到所述样本中其他离子的峰值。
4)时间标准化对于在一组(子组)样本测量中的信息的一个组合5)找到那些以测量的某一百分比(比如80%或50%)出现的峰值,其中所述矩形时间窗口和质量窗口至少重叠至某特定程度。这些窗口被组合以构成所述样本组(子组)的典型峰值。
所述术语“单独测量”再次指的是为一个样本而获得的一个完整的空白测量数据组。如果所述的测量已经关于一个特殊样本而实施了若干次,或者如果多个样本应当组合地被考虑,那么可以根据步骤5)来组合相应的单独的分组结果。
如果几个类似的样本已经被测量,但是这些样本必须作为“单独的样本”来考虑,另一方面,这些样本包含感兴趣的组合信息,那么比如为不同的测量数据整体而获得的分组结果的组合是可适用的。一个例子就是来自具有相同疾病的病人的样本。相应组的组合可能便于鉴别反映该疾病的数据中的图样。
应当补充的是,所述标准的删除模板的应用是一个选项,它可以作为步骤2)的附加子步骤c被执行。但是,它常常会适合于保持为所述内部标准而获得的所述分组结果,原因在于有价值的附加信息可以从可能在将来的分析中有用的那些分组结果中获得。比如,关于所述物质的共同影响的信息可能就来自于此。
噪声消除所提议的处理方案中的每一个都包括了噪声消除来作为第一步骤。本文已叙述了,用于从信号中区分噪声的主要标准是数据点的强度的大小。电噪声不是由被探测的离子引起的,并从而m/z值和保持时间没什么意义。化学噪声作为弱信号出现在任何地方和任何时间。所述对数的强度分布通过三个分布的混合而被良好地建模化学噪声和信号的相应具有低平均值和高平均值的两个正态分布,和电噪声的非常低的强度的一些多模式分布。在具有低强度的噪声与信号之间好的分离可以在对数的强度直方图的峰谷中找到(见附图1)。所述峰谷对于每个样本是单独地并且自动地确定的。
附图1示出了在一个样本中所有数据点的强度的对数的直方图。看出具有不同状态的区域在最左边,不平滑的分布好象控制着数据的生成。在旁边,可以区分出两个主要的簇一簇低强度的数据点和另一簇具有高强度的数据点。在所述低强度簇的数据假定由噪声引起。
应当补充的是,根据所述提议,所述噪声消除是关于代表一个样本的一个单独测量的所述数据而整体实施的。但是,如果执行m/z值或/和时间值的特定噪声消除,或者甚至在所述全部数据组的一个相应子组中执行特定物质的噪声消除,那么就可以实现关于降噪的良好结果。
检查质量误差分布内部标准的所述使用可以关于所期望的测量值以及在所述测量误差中的数据点的期望百分比而对专家的预测进行检查,并因而可以根据关于内部标准样品而实施的测量对贝叶斯更新方案的初始参数进行检查。这可以如下所述地实施为所述内部标准的特定离子的每一种计算出所述被探测数据点的观测的m/z值与所述真正的m/z值之间的偏差、即所谓剩余误差。如果所述给定测量的实际质量测量误差大于专家所预料的,那么这将主要有两个结果1.如果非常大于,那么所述峰值找寻算法将不会探测到形成峰值的那些数据点,其中该峰值是由特定离子的一种或多种引起。
2.如果稍微大于,那么由于专家对于所述预测间隔的特定的不确定性,所述预测间隔的实际大小将会变得比先验的宽。
这可以通过箱图来显现出来。如果对于一些测量观测到一个或两个上述的结果,那么所述算法就优选地显示警告。
附图3示出了这样一个箱图的例子。沿所述纵坐标描绘了所述的测量误差Δm/z,沿所述的横坐标描绘了特定内部标准的理论值。对于每一个标准都示出了具有一个上面部分和下面部分的一个箱体,其中所述的上面箱体部分和下面箱体部分每一个都代表了全部相应测量数据的25%。内部标准的结果被组合起来,其中这在附图的最左边被示出。所述水平实线代表了所述先验(1-α)预测间隔(这里是先验95%间隔),所述水平虚线代表了所述先验(1-α/2)预测间隔(这里是先验97.5%间隔),最左部分中的所述水平短点虚线代表了所述后验(1-α)预测间隔(这里是后验95%间隔)。
对于当前的情况,专家已经预测了一个±0.4Da的一个误差间隔。所述质量窗口在全部标准样品经过贝叶斯学习之后位于由所述点虚线所代表间隔中,也即约0.22至0.31Da,其中该间隔包含于由专家所预测的间隔之中。在当前的情况中,所有特定离子的所有峰值被找到,如此使得所述的测量和初始化已经经过了所述质量测量误差的控制。
学习质量测量误差分布如果一些测量已经经过了基于所述内部标准的对质量测量误差的检查,那么所有的剩余误差可以用于更新所述的先验质量测量误差分布,其中该分布可以用于找到未知的离子。关于所述预测间隔的确定性现在则比以前高得多,在很多的贝叶斯设置中它可以被表示为先验的不确定性和观测的数目(这里是剩余误差的数目)的一个组合。如果所述标准的测量在所有其他测量中随机地进行,这样使得在所述工具性能中的变化将会在所述标准的测量中已经被探测到,那么这是一个好的处理方法。但是如果所述后验值将用于将来的运行,那么仅仅保留关于所述预测间隔的新的长度的信息,但是降低它的确定性是明智的。这对于很多贝叶斯模型来说容易引入所述后验的公式中。实际上,该过程对于所述工具的状态中的变化将会非常敏感。
时间标准化根据内部标准可以实施所述时间轴或扫描数目轴的标准化(时间标准化)。
所述内部标准概念来自于划分液体色谱分析中的洗脱指数理论,并且在本文中在简单假定的情况下被使用。这里假定尽管移动相位合成物的随机波动在保持时间中造成偏移,但是被分离的物质的洗脱顺序保持不变,并且通过梯度洗脱,保持时间之间的距离被线性化。所述两个内部标准的保持之间的保持时间借助线性函数被标准化。可以使用任何内部标准物质组,其中该内部标准在所述给定经验设定中是可测量的并且覆盖了质量/电荷值的一个范围,并且具有覆盖所述观测时间间隔的保持时间。
所述的时间标准化基本上等于在一个假定的真正的或理论的或共同的时间轴或扫描数目轴上绘出所述被测量的时间轴或扫描数目轴。通过这种时间标准可以消除依赖工具的偏差。
所述时间标准化的概念可以推广或延伸到这样的情况、即根据基于至少一个第一分析技术而获得的诸如时间序列的一个分离,多种其他不同的技术被应用,其中每一个都具有它自己的时间轴或其他表征测量值轴,其中根据所述至少一个第一分析技术所获得的分离被描绘在所述轴上。这些不同的时间轴或表征测量值轴可以根据内部标准而被同步或标准化,其中所述的内部标准样品出现在通过其他相应技术所获得的测量数据部分中。
实施方案如前所述,根据本发明所述的方法的一个优选实施方案,通常有多个样本被分析、也即空白样本、只包括标准的样本、真正的样本、标准化样本和包括内部标准的真正的样本。对于一个真正的样本,应当使用至少一个关联的标准测量和至少一个关联的空白测量来作为对从所述真正样本所获得的测量数据实施分组的初始化的基础。因此,首先所述空白样本和标准样本的测量数据必须在所述真正样本的分组开始之前被获得。然而,不应当排除的是,所述的数据预处理和处理关于包括所述样本的所有测量数据的一个数据组而整体地被实施。另外,还不应当排除的是,数据预处理和数据处理在实施提供所述测量数据的所述技术过程中已经同时被实施。尤其可以执行一些类型的“在线数据处理”,其中该处理与通过检测硬件提供的测量数据的收集交错地实施。
所述包括未知物质和内部标准的真正样本的测量数据的分组和贝叶斯学习优选地如下地被实施首先沿预知的m/z轨迹搜索相应的数据点,其中在所述m/z轨迹中内部标准是被期望的。为了实施这种搜索,用从标准样本的测量中所获得的已知的真正的m/z值和预测的质量-电荷间隔来对所述贝叶斯学习算法进行初始化。由于所述真正的m/z值是已知的,那么就假定正态分布。
在基于所述内部标准的贝叶斯学习之后,所述贝叶斯学习算法就为搜索未知离子进行初始化。为了这种搜索,首先在所述整个m/z轴上假定一个平滑的测量误差分布,这是由于还不知道哪个m/z值是必须期望的。在已经找到所述第一数据点之后,就假定以该数据点的m/z值为中心的一个测量误差分布来对下一搜索的贝叶斯学习算法进行初始化。由于所述真正的m/z值是未知的,那么就用所述t分布来代替正态分布。为了进行属于相同峰值的另外的数据点的所述下一搜索,所述t分布被初始化,这样使得所述结果的预测质量-电荷间隔或窗口仍旧反映了从来自内部标准的数据的分组中所获得的所述预测质量-电荷间隔或窗口。处于所述当前质量-电荷窗口中的每个另外的数据点一般改变了所述平均m/z值,其中所述的平均m/z值位于所述t分布的中央,并且通常也位于所述分布宽度的中央,并因而位于所述结果预测质量-电荷窗口的中央。但是,由于一个单独的数据值对从所述分布而获得的所述预测质量-电荷窗口具有相对小的影响,那么一个单独数据点对所述平均m/z值并因而对所述预测质量-电荷窗口的位置的影响要大于对该窗口宽度的影响。
用于根据贝叶斯建模来找到内部标准特定离子的峰值的一个过程的例子在附图4a至4d的流程图或数据流类型图中在某种程度上更详细地被描述。根据由专家估计的一个预测间隔(1-α)和一个确定性P以及一种特定离子的一个相应的m/z值,为该种离子的测量而建立了一个先验分布。通过应用概率微积分而确定了所述第一质量窗口。处于安全考虑,所述算法开始于大于由专家估计的所述预测(1-α)间隔的一个预测间隔(1-α/2)。只要在随后的扫描中没有观测到有测量位于所述相应的当前质量窗口中,那么所述当前质量窗口(比如根据专家预测而获得的所述第一质量窗口)和相应随后的当前质量窗口保持相同。
如果观测到位于所述质量窗口中的一个测量值(参见附图4a中的扫描i和i+1),那么就通过贝叶斯学习并且通过应用所述的概率微积分为该种离子的测量而获得了所述的后验分布,并获得了相应的下一个当前质量窗口(参见附图4a和附图4b中的第二质量窗口和第三质量窗口)。
在已经找到位于所述第一质量窗口中的所述第一测量值之后,当在下一扫描中找不到位于所述当前质量窗口中的另外数据点时,原则上可以终止对属于同一物质的数据点的搜索。但是,该终止条件太苛刻了,原因在于可能经常发生的是在一次或一些次连续的扫描中找不到位于所述相应当前质量窗口中的质量点。因而,在终止对关联于同一种离子的其他数据点的搜索之前,并且假定现在属于一种物质或离子的所有数据点已经被找到,则优选地允许实施一定数目次的给不出另外数据点的扫描。这在附图中有示例(参见附图4b),其中所述的缩写NaN表示“Not a number(一次都没有)”,也即表示在建立一个相应的当前质量窗口之后在下一扫描中找不到位于该当前质量窗口的数据点的这种情况。比如,可以允许在其中找不到位于所述当前质量窗口中的数据点的仅一次或两次连续的扫描而不终止所述搜索。
在找到内部标准的特定离子的过程中,也可以合适地另外使用其他条件、比如所述的单峰性条件和所述的强度条件。这比如可以根据被连续地发现位于一个相应的当前质量窗口中的、并因而被认定关联于同一离子的四个数据点来实施。是否终止搜索另外可以根据这种类型的至少一个附加条件、比如单峰性条件和强度条件。在中止一个搜索之后,所述贝叶斯学习算法可以重新被初始化,以用于搜索与其他相应内部标准的另一特定离子相关联的数据点。
在终止所述相应搜索之后,所述结果保持时间可以根据所述相应内部标准的已知值而被检查(附图4c)。可以为每个峰值输出确定的相关数据(附图4d)。
在附图5中给出了关于找到未知离子峰值的一个相应的例子。所述进程非常类似于附图4a至4d的情况。不是假定以一种相应特定离子的理论m/z值为中心的一个相应的分布(比如正态分布),现在则是在所使用设备的整个测量范围上假定一个平均分布来作为起始质量窗口。
在已经检测到所述第一数据点之后,根据所述概率微积分来获得所述后验分布和一个窄的当前质量窗口,并且所述算法基本象在找到内部标准的特定离子的峰值的情况一样来对所述峰值进行搜寻,并进行所述合适的质量窗口的更新。但是,对于未知离子的搜索,除了绝对的要求之外(其中所述的绝对的要求指的是相同类型的离子的测量必须关于m/z值和扫描时间相互接近),还应当采用附加的条件、比如强度边界条件或强度条件以及基于一个色谱分析的峰值的典型形状的至少一个条件。尤其应当要求,所述相应强度值的顺序具有一个最小累积强度,并且显示出一个色谱分析的峰值的典型形状。在下文中解释了这些附加条件的优选实施。
在分组过程中附加标准的应用首先,如果在一些适合的质量窗口中的所述第二观测具有比所述第一观测小的强度,那么就放弃所述第一观测,并且用所述第二观测替换所述第一观测来继续搜索,这是因为所述第一强度值和所述第二强度值在单峰性条件下不可能属于同一峰值。
如果已经观测到四个数据点在连续的扫描时间中具有在一些适合的质量窗口中的m/z值(m/z1,m/z2,m/z3,m/z4),那么就检查它们的累积强度关于一个共同的基线是否高于一些阈值。只要不高于,那么就在所述的适合的质量窗口中继续搜索。如果在连续的扫描中,其他数据点到所述的适合的质量窗口中的流入被中断,而且它们的强度值还未超过所述的强度边界,那么这些数据点就被放弃。
如果在一些适合的质量窗口中的一些连续数据点的累积强度超过了所述的强度边界,那么就检查所述强度值的序列是否显示出单峰形状。如果没有违反得太多,那么就继续搜索。如果违反了,那么就放弃所述第一数据点,并且用新集合的其他数据点来继续搜索。如果在连续的扫描次数中,更多的数据点加入该集合,并且在某些时间上出现新的数据点,不再满足所述的单峰性条件,那么就把不包含所述最近一个的所述数据点集合认为是一个完整的峰值,并且用所述最新的数据点作为所述第一数据点开始新的搜索。
因此,在连续地找到位于一个当前质量窗口中的数据点的情况下,在已经找到可能属于同一种离子的四个数据点之后的开始适用所述的单峰性条件和某种强度条件,也优选地适用一个附加的峰态条件。这些数据点可以被称为相应一个数据点组的“候选成员”。如果不满足所述的附加条件,那么属于相应一种离子的所有数据点就已经被找到或者在该m/z范围内没有这样的数据点。然后,所述算法被重新初始化以搜索其他未知的离子。这意味着,在一个相应测量系统的整个m/z轴上或者整个m/z观测间隔上再次假定一个均匀分布以开始所述算法。
在找到具有在一定程度上重叠的质量窗口的一个峰值集合的情况下,所述相应质量窗口和时间窗口可以被组合,以检查这些峰值是否应当归属于所述移动相位。如果所述被组合的窗口覆盖了所述观测时间的大部分,那么一般就可以假定这些数据点是所述移动相位中的离子的测量。因而,这些数据可以通过应用相应的删除模板而被删除。
基于所述数据点的共同特征的标准所述的强度条件、单峰性条件和峰态条件或检测是基于多个强度值的共同特征的附加条件的例子,其中所述的多个强度值属于在连续扫描中所观测的具有在所述适合的质量窗口中的m/z值的数据点。所述后两个条件可以如下所述地实施假定找到一些潜在的峰值具有保持时间t1、t2、...、tN和强度I1、I2、...、IN。所述第一保持时间是直到在一些质量-电荷范围内所收集的I1的离子的一些时间间隔的上限。另外,该间隔的下限也是需要的,它被定义为t0=t1-min{tn+1,n=1,...,N}
这是应用所述单峰性条件和峰态条件的时期。
属于同一成分的离子的被观测的一系列强度值可以被认为是所谓“被分组”的数据的一些直方图。这里假定的是所述单词“被分组”的某一统计意义。因此,所述单峰性条件和所述峰态条件在该统计意义上被用于“被集合”的数据。
这是因为,实际上所述探测硬件对在由所述扫描次数所确定的一个时间间隔内所出现的具有相同(不连续)的质量-电荷值的所有离子进行计数。
如果所述LC过程是某随机的过程,相同物质的分子具有根据在某平均保持时间或删除时间附近的某概率分布的一个概率。这种分布在时间上看起来是(几乎是)连续的,但是所述过程仅可以在离散的时间点上被观测到、也即不同的扫描次数。因此观测一个直方图,其中每个条(也即所述强度)给出了在某时间间隔内所观测的发生的次数。
与不可观测的“原始”数据相比,被分组的数据有时需要适合的分析方法。
单峰性检查所述单峰性检查是基于Hartigan的所谓DIP测试和Hartigan(1985),参见应用统计学(1985)34,320-325中P.M.Hartigan的“Computation of the Dip Statistic to Test forunimodality(用于测试单峰性的Dip统计计算)”和统计年报(1985)13,70-84中J.A.Hartigan和P.M.Hartigan的“The Dip Test ofUnimodality(单峰性的Dip测试)”。
另外还参照了ZUMA-Nachrichten(ZUMA-信息)(1996)38,33-34中Gabler和Borg的Unimodalitt und Unimodalittstests(单峰性和单峰性测试)。
1)所述的峰值强度被标准化而等于是一个femp(tn):=InΣk=1NIk,]]>并计算所述累积总和Femp(tn)=Σk=1nIkΣk=1NIk.]]>所述结果函数Femp具有一些经验分布函数的属性。
2)最接近该分布函数的单峰分布函数通过使用最大的凸起的弱函数和最小的凹陷的强函数一个具有模m的单峰分布函数在(∝,m]中是凸起的,在[m,∞)中是凹陷的。最接近经验分布Femp的所述单峰分布函数U通过所述间隔[t1,tL]中Femp的最大凸起弱函数以及通过所述间隔[tU,tN]中的最小凹陷强函数来给出,其中所述的tL和tU被迭代地确定,以使Femp和U之间的(点方式的)距离最小化。(U是连续的-见附图6)。该距离被称为“DIP”。
3)然后形成所述差u(tn)U(tn+1)-U(tn),n=0,...,N,并获得了具有如同Femp一样的成分的、基于U的某近似经验密度函数u。
4)被用作单峰性测量的所述差被确定为u和femp之间的最大点方式差。
或者,也可以使用U和Femp之间的最大点方式差、既所述的传统DIP测量。但是,所获得的结果还不足够好。其原因大概是所述数据是被分组的数据,但是所述的DIP统计是为原始数据而被展开的。
5)如果所述差大于某阈值(典型的是在0.01和0.1之间的某值),那么所述数据点的集合就被认为不是由同一类型的离子所形成的。
因为共同的分布属于单峰分布的类,所以具有接近矩形形状的直方图将不会由所述非单峰性阈值过滤掉。这是通过拟合的单峰密度的检查而实现的。
峰态检查在用于计算峰态的所述公式的表达中,所述平均保持时间被表示为t‾=Σn=1NtN.]]>另外还需要每个相应保持或探测时间间隔的平均值,该值被表示为tn‾=12(tn-tn-1),n=1,···,N]]>所述拟合的单峰密度的峰态的计算是通过k=1NΣn=1N(tn‾-t‾)4un(1NΣn=1N(tn‾-t‾)2un)2]]>所述峰态(这里所使用的)被定义为所述四阶中心矩除以所述二阶中心矩的平方。任何正记分布(不仅仅是所述标准正态分布)的峰态都是3。在任一间隔所确定的所述均匀分布的峰态(也称为矩形分布)为1.8。因此为了滤除接近矩形形状的直方图,所述峰态阈值被优选地设定在约2到2.5之间的一个水平,其中该阈值必须被超过。
通常,某随机变量的第r矩被定义为该随机变量的第r次幂的期望值。某随机变量的所述第r中心矩被定义为所述随机变量与它的第一矩之差的第r次幂的期望值。
某分布的密度的位置通过所述第一矩而被确定,其形状通过接下来的较高次的中心矩来确定。越多矩相同,分布越相同。
示例在下文中给出了对于贝叶斯更新方案和基于此而实现的分组的一些示例。
为了找到某未知离子的一个峰值,首先在整个m/z范围内假定一个测量误差分布的平均分布,这在附图7a中象征性地示出。一个数据点第一观测给出一个强度值(附图7b)。根据所述贝叶斯概率微积分获得一个窄的质量窗口(附图7c)。位于该质量窗口(附图7c)中的另一数据点被鉴别为属于具有某一强度(附图7d)的所述样本的同一生成物或成分的一个候选数据点。该方案被重复(比较附图7e和7f)并且可以导致一系列的强度值(附图7h),其中这些强度值大概由相同的离子引起。根据附图7h的所述强度值通过了所述强度检查、单峰性检查和峰态检查。
在所述分组中,要说明的是,并不是在每次扫描中都找到一个位于所述当前质量窗口中的数据点。如附图8a和附图8d所示,一个相应的遗漏的强度值可以比如通过线性内插而被加入到强度值序列中,其中在该序列上应用强度条件、单峰性条件和峰态条件。如果一个或一定数目的连续的强度值遗漏,那么就不终止所述的分组,这是因为遗漏的数据点可能由所应用的技术的环境引起,并且尽管它们应当被显现,但不能探测到。通过所述遗漏的单个点或多个点的插值,被探测的所述累积强度没有被负面地影响,并且所述的单峰性测试和峰态测试仍旧可以有效地被应用。
优选地,所述强度条件不是直接地被应用于属于大概形成一个峰值的一个相应集合的数据点的多个强度值,而是应用于强度差ΔIi,其中该差是相应的强度值与连接该分组的第一个和最后一个强度值的一条直的基线的相应强度之间的差。然而在附图8b中绘出的是从时间点ti的强度值到时间点ti+8的强度值的这样一条基线。因此,这样一个强度值分组的所述第一个和最后一个强度值对在所述强度条件中被检查的一个累积强度值是不起作用的。
优选地,所述单峰性条件被如此应用,即可以允许较小地违背所述单峰性要求(附图9)。
所述单峰性检查被证明是用于分离重叠峰值的一个有效的方法(附图10),即使如果在关联于所述两个重叠峰值的相应一个的两个数据点组之间存在不清楚的相互影响(附图11)。
由于单独所述单峰性条件或者联合其他条件、尤其是所述峰态条件的作用,对于一些测量状况是足够的,其中所述的测量状况是不采用贝叶斯学习,以及对固定的m/z轨迹在所谓的“固定收集槽”意义上仅采用一种峰值搜索算法,借助基于所述强度条件和单峰性条件以及可能至少一种诸如峰态条件的附加条件的这种峰值搜索算法来鉴别相应的峰值。
优选地,所述强度条件、单峰性条件和同样优选的所述峰态条件仅仅被用于由至少四个数据点构成的数据组,其中所基于的假定是任何真正的峰值必须具有至少四个数据点。因此,具有少于四个点的尖峰在任何情况下将不会被认为是一个真正的峰值,这样这些点甚至在应用所述强度条件、单峰性条件和其他条件之前就被丢弃。具有四个或更多点的尖峰(附图12)一般不会通过所述强度条件或/和单峰性条件。如果没有其他基于分布条件的条件(比如所述峰态条件)被应用,那么能通过这些条件的尖峰将被作为真正的峰值来对待。实际上一般不必区分出通过所述强度条件和所述单峰性条件的尖峰,其原因在于通常所述分析是基于很多测量的全体的。极其没有可能在几个测量中的相同位置出现尖峰。
所述分组过程也在附图13的图表中示出,其中该图表涉及的是关于未知离子的分组。在已经找到第一数据点之后,就获得了所述m/z值的一个测量误差分布,其中该分布的中心是该数据点。而且,位于由所述相应当前分布所确定的一个相应当前质量窗口内的所述数据点被鉴别为关联于相应相同离子的同一组的候选成员。优选地,为了所述贝叶斯更新,只考虑信息“数据点位于所述当前质量窗口中”和“数据点没有位于所述当前质量窗口中”,而不是相应数据点的强度。然而,这在理论中是可能的。根据这里所假定的所述手段,当不考虑强度时,在所述t轴或扫描数目轴的方向上出现的不同数据点的分布为了获得所述当前后验分布(其中该分布对于所述下一数据点是先验分布)而被如此评估,即对于一个相应组的所有成员(候选或确认成员)而获得的所述平均m/z值对应于所述结果分布的最大值。
由贝叶斯学习而获得的、沿所述质量-电荷轴的“可变收集槽”的使用具有的主要优点是可以避免数据点的错误分组,也即错误地确定特定数据点属于另一错误的离子。这在基于沿所述m/z轴的“固定”收集槽的常规峰值选择方法中是危险的。附图14直观地比较了所述固定收集方法(附图14a)和所述“基于由贝叶斯学习所获得的可变收集槽的分组”(附图14b)。一个相应可变的收集槽的特征在于位于所述相应当前(适用的)可变收集槽中的所有观测的平均m/z值m/zION以及以m/zION为中心的所述相应可变收集槽的宽度2*Δm/zdev。在附图14a中,在所述“固定收集”方法的情况下将会错误地被分组的那些数据点被箭头标出。
在附图15至23中还示出了根据前文所述方案的一种数据处理和分组。
附图15示出了在实施任何处理之前的一部分原始数据。属于噪声的数据点可以比如根据由附图1所解释的一个对数的强度值直方图被消除。这些噪声数据点在附图16中被标为实心点。附图17示出了具有高于所述噪声水平的强度值的数据点。所述噪声数据点已经被消除。
通过有选择地将算法应用于质量窗口(其中在该窗口中内部标准离子是被期望的),在附图18中被标为实心点的所述数据点被鉴别为由所述内部标准样品的特定离子之一引起。根据这些点和其他数据来对所述质量误差分布进行检查和学习。
通过将所述的算法应用于剩余的数据点,一个真正色谱分析峰值的所有候选数据点以及其他数据点被鉴别。在附图19中,不满足色谱分析峰值的标准的数据点被表示为实心点。因此所述算法就确定这些数据点不是由正确通过所述LC-MS过程的一些物质引起的。附图20示出了在附图19中的457和457.5Da之间的数据点的强度值序列。因为不存在具有一个清晰的峰值形状和一个(累积的)可以考虑的强度的系列,所以所有这些数据点被放弃。
附图21示出了作为实心点的满足一个色谱分析峰值的所述标准的那些数据点。附图21示出了明显符合一个单峰形状的这些数据点的强度值序列。
不是保存这些数据点,而是可以保留一个累积强度和所述质量窗口和时间窗口的矩形来作为关于所述被检测离子的主要信息(附图23)。
系统附图24示出了一个系统的构造示意图的例子,其中该系统可以被用于在本发明的一方面或两方面来实施本发明。所述系统或分析装置100具有一个分离单元102(比如一个毛细管电泳单元或者液体色谱分析单元)、一个离子化单元104(比如一个电喷雾离子化单元)和一个质量分析单元106(比如飞行时间质量光谱仪、四极质量光谱仪或者诸如此类)。所述分离单元102分离相应样本的成分,并把根据一个时间序列的被分离的成分提供给所述的离子化单元104,在所述离子化单元中成分被离子化并被提供给所述质量色谱分析仪106,该质量色谱分析仪具有合适的离子分离和探测硬件来提供数据的一个时间序列的或扫描数目序列,其中该数据等于是包括探测时间或扫描数目、相应一种离子或相应多种离子的质量-电荷值、以及所述相应一种离子或多种离子的强度或计数数目的三维数据。
所述单元由一个控制单元108控制,其中该控制单元具有一个显示器110、一个键盘112和一个打印机114。至少有一个处理器116和一个数据存储单元118被集成在所述控制单元中。所述存储单元118可以存储感兴趣成分的特征数据的一个数据库用于与由所述系统100获得的测量结果进行比较。
所述控制单元108从所述质量色谱分析仪106获得所述测量数据,并且根据本方面分组这些数据。为了实施这种分组,从所述质量色谱分析仪106所接收的所述原始数据被存储在所述存储单元118中。优选地使用反映相应的时间或扫描数目值、相应的质量-电荷值和相应的强度或扫描数目值之间的相互关联的数据结构。从所述分组获得了所述时间或扫描数目坐标的以及所述质量-电荷坐标的间隔,连同一个相应的累积强度或计数值,其中该强度或计数值代表了与所述样本的一种相应成分相关联的一个相应峰值。这些结果数据基本上包括了可以从所述原始数据获得的所有感兴趣的信息。所有其他的分析基本上可以根据所述结果分组数据而不是所述原始数据来实施。因此,所述原始数据在生成所述分组数据之后可以被删除。即使所述其他的分析根据所述原始数据来实施,所述分组数据也是非常有用的,这是因为所述分组数据允许识别尤其感兴趣的数据点。
应当补充的是,根据本发明所述的数据预处理和数据处理也可以通过一个数据处理系统来实施、比如通用计算机,其中所述数据处理系统不是直接连接到比如包括单元102、104和106的一个测量系统上。
对于根据附图24所述的系统100应当补充的是,基于任何传统的系统可以提供实现本发明这样一个系统,其中所述的传统系统具有适于通过加载实现本发明的合适软件来实施数据处理的一个控制单元。所述软件可以以一种计算机可读介质的形式而被提供,比如以CD-ROM或DVD-ROM的形式,或者从一个服务器计算机系统比如通过因特网来加载这种软件,其中所述介质含有实现本发明的一种指令程序。
例子将根据本发明在其两个方面所述的数据预处理和数据处理应用于一个血清样本的一个LC-ESI-MS数据组。通过降噪、尖峰识别、所述移动相位和所述内部标准的序列的删除以及把所述峰值分组到可变收集槽中,生产了一个新的数据组,该数据组保留了关于所述“真正”峰值的位置和强度的全部相关信息,而相当大地减少了数据的数量。所述原始数据包括约三百万单个数据点,对应于约22MB的数据量。在所述预处理和处理之后剩下1087个峰值,对应于约700kB的数据量。因此,实现了一个相当可观的数据缩减和压缩,尽管保留了用于关于样本中所包括的成分来表征所述样本的所有信息。
附图25示出了在根据本发明的两个方面所述的数据预处理和处理之前(附图25a;原始数据)和之后(附图25b;被分组的数据)的一个LC-MS数据组的三维描述的比较。所述相关信息被保留,而所述数据量被缩减约100的因数。
数字的例子参照附图26以及参照附图27至78中所示的一种分组协议,还示出了根据本发明所述的分组的一种优选实施方案,其中附图26示出了代表通过根据本发明所述的分组在一个大的LC-MS原始数据组中所找到的一个峰值,其中在所述分组协议中包括了代表作为根据附图26所述的分组结果的基础的所述分组的协议数据。附图27至28代表了从包含有很多分组协议页的分组协议的摘选。
在所述分组协议的一个前言部分10中,在附图27的分组协议页1上,给出了所述分组所基于的一些参数。重要的参数是强度截止阈值、单峰性截止阈值和峰态截止阈值。在所述协议的部分12和14中给出了所假定的先验分布的类型和用于所述贝叶斯统计的初始数据。
出于使数据处理更简单的原因,当位于所述当前质量-电荷窗口中的数据点扫描所述原始数据时,不是立即考虑所述整个质量-电荷轴,而是一个特定的工作质量-电荷窗口,在所述分组协议的当前部分中是200.00至205.00Da的一个工作质量-电荷窗口(见注释16)。直到2000.00Da的其他质量-电荷范围在每个都具有5.00Da宽度的相应工作质量-电荷窗口(优选地重叠的)中被分别扫描。
所述分组算法被初始化到对应于所述工作质量-电荷窗口的一个当前质量-电荷窗口,也即200.00至205.00Da的窗口。在该当前窗口上的一个平均分布被假定为先验分布。
通过数据的所述第一扫描,其中该扫描对应于所述质量色谱分析仪在扫描时间901.33秒(见18处)的一个扫描,获得两个观测(见20处),也即找到两个数据点,其中所述第一个具有一个201.01Da的质量-电荷比和一个78682cts的强度,另一个具有一个202.93Da的质量-电荷比和一个5342784cts的强度。
附图28的分组协议页3汇总了到目前为止的所述分组结果。两个潜在的峰值被找到,其中这两个峰值通过给出其当前位置的一个名称来进行标识作为候选成员被加入到一个相应的数据点组中来构成峰值的最后一个数据点的扫描数目,以及四舍五入的平均m/z值。在当前的情况中,在所述第一扫描之后,具有了其中每一个都包含一个候选成员的两个组,或者具有每一个均由一个候选数据点所构成的两个峰值,也即在22和24处所示的被标为Scan1MZ201的组或峰值以及Scan1MZ203的组成峰值。从所述统计中计算出一个后验分布,其中该分布是所述下一扫描的先验分布,并为所述两个组获得一个在23和25处所示的由此产生的预测95%的质量窗口。作为分布采用了一个t分布。
在附图28的分组协议页4上示出了产生四个观测的所述第二扫描。所找到的数据点中的两个位于根据分组协议3的所述预测质量窗口中,也即在关联于峰值Scan1MZ201的所述预测质量窗口[200.72,201.30]中的所述数据点(200.75,13554)和在峰值Scan1MZ203的所述预测质量窗口[202.65,203.22]中的所述数据点(202.93,3867132)。由于在所述第二扫描中所找到的相应数据点的强度值没有达到在所述第一扫描中所找到的相应数据点的强度值,因此所述第一扫描的相应数据点从现在被标为Scan2MZ201的所述组或峰值中,以及从现在被标为Scan2MZ203的所述组或峰值中被删除,并且在所述第二扫描之后的所述后验分布根据在所述第二扫描中所找到的相应数据点而被重新初始化,其中所述后验分布是所述第三扫描的先验分布。所述分组协议包括在页5上26处的相应注释。
在所述第二扫描中所找到的其他两个数据点(200.24,47617)和(201.27,18193)形成了另两个潜在的峰值或组,也即所述峰值或组Scan2MZ200和Scan2MZ201。
所述第三扫描找到了另外两个数据点,其中的所述数据点(201.01,31529)位于组Scan2MZ201的所述预测质量窗口中,这样该数据点被加入到该组中,现在被标为Scan3MZ201。所述另一数据点(203.06,2587450)生成了被标为Scan3MZ203的另外一个潜在的峰值或组。
应当补充的是,在所述解释中仅通过其质量-电荷值和强度值来识别的所述数据点实际是三维数据点,即是也包括代表所述色谱分析单元中的所述保持时间的相应扫描时间的数据点。因此,如果这里谈及在所述第三扫描中所找到的所述数据点(201.01,31529),那么这只是所述三维数据点或数据元组(905.53[秒],201.01[m/z],31529[I])的缩写。所述相应测量值所涉及的所述测量量另外在方括号中给出。除了所述扫描时间ti,在所述三维数据点或数据元组中也可以使用和包括所述扫描数目Ni。
被加入到现在被标为Scan3MZ201的组Scan2MZ201中的所述附加数据点造成了所述预测t分布和所述预测质量窗口的一种更新,这在附图30的分组协议页7中30处被示出。对应于所述第四扫描,一个另外的候选成员被加入到现在被标为Scan4MZ201(见附图31的分组协议页9)的组Scan3MZ201中。
应当补充的是,如果在一个扫描中没有找到另外的候选成员,那么并不删除潜在的峰值或组。如果在一个扫描中没有找到一个组的另外的候选成员,并且在下一扫描中再次找到一个成员,那么所述遗漏的成员通过相临的候选成员间的插值而被加入。但是如果在两个连续的扫描中都没有找到另外的候选成员,那么就删除该组。
因此,组Scan2MZ201在所述第三扫描之后作为具有唯一候选成员(201.27,18193)的组Scan3MZ201而被保留。但是,因为所述第四扫描没有为该组产生一个另外的候选成员,所以该组在所述第四扫描之后被删除。
应当补充的是,在这里所使用的所述描述中不同的组可能具有相同的名字。在所述第三扫描之后,有两个具有名字Scan3MZ201的组,其中一个只具有一个候选成员,包括于所述标题“一次观测的潜在峰值”之下,以及其中一个具有两个候选成员,包括于所述标题“两次观测的潜在峰值”之下。
一个遗漏的数据点的插值可以参见附图33至35的分组协议页13至17。根据扫描6的数据点(200.37,25053)可以建立一个潜在的峰值或组,其中该峰值或组在分组协议页13上被标为Scan6MZ200。第七扫描没有为该组提供另外的候选成员,这样现在被标为Scan7MZ200的该组在分组协议15上显示出仅具有一个候选成员(见32处)。该集合的相应预测质量窗口是[200.08,200.65]。在扫描8中数据点[200.37,34490]被找到,该数据点连同其m/z值位于该预测质量窗口中。因此,该数据点被加入到组Scan7MZ200中,并且现在被标为Scan8MZ200的该组在分组协议页17上显示出包含有三个数据点(见34处),用通过线性插组而获得的所述另外的数据点(200.37,29771)来填充扫描7的所述遗漏数据点。
在附图26中所示的峰值的第一数据点在扫描9中被找到,也即数据点(204.73,34040),并且如附图36和37的分组协议页20和21所示,基于该点建立了潜在组或峰值Scan9MZ205。该组在分组协议页20上以及以后的分组协议页上用箭头来标出。
扫描10至34中的每一个都给出了根据附图26所述的分组或峰值的另外一个成员,见附图75中的分组协议页97,没有找到该组或峰值的另外的候选成员,这样在扫描35之后,现在被标为Scan35MZ205的该峰值或组仍然在分组协议页99上示出具有26个成员(26个观测),如同在扫描34之后的附图74中(这里被标为Scan34MZ205)分组协议页96上的一样。
扫描36(比较分组协议页100)没有发现该组或峰值的另外的候选成员,其原因在于没有m/z值位于该组或峰值的所述当前预测质量窗口[204.72,205.12]中(见28处)。因此,由26个数据点构成的组Scan35MZ205在扫描36之后不再加入候选成员。
在附图26中所示的所述峰值或组满足所述强度条件、单峰性条件和峰态条件。这些条件被优选地应用于具有四个候选成员的每一个潜在组或峰值,这样使得只有这样的一个相应组的数据点以及只有这样的组被保留作为对应于一个潜在峰值的潜在组,其中所述的相应组的数据点以及所述组指的是已经满足所有这些标准的或者基于将被加入到所述相应组的另外的候选成员而可以被实现的。这意味着,不满足或不能满足这些条件任意之一的那些数据点可以从相应组中删除,或者如此的那些组可以被删除,其中不满足这些条件之一的意义是即使基于在随后的组中可能被发现的另外的候选成员,这些条件也不能被满足。但是,也可以如此实施所述分组,即所述强度条件、单峰性条件和峰态条件仅仅在为了防止再加入候选成员而关闭一个集合之后才被使用,这样使得当不满足这些条件之一时就把该组放弃,并且如果满足所有这些条件,那么该组就被作为代表一个相应峰值的组而被保留。
应当注意的是,作为在为了防止加入其他候选成员而关闭该集合或峰值之后确定一个集合或峰值的质量-电荷间隔或者是所述最后后验质量窗口(也即用于其中找不到另外的潜在成员的其他扫描的预测95%质量窗口)或者由属于该集合或峰值的数据点的最低和最高m/z值而确定的一个间隔,其中所述的最后后验质量窗口在根据附图26所述的峰值的情况中是在附图76的28处所示的质量窗口。优选地属于该集合或峰值的所述数据点的最低和最高时间值被当作为探测时间间隔,在该组或峰值Scan35MZ205的情况中,是间隔[918.14(s),970.66(s)]。另外,扫描数目间隔也可以被使用,在该组或扫描Scan35MZ205的情况中,由被加入到该组的所述第一和最末数据点的所述扫描数目所确定的所述间隔[9,34]被使用。
在附图27至78中所示的所述组协议页示出了同时也关于与潜在峰值相关联的其他组的所述分组过程,然而其中,尤其因为在两个连续的扫描中没有找到另外的候选成员,所以所述的其他组在所述分组过程中被放弃。所述协议可以实施所述的分组过程以及所述的数据处理,其原因在于给出了以下的信息对于每个扫描都显示出哪些数据点已经被找到。然后显示出哪些潜在峰值已经用这些数据点进行了补充以及哪些结果引起了更新(如何以及为什么)、最终结果(放弃点或者组合成一个峰值)以及原因。
潜在的峰值被列出,其中所述潜在峰值由于在两个连续的扫描中没有发现有另外的数据点位于所述当前质量窗口中而被终止,其中所述的结果被示出了最终结果(放弃点或者组合成一个峰值)以及原因。
如果一个潜在峰值超过所述阈值i)在相应组中多于四个候选成员以及ii)足够的强度,那么关于放弃所述数据点或识别为真正峰值的决定是直观的对于所示出的所述分组协议的摘选,这仅仅应用于在附图26中所示的峰值,附图26就是这种直观化的体现。
在每个扫描末尾,所述当前潜在峰值被列出,包括它们的当前数据m/z值强度、从补充遗漏数据点的间隙的线性内插获得的另外的m/z值和强度值、所述t分布的参数、用于下一扫描的预测质量窗口。
关于在本实施方案中所述分组的实现,其中所述分组是根据上述的实施方案而在工作质量窗口中被实施的,应当补充的是,可以提供重叠的工作质量窗口,这样就有可能也关于在沿所述m/z轴的两个工作质量窗口的边界上的或者穿过边界的峰值来实施所述分组。如果在所述重叠m/z范围中有一个峰值,那么该峰值将会被发现两次,基于所述两个重叠质量窗口中的每一个都被发现一次。所述两个峰值中的一个则可以被放弃。
其他实施方案本发明并不局限于这里所考虑的实施方案。比如本发明可以被应用于具有多于三的较高维数的测量情况中。比如,可以分离出一个物质流来在所述色谱分析单元之后提供给诸如UV光谱仪的一个光谱仪。在这种情况下可以获得另外的强度光谱(在波长上的UV强度),其中所述强度光谱与根据一个共同时间轴的、立即或者在时间标准化之后获得的所述质量光谱相结合。对于如此这样的一个测量状况的所述测量数据将具有五个维时间、质量-电荷比、质量光谱仪强度、波长和UV强度。另一种可能性就是并行实施两种类型的离子化技术,比如ESI离子化和APCI离子化,其中每一种都与一个相应的质量光谱仪耦合。在这种情况下将获得通过一个共同时间轴相结合的两个质量光谱,也即一个ESI质量色谱和一个APCI质量光谱,这样就再次获得了五个维,如果一同结合UV光谱学则共七个维。
另外,本发明还可以被应用于完全不同的分析和探测技术。
根据本发明的另一方面,还提供了一种方法,该方法用于对通过实施两种或更多技术而获得的测量数据进行分组,以关于表征物质来提供表征至少一个样本的表征数据。根据本发明的一个特定方面,所述分组是根据相应一个表征测量值的偏差的至少一个统计分布来实施的。根据本发明的另一个特定方面,所述分组是根据多个相应量化的测量值的至少一个共同的特征来实施的。
权利要求
1.用于通过实施两种或更多种技术来分析至少一个样本以提供表征数据的方法,其中所述的表征数据在其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及由至少一种所述技术所产生的生成物方面来表征所述的样本,其中所述的方法包含以下的步骤a)实施至少一种第一分析技术i)用于分离成分,或者ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,针对所述的样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)针对已经被分离或者正在被分离的成分或生成物来实施至少一种另外的技术,其中所述的另外的技术至少是一种分析和探测技术之一,用于根据i)通过实施至少一次步骤a)所实现的至少一次分离以及ii)至少一个另外的区别特征中的至少一种来表征被分离的成分或生成物;其中至少在步骤b)中使用探测硬件,其中该探测硬件提供测量数据,其中该测量数据在至少两个表征测量量(扫描数、质量-电荷比;探测时间、质量-电荷比)方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量(扫描数;探测时间)反映了所述的或者通过实施至少一次步骤a)而实现的至少一次分离,并且所述表征测量量的至少一个另一量(质量-电荷比)反映了i)通过实施至少一次步骤a)所实现的至少一次另一分离以及ii)所述另外的区别特征或者至少一个另外的区别特征中的至少一种;其中所述的方法还包括以下步骤c)根据由所述探测硬件提供的所述测量数据,通过相互关联至少一个相应的第一表征测量值(Ni;ti)与至少一个相应的另一表征测量值(m/zi)来提供数据元组((Ni,m/zi);(ti,m/zi)),其中所述的第一表征测量值(Ni;ti)在所述表征测量量的所述至少一个第一量(扫描数;探测时间)方面代表了所述的表征或者至少一个表征,而其中所述的另一表征测量值(m/zi)在所述表征测量量的所述至少一个另一量(质量-电荷比)方面代表了所述表征或至少一个表征;d)把所述的数据元组针对至少一个所述表征测量量的所述表征测量值而分组到表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中,其中所述的间隔每一个都被确定与所述成分或生成物中的特定一种潜在地相关联;其中是根据所述相应表征测量值(m/zi)与关联于特定一种所述成分或生成物的一个真正的或表征的或平均的表征测量值(m/zION)之间的偏差(Δm/zi)的至少一种统计分布来实施所述的分组;其中所述的方法还包括至少一个以下的步骤e)数据或数据可视化的存储、显示和打印的至少一种,其中这些数据或数据可视化反映或包括了i)从所述分组中获得的数据元组组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项;f)还分析所述至少一种样本或所述成分或生成物中的至少一种,其所基于的是i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项,或者基于如步骤e)所述的存储、显示或打印的数据或可视化。
2.根据权利要求1所述的方法,其中由所述探测硬件提供的所述测量数据包括量化的测量数据,其中该量化的测量数据在关于与之相关联的至少一个表征测量量的至少一个量化测量量(离子强度)方面代表了由所述探测硬件探测的、并由所述探测硬件提供的至少一个量化(离子强度),并且在该方法中通过所述的至少一个相应的第一表征测量值(Ni;ti)、所述至少一个相应的另一表征测量值(m/zi)和至少一个相应的量化测量值(Ii)之间的相互关联而提供所述数据元组((Ni,m/zi,Ii);(ti,m/zi,Ii)),其中所述的量化测量值(Ii)在至少一个量化测量量(离子强度)方面代表了所述的量化或者至少一个量化(离子强度)。
3.根据权利要求2所述的方法,其中在步骤d)中所述的分组还根据多个所述量化测量值(Ii)的至少一个共同特征而被实施,其中所述量化测量值的每一个都属于所述数据元组的相应之一。
4.用于通过实施两种或更多种技术来分析至少一个样本以提供表征数据的方法,其中所述的表征数据在其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及由至少一种所述技术所产生的生成物方面来表征所述的样本,其中所述的方法包含以下的步骤a)实施至少一种第一分析技术i)用于分离成分,或者ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,针对所述的样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)针对已经被分离或者正在被分离的成分或生成物来实施至少一种另外的技术,其中所述的另外的技术至少是一种分析和探测技术之一,用于根据i)通过实施至少一次步骤a)所实现的至少一次分离以及ii)至少一个另外的区别特征中的至少一种来表征被分离的成分或生成物;其中至少在步骤b)中使用探测硬件,其中该探测硬件提供测量数据,其中该测量数据在至少两个表征测量量(扫描数、质量-电荷比;探测时间、质量-电荷比)方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量(扫描数;探测时间)反映了所述的或者通过实施至少一次步骤a)而实现的至少一次分离,并且所述表征测量量的至少一个另一量(质量-电荷比)反映了i)通过实施至少一次步骤a)所实现的至少一次另一分离以及ii)所述区别特征或者至少一个另外的区别特征中的至少一种;其中由所述探测硬件提供的测量数据包括了量化测量数据,其中该量化测量数据在关于与之相关联的至少一个表征测量量的至少一个量化测量量(离子强度)方面代表了由所述探测硬件探测的并且由所述探测硬件提供的至少一个量化(离子强度);其中所述的方法还包括以下步骤c)根据由所述探测硬件提供的所述测量数据,通过相互关联至少一个相应的第一表征测量值(Ni;ti)、至少一个另一表征测量值(m/zi)和至少一个相应的量化测量值(Ii)来提供数据元组((Ni,m/zi,Ii);(ti,m/zi,Ii)),其中所述的第一表征测量值(Ni;ti)在所述表征测量量的所述至少一个第一量(扫描数;探测时间)方面代表了所述的表征或者至少一个表征,而其中所述的表征测量值(m/zi)在所述表征测量量的所述至少一个另一量(质量-电荷比)方面代表了所述表征或至少一个表征,而其中所述的量化测量值(Ii)在所述至少一个量化测量量(离子强度)方面代表了所述的或至少一个量化(离子强度);d)把所述的数据元组针对至少一个所述表征测量量的所述表征测量值而分组到表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中,其中所述的间隔每一个都被确定与所述成分或生成物中的特定一种潜在地相关联;其中根据多个所述量化测量值(Ii)的至少一个共同特征实施所述的分组,其中所述量化测量值(Ii)中的每一个都属于所述数据元组的相应一个;e)数据或数据可视化的存储、显示和打印的至少一种,其中这些数据或数据可视化反映或包括了i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的所述的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项;f)还分析所述至少一种样本或所述成分或生成物中的至少一种,其所基于的是i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的所述的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项,或者基于如步骤e)所述的存储、显示或打印的数据或可视化。
5.根据权利要求4所述的方法,其中在步骤d)中所述分组还根据所述相应表征测量值(m/zi)与关联于所述成分或生成物的特定一种的一个真正的或表征的或平均的表征测量值(m/zION)之间的偏差(Δm/zi)的至少一个统计分布来实施。
6.根据前述权利要求之一、至少根据权利要求3或权利要求4所述的方法,其中所述的分组根据包含一个整体量化测量值的至少一个共同特征来实施,其中所述的整体量化测量值由所述多个量化测量值来确定。
7.根据前述权利要求之一、至少根据权利要求3或权利要求4所述的方法,其中所述的分组根据包含至少一条曲线或直方图的形状的至少一个共同特征来实施,其中所述的曲线或直方图由每个都包括所述多个量化测量值的至少相应一个的那些数据元组直接或间接地确定。
8.根据前述权利要求之一、至少根据权利要求3或权利要求4所述的方法,其中所述的分组包括以下的步骤d3)根据一个预定的访问时间表来访问所述数据元组的或者所述的或者所述数据元组的一个子集的至少一个数据元组;d5)把至少一个被访问的数据元组认为是与所述成分或生成物中的特定一种相关联的相应一个数据元组的组的第一或者另一候选成员,其前提是如果期望的所述识别取决于满足至少一个识别条件;d6)如果满足一个终止标准或者多个终止标准中的至少一个,那么i)终止所述的分组;其中重复步骤d3)至d5)直到达到步骤d6)。
9.根据权利要求8所述的方法,其中所述的步骤还包括以下的子步骤ii)如果找到候选成员或确认成员或者候选并确认成员的一组,那么则关闭所述集合以防止再加入候选成员。
10.根据前述权利要求之一、至少根据权利要求1或权利要求5所述的方法,其中所述的间隔是预测间隔或者可能是置信间隔,根据初始数据以及在所述集合过程中可按照步骤d)根据已经被分组的以包括所有相应表征测量值的实际数量的数据元组通过偏差(Δm/zi)的所述统计分布来预测所述间隔,其中所述的相应表征测量值来自于所述成分或生成物的特定一种并且属于还未被分组的数据元组。
11.根据前述权利要求之一所述的方法,其中根据偏差(Δm/zi)的至少一个统计分布,所述的分组涉及判定一个相应数据元组的至少一个表征测量值(m/zi)是否落于一个当前表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev])中,其中所述的当前表征测量值间隔由所述的偏差的统计分布而得出。
12.根据权利要求11所述的方法,其中偏差(Δm/zi)所述统计分布根据所述判定的至少一种来进行更新,其中所述的判定指的是所述相应的至少一个表征测量值(Δm/zi)落于所述当前表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev])中以及所述相应的至少一个表征测量值没有落于所述当前表征测量值间隔中,并且其中从所述被更新的偏差统计分布中得到一个更新的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev])以在所述分组中用作当前表征测量值间隔。
13.根据前述权利要求之一、至少根据权利要求10所述的方法,其中所述的分组包括以下的步骤d1)把基于初始数据的测量偏差的先验分布假定为测量偏差的当前分布;d2)根据所述测量偏差(Δm/zi)的当前分布来获得(比如计算或确定)至少一个当前预测间隔、可能的当前置信间隔;d3)根据一个预定的访问时间表来访问所述数据元组的或者所述的至少一个数据元组、或者所述第一数据元组或下一数据元组或者所述数据元组的子集;d4)判定访问的所述相应数据元组的至少一个表征测量值(m/zi)是否落于所述预测间隔中;d5)如果所述的表征测量值落于所述的当前预测间隔中i)把其中包括所述表征测量值的所述数据元组认为是与所述成分或生成物中的特定一种相关联的数据元组的一个相应组的第一或者另一候选成员;ii)至少根据测量偏差所述当前的分布,优选地也根据所述表征测量值在所述当前预测间隔中的位置,计算出一个测量偏差的后验分布来作为更新的测量偏差的当前分布,其中所述的测量偏差的后验分布对于还没有被访问的数据元组来说是测量偏差的前验分布;d6)如果满足一个终止标准或者多个终止标准中的至少一个,那么i)基于测量偏差的所述当前分布终止所述分组;其中重复步骤d2)至d5)直到达到步骤d6)。
14.根据权利要求13所述的方法,其中所述的步骤d6)还包括以下的子步骤ii)如果找到一个候选成员或确认成员或者候选并确认成员的一个组,那么则关闭所述集合以防止再加入候选成员。
15.根据前述权利要求之一所述的方法,其中所述第一技术或至少一个第一技术被配置用于优选地根据化学效应、物理效应、动力学属性和平衡属性的至少一种对所述成分或生成物的至少一种实施分离。
16.根据前述权利要求之一所述的方法,其中所述第一分析技术或至少一个和第一分析技术包括色谱分析技术和电泳技术至少之一。
17.根据前述权利要求之一所述的方法,其中所述第一分析技术或者至少一种第一分析技术包括一种质谱技术,或者可能包括一种离子化技术,优选的是电喷雾技术或者/以及MALDI技术。
18.根据前述权利要求之一所述的方法,其中所述的另外的技术或者至少一种另外的技术包括一种光谱测定技术。
19.根据前述权利要求之一所述的方法,其中所述另外的技术或者至少一种另外的技术适用于优选地根据化学效应、物理效应、动力学属性和平衡属性的至少一种对所述成分或生成物的至少一种实施分离。
20.根据前述权利要求之一所述的方法,其中所述另外的技术或者至少一种另外的技术包括一种质谱技术,或者可能包括一种离子化技术,优选的是电喷雾技术或者/以及MALDI技术。
21.用于通过实施两种或更多种技术来用于分析至少一个样本以提供表征数据的系统,其中所述的表征数据关于其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及实施根据前述权利要求1至20之一所述方法的所述技术至少之一所产生的生成物来表征所述的样本,其中所述的系统包含以下部分a)至少一个第一分析部分或单元被配置用于实施至少一种第一分析技术i)用于分离成分,或者ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,所述第一分析部分或单元被配置用于针对一个样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,所述第一分析部分或单元被配置用于根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)至少一个另外的部分或单元被配置用于实施至少一种另外的技术以根据i)通过所述的或一个第一分析部分或单元实现至少一次分离以及ii)至少一个另外的区别特征中的至少之一来表征被分离的成分或生成物,其中所述的另外技术是分析和探测技术的至少一种,其中所述的另外的部分或单元是分析和探测部分或单元的至少一个;其中至少所述另外的部分或单元包括或者联接有探测硬件,其中该探测硬件被配置用于提供测量数据,其中该测量数据在至少两个表征测量量(扫描数、质量-电荷比;探测时间、质量-电荷比)方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量(扫描数;探测时间)反映了由所述的或一个第一分析部分或单元而实现的所述的或至少一次分离,并且所述表征测量量的至少一个另一量(质量-电荷比)反映了i)由所述的或一个第一分析部分或单元所实现的至少另一分离以及ii)所述另外的区别特征或者至少一个另外的区别特征中的至少一种;其中所述探测硬件可以或者也可以不被配置用于提供包括量化测量数据的所述测量数据,其中该量化测量数据在关于与之相关联的至少一个表征测量量的至少一个量化测量量(离子强度)方面代表了由所述探测硬件探测的并且由所述探测硬件提供的至少一个量化(ION离子强度);其中所述的系统还包括具有至少一个处理器的至少一个控制单元,所述的控制单元包括或联接有至少一个数据存储单元,所述控制单元优选地还联接有显示单元和打印单元的至少一个,并且该控制单元被优选地配置或编程以控制所述至少一个第一分析部分或单元以及所述至少一个另外的部分或单元;其中所述控制单元被配置或编程以用于c)根据由所述探测硬件提供的所述测量数据,通过相互关联至少一个相应的第一表征测量值(Ni;ti)与至少一个相应的另外表征测量值(m/zi)来提供数据元组((Ni,m/zi);(ti,m/zi)),其中所述的第一表征测量值(Ni;ti)在所述表征测量量的所述至少一个第一量(扫描数;探测时间)方面代表了所述的表征或者至少一个表征,而其中所述的表征测量值(m/zi)在所述表征测量量的所述至少一个另一量(质量-电荷比)方面代表了所述表征或至少一个表征;d)把所述的数据元组针对至少一个所述表征测量量的所述表征测量值而分组到表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tx+Δtdev])中,其中所述的间隔每一个都被确定与所述成分或生成物中的特定一种潜在地相关联;其中所述的控制单元被配置或编程以用于根据所述相应表征测量值(m/zi)与关联于所述成分或生成物的特定一种的一个真正的或表征的或平均的表征测量值(m/zION)之间的偏差(Δm/zi)的至少一种统计分布来实施所述的分组;其中所述的控制单元还被配置或编程以用于提供以下之一e)数据或数据可视化的存储、显示和打印至少之一,其中这些数据或数据可视化反映或包括了i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的所述的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项;f)还分析所述至少一种样本或所述成分或生成物中的至少一种,其所基于的是i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项,或者基于如步骤e)所述的存储、显示或打印的数据或可视化。
22.用于通过实施两种或更多种技术来分析至少一个样本以提供表征数据的系统,其中所述的表征数据关于其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及实施根据前述权利要求1至20之一所述方法的所述技术至少之一所产生的生成物来表征所述的样本,其中所述的系统包含以下部分a)至少一个第一分析部分或单元被配置用于实施至少一种第一分析技术i)用于分离成分,或者ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,所述第一分析部分或单元适用于针对一个样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,所述第一分析部分或单元适用于根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)至少一个另外的部分或单元适用于实施至少一种另外的技术以根据i)通过所述的或一个第一分析部分或单元实现至少一次分离以及ii)至少一个另外的区别特征中的至少之一来表征被分离的成分或生成物,其中所述的另外技术是分析和探测技术的至少一种,其中所述的另外的部分或单元是分析和探测部分或单元的至少一个。其中至少所述另外的部分或单元包括或者联接有探测硬件,其中该探测硬件适用于提供测量数据,其中该测量数据在至少两个表征测量量(扫描数、质量-电荷比;探测时间、质量-电荷比)方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量(扫描数;探测时间)反映了由所述的或一个第一分析部分或单元而实现的所述的或至少一次分离,并且所述表征测量量的至少一个另一量(质量-电荷比)反映了i)由所述的或一个第一分析部分或单元所实现的至少另一分离以及ii)所述另外的区别特征或者至少一个另外的区别特征中的至少一种;其中所述探测硬件被配置用于提供包括量化测量数据的所述测量数据,其中该量化测量数据在关于与之相关联的至少一个表征测量量的至少一个量化测量量(离子强度)方面代表了由所述探测硬件探测的并且由所述探测硬件提供的至少一个量化(离子强度);其中所述的系统还包括具有至少一个处理器的至少一个控制单元,所述的控制单元包括或联接有至少一个数据存储单元,所述控制单元优选地还联接有显示单元和打印单元的至少一个,并且该控制单元被优选地配置或编程以控制所述至少一个第一分析部分或单元以及所述至少一个另外的部分或单元;其中所述控制单元被配置或编程以用于c)根据由所述探测硬件提供的所述测量数据,通过相互关联至少一个相应的第一表征测量值(Ni;ti)、至少一个另外表征测量值(m/zi)和至少一个相应的量化测量值(Ii)来提供数据元组((Ni,m/zi,Ii);(ti,m/zi,Ii)),其中所述的第一表征测量值(Ni;ti)在所述表征测量量的所述至少一个第一量(扫描数;探测时间)方面代表了所述的表征或者至少一个表征,而其中所述的表征测量值(m/zi)在所述表征测量量的所述至少一个另一量(质量-电荷比)方面代表了所述表征或至少一个表征,而所述的量化测量值(Ii)在所述至少一个量化测量量(离子强度)方面代表了所述的或至少一个量化(离子强度);d)把所述的数据元组针对至少一个所述表征测量量的所述表征测量值而分组到表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中,其中所述的间隔每一个都被确定与所述成分或生成物中的特定一种潜在地相关联;其中所述的控制单元被配置或编程以用于根据多个所述数量测量值(Ii)的至少一个共同特征来实施所述的分组,其中多个所述数量测量值(Ii)每一个都属于所述数据元组相应之一;其中所述的控制单元还被配置或编程以用于提供以下之一e)数据或数据可视化的存储、显示和打印至少之一,其中这些数据或数据可视化反映或包括了i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的所述的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项;f)还分析所述至少一种样本或所述成分或生成物中的至少一种,其所基于的是i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项,或者基于如步骤e)所述的存储、显示或打印的数据或可视化。
23.可以由一种系统执行的指令程序,其中该系统用于通过实施两种或更多种技术来分析至少一个样本以提供表征数据,其中所述的表征数据关于其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及实施根据前述权利要求1至20之一所述方法的所述技术至少之一所产生的生成物来表征所述的样本,其中所述的系统包含以下部分a)至少一个第一分析部分或单元被配置用于实施至少一种第一分析技术i)用于分离成分,或者ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,所述第一分析部分或单元被配置用于针对一个样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,所述第一分析部分或单元被配置用于根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)至少一个另外的部分或单元被配置用于实施至少一种另外的技术以根据i)通过所述的或一个第一分析部分或单元实现至少一次分离以及ii)至少一个另外的区别特征中的至少之一来表征被分离的成分或生成物,其中所述的另外技术是分析和探测技术的至少一种,其中所述的另外的部分或单元是分析和检测部分或单元的至少一个。其中至少所述另外的部分或单元包括或者联接有探测硬件,其中该探测硬件被配置用于提供测量数据,其中该测量数据在至少两个表征测量量(扫描数、质量-电荷比;探测时间、质量-电荷比)方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量(扫描数;探测时间)反映了由所述的或一个第一分析部分或单元而实现的所述的或至少一次分离,并且所述表征测量量的至少一个另一量(质量-电荷比)反映了i)由所述的或一个第一分析部分或单元所实现的至少另一分离以及ii)所述另外的区别特征或者至少一个另外的区别特征中的至少一种;其中所述探测硬件可以或者也可以不被配置用于提供包括量化测量数据的所述测量数据,其中该量化测量数据在关于与之相关联的至少一个表征测量量的至少一个量化测量量(离子强度)方面代表了由所述探测硬件探测的并且由所述探测硬件提供的至少一个量化(离子强度);其中所述的系统还包括具有至少一个处理器的至少一个控制单元,所述的控制单元包括或联接有至少一个数据存储单元,所述控制单元优选地还联接有显示单元和打印单元的至少一个,并且该控制单元被优选地配置或编程以控制所述至少一个第一分析部分或单元以及所述至少一个另外的部分或单元;其中所述控制单元按照所述指令来实施以下步骤c)根据由所述探测硬件提供的所述测量数据,通过相互关联至少一个相应的第一表征测量值(Ni;ti)与至少一个相应的另外表征测量值(m/zi)来提供数据元组((Ni,m/zi);(ti,m/zi)),其中所述的第一表征测量值(Ni;ti)在所述表征测量量的所述至少一个第一数量(扫描数;探测时间)方面代表了所述的表征或者至少一个表征,而其中所述的表征测量值(m/zi)在所述表征测量量的所述至少一个另一量(质量-电荷比)方面代表了所述表征或至少一个表征;d)把所述的数据元组针对至少一个所述表征测量量的所述表征测量值而分组到表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])中,其中所述的间隔每一个都被确定与所述成分或生成物中的特定一种潜在地相关联;其中所述的控制单元按照所述指令根据所述相应表征测量值(m/zi)与关联于所述成分或生成物特定一种的一个真正的或表征的或平均的表征测量值(m/zION)之间的偏差(Δm/zi)的至少一种统计分布来实施所述的分组;其中所述的控制单元按照所述指令还实施以下步骤至少之一e)对数据或数据可视化进行存储、显示和打印中的至少之一,其中这些数据或数据可视化反映或包括了i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的所述至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项;f)还分析所述至少一种样本或所述成分或生成物中的至少一种,其所基于的是i)从所述分组中获得的数据元组集合以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项,或者基于如步骤e)所述的存储、显示或打印的数据或可视化。
24.可由一种系统执行的指令程序,其中该系统用于通过实施两种或更多种技术来分析至少一个样本以提供表征数据,其中所述的表征数据关于其中所包含的至少一种成分、尤其是化学、生物学或生物化学成分以及实施根据前述权利要求1至20之一所述方法的所述技术至少之一所产生的生成物来表征所述的样本,其中所述的系统包含以下部分a)至少一个第一分析部分或单元被配置用于实施至少一种第一分析技术i)用于分离成分,或者ii)用于分离由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,或者iii)用于分离成分和由实施所述第一分析技术或至少一种第一分析技术而产生的生成物,所述第一分析部分或单元被配置用于针对一个样本或者针对已经被分离的成分或生成物来实施所述的第一分析技术,所述第一分析部分或单元被配置用于根据所述成分或生成物的至少一种第一区别特征来实施所述的分离;b)至少一个另外的部分或单元被配种用于实施至少一种另外技术以根据i)通过所述的或一个第一分析部分或单元实现至少一次分离以及ii)至少一个另外的区别特征中的至少之一来表征被分离的成分或生成物,其中所述的另外技术是分析和探测技术的至少一种,其中所述的另外的部分或单元是分析和探测部分或单元的至少一个。其中至少所述另外的部分或单元包括或者联接有探测硬件,其中该探测硬件被配置用于提供测量数据,其中该测量数据在至少两个表征测量量(扫描数、质量-电荷比;探测时间、质量-电荷比)方面代表了所述成分或生成物的至少一个表征,所述表征测量量的至少一个第一量(扫描数;探测时间)反映了由所述的或一个第一分析部分或单元而实现的所述的或至少一次分离,并且所述表征测量量的至少一个另一量(质量-电荷比)反映了i)由所述的或一个第一分析部分或单元所实现的至少另一分离以及ii)所述另外的区别特征或者至少一个另外的区别特征中的至少一种;其中所述探测硬件被配置用于提供包括量化测量数据的所述测量数据,其中该量化测量数据在关于与之相关联的至少一个表征测量量的至少一个量化测量量(离子强度)方面代表了由所述探测硬件探测的并且由所述探测硬件提供的至少一个量化(离子强度);其中所述的系统还包括具有至少一个处理器的至少一个控制单元,所述的控制单元包括或联接有至少一个数据存储单元,所述控制单元优选地还联接有显示单元和打印单元的至少一个,并且该控制单元被优选地配置或编程以控制所述至少一个第一分析部分或单元以及所述至少一个另外的部分或单元;其中所述控制单元按照所述指令实施以下步骤c)根据由所述探测硬件提供的所述测量数据,通过相互关联至少一个相应的第一表征测量值(Ni;ti)、至少一个另外的表征测量值(m/zi)和至少一个相应的量化测量值(Ii)来提供数据元组((Ni,m/zi,Ii);(ti,m/zi,Ii)),其中所述的第一表征测量值(Ni;ti)在所述表征测量量的所述至少一个第一量(扫描数;探测时间)方面代表了所述的表征或者至少一个表征,而其中所述的表征测量值(m/zi)在所述表征测量量的所述至少一个另一量(质量-电荷比)方面代表了所述表征或至少一个表征,而所述的量化测量值(Ii)在所述至少一个量化测量量(离子强度)方面代表了所述的或至少一个量化(离子强度);d)把所述的数据元组针对至少一个所述表征测量量的所述表征测量值而分组到表征测量值的表征测量值间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev], [tION-Δtdev,tION+Δtdev])中,其中所述的间隔每一个都被确定与所述成分或生成物中的特定一种潜在地相关联;其中所述的控制单元按照所述指令根据多个所述量化测量值(Ii)的至少一个共同特征来实施所述的分组,其中多个所述数量测量值(Ii)每一个都属于相应一个数据元组;其中所述的控制单元按照所述指令还实施以下步骤至少之一e)对数据或数据可视化进行存储、显示和打印至少之一,其中这些数据或数据可视化反映或包括了i)从所述分组中获得的数据元组的组以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项;f)还分析所述至少一种样本或所述成分或生成物中的至少一种,其所基于的是i)从所述分组中获得的数据元组集合以及ii)从所述分组中获得的至少一个所述表征测量值的间隔([m/zION-Δm/zdev,m/zION+Δm/zdev],[NION-ΔNdev,NION+ΔNdev];[m/zION-Δm/zdev,m/zION+Δm/zdev],[tION-Δtdev,tION+Δtdev])这两项中的至少一项,或者基于如步骤e)所述的存储、显示或打印的数据或可视化。
25.根据权利要求23至24之一所述的实现所述程序的计算机程序产品。
26.存储根据权利要求23至24之一所述的程序的用于通过一种通信链路,可能通过因特网进行下载的服务器计算机系统。
全文摘要
本发明提供了用于对测量数据进行分组的一种方法,其中所述的测量数据通过实施两种或更多种技术以提供表征关于表征物质的至少一个样本的表征数据而被获得。根据本发明的一个方面,所述分组根据一个相应表征测量值的偏差(Δm/z
文档编号G01N27/62GK1690713SQ20051006691
公开日2005年11月2日 申请日期2005年4月25日 优先权日2004年4月23日
发明者U·加查雷克, P·库巴莱克, W·赫泽尔 申请人:霍夫曼-拉罗奇有限公司