专利名称:利用双s形函数曲线拟合和levenberg-marquardt算法及标准化的pcr肘确定的制作方法
技术领域:
本发明一般地涉及用于处理表示S形曲线或生长曲线的数据的系统和方法,并且更具体地涉及用于确定PCR扩增曲线中的特征周期阈值(Ct)或肘值(elbow value)的系统和方法。
背景技术:
聚合酶链反应(PCR)是一种用于酶合成或扩增限定的核酸序列的离体方法。该反应典型地利用两种寡核苷酸引物,这两种寡核苷酸引物杂交成相对股并且位于模板或要被扩增的目标DNA序列的侧面。通过热稳定DNA聚合酶来催化这些引物的延伸。包括由聚合酶引起的模板变性、引物退火和退火引物的延伸的一系列重复周期导致特定DNA片断的指数累积。荧光探针或标记典型地被用于促进扩增过程的检测和量化的方法中。
在图1中示出了典型的实时PCR曲线,其中针对典型的PCR过程画出了荧光强度值对周期数。在这种情况下,在PCR过程的每一周期中监控PCR产物的形成。通常在温度循环器中测量扩增,该温度循环器包括用于在扩增反应过程中测量荧光信号的部件和装置。这种温度循环器的例子是Roche Diagnostics LightCycler(Cat.No.20110468)。借助荧光标记的杂交探针来例如检测扩增产物,该荧光标记的杂交探针仅仅在它们被结合到目标核酸上时才发射荧光信号,或者在某些情况下也借助结合到双股DNA上的荧光染料来例如检测扩增产物。
对于典型的PCR曲线来说,识别在基线区域末端处的通常被称为肘值或周期阈值(Ct)的过渡点极其有助于理解PCR扩增过程的特征。该Ct值可被用作PCR过程的效率的量度。例如,针对要被分析的所有反应确定所规定的信号阈值,并且针对目标核酸以及针对例如标准或看家(housekeeping)基因的参考核酸确定用于达到该阈值所需的周期数(Ct)。基于针对目标核酸和参考核酸所获得的Ct值,可以确定目标分子的绝对或相对拷贝数(Gibson等人的Genome Research 6995-1001;Bieche等人的Cancer Research 592759-2765,1999年;WO97/46707;WO97/46712;WO97/46714)。图1中的在基线区域15的末端处的肘值(20)将在周期数30的区域中。
可以利用几种现有方法来确定PCR曲线中的肘值。例如,各种当前方法将实际的肘值(Ct)确定为这样的值,在该值的情况下荧光达到被称为AFL(任意荧光值)的预定水平。其它当前方法可以利用周期数,其中荧光对周期数的二阶导数达到最大值。所有这些方法都具有严重的缺点。例如,一些方法对异常(有噪声的)数据敏感,并且AFL值方法对具有高基线的数据集不适用。特别是在高滴定量的情况下,用于确定图1中所示的生长曲线的基线停止(或基线的终点)的传统方法不能令人满意地工作。此外,这些算法典型地具有被拙劣地定义的、线性相关的并且(如果可能)常常非常难以优化的多个(例如50或更多)参数。
因此,期望提供用于确定曲线、例如S形曲线或生长曲线、以及尤其是PCR曲线中的肘值的系统和方法,该系统和方法克服上述的和其它的缺点。
发明内容
本发明提供用于确定S形或生长型曲线中的例如肘值的特征过渡值的、新颖的、有效的系统和方法。在一种实施方案中,本发明的系统和方法特别有助于确定PCR扩增曲线中的周期阈值(Ct)。
根据本发明,具有通过Levenberg-Marquardt(LM)回归方法所确定的参数的双S形函数被用于找到拟合PCR数据集的曲线的近似。一旦已经确定了参数,就可以利用一个或多个所确定的参数来使曲线标准化。如果选择用于计算扩增曲线的Ct值的任意荧光水平(AFI)方法,则标准化对于确定Ct值来说是有利的。在标准化之后,通过应用求根算法以确定表示标准化曲线的函数的根来处理该标准化曲线,其中所述根对应于Ct值。该Ct值然后被返回并可以被显示或另外被用于进一步的处理。
在本发明的第一方面中,提供一种计算机实现的、确定生长曲线的基线区域的末端处的点的方法,该方法包括以下步骤-接收表示生长曲线的数据集,所述数据集包括多个数据点,每一个数据点都具有一对坐标值;-通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定该函数的参数来计算拟合数据集的曲线的近似;-利用所确定的参数使该曲线标准化,以生成标准化曲线;以及-处理该标准化曲线,以确定生长曲线的基线区域的末端处的点的坐标值。
在本发明的第二方面中,提供一种计算机可读介质,该计算机可读介质包括用于控制处理器以确定生长曲线的基线区域的末端处的点的代码,其中该代码包括指令,所述指令用于-接收表示生长曲线的数据集,所述数据集包括多个数据点,每一个数据点都具有一对坐标值;-通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定该函数的参数来计算拟合数据集的曲线的近似;-利用所确定的参数使该曲线标准化,以生成标准化曲线;以及-处理该标准化曲线,以确定生长曲线的基线区域的末端处的点的坐标值。
在本发明的又一方面中,提供一种动态聚合酶链反应(PCR)系统,该系统包括-动态聚合酶链反应分析模块,该动态聚合酶链反应分析模块产生表示动态聚合酶链反应扩增曲线的聚合酶链反应数据集,所述数据集包括多个数据点,每一个数据点都具有一对坐标值,其中所述数据集包括感兴趣区域中的数据点,该感兴趣区域包括周期阈值(Ct);以及-智能模块,该智能模块适于通过以下方式来处理聚合酶链反应数据集以确定周期阈值-通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定该函数的参数来计算拟合数据集的曲线的近似;-利用所确定的参数来使该曲线标准化,以生成标准化曲线;以及-处理该标准化曲线,以确定生长曲线的基线区域的末端处的点的坐标值,其中所述点表示生长曲线的周期阈值(Ct)。
图1示出被绘制为荧光强度对周期数的典型PCR生长曲线的例子;图2示出用于确定生长曲线的基线区域的终点或PCR曲线的Ct值的方法流程;图3示出根据本发明的一个实施例的峰值识别和替换方法的详细方法流程;图4示出包括参数a-g的双S形方程的分解;图5示出参数(d)对曲线和(e)的位置、拐点的x值的影响;图6示出针对不同参数集的三个曲线形状的例子;图7示出根据一个方面的用于确定双S形方程参数(e)和(g)的值的方法;图8示出用于初始参数集的Levenberg-Marquardt回归方法的方法流程;图9示出根据一个实施例的用于确定PCR过程的肘值的更详细的方法流程;图10示出PCR数据集的图;图11示出在利用方程(7)的基线减去和除法方法标准化之后图10的数据集;图12示出另一PCR数据集的图;图13示出在利用方程(7)的基线减去和除法方法标准化之后图12的数据集;图14示出描述软件和硬件资源之间的关系的一般框图。
具体实施例方式
本发明提供用于确定S形或生长曲线中的过渡值、例如基线区域的终点或动态PCR扩增曲线的肘值或Ct值的系统和方法。在某些方面中,具有通过Levenberg-Marquardt(LM)回归方法确定的参数的双S形函数被用于找到曲线的近似。一旦已经确定参数,利用一个或多个所确定的参数可以使该曲线标准化。如果选择任意荧光水平(AFI)方法来计算扩增曲线的Ct值,则标准化对于确定Ct值来说是有利的。在标准化之后,通过应用用于确定表示标准化曲线的函数的根的求根(root-finding)算法来处理标准化曲线,其中所述根对应于Ct值。该Ct值然后被返回并可被显示或另外被用于进一步的处理。
在图1中示出了在PCR过程的上下文中的扩增曲线10的一个例子。如所示的那样,曲线10包括停滞期区域15和指数生长期区域25。停滞期区域15一般被称作基线或基线区域。这种曲线10包括连接停滞期和指数生长期区域的感兴趣的过渡区域20。区域20一般被称作肘或肘区域。肘区域20典型地限定基线的终点和基本过程的生长或扩增率的过渡。识别区域20中的特定过渡点可以有助于分析基本过程的特性。在典型的PCR曲线中,识别被称为肘值或周期阈值(Ct)的过渡点极其有助于理解PCR过程的效率特性。
可以提供类似的S形曲线或生长曲线的其它方法包括细菌法、酶法和结合法。在细菌生长曲线中,例如,感兴趣的过渡点已被称作停滞期中的时间θ。产生可根据本发明来分析的数据曲线的其它特定方法包括链置换扩增(SDA)方法、基于核酸序列的扩增(NASBA)方法和转录介导的扩增(TMA)方法。可以分别在Wang,Sha-Sha等人的“Homogeneous Real-Time Detection of Single-NucleotidePolymorphisms by Strand Displacement Amplification on the BDProbeTec ET System”(Clin Chem 200349(10)1599)和Weusten,JosJ.A.M.等人的“Principles of Quantitation of Viral Loads UsingNucleic Acid Sequence-Based Amplification in Combination WithHomogeneous Detection Using Molecular Beacons”(Nucleic AcidsResearch,2002 30(6)26)中找到SDA和NASBA方法和数据曲线的例子。因此,尽管本文的剩余部分将在本发明对PCR曲线的适用性方面来讨论本发明的实施例和方面,但应理解的是,本发明可以被应用于涉及其它方法的数据曲线。
如图1中所示,例如可在二维坐标系统中表示典型的PCR生长曲线的数据,其中PCR周期数定义x轴并且累积的多核苷酸生长的指示器定义y轴。典型地,如图1中所示,累积生长的指示器是荧光强度值,因为荧光标记的使用可能是最广泛使用的标记方案。然而,应理解的是,可以根据所使用的具体标记和/或检测方案使用其它指示器。累积信号生长的其它有用的指示器的例子包括发光强度、化学发光强度、生物发光强度、磷光强度、电荷转移、电压、电流、功率、能量、温度、粘性、光散射、放射性强度、反射率、透射率和吸收率。周期的定义也可以包括时间、方法周期、单元操作周期和再生周期。
一般方法概述根据本发明,可以参照图2简要地描述用于确定单个S形曲线中的过渡值、例如动态PCR扩增曲线的肘值或Ct值的方法100的一个实施例。在步骤110中,接收或另外获取表示曲线的实验数据集。在图1中示出了所绘制的PCR数据集的例子,其中对于PCR曲线来说y轴和x轴分别表示荧光强度和周期数。在某些方面中,数据集应包括连续的并且沿着轴等间隔的数据。
在本发明的示范性实施例中,可以通过利用传统的个人计算机系统来实施该方法,该个人计算机系统包括、但不限于用于输入数据集的例如键盘、鼠标等的输入装置;用于表示曲线区域中的感兴趣的特定点的显示装置、例如监控器;对于执行该方法中的每一步骤来说必要的处理装置、例如CPU;例如调制解调器的网络接口;用于存储数据集、在处理器上运行的计算机代码等的数据存储装置。此外,也可以在PCR装置中实施该方法。
在图14中显示了根据本发明的系统。该图示出说明软件和硬件资源之间的关系的一般框图。该系统包括可以位于温度循环器装置中的动态PCR分析模块和是计算机系统的一部分的智能模块。经由网络连接或直接连接将数据集(PCR数据集)从分析模块传输至智能模块,或反之亦然。由在处理器上运行的并存储于智能模块的存储装置上的计算机代码根据如图2中所示的方法来处理数据集,并在处理之后,将数据集传输回分析模块的存储装置,其中可以在显示装置上显示所修改的数据。在具体实施例中,也可以在PCR数据获取装置中实现智能模块。
在方法100在驻留于例如温度循环器的PCR数据获取装置中的智能模块(例如执行指令的处理器)中实施的情况下,在数据正被收集时数据集可以被实时地提供给智能模块,或者数据集可以被存储于存储单元或缓冲器中,并在已经完成实验之后被提供给智能模块。类似地,数据集可以经由通向获取装置的网络连接(例如LAN、VPN、内部网、因特网等)或直接连接(例如USB或其它直接有线或无线连接)被提供给单独的系统、例如桌上计算机系统或其它计算机系统,或在例如CD、DVD、软盘等的便携式介质上被提供。在某些方面中,数据集包括具有一对坐标值(或二维矢量)的数据点。对于PCR数据来说,该对坐标值典型地表示周期数和荧光强度值。在已经在步骤110中接收或获取数据集之后,可以分析该数据集以确定基线区域的终点。
在步骤120中,计算曲线的近似。在该步骤的过程中,在一个实施例中,具有通过Levenberg-Marquardt(LM)回归方法或其它回归方法所确定的参数的双S形函数被用于找到表示数据集的曲线的近似。该近似据说是“稳健的”,因为异常数据或峰值点对曲线拟合的质量具有最小的影响。图2示出所接收的数据集和通过根据本发明将Levenberg-Marquardt回归方法用于确定双S形函数的参数所确定的数据集的稳健近似的图。
在某些方面中,在处理数据集以便确定基线区域的终点之前去除或替换数据集中的异常数据或峰值点。在数据集在步骤110中被获取之前或之后可以发生峰值去除。图3示出用于识别并替换表示PCR或其它生长曲线的数据集中的峰值点的方法流程。
在步骤130中,在步骤120中所确定的参数被用于使曲线标准化,如将在下面更详细地描述的那样。以该方式进行的标准化允许在不必确定或指定曲线的基线区域的终点或基线停止位置的情况下确定Ct值。在步骤140中,然后处理标准化曲线以确定Ct值,如将在下面更详细地描述的那样。
LM回归方法图3的步骤502至524也示出用于近似数据集的曲线并确定拟合函数的参数(步骤120)的方法流程。根据本发明的一个实施例,这些参数可以被用于使曲线标准化、例如修改或去除表示S形或生长型曲线、例如PCR曲线的数据集的基线斜率(步骤130)。在已经处理了数据集以产生具有被去除或被替换的峰值点的、修改后的数据集的情况下,可以根据步骤502至524来处理修改后的无峰值的数据集,以确定拟合函数的参数。
在所示出的一个实施例中,Levenberg-Marquardt(LM)方法被用于计算数据集的稳健的曲线近似。该LM方法是非线性回归方法;它是一种使非线性函数和数据集之间的距离最小化的迭代技术。该方法的作用就像最陡下降方法和Gauss-Newton方法的组合一样在当前近似并不很好地拟合时,它的作用就像最陡下降方法一样(更慢,但更可靠地收敛),但在当前近似变得更精确时,于是它的作用将像Gauss-Newtom方法一样(更快,但不太可靠地收敛)。该LM回归方法被广泛地用于解决非线性回归问题。
一般,该LM回归方法包括需要各种输入并提供输出的算法。在一个方面中,该输入包括要处理的数据集、被用于拟合数据的函数以及函数的参数或变量的初始猜测。该输出包括用于使函数和数据集之间的距离最小化的函数的参数集。
根据一个实施例,拟合函数是以下形式的双S形f(x)=a+bx+c(1+exp-d(x-e))(1+exp-f(x-g)).---(1)]]>作为拟合函数的该方程的选择基于其拟合典型的PCR曲线或其它生长曲线可能采用的不同曲线形状的灵活性和能力。本领域的技术人员应理解,可以随意地使用上面的拟合函数或其它拟合函数的变型。
双S形方程(1)具有7个参数a、b、c、d、e、f和g。该方程可被分解为常数、斜率和双S形的和。双S形自身是两个S形的相乘。图4示出双S形方程(1)的分解。参数d、e、f和g决定两个S形的形状。为了示出它们对最终曲线的影响,考虑单个S形11+exp-d(x-e),---(2)]]>其中参数d决定曲线的“锐度”,并且参数e决定拐点的x值。图5示出参数d对曲线的影响以及参数e对拐点的x值的位置的影响。在下面,表1描述参数对双S形曲线的影响。
表1双S形参数描述
在一个方面中,为了防止曲线采用不切实际的形状,应限制双S形方程的“锐度”参数d和f。因此,在一个方面中,d<-1或d>1.1或f<-1或f>1.1的任何迭代都被认为是不成功的。在其它方面中,可以使用对参数d和f的不同限制。
因为Levenberg-Marquardt算法是迭代算法,所以典型地需要用于拟合的函数的参数的初始猜测。初始猜测越好,近似将越好,并且算法将向局部最小值收敛就越不可能。由于双S形函数的复杂性和PCR曲线或其它生长曲线的各种形状,所以对每一参数的一次初始猜测可能不足以防止算法有时向局部最小值收敛。因此,在一个方面中,输入多个(例如3个或更多个)初始参数集并保存最佳结果。在一个方面中,大部分参数被保持为在所使用的多个参数集上恒定;仅仅参数c、d和f可以对于多个参数集中的每一个来说是不同的。图6示出针对不同参数集的三个曲线形状的例子。这三个参数集的选择指示表示PCR数据的曲线的三种可能的不同形状。应理解的是,可以处理多于三个的参数集并保存最佳结果。
如图3中所示,在步骤510中确定LM方法的初始输入参数。这些参数可以通过操作者输入或可以被计算。根据一个方面,根据如下面所论述的步骤502、504和506确定或设置参数。
初始参数(a)的计算参数(a)是基线的高度;它的值对于所有初始参数集来说是相同的。在一个方面中,在步骤504中,参数(a)被赋予数据集中的第三个最低y轴值、例如荧光值。这提供稳健的计算。当然,在其它方面中,参数(a)可被随意地赋予任何其它荧光值、例如最低y轴值、第二最低值等等。
初始参数(b)的计算参数(b)是基线和曲线的平稳段的斜率。它的值对于所有初始参数集来说是相同的。在一个方面中,在步骤502中,将0.01的静态值赋予(b),因为理想地不应存在任何斜率。在其它方面中,参数(b)可被赋予不同值,例如范围从0至大约0.5的值。
初始参数(c)的计算参数(c)表示曲线的绝对强度;对于PCR数据来说,参数(c)典型地表示曲线的AFI。为了计算AFI,曲线的平稳段的高度是重要的。为了以稳健的方式计算该AFI,在一个方面中,在步骤504中,第三个最高y轴值、例如荧光值被赋予为曲线的平稳段的高度。然后,AFI=曲线的平稳段的高度-基线的高度=第三个最高荧光值-(a)。在其它方面中,参数(c)可被随意地赋予任何其它荧光值、例如最高y轴值、下一最高y轴值等。
如图6中所示,对于最后两个参数集来说,c=AFI。对于第一个参数集来说,c=AFI+2。该改变是由于通过第一个参数集所建模的曲线的形状,该形状不具有曲线的平稳段。
参数(d)和(f)的计算参数(d)和(f)限定两个S形的锐度。因为不存在针对这些参数基于曲线来给出近似的方法,所以在一个方面中在步骤502中使用三个静态代表值。应理解的是,其它静态或非静态值可被用于参数(d)和/或(f)。这些对对所遇到的PCR曲线的最普遍的形状建模。在下面,表2示出针对如图6中所示的不同参数集的(d)和(f)的值。
表2参数d和f的值
参数(e)和(g)的计算在步骤506中,确定参数(e)和(g)。参数(e)和(g)限定两个S形的拐点。在一个方面中,它们在所有初始参数集中都采用相同的值。参数(e)和(g)可以具有相同或不同的值。为了找到近似,在一个方面中,使用超过强度、例如荧光的平均值的第一点(其不是峰值)的x值。根据该方面的用于确定(e)和(g)的值的方法在图7中被示出并在下面进行论述。
参照图7,最初,确定曲线(例如荧光强度)的平均值。接着确定超过平均值的第一数据点。然后确定是否a.该点不位于曲线的起点附近、例如在最初的5个周期内;b.该点不位于曲线的终点附近、例如在最后的5个周期内;以及c.该点周围的导数(例如在它周围的2个点的半径中)没有显示出符号的任何改变。如果它们显示出符号的任何改变,则该点可能是峰值并且因此应被丢弃。
在下面,表3示出根据一个方面的如图6中所使用的初始参数值的例子。
表3初始参数值
返回图3,一旦在步骤510中设置了所有参数,就利用输入数据集、函数和参数执行LM方法520。传统上,Levenberg-Marquardt方法被用于解决非线性最小平方问题。传统的LM方法计算被定义为曲线近似和数据集之间的误差的平方和的距离量度。然而,当最小化该平方和时,它给予异常数据一个重要的权重,因为它们的距离大于非峰值数据点的距离,这常常导致不合宜的曲线或不太理想的曲线。因此,根据本发明的一个方面,通过最小化绝对误差的和来计算近似和数据集之间的距离,因为这不给予异常数据同样大的权重。在该方面中,通过下式来给出近似和数据之间的距离距离=∑|y数据-y近似|。 (3)如上所述,在一个方面中,如在步骤522和524中所示,输入并处理多个(例如3个)初始参数集中的每一个并保存最佳结果,其中最佳参数是在方程(3)中提供最小或最小化距离的参数集。在一个方面中,大部分参数在多个参数集中被保持恒定;仅仅c、d和f可以对于每一个参数集来说是不同的。应理解的是,可以使用任何数量的初始参数集。
图8示出根据本发明的用于参数集的LM方法520的方法流程。如上面所解释的,Levenberg-Marquardt方法的作用可以就像最陡下降方法或像Gauss-Newton方法一样。它的作用取决于衰减因数λ。λ越大,Levenberg-Marquardt算法的作用就将越像最陡下降方法一样。另一方面,λ越小,Levenberg-Marquardt算法的作用就将越像Gauss-Newton方法一样。在一个方面中,λ以0.001开始。应理解的是,λ可以以任何其它值开始,例如从大约0.000001至大约1.0。
如前所述,Levenberg-Marquardt方法是迭代技术。根据一个方面,如图8中所示,在每一次迭代过程中执行下面的操作1.计算在先的近似的Hessian矩阵(H)。
2.计算在先的近似的转置Jacobian矩阵(JT)。
3.计算在先的近似的距离向量(d)。
4.使Hessian矩阵对角线增大当前衰减因数λHaug=Hλ (4)5.求解增大的方程Haugχ=JTd(5)6.将增大的方程的解x添加到函数的参数中。
7.计算新的近似和曲线之间的距离。
8.如果具有新的参数集的距离小于具有先前的参数集的距离●认为该迭代是成功的。
●保存或存储该新的参数集。
●将衰减因数λ例如减小因数10。
如果具有新的参数集的距离大于具有先前的参数集的距离●认为该迭代是不成功的。
●丢弃该新的参数集。
●将衰减因数λ例如增大因数10。
在一个方面中,图8的LM方法迭代,直至达到了下列标准之一1.已经运行了规定次数的(N次)迭代。该第一标准防止算法无限地迭代下去。例如,在如图10中所示的一个方面中,缺省迭代值N是100。如果算法能够收敛,则100次迭代应足以使算法收敛。一般地,N的范围可以从小于10至100或更大。
2.两次成功迭代之间的距离的差值小于阈值、例如0.0001。当该差值变得非常小时,已经达到所期望的精度并且继续迭代是无意义的,因为解不会变得显著更好。
3.衰减因数λ超过规定值,例如大于1020。当λ变得非常大时,该算法不会比当前解更好地收敛,因此继续迭代是无意义的。一般地,该规定值可以大大小于或大于1020。
在已经确定了参数之后,可以利用一个或者多个所确定的参数来使曲线标准化。例如,在一个方面中,曲线可以通过减去曲线的线性生长部分而被标准化或调节为具有零斜率。在数学上,这被表示为dataNew(BLS)=data-(a+bx), (6)其中dataNew(BLS)是在基线减去之后的标准化信号,例如被减去或被去除线性生长或基线斜率的数据集(数据)。参数a和b的值是通过利用用于使曲线回归的LM方程所确定的那些值,并且x是周期数。因此,对于沿着x轴的每一个数据值来说,从数据中减去常数a和斜率b乘以x值,以生成具有零斜率的数据曲线。在某些方面中,在对数据集应用LM回归方法以确定标准化参数之前从数据集中去除峰值点。
在另一方面中,曲线可以根据下面的方程被标准化或被调节为具有零斜率dataNew(BLSD)=(data-(a+bx))/a, (7)其中dataNew(BLSD)是在基线减去和除法之后的标准化信号、例如被减去或被去除线性生长或基线斜率并且结果被a除的数据集(数据)。参数a和b的值是通过利用用于使曲线回归的LM方程所确定的那些值,并且x是周期数。因此,对于沿着x轴的每一个数据值来说,从数据中减去常数a和斜率b乘以x值并且用参数a的值来除该结果,以生成具有零斜率的数据曲线。在某些方面中,在对数据集应用LM回归方法以确定标准化参数之前从数据集中去除峰值点。
在又一方面中,曲线可以根据下面的方程被标准化或被调节dataNew(BLD)=data/a, (8)其中da taNew(BLD)是在基线除法之后的标准化信号、例如被参数a除的数据集(数据)。参数a和b的值是通过利用用于使曲线回归的LM方程所确定的那些值,并且x是周期数。在某些方面中,在对数据集应用LM回归方法以确定标准化参数之前从数据集中去除峰值点。
本领域的技术人员应理解,其它标准化方程可以被用于利用如通过Levenberg-Marquardt或其它回归方法所确定的参数来标准化和/或修改基线。
在已经利用方程(6)、(7)或(8)中的一个或其它标准化方程使曲线标准化之后,可以确定Ct值。在一个方面中,对标准化曲线应用求根过程或方法。求根过程、算法或方法是典型地通过迭代地进行以改善解直至已经满足收敛标准来确定函数的一个根或多个根的方法。有用的求根方法包括Newton方法(也称为Newton-Raphson方法)、平分法、衰减的Newton方法、BFGS、准Newton方法、正割法、Brent的主轴方法以及这些和其它求根方法的各种变型方案。可以在由Cambridge University Press出版的“Numerical Recipes In CTheArt of Scientific Computing”的第9章中找到这些和其它求根方法的例子。其它求根方法对于本领域的技术人员来说将是显而易见的。
在某些方面中,将标准化曲线设置为等于AFL值的函数,该函数可以根据所使用的标准化方法而改变。例如,为了针对上述三种标准化方法中的每一种指定一个AFI值,应实施附加的规则,以允许求根方法适当地收敛,如方程(6)和(7)标准化为“0”,并且方程(8)标准化为“1”。因此,在一个方面中,当使用方程(8)时,方程(1)被设置为等于AFL值,而如果使用方程(6)或(7),则方程(1)被设置为等于AFL-1。在数学上,这在下面针对方程(6)、(7)和(8)的标准化方法中的每一种被示出。在一个方面中,当使用方程(6)的基线减去方法时,将求根过程或方法应用于下面的方程AFL-1=c(1+exp-d(x-e))(1+exp-f(x-g))---(9)]]>在一个方面中,当使用方程(7)的基线减去和除法方法时,将求根过程或方法应用于下面的方程AFL-1=(c/a)(1+exp-d(x-e))(1+exp-f(x-g))---(10)]]>在一个方面中,当使用方程(8)的基线除法方法时,将求根过程或方法应用于下面的方程AFL=1a[a+bx+c(1+exp-d(x-e))(1+exp-f(x-g))]---(11)]]>应理解的是,典型地通过如对于本领域技术人员来说众所周知的试验显影剂来提供或确定AFL值。此外,应理解的是,对于不同的试验来说,使用不同的标准化方程可能是更有利的。例如对于HPV试验来说,使用根据方程(6)的标准化方法可能是更有利的,因为这种类型的试验典型地具有高基线。对于HCV试验来说,使用根据方程(7)或方程(8)的标准化方法可能是更有利的。本领域技术人员将容易理解,根据具体的试验,哪一种标准化方法可能是更合适的。
在图9中示出了根据一个实施例的、用于确定动态PCR曲线中的肘值或Ct值的更详细的方法流程。在步骤910中,获取数据集。在驻留于例如温度循环器的PCR数据获取装置中的智能模块(例如执行指令的处理器)中实施确定方法的情况下,在数据正被收集时数据集可以被实时地提供给智能模块,或者数据集可以被存储于存储单元或缓冲器中,并在已经完成试验之后被提供给智能模块。类似地,数据集可以经由通向获取装置的网络连接(例如LAN、VPN、内部网、因特网等)或直接连接(例如USB或其它直接有线或无线连接)被提供给单独的系统、例如桌上计算机系统,或在例如CD、DVD、软盘等的便携式介质上被提供。
在已经接收或获取数据集之后,在步骤920中,确定曲线的近似。在该步骤过程中,在一个实施例中,具有通过Levenberg-Marquardt回归方法所确定的参数的双S形函数被用于找到表示数据集的曲线的近似。此外,在如参照图3所述的步骤920之前,可以从数据集中去除峰值点。例如,在步骤910中获取的数据集可以是已经去除峰值的数据集。在步骤930中,使曲线标准化。在某些方面中,利用上述方程(6)、(7)或(8)中的一个使曲线标准化。例如,可以利用如在步骤920中所确定的双S形方程的参数将基线设置为零斜率,以便如经由上面的方程(6)那样减去基线斜率。在步骤940中,对标准化曲线应用求根方法或过程以便确定根,所述根对应于肘值或Ct值。所应用的求根方法可以包括上面论述的算法中的任何一个或对于本领域技术人员来说将显而易见的任何其它算法。在步骤950中,结果被返回,例如被返回至执行分析的系统或请求分析的独立系统。在步骤960中,显示Ct值。也可以显示例如整个数据集或曲线近似的附加数据。可以利用与执行图9的分析的系统相耦合的显示装置、例如监控器屏幕或打印机再现图形显示,或者可将数据提供给独立系统以便在显示装置上再现。
例子对图10中所示的数据应用双S形/LM方法产生如在下面的表1中所示的方程(1)中的七个参数的值
表1a8.74168b0.0391099c51.7682d0.250381e8.09951f0.548204g15.7799然后这些数据根据方程(7)(基线减去和除法)被标准化,以产生图11中所示出的图形。图11中所示出的实线是方程(1)对已经根据方程(7)被标准化的数据集的双S形/LM应用。对于这种情况的AFL值是1.5。因此利用AFL-1等于0.5的方程(10)并利用BFGS准Newton方法来求根,给出12.07的Ct值。
在图12中示出了该双S形/LM方法的另一例子。图12中的实线是具有表2中所示出的参数值的数据的双S形/LM曲线拟合。
表2估计a1.47037b0.00933534c10.9464d0.79316e35.9085f0.108165g49.193在对该数据集应用标准化方程(7)之后,结果与双S形/LM曲线拟合一起在图13中被示出。在表2中示出了这种情况的参数值。对于这种情况的AFL值是1.5,因此利用AFL-1等于0.5的方程(10)并利用BFGS准Newton方法来求根,给出35.24的Ct值。
结论根据本发明的一个方面,提供一种计算机执行的、确定生长曲线的基线区域的末端处的点的方法。该方法典型地包括接收表示生长曲线的数据集并且通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定函数的参数来计算拟合数据集的曲线的近似的步骤,该数据集包括多个数据点,每一个数据点具有一对坐标值。该方法进一步典型地包括利用所确定的参数来使曲线标准化以产生标准化曲线,并且处理标准化曲线以确定生长曲线的基线区域的末端处的点的坐标值。在一个方面中,数据集表示动态聚合酶链反应(PCR)方法的扩增生长曲线,并且基线区域的末端处的点表示动态PCR曲线的肘或周期阈值(Ct)。在本发明的其它方面中,数据集表示动态聚合酶链反应(PCR)方法、细菌法、酶法或结合法的生长曲线。在具体实施例中,数据集表示动态聚合酶链反应(PCR)方法的生长曲线,并且基线区域的末端处的点表示生长曲线的肘或周期阈值(Ct)。
在本发明的某些方面中,标准化包括减去表示曲线的数据集的线性生长部分。在某一实施例中,处理包括对标准化曲线应用求根方法。在另一实施例中,求根方法包括从由Newton方法、平分法、衰减的Newton方法、BFGS方法、准Newton方法、正割法和Brent的主轴方法组成的组中选择的方法。
在某些方面中,双S形函数具有下面的形式a+bx+c(1+exp-d(x-e))(1+exp-f(x-g))]]>,其中计算包括迭代地确定函数的参数a、b、c、d、e、f和g中的一个或多个。在某一实施例中,至少确定参数数a和b,并且标准化包括从曲线中减去线性生长部分a+bx。在又一确定的实施例中,处理标准化曲线包括对标准化曲线应用求根算法并将标准化曲线设置为等于任意荧光水平(AFL)-1。在具体实施例中,至少确定参数a和b,并且标准化包括从曲线中减去线性生长部分a+bx,并用参数a来除结果。
在另一实施例中,至少确定参数a,并且标准化包括用参数a来除曲线。在某一实施例中,处理标准化曲线包括对标准化曲线应用求根算法,并将标准化曲线设置为等于任意荧光水平(AFL)。在另一确定的实施例中,处理标准化曲线包括对标准化曲线应用求根算法,并将标准化曲线设置为等于任意荧光水平(AFL)-1。在又一确定的实施例中,该对坐标值表示扩增多核苷酸的累积和周期数。在具体实施例中,通过荧光强度值、发光强度值、化学发光强度值、磷光强度值、电荷转移值、生物发光强度值或吸收率值之一来表示扩增多核苷酸的累积。
根据本发明的另一方面,提供一种计算机可读介质,该计算机可读介质包括用于控制处理器以确定生长曲线的基线区域的末端处的点的代码。该代码典型地包括指令,该指令用于接收表示生长曲线的数据集并且通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定函数的参数来计算拟合数据集的曲线的近似,其中该数据集包括多个数据点,每一个数据点都具有一对坐标值。该代码也典型地包括用于利用所确定的参数使曲线标准化以产生标准化曲线并且处理该标准化曲线以确定生长曲线的基线区域的末端处的点的坐标值的指令。在一个方面中,数据集表示动态聚合酶链反应(PCR)方法、细菌法、酶法或结合法的生长曲线。在具体方面中,曲线是动态聚合酶链反应(PCR)方法的扩增曲线,并且基线区域的末端处的点表示动态PCR曲线的肘或周期阈值(Ct)。在某些方面中,标准化包括减去曲线的线性生长部分。在某些方面中,代码可以进一步包括用于返回或显示基线区域的末端处的点的坐标值的指令。
在某些实施例中,该对坐标值表示扩增多核苷酸的累积和周期数。在具体实施例中,通过荧光强度值、发光强度值、化学发光强度值、磷光强度值、电荷转移值、生物发光强度值或吸收率值之一来表示扩增多核苷酸的累积。
在某一实施例中,用于标准化的指令包括用于从数据集中减去线性生长部分的指令。在另一确定的实施例中,用于处理的指令包括用于对标准化曲线应用求根方法的指令。在具体实施例中,求根方法包括从由Newton方法、平分法、衰减的Newton方法、BFGS方法、准Newton方法、正割法、Brent的主轴方法组成的组中选择的方法。
在某些方面中,双S形函数具有下面的形式a+bx+c(1+exp-d(x-e))(1+exp-f(x-g))]]>,并且其中用于计算的指令包括用于迭代地确定函数的参数a、b、c、d、e、f和g中的一个或多个的指令。在某一实施例中,至少确定参数数a和b,并且其中用于标准化的指令包括用于从曲线中减去线性生长部分a+bx的指令。在具体实施例中,用于处理标准化曲线的指令包括用于对标准化曲线应用求根算法并将标准化曲线设置为等于任意荧光水平(AFL)-1的指令。
在另一具体实施例中,其中至少确定参数a和b,并且用于标准化的指令包括用于从曲线中减去线性生长部分a+bx并用参数a来除结果的指令。具体地,用于处理标准化曲线的指令可以包括用于对标准化曲线应用求根算法并将标准化曲线设置为等于任意荧光水平(AFL)-1的指令。
在其它某些方面中,至少确定参数a,并且用于标准化的指令包括用于用参数a来除曲线的指令。在具体实施例中,用于处理标准化曲线的指令包括用于对标准化曲线应用求根算法并将标准化曲线设置为等于任意荧光水平(AFL)的指令。
根据本发明的又一方面,提供一种动态聚合酶链反应(PCR)系统。该系统典型地包括动态聚合酶链反应分析模块,该动态聚合酶链反应分析模块产生表示动态PCR扩增曲线的PCR数据集,该数据集包括多个数据点,每一个数据点都具有一对坐标值,其中该数据集包括感兴趣区域中的数据点,该感兴趣区域包括周期阈值(Ct),并且该系统包括智能模块,该智能模块适于处理PCR数据集以确定周期阈值。该智能模块典型地通过以下方式来处理数据集,即通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定函数的参数来计算拟合数据集的曲线的近似、利用所确定的参数来使曲线标准化以产生标准化曲线、以及处理标准化曲线以确定生长曲线的基线区域的末端处的点的坐标值,其中该点表示生长曲线的周期阈值(Ct)。
在根据本发明的系统的某一实施例中,标准化包括从数据集中减去线性生长部分。在另一确定的实施例中,处理包括对标准化曲线应用求根方法。在具体实施例中,求根方法包括从由Newton方法、平分法、衰减的Newton方法、BFGS方法、准Newton方法、正割法和Brent的主轴方法组成的组中选择的方法。
在另一方面中,该对坐标值表示扩增多核苷酸的累积和周期数。在某些实施例中,通过荧光强度值、发光强度值、化学发光强度值、磷光强度值、电荷转移值、生物发光强度值或吸收率值之一来表示扩增多核苷酸的累积。
在某些实施例中,动态PCR分析模块驻留在动态温度循环器装置中,并且智能模块包括通信耦合至分析模块的处理器。在具体实施例中,智能模块包括驻留在通过网络连接或直接连接之一耦合至分析模块的计算机系统中的处理器。
在某些方面中,双S形函数具有下面的形式a+bx+c(1+exp-d(x-e))(1+exp-f(x-g))]]>,并且其中计算包括迭代地确定函数的参数a、b、c、d、e、f和g中的一个或多个。在某一实施例中,至少确定参数a和b,并且标准化包括从曲线中减去线性生长部分a+bx。在具体实施例中,处理标准化曲线包括对标准化曲线应用求根算法并将标准化曲线设置为等于任意荧光水平(AFL)-1。
在另一实施例中,其中至少确定参数a和b,并且标准化包括从曲线中减去线性生长部分a+bx,并用参数a来除结果。在具体实施例中,处理标准化曲线包括对标准化曲线应用求根算法并将标准化曲线设置为等于任意荧光水平(AFL)-1。
在另一确定的实施例中,至少确定参数a,并且标准化包括用参数a来除曲线。在具体实施例中,处理标准化曲线包括对标准化曲线应用求根算法并将标准化曲线设置为等于任意荧光水平(AFL)。
参照说明书的包括附图和权利要求的剩余部分,将认识到本发明的其它特征和优点。下面根据附图详细地描述本发明的进一步的特征和优点以及本发明的各种实施例的结构和操作。在附图中,相似的参考数字表示相同或功能相似的元件。
应理解的是,包括曲线近似和求根方法的Ct确定方法可以以在计算机的处理器上运行的计算机代码来实施。该代码包括用于控制处理器以实施Ct确定方法的各个方面和步骤的指令。该代码典型地被存储在硬盘、RAM或例如CD、DVD等的便携式介质上。类似地,可以在例如温度循环器的PCR装置中实施该方法,该温度循环器包括执行存储于耦合至处理器的存储单元中的指令的处理器。可以通过通向代码源的网络连接或直接连接或利用众所周知的便携式介质将包括这种指令的代码下载至PCR装置存储单元。
本领域技术人员应理解的是,可以利用例如C、C++、C#、Fortran、VisualBasic等的多种编程语言以及例如Mathematica的、提供有助于数据可视化和分析的预先打包的例行程序、函数和程序的应用来对本发明的肘确定方法进行编码。应用的另一例子是MATLAB_。
虽然已经通过例子并根据具体实施例描述了本发明,但应理解的是本发明并不局限于所公开的实施例。相反,旨在覆盖对本领域技术人员来说将是显而易见的各种修改和相似的配置。因此,所附的权利要求的范围应符合最宽泛的解释,以便包括所有的这种修改和相似的配置。
权利要求
1.一种计算机实现的、确定生长曲线的基线区域的末端处的点的方法,该方法包括以下步骤-接收表示生长曲线的数据集,所述数据集包括多个数据点,每一个数据点都具有一对坐标值;-通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定该函数的参数来计算拟合所述数据集的曲线的近似;-利用所确定的参数使该曲线标准化,以生成标准化曲线;以及-处理该标准化曲线,以确定生长曲线的基线区域的末端处的点的坐标值。
2.如权利要求1所述的方法,其中标准化包括从所述数据集中减去线性生长部分。
3.如权利要求1所述的方法,其中处理包括对所述标准化曲线应用求根方法,并且其中该求根方法包括从由Newton方法、平分法、衰减的Newton方法、BFGS方法、准Newton方法、正割法和Brent的主轴方法组成的组中选择的方法。
4.如权利要求1所述的方法,其中所述双S形函数具有下面的形式a+bx+c(1+exp-d(x-e))(1+exp-f(x-g)),]]>并且其中计算包括迭代地确定所述函数的参数a、b、c、d、e、f和g中的一个或多个。
5.如权利要求4所述的方法,其中至少确定参数a和b,并且其中标准化包括从所述曲线中减去线性生长部分a+bx。
6.如权利要求5所述的方法,其中处理该标准化曲线包括对标准化曲线应用求根算法并将标准化曲线设置为等于任意荧光水平(AFL)-1。
7.如权利要求4所述的方法,其中至少确定参数a,并且其中标准化包括用参数a来除所述曲线。
8.如权利要求7所述的方法,其中处理该标准化曲线包括对标准化曲线应用求根算法并将标准化曲线设置为等于任意荧光水平(AFL)。
9.如权利要求4所述的方法,其中至少确定参数a和b,并且其中标准化包括从所述曲线中减去线性生长部分a+bx并用参数a来除结果。
10.如权利要求9所述的方法,其中处理该标准化曲线包括对标准化曲线应用求根算法并将标准化曲线设置为等于任意荧光水平(AFL)-1。
11.如权利要求1所述的方法,其中所述数据集表示动态聚合酶链反应(PCR)方法的生长曲线,并且其中基线区域的末端处的点表示生长区域的肘或周期阈值(Ct)。
12.一种计算机可读介质,该计算机可读介质包括用于控制处理器以确定生长曲线的基线区域的末端处的点的代码,该代码包括指令,所述指令用于-接收表示生长曲线的数据集,所述数据集包括多个数据点,每一个数据点都具有一对坐标值;-通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定该函数的参数来计算拟合所述数据集的曲线的近似;-利用所确定的参数来使该曲线标准化,以生成标准化曲线;以及-处理该标准化曲线,以确定生长曲线的基线区域的末端处的点的坐标值。
13.如权利要求12所述的计算机可读介质,其中双S形函数具有下面的形式a+bx+c(1+exp-d(x-e))(1+exp-f(x-g)),]]>并且其中用于计算的指令包括用于迭代地确定该函数的参数a、b、c、d、e、f和g中的一个或多个的指令。
14.如权利要求12所述的计算机可读介质,其中该代码进一步包括用于返回或显示基线区域的末端处的点的坐标值的指令。
15.一种动态聚合酶链反应(PCR)系统,该系统包括-动态聚合酶链反应分析模块,该动态聚合酶链反应分析模块产生表示动态聚合酶链反应扩增曲线的聚合酶链反应数据集,所述数据集包括多个数据点,每一个数据点都具有一对坐标值,其中所述数据集包括感兴趣区域中的数据点,该感兴趣区域包括周期阈值(Ct);以及-智能模块,该智能模块适于通过以下方式来处理所述聚合酶链反应数据集以确定周期阈值-通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定该函数的参数来计算拟合所述数据集的曲线的近似;-利用所确定的参数使该曲线标准化,以生成标准化曲线;以及-处理该标准化曲线,以确定生长曲线的基线区域的末端处的点的坐标值,其中所述点表示生长曲线的周期阈值(Ct)。
16.如权利要求15所述的系统,其中所述双S形函数具有下面的形式a+bx+c(1+exp-d(x-e))(1+exp-f(x-g)),]]>并且其中计算包括迭代地确定该函数的参数a、b、c、d、e、f和g中的一个或多个。
全文摘要
本发明涉及用于确定S形或生长型曲线中的例如肘值的特征过渡值、例如PCR扩增曲线中的周期阈值(Ct)的系统和方法。具有通过Levenberg-Marquardt(LM)回归方法所确定的参数的双S形函数被用于找到拟合PCR数据集的曲线的近似。一旦已经确定了参数,就可以利用一个或多个所确定的参数来使曲线标准化。如果选择用于计算扩增曲线的周期阈值的任意荧光水平(AFI)方法,则标准化对于确定周期阈值来说是有利的。在标准化之后,通过应用求根算法以确定表示标准化曲线的函数的根来处理该标准化曲线,所述根对应于周期阈值。该周期阈值然后被返回并可以被显示或另外被用于进一步的处理。
文档编号C12Q1/68GK1987880SQ20061016937
公开日2007年6月27日 申请日期2006年12月19日 优先权日2005年12月20日
发明者L·弗兰西奥利, R·克诺贝尔, R·T·库尔尼克 申请人:霍夫曼-拉罗奇有限公司