包含聚合物单元的聚合物的分析的制作方法
【专利摘要】在聚合物(3)例如DNA中的聚合物单元的序列由涉及聚合物的至少一个测量的系列例如作为移位通过纳米孔(1)的函数的离子电流来估计,其中每个测量值取决于k聚体,所述k聚体是k个聚合物单元(4)的组。提供了尤其是隐马尔可夫模型(HMM)的概率模型,对于一组可能的k聚体,所述模型包括:表示从起源k聚体到目标k聚体的过渡的机会的过渡权重;以及表示观测k聚体的测量的给定值的机会的关于每个k聚体的发射权重。利用参考模型的分析技术例如维特比解码来分析测量的系列,并基于通过由聚合物单元的序列产生的测量的系列的模型所预测的似然来估计在聚合物中的聚合物单元的至少一种估计的序列。在进一步的实施方式中,在移位期间跨越纳米孔施加不同的电压以便改善聚合物单元的分辨力。
【专利说明】包含聚合物单元的聚合物的分析
[0001] 本发明总体上涉及通过进行涉及聚合物的测量来分析包含聚合物单元的聚合物 例如但不限于多核苷酸的领域。本发明的第一方面特别涉及在聚合物中聚合物单元的序列 的估计。本发明的第二和第三方面涉及在聚合物的移位期间测量流过纳米孔(nanopore) 的离子电流,用于聚合物的分析。
[0002] 存在许多类型的测量系统,其提供聚合物的测量,用于分析聚合物和/或确定聚 合物单元的序列的目的。
[0003] 例如但不限于,一种类型的测量系统采用聚合物通过其移位的纳米孔。系统的一 些性能取决于在纳米孔中的聚合物单元,并进行上述性能的测量。例如,可以通过将纳米孔 放置在绝缘膜中并在有分析物分子存在的条件下测量通过纳米孔的电压驱动的离子转运 来产生测量系统。取决于纳米孔的特性,通过它的独特的离子电流特征,可以揭示分析物的 同一'丨生(特性,identity),尤其是电流单元(current block)的持续时间和程度以及电流 水平的变化。上述类型的使用纳米孔的测量系统大有前途,尤其是在多核苷酸如DNA或RNA 的测序领域,并且一直是最近很大发展的主题。
[0004] 在广泛的应用范围内,目前需要快速和廉价的核酸(例如DNA或RNA)测序技术。 现有技术是缓慢和昂贵的,主要是因为它们依靠扩增技术来产生大量的核酸并需要大量的 用于信号检测的专门荧光化学物质。通过减少所需要的核苷酸和试剂的量,纳米孔检测有 可能提供快速和廉价的核酸测序。
[0005] 本发明涉及一种情况,其中每个测量的值取决于k个聚合物单元的组,其中k是正 整数(即'k聚体')。
[0006] 此外,典型的是,用于每个测量的值的许多类型的测量系统,包括大多数目前已知 的生物纳米孔,是取决于k聚体,其中k是复整数(plural integer)。这是因为,多于一个 的聚合物单元有助于观测到的信号并且可以概念上被认为是具有大于待测量的聚合物单 元的"钝性读出头"的测量系统。在这样的情况下,待解析的不同k聚体的数目增加到k的 乘方。例如,如果存在η个可能的聚合物单元,则待解析的不同k聚体的数目是n k。虽然 期望的是,在不同k聚体的测量之间具有清晰的分离,但常见的是,这些测量的一些是重叠 的。尤其是在k聚体中聚合物单元的高数目(即k的高值)的情况下,可以变得难以解析 由不同k聚体产生的测量,从而不利于导出关于聚合物的信息,例如聚合物单元的基本序 列的估计。
[0007] 因此,许多开发工作一直是针对可以改善测量的分辨率的测量系统的设计。这在 实际测量系统中是困难的,这是由于测量的变化,其可以在不同程度上由基本物理或生物 系统的内在变化和/或由于待测量性能的较小幅度不可避免的测量噪声产生。
[0008] 许多研究已旨在测量系统的设计,上述测量系统提供可分辨的测量,其取决于单 个聚合物单元。然而,这在实践中已被证明是困难的。
[0009] 其它工作已接受取决于k聚体的测量,其中k是复整数,但已旨在设计这样的测量 系统,其中来自不同k聚体的测量是彼此可分辨的。然而,实际限制再次意味着这是非常困 难的。由一些不同k聚体产生的信号的分布经常可以重叠。
[0010] 原则上,也许可以结合来自k个测量的信息,其中k是复整数,其各自部分地取决 于相同的聚合物单元以获得在聚合物单元的水平上被解析的单值。然而,这在实践中是困 难的。首先,这依赖于确定适宜的变换以变换一组k个测量的可能性。然而,对于许多测量 系统,由于在基本物理或生物系统中相互作用的复杂性,这样的变换并不存在或对其加以 确定是不切实际的。其次,即使对于给定测量系统而言这样的变换可以原则上存在,但测量 的变化使得这种变换难以确定和/或变换仍可能提供不能彼此加以解析的值。第三,借助 于这样的技术,难以或不可能考虑到错过的测量,即其中取决于给定k聚体的测量在聚合 物单元的序列中失去,如在实际测量系统中有时可以是这种情况,例如由于测量系统未能 进行测量或由于在随后数据处理中的错误。
[0011] 本发明的第一方面涉及提供这样的技术,其改善由取决于k聚体的这种测量来估 计在聚合物中聚合物单元的序列的准确性。
[0012] 按照本发明的第一方面,提供了用于由涉及聚合物的至少一个测量的系列来估计 在聚合物中聚合物单元的序列的方法,其中每个测量的值取决于k聚体,k聚体是k个聚合 物单元的组,其中k是正整数,上述方法包括:
[0013] 提供模型,对于一组可能的k聚体所述模型包括:
[0014] 过渡权重(transition weightings),其表示从起源k聚体(起点k聚体,origin k-mers)到目标 k聚体(目的 k聚体,destination k-mers)的过渡(转变,transitions) 的机会(chances),以及
[0015] 关于每个k聚体的发射权重(emission weightings),其表示观测k聚体的测量的 给定值的机会;以及
[0016] 利用其指的是模型的分析技术来分析测量系列,并基于通过由聚合物单元的序列 产生的测量系列的模型所预测的似然(可能性,likelihood)来估计在聚合物中的聚合物 单元的至少一种估计的序列。
[0017] 进一步根据本发明的第一方面,提供了实施类似方法的分析设备。
[0018] 因此,本发明的第一方面利用了产生测量的测量系统的模型。给定任何测量系列, 模型表示已产生那些测量的k聚体的不同序列的机会。本发明的第一方面特别适合于这样 的情况,其中每个测量的值取决于k聚体,其中k是复整数。
[0019] 上述模型考虑可能的k聚体。例如,在聚合物中,其中每个聚合物单元可以是4个 聚合物单元(或者更一般地η个聚合物单元)的一个,存在4 k种可能的k聚体(或者更一 般地nk种可能的k聚体),除非任何特定的k聚体物理上并不存在。对于可以存在的所有 k聚体,发射权重考虑到观测测量的给定值的机会。关于每种k聚体的发射权重表示观测k 聚体的测量的给定值的机会。
[0020] 过渡权重表示从起源k聚体到目标k聚体的过渡的机会,因此,考虑到k聚体的机 会,在不同k聚体之间的过渡的测量取决于上述k聚体。因此过渡权重可以考虑到更多和 更少可能的过渡。通过举例的方式,其中k是复整数,对于给定起源k聚体,这可以表示与 非优选过渡相比优选过渡的更大的机会,所述优选过渡是到具有其中第一(k-Ι)聚合物单 元是起源k聚体的最后(k-Ι)聚合物单元的序列的目标k聚体的过渡,所述非优选过渡是 到具有不同于起源k聚体以及其中第一(k-Ι)聚合物单元不是起源k聚体的最后(k-Ι)聚 合物单元的序列的目标k聚体的过渡。例如,对于其中聚合物单元是天然存在的DNA碱基 的3聚体,状态CGT具有到GTC、GTG、GTT和GTA的优选过渡。通过举例而非限制性地,模型 可以是其中过渡权重和发射权重是概率(probabilities)的隐马尔可夫模型。
[0021] 这允许利用指的是模型的分析技术来分析测量系列。基于通过由聚合物单元的序 列产生的测量系列的模型所预测的似然来估计在聚合物中的聚合物单元的至少一种估计 的序列。例如但不限于,分析技术可以是概率技术。
[0022] 尤其是,来自单独k聚体的测量不需要是彼此可分辨的,并且并不需要存在从取 决于相同聚合物单元的k个测量的组到关于变换的值的变换,即观测到的状态的组并不需 要是较小数目的参数的函数(虽然这并不被排除)。相反,上述模型的使用可以提供准确估 计,其中通过在考虑通过聚合物单元的序列产生的测量系列的模型所预测的似然时考虑到 多个测量。从概念上讲,过渡权重可以被视为,在任何给定聚合物单元的估计中允许模型考 虑到至少k个测量,其部分取决于上述聚合物单元,并且确实还取决于来自在序列中的较 大距离的测量。在任何给定聚合物单元的估计中,上述模型可以有效地考虑到大量的测量, 从而给出可以是更准确的结果。
[0023] 类似地,这样的模型的使用可以允许分析技术考虑到从给定k聚体失去的测量和 /或考虑到在由给定k聚体产生的测量中的离群值(outliers)。这可以用过渡权重和/或 发射权重加以解释。例如,过渡权重可以表示至少一些非优选过渡的非零机会和/或发射 权重可以表示观测所有可能的测量的非零机会。
[0024] 本发明的第二和第三方面涉及提供这样的技术,利用当聚合物移位通过纳米孔时 流过纳米孔的离子电流的测量,其协助聚合物的分析。
[0025] 依据本发明的第二方面,提供了分析包含聚合物单元的聚合物的方法,该方法包 括:
[0026] 在聚合物移位通过纳米孔期间,当跨越纳米孔施加电压时,进行测量,其取决于在 纳米孔中k聚体的同一性,k聚体是聚合物的k个聚合物单元,其中k是正整数,其中关于 单独k聚体的测量包括在跨越纳米孔施加的不同水平的所述电压下进行的分开测量;以及
[0027] 在所述不同水平的所述电压下分析测量以确定至少部分聚合物的同一性。
[0028] 上述方法涉及进行测量,其取决于在纳米孔中k聚体的同一性,k聚体是聚合物的 k个聚合物单元,其中k是正整数。尤其是,关于单独k聚体的测量包括在跨越纳米孔施加 的不同水平的所述电压下进行的分开测量。本发明人已经认识到和证实,上述在跨越纳米 孔施加的不同水平的所述电压下的测量提供另外的信息,而不是仅仅重复的。例如,在不同 电压下的测量允许不同状态的分辨率。例如,在给定电压下不能被解析的一些k聚体可以 在另一电压下被解析。
[0029] 本发明的第三方面提供了在跨越纳米孔施加不同水平的电压下进行测量的方法, 其可以可选地应用于本发明的第二方面。尤其是,根据本发明的第三方面,提供了对包含聚 合物单元的聚合物进行测量的方法,该方法包括:
[0030] 当跨越纳米孔施加电压时,进行所述聚合物通过纳米孔的移位;
[0031] 在聚合物通过纳米孔的所述移位期间,以一定循环,施加不同水平的所述电压,以 及
[0032] 进行取决于在纳米孔中k聚体的同一性的测量,k聚体是聚合物的k个聚合物单 元,其中k是正整数,上述测量包括以所述循环在所述不同水平的所述电压下关于单独k聚 体的分开测量,上述循环具有这样的循环周期,其短于其中所述测量取决于所述单独k聚 体的状态。
[0033] 因此,本发明的第三方面提供了与本发明的第二方面相同的优点,尤其是测量提 供另外的信息,而不是仅仅重复的。在不同电压下的测量提供了在随后的测量分析中不同 状态的分辨。例如,在给定电压下不能被解析的一些状态可以在另一电压下被解析。
[0034] 这是基于这样的创新,其中在聚合物通过纳米孔的单个移位期间获得在不同电压 下的测量。这是通过以一定循环改变所述电压的水平来实现,选择上述循环使得循环周期 短于待测量的状态的持续时间。
[0035] 然而,在本发明的第二方面内,并不必需使用这种方法。作为一种替代方案,可以 在聚合物通过纳米孔的不同移位期间,其可以是在相同方向上的移位,或可以包括在相反 方向上的移位,在不同量值的电压下,进行离子电流测量。
[0036] 因此,本发明的第二方面和第三方面的方法可以提供另外的信息,其改善随后的 测量分析,以导出关于聚合物的信息。可以导出的信息的类型的一些实例如下。
[0037] 分析可以用来导出在状态之间过渡的时序。在这种情况下,通过在不同电位下测 量每种状态所提供的另外的信息会改善准确性。例如,在一种电压下在两种状态之间的过 渡不能加以解析的情况下,通过在另一电压下改变离子电流测量的水平可以确定上述过 渡。这潜在地允许鉴定这样的过渡,其仅在一种电压下工作将不是显而易见的,或较高置信 度地确定过渡事实上并不发生。这种鉴定可以用于随后的测量分析。
[0038] -般来说,相比于在一种电压水平下可以获得的,在不同电压水平下进行测量会 提供更多信息。例如在通过纳米孔的离子流的测量中,可以获自测量的信息包括电流水平 和针对特定状态的信号变化(噪声)。例如对于DNA通过纳米孔的移位,包含核苷酸碱基G 的k聚体倾向于产生具有增加的信号变化的状态。可能难以确定状态的过渡是否已发生, 例如由于相应的状态具有类似的电流水平或其中一种或两种相应的状态具有高信号变化。 对于不同电压水平,针对特定状态的电流水平和信号变化可以不同,因而在不同电压水平 下的测量可以使得能够确定高变化状态或增加在确定状态时的置信水平。因此,相比于另 一个电压水平,在一种电压水平下,可以更容易确定在状态之间的过渡。
[0039] 分析可以是估计聚合物的同一性或估计在聚合物中聚合物单元的序列。在这种情 况下,由在不同电位下每个状态的测量提供的另外的信息会改善估计的准确性。
[0040] 在估计聚合物单元的序列的情况下,分析可以使用根据本发明的第一方面的方 法。因此,以任何组合,本发明的第一方面的特点可以与本发明的第二方面和/或第三方面 的特点结合。
[0041] 进一步根据本发明的第二和第三方面,提供了用来实施类似方法的分析设备。
[0042] 为了允许更好的理解,现将通过非限制性实例参照附图来描述本发明的实施方 式,其中:
[0043] 图1是包括纳米孔的测量系统的示意图;
[0044] 图2是随着时间的推移通过测量系统测得的事件的信号图;
[0045] 图3是在包括纳米孔的测量系统中两种不同多核苷酸的测量的频率分布图;
[0046] 图4和5分别是64个3聚体系数和1024个5聚体系数的图(plot),其相对于来 自适用于实验得出的电流测量的集合的一阶线性模型的预测值;
[0047] 图6是包含聚合物的测量的输入信号的分析方法的流程图;
[0048] 图7是图6的状态检测步骤的流程图;
[0049] 图8是图6的分析步骤的流程图;
[0050] 图9和10分别是经受状态检测步骤的输入信号和产生的测量系列的曲线图;
[0051] 图11是跃迁矩阵(转换矩阵,transition matrix)的图形表示;
[0052] 图12是在模拟实例中关于k聚体状态的预期测量的图;
[0053] 图13示出模拟自图12所示的预期测量的输入信号;
[0054] 图14示出源自图13的输入信号的一系列测量;
[0055] 图15和16示出过渡权重的相应的跃迁矩阵;
[0056] 图17至19是具有分别为高斯、三角(triangular)和正方(square)的可能的分 布的发射权重的图;
[0057] 图20是在一组模拟测量和图12所示的预期测量之间的电流的空间排列(电流的 空间比对,current space alignment)的图;
[0058] 图21是在实际k聚体和从图20的模拟测量估计的k聚体之间的k聚体空间排列 的图;
[0059] 图22是在另一组模拟测量和图12所示的预期测量之间的电流的空间排列的图;
[0060] 图23和24是在实际k聚体和分别借助于图15和16的跃迁矩阵从图22的模拟 测量估计的k聚体之间的k聚体空间排列的图;
[0061] 图25是具有小的非零背景的正方分布的发射权重的散布图,其中分布集中于图 12的预期测量上;
[0062] 图26是在实际k聚体和借助于图15的跃迁矩阵和图25的发射权重从图20的模 拟测量估计的k聚体之间的k聚体空间排列的图;
[0063] 图27是具有零背景的正方分布的发射权重的图,其中分布集中于图12的预期测 量上;
[0064] 图28是在实际k聚体和借助于图15的跃迁矩阵和图27的发射权重从图20的模 拟测量估计的k聚体之间的k聚体空间排列的图;
[0065] 图29是利用链霉亲和素由保持在MS-(B2) 8纳米孔中的DNA链获得的电流测量的 散布图;
[0066] 图30是用于示例性训练过程的跃迁矩阵;
[0067] 图31是图30的跃迁矩阵的放大部分;
[0068] 图32和33是分别对于源自静态训练过程的64种k聚体的模型和上述模型平移 成大约400种状态的模型的发射权重的图;
[0069] 图34是训练过程的流程图;
[0070] 图35是由图34的训练过程确定的发射权重的图;
[0071] 图36是利用来自模型的预期测量在许多实验上汇集的电流测量的图;
[0072] 图37是在实际k聚体和估计k聚体之间的k聚体空间排列的图;
[0073] 图38示出用实际序列校准的估计k聚体的估计序列;
[0074] 图39示出聚合物的有义和反义区的单独的估计序列,以及通过处理来自以两个 相应的维度设置的有义和反义区的测量所导出的估计序列;
[0075] 图40是在第一实例中在三种不同电压下在纳米孔中的一组DNA链的离子电流测 量的一组柱状图;
[0076] 图41是在第二实例中在共同时间期间内对纳米孔中的单链的施加电位和生成的 离子电流的一对图;
[0077] 图42至45是在第二实例中分别水平索引在4个水平的电压下每个DNA链的测得 电流的散布图;
[0078] 图46是在第二实例中相对于施加电压测得的每个DNA链的电流图;
[0079] 图47是在第二实例中相对于施加电压每个DNA链的电流测量的标准偏差图;
[0080] 图48是用于进行离子电流测量的方法的流程图;
[0081] 图49和50各自是在第三实例中在共同时间期间内施加电位和生成的离子电流的 一对图;
[0082] 图51是用于进行离子电流测量的一种替代方法的流程图;以及
[0083] 图52a和52b是在相同的时间尺度上跨越纳米孔施加的成形电压步骤和产生的电 流的图。本发明的所有方面可以应用于如下聚合物范围。
[0084] 聚合物可以是多核苷酸(或核酸)、多肽如蛋白、多糖、或任何其它聚合物。聚合物 可以是天然或合成的。
[0085] 在多核苷酸或核酸的情况下,聚合物单元可以是核苷酸。核酸通常是脱氧核糖核 酸(DNA)、核糖核酸(RNA)、cDNA或合成核酸(在本领域中已知的),如肽核酸(PNA)、甘油 核酸(GNA)、苏糖核酸(TNA)、锁核酸(LNA)或具有核苷酸侧链的其它合成聚合物。核酸可 以是单链、是双链、或包含单链和双链区。通常,cDNA、RNA、GNA、TNA或LNA是单链的。本发 明的方法可以用来确定任何核苷酸。核苷酸可以是天然存在的或人工的。核苷酸通常包含 核碱、糖和至少一个磷酸酯基团。核碱通常是杂环的。适宜的核碱包括嘌呤和嘧啶以及更 具体地腺嘌呤、鸟嘌呤、胸腺嘧啶、尿嘧啶和胞嘧啶。上述糖通常是戊糖。适宜的糖包括但 不限于核糖和脱氧核糖。核苷酸通常是核糖核苷酸或脱氧核糖核苷酸。核苷酸通常包含单 磷酸酯、二磷酸酯或三磷酸酯。
[0086] 核苷酸可以是损伤或表遗传碱基。核苷酸可以被标记或修饰以作为具有明显信号 的标记物。这种技术可以用来确定碱基的缺乏,例如,在多核苷酸中的无碱基单元或隔离 物。上述方法也可以应用于任何类型的聚合物。
[0087]当考虑修饰或损伤DNA (或类似系统)的测量时,具有特别用途的是其中考虑互补 数据的方法。提供的另外的信息允许在较大数目的基本状态之间加以区别。
[0088] 在多肽的情况下,聚合物单元可以是天然存在的或合成的氨基酸。
[0089] 在多糖的情况下,聚合物单元可以是单糖。
[0090] 本发明可以应用于通过一范围的测量系统进行的测量(如下文进一步讨论的)。
[0091] 根据本发明的所有方面,测量系统可以是包括纳米孔的纳米孔系统。在这种情况 下,可以在聚合物移位通过纳米孔期间进行测量。聚合物通过纳米孔的移位会产生在测得 特性中的特征信号,其可以被观测到,并且可以作为总体被称为"事件"。
[0092] 纳米孔是孔,通过具有纳米级的尺寸,其允许聚合物通过其中。可以测量取决于聚 合物单元移位通过孔的性能。上述性能可以与在聚合物和孔之间的相互作用相关。在孔的 狭窄区(constricted region)处可以发生聚合物的相互作用。测量系统测量性能,从而产 生取决于聚合物的聚合物单元的测量。
[0093] 纳米孔可以是生物孔或固态孔。
[0094] 在纳米孔是生物孔的情况下,它可以具有以下性能。
[0095] 生物孔可以是跨膜蛋白质孔。根据本发明使用的跨膜蛋白质孔可来自β_桶孔 (barrel pore)或α-螺旋束孔。β-桶孔包含桶或通道,其由β-链形成。适宜的β-桶 孔包括但不限于β-毒素,如α-溶血素、炭疽毒素和杀白细胞素,以及细菌的外膜蛋白/ 孔蛋白,如耻垢分枝杆菌孔蛋白(Mycobacterium smegmatis porin) (Msp),例如MspA、外膜 孔蛋白F(0mpF)、外膜孔蛋白G(0mpG)、外膜磷脂酶A和奈瑟菌自转运脂蛋白(NalP)。α-螺 旋束孔包含桶或通道,其由α-螺旋形成。适宜的α-螺旋束孔包括但不限于内膜蛋白和 α外膜蛋白,如WZA和ClyA毒素。跨膜蛋白可以源自Msp或源自α-溶血素(a-HL)。
[0096] 跨膜蛋白质孔通常源自Msp,优选源自MspA。这样的孔将是寡聚的并且通常包含 源自Msp的7、8、9或10个单体。孔可以是源自包含相同单体的Msp的同源寡聚体孔。可 替换地,孔可以是异寡聚体孔,该异寡聚体孔源自Msp,其包含至少一种不同于其它单体的 单体。上述孔还可以包含一种或多种构建体,其包含源自Msp的两种或更多种共价连接单 体。适宜的孔披露于美国临时申请号61/441,718(2011年2月11日提交)中。优选地,上 述孔来自MspA或其同系物或旁系同源物(paralog)。
[0097] 生物孔可以是天然产生的孔或可以是突变体孔。典型孔描述于 W0-2010/109197,Stoddart D et al.,Proc Natl Acad Sci, 12 ; 106 (19):7702-7, Stoddart D et al.,Angew Chem Int Ed Engl. 2010 ;49(3):556-9,Stoddart D et al.,Nano Lett. 2010Sep8 ;10 (9) :3633-7,Butler TZ et al. , Proc Natl Acad Sci2008 ; 105(52) :20647-52,以及美国临时申请61/441718中。
[0098] 生物孔可以是MS-(Bl) 8。编码B1的核苷酸序列和B1的氨基酸序列示于下文(Seq ID:1 和 Seq ID:2)。
[0099] Seq ID 1:MS-(B1)8 = MS-(D90N/D91N/D93N/D118R/D134R/E139K)8
[0100] ATGGGTCTGGATAATGAACTGAGCCTGGTGGACGGTCAAGATCGTACCCTGACGGTGCAACAATGGGAT ACCTTTCTGAATGGCGTTTTTCCGCTGGATCGTAATCGCCTGACCCGTGAATGGTTTCATTCCGGTCGCGCAAAATA TATCGTCGCAGGCCCGGGTGCTGACGAATTCGAAGGCACGCTGGAACTGGGTTATCAGATTGGCTTTCCGTGGTCAC TGGGCGTTGGTATCAACTTCTCGTACACCACGCCGAATATTCTGATCAACAATGGTAACATTACCGCACCGCCGTTT GGCCTGAACAGCGTGATTACGCCGAACCTGTTTCCGGGTGTTAGCATCTCTGCCCGTCTGGGCAATGGTCCGGGCAT TCAAGAAGTGGCAACCTTTAGTGTGCGCGTTTCCGGCGCTAAAGGCGGTGTCGCGGTGTCTAACGCCCACGGTACCG TTACGGGCGCGGCCGGCGGTGTCCTGCTGCGTCCGTTCGCGCGCCTGATTGCCTCTACCGGCGACAGCGTTACGACC TATGGCGAACCGTGGAATATGAACTAA
[0101] Seq ID2:MS-(B1)8 = MS-(D90N/D91N/D93N/D118R/D134R/E139K)8
[0102] GLDNELSLVDGQDRTLTVQQWDTFLNGVFPLDRNRLTREWFHSGRAKYIVAGPGADEFEGTLELGYOIG FPWSLGVGINFSYTTPNILIMGNITAPPFGLNSVITPNLFPGVSISARLGNGPGIQEVATFSVRVSGAKGGVAVSN AHGTVTGAAGGVLLRPFARLIASTCDSVTTYGEPWNMN
[0103] 生物孔更优选地是MS-(B2)8。除突变L88N之外,B2的氨基酸序列与Bl的氨基酸 序列相同。编码B2的核苷酸序列和B2的氨基酸序列示于下文(Seq ID :3和Seq ID :4)。
[0104] Seq ID3:MS-(B2)8 = MS-(L88N/D90N/D91N/D93N/D118R/D134R ?E139K)8
[0105] ATGGGTCTGGATAATGAACTGAGCCTGGTGGACGGTCAAGATCGTACCCTGACGGTGCAACAATGGGAT ACCTTTCTGAATGGCGTTTTTCCGCTGGATCGTAATCGCCTGACCCGTGAATGGTTTCATTCCGGTCGCGCAAAATA TATCGTCGCAGGCCCGGGTGCTGACGAATTCGAAGGCACGCTGGAACTGGGTTATCAGATTGGCTTTCCGTGGTCAC TGGGCGTTGGTATCAACTTCTCGTACACCACGCCGAATATTAACATCAACAATGGTAACATTACCGCACCGCCGTTT GGCCTGAACAGCGTGATTACGCCGAACCTGTTTCCGGGTGTTAGCATCTCTGCCCGTCTGGGCAATGGTCCGGGCAT TCAAGAAGTGGCAACCTTTAGTGTGCGCGTTTCCGGCGCTAAAGGCGGTGTCGCGGTGTCTAACGCCCACGGTACCG TTACGGGCGCGGCCGGCGGTGTCCTGCTGCGTCCGTTCGCGCGCCTGATTGCCTCTACCGGCGACAGCGTTACGACC TATGGCGAACCGTGGAATATGAACTAA
[0106] Seq ID4:MS-(B2)8 = MS-(L88N/D90N/D91N/D93N/D118R/D134R/E139K)8
[0107] GLDNELSLVDGQDRTLTVQQWDTFLNGVFPLDRNRLTREWFHSGRAKYIVAGPGADEFEGTLELGYQIG FPWSLGVGINFSYTTPNININNGNITAPPFGLNSVITPNLFPGVSISARLGNGPGIQEVATFSVRVSGAKGGVAVSN AHGTVTGAAGGVLLRPFARLIASTCDSVTTYGEPWNMN
[0108] 可以将生物孔插入两亲层如生物膜,例如脂双层中。两亲层是这样的层,其由具有 亲水性和亲脂性的两亲分子如磷脂形成。两亲层可以是单层或双层。两亲层可以是共嵌段 聚合物如由(Gonzalez-Perez et al.,Langmuir,2009, 25, 10447-10450)所披露的。可替换 地,可以将生物孔插入固态层中。
[0109] 可替换地,纳米孔可以是固态孔,其包含在固态层中形成的孔。
[0110] 固态层并不是生物起源的。换句话说,固态层不是源自或分离自生物环境如生物 体或细胞、或生物可利用结构的合成制造形式。固态层可以由有机和无机材料形成,其包括 但不限于微电子材料,绝缘材料如Si3N4、A1203、和SiO,有机和无机聚合物如聚酰胺塑料 如Teflon?或弹性体如双组分加成固化硅橡胶,以及玻璃。固态层可以由石墨烯形成。适 宜的石墨烯层披露于W02009/035647和W0-2011/046706中。
[0111] 固态孔通常是在固态层中的孔。可以用化学方式或其它方式来改性孔,以增强 其作为纳米孔的性能。可以连同另外的元件一起来使用固态孔,其中上述另外的元件提 供聚合物的替代的或附加的测量,如隧道电极(Ivanov AP et al.,Nano Lett. 2011Janl2 ; 11 (1) :279-85)、或场效应晶体管(FET)装置(国际申请W02005/124888)。可以通过已知方 法,包括例如在W000/79257中描述的那些方法,来形成固态孔。
[0112] 在一种类型的测量系统中,可以使用流过纳米孔的离子电流的测量。可以利用如 描述于 Stoddart D et al.,Proc Natl Acad Sci, 12 ; 106 (19) : 7702-7, Lieberman KR et al,J Am Chem Soc. 2010 ;132 (50) :17961-72和国际申请W0-2000/28312中的标准单通道记录装 置,来进行这些和其它电子测量。可替换地,可以利用例如描述于国际申请W0-2009/077734 和国际申请W0-2011/067559中的多通道系统来进行电子测量。
[0113] 为了允许当聚合物移位通过纳米孔时进行测量,可以通过聚合物结合部分来控制 移位速率。通常,借助于或针对施加场,该部分可以移动聚合物通过纳米孔。该部分可以是 分子马达,其利用例如,在该部分是酶的情况下,酶促活性,或作为分子刹车。在聚合物是多 核苷酸的情况下,提出了许多方法来控制移位速率,包括使用多核苷酸结合酶。用于控制 多核苷酸的移位速率的适宜的酶包括但不限于聚合酶、螺旋酶、外切核酸酶、单链和双链结 合蛋白、以及拓扑异构酶,如促旋酶。对于其它聚合物类型,可以使用与上述聚合物类型相 互作用的部分。聚合物相互作用部分可以是任何披露于国际申请号PCT/GB10/000133或 US61/441718(LiebermanKRet al,J Am ChemSoc. 2010 ; 132 (50) :17961-72)中,以及用于电 压门控方案(Luan Bet al.,Phys Rev Lett. 2010 ;104(23) :238103)中的部分。
[0114] 可以以许多方式来使用聚合物结合部分以控制聚合物移动。借助于或针对施加 场,上述部分可以移动聚合物通过纳米孔。上述部分可以用作分子马达,其利用例如,在上 述部分是酶的情况下,酶促活性,或作为分子刹车。可以通过控制聚合物通过孔的移动的分 子棘轮(molecular ratchet),来控制聚合物的移位。分子棘轮可以是聚合物结合蛋白。对 于多核苷酸,多核苷酸结合蛋白优选是多核苷酸处理酶。多核苷酸处理酶是一种多肽,其能 够与多核苷酸相互作用并改进多核苷酸的至少一种性能。上述酶可以通过切割其来修饰多 核苷酸以形成单个核苷酸或核苷酸的较短链,如二或三核苷酸。上述酶可以通过定向它或 移动它到特定位置来修饰多核苷酸。多核苷酸处理酶并不需要显示酶促活性,只要它能够 结合靶多核苷酸并控制它通过孔的移动。例如,可以修饰上述酶以除去它的酶促活性,或可 以在防止它作为酶的条件下加以使用。下文更详细地讨论这样的条件。
[0115] 多核苷酸处理酶可以源自核水解酶。在酶的构建体中使用的多核苷酸处理酶更 优选地源自任何酶分类(EC)组 3. 1. 11、3· 1. 13、3· 1. 14、3· 1. 15、3· 1. 16、3· 1. 21、3· 1. 22、 3· 1·25、3· 1·26、3· 1·27、3· 1.30和3. 1.31的成员。上述酶可以是披露于国际申请号PCT/ GB10/000133(公开为 W02010/086603)中的任何酶。
[0116] 优选的酶是聚合酶、外切核酸酶、螺旋酶和拓扑异构酶,如促旋酶。适宜的酶包括 但不限于来自大肠杆菌的外切核酸酶I(SEQ ID N0:8)、来自大肠杆菌的外切核酸酶III酶 (SEQIDN0:10)、来自极端嗜热菌(T·thermophilus)的RecJ(SEQIDN0:12)和噬菌体λ夕卜 切核酸酶(SEQ ID N0:14)以及它们的变体。包含示于SEQ ID N0:14中的序列或其变体的 三个亚单位相互作用以形成三聚体外切核酸酶。上述酶优选源自Phi29DNA聚合酶。源自 Phi29聚合酶的一种酶包含示为SEQ ID N0:6或其变体的序列。
[0117] SEQ ID N0:6、8、10、12或14的变体是一种酶,该酶具有氨基酸序列,其不同于SEQ ID N0:6、8、10、12或14的氨基酸序列并且其保留多核苷酸结合能力。上述变体可以包括修 饰,其促进多核苷酸的结合和/或促进它在高盐浓度和/或室温下的活性。
[0118] 对于SEQ ID N0:6、8、10、12或14的氨基酸序列的整个长度,基于氨基酸同一性,变 体将优选至少50 %同源于上述序列。更优选地,对于整个序列,基于氨基酸同一性,变体多 肽可以是至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至 少90%以及更优选地至少95%、97%或99%同源于SEQ ID N0:6、8、10、12或14的氨基酸 序列。对于200或更多,例如230、250、270或280或更多相邻氨基酸的一段序列,可以存在 至少80%,例如至少85%、90%或95%的氨基酸同一性("硬同源性")。如上所述,确定同 源性。以上文讨论的任何方式,参比SEQ ID N0:2,变体可以不同于野生型序列。如上文所 讨论的,酶可以共价连接于孔。
[0119] 用于单链DNA测序的两种策略是,借助于或针对施加电位,顺式至反式和反式至 顺式地使DNA移位通过纳米孔。用于链测序的最有利的机制是在施加电位下单链DNA通过 纳米孔的受控移位。逐渐地或持续地作用于双链DNA的外切核酸酶可以用于孔的顺侧以在 施加电位下使剩余单链进料通过,或在反向电位下用于反侧。同样,还可以以类似的方式 来使用解旋双链DNA的螺旋酶。也有可能是这样的测序应用,其需要相对于施加电位的链 移位,但DNA必须在反向或没有电位下首先被酶"捕获"。在结合以后,借助于切换回来的 电位,链将顺式至反式通过孔并通过电流而被保持处于伸展构象。单链DNA外切核酸酶或 单链DNA依赖性聚合酶可以作为分子马达,以相对于施加电位,反式至顺式,以受控分步方 式,通过孔,拉回最近移位的单链。可替换地,单链DNA依赖性聚合酶可以作为分子刹车,其 用来放慢多核苷酸通过孔的移动。在临时申请US61/441718或US临时申请号61/402903 中描述的任何部分、技术或酶可以用来控制聚合物移动。
[0120] 然而,替代类型的测量系统和测量也是可能的。
[0121] 以下是替代类型的测量系统的一些非限制性实例。
[0122] 测量系统可以是扫描探针显微镜。扫描探针显微镜可以是原子力显微镜(AFM)、扫 描隧道显微镜(STM)或另一种形式的扫描显微镜。
[0123] 在读数器是AFM的情况下,相比于单个聚合物单元的维度,AFM尖端的分辨率可以 是较不精细的。因此,测量可以是多个聚合物单元的函数。AFM尖端可以被功能化,从而以 替代方式与聚合物单元相互作用或如果它未被功能化。可以以接触模式、非接触模式、轻敲 模式或任何其它模式来操作AFM。
[0124] 在读数器是STM的情况下,相比于单个聚合物单元的维度,测量的分辨率可以是 较不精细的,使得测量是多个聚合物单元的函数。可以常规地操作STM或进行光谱测量 (STS)或以任何其它模式。
[0125] 替代类型的测量的一些实例包括但不限于电子测量和光学测量。J. Am. Chem. Soc. 2009, 1311652-1653披露了一种适宜的光学方法,其涉及荧光的测量。可能的电子 测量包括:电流测量、阻抗测量、隧道效应测量(例如如披露于Ivanov AP et al.,Nano Lett. 2011Janl2 ;11 (1) :279-85)、以及 FET 测量(例如如披露于国际申请 TO2005/124888 中)。光学测量可以与电子测量(Soni GV et al.,Rev Sci Instrum. 2010Jan ;81(1) :014301) 结合。测量可以是跨膜电流测量如通过纳米孔的离子电流的测量。离子电流通常可以是DC 离子电流,虽然原则上一种替代方法是使用AC电流(即,在施加 AC电压下,流过的AC电流 的幅值)。
[0126] 在本文中,术语'k聚体'是指k个聚合物单元的组,其中k是正整数,包括k是1 的情况,其中k聚体是单个聚合物单元。在一些情况下,提及k聚体,其中k是复整数,是k 聚体的亚组,一般来说不包括k是1的情况。
[0127] 虽然理想地,借助于许多典型的测量系统,测量将取决于单个聚合物单元,但其中 k是复整数的情况下测量取决于聚合物的k聚体。即,在其中k是复整数的情况下,每个测 量取决于k聚体中的每个聚合物单元的序列。通常,测量具有这样的特性,其与在聚合物和 测量系统之间的相互作用相关。
[0128] 在本发明的一些实施方式中,优选使用这样的测量,其取决于聚合物单元的小组, 例如聚合物单元的双联体或三联体(即,其中k = 2或k = 3)。在其它实施方式中,优选使 用这样的测量,其取决于聚合物单元的较大组,即,具有"宽"分辨率。这样的宽分辨率特别 可用于检查均聚物区。
[0129] 尤其是,在测量取决于k聚体(其中k是复整数)的情况下,期望的是,对于尽可 能多的可能的k聚体,测量是可分辨的(即分离的)。通常,如果由不同k聚体产生的测量 很好分布于测量范围和/或具有窄分布,这可以实现。通过不同的测量系统,这可以在不同 程度上实现。然而,本发明的独特优势在于,由不同k聚体产生的测量是可分辨的不是必不 可少的。
[0130] 图1示意性地说明测量系统8的实例,该系统包括纳米孔,其是插入生物膜2如两 亲层中的生物孔1。使包含一系列聚合物单元4的聚合物3移位通过生物孔1,如箭头所示。 聚合物3可以是多核苷酸,其中聚合物单元4是核苷酸。聚合物3与生物孔1的活性部分 5相互作用,从而引起电性能如跨膜电流依赖于生物孔1内的k聚体而变化。在此实例中, 活性部分5被示为与三个聚合物单元4的k聚体相互作用,但这不是限制性的。
[0131] 布置在生物膜2的每侧上的电极6连接于电路7,其包括控制电路71和测量电路 72〇
[0132] 控制电路71被设置成将电压提供到电极6,用于跨越生物孔1进行施加。
[0133] 测量电路72被设置成测量电性能。因此,测量取决于在生物孔1内的k聚体。
[0134] 由测量系统输出并且其是根据本发明加以分析的输入信号的典型类型的信号是 "噪声阶梯波",虽然不限于这种信号类型。具有这种形式的输入信号的实例示于图2中,其 用于利用包括纳米孔的测量系统获得的离子电流测量的情况。
[0135] 这种类型的输入信号包括测量的输入系列,其中连续的多个测量的组取决于相同 的k聚体。在每组中的多个测量具有恒定值,并经受下文所讨论的一些变化,因而形成信 号的"水平",其对应于测量系统的状态。上述信号在一组水平(其可以是较大组)之间移 动。鉴于仪表的采样速率和在信号上的噪声,可以认为在水平之间的过渡是瞬间的,因此可 以通过理想化的步跟踪来近似信号。
[0136] 对应于每个状态的测量在事件的时间范围内是恒定的,但对于大多数测量系统而 言将在短时间范围内经受变化。变化可能起因于测量噪声,例如产生自电路和信号处理, 尤其是在电生理学的特定情况下产生自放大器。由于待测量的性能的较小幅度,上述测量 噪声是不可避免的。变化也可以来自在测量系统的基本物理或生物系统中的内在变化或扩 散。大多数测量系统将在更大或更小程度上经历上述内在变化。对于任何给定测量系统, 两种变化源均可以起作用,或这些噪声源的一种可以是占主导地位的。
[0137] 另外,通常没有在组中测量的数目的先验知识,其不可预测地变化。
[0138] 上述两种变化因素以及测量的数目的知识的缺乏可以使得难以区分一些组,例如 在组较短和/或两个连续组的测量的水平彼此接近的情况下。
[0139] 由于在测量系统中发生的物理或生物过程的结果,信号采用这种形式。因此,每组 测量可以被称为"状态"。
[0140] 例如,在包括纳米孔的一些测量系统中,由聚合物通过纳米孔的移位组成的事件 可以以棘轮方式发生。在棘轮移动的每个步骤期间,在跨越纳米孔的给定电压下,流过纳米 孔的离子电流是恒定的,并经受上述讨论的变化。因此,每组测量与棘轮移动的步骤相关。 每个步骤对应于一种状态,其中聚合物处于相对于纳米孔的相应位置。虽然在状态期间过 程中,在精确位置方面,可以存在一些变化,但在状态之间存在聚合物的大规模移动。取决 于测量系统的特性,由于在纳米孔中结合事件的结果,状态可以发生。
[0141] 单个状态的持续时间可以取决于许多因素,如跨越孔施加的电位,用来对聚合物 作棘轮的酶的类型,而不管聚合物通过存在的酶、pH、盐浓度和三磷酸核苷的类型被推动或 拉动通过孔。状态的持续时间可能会通常在0. 5ms至3s之间变化,其取决于测量系统,以 及对于任何给定纳米孔系统,具有在状态之间的一些随机变化。对于任何给定测量系统,可 以实验确定持续时间的预期分布。
[0142] 上述方法可以使用多个测量的输入系列,各自采用上文描述的形式,其中在每个 系列中多个测量的连续组取决于相同的k聚体。可以记录上述多个系列使得先验已知的 是,来自相应系列的哪些测量对应和取决于相同的k聚体,例如如果同时获取每个系列的 测量。这可能是这种情况,例如,如果测量具有由不同测量系统同步测得的不同性能。可替 换地,可以不记录上述多个系列,使得不是先验已知的是,来自相应系列的哪些测量对应和 取决于相同的k聚体。这可能是这种情况,例如,如果在不同的时间进行测量系列。
[0143] 根据下文讨论的第三方面的方法,其中在跨越纳米孔施加不同水平的电压下进行 测量,提供了关于每个水平的电压的一系列测量。在这种情况下,考虑到用于谈及的测量系 统的状态的循环周期,来选择测量的循环周期。理想地,循环周期短于所有状态的持续时 间,其是通过选择短于测量系统的最小预期循环周期的循环周期来实现。然而,有用的信息 可以获自在短于仅仅一些状态的持续时间的循环周期期间进行的测量,例如短于状态的持 续时间的平均60 %、70 %、80 %、90 %、95 %、或99 %。通常,循环周期可以是至多3s,更通常 至多2s或至多Is。通常,循环周期可以是至少0. 5ms,更通常至少lms或至少2ms。
[0144] 对于状态的持续时间,可以施加多于一个的电压循环,例如2至10个之间的数目。
[0145] 关于每种k聚体,可以在一种电压水平下进行多个测量(或在多个电压水平的每 个下进行多个测量)。在一种可能的方式中,可以各自连续施加不同水平的电压一时间段, 例如当电压波形是阶梯波时,以及在相应的时期期间中,在上述期间内施加的一种电压下 进行多个测量的组。
[0146] 多个测量本身可以用于随后的分析。可替换地,在所述(或每个)电压水平的一 个或多个汇总测量可以源自每个多个测量的组。一个或多个汇总测量可以源自在任何给定 电压水平下关于任何给定k聚体以任何方式的多个测量,例如作为平均值或中值,或作为 统计变化的度量,例如标准偏差。然后一个或多个汇总测量可以用于随后的分析。
[0147] 电压循环可以选自许多不同波形。波形可以是非对称、对称、规则或不规则的。
[0148] 在循环的一个实例中,可以各自连续施加不同水平的电压一时间段,即循环的部 分期间,具有在那些不同水平之间的过渡,例如矩形波或阶梯波。在电压水平之间的过渡可 以是尖锐的或可以是在一时间段内斜线上升的(ramped)。
[0149] 在循环的另一个实例中,电压水平可以连续变化,例如在不同水平之间是斜线上 升的,例如三角形或锯齿波。在这种情况下,可以通过在循环内对应于所期望的电压水平的 时间进行测量来进行在不同水平下的测量。
[0150] 信息可以源自在电压坪区(voltage plateau)下的测量或源自斜率的测量。除在 不同电压水平下进行的测量之外,可以导出进一步的信息,例如通过测量在一个电压水平 和另一个电压水平之间的瞬态形状。
[0151] 在阶梯电压方案中,在电压水平之间的过渡可以被成形,使得最小化任何电容瞬 态(capacitive transients)。考虑纳米孔系统作为简单的RC电路,电流,I,由下式给出, I =V/R+CdV/dt,其中V是施加电位,R是电阻(通常为孔的电阻),t是时间以及C是电容 (通常为双层的电容)。在此模型系统中,在两个电压水平之间的过渡将遵循时间常数的指 数,τ =RC,其中 V = V2-(V2-Vl)*exp(_t/T)。
[0152] 图52a和52b示出这样的情况,其中选择在电压水平之间过渡的时间常数τ,以致 过渡速度太快和太慢地被优化。在电压过渡太快的情况下,在测得的电流信号中看到尖峰 信号(过冲),而在太慢的情况下,则测得的信号并不足够快速地变平(下冲)。在过渡速 度被优化的情况下,测得的电流从理想的尖锐过渡变形的时间被最小化。可以根据测量测 量系统的电性能,或根据测试不同的过渡,来确定过渡的时间常数τ。
[0153] 可以在两种或更多种电压水平下进行测量。选择电压水平,以致在每个电压水平 下的测量提供关于决定测量的k聚体的同一性的信息。因此,水平的选择取决于测量系统 的特性。跨越纳米孔施加的电位差的程度将取决于许多因素如两亲层的稳定性、所使用的 酶的类型以及所期望的移位速度。通常,每个水平的电压将具有相同的极性,虽然一般来 说,一个或多个水平的电压可以具有与其它电压相反的极性。一般来说,对于大多数纳米孔 系统,每个水平的电压可以通常是10mV至2V之间(相对于接地)。因此,在电压水平之间 的电压差可以通常是至少10mV,更优选至少20mV。在电压水平之间的电压差可以通常是至 多1. 5V,更通常至多400mV。较大电压差倾向于在电压水平之间产生电流的较大差异,因此 潜在地在相应的状态之间产生较大区别。然而,高电压水平可以在系统中产生例如更多噪 声或导致通过酶的移位的破坏。相反地,较小电压差倾向于产生电流的较小差异。可以选 择最佳电位差,其取决于实验条件或酶棘轮的类型。
[0154] 在一种电压水平下测得的k聚体可以不一定是如在不同电压水平下测得的相同 的k聚体。在不同电位下测得的k聚体之间,k值可以不同。如果是这种情况,然而有可能, 将存在这样的聚合物单元,其是在不同电压水平下测得的每种k聚体所共同的。不被理论 所限制,认为,待测量的k聚体的任何差异可能是由于在纳米孔内在跨越纳米孔施加的较 高电位差下聚合物的构象变化引起的,从而导致通过读取头测得的聚合物单元的数目的变 化。这种构象变化的程度可能取决于在一个值和另一个值之间电位的差异。
[0155] 可以存在其它可获得的信息,作为测量的一部分,或来自另外的来源,其提供注册 信息。上述其它信息可以使得能够确定状态。
[0156] 可替换地,信号可以采取任意形式。在这些情况下,还可以依据一组发射和过渡来 描述对应于k聚体的测量。例如,取决于特定k聚体的测量可以包括以适合于通过这些方 法的描述的方式发生的一系列测量。
[0157] 可以实验检查给定测量系统提供取决于k聚体和k聚体的尺寸的测量的程度。例 如,可以合成已知的聚合物并保持在相对于测量系统的预定位置,以根据得到的测量来研 究测量如何取决于与测量系统相互作用的k聚体的同一性。
[0158] 一种可能的方式是使用一组聚合物,除在预定位置(其对于组中的每种聚合物是 不同的)处的k聚体之外,其还具有相同序列。可以变化k聚体的尺寸和同一性以研究对 测量的影响。
[0159] 另一种可能的方式是使用一组聚合物,其中,在预定位置处,所研究的在k聚体 外部的聚合物单元对于组的每种聚合物是不同的。作为上述方式的实例,图3是在包括 纳米孔的测量系统中两种多核苷酸的电流测量的频率分布。在多核苷酸的一种(标记 多T)中,在纳米孔的区中的每个碱基是T(标记多T),以及在多核苷酸的另一种(标记 N11-TATGAT-N8)中,特定固定6聚体(具有序列TATGAT)左边的11个碱基和右边的8个碱 基被允许变化。图3的实例示出,依据电流测量,两种链的极好的分离。通过N11-TATGAT-N8 链看到的数值范围也仅比通过多Τ看到的数值范围稍宽。以这种方式和测量还具有其它序 列的聚合物,可以确定,对于谈及的特定测量系统,以良好的近似,测量取决于6聚体。
[0160] 这种方式、或类似方式,可以通用于任何测量系统,其使得能够确定位置和最小k 聚体描述。
[0161] 概率框架,尤其是在不同条件下或通过不同的检测方法来施加多个测量的技术可 以使得能够使用聚合物的较低k描述。例如在下文讨论的有义和反义DNA测量的情况下,3 聚体描述可以足以确定基本聚合物k聚体,其中每个k聚体测量的更准确的描述将是6聚 体。类似地,在多个电位下进行测量的情况下,其中k具有较低值的k聚体描述,可以足以 确定基本聚合物k聚体,其中每个k聚体测量的更准确的描述将是一个k聚体或多个k聚 体,其中k具有较高值。
[0162] 在一般的测量系统中,类似方法可以用来确定良好近似k聚体的位置和宽度。在 图3的实例中,这是通过改变6聚体相对于孔的位置(例如,通过改变以前和以后N的数 目)来实现,以检测最佳逼近k聚体的位置以及增加和减少来自6的固定碱基的数目。k值 可以最少经受足够窄的值的扩散。可以选择k聚体的位置以最小化峰宽度。
[0163] 对于典型的测量系统,通常的情况是,取决于不同k聚体的测量并不都是独特地 可分辨的。例如,在图3相关的测量系统中,可以观察到,由具有固定6聚体的DNA链产生的 测量的范围是大约2pA以及此系统的近似的测量范围是30pA至70pA之间。对于6聚体, 存在4096种可能的k聚体。鉴于它们的每一种具有2pA的类似变化,很显然,在40pA测量 范围中,这些信号将不会是独特可分辨的。甚至在一些k聚体的测量是可分辨的情况下,通 常被观察到,许多其它k聚体的测量不是可分辨的。
[0164] 对于许多实际测量系统,不可能确定变换k个测量的函数,其各自部分地取决于 相同的聚合物单元,来获得在聚合物单元的水平下被解析的单值,或者更一般地,不能通过 小于k聚体的数目的一组参数来描述k聚体测量。
[0165] 通过举例的方式,现在将证明,对于包括纳米孔的特定测量系统,通过简单的一阶 线性模型并不能准确地描述实验得到的多核苷酸的离子电流测量。对于在下文更详细描述 的两个训练组,这得到说明。用于此证明的简单的一阶线性模型是:
[0166] 电流=总和[fn(Bn)]+E
[0167] 其中,fn是在测量系统中在每个位置η处发生的每个碱基Bn的系数以及E表示 起因于实验可变性的随机误差。通过最小二乘法,将数据拟合于此模型,虽然可替换地可以 使用在本领域中已知的许多方法的任何一种。图4和5是相对于电流测量的最好的模型拟 合的图。如果通过此模型,数据得到充分描述,那么点应在典型的实验误差(例如2pA)内 紧密遵循对角线。这不是这种情况,其表明,通过用于系数的任何组的这种线性模型,数据 没有得到充分描述。
[0168] 现在将描述分析输入信号(其是噪声阶梯波)的具体方法,其具体实施本发明的 第一方面。以下方法涉及测量取决于k聚体的情况,其中k是2或更大,但相同方法可以以 简化形式应用于取决于k聚体(其中k是1)的测量。
[0169] 上述方法示于图6中并且可以用示意性地示于图6中的分析单元10来实施。分 析单元10接收和分析输入信号,其包括来自测量电路72的测量。因而连接分析单元10和 测量系统8,并且共同构成用于分析聚合物的设备。分析单元10还可以将控制信号提供到 控制电路7以选择在测量系统8中跨越生物孔1施加的电压,并可以按照施加电压来分析 来自测量电路72的测量。
[0170] 可以布置包括分析单兀10和测量系统8的设备,如披露于以下任何之一: TO-2008/102210、TO-2009/07734、TO-2010/122293 和 / 或 W0-2011/067559。
[0171] 分析单元10可以通过在计算机设备中执行的计算机程序来实施或可以通过专用 硬件装置、或它们的任何组合来实施。在任何一种情况下,由上述方法使用的数据被存储在 分析单元10的存储器中。计算机设备,在使用的情况下,可以是任何类型的计算机系统,但 通常具有常规结构。可以用任何适宜的编程语言来写计算机程序。可以将计算机程序存储 于计算机可读存储介质中,上述计算机可读存储介质可以具有任何类型,例如:记录介质, 其可插入计算系统的驱动器以及其可以以磁、光或光磁方式来存储信息;计算机系统的固 定记录介质如硬盘驱动器;或计算机存储器。
[0172] 对输入信号11进行上述方法,上述输入信号包含上文描述类型的一系列测量(或 者更一般地,任何数目的系列,如下文进一步描述的),包括取决于相同k聚体的多个测量 的连续组,而没有在任何组中测量的数目的先验知识。这样的输入信号11的实例示于图 2 (如先前所描述的)。
[0173] 在状态检测步骤S1中,处理输入信号11以确定测量的连续组和导出测量系列12, 其由关于每个确定组的预定数目(是一个或多个)的测量组成。对由此导出的测量系列12 进行分析步骤S2。状态检测步骤S1的目的是将输入信号减少到预定数目的与每个k聚体 状态相关的测量,以简化分析步骤S2。例如噪声阶梯波信号,如图2所示,可以被减少到这 样的状态,其中与每个状态相关的单个测量可以是平均电流。这种状态可以被称为水平。
[0174] 可以利用查找输入信号11的衍生物中的短期增加的图7所示的方法,来进行状态 检测步骤S1,具体如下。
[0175] 在步骤S1-1中,区分输入信号11以导出它的衍生物。
[0176] 在步骤S1-2中,来自步骤S1-1的衍生物经受低通滤波以抑制高频噪声(分化倾 向于放大)。
[0177] 在步骤S1-3中,来自步骤S1-2的滤波衍生物被阈值化以检测在测量的组之间的 过渡点(转变点),从而确定数据的组。
[0178] 在步骤S1-4中,预定数目的测量来源于在步骤S1-3中确定的每组中的输入信号 11。在最简单的方法中,导出单个测量,例如作为在每个确定组中测量的平均值、中值、或位 置的其它度量。从步骤S1-4输出的测量形成测量系列12。在其它方法中,导出关于每组的 多个测量。
[0179] 这种技术的常见简化是使用滑动窗口分析,据此,比较两个相邻窗口的数据的平 均值。然后可以基于平均差异来直接设定阈值,或可以基于在两个窗口中数据点的方差 (例如,通过计算史蒂特氏t统计量)来设定阈值。这些方法的独特优势在于,可以应用它 们,而没有施加关于数据的许多假设。
[0180] 可以存储与测得水平相关的其它信息,用于以后的分析。这样的信息可以包括但 不限于:信号的变化;不对称信息;观察的置信度;组的长度。
[0181] 通过举例的方式,图9示出通过移动窗口 t检验而减小的实验确定的输入信号11。 尤其是,图9示出输入信号11作为浅色线。在状态检测以后的水平被示为重叠的,作为暗 色线。图10示出针对整个谱图导出的测量系列12,依据在过渡之间的平均值来计算每个状 态的水平。
[0182] 然而,如在下文更详细描述的,状态检测步骤S1是可选的,并且在下文进一步描 述的替代方案中,可以被省略。在这种情况下,如由图6中的虚线示意性地所示,对输入信 号11本身进行分析步骤S2,代替测量系列12。
[0183] 现将描述分析步骤S2。
[0184] 分析步骤S2使用一种分析技术,其是指存储在分析单元10中的模型13。分析步 骤S2估计在聚合物中聚合物单元的估计序列16,其基于通过由聚合物单元的序列产生的 测量系列12的模型13预测的似然。在最简单的情况下,估计序列16可以是下述表示,其 为每个聚合物单元提供单个估计同一性。更一般地,估计序列16可以是按照一定最优性准 则的聚合物单元的序列的任何表示。例如,估计序列16可以包含多个序列,例如包括在部 分或所有的聚合物中一个或多个聚合物单元的多个估计同一性。
[0185] 现将考虑模型13的数学基础。分析步骤S2还提供下文进一步描述的质量得分 17。
[0186] 在从其对电流采样的随机变量{Xi,X2, "·,Χη}的序列之间的关系可以通过简单的 图形模型Α来表示,其表示在变量之间的条件独立性关系:
[0187] X「X2_X3_ …-Xn
[0188] 每个电流测量取决于被读的k聚体,所以存在随机变量以,S2,…,SJ的基本组, 其表示k聚体的基本序列以及借助于相应的图形模型B :
[0189] "^r ill i Q Q Q Q * * *~
[0190] 应用于施加的电流区的这些模型利用了马尔可夫(Markov)性能。在模型A中,如 果f(Xi)用来表示随机变量Xi的概率密度函数,那么马尔可夫性能可以被表示为:
[0191] f(Xffl|Xffl_1) = f(Xffl|X1,X2,...,Xffl_ 1)
[0192] 在模型B中,马尔可夫性能可以被表示为: _] p(Sffl|Sffl_1) =P(Sj
[0194] 精确地取决于如何编码问题,用于解的自然的方法可以包括贝叶斯网络、马尔可 夫随机场、隐马尔可夫模型,并且还包括这些模型的变型,例如上述模型的有条件或最大熵 公式。在这些稍微不同的框架内,解的方法经常是类似的。通常,模型13包括过渡权重14, 其表示从起源k聚体到目标k聚体的过渡的机会;以及关于每种k聚体的发射权重15,其 表示观测k聚体的测量的给定值的机会。在模型13是隐马尔可夫模型的情况下,现将进行 说明。
[0195] 在图形模型B中,在本文给出的设置中,隐马尔可夫模型(HMM)是自然表示。在 HMM中,在离散随机变量S"^P Sm+1之间的关系是依据过渡权重14的跃迁矩阵加以定义,其 在这种情况下是概率,该概率表示在每个随机变量可以采取的可能的状态之间的过渡的概 率,即从起源k聚体到目标k聚体。例如,常规地,跃迁矩阵的第(i,j)个元(entry)是过 渡权重14,其表示概率S m+1 = sm+u,鉴于Sm = SnU,即过渡到Sm+1的第j个可能的值的概率, 鉴于sm呈现它的第i个可能的值。
[0196] 图11是Sm到Sm+1的跃迁矩阵的图形表示。在这里,为便于说明,S m和Sm+1仅显示 4个值,但在现实中将存在和不同k聚体一样多的状态。每个边表示过渡,并且可以被标记 有来自跃迁矩阵的元,其表示过渡概率。在图11中,连接在S m层至Sm+1层中的每个节点的 四条边的过渡概率将经典地共计为1,虽然可以使用非概率权重。
[0197] 一般来说,期望的是,过渡权重14包含非二进制变量的值(非二进制值)。这允许 模型13表示在k聚体之间过渡的实际概率。
[0198] 考虑到模型13表示k聚体,所以任何给定k聚体具有k个优选过渡,从起源k聚 体过渡到目标k聚体,其具有这样的序列,其中第一(k-Ι)聚合物单元是起源k聚体的最后 (k-ι)聚合物单元。例如在多核苷酸由4种核苷酸G、T、A和C组成的情况下,起源3聚体 TAC具有到3聚体ACA、ACC、ACT和ACG的优选过渡。对于第一近似,从概念上讲,可以认为, 4种优选过渡的过渡概率是相等的,为(0. 25),以及其它非优选过渡的过渡概率是零,非优 选过渡是从起源k聚体过渡到目标k聚体,其具有不同于起源k聚体以及其中第一(k-1) 聚合物单元不是起源k聚体的最后(k-1)聚合物单元的序列。然而,虽然这种近似有利于 理解,但一般来说,过渡的实际机会可以从在任何给定测量系统中的这种近似进行变化。这 可以由过渡权重14反映,其采用非二进制变量的值(非二进制值)。可以表示的上述变化 的一些实例如下。
[0199] 一个实例是,优选过渡的过渡概率可能不是相等的。这允许模型13表示聚合物, 其中在序列中的聚合物之间存在相互关系。
[0200] 一个实例是,至少一些非优选过渡的过渡概率可能是非零。这允许模型13考虑到 错过的测量,即其中不存在这样的测量,其取决于在实际聚合物中的一种(或多种)k聚体。 上述错过的测量可以发生:由于在测量系统中的问题,以致测量不是物理上采取的,或由于 在随后的数据分析中的问题,如状态检测步骤S1未能确定测量的组之一,例如由于给定组 太短或两个组并不具有足够分离的水平。
[0201] 尽管允许过渡权重14具有任何值的一般性,但通常它将是这种情况,过渡权重14 表示从起源k聚体到目标k聚体的优选过渡的非零机会,上述目标k聚体具有这样的序列, 其中第一(k-Ι)聚合物单元是起源k聚体的最后(k-Ι)聚合物单元,以及表示非优选过渡 的较低机会。还通常地,过渡权重14表示至少一些所述非优选过渡的非零机会,即使机会 可以接近零,或对于一些被绝对排除的过渡可以是零。
[0202] 为了允许在序列中单个错过的k聚体,过渡权重14可以表示从起源k聚体到目标 k聚体的非优选过渡的非零机会,上述目标k聚体具有这样的序列,其中第一(k-2)聚合物 单元是起源k聚体的最后(k-2)聚合物单元。例如,在多核苷酸由4种核苷酸组成的情况 下,对于起源3聚体TAC,存在到所有可能的开始于C的3聚体的过渡。我们可以将对应于 这些单个错过的k聚体的过渡定义为"跳过"。
[0203] 在分析包含关于每种k聚体的单个测量的测量系列12的情况下,那么过渡权重14 将表示对于每个测量12的过渡的高机会。取决于测量的特性,从起源k聚体过渡到与起源 k聚体相同的目标k聚体的机会可以是零或接近于零,或可以类似于非优选过渡的机会。
[0204] 类似地,在分析包含预定数目的关于每种k聚体的测量的测量系列12的情况下, 那么过渡权重14可以表示在关于相同的k聚体的测量12之间过渡的低或零机会。可以改 变过渡权重14以允许起源k聚体和目标k聚体是相同的k聚体。这允许,例如,错误地检 测到的状态过渡。我们可以将对应于这些重复相同的k聚体的过渡定义为"停留"。我们注 意到,在k聚体中的所有聚合物单元是相同的均聚物的情况下,优选过渡将是停留过渡。在 这些情况下,聚合物已移动一个位置,但k聚体保持相同的。
[0205] 类似地,在万一分析测量系列12 (其中通常存在关于每种k聚体但具有未知量的 多个测量(其可以被称为"粘着"的情况下,过渡权重14可以表示起源k聚体和目标k 聚体是相同k聚体的相对较高概率,以及取决于物理系统,在一些情况下,可以大于如上所 述的优选过渡的概率,上述优选过渡是从起源k聚体到目标k聚体的过渡,其中第一(k-1) 聚合物单元与起源k聚体的最后(k-1)聚合物单元相同。
[0206] 此外,在分析输入信号11而没有利用状态检测步骤S1的情况下,那么这可以简单 地通过使过渡权重14适应于表示起源k聚体和目标k聚体是相同k聚体的相对较高概率 来实现。这基本上允许进行相同的分析步骤S2,其中模型13的适应隐式地考虑到状态检 测。
[0207] 与每个k聚体相关,存在发射权重15,其表示观测k聚体的测量的给定值的概率。 因此,对于由图11中的节点S m;i表示的k聚体状态,发射权重15可以被表示为概率密度函 数g (Xm | SnU),其描述从其采样电流测量的分布。期望的是,发射权重15包含非二进制变量 的值。这允许模型13表示不同电流测量的概率,一般来说,其可能不具有简单的二进制形 式。
[0208] 在状态检测步骤S1导出由关于每个确定组(例如平均值和方差)的多个测量组 成的测量系列12的情况下,发射权重15表示观测k聚体的每种类型的测量的给定值的概 率。类似地,在更一般情况下,即对多个测量系列12进行上述方法,上述多个测量系列被记 录以致先验已知的是,来自相应系列的哪些测量对应和取决于相同的k聚体,则发射权重 15再次表示观测k聚体的每个系列的测量的给定值的概率。在这些情况下,可以应用模型 13,其中利用发射权重15作为在多个维度上的概率密度函数,其描述对于每个k聚体状态 的多个测量的分布。一般来说,用于任何给定k聚体的发射权重15可以采用任何形式,其 反映测量的概率。在单个模型13内,并不需要不同k聚体具有有相同发射分布形式或参数 化的发射权重15。
[0209] 对于许多测量系统,k聚体的测量具有特定预期值,其可以是扩散的,这起因于待 测量的物理或生物特性的扩散和/或测量误差。这可以用模型13来建模,其中通过使用发 射权重15,其具有适宜的分布,例如单峰分布。
[0210] 然而,对于一些测量系统,用于任何给定k聚体的发射权重15可以是多峰的,例如 物理上产生自在测量系统中两种不同类型的结合和/或产生自在测量系统内采用多种构 象的k聚体。
[0211] 有利地,发射权重15可以表示观测所有可能的测量的非零机会。这允许模型13 考虑到由给定k聚体产生的未预期测量,其是离群值。例如,可以在允许具有非零概率的离 群值的广泛的支持下选择发射权重15概率密度函数。例如在单峰分布的情况下,对于每个 k聚体的发射权重15可以具有高斯或拉普拉斯分布,其对于所有实数具有非零权重。
[0212] 可以是有利的是,允许发射权重15是任意定义的分布,以使得能够精致地处理离 群值测量和处理具有多值发射的单状态的情况。
[0213] 可以期望根据经验来确定发射权重15,例如在如下文所述的训练期期间。
[0214] 可以借助于跨越测量空间的任何适宜数目的二进制(bins)来表示发射权重15的 分布。例如,在下文描述的情况下,通过在数据范围上的500个二进制来定义分布。可以通 过在所有二进制中具有非零概率(虽然在离群二进制中较低)和类似概率(如果数据并不 属于定义二进制之一)来处理离群值测量。可以定义足够数目的二进制以近似所期望的分 布。
[0215] 因此,独特优势可以源自使用表示至少一些所述非优选过渡的非零机会的过渡权 重14和/或使用表示观测所有可能的测量的非零机会的发射权重15。独特优势还可以源 自使用对应于观测给定k聚体的测量范围的相对机会的发射权重。
[0216] 为了强调这些优点,作为比较例,考虑用于导出序列的简单的非概率方法。在此比 较例中,不允许在观测值的给定范围以外产生测量的k聚体以及不允许对应于错过的测量 的过渡(跳过),例如通过删除边和结点来减少图11中过渡的数目。在上述比较例中,然后 搜索k聚体状态的独特的连接序列,其准确地包含用于每个Si的一个节点,以及对应于聚 合物单元的基本序列。然而,因为此比较例依靠任意阈值来确定不允许的结点和边,所以在 跳过的测量的情况下它未能找到任何路径,这是因为在图中并不存在适当的边。类似地,在 离群测量的情况下,上述比较例将导致在图11中的相应节点被删除,并再次变得不可能确 定通过该图的正确路径。
[0217] 相比之下,在分析步骤S2中使用模型13和分析技术如概率或加权方法的独特优 势在于,可以避免这种崩溃情况。另一个优点在于,在存在多个允许路径的情况下,可以确 定最有可能的或一组可能的路径。
[0218] 这种方法的另一独特优势涉及检测均聚物,即相同的聚合物单元的序列。基于模 型的分析使得能够处理这样的均聚物区,其达到类似于有助于信号的聚合物单元的数目的 长度。例如6聚体测量可以确定长度可达6个聚合物单元的均聚物区。
[0219] 分析步骤S2的一种可能的形式示于图8并且操作如下。
[0220] 在步骤S2-1中,参照模型13基于通过由k聚体的序列产生的测量系列12的模型 13所预测的似然,来估计k聚体的估计序列18。
[0221] 在步骤S2-2中,聚合物单元的估计序列16由在步骤S2-1中估计的k聚体的估计 序列18估计。
[0222] 在步骤S2-1和S2-2中,还提供了质量得分,其分别表示k聚体的估计序列18和 聚合物单元的估计序列16的质量,如下文进一步讨论的。
[0223] 在分析步骤S2中应用的分析技术可以采用各种各样的形式,其适用于模型13以 基于通过由聚合物单元的序列产生的测量系列12的模型13所预测的似然来提供在聚合物 中聚合物单元的估计序列16。例如在模型是HMM的情况下,在步骤S2-1中分析技术可以使 用任何已知的算法,例如前向后向(Forwards Backwards)算法或维特比(Viterbi)算法。 一般来说,这样的算法可以避免通过状态的序列的所有可能的路径的似然(可能性)的蛮 力计算,而是利用基于似然的简化的方法来确定状态序列。
[0224] 在一个替代方案中,通过估计序列的单独k聚体,或对于在序列中的每个k聚体的 多个k聚体估计,基于通过由单独k聚体产生的测量系列的模型所预测的似然,步骤S2-1 可以确定k聚体的序列18。作为实例,在步骤S2-1中分析技术使用前向后向算法的情况 下,基于通过由单独k聚体产生的测量系列的模型所预测的似然,分析技术估计k聚体的序 列18。前向-后向算法在本领域中是众所周知的。对于前向部分:利用过渡和发射权重, 从第一至最后测量,向前递归地计算结束于给定k聚体的所有序列的总似然。后向部分以 类似的方式进行工作但从最后测量至第一测量。结合这些前向和后向概率以及连同数据的 总似然一起来计算来自给定k聚体的每个测量的概率。
[0225] 根据前向-后向概率,导出在序列18中每个k聚体的估计。这是基于与每个单独 k聚体相关的似然。一种简单的方法是在每个测量中获得最有可能的k聚体,这是因为前 向-后向概率表明在每个测量中k聚体的相对似然。
[0226] 在步骤S2-1中,还导出关于序列18中的单独k聚体的质量得分,其表示通过由包 括单独k聚体的序列产生的测量系列12的模型13所预测的似然。这可以获自在步骤S2-1 中进行的分析,并提供另外的有用的信息。
[0227] 在另一种替代方案中,基于通过由k聚体的整个序列产生的测量系列的模型所预 测的似然,通过估计整个序列、或多个整个序列,步骤S2-1可以确定k聚体的序列18。作为 另一实例,在步骤S2-1中分析技术使用维特比算法的情况下,基于通过由k聚体的整个序 列产生的测量系列的模型所预测的似然,分析技术估计k聚体的序列18。维特比算法在本 领域中是众所周知的。
[0228] 在步骤S2-1中,还导出关于在序列18中单独k聚体的质量得分,其表示通过由k 聚体的整个序列产生的测量系列12的模型13所预测的似然。这可以获自在步骤S2-1中 进行的分析,并提供另外的有用的信息。
[0229] 作为另一种替代方案,可以将步骤S2-1分为两个阶段,包括:第一阶段:基于通过 由k聚体的整个序列产生的测量系列的模型所预测的似然,确定k聚体的整个序列;以及第 二阶段:依据第一阶段的结果,通过估计序列的单独k聚体,或对于在序列中的每个k聚体 的多个k聚体估计,来确定k聚体的序列18。作为实例,这种替代方案可以使用蛮力计算。
[0230] 在步骤S2-2中,利用任何适宜的技术,由在步骤S2-1中估计的k聚体的估计序列 18估计聚合物单元的估计序列16。一种直接方法是以一对一关系使k聚体与聚合物单元 相关以及简单地采取来自相关k聚体的单个聚合物单元。更复杂的方法利用来自在序列18 中包含每个给定的聚合物单元的估计k聚体的组的信息的组合来估计每个聚合物单元。例 如聚合物单元可以取自最有可能的那些估计k聚体。在步骤S2-1中,利用导出的关于估计 k聚体序列的质量得分17,可以估计每个聚合物单元。
[0231] 在步骤S2-2中,还导出关于在序列16中的每个聚合物单元的质量得分,其表示由 包括聚合物单元的序列产生的测量系列12的模型13所预测的似然。这可以获自在步骤 S2-2中进行的分析,例如基于每个k聚体和相关的聚合物单元的相对概率,以及提供另外 的有用的信息。
[0232] 在分析步骤S2中的上述技术不是限制性的。存在许多方法来利用模型,其中利用 概率或其它分析技术。估计k聚体的整个序列、单独k聚体或基本聚合物单元的过程可以针 对特定的应用设计。没有必要进行任何"硬"k聚体序列、k聚体或聚合物单元调用(calls)。 可以考虑所有k聚体序列、或可能的k聚体序列的亚组。可以考虑k聚体或k聚体的组,其 与k聚体序列相关或被认为独立于特定k聚体序列,例如相对于所有k聚体序列的加权和。 聚合物单元或聚合物单元的组与k聚体相关或被认为独立于特定k聚体,例如相对于所有 k聚体的加权和,那些k聚体依赖于、或独立于k聚体序列或k聚体序列的组。
[0233] 通过实例的方式,可以考虑3聚体多核苷酸系统。有几种方法来导出一组可能的 碱基估计。第一替代方案是考虑最有可能的路径(维特比算法),导出与上述路径相关的3 聚体状态的组,以及使用来自k聚体的一个碱基,例如中心碱基,作为碱基调用。第二替代 方案是考虑所有路径以导出在每个点处最有可能的k聚体(前向-后向算法)。于是,来自 最有可能的k聚体的一个碱基(例如中心碱基)可以是碱基估计。用来自k聚体导出碱基 估计的另一种替代方案将是总和所有k聚体,其中考虑到碱基之一(例如中心碱基)的贡 献并采用最有可能的碱基作为估计。用来自k聚体导出碱基估计的另一种替代方案将是总 和来自在所有k聚体中的所有位置的贡献,以确定在每个位置处最有可能的估计。
[0234] 类似地,分析步骤S2可以估计k聚体的多个序列18和/或聚合物单元的多个序 列16。在这种情况下,可以存在导出的质量得分,其是关于k聚体的每个的多个序列18和 /或聚合物单元的每个的多个序列16。以这种方式,分析步骤S2提供关于可能性较小的序 列的信息,其仍然可以用于一些应用。
[0235] 给出的以上描述是依据模型13,其是HMM,其中过渡权重14和发射权重15是概 率,以及分析步骤S2使用其指的是模型13的概率技术。然而,可替换地可能的是,模型13 使用一种框架,其中过渡权重14和/或发射权重15不是概率,但以某种其它方式表示过渡 或测量的机会。在这种情况下,分析步骤S2可以使用分析技术而不是概率技术,其是基于 由聚合物单元的序列产生的测量系列的模型13所预测的似然。分析步骤S2使用的分析技 术可以明确使用似然函数,但一般来说这不是必需的。因此,在本发明的上下文中,术语"似 然"在一般意义上用于考虑到通过聚合物单元的序列产生的测量系列的机会,而无需计算 或利用正式似然函数。
[0236] 例如,可以用费用(或距离)来表示过渡权重14和/或发射权重15,其表示过渡 或发射的机会,但不是概率,所以例如不会被限于总和为1。在这种情况下,分析步骤S2可 以使用一种分析技术,其处理分析作为最小费用路径或最小路径问题,例如如在运筹学中 通常看到的分析。可以使用标准方法如迪科斯彻算法(Dijkstra's algorithm)(或其它更 有效的算法)。
[0237] 现将讨论具体实例,其中模型13是HMM,其用来建模和分析来自钝性读出头系统 的数据。在这里,通过如先前描述的状态检测步骤S1来首先处理输入数据11。为简单起 见,但不是限制性地,这种具体实例涉及用于多核苷酸的3聚体模型,上述多核苷酸具有4 种可能的碱基,以致存在64种可能的k聚体。介绍了一种模拟情况以能够参照基本模型13 和状态来说明关键点。
[0238] 在这种模拟情况下,随机选择3聚体电流水平,以致64种k聚体状态的发射权重 15的最简单的描述需要64个系数。通过如所描述的基于模型的分析来实现根据测量的k 聚体的基本序列的确定。
[0239] 图12示出对于每个k聚体的最有可能的测量值。因此,这些值也是每个k聚体的 发射权重15的分布的中心值。在图12中,按顺序G、T、A、C,即状态0 = "GGG"、状态1 = "GGT"、...状态62 = "CCA"、状态63 = "CCC",来依次运行k聚体状态指数。在分析期间 使用K聚体状态指数,其中转换回到"底空间(base space) "作为最后步骤。
[0240] 利用先前描述的系数来模拟来自给定序列的测量。例如序列ACTGTCAG是由3聚 体构成:ACT、CTG、TGT、GTC、TCA、CAG。它们对应于状态指数45、52、17、7、30、56,其产生预 期测量:68. 5、46. 5、94. 9、51. 3、19. 5、52. 1。模拟测量示于图13,作为输入信号12,以及示 于图14,作为通过状态检测步骤S1产生的测量系列12。
[0241] 在实践中,进行的任何测量具有与它们相关的错误。在模拟情况下,这通过将噪声 加入预期测量中而考虑。
[0242] 还存在失去测量或插入假阳性测量的机会。在如现将描述的跃迁矩阵中可以考虑 到这些。
[0243] 现将考虑用于模拟情况的过渡权重14的跃迁矩阵。
[0244] 鉴于测量系列12和发射权重15的组,分析步骤S2确定基本序列的估计。从概 念上讲,这可以被认为是,分析步骤S2建模所有可能的过渡,相对于其,比较观测到的序列 (虽然事实上分析步骤S2可以使用并不需要此的更有效的算法)。例如在所考虑的3聚体 的情况下,64种状态的每一种具有到4种其它状态的优选过渡。
[0245] 图15示出用于模拟模型的过渡权重14的跃迁矩阵,其中用于优选过渡的过渡权 重14各自是0. 25以及用于非优选过渡的过渡权重14各自是零。例如,可以看到,起源状 态0 (GGG)可以以相等概率过渡到状态0 (GGG)、1 (GGT)、2 (GGA)或3 (GGC)。
[0246] 图16示出用于模拟模型的过渡权重14的跃迁矩阵的更复杂的情况,上述模拟模 型由图15的模拟模型改进,其中通过允许用于非优选过渡的非零过渡权重14,上述非优选 过渡表示错过的测量,即其中过渡被跳过。一般说来,如需要建模基本测量系统时,跃迁矩 阵可以是任意复杂的。
[0247] 在操作测量系列12的情况下,其中我们已进行状态检测S1,远离任何给定起源k 聚体的过渡概率通常较高,总之接近1。在图15的第一实例中,跃迁矩阵需要过渡,除了在 4种均聚物情况下,其中优选"过渡"的一种是到相同的k聚体。从任何状态的4种优选过 渡的每一种的概率是〇. 25。此矩阵不太可能能够处理"真实世界"数据,除非进行其它适当 的减轻,例如在发射权重15中的离群值处理。
[0248] 然而,对于需要处理或有可能发生的任何情况,可以允许非零过渡。在图16的第 二实例中,优选过渡的概率小于〇. 25,其中余数由停留和跳过概率组成。以类似的方式,也 可以允许多个跳过,达到任意水平的复杂性。
[0249] 可以调节过渡概率以考虑到可以测量在k聚体之间的过渡的容易性。例如在来自 两个连续k聚体的信号是非常接近在一起的情况下,状态检测步骤S1可以错过此过渡。在 这种情况下,在这两个k聚体之间的跃迁矩阵元素可以在跳过第二k聚体的方向被加权。
[0250] 可以调节矩阵以考虑到在给定样品中的任何序列偏向。
[0251] 在上述实例中,将发射和过渡权重固定于恒定值,但这不是必需的。作为一种替代 方案,对于待分析的测量系列的不同部分,可以变化发射权重和/或过渡权重,也许由关于 过程的另外的信息所引导。作为实例,其具有作为"停留"的解释的过渡权重的矩阵的元素 可以被调节,其取决于特定事件0反映聚合物的实际过渡的置信度。作为进一步的实例, 可以调节发射权重以反映测量装置的背景噪声的系统漂移或对施加电压进行的变化。对权 重的调节的范围并不限于这些实例。
[0252] 在上述实例中,存在每个k聚体的单一表示,但这不是必需的。作为一种替代方 案,模型可以具有一些或所有k聚体的多个不同的表示,以致关于任何给定k聚体,可以存 在多组的过渡和/或发射权重。这里的过渡权重可以是在不同的起源和不同的目标k聚体 之间,所以每个起源-目标对可以具有多个权重,其取决于每个k聚体的不同表示的数目。 这些不同表示的许多可能的解释中的一种是,k聚体被标记有标记,其指示不能直接观测的 系统的某种行为,例如在移位通过纳米孔期间聚合物可以采用的不同构象或移位行为的不 同动力学。
[0253] 对于操作于原始输入信号11而没有进行状态检测步骤S1的模型13,将上述方法 直接应用于输入系列的测量,其中多个测量的组取决于相同的k聚体而没有在组中测量的 数目的先验知识。在这种情况下,可以应用非常类似的技术,但对模型13进行显著调节,这 是因为,远离任何给定起源k聚体状态的过渡概率的总和现在远小于1。例如,如果平均而 言,系统对相同的k聚体进行100次测量,则在跃迁矩阵中的对角线上的概率(表示没有过 渡或这样的过渡,其中起源k聚体和目标k聚体是相同的k聚体)将是0. 99,并在所有其它 优选和非优选过渡之间具有〇. 01分裂。优选过渡的组可以类似于那些用于状态检测情况 的组。
[0254] 考虑发射权重15,图17至19示出用于模拟系数的发射分布,其分别是高斯、三角 和正方分布,虽然以这种方式可以定义任何任意分布(包括非参数分布)。
[0255] 为了表明,相对于噪声,这些方法的稳健性,将噪声扰动加入模拟测量中。在此实 例中,将采样自标准偏差5pA的高斯分布的随机噪声加入图12所示的预期k聚体测量中。
[0256] 图20示出,相比于图12所示的预期测量,模拟测量(测量系列12),其表明可以看 到的添加的噪声是严重的。
[0257] 应用模型13,其中借助于过渡权重的适当的跃迁矩阵,例如图16所示的跃迁矩 阵,以及用于发射权重15的适当的分布,在这种情况下为高斯分布。前向-后向算法用作分 析技术来估计在测量系列中的每个点处的最有可能的k聚体。相对于已知的k聚体序列, 比较估计的k聚体调用,如图21所示。可以看到,甚至在这种严重的情况下,也正确估计大 多数状态。
[0258] 现说明,相对于与在序列中的k聚体相关的失去测量的稳健性。在这种情况下,模 拟测量的系列12,其中,除将噪声加入预期k聚体测量之外(在此实例中,我们使用较不严 重的具有IpA标准偏差的噪声的情况),还从数据随机删除k聚体测量,在这种情况下,具有 〇. 1的删除概率。图22示出相比于图12所示的预期测量的模拟测量(测量系列12)。在 图22中,可以看到失去的k聚体状态(带圆圈)。
[0259] 再一次,应用预期k聚体测量的模型13,借助于过渡权重的适当的跃迁矩阵,在这 种情况下,借助于图15和16所示的跃迁矩阵,以及发射权重15的适当的分布,在这种情况 下为高斯分布。前向-后向算法用作分析技术来估计在测量系列12中的每个点处的最有 可能的k聚体。
[0260] 相对于已知的k聚体序列,比较估计的k聚体调用,如图23和24分别针对图15和 16的跃迁矩阵所示。在这里,当相比于图23时,在图24中可以看到,正确称为k聚体的数 目的改善,其中通过允许在模型过渡中的跳过。在存在由高置信度估计包围的失去的k聚 体测量的情况下,失去的k聚体可以由周围的k聚体估计。相比之下,对于不允许跳过的情 况,通过发射权重15来适应失去数据,上述发射权重具有并不达到零的分布,以便分析找 到通过k聚体的系列的路径。在下一部分中进一步讨论在发射分布中的非零背景。
[0261] 现说明,相对于与在序列中的给定k聚体相关的离群测量的稳健性。在关于失去 测量的先前说明中,其中过渡权重14并不允许跳过的状态(S卩,具有图15的跃迁矩阵),需 要使用具有并不达到零的分布的发射权重15,以便使分析能够找到通过k聚体的序列的路 径(虽然非常不可能的路径)。在正方发射分布的简单情况下,说明了对于所有测量具有非 零值的发射权重15的优点。此实例使用图20所示的模拟测量系列12,其中添加标准偏差 为5pA的噪声。
[0262] 再一次,在这种情况下应用预期k聚体测量的模型13,并借助于过渡权重14的跃 迁矩阵,其中不允许非优选过渡,如图15所示,以及借助于用于发射权重15的两种不同的 分布。前向-后向算法用作分析技术来估计在测量系列12中的每个点处的最有可能的k 聚体。
[0263] 在第一种情况下,发射权重15具有正方分布,其具有小的非零背景(在这种情况 下1χ1(Γ 1(ι),如图25所示,对于其,相对于在图26中的已知的k聚体序列,比较估计的k聚 体调用。
[0264] 在第二种情况下,发射权重15具有正方分布,其具有如图27所示的零背景,对于 其,相对于在图28中的已知的k聚体序列,比较估计的k聚体调用。
[0265] 在发射权重15的分布中具有零背景的第二种情况下,借助于其中那些分布的 宽度太窄的发射分布,不存在通过k聚体序列的路径。对于此实例,我们已使用宽度为 +/_14pA的发射分布,以致分析可以发现通过测量的路径,如图27所示。在这种情况下,不 是存在较少数目的路径,各自具有高数目的正确状态,而是存在大量的路径,其包含许多不 正确称为的状态。用于此实例的一组k聚体调用示于图28中。
[0266] 在第一种情况下,其中允许在背景中小的非零发射,如图25所示,可以容忍更窄 的分布,从而使得能够正确估计更高数目的k聚体状态,如图27所示,其提供比图28更好 的结果。
[0267] 另外,此实例说明了概率方法的优点,其中通过比较正方分布情况与用于图20和 21所示的实例的高斯发射,其提供比使用如图27和28所示的正方分布更好的结果。
[0268] 现将讨论模型13的训练,其是对于给定测量系统的发射权重15的求导。
[0269] 相比于上述模拟,在真实的测量系统中,来自每个k聚体的单个测量是预先未知 的但可来自训练集。一般说来,这涉及采取来自已知的聚合物的测量并利用训练技术,其本 身常规用于HMM。
[0270] 在这些训练方法中,可以开发特定类型的序列,其是deBruijn序列,该序列是对 于给定k包含所有k聚体的最小长度序列。deBruijn序列的使用是用来最小化所需要的实 验数目的有效方式。
[0271] 对于用来测量多核苷酸的包括纳米孔的测量系统,描述了两种训练方法。第一种 方法使用来自"静态"DNA链的测量,通过生物素/链霉亲和素系统,上述链被保持在纳米孔 内的特定位置。第二种方法使用来自移位通过纳米孔的DNA链的测量并估计或"训练"系 数,其中通过利用类似于针对k聚体估计所描述的概率框架。
[0272] 如下进行第一静态训练方法。
[0273] 这些实验涉及利用生物素分子并以与由Stoddart D et al.,Proc Natl Acad Sci,12 ; 106 (19) : 7702-7描述的那些方式类似的方式,将DNA链连接于链霉亲和素"锚状 物"。在此系统中,k值是3。利用在400mMKCl中的MS-(B2)8,DNA链表示k = 3deBruijn 序列(SeqID:3)。在施加电位下在纳米孔中捕捉上述链并记录电流。可以用一系列DNA链 来重复实验,其中序列被一个核苷酸提前,如列于以下表中。以这种方式,获得在特定施加 电位如180mV下的电流水平的测量,其对应于那些由移动链预期的结果,如列于以下表中。
[0274] Seq ID3 (k3De Bruijn):
[0275] ATAAGAACATTATGATCAGTAGGAGCACTACGACCTTTGTTCTGGTGCTCGTCCGGGCGCCCAAAT
[0276] 表 1 :
[0277]
【权利要求】
1. 一种由涉及聚合物的至少一个测量的系列来估计所述聚合物中的聚合物单元的序 列的方法,其中,每个测量的值取决于k聚体,所述k聚体是k个聚合物单元的组,其中k是 正整数,所述方法包括: 提供模型,对于一组可能的k聚体,所述模型包括: 过渡权重,所述过渡权重表示从起源k聚体到目标k聚体的过渡的机会,和 关于每个k聚体的发射权重,所述发射权重表示观测该k聚体的测量的给定值的机会; 以及 利用参考所述模型的分析技术来分析所述测量的系列并且基于通过由聚合物单元的 序列产生的所述测量的系列的模型所预测的似然来估计所述聚合物中的聚合物单元的至 少一种估计的序列。
2. 根据权利要求1所述的方法,其中,所述过渡权重和所述发射权重中的至少一种包 含非二进制变量的值。
3. 根据权利要求2所述的方法,其中,所述过渡权重和所述发射权重中的两者包含非 二进制变量的值。
4. 根据权利要求1至3中任一项所述的方法,其中,所述发射权重表示观测所有可能的 测量的非零机会。
5. 根据权利要求1至4中任一项所述的方法,其中,关于每个k聚体的所述发射权重相 对于测量的值具有单峰或多峰分布。
6. 根据权利要求5所述的方法,其中,关于每个k聚体的所述发射权重相对于测量的值 具有高斯、拉普拉斯、正方或三角分布。
7. 根据权利要求1至6中任一项所述的方法,其中,k是复整数。
8. 根据权利要求7所述的方法,其中,所述过渡权重表示优选过渡的非零机会,所述优 选过渡是从起源k聚体到具有其中第一(k-Ι)聚合物单元是所述起源k聚体的最后(k-1) 聚合物单元的序列的目标k聚体的过渡,并且表示非优选过渡的较低机会,所述非优选过 渡是从起源k聚体到具有不同于所述起源k聚体并且其中所述第一(k-Ι)聚合物单元不是 所述起源k聚体的最后(k-Ι)聚合物单元的序列的目标k聚体的过渡。
9. 根据权利要求8所述的方法,其中,所述过渡权重表示至少一些所述非优选过渡的 非零机会。
10. 根据权利要求9所述的方法,其中,所述过渡权重表示从起源k聚体到具有其中第 一(k-2)聚合物单元是所述起源k聚体的最后(k-2)聚合物单元的序列的目标k聚体的非 优选过渡的非零机会。
11. 根据权利要求1至10中任一项所述的方法,其中,所述分析技术是概率技术。
12. 根据权利要求1至11中任一项所述的方法,其中,所述过渡权重是概率,和/或所 述发射权重是概率。
13. 根据权利要求1至12中任一项所述的方法,其中,所述模型是隐马尔可夫模型。
14. 根据权利要求1至13中任一项所述的方法,其中,所述分析步骤进一步包括导出关 于所述估计序列或每个估计序列的质量得分,所述质量得分表示通过由聚合物单元的估计 序列产生的测量的系列的模型预测的似然。
15. 根据权利要求1至14中任一项所述的方法,其中,所述分析步骤进一步包括导出关 于对应于聚合物单元的估计序列的单独k聚体的质量得分,所述质量得分表示通过由包括 所述单独k聚体的序列产生的测量的系列的模型所预测的似然。
16. 根据权利要求1至15中任一项所述的方法,其中,所述分析步骤进一步包括导出 关于对应于聚合物单元的估计序列的k聚体的序列的质量得分,所述质量得分表示通过由 k聚体的给定序列产生的测量的系列的模型所预测的似然。
17. 根据权利要求1至16中任一项所述的方法,其中,所述分析步骤导出在所述聚合物 中的聚合物单元的多个估计序列。
18. 根据权利要求1至17中任一项所述的方法,其中,估计所述聚合物中的聚合物单元 的至少一种估计序列的步骤包括: 基于通过由单独k聚体产生的测量的系列的模型所预测的似然来估计k聚体的序列; 以及 由k聚体的估计序列来估计聚合物单元的序列。
19. 根据权利要求1至18中任一项所述的方法,其中,估计所述聚合物中的聚合物单元 的至少一种估计序列的步骤包括: 基于通过由k聚体的整个序列产生的测量的系列的模型所预测的似然来估计k聚体的 至少一种序列;以及 由k聚体的估计序列来估计聚合物单元的序列。
20. 根据权利要求1至19中任一项所述的方法,其中,在所述至少一个测量的系列中, 测量的预定数目取决于每个k聚体,所述预定数目是一个或多个。
21. 根据权利要求20所述的方法,其中 所述方法包括接收至少一种输入信号,所述输入信号包含测量的输入系列,其中,多个 测量的组取决于相同的k聚体,而没有在所述组中测量的数目的先验知识,以及 在所述分析步骤以前,处理所述至少一种输入信号以确定测量的连续组以及导出关于 每个确定组的测量的所述预定数目,对由此导出的所述测量的系列或每个测量的系列进行 所述分析步骤。
22. 根据权利要求1至19中任一项所述的方法,其中,在所述至少一个测量的系列中, 多个测量的组取决于相同的k聚体,而没有在所述组中测量的数目的先验知识。
23. 根据权利要求1至22中任一项所述的方法,进一步包括进行聚合物的所述测量。
24. 根据权利要求23所述的方法,其中,在所述聚合物移位通过纳米孔期间进行所述 聚合物的所述测量。
25. 根据权利要求24所述的方法,其中,进行所述聚合物的移位,使得多个测量的组取 决于相同的k聚体。
26. 根据权利要求24或25所述的方法,其中,以棘轮方式进行所述聚合物通过所述纳 米孔的移位。
27. 根据权利要求24至26中任一项所述的方法,其中,所述聚合物是多核苷酸,并且所 述聚合物单元是核苷酸。
28. 根据权利要求24至27中任一项所述的方法,其中,所述测量的系列是在所述聚合 物移位通过纳米孔期间进行的测量。
29. 根据权利要求24至28中任一项所述的方法,其中,所述纳米孔是生物孔。
30. 根据权利要求24至29中任一项所述的方法,其中,所述测量包括电流测量、阻抗测 量、隧道效应测量、FET测量和光学测量中的一种或多种。
31. 根据权利要求24至30中任一项所述的方法,其中 对各自涉及所述聚合物的多个测量的系列进行所述方法,其中每个测量的值取决于k 聚体, 所述分析技术处理以多个、各自的维度安排的多个测量的系列。
32. 根据权利要求31所述的方法,其中,每个测量的系列是相同聚合物的相同区的测 量。
33. 根据权利要求31所述的方法,其中,所述多个测量的系列包括测量的两个系列,其 中测量的第一系列是聚合物的第一区的测量以及测量的第二系列是与所述第一区相关的 聚合物的第二区的测量。
34. 根据权利要求33所述的方法,其中,所述第一区和第二区是相同聚合物的相关区。
35. 根据权利要求33或34所述的方法,其中,所述相关区是互补的。
36. 根据权利要求1至35中任一项所述的方法,其中,所述模型被存储在存储器中。
37. 根据权利要求1至36中任一项所述的方法,其中,在硬件设备中或在计算机设备中 实施提供模型和分析测量的步骤。
38. -种被构造成进行根据权利要求1至37中任一项所述的方法的装置。
39. -种用于由涉及聚合物的至少一个测量的系列来估计所述聚合物中的聚合物单元 的序列的分析装置,其中每个测量的值取决于k聚体,所述k聚体是k个聚合物单元的组, 其中k是复整数,所述方法包括: 存储模型的存储器,对于一组可能的k聚体,所述模型包括: 过渡权重,所述过渡权重表示从起源k聚体到目标k聚体的过渡的机会,和 关于每个k聚体的发射权重,所述发射权重表示观测该k聚体的测量的给定值的机会; 以及 分析单元,被构造成利用参考所述模型的分析技术来分析所述测量的系列并且基于通 过由聚合物单元的序列产生的测量的系列的模型所预测的似然来估计所述聚合物中的聚 合物单元的至少一个估计的序列。
40. -种测序设备,包括: 测量装置,被构造成进行聚合物的所述测量;以及 根据权利要求38或39所述的分析装置。
41. 一种分析包含聚合物单元的聚合物的方法,所述方法包括: 在当跨越所述纳米孔施加电压时聚合物移位通过纳米孔期间,进行取决于在所述纳米 孔中的k聚体的同一性的测量,k聚体是所述聚合物的k个聚合物单元,其中k是正整数, 其中关于单独k聚体,所述测量包括在跨越所述纳米孔施加的不同水平的所述电压下进行 的分开测量;以及 在所述不同水平的所述电压下分析所述测量以确定至少部分所述聚合物的同一性。
42. 根据权利要求41所述的方法,其中,进行测量的所述步骤包括: 在不同的移位中在不同的水平下跨越所述纳米孔施加电压时进行所述聚合物通过纳 米孔的多个移位; 在所述不同移位期间,在跨越所述纳米孔的所述不同水平的所述电压下,进行所述k 聚体的测量。
43. 根据权利要求42所述的方法,其中,所述多个移位包括在通过所述纳米孔的第一 方向上的移位和在通过所述纳米孔的与所述第一方向相对的方向上的移位。
44. 根据权利要求41所述的方法,其中,进行测量的所述步骤包括: 在跨越所述纳米孔施加电压时进行所述聚合物通过纳米孔的移位; 在所述聚合物通过所述纳米孔的所述移位期间,以具有的循环周期短于其中所述测量 取决于所述单独k聚体的状态的持续时间的循环,施加所述不同水平的所述电压,并且以 所述循环在所述不同水平的所述电压下,进行关于所述单独k聚体的所述分开测量。
45. -种对包含聚合物单元的聚合物进行测量的方法,所述方法包括: 在跨越所述纳米孔施加电压时进行所述聚合物通过纳米孔的移位; 在所述聚合物通过所述纳米孔的所述移位期间,以一定循环施加不同水平的所述电 压,以及 进行取决于所述纳米孔中k聚体的同一性的测量,k聚体是所述聚合物的k个聚合物 单元,其中k是正整数,所述测量包括以所述循环在所述不同水平的所述电压下关于单独k 聚体的分开测量,所述循环具有的循环周期短于其中所述测量取决于所述单独的k聚体的 状态。
46. 根据权利要求44或45所述的方法,其中,所述循环周期是至多3秒。
47. 根据权利要求44至46中任一项所述的方法,其中,所述循环周期是至少0. 5毫秒。
48. 根据权利要求44至47中任一项所述的方法,其中,各自连续地施加不同水平的所 述电压持续所述循环的部分周期。
49. 根据权利要求48所述的方法,其中,以所述循环在所述不同水平的所述电压之间 的过渡被成形为减少在由电压变化引起的测量中的电容瞬态。
50. 根据权利要求45或权利要求46至49中任一项所述的方法,当从属于权利要求5 时,进一步包括分析所述测量以确定所述聚合物的同一性。
51. 根据权利要求41至44或50中任一项所述的方法,其中,分析所述测量以估计所述 聚合物的同一性的步骤包括分析所述测量以估计在所述聚合物中的聚合物单元的序列。
52. 根据权利要求51所述的方法,其中,分析所述测量以估计所述聚合物中的聚合物 单元的序列的步骤包括: 提供模型,对于一组可能的k聚体,所述模型包括: 过渡权重,所述过渡权重表示从起源k聚体到目标k聚体的过渡的机会,和 关于每个k聚体的发射权重,所述发射权重表示观测该k聚体的测量的给定值的机会; 以及 利用参考所述模型并处理在跨越所述纳米孔施加不同水平的电压下进行的测量作为 以多个维度的测量的分析技术来分析所述测量,并且基于通过由聚合物单元的序列产生的 测量的系列的模型所预测的似然来估计所述聚合物中的聚合物单元的至少一种估计的序 列。
53. 根据权利要求41至44、51或52中任一项所述的方法,其中,分析所述测量以确定 所述聚合物的同一性的步骤进一步包括将在所述不同电压水平下进行的分开测量进行比 较以确定在其中所述测量取决于所述单独k聚体的状态之间的过渡。
54. 根据前述权利要求中任一项所述的方法,其中,在所述不同水平的电压之间的差异 在10mV至1. 5V的范围内。
55. 根据前述权利要求中任一项所述的方法,其中,所述不同水平由两种不同水平构 成。
56. 根据前述权利要求中任一项所述的方法,其中,所述不同水平的电压具有相同的极 性。
57. 根据前述权利要求中任一项所述的方法,其中,所述测量是通过所述纳米孔的离子 电流的测量。
58. 根据权利要求57所述的方法,其中,通过所述纳米孔的离子电流的所述测量是通 过所述纳米孔的DC离子电流的测量。
59. 根据前述权利要求中任一项所述的方法,包括: 在所述不同水平的所述电压中的每一个下进行多个测量的组;以及 由在所述不同水平中的每一个下的多个测量的每个组导出一个或多个汇总测量以构 成关于单独k聚体的所述分开测量。
60. 根据权利要求59所述的方法,其中,各自连续地施加不同水平的所述电压一时间 期间,以及 在每个相应时间期间过程中,在相应期间过程中施加的所述不同水平的所述电压之一 下,进行多个测量的组之一。
61. 根据前述权利要求中任一项所述的方法,其中,所述聚合物是多核苷酸,并且所述 聚合物单元是核苷酸。
62. 根据前述权利要求中任一项所述的方法,其中,所述纳米孔是生物孔。
63. 根据前述权利要求中任一项所述的方法,其中,以其中利用所述纳米孔登记连续的 k聚体的棘轮方式进行所述聚合物通过所述纳米孔的所述移位。
64. 根据前述权利要求中任一项所述的方法,其中,通过分子棘轮来控制所述聚合物的 移位。
65. 根据权利要求64所述的方法,其中,所述分子棘轮是酶。
66. -种用于分析包含聚合物单元的聚合物的设备,所述设备包括: 纳米孔,通过所述纳米孔可以移位聚合物; 控制电路,被设置成在所述聚合物移位通过所述纳米孔期间跨越所述纳米孔施加电 压;以及 测量电路,被设置成进行取决于所述纳米孔中的k聚体的同一性的测量,k聚体是所述 聚合物的k个聚合物单元,其中k是正整数, 其中所述控制电路被设置成跨越所述纳米孔施加不同水平的电压,以及所述测量电路 被设置成在跨越所述纳米孔施加的不同水平的所述电压下进行关于单独k聚体的分开测 量;以及 分析单元,被设置成在所述不同水平的所述电压下分析所述测量以确定至少部分的所 述聚合物的同一性。
67. 根据权利要求66所述的设备,其中,所述控制电路被设置成在所述聚合物通过纳 米孔的不同移位期间跨越所述纳米孔施加不同水平的电压,以及所述测量电路被设置成在 不同水平的所述电压下在所述不同移位期间进行关于单独k聚体的分开测量。
68. 根据权利要求66所述的设备,其中,所述控制电路被设置成在所述聚合物通过所 述纳米孔的所述移位期间以具有的循环周期短于其中所述测量取决于所述单独k聚体的 状态的持续时间的循环,施加所述不同水平的所述电压,并且所述测量电路被设置成以所 述循环在所述不同水平的所述电压下进行关于单独k聚体的分开测量。
69. -种用于测量包含聚合物单元的聚合物的设备,所述设备包括: 纳米孔,通过所述纳米孔可以移位聚合物; 控制电路,被设置成在所述聚合物通过纳米孔的移位期间以具有的循环周期短于其中 所述测量取决于所述单独的k聚体的状态的持续时间的循环,施加不同水平的所述电压; 以及 测量电路,被设置成在跨越所述纳米孔施加的不同水平的所述电压下进行关于单独k 聚体的分开测量。
70. 根据权利要求69所述的设备,进一步包括分析单元,所述分析单元被设置成在所 述不同水平的所述电压下分析所述测量以确定至少部分所述聚合物的同一性。
【文档编号】C12Q1/68GK104066850SQ201280057564
【公开日】2014年9月24日 申请日期:2012年9月21日 优先权日:2011年9月23日
【发明者】斯图尔特·威廉·里德, 加文·哈珀, 克莱夫·加文·布朗, 詹姆斯·安东尼·克拉克, 安德鲁·约翰·赫伦 申请人:牛津楠路珀尔科技有限公司