使用放大标记的测序方法

文档序号：454622阅读：902来源：国知局

专利名称：使用放大标记的测序方法
技术领域：
本发明涉及新的测序方法，其中每个碱基所包含的信息被有效地放大，本发明还涉及特别适于测定长核酸分子之序列的方法，其中综合了该序列某些部分的序列信息和有关所述部分在整个序列中所处位置的细节，本发明还涉及实施这些方法所用的试剂盒。
自从Watson和Crick于1953年阐明DNA分子的结构以来，遗传学研究人员一直想寻找快速而经济的，测定各个DNA分子之序列的方法。Sanger/Barrell和Maxam/Gilbert在1975年至1977年间开发出两种新的DNA测序法，它们代表着测序技术的主要突破。目前广泛使用的所有方法都基于Sanger/Barrell的方法，其后23年DNA测序的发展或多或少是对此方法的改进。
然而，1988年，DNA测序技术获得了全新的关注。由美国牵头，18个国家共同参与了可能是科学史上最大的单项计划，即对3×109bp的完整人类基因组进行测序(人类基因组计划，也称为HGP)，另外还对几个其它较小基因组进行测序。目前看来，该计划将在2003年完成。尽管该计划牵扯到很多的科研人员，并耗费了大量资金，但人们认为该计划的成果非常重要，足以证明其物有所值。
该计划的重要部分是开发新的DNA测序法，与目前使用的技术相比，新方法的花费应更加合理，速度应更快。原则上，可将这些方法分成基于凝胶的(主要是Sanger/Barrell方法的新变法)和不基于凝胶的技术。不基于凝胶的技术可能具有更大的潜力，目前正在试验的一些方法是质谱法，流式细胞术，和使用与小DNA分子杂交的基因芯片。比现行方法好得多的方法对基因研究和现代医学而言都是一场变革，因为它们可为深入检测患者基因提供机会，并且在鉴定和开发药物方面起重要作用。这些方法的经济效益自然很大。
已证实，使用目前已知的测序技术难以延伸每个测序反应所能读出的序列长度，目前使用的大多数方法局限于每个测序反应仅读出约7-800个碱基对。目前广泛使用的方法也无法在一个测序反应中对一个以上的序列进行测序。
为了测序多个序列或长序列，一般必需进行很多平行测序反应(例如为了测定长为6万亿个碱基对的二倍体人类基因组序列，必需进行几百万个平行测序反应)。这是很影响测序进程的一个环节，因为工序的总数，酶和试剂的使用，所需独特引物的数目等经常与需进行的测序反应的数目直接成比例。另外，经常需要耗费人力物力来测定重叠序列。此外，必须进行不同类型的组织工作，例如建立和分选DNA文库。如果在其它序列中发现可能的靶序列，还必须花费人力物力来分离该靶序列。
为了阐明限制测序反应长度的主要问题，可以将目前使用的和处于开发中的测序方法适当地分成两大组(也有个别方法不在此分类范围内，但它们仅为极少数)。第一组方法基于多核苷酸的大小范围。起点是制备一个或多个多核苷酸序列梯，其中所有分子都具有一个共有的和一个任意的末端。例如，经典的Sanger和Maxam-Gilbert测序方法基于4个序列梯，它们各代表4个碱基A，C，G和T。
有关可读的测序反应长度的限制因素是人们必须能区分仅有一个单体差异的多核苷酸。序列梯中的多核苷酸越长，多核苷酸之间的大小相对差异越小。因此，测定分子大小的大多数方法很快就受到限制，此时已不能区分两个相邻的多核苷酸。
另一组方法基于不同的原理。通过鉴定靶分子中存在的序列短片段，可利用序列片段之间的重叠重构靶序列。
因此，在很多测序方法中，将靶分子裂解成较小的片段，推定每个片段的组成，通过发现重叠序列来组建原始序列。例如，已产生了具有65,536个地址的微列阵，其中每个地址含有独特的八聚体。因此覆盖了所有的八聚体排列(48＝65,536)。随后，如果用荧光标记靶分子，并使靶分子与八聚体杂交，通过登记已被荧光标记的地址，即可得到有关靶序列中存在何种序列片段的信息。
有关可读的测序反应长度的重要限制因素是下列组合问题。为了能够重构靶序列，所进行的测序反应越长，序列片段也应越长。然而，需检测的排列数目随待鉴定序列片段的长度的增加而呈指数增加。这样就相应地增加了对微列阵上独特地址的需求。
微列阵的另一种用途是通过例如筛选群体中的基因突变来重新测序已知的序列。为此，需要为已知序列调整寡核苷酸，以使所需的地址数减少，待鉴定的序列片段的长度增加。然而，设计特殊用途的微列阵需要耗费很多人力物力财力，目前，仅有少数DNA序列有微列阵。由于人类基因组大约由100-140,000个基因组成，所以按照这种方式大规模地对人类基因组进行测序需要耗费很多人力物力。
使用微列阵的另一个缺点是现行作图技术(如照相平板印刷术)的限制使得无法产生小于约10×10微米的像素。因此，仅利用了荧光扫描仪的部分分辨能力。目前使用的荧光扫描仅能够区分0.1×0.1微米的像素，这意味着微列阵能包含的信息可比目前所含的多10,000倍。
因此，开发能避免上述组合问题的，鉴定长序列片段的新方法/原理是有利的。类似地，开发能测序长的靶序列，而不会使需鉴定的序列片段的长度随靶序列长度的增加而呈指数增加的新方法/原理也是有利的。
另一种基于鉴定序列片段的测序方法(例如美国专利申请号5,714,330所述的方法)包括将片段化的靶DNA广泛分布于阅读平板中。随后，处理靶DNA以使荧光信号固定于靶DNA上，所述荧光信号代表最初的一个或几个碱基对。读出每个位置处的荧光信号，然后对靶DNA中的后续碱基对重复上述处理过程。当DNA分子在阅读平板上具有固定的位置时，通过运行几轮循环就可以用序列信息作图较长的片段。
由于所需独特荧光信号的数目随碱基对数目的增加而呈指数增加，因此在每轮循环中读出多个碱基对的能力受到限制。为了读出一个碱基对，需要4种颜色，两个碱基对需要16种颜色，3个需要64种颜色等。不能确定现行的技术是否能区分64种不同的荧光颜色。无论如何，随着多种颜色的使用，所需阅读时间和花费也会大大增加。解决问题的办法是进行很多轮循环。这反过来意味着酶促步骤和荧光读数次数的增加。
即使可以用上述策略鉴定相对较长的序列片段，在重构过程中也会遇到重要的问题。生物DNA在其组成上非常有序。在“宏观的”和“显微的”水平上，短的和长的序列经常在多处重复。重构具有重复DNA序列的区域是非常困难的。这些经常具有生物学意义，例如三核苷酸“重复”的长度。
目前，已开发出能克服上述问题的新方法。人们惊奇地发现如果获得与位置信息(即某序列在靶序列中的位置信息)相关联的序列信息，即可精确地鉴定长序列。另外，本发明提供了新的测序方法，所述方法可以与或不与位置信息一起使用，在所述方法中，与一个或多个碱基相关联的信号被扩增，本文称之为放大。
因此，根据第一方面，本发明提供了测序靶核酸分子的全部或部分的方法，所述方法至少包括下列步骤a)测定所述核酸分子的一部分的序列；b)测定所述部分在所述核酸分子内的位置；和c)组合步骤a)和b)中获得的信息以得到所述分子的序列。
可以方便地测定多个部分的序列和位置，并将这些信息组合在一起。
本文所用的靶核酸分子指任何天然或合成的多核苷酸分子，例如DNA(如基因组DNA或cDNA)，RNA(如mRNA)，PNA及它们的类似物，适当时，它们可以是单链，双链或三链。待测序的部分优选含有完整靶分子，但可以例如小于完整的分子，如为4个碱基至1kb，如为4至100个碱基。
优选被测序的部分具有4个或更多个碱基，和/或以小于1kb的准确度(即分辨能力小于1kb)测定所述部分在所述靶分子中的位置，特别优选准确度小于100个碱基，尤其优选小于10个碱基。当分辨能力为几kb或更高时，通常不需要得到通过本文所述的方法可容易地获得的，长于8-10个碱基之片段的序列信息。
可以任何合适的方式得到序列信息，可以适当地获得一个或多个碱基，特别优选2个或多个碱基，如2个至20个碱基，合适地为4个至10个碱基的序列信息。应懂得，依赖于将序列部分安置于靶分子内的上述测序技术很有必要保留位置信息，可以同时或分开评估所述位置信息与序列信息。下文将描述多种适当的技术。
类似地，可以用多种合适的方法获得位置信息，下文中将描述这些方法。
如上所述，在本发明的此方面，得到的序列信息必须与该序列在靶序列中的位置信息相关联。通过多种方法可以达到此目的，例如通过测序核酸分子的末端或内部区域，参照位置指示物确定其位置，所述位置指示物可以是例如分子的大小(如长度或体积)，所产生信号的强度或与位置标记或锚的距离。通过进行一轮或多轮测序反应循环即可得到序列信息。
如上所述，测序长分子的一个困难是当分子变得更长时，区分仅有单个碱基差异的不同分子的相对大小将会变得更加困难。在一个实施方案中，本发明通过“放大”分子之间大小，强度，长度或信号的差异而克服了这一特殊的难题。因此，在优选的方面，本发明提供了测序靶核酸分子的全部或部分序列的方法，其中每轮测序循环测序2个或多个碱基(例如3个或多个，优选4个或多个碱基)，和/或与每个碱基相关联的信号被放大。
本文所用的测序“循环”指的是实施一系列导致终产物的步骤，所述终产物经处理，例如通过产生或读出终产物信号即可得到序列信息。优选地，在本文所述的放大和测序反应中，需进行一轮以上的循环，例如2或更多轮循环，特别优选进行4轮以上的循环，例如10轮循环。
“放大”与碱基相关联的信号指的是增强与单个碱基相关联的信号，或增强归因于单个碱基的信号。例如，它可以是大小(其中信号是碱基的大小)的增加，或者是新信号的产生，例如在该碱基上添加或结合标记(label)或其它能产生信号的工具(means)。
增加待鉴定的序列部分的长度可以补偿大小测定的低精确性。因此，在使用目前尚不够精确的大小测定方法，如流式细胞计量术，DNA伸展等的同时，可以利用质谱分析法，凝胶分选和类似的方法的潜力。
可以用多种方法放大分子之间的差异。首先，每轮循环对几个碱基(如4个或更多个)进行测序，使所得分子的长度有2个或多个碱基的差异，从而能在测序梯中被辨别，所述序列梯同时能提供位置信息(例见实施例17)。或者，可以放大每个碱基所包含的信息，从而使辨别变得更加容易。下文将描述这些不同技术的例子。
可通过任何合适的技术在每轮循环对几个碱基(如4个)进行测序。在依赖于位置信息的测序方法中，可以使用任何技术，只要所得序列信息反过来与碱基在靶分子中的位置相关即可。例如，在这种情况下，可以利用与互补探针(如承载于固体支持物上的互补探针)的杂交，其中与靶分子结合的探针的鉴定特征可以指示靶分子的末端序列。例如，可以使用承载有与所有2-碱基排列互补的探针，即承载有16种不同探针的固体支持物。类似地，可将与所有4-碱基排列互补的探针，即256种不同的探针结合于固体支持物上以捕获具有互补序列的靶分子。
在例举的方法中，末端不是AAAA的所有靶分子(此时探针的末端为TTTT)都不会结合，因此可以被除去。类似地，在其它地址处，具有特定末端序列的靶分子会选择性地结合。靶分子可以是双链(具有单链突出端)或单链，以分别在末端或内部结合和鉴定序列。如果将PNA用作互补探针，由于该分子能结合双链形式，因而也可以结合双链形式的内部序列。本文将这种技术笼统地称为基于一个或几个末端碱基对的分选，可以在一轮或多轮循环中进行该项技术。该技术可以与本文所述的其它技术联合使用。
与上述技术相反，也可以通过将单链靶DNA固定于固体底物上来进行测序。然后可以将靶DNA与例如16-片段衔接子混合和杂交。衔接子将在下文中描述，但一般指的是能将靶序列衔接为信号-增强或放大的靶序列的分子。然后从溶液中洗去未杂交的衔接子。仅留下具有与单链DNA互补之突出端的衔接子。借助于例如本文所述的分析方法，人们可以测定何种衔接子保留在溶液中，继而可以确定DNA中含有哪些16个碱基对的序列片段。
当该测序技术与位置信息联合被实施时，或者当其仅仅被用作测序技术时，它可以代表本发明的优选特征。在此方法中，通过例如扩增单个碱基或用能产生信号的放大标记物(tag)取代或增强该碱基，可以放大该碱基携有的信息(在某些情况下，本文所称的放大也被称为“转变”)。
通过一次或多次扩增，如双倍增加靶分子或其含有待测序部分的部分即可放大靶核酸分子。应懂得，检测例如10和11个碱基的分子之间的差异比检测320和352个碱基(扩增了5倍)的放大分子之间的差异更加困难。因此，可以使用双倍增加的原理以改良大多数的DNA分析方法。实施例11中描述了一个能达到此目的的适当技术。也可以使用其它适当的技术。
因此，该方法可用于改良大多数基于检测核酸分子之间的大小差异的方法，例如基于凝胶或不基于凝胶的技术。该策略也可以利用不能足够敏感地区分几个碱基对的差异的技术来分析核酸物质。例如，改良的Maxam-Gilbert方法是可以的，其中单链核酸分子(如具有5’-生物素)与携有链霉亲和素的平板结合。然后进行测序，洗平板，使所得核酸分子倍增，例如增加10倍，导致1024个碱基对的步骤。通过下文所述分析技术中的一种可以测定这些长度。
因此，从另一个方面看，本发明提供了按本文所述测序靶分子全部或部分的方法，其中与每个碱基(或一个以上的碱基)相关联的信号通过所述碱基在所述序列中出现次数的增加而被放大。
本文所用的归因于特定碱基(或一个以上的碱基)的“信号”指的是直接或间接利用特性来检测所述碱基(或碱基集合)的可能性。因此，信号指的是可以直接或间接被检测的，或者可通过使所述碱基与一种或多种能直接或间接产生信号的其它分子(如标记组分)结合而被检测的碱基特性，例如碱基的大小，电荷或空间构型。因此，本发明提供能直接被检测的信号，或者提供能产生信号的信号产生工具。信号可以对一个以上的碱基是独特的，即信号可以指示或代表一对碱基，例如可以使用针对AA的信号，该信号不同于针对AT等的信号。下文将详细描述结合所述分子的不同机理和所产生的信号。
进一步优选的放大技术包括使一种或多种独特的信号(或产生所述信号的物质)与序列中的一个或多个碱基相关联。当所述信号与一个以上的碱基相关联时，使用一系列各自对应于一个或多个碱基的信号(或产生信号的工具)或独特于两个或多个碱基的单个信号(或产生信号的工具)即可达到上述目的。可以方便地使放大标记物携有这些信号，所述标记物可以通过衔接分子与序列结合。本文所用的“相关联”指的是用所述信号(或产生信号的工具)取代所述碱基(或一个以上的碱基)，或者在所述碱基(或一个以上的碱基)上添加所述信号(或产生信号的工具)以使它们共存。信号(或产生信号的工具)不必直接结合(或特异性取代)与之相关联的碱基(或一个以上的碱基)，结合可以是间接的，例如通过一种或多种其它分子的中介作用而结合。可以通过任何适当的化学相互作用，如疏水的，离子的，共价的相互作用等来进行结合，但优选通过与靶核酸分子或相关分子的共价相互作用进行结合。
本文所用的“相应的”指的是碱基和信号之间的关系，例如，所述信号可由放大标记物提供，并可被读成特定碱基存在的指示物。或者，在作图过程的上下文中，“相应的”指的是核酸酶和信号之间的关系，所述信号可用作标志(marker)，指示被所述核酸酶裂解。
本文所用的“放大标记物”是单个分子，或是含有标记物部分的分子复合物，所述标记物部分可提供产生一种或多种信号的工具，例如携有标记(label)或可结合标记(label)的位点。当需要除序列信息以外的信息时，可以掺入能产生一种或多种信号的工具，以作为与靶分子或所用裂解方法相关之信息的指示物。例如，当放大标记物是多核苷酸时，它本身可以携有另一个与一个或多个核苷酸碱基特异性相关连的部分。在这种情况下，可以认为标记物另外还含有如本文所述的衔接子。或者，放大标记物可以结合，或含有用于结合衔接子的工具，所述衔接子能与靶序列结合。
下文一般性描述了上述方法的例子。靶核酸物质中的碱基对与4种不同的标记物(下文称之为放大标记物)相关连，所述标记物分别代表4种碱基，即腺嘌呤，胞嘧啶，鸟嘌呤和胸腺嘧啶。因此，当存在A-T碱基对时，“放大标记物A”与之相连，C-G与“放大标记物C”相连，以此类推。当原始碱基顺序，如ACGTT被“放大标记物A”-“放大标记物C”-“放大标记物G”等放大时，就产生了新的DNA分子。每种放大标记物都提供了一种产生信号的工具，在优选的特征中，所述标记物是多核苷酸分子。此时，根据需求，4种标记物的长度可以有2个碱基对至几百个kbp(或必要时为更多个碱基对)的差异。相应地，DNA片段可含有报道基因和其它生物学信息，或者仅由生物学功能未知的序列组成。
可以使用任何合适的放大标记物，当然，为了测序的目的，必须存在至少4种针对每个碱基的独特的标记物。当然，所用标记物取决于测序技术，当进行测序时，所用标记物取决于提取位置信息所用的方法。
可以用多种其它形式提供标记物。标记物通过产生独特信号可直接或间接进行检测，即标记物含有一种或多种能产生信号的工具。荧光，辐射，磁性，顺磁性，电荷，大小和体积是特性的例子，可以使放大标记物颗粒配备有这些特性，从而能检测它们并将它们互相区分开。这些特性可以存在于放大标记物上的一种或多种标记上，可以直接或间接检测其发出的信号。适当的标记是那些能够直接或间接被检测和/或通过产生信号使放大标记物直接或间接被测定的标记。所述标记包括例如放射性标记，化学标记物(例如EtBr，TOTO，YOYO和其它染料)，生色团或荧光团(例如染料，如荧光素和罗丹明)，或高电子密度的试剂，如铁蛋白，血蓝蛋白或胶体金。或者，标记可以是酶，例如过氧化物酶或碱性磷酸酶，其中可以通过酶与适当实体，例如底物的相互作用来观察酶的存在。标记物也可以构成能产生信号的配对物的一部分，其中可以在很靠近的位置导入所述配对物的另一成员，例如，可以使用荧光化合物和淬灭荧光底物。
也可以在不同的实体上提供标记，所述实体如抗体，该抗体能识别放大标记物的至少一个区域，如放大标记物的肽组分。如果放大标记物是多核苷酸，导入标记物的一种方法是例如结合适当的携有标记的结合配对物，例如经荧光标记的探针或与DNA结合蛋白。因此，标记物也可以携有能结合标记物的分子，或者凭借其序列其自身就是这种分子。标记可以作为单个分子或者以微粒，纳米颗粒，脂质体或其它适当形式的载体形式被结合。
在优选的方面，放大标记物自身是核酸序列，其长度至少为2个碱基，例如30至1000个碱基，优选6至100个碱基，尤其优选10至30个碱基。通过例如使用能产生一种或多种信号的荧光探针，蛋白质和与这些序列互补的序列，可在这些序列上结合一种或多种标记。或者，蛋白质分子可含有标记物，或者与标记物结合，或者能被免疫试剂或另一种适当的结合配对物，如DNADNA-结合蛋白识别。也可以检查这种标记物分子的其它特性，例如裂解模式(被限制性酶或蛋白酶裂解的模式)，电荷，大小，形状等。
凭借其可用于产生信号的序列，放大标记物也可含有信息。因此，另一种策略是产生含有报道基因，顺式-调节元件等的链。然后将所述链转染/转化至细胞中，在该细胞中，报道基因或顺式-调节元件的组分被转变为一种或几种信号。尽管该技术需要转化/转染步骤，但细胞可以按程序进行完整的测序反应，包括转变步骤(即添加放大标记物)。例如，可使用表达荧光蛋白或能被荧光标记的膜-蛋白的基因，表达抗生素抗性的基因等，产生大量的，含所有组分的信号。除了随时间的变化和其它特性外，还可以探察信号的质，量和位置以显示序列中特定碱基的存在。
在这些方法中使用单细胞(solitary cell)较方便，但也可以使用多细胞生物或结构。非-存活的细胞等同物也可用于产生标记或信号，例如可使用纳米技术达到此目的。适当时，利用不同的启动子可以使产生的信号针对不同的鉴定位置。实施例18将用例子说明该技术是如何进行的。
如上所述，可以方便地使用特异于每种核苷酸碱基的4种放大标记物，但适当时，可以使用能用于产生一种以上碱基所特有之信号的放大标记物。因此，例如，对于可使用16种不同荧光团的阅读方法而言，可以适当地使用16种不同的标记物，所述标记物可用于产生16种不同的信号，所述信号代表了2个碱基对的所有排列。
在其它情况下，可以适当地使用少于4种的不同标记物。例如，仅使用两种放大标记物，其中一种用于A/T，而另一种用于C/G。另一种可替代的方法是使用少于4种的独特信号事件，以产生4种放大标记物，所述放大标记物利用所述信号事件的特定组合可以产生4种独特的信号(当各个碱基被标记时)。例如，测序信息可被转变为二进制系统。在此系统中，腺嘌呤被转变为一系列信号事件“0”＋“0”，胞嘧啶被转变为“0”＋“1”，鸟嘌呤被转变为“1”＋“0”，胸腺嘧啶被转变为“1”＋“1”。原则上，这足以出现一种或可能是两种颜色或独特的信号，从而能读出测序信息。因为此时读数比使用数种信号时更快，这反过来意味着可以同时使用花费较少的荧光扫描仪。本发明优选的方面是使用单个能产生信号的工具，在空间上按一定的方式排布所述工具，使其能提供至少4种独特的放大标记物，例如可产生二进制类型的读数，也即所述信号含有由单个信号事件组成的模式，所述信号事件能在所述放大标记物上产生独特的信号。此时，信号事件指的是可测信号，例如由单个分子或其它这类标记发出的荧光。当使用多种放大标记物，优选20至100种标记物时，优选使这些标记物线性相连例如成为较长的DNA片段，以使必要时能保存位置信息。
连接标记物(尽管不必直接相连，例如可以通过衔接子来连接)与它所代表的碱基(或一个以上的碱基)依赖于利用例如碱基-碱基互补性的特异性碱基识别。然而，本文所述的互补性包括Watson-Crick碱基-配对中的核苷酸配对，还包括核苷类似物的配对，所述类似物包括例如能与靶核酸分子中的碱基特异性杂交的脱氧肌苷，和能导致这种特异性杂交的其它类似物，如PNA，RNA，DNA及其类似物。
因此，可以使用例如由DNA，RNA或PNA序列或其杂合体组成的探针，例如长度为4至20个碱基，优选6至12个碱基的寡核苷酸，所述寡核苷酸能与靶分子(其中存在互补序列)的特定区域结合，并且能与放大标记物，或一系列标记物结合，其中每种标记物代表一种或多种与该探针结合的核苷酸碱基。此时，探针可作为衔接分子便于标记物与靶序列的结合。或者，可以使用简并探针的混合物，所述探针仅在特定位置处具有一个或多个特定的不变碱基，例如NNNNAA。优选出现的放大标记物的数目对应于它们所附着并已经结合的探针的特定碱基数目。然而，如果独特的标记物是为2个或多个碱基排列准备的，相应地，只需要较少的标记物。
可使用该技术鉴定靶分子的不连续部分，或者得到完整或基本上完整的靶分子序列。
然而，另一种更好的测序方法是产生邻接的放大标记物链，读出该链发出的信号即可得到序列。尽管其它方法也可以达到这种效果，但最方便的技术包括将放大标记物插入靶分子。尤其优选循环进行该反应，以造成转变，随后读出一系列碱基的序列。
为了将放大标记物插入与待放大的碱基(或一个以上的碱基)相关联的靶分子，必须使用与该碱基(或一个以上的碱基)和周围碱基的互补性，或者使用对这些碱基的识别。这种互补性可用于直接导入放大标记物，或用于启动最终能导入与该碱基相对应之标记物的过程(见实施例4)。
通过在能与放大标记物连接的靶核酸分子中产生突出端(即单链区域)即可方便地达到上述目的。(然而，当标记物分子或其介体，例如其衔接子可以识别并结合双链形式，例如为PNA时，不必要产生所述突出端)。一种方法是连接靶分子的末端与短DNA分子，所述DNA分子含有限制性酶的结合位点，所述酶能在其自身识别序列的外部进行裂解，例如IP或IIS类限制性酶。这些酶未表现出对已切割序列的特异性，因此，它们能产生所有碱基类型的突出端。设置结合位点，使得当实际的靶分子(如DNA)与所述限制性酶保温时，DNA分子的内部会形成突出端。实践中，可优选能产生3-4个碱基对长的突出端的酶(见实施例19，其中显示了在靶分子上产生这种突出端的一般方法，所述靶分子已被扩增并结合至固体支持物上)。
已鉴定出超过70种IIS类限制性内切核酸酶，它们的底物特异性和裂解模式都有很大的不同。另外，已证实这些酶能较好地适用于“组件交换”实验，使得人们能生产出新的能满足特定需求的酶(Huang-B等，蛋白质化学杂志，1996，15(5)481-9，Bickle，T.A；1993，核酸酶(第2版)，Kim-YG等，PNAS 1994，91883-887)。因此，根据本文所述的原理，可以使用这些酶的很多种组合和变体。
IIS类限制性内切核酸酶已被用于几种不同的目的。例如，可用作能在几乎任何预定位点裂解单链底物的通用限制性内切核酸酶(Podhajska，A.J.，Szybalski，W；基因1985，40175-182，Podhajska，A.J.，Kim，S.C.，Szybalski，W；酶学方法；1992，216303-309，Szybalski，W；基因1985，40169-173)。
在测序中，它们已被用于先前所述的美国专利申请5,714,330中所述的方法。然而，在这些方法中，未考虑导入多种与靶分子保持连接的放大标记物。
用IIS酶裂解会产生多种长度的突出端，例如长度为从-5至+6碱基的突出端。一旦产生了突出端，可使放大标记物与该突出端结合，所述放大标记物可以由衔接子携带，它对应于突出端中的一个或多个碱基。
下文将描述多种不同的方法，其中可使用IIS系统或类似的系统掺入放大标记物。
首先描述的技术涉及使用衔接子，该衔接子携有一种或多种放大标记物，并具有与靶核酸分子互补的突出端，所述靶核酸分子已通过修饰产生了单链区域，即突出端。衔接子自身也携有另一种IIS酶的识别位点，这种IIS酶可以与用于产生突出端的酶相同或不同。实施例1中阐明了该技术的例子。
简单地说，将靶序列连接至载体中，所述载体本身携有与插入点邻近的IIS位点，或者对靶序列进行基因工程改造以使其含有该位点。然后使用适当的IIS酶裂解IIS位点，当IIS位点放置的位置合适时，即可在靶序列中产生突出端。在一个实施方案中，通过使用与IIS邻近的另一个限制性酶位点，使切割载体的至少一个末端成为平端。
然后可以使用适当的衔接子结合并从而放大突出端的一个或多个碱基。当进行单个碱基放大时，可以分别使用具有针对4碱基突出端ANNN，TNNN，CNNN和GNNN的单链部分的简并衔接子和放大标记物A，T，C和G。或者，衔接子可携有一个以上的放大标记物，它们对应于一个以上的所述突出端碱基，例如具有ATGC突出端，适当时，针对一个或多个所述碱基的相应放大标记物以线性方式结合。
一旦衔接子的突出端和经裂解的载体已被杂交，即可连接这些分子。当获得沿着整个突出端的完全互补性，并且该互补性有助于该反应的特异性时，才能达到上述目的。然后进行平端连接以使衔接子的另一端与载体相连。通过适当放置与先前使用的酶相同或不同的另一个IIS位点(或另一个适当的限制性酶位点)，即可进行裂解以在靶序列中，第一个衔接子所针对的序列的下游产生突出端。通过这种方法，相邻的或重叠的序列可被连续转变为携有放大标记物的序列，随后，可通过下文所述的方法读出放大标记物发出的信号以测定该序列。测序重叠序列可以有效地校对先前的循环中读出的序列，从而验证序列。
实施例2中显示了对此技术的少许改动，其中不产生平端，取而代之的是，一旦产生载体，并用IIS或类似的酶裂解之后，即可使用另一种限制性酶，该酶所产生的突出端与载体中所插入的所有衔接子的末端均可互补。类似地，这也可以将衔接子，继而将放大标记物连接至载体中。
实施例3中阐明了类似的但更详细的例子。此时，产生了对应于一段邻接的DNA序列的非-互补突出端。它们都与已结合了适当放大标记物的衔接子杂交。仅有一种衔接子含有下一轮循环所用的限制性酶位点，使得测序只能单向进行。显然，为了结合具有这些不同特性的衔接子，邻接DNA序列的突出端必须是可区分的，例如长度有所不同。通过使用能导致不同突出端长度的不同限制性酶即可达到此目的。有意使两种不同类型的衔接子的末端互补，从而使它们能够杂交并连接形成载体。适当放置衔接子中的限制性位点，以使该裂解位点也被转移到靶序列中，从而测序相邻的位点。
因此，例如，如果产生了5＋4的突出端，该裂解位点的4个碱基被转移至靶序列中，当接下去的9个碱基被转变为突出端，并且随后与放大标记物相连时，在先前的循环中，这些碱基中的5个已与放大标记物相连。当读出序列时，即可验证前5个碱基的鉴定特征，因此导入了校对机制。
使用IIS系统的其它技术包括使用DNA聚合酶的Klenow片段，并依赖于以下事实，即大多数DNA连接酶不能连接不同大小的突出端。例如，实施例5中显示了这一点。在该技术中，产生的突出端长于衔接子的突出端。在一种类型的核苷酸存在下，通过Klenow减少(reduce)靶突出端。仅有已用一个碱基适当延伸的靶能结合衔接子，从而鉴定出利用该衔接子结合的相应放大标记物而导入的碱基。
实施例4-7中阐明的其它技术包括使携有放大标记物的衔接子与单链靶杂交，然后使所述衔接子与所述靶连接。再将衔接子用作聚合酶延伸反应的引物以形成双链分子。另一种可替代的方法是使用分选衔接子(此时不必要与放大标记物相连，可简单地用于分选)，其中衔接子与固体支持物结合，所述支持物具有的突出端超过靶分子上所产生的突出端。因此，例如，衔接子可具有8-10个碱基长的突出端。如果(双链形式的)DNA片段具有4-碱基突出端，仅当碱基与突出端最里面的碱基一一互补时，这些分子才能连接。然后进行聚合酶延伸。成功的聚合酶延伸反应的先决条件是衔接子突出端的其余部分与DNA片段互补，使得它可用作引物。在此方法中，聚合酶延伸仅当靶分子的末端序列与衔接子突出端互补时才会发生。
或者，仅使用杂交，可将与相邻的多段序列相连的放大标记物方便地连接在一起。
另一种可替代的方法依赖于代谢酶对其识别位点的特异性。在使用限制性酶的实施例中阐明了该技术。然而，也可以使用多种其它的酶，例如转座酶等。在此方法中，待测序的靶分子用4种不同的标准限制性酶裂解以产生平端并连接至4种不同的DNA分子上，每种DNA分子的末端具有4种不同限制性酶之一(其通过裂解能产生突出端)的部分限制性位点。然后将它们连接至靶分子上。当靶分子末端的碱基能提供限制性位点的其余碱基时，会产生限制性识别位点。通过用该限制性酶裂解可以确定所述位点。只有具有完整形式的识别位点的那些分子才能被裂解。为了识别已被裂解的那些分子，可以使用与所述突出端互补的衔接子。然后，这些衔接子可携有一种或多种适当的放大标记物，这取决于靶分子提供的用于完成限制性位点的碱基数目。然后使分子环化以重复循环。适当时，衔接子的序列内可具有能产生平端和突出端的限制性酶的，被适当放置的限制性位点，使得通过导入对应于邻接的或重叠的靶序列区域的放大标记物，而重复进行循环。
因此，本发明的一个方面涉及鉴定靶核酸分子的一部分的方法，其中衔接分子结合或取代所述部分，所述衔接分子含有能识别和结合所述部分的组分和含一种或多种放大标记物的组分，优选代表所述部分中的碱基的所述标记物链。
因此，从优选的方面看，本发明提供了放大靶核酸分子全部或部分序列的方法，其中一种或多种放大标记物与该靶序列中的一个或多个碱基相关联，其中所述标记物对应于所述靶序列中的一个或多个碱基。优选所述放大标记物合在一起对应于至少两个，优选至少4个碱基。优选所述放大标记物各对应于至少两个，优选至少4个碱基。在另一个实施方案中，每个放大标记物对应于1个碱基，可使用合在一起对应于至少4个碱基，例如，8至20个碱基的放大标记物链。例如，通过进行多轮循环，每轮循环添加单个放大标记物，或者通过使用在单轮循环中相连的标记物链即可达到上述目的。
优选所述方法至少包括下列步骤a)将所述靶序列的至少一部分转变为适于结合衔接分子的形式，优选转变为单链形式；b)使步骤a)产生的，适于结合衔接分子的所述区域的至少一部分，优选所述单链区域与衔接分子结合，所述衔接分子含有一种或多种放大标记物，或含有能结合一种或多种放大标记物的工具，所述标记物对应于所述靶序列的一个或多个碱基，优选对应于适于结合所述衔接分子的所述区域中的一个或多个碱基，所述区域优选所述单链区域，所述衔接分子与所述区域结合，或与所述区域邻近；c)任选连接所述靶分子与所述衔接分子，使得至少所述放大标记物能与所述靶分子保持相连；d)任选重复步骤a)，其中所产生的适于结合所述衔接子的所述区域，优选所述单链区域包括一个或多个不与根据步骤b)的放大标记物相连的碱基；e)任选重复步骤b)至d)，所述衔接分子结合所述靶分子中与先前循环中衔接分子结合区相邻或重叠的区域。
在一些技术中，例如，当通过联合使用放大和分选进行测序时，步骤e)可以省略，使得仅进行一轮放大循环。
仅当靶分子的形式不合适时，才需要“转变”成适于结合衔接分子的形式。因此，结合PNA分子时，不必要使双链靶分子转变。类似地，如果分子是单链，为了结合寡核苷酸形式的衔接子，也不必要进行转变。然而，在一些情况下，需要进行转变，例如通过解链DNA片段来转变，以便特异性地和选择性地结合衔接子。不必要将整个分子都转变为另一种形式，适当时，仅需要转变其中的一部分。该部分应至少含有衔接子结合部分的长度，因此，优选其长度为4至500个碱基，例如6至30个碱基。本文中提及一种形式至另一种形式的转变不应与提及放大时所用的转变一词相混淆。
本文所用的“衔接分子”是衔接靶序列与信号-增强或放大的靶序列的分子。本文所用的衔接分子是单链分子，或相同或不同类型的分子的复合物。衔接序列含有与所述靶序列结合的结合组分，例如识别特定碱基序列的蛋白质，或更优选与靶序列中一个或多个碱基互补的多核苷酸序列。优选结合序列的长度为3至30个碱基，优选4至10个碱基。衔接分子另外还可含有一种或多种放大标记物或结合所述标记物的工具，例如互补序列或结合配对物的序列。
优选衔接子含有一个或核酸酶识别位点，尤其优选含有能在其识别位点的外部进行裂解的核酸酶的限制性位点(或至少识别位点)，尤其优选含有IIS酶或其类似物，特别是FokI和本文所述的其它酶的限制性位点。优选其它限制性酶的位点不在衔接子中。
衔接分子只含有符合下列要求的核酸分子较为合适，即在所述核酸分子中，衔接子的多种特性由衔接子的不同区域提供。然而，如上所述，放大标记物可采取多种形式，包括诸如蛋白质等标记。因此，除了提供与靶结合的区域外，衔接子还可提供能与放大标记物结合的分子，例如提供适当的结合配对物。
在步骤c)中，提到“至少”所述放大标记物保持相连。因此，可以设想，能除去衔接子或其部分。
本文所用的放大标记物“链”指的是在放大循环之前就已经相连并与一个衔接子结合，或者在每轮循环结束时连接在一起的标记物，或者它们的组合。可以通过任何适当的方法进行连接，但优选通过共价方式结合。
优选在本发明的测序方法中使用上述方法，所述方法包括上述步骤，还包括通过鉴定由所述靶序列所结合的放大标记物产生的信号，来测定所述靶分子的序列。为了鉴定放大标记物，这些放大标记物必须能产生可读信号。放大标记物可以固有地存在信号，例如当标记物携有具有某种特性的标记(如放射性标记)时，或者需要其它步骤使放大标记物产生信号，例如添加其它分子(如携有标记的结合配对物本身)，或者将放大标记物处理成可读形式(例如通过表达报道基因转变为可读信号，其中被读的信号是表达的蛋白质)。
因此，在优选的方面，本发明提供了测序靶核酸分子的全部或部分的方法，其中所述靶核酸分子的至少一部分序列被放大，优选使用与靶序列中的一个或多个碱基相关联的一种或多种放大标记物进行放大，其中所述经放大的序列任选被转变为可读信号，通过评估产生的信号来测定所述序列。
本文所用的“评估”指的是可在绝对或相对意义上进行测定的定性和定量评估。
可以用化学方法，或使用适当的天然连接酶或其变体进行连接。尽管连接仅表示本发明的优选特征，但可以便利地使用连接来增加特异性。与杂交相比，如果连接基于T4 DNA连接酶，特异性将会增加到10倍。这一点很重要，因为在很多情况下，基于杂交的测序方法与不能被人接受的高错误率相关。另外，通过使用热稳定的连接酶，例如Pfu，Taq和TTH DNA连接酶，能改善特异性，同时使效力显著增加，从而使得保温时间缩短。
这种使用放大标记物的测序方法能提供很多优于已知测序方法的好处。在每轮循环中可以转变或放大一个以上的碱基，从而减少了测序特定长度的靶分子所需的循环数。根据所选择的放大标记物和它们产生的信号，可以产生简单化的读数信号，例如信号可以是二进制的读数形式，即通过适当的组合产生单个信号的事件(如荧光)的线性或位置安排，产生针对一个或多个碱基的独特信号。这样可以减少所需的产生独特信号之事件的数目。因此，例如，无需为每个2碱基组合准备16种不同的标记，或者为每个3碱基组合准备64种不同的标记，在本发明中，通过在每种放大标记物上提供产生单个信号事件的工具模式，例如提供结合荧光探针的位点模式，即可产生16或64或更多种独特的信号。
信号信息可被密集包装。标记物并不仅仅局限于经标记的核苷酸，允许所用放大标记物的类型和产生的信号有较大的灵活性。在一些实施方案中，甚至当不进行循环反应时，可通过下列方法测序序列的大部分，所述方法是使用针对所述部分的放大标记物链，从而避免涉及重复循环的复杂反应，也无需将每轮循环所得的信息与特定靶序列相关联，例如，使用固定于阅读平板上的靶分子，这样可限制读取信号的方式(例如，无法使用微/纳米孔或流式细胞计量术)。
在本发明优选的方面，通过使用单链分子，或者通过产生突出端，例如通过使用具有不同于其识别位点的裂解位点的适当核酸酶，如IIS酶，即可将靶分子转变成至少部分为单链的形式。
优选地，当循环地进行反应时，可通过例如连接，例如通过产生含有它们的单链而将每轮循环的放大标记物连接在一起。另外，连接所述靶分子与所述衔接分子之后，优选使所得分子环化。通过将靶分子导入载体(或者通过使靶分子的一部分与支持物结合，在分子内部进行裂解之后自由进行相互作用，见实施例22)，并在导入所述衔接分子之后使用适当的裂解和连接步骤，即可方便地达到上述目的。或者，可将产生的放大标记物链转移或拷贝至靶分子上较远处的位点，而无需进行有效的环化。实施例9中阐明了实现此目的的适当方法。
另一种不必重复循环反应的合适技术包括杂交较小的经转变片段，即结合有放大标记物的核酸分子。这些片段自身已经受了一轮或多轮转变循环，然后，可通过与未转变序列或放大标记物所携带信息，例如标记物的核苷酸序列的互补性来连接这些片段(见实施例10)。
为了进行循环反应，必须控制反应中所用的特定酶。可根据所用的酶的不同通过不同的方法达到此目的。因此，可使用甲基化防止在限制性位点的结合和/或裂解。通过控制末端碱基的磷酸化状态，例如通过适当使用激酶或磷酸酶，可以防止或允许连接。也可适当使用大体积以避免分子间的连接。在限制性反应过程中，优选使用小体积以增加效力。
优选地，在每轮放大循环(或本文所述的测序)中，至少转变2个碱基，优选每轮循环转变3至100个碱基，尤其优选转变4至20个碱基。在每轮循环中，一个以上的放大标记物可以方便地与一个或多个碱基相连。例如，在优选的实施方案中，导入了标记物的集合(例如线性系列或链)，其中每个标记物对应于一个或多个碱基，它们合起来对应于所述序列的一部分。例如导入了多种标记物，如对应于4至12个邻接碱基的4种以上的标记物。所述标记物可以方便地与针对一个以上碱基的这些标记物(如针对每对碱基的独特标记物)自身相连接。
如优选实施方案中的实施例1所述，可使用具有上述特性的核酸酶来产生突出端。另外，所述载体还含有限制性酶位点，以在由核酸酶裂解产生的一个末端产生平端裂解，从而产生突出端。或者，可使用不同于产生原始突出端的酶的限制性酶，所述限制性酶能产生与该反应中所用的所有衔接子的一个末端精确互补的突出端。
为了进行实施例3的方法，可以方便地使用能产生与突出端相邻或重叠的区域的核酸酶位点。优选这些位点位于所用的衔接子中。在每轮循环中，使用了两种衔接子，利用与靶序列单链部分结合之区域的末端的互补突出端，可以方便地将这两种衔接子连接在一起。因此，在本发明优选的方面，特别允许所用校对衔接子含有2种或多种核酸酶的识别位点，所述核酸酶的裂解位点与其识别位点是分开的，其中用所述核酸酶裂解可产生相邻或重叠的单链区域。本文所用的“重叠”指的是具有共同碱基的序列，或与相应链上的这种序列互补的序列。因此，为了获得重叠区域，可以使用双链靶的每条链，可测序重叠但互补的区域。为了方便地达到此效果，在每轮循环中将一个以上的衔接子结合于靶分子上。如果测序重叠区域，该方法允许校对，因为结合了对应于特定碱基或碱基集合的一个以上的放大标记物，可以产生针对该碱基的重复信号。应懂得，根据本发明，不需要每个碱基使用一种标记物，因此，可重复使用针对一对碱基的标记物。
在进行涉及Klenow片段的使用的实施方案中，步骤a)中产生的单链区域比衔接子上存在的核酸单链区域长一个或多个碱基。另外，在步骤b)之后还需要一个步骤，其中通过聚合化延伸反应缩短靶分子单链区域的长度。
为了进行涉及单链靶分子的技术，循环反应适当包括产生双链分子，优选通过在聚合酶延伸反应中使用衔接子作为引物来产生双链分子。
使识别位点完整以鉴定具有完成该位点所必需之末端碱基的分子的方法是一种与以上一般性描述的方法稍有不同的技术，因为衔接子与突出端结合，但携有标记物，所述标记物可以不必对应于与衔接分子结合的单链区域的一个或多个碱基。单链区域由裂解限制性位点所产生的突出端构成，所述突出端含有靶序列的一些碱基。然而，根据裂解位点，那些碱基可以是，也可以不是单链的形式，例如，突出端可以完全由非-靶分子碱基组成。不添加适当标记物依赖于以下事实，即衔接子仅在限制性位点已经完成之处才能结合。因此，步骤b)包括参考对应于所述单链区域或所述区域附近，例如与所述区域相邻的一个或多个碱基的标记物。另外，在此方法中，在步骤a)之前，使含有代谢酶的部分识别位点的接头DNA片段与所述靶分子结合，接着使用所述酶，例如核酸酶来产生步骤a)的单链形式。
如上所述，可以在分选的基础上进行测序。该方法可以独立使用，或者与上述放大技术联合使用。例如，测序方案可以是在4个碱基对的基础上分选靶核酸分子，随后，转变相邻的碱基对以便测定它们的序列。例如，分选策略可包括如上所述用靶核酸分子中的4个碱基产生突出端。然后，将它们分布于256个孔中，所有孔中都覆盖了短的DNA分子，即分选衔接子(这些衔接子不必携有放大标记物)。分选衔接子被固定在孔壁上，并具有4碱基突出端，其能互补靶DNA上已产生的突出端。另外，分选衔接子可含有IIS酶或其它适当核酸酶的结合位点。结合位点分布的位置使得各个IIS酶能产生突出端，所述突出端具有的碱基对位于靶DNA中产生的第一个突出端旁边。为了用分选衔接子增加表面积，另一种方法是将它们固定在固体支持物上，例如固定于顺磁珠或类似物上。
孔1中的DNA分子具有AAAA突出端，而孔2中的DNA分子具有AAAC突出端，以此类推。因此，256个孔覆盖了4碱基突出端的所有排列。当靶DNA与连接酶一起被加入孔中时，具有TTTT突出端的DNA分子自身会与孔1结合，具有TTTG突出端的靶DNA会与孔2结合，以此类推。洗下未与分选衔接子连接的靶DNA分子之后，加入IIS酶，使得在产生新突出端的同时能释放靶DNA分子，所述新突出端代表靶序列中接下去的4个碱基对。然后将此突出端用作新一轮分选的起点，或者可以进行转变/放大。
洗去DNA分子的分选策略包括DNA分子的相对较大损失。然而，本专利申请中建议的大多数测序方案基于对单个分子的分析，这意味着仅需要很少的DNA分子。因此，99.9％或更高的损失也很少成问题。
替代使用不同的孔的另一种方法是使用“微列阵”上的不同位置。在地址1处，仅固定有以TTTT结尾的DNA分子，在地址2处，固定有以TTTG结尾的DNA分子，以此类推。其它方法有在不同的时间使具有不同末端的DNA分子结合/转变，使用凝胶分选等。
例如，可以使用具有256种不同分选衔接子的策略，所述衔接子分布于“微列阵”上的256个方格中。在方格1中，有具有AAAA突出端的分选衔接子，在方格2中，有具有AAAC突出端的分选衔接子，等等。因此，靶DNA分子将被分选，以使具有TTTT突出端的靶DNA分子与方格1结合，具有GTTT突出端的与方格2结合等。另外，通过例如用生物素/链霉亲和素将DNA片段的另一末端固定在底物上，可以继续进行下一个转变/放大步骤，而不会使DNA分子离开它们在阅读平板上的位置。另一种防止DNA分子离开它们的位置的策略是使用被分成256个孔/空间的阅读平板。
还必须指出当然可以用少于或多于256的排列进行分选。也可以进行几轮分选。例如，如果使用具有65,536个不同方格的“微列阵”，就可以仅通过杂交进行分选，来鉴定8bp。对于为了进行成功重构的很多应用而言，这就足够了。因此，分选本身也可用作测序方法，而不必再使用转变或放大。
也可以使用不基于连接酶的策略进行分选。原则上，可以使用任何适于识别碱基对的方法，包括提及的与放大相关联的所有方法。
应该指出的是可通过将相同的分选方法重复一次或几次，而针对大多数目的调整分选方法的特异性。也适于使用竞争性探针/突出端来增加特异性。
因此，在优选的方面，本发明提供了按本文所述测序靶分子的方法，其中通过用至少包括下列步骤的方法评估所述分子的一部分的互补性来测定所述序列a)将至少所述靶序列的一部分转变为适于结合互补探针的形式，所述探针与固体支持物结合，或者携有能结合固体支持物的工具，优选转变为单链形式；b)使所述互补探针与步骤a)产生的，适于结合互补探针的所述区域，优选所述单链区域的至少一部分，优选4至12个碱基相结合；c)任选重复步骤a)和b)，所述互补探针结合所述靶分子中与先前循环中互补探针结合区相邻或重叠的区域；和d)通过鉴定与所述靶序列结合的互补探针，来测定所述靶序列的序列。
本文所用“探针”指适当的核酸分子，例如寡核苷酸或PNA分子。
也可包括其它步骤，例如互补探针可用作引物，在这种情况下，必要时也可以进行聚合酶反应。
如上所述，优选使用多个互补探针进行这种分选技术，优选每轮循环可鉴定2至8个，尤其优选4个碱基，但是只有在完成测序反应时才能收集到该信息。特别优选具有2至8个，优选4个独特的不变碱基的互补探针与所述固体支持物上不同的不连续位点结合。在第二轮和随后的循环中，将与所述探针结合的靶分子转移至一个或多个其它的固体支持物上，所述支持物携有针对所述靶分子的相邻或重叠区域之序列的互补探针。为了达到此目的，可以按照与所述放大方法相似的方法进行步骤a)，即探针自身可含有核酸酶(如IIS酶)的限制性位点，所述酶在其识别位点的外部裂解，从而产生适当的突出端。
上述方法可以与放大方法联合使用，从而联合分选和放大进行测序，例如，在步骤b)之后，可以按上文所述产生突出端，并用携有适当放大标记物的衔接子结合所述突出端。然后通过读出放大标记物发出的信号和鉴定靶分子所结合的探针来测定序列。因此，在优选的特征中，本发明提供了按本文所述进行测序的方法，其中通过本文所述的放大方法测定所述序列的一部分，使用本文所述的互补探针测定相邻的或重叠的部分。
在大多数情况下，被选定用于确定序列部分的位置的技术取决于测序所用的靶DNA是如何产生的，例如，如果它从共同的起点开始，或者如果它是通过片段化产生并因此导致靶分子从不同的点开始。
可以通过不同的方法产生测序所用的核酸分子。通过用DNA酶，超声，涡旋或类似的技术处理少量DNA，可以将核酸分子裂解成片段。所述技术是本领域众所周知的，例见http//dnal.chem.ou.edu/protocol book/protocol partII.html，其中描述了产生随机亚克隆的方法。通过调整这些技术的参数，可以调整靶DNA片段的平均大小(原则上，最好具有几百个碱基对的平均大小)。当所述方法用于切割/裂解DNA分子时，也应该是相对非-特异性的方法，以使在统计学上，所得DNA片段是在原始序列的大多数位置处被切割/裂解的。
研究表明片段化DNA分子的末端由平端和1-2个碱基的短突出端组成。必要时，可处理突出端以使它们成为平端(Klenow补平等)。
为了方便地进行依赖于产生单链突出端的本发明优选方法，可通过能产生所述突出端的方法使核酸分子片段化。如上所述，超声处理，涡旋和DNA酶I可产生短的突出端。也可使用非-特异性裂解的限制性酶。几种研究表明IIS酶特别适用于结构域交换试验，在所述试验中，DNA结合结构域可被取代。因此，可产生新的IIS酶，其中切割结构域与非特异性结合DNA的DNA结合结构域紧密相连。
通过已知IIS酶产生的突出端在-5至+6碱基上有差异。如果需要长为6个碱基以上的突出端，可以适当使用其它系统/策略。一种可能性是使用切口酶(nicking enzyme)，该酶可以在dsDNA中在其自身结合位点的外部产生切口。这种切口酶的两个结合位点的内部距离超过6个碱基对，并且位于双螺旋的两侧，它们应该产生长为6个碱基对以上的突出端。除了现存的切口酶外，还可以例如通过突变IP和IIS限制性酶来产生新的切口酶。
作为另一种片段化的方法，也可以选择以下策略，其中借助于PCR或类似的方法产生靶序列的片段。例如，可以由靶DNA上的已知序列开始，然后在聚合酶延伸中将该区域用作引物的模板。如果使用在任意位点终止聚合酶延伸反应的方法，可以产生DNA序列梯，其中有很多不同长度的DNA分子，但它们都具有一个共同的末端。或者，可使用短的随机化引物，从而由靶序列产生所有可能的片段组合。然而，使用聚合酶延伸时的限制因素是多种聚合酶的延伸长度。
也可使放大技术与本文所述的分选和转变技术相结合。例如，当与单链靶结合时，可将衔接子用作引物。聚合酶反应可进一步提供确定衔接子和靶序列之间是否存在互补性的工具。
在本发明的一个优选实施方案中，靶分子固定于固体支持物上。可以用多种不同的方法达到此目的。可设计靶分子，使其与一种或多种能使所述分子与固体支持物结合的组分结合，例如，可由结合对的一个配对物提供末端(或几个内部位点)，例如，用生物素提供末端，所述生物素然后可结合到携有-链霉亲和素的固体支持物上。
可使用多种已知的方法对靶分子进行改造以使其携有这种结合组分。例如，可通过使用经适当标记的引物进行PCR反应以导入结合组分(例见实施例17)。或者，使靶核酸与结合组分连接，例如通过用限制性酶裂解靶核酸分子，然后将其连接至衔接子/接头，所述衔接子/接头的末端已被结合组分标记。如果使用的是能形成非-回文突出端的IIS限制性酶，这种策略特别合适。另一种方法是将靶分子克隆至载体，所述载体已携有结合组分，或者含有便于导入这种组分的序列。也可类似地使用这种方法导入位置标志，详见下文。
或者，在核酸分子自身是结合对的一个配对物的情况下，核酸分子可与固体支持物结合，而不必与结合组分结合。因此，例如，可使用与固体支持物结合的短PNA分子。PNA分子能杂交和结合双链DNA，因此，可用此策略使未溶解的核酸物质与固体支持物结合。类似地，可使用寡核苷酸探针将互补序列结合至固体支持物上。按下文所述，也可使用这种技术，通过将特定的核酸分子结合到固体支持物上的特定位置来开始测序。
适于用作结合靶分子的固定化组分的适当固体支持物是本领域众所周知的，并且在文献中有广泛的描述，一般说来，固体支持物可以是目前在化学或生物化学方法中被广泛使用或被建议用于固定化，分离等的，任何众所周知的支持物或基质。因此，例如，固定化的组分可采取以下形式珠，颗粒，片，凝胶，滤纸，膜，微纤维条，试管或平板，纤维或毛细管，它们由例如聚合材料制成，所述聚合材料如琼脂糖，纤维素，藻酸盐，特氟龙，乳胶或聚苯乙烯。一般优选使用颗粒材料，如珠。固定化组分可适当含有磁性颗粒，如超级顺磁颗粒。在另一个优选的实施方案中，使用平板或片以线性排列固定分子。平板也可含有与平板垂直的壁，分子可结合在壁上。
可以直接或间接结合到固体支持物上，所用技术取决于被结合的分子是鉴定靶分子的探针，还是靶分子本身。为了结合靶分子，可方便地使用核酸分子和/或固体支持物上携有的结合组分间接地进行结合。因此，例如，可使用一对亲和结合配对物，例如亲和素，链霉亲和素或生物素，DNA或DNA结合蛋白(如lac I阻抑蛋白或它所结合的lac操纵基因序列)，抗体(可以是单-或多克隆的抗体)，抗体片段或抗体表位或抗体的半抗原。在这些情况下，结合对的一个配对物与固体支持物结合，或者是固体支持物固有的一部分，另一配对物与核酸分子结合，或者是核酸分子固有的一部分。可使用其它直接结合的技术，例如，如果使用滤纸，可通过UV-诱导的交联进行结合。当结合DNA片段时，也可使用DNA天生喜好粘附玻璃的特性。
通过本领域众所周知的方法，可以使适当的功能基团结合到固体支持物上，所述方法包括例如经由羟基，羧基，醛或氨基进行结合，通过处理固体支持物以提供适当的表层包被即可提供这些基团。通过连接可使适当的功能基团与本发明的核酸分子结合，或者可在合成或扩增的过程中导入所述结合，例如可使用携有适当组分，如生物素或特定捕获序列的引物。
如本文所述，靶分子可以方便地与结合于固体支持物上的互补探针结合。
在使用多个不连续互补探针的技术中，与这些不同探针结合的固体支持物可以方便地物理相连，但必须分别检测由靶分子与每个探针的结合所产生的信号。因此，例如，具有多个孔的平板可用作固体支持物，其中在不同的孔中放置不同的探针，或者固体支持物区域可含有不同的地址，例如不同的探针可与滤纸上的不连续位点结合。
可以在产生核酸分子片段之前或之后与固体支持物结合。例如，携有结合组分的靶核酸分子可以与固体支持物结合，然后，用DNA酶I或其类似物处理所述核酸分子。或者进行裂解，然后使片段与支持物结合。
在很多情况下，目的是测序存在于其它序列内部，或与其它序列共存的一个或几个序列。例如，据认为仅有5-10％的人类基因组序列具有直接的生物学意义。因此，为了大规模地筛选人类基因组，能避免测序没什么生物学意义的区域将是有用的。
因此，可以使用的一个策略是将与待分离的靶序列互补的多核苷酸固定于固体支持物(孔的内壁，单个-分散的球体，微列阵等)上。通过使序列库中的多核苷酸与固体支持物上的聚合物杂交，洗去不合乎需要的多核苷酸，然后进入测序阶段。必要时，通过进行几轮杂交和洗涤循环，可以增加特异性。即使对于各个应用是有利的，也不依赖于互补的多核苷酸是否以规则的模式被固定。基于连接，PNA杂交等的类似策略也是可以的。
例如，为了分离特异性的mRNA/cDNA分子，可将互补的cDNA/mRNA分子固定于顺磁球等。然后在试管中将顺磁球与含有靶序列的溶液混合。当mRNA/cDNA分子已与固定于球上的mRNA/cDNA杂交时，在用磁铁或类似物将顺磁球保留在试管中的同时，洗去不合乎需要的分子。然后通过增加温度，改变pH，或通过使用另一种能溶解杂交分子的方法，释放合乎需要的靶分子。
可用于在阅读平板上进行测序方案的类似策略是将特定的靶序列固定于确定的地址上。例如，单链靶DNA可与固定于不同地址的引物杂交。必要时，可将引物用作聚合物延伸的模板。通过调整针对靶序列的引物，而将其定位于合适的地址。
相应的策略是将PNA分子固定于不同的地址。已知PNA分子能识别dsDNA中的特定序列，因此，该策略可用于通过使用PNA分子来确定dsDNA的地址，所述PNA分子能识别人们想固定的序列。
如上所述，可将被测序的分子分成两类。即具有一个共同的末端和一个任意末端的分子和具有两个任意末端的分子。可以用不同的方法由这些不同类型的分子得到位置信息。
如果所有的靶分子都具有共同的末端，每个靶分子的长度将与共同末端相对于其它任意末端的间距成比例。类似地，通过计算共同末端与序列信息位点之间的距离，来确定靶分子特定部分产生的序列信息的位置。当序列信息与靶分子的末端相关时，可以方便地由整个分子的长度/大小测定其位置。
如果核酸片段不是由共同的末端开始的，可以用不同的方法得到位置信息。一种方法是产生或鉴定序列与序列之间各不相同的特征性指纹。因此，通过登记与其相关的是何种指纹，和它在指纹中所处的位置如何，即可得到序列片段的位置。可以考虑使用很多种技术来产生特征性模式。例如，可借助于“光学作图”或类似的方法登记DNA序列中的限制性酶裂解模式。
已知的“光学作图”方法的一个缺点是所用限制性酶的切割位点不是总能切割。类似地，也会发生不正确的裂解，有一些与DNA片段的长度测定相关的不确定性。因此，必须基于对很多相同DNA分子的分析，产生每个部分图的平均图。问题是很难知道何种DNA分子是相同的。
现行的光学作图方法的另一个问题是为了观察DNA片段的内部放置情况，必须在DNA分子已经展开之后才能用限制性酶等进行处理。这会降低DNA分子作为酶促制品的可利用性。除了位置放置外，还提供了末端测序的本发明克服了这些问题，例见实施例23描述的技术。
也可以使用能产生特征性模式的荧光探针/标记。这是所谓“DIRVISH”技术的原理。类似的策略是使用原子力显微术(AFM)，微米-/纳米孔，或其它登记以特征性模式结合的蛋白质的大小和位置的方法。
也可使用上文所讨论的细胞衔接子。例如，如果将经放大的靶DNA转化/转染至细胞中，可以趁机利用以下事实，即报道基因的转录频率随着与顺式-调节元件的距离而变化。如果在一个末端具有增强子，在其它末端具有一种或多种由报道基因组成的放大标记物，可使用报道蛋白的相对量计算位置值。
也可以使用可用于得到位置值的元件标记或掺入靶序列。例如，如果难以区分两个很类似的序列的指纹，这种策略将是有利的。例如，如果希望测序姐妹染色体，可以整合大量能被任意整合的插入元件(转座子等)。然后，如果扩增染色体并使用插入元件作为位置标志，每个姐妹染色体将有一种或几种特征性模式。
另一种可以使用的，能导入位置标志并能鉴定该位点的序列的策略包括使用衔接子作为PCR反应的引物。每个PCR反应的结果是产生两个相连的衔接子，其中两个衔接子之间的距离对应于靶DNA上衔接子序列的距离，同时还提供了位置信息。
靶分子的序列可提供能产生无需修饰的位置标志的必需工具。例如，如果一些序列信息是已知的，可使用探针与随后可提供位置标志的序列杂交。或者，将适当的位置标志置于靶分子中，例如将不同的位置标志以规则的间隔置于基因组中。为了区分不同的位置标志，可通过那些标志提供不同的信号，例如，它们具有可以探查到的不同的序列或长度。实施例21描述了一种使用位置标志的方法。
因此，从优选的方面看，本发明提供了完整地或部分地测序核酸分子的方法，所述方法至少包括下列步骤a)测定所述核酸分子的一部分的序列；b)参照位置指示物，优选位置标志测定所述部分在所述核酸分子中的位置；和c)组合步骤a)和b)中得到的信息以获得所述分子的序列。
如上所述，优选测定多个序列及其位置。
如本文所述，位置指示物可以如上所述是分子的大小，所产生信号的强度，或与位置标志，锚或指纹的距离。
以下将描述进行这些方法的多种不同技术以阐明本发明。
原则上，可使用能测定聚合物大小的每一种方法。然而，待鉴定的序列片段的长度必须根据大小测定的精确度进行调节，精确度越低，所需序列片段的长度越长。
本领域存在多种用于大小分选的方法；凝胶分选，微-毛细管分选，测定在阅读平板上展开的聚合物的长度，(借助于流式细胞计量仪，荧光显微镜等)测定未经特异性标记的聚合物的荧光强度(或其它)，质谱术，聚合物封闭微米或纳米孔所用的时间等。可以在读出信号之前或之后进行这些方法以测定序列，例如当使用凝胶电泳时，可对凝胶上分离的样品或从凝胶中洗脱的样品进行信号读数。
也可根据以下原理测定核酸分子的长度，即DNA分子被(DNA酶I，超声等)裂解的机会与DNA分子的长度成比例。例如，在具有有限量DNA酶I的溶液中，200个碱基对的DNA分子被切割的次数是100个碱基对的DNA分子的2倍。通过例如末端标记不同的分子，使它们被裂解，然后监测经单次和双次标记的分子相对于经类似标记的已知长度的标准物而言的量，即可达到上述目的。
为了测定DNA分子的长度或者离固定点的距离，可以方便地延伸或展开DNA分子。一种展开DNA分子的方法是使它们与大大过量的小玻璃珠(它们天生能结合DNA分子)混合，以使它们以1∶1的比例结合DNA分子。在液流中，DNA分子具有的阻力小于玻璃珠，使得它们倾向于互相分开，直至DNA分子伸展开来。如果液流较强，或者玻璃珠较大，使得DNA分子和玻璃珠之间的阻力差异较大，DNA分子会撕裂。然而，通过降低流动速度或通过使用较小的玻璃珠，就可以避免这一问题。如果DNA分子被规则地排布，使得每个单位面积的序列信息的量增加，该方法会特别有效。一个方法是用生物素标记DNA分子，然后将它们固定于具有规则链霉亲和素模式的平板上。或者，使用激光束，即所谓的激光捕捉进行固定。
除了使用液流来展开DNA分子，还可以使用能将带负电的DNA分子拉向一个方向的正电荷。通过使用此策略可能会增加阅读效力。原则上，最容易的方法是将正或负点电荷置于阅读平板的前方。根据Coulomb规则，DNA分子上电荷的力与距离成反比。与较下方的那些相比，离电荷最近的DNA分子将以较大的力被展开。对所有DNA分子而言，为了在读数时受到同等影响，因此必需与读数单元步调一致地移动点电荷。也可将点电荷置于阅读平板下方较远处，以使平板上力的差异降低。另一种可替代的方法是以弧形排布电荷，使得弧中心直线内的力矢量同样大。然后，仅当旁路(sideway)移动读数单元时才需要移动电荷。
或者，为了降低分子锚上的力，可使用另一种技术。可将两个带电的平板置于阅读平板的下方，靶分子在所述阅读平板上展开。上方(top)的平板具有弱负电荷，而下方(bottom)的平板具有相对较强的正电荷。如果刚好将带负电的颗粒(如DNA)置于带负电平板的上方，其产生的斥力将大于带正电平板产生的吸引力。然后颗粒会受到向上的推力。然而，远离平板的现象将会被逆转。带正电平板的吸引力大于带负电平板的斥力。通过调整平板的电荷，在阅读平板上方的给定高度，斥力和吸引力之间达到平衡。靶分子将会被推进该平衡平面。在此方法中，只要DNA分子位于平衡平面内，该DNA分子上的净力就等于零。这会减少裂开的机会。
除了两个带电的平板外，也可以在阅读平板的左边使用正电荷，这会在此方向上产生净力。通过使两个带电的平板相互倾斜，并且相对于阅读平板倾斜，就可以做到这一点。
如果在通过流式细胞仪或类似的装置展开靶分子的同时移动该靶分子，可使用带负电的试管。通过使用这种技术，靶分子会朝着试管的中间被推进，此位置处的斥力最弱。
另一种可替代的展开技术由机械展开提供。例如，在此方法中，可使用两个相邻的平板，所述平板结合了与靶分子的任一末端互补的寡核苷酸。一旦靶分子与这些探针杂交，可使平板分开直至分子在它们之间被展开。
可以根据所产生的信号和获得位置信息的方式，用多种方法读出上述方法中产生的信号。例如，为了定位与靶DNA结合的荧光DNA探针，可按上文所述展开DNA。例如，可使用Weier等(人类分子遗传学，1995，Vo1.4(10)，p1903-1910)开发的，已知为分子梳的方法。在此方法中，将含靶DNA的溶液置于平的玻璃表面，所述玻璃被制备成能使DNA分子以一个末端与玻璃平板结合。然后通过使用液流展开DNA分子。然后，借助于荧光显微镜，可以观察到与展开的DNA分子结合的探针的相对位置。
在本发明中，通过例如使用4个经不同荧光团标记的探针和身为一段独特的DNA序列的放大标记物，探针可以对准所述标记物，使得它们能与代表A，C，G和T的4种放大标记物杂交，即，使用上文所述的DIRVISH技术。然后可以用荧光显微镜直接读出序列的顺序。如上所述，根据放大标记物的构建方式，可以使用更多或较少种探针，例如，可使用单个探针，其中所述探针与每种放大标记物的结合均产生一个独特的信号，例如产生二进制密码。或者，可使用4种以上的探针，其中放大标记物对应于2个或多个碱基。通过开发导致显微镜扫描玻璃平板的软件，而同时自动分析序列顺序，可以很快速地读出碱基对。
另一种可替代的快速读数的方法是可使用流式细胞仪读出荧光探针。这样做的前提条件是DNA分子以展开的方式通过流式细胞仪的读数单元，使得代表A，C，G和T的放大标记物依次通过。通过使用上文所述的技术可以做到这一点。或者，针对这一特定的实施方案而言，可使用电场或磁场来替代液流，从而推动颗粒通过荧光检测器。通过利用以下事实可以做到这一点，即玻璃珠带正电，而DNA分子带负电，或者可以使用超级顺磁珠来替代玻璃。然后，珠会将DNA分子推到它们的后面，象长绳一样排列。
该策略中一项严格的参数是流式细胞仪的荧光检测下限。几个研究小组试图通过降低流速来检测各个荧光团分子。然而，使用分析速度为20-30,000个颗粒/秒的常规流式细胞仪时，必须使用较长的探针，以使每个探针上固定有很多荧光团。
目前最快速的流式细胞仪每秒能分析约200,000个荧光颗粒，但这些流式细胞仪是买不到的。另外，仍不能确定展开形式的DNA分子在断裂之前的高速耐受性如何。然而，实际上可以假定DNA分子会耐受能够极快读数的速度。
另一种可替代的方法是以规则的方式将DNA分子固定于固体支持物，如包被有链霉亲和素的平板。通过将小检测器插入阅读平板来读出序列(由一系列放大标记物产生的信号)。这些检测器可由例如固定在片段上的放大标记物上的报道分子灭活或激活，例如可通过与固体支持物上的传感器结合以断开或接通电路，从而灭活或激活检测器。例如，报道分子和阅读平板上的组件之间可形成强键。在后一种情况下，组件的形状使得如果DNA分子离开阅读平板，组件也可以从阅读平板上松开。当组件松开时，它们以登记何种组件已从阅读平板上消失的方式断开电路。为了增加成功结合的机会，可以在片段上的相同位置固定几个报道分子。可以使用4种各针对碱基A，C，G和T的不同的报道分子，或者使用位于片段上的4个不同位置处的相同报道分子。使用多路平行传输的计算机输入信号和其它现代电子学，据信每秒可以登记几百万个信号，从而可以快速测序。
在优选的实施方案中，这些方法可以适当地与本文所述的放大技术联合使用，即通过一个或多个放大标记物，优选放大标记物链的存在来测定所述靶核酸分子的一部分的序列。然而，当不进行放大时，也可以使用这些方法。为了替代对DNA分子放大，可以结合使用传感器能登记的，与碱基的不同结合。
一旦已积累了信号信息，可使用计算机程序将序列片段装配成最终的序列。此步骤中出现错误的可能性主要取决于5个参数被测序的DNA分子的长度，DNA序列的碱基对组成是如何随机化的，被读信号的DNA片段的长度，被读信号的DNA片段的数目，和测序反应的错误率。
发明人已编制了计算机程序，用于分析上述参数的重要性。根据已被测序的人类基因组DNA，分析表明如果DNA片段长度为30个片段，要读出6×108个DNA片段，测序反应的错误率为10％(考虑到点突变)的话，可在单次测序反应中读出人类基因组，并且具有很少的点突变/缺失。然而，一个例外是十分非-随机化的区域(卫星DNA和其它重复区域)，必须增加所述区域的DNA片段长度。然而，相对于编码序列和顺式-调节元件而言，这些区域的生物信息显得不太重要。
数据分析还表明当多次读取DNA片段时，可以补偿测序反应中甚至很高的错误率。例如，通过10次读取相当于序列长度的碱基对数目，会消除大多数缺失和点突变，甚至可消除测序反应中的高错误率。
根据测序所用的技术，在确定的情况下，可以在异源样品上进行测序，例如，进行平行测序。进行这种测序的方法构成了本发明的优选方面。这种技术需要能区分不同靶分子发出的信号。通过多种方法可以达到此目的，例如通过限制到特定的位置，包含，或鉴定能指示特定靶分子的标志等。例如，可使用与靶核酸分子的区域互补的固体支持物来分离和保留特定的分子。通过以下方法可以做到这一点，即可以借助于对序列的至少一部分的知识，即将特定的分子结合到特定的位点上，或者不使用该知识，而使用基本上随机的结合探针，所述探针上会结合不同的分子，然后可以通过利用使序列与该分子相关联的一种或多种技术，例如通过地址或位置标志来平行测序所述分子。本文所述的技术特别有用，因为它们可以使各个分子能被测序，因此进一步有助于平行测序反应的方便进行。
可使用本文所述的多种技术测序靶分子的仅仅一部分，或者绘制指纹，进行分布图分析或作图，即鉴定分子的不连续部分和不同的部分，例如分析RNA表达(可首先将RNA转变为cDNA以供分析)。例如，如实施例23所述，可用限制性酶消化靶样品，所述酶可产生特定的突出端，该突出端可结合放大标记物(优选结合放大标记物链)。除了携有序列相关信息外，该标记物另外还携有与导致裂解的酶的相关信息，即作为由裂解产生的片段的标志。可同时使用一种以上限制性酶，条件是这些酶能产生不同长度的突出端，所述突出端能结合不同的衔接子。或者，可以连续的循环使用不同的限制性酶。
然后，可利用例如与互补突出端结合的扩增标记物，例如利用反映该互补性的标记物，例如其中标记物本身由核苷酸碱基组成，来排列所得的片段。如实施例23所述，由此可建立限制性图谱。因此，另一方面，本发明提供了产生靶序列图谱的方法，所述方法包括除了按本文所述得到所述序列的不连续部分的位置信息外，还应按本文所述得到所述部分的序列信息。
在优选的特征中，通过得到所述序列的不连续部分的序列信息来产生所述图谱，其中所述部分含有一种或多种核酸酶的所有或部分裂解位点，和/或所述核酸酶的所有或部分限制性位点，通过比较用所述核酸酶消化之后，所述靶核酸分子片段的末端序列来测定所述序列的位置。
优选按以下方法获得序列信息，即按本文所述通过用一种或多种核酸酶裂解所述靶分子，优选产生互补的单链区域，使衔接分子与所述靶分子区域(优选位于，或邻接于裂解位点)结合，其中所述衔接分子携有一种或多种如本文所述的放大标记物，其中所述标记物含有能产生信号的组分，该组分对应于与所述衔接分子结合的所述区域的一个或多个碱基，所述标记物另外还含有另一个能产生信号的组分，该组分对应于裂解所用的核酸酶。在使用足够的核酸酶的情况下，可使用该方法作为测序方法。
例如，可按下列方法鉴定细菌。可裂解细菌，分离DNA。然后用II类限制性内切核酸酶或本文所述的其它诸如此类的核酸酶切割DNA分子。然后使DNA分子与衔接子结合以鉴定突出端。然后将DNA分子固定于阅读平板上并展开。通过用荧光扫描仪扫描阅读平板，可得到所述分子末端的限制性长度的信息或特征性模式。涉及这种放大的技术可以利用其末端序列区分相同大小的分子。因此，在本发明的另一个特征中，本发明提供了得到靶DNA分子的指纹的方法，所述方法包括除了按本文所述得到位置信息外，还使用本文所述的一种或多种测序技术。
在本发明优选的特征中，通过参照所述靶分子的特征性限制图谱得到位置信息。另一个优选的特征包括使用限制性作图来鉴定一种或多种放大标记物，并使用能被流式细胞仪或纳米/微米孔分析有效读出的标记物。
使用本专利申请中介绍的原理和方法，通过在测序/分选反应中和读信号时使用校对技术，可以降低错误率。
如果使用了分选，可以将相同的序列片段分选几次。例如，将所有以AAAA开始的靶DNA分选至孔1。然后重复相同的方案，其中洗去了不是以AAAA结束的被错误分选的DNA分子。理论上，可以重复该方案直至得到合乎需要的错误百分比。
如果使用了放大/转变，可以将靶分子上相同的序列片段转变几次，以得到重复的放大标记物链(信号链)。当重复的转变产物不相象时，即可发现大多数的错误转变。也可以用相同的方式拷贝被用于得到位置信息的靶分子部分。
另外，由于被分析的靶分子的数目可能极大，每个序列片段可以被读很多次。
进行本文所述的测序或放大方法的试剂盒形成本发明的优选方面。因此，从另一方面看，本发明提供了放大靶核酸分子的一个或多个碱基的试剂盒，所述试剂盒包括如上文所述的至少一个或多个衔接子，所述衔接子任选与一个或多个固体支持物结合，优选含有一种或多种放大标记物，所述标记物自身含有能产生信号的工具。
任选试剂盒可含有其它适当的成分，所述成分选自反应中使用的限制性酶，连接靶分子的载体，连接酶，灭活和激活限制位点或连接位点所必需的酶，扩增引物和/或适当的酶，缓冲液和溶液。进行本文所述测序反应的其它方面的试剂盒也包括在本发明的范围内。因此，例如，进行分选反应的试剂盒可至少包括携有一种或多种互补探针的固体支持物，所述探针优选一系列与该固体支持物，或另一固体支持物上不同地址的探针彼此错配一个或多个碱基的不连续探针。所述试剂盒中也可包括适当的标记工具。
使用这种试剂盒放大靶核酸分子或者进行测序形成了本发明的其它方面。
以下仅利用阐明的方式给出实施例，其中

如下图1显示了使用两种限制性酶，杂交和连接将放大标记物导入靶序列的方法；图2显示了使用携有2个限制性位点的载体和也含有所述限制性位点的衔接子将放大标记物导入靶序列的方法，其中所述限制性位点都能产生突出端；图2A显示了包括靶DNA的基础载体，图2B显示了可以使用的衔接子，图2C显示了4个用于放大每个碱基的酶促步骤；图3显示了具有校对机制的，每轮循环测序9个碱基的方法，图3A显示了可以使用的衔接子，图3B显示了用于放大每个碱基的酶促步骤；图4显示了包括补足限制性位点以鉴定靶分子的末端碱基的测序方法，其中A)显示了可用于此方法的衔接子，B)显示了含有该限制性位点的一部分的接头分子，C)显示了与靶DNA结合以补足限制性位点的接头分子；图5显示了使用与杂交和连接相结合的Klenow补平反应的测序方法，其中A)显示了其中已连接靶分子的基础载体；B)显示了循环1，3，5等所用的衔接子的结构；C)显示了取决于是否已产生大小相当的突出端的不成功和成功的连接；图6显示了使用衔接子的测序方法，所述衔接子当与单链靶分子结合时可用作引物，其中A)显示了可用作引物以结合靶分子的衔接子，B)显示了与靶分子结合的衔接子；图7显示了相邻排列的衔接子，所述衔接子携有放大标记物，并能与靶杂交和自我-杂交；图8显示了制备衔接子的方法，所述衔接子含有对应于一个以上碱基的放大标记物；图9显示了基于发夹衔接子的使用的转变方法，其中在靶分子的两端拷贝了放大标记物；图10显示了基于转变的DNA片段之间的相互连接的转变方法；图11显示了双倍增加核酸分子的方法；图12显示了使用基于引物的分选策略进行DNA测序的方法，其中A)阐明了总方案，其中使测序引物与固体支持物结合(步骤1)，所述引物再与靶分子结合(步骤2)，通过聚合酶延伸反应使靶分子延伸(步骤3)，然后结合携有不同信号的引物(步骤4)，使链延伸(步骤5)，然后释放所得延伸产物以进行分选(步骤6)；B)显示了孔1所用的代表性引物，所述引物上结合有不同的信号；C)显示了所得到的16孔中的每一个的荧光信息；图13显示了使用基于杂交的分选策略进行DNA测序的方法和所得到的结果，其中A)显示了经荧光标记的单链靶分子与固体表面多个地址处的八聚体探针的结合，然后所述靶分子被展开；B)显示了扫描表面的一个切面，其阐明了荧光信号对应于每个地址处的不同长度而进行的直线分布方式；C)显示了一个地址上的荧光强度；图14显示了DNA测序方法，其中靶DNA分子与固定的参照点结合，其中A)显示了由PNA组成的转变衔接子，和具有相应组成的放大标记物链(在本文中被鉴定为信号链)；B)阐明了靶DNA与固体支持物的结合，与PNA衔接子的结合和展开；C)显示了分子展开之后，扫描表面的外观；
图15显示了进行纳米孔测序之前的二进制末端转变方法，其中显示了产生含有转变衔接子的靶分子的方法，还显示了所得的由位置和序列信息以及方向标记组成的信号。
图16显示了如何使用细胞来产生能反映碱基序列的信号，其中A)显示了如何在靶分子中添加增强子，随后，与引物结合，所述引物携有报道基因形式的放大标记物；和B)显示了阐明信号分布的直方图；图17显示了通过产生测序梯进行测序的方法，所述测序梯各相差3个经放大的碱基，其中结合的靶分子被非-特异性地裂解，并与衔接子结合，使所述衔接子裂解，产生可结合放大标记物的突出端；图18显示了通过沿着DNA分子的长度产生固定点来进行测序的方法，所述DNA分子与固体支持物结合，片段化DNA的末端被放大；图19显示了使一行放大标记物依次附着于固体支持物的测序方法，其中使用了含有DNA接头的衔接子，所述接头隔开被测序的DNA发出的信号，可除去所述衔接子以接近在下一轮循环中被测序的分子；图20显示了在含有待测序片段的分子中导入位置标志的方法，所述测序借助于衔接子来进行；图21显示了分选方法，其中靶分子与固体支持物上存在的衔接子结合，然后使该分子的末端与所述固体支持物结合，释放另一末端以转变相邻的DNA链。(4)显示了展开后所得的DNA。
图22显示了作图法所用靶分子的制备方法，其中使用了几种限制性酶，所述限制性酶能产生长度和方向(3’或5’突出端)都不同的突出端，然后，所述突出端可与放大标记物链连接；图23显示了放大的一般原理，其中通过与放大标记物链的连接反应来放大靶DNA分子的4个最靠外的碱基。可使用靶DNA分子未被放大的部分得到位置信息，如图所示，在这种情况下，可通过用基于光学作图的策略读信号来实现此目的；图24显示了本文所述的在微列阵上进行的分选方法，其中将靶DNA中的4碱基突出端与具有256个地址的微列阵混合并连接。地址1含有AAAA突出端，因此与具有TTTT突出端的靶分子结合；和图25显示了如何使用信号链得到序列信息(左边)和位置信息(右边)的例子，其中A)显示了基于DIRVISH的方法，该方法使用了经荧光标记的探针，所述探针能以特征性模式与靶分子结合，B)显示了基于光学作图的方法，其中使用限制性模式给出序列的位置，C)显示了登记DNA结合蛋白穿过微米/纳米孔时的特征性模式的方法，和D)显示了使用经荧光标记的探针，蛋白质等的方法，当所述探针，蛋白质等穿过荧光检测器时即被登记。
实施例1通过使用两种限制性酶导入放大标记物进行测序，其中的一种酶产生突出端，另一种酶产生平端方法1.以非特异性的方式切割/裂解由待测序的DNA序列组成的纯DNA群体，以形成由原始序列的片段(下文称之为DNA片段)组成的DNA分子群体。
2.用各代表4种碱基，腺嘌呤，胞嘧啶，鸟嘌呤和胸腺嘧啶的4种不同的DNA序列(下文称之为对应于放大标记物的DNA片段)替代DNA片段中的碱基对。因此，在有A-T碱基对的地方插入“片段A”，用“片段C”替代C-G等。从而产生新的DNA分子，其中如ACGTT的原始碱基次序被片段A-片段C-片段G等替代。理论上，根据需要，这4种DNA片段的长度可以有2个碱基对至几百个kbp(或必要时可以更多)的差异。相应地，DNA片段可含有报道基因和其它生物信息，或仅由不具有已知生物学功能的序列组成。
3.读出针对各个DNA分子的4种类型DNA片段的顺序，从而测定出原始DNA片段的碱基顺序。
4.计算机程序利用DNA片段之间的重叠将步骤3得到的，在起点使用的DNA序列的信息汇总在一起。
图1阐明了进行步骤2的一种方法，所述方法基于限制性酶，该酶在自身DNA结合位点的外部进行切割。按下述进行所述方法1)将步骤1得到的DNA片段连接至质粒中，所述质粒具有能产生平端切口的限制性酶(Enz1)的结合位点，以及能在其自身DNA结合位点的外部切割并产生1个碱基对突出端的限制性酶(Enz2)的结合位点。另外，可在质粒中掺入生物素碱基，使其能附着经链霉亲和素处理的试管，反应就在此试管中进行。
2)洗涤试管，加入含有Enz1和Enz2的新的反应混合物并保温，从而形成一个平端和一个末端，在该末端中，DNA片段的第一个碱基构成突出端。
3)再次洗涤试管，加入含有4种不同DNA片段以及热稳定性DNA连接酶(如Pfu或Taq DNA连接酶)的反应混合物并保温。热稳定性DNA连接酶的优点是它们能非常特异性地连接，而同时它们不连接平端。因此，当存在腺嘌呤突出端时，就会连接“片段A”，当存在胞嘧啶突出端时，就会连接“片段C”等。
4)再次洗涤试管，加入含有T4连接酶的反应混合物并保温，从而连接平端。由于插入的片段与最初的质粒一样，也具有Enz1和Enz2的位点，我们回到起点，以使下一个碱基被新一轮循环中的DNA片段所替代。实施例2通过使用两种限制性酶导入放大标记物进行测序，这两种酶都产生突出端该方法的起点是用BspMI-甲基化酶处理待转变的所有靶DNA片段，使得所有BspMI位点被灭活。然后如图2a所述，将它们连接至基础载体中，图中表明，基础载体中连接有DNA片段，并被固定于链霉亲和素底物上。基础载体含有BspMI位点，所述位点可用于裂解用实心线表示的DNA片段。此实施例中产生的突出端的内部具有“T”，使得仅有A衔接子能与该突出端连接。在衔接子A已与用BspMI产生的突出端连接之后，使用AatII位点环化基础载体。基础载体也含有经生物素标记的碱基，使得它们能被固定于覆盖有链霉亲和素的底物上。
图2b显示了所用的衔接子。衔接子A1(上方)和A2(下方)的唯一区别是AatII位点/突出端的位置被PstI位点/突出端取代。可在每两轮循环中依次使用A1和A2衔接子，使得在第1，3，5等轮循环中使用A1，而在第2，4，6等轮循环中使用A2。5’突出端沿着5’方向由3个通用的核苷酸加上腺嘌呤组成。因此，这些突出端将与在突出端的内部(沿着3’方向)具有胸腺嘧啶的其它5’突出端连接。下方衔接子的5’突出端外部的黑粗线表示在衔接子已与DNA片段连接之后，可通过BspMI裂解产生的突出端。除了A衔接子外，必须制备C，G和T的衔接子。
当DNA片段已连接到基础载体中，可将它们固定于链霉亲和素底物，如顺磁球上。通过使用Dynabead的千碱基BINDER试剂盒，可得到很强的生物素-链霉亲和素结合，使得反应溶液能被快速而有效地改变，甚至在很多轮循环中，都只有最少的DNA损失(分子生物学中的生物磁技术，第3版，p158-60，由Dynal AS发行)。该方法的其余部分包含4步酶促反应的一个循环，其中每轮循环转变一个碱基(图2C)。
在此方法中，通过用BspMI切割启动循环，使得DNA片段的第一个碱基位于5’突出端的内部。在这种情况下，该碱基是胸腺嘧啶。随后，加入大大过量的衔接子A1，C1，G1和T1。这些衔接子被设计成衔接子A1与在内部具有胸腺嘧啶的突出端连接，C1与在内部具有鸟嘌呤的突出端连接等。还用磷酸酶(例如碱性磷酸酶，如牛小肠AP，Promega)处理衔接子，使得衔接子之间不能连接。通过使用热稳定性的连接酶，在此步骤中得到高特异性。在第三步中，用AatII进行裂解，从而产生突出端，在最后的步骤中，所述突出端可用于环化载体。这样就完成了方案，我们又回到起点。仅有的区别是BspMI位点的位置前进了1个碱基对，从而产生突出端，其中DNA片段的第二个碱基位于内部。也用PstI位点替代AatII位点，使得在下一轮循环中，必须使用具有PstI突出端的衔接子。(每隔2次依次使用AatII/PstI衔接子的原因是为了防止衔接子在载体被环化之前再次被切下来。)实施例3通过使用两种限制性酶导入放大标记物以进行测序，所述酶能在靶DNA的相邻区域产生突出端以便校对此变体方法的起点是具有4碱基突出端的所有组合的256个衔接子，和具有5碱基突出端的所有组合的1024个衔接子(图3A)。在上面的衔接子类型中，必须产生1024个变体，而下面的衔接子类型必须产生256个变体。片段的相对大小大于图中所示的大小。应指出的是两种衔接子都具有PstI突出端，这样可以使它们互相连接。然而，应该用磷酸酶处理突出端以使衔接子之间直到被激酶处理之后才会发生连接。
与第一个变体方法中所用的基础载体(图2)相比，在本方法的基础载体中，BspMI和PstI位点被HgaI和SfaNI位点所取代。
该方法的其余部分包括4个酶促反应的一个循环，其中每轮循环转变9个碱基(图3B)。在转变结束时，载体被环化，使反应重又回到起点。仅有的区别是HgaI和SfaNI位点往DNA片段内部又前进了4个碱基对。因此，在下一轮循环中，产生了4个新的碱基对，同时，在此循环中，还转变了5个碱基对。通过证实在两轮循环中以相同的方式转变了后面提到的4个碱基对，可以检查是否出现一个或几个不正确的转变。
方法1)用DNA酶I或其类似物使靶DNA分子片段化，以形成几百个碱基对的片段。处理这些片段以甲基化HgaI和SfaNI位点。然后将片段连接至与顺磁珠结合的基础载体。
2)进行HgaI裂解。
3)进行SfaNI裂解。
4)用HgaI和SfaNI甲基化酶或其它能灭活HgaI和SfaNI位点的甲基化酶进行甲基化。
5)加入大大过量的衔接子，并使用例如Pfu或Taq与步骤2)和3)中由HgaI和SfaNI形成的突出端连接。在此步骤中，PstI突出端不会被连接，因为它们已被磷酸酶处理过。
6)使衔接子的PstI突出端磷酸化，然后用例如T4 DNA连接酶连接以环化载体。
7)通过由步骤2)重新开始，将循环重复合乎需要的次数。
8)通过用基础载体中侧翼于所连接的靶分子的限制性裂解位点进行裂解，从基础载体上释放经转变的靶分子。必须事先灭活可能出现在放大标记物中的任何切割位点。
9)使经转变的DNA分子变成单链，并与荧光探针杂交。
10)将经转变的DNA分子锚着于扫描表面，展开，用荧光扫描仪或类似的仪器(例如使用DIRVISH)扫描荧光探针。
11)使用适当的软件进行图像识别并重构靶序列。
实施上述方案的一种方法如下，其中计算了除珠体积以外的所有体积1)按上文所述将随机的片段克隆至基础载体中，所述载体结合于顺磁珠上。
2)使用磁力使珠沉降下来，用大约100μl 1×NE缓冲液1洗涤试管。
3)加入10μl 10×NE缓冲液1，4个单位HgaI/μg DNA和水，至终体积为100μl。置于37℃保温1小时。
4)于65℃将HgaI酶灭活20分钟。
5)使用磁力使殊沉降下来，用1×NE缓冲液3洗涤试管。
6)加入10μl 10×NE缓冲液3，2个单位SfaNI/μg DNA和水，至终体积为100ul。置于37℃保温1小时。
7)使SfaNI和HgaI位点甲基化。
8)使用磁力使珠沉降下来，用1×连接酶缓冲液洗涤试管。
9)加入含有转变衔接子的溶液。靶DNA分子和转变衔接子的比例为1∶50。加入100μl 10×连接酶缓冲液，10μl T4 DNA连接酶(400U/μl，NEB#202)和水，至终体积为1ml。置于16℃保温12-16个小时。
10)使用磁力使珠沉降下来，用1×激酶缓冲液洗涤试管。
11)加入2μl 10mM rATP，10μl 10×激酶缓冲液，2μl T4多核苷酸激酶(30U/μl)和水，至终体积为100μl。置于37℃保温10至30分钟。(T4多核苷酸激酶(70031)得自美国Biochemicals公司。)12)使用磁力使珠沉降下来，用1×连接酶缓冲液洗涤试管。
13)加入100μl 10×连接酶缓冲液，10μl T4 DNA连接酶(400U/μl，NEB#202)和水，至终体积为1ml。置于16℃保温12-16个小时。
14)将步骤2)-13)重复1次或几次。
例如，如果使用Bensimon的方法(Michalet等，1997，科学，277，p1518-1523)展开DNA分子，每个扫描表面可展开约1百万个500kb的DNA分子。如果每个信号约为5kb，这意味着每个500kb的DNA分子提供了约100个碱基对的序列信息。这意味着一个扫描表面能提供约1亿个碱基对的信息。然而，能否成功重构靶序列取决于序列片段互相重叠，使得很多碱基对不得不至少被扫描两次。实施例4包括补足限制性位点以鉴定靶分子的末端碱基的测序方法该方法基于很多具有DNA代谢活性的酶识别底物时的高特异性。以下将用限制性酶阐明该方法，但也可以使用多种其它DNA代谢酶，如位点特异性限制性酶，转座酶等。对大多数限制性酶而言，突变裂解位点的一个碱基对一般足以防止被酶进一步裂解。在此方法中，靶分子与仅含有限制性位点的一部分的接头连接。当该位点被靶DNA补足时，就可以进行裂解，随后，可结合互补的衔接子，显示出那些完成位点因此表现出特定末端碱基的分子。图4中显示了针对腺嘌呤的此方法。
方法1)用四种不同的标准限制性酶(EnzA，EnzC，EnzG和EnzT)切割待测序的DNA分子。
2)然后将这些分子与4种不同的DNA接头分子(分子A，C，G和T)连接。运些分子中的每一个的末端分别具有几乎完整的EnzA，C，G和T的位点，仅仅缺乏一个碱基对(分别为A，C，G和T)就能获得完整的碱基对。图4B中显示了一个这种接头分子的例子。在此分子中，有一个缺乏A/T碱基对的HindIII位点。如果该接头与不具有A/T碱基对的DNA片段连接，可使用MnII从该DNA片段中除去该分子。图4C显示了接头分子A，该分子的末端与具有A/T碱基对的DNA片段连接，从而产生完整的HindIII位点。在使用HindIII进行切割的下一步中，会产生能与衔接子A连接的HindIII突出端。
3)在溶液中加入4种限制性酶以进行裂解。只有每个接头分子A，C，G和T已与末端具有缺失的碱基对(对分子A，C，G或T而言分别为A，C，G或T)的DNA分子连接时，才是完整的切割位点。
4)加入衔接子，所述衔接子具有与用限制性酶产生的那些突出端互补的突出端，连接衔接子以使衔接子固定在正确的DNA片段上。图4A中显示了适当的衔接子。图上方的衔接子是第1，3，5等轮循环使用的，而下方的衔接子是第2，4，6等轮循环使用的。衔接子具有与用HindIII产生的突出端互补的突出端。使用图上方的衔接子中的AatII突出端将衔接子的另一端连接至基础载体中，以使它能被环化。MnlI位点将在DNA片段上产生平端，以开始新的循环。在下一轮循环中使用PstI位点连接新的衔接子，在该轮循环中使用了具有PstI突出端的衔接子。
5)通过用例如AatII切割，使得衔接子的另一端能与基础载体连接，从而用DNA片段/衔接子环化基础载体。在未产生HindIII位点的情况下，将具有PstI位点的小片段连接至基础载体的AatII突出端。
6)用能在DNA片段上产生新的平端的限制性酶进行裂解，以开始新的循环。实施例5使用与杂交和连接相结合的Klenow补平反应的测序方法该方法基于DNA聚合酶的Klenow部分掺入核苷酸的很高特异性，以及大多数DNA连接酶不能连接不同大小的突出端这一事实。图5显示了该方法，其中在靶分子中制备突出端，该突出端长子衔接分子中的突出端。只有经适当延伸后包括正确的其它碱基以缩短突出端的那些靶分子能与衔接子连接。图5阐明了针对腺嘌呤的方法。
方法1)将DNA片段连接至如图5A所示的基础载体中。除了能将分子固定在链霉亲和素底物(例如Dynal公司的M280覆盖有链霉亲和素的磁球)上的生物素外，基础载体还含有能在多核苷酸内部切割的限制性酶(如HgaI)位点，以及标准的限制性酶(如EcoRI)位点。
2)用HgaI切割载体，从而由多核苷酸形成具有5个碱基对的突出端。
3)然后，加入例如碱基A以及Klenow，使得以“T”开始的突出端被缩短成4个碱基对的突出端。
4)然后用含连接酶和具有4碱基对突出端的基因片段(衔接子)的溶液替代反应溶液。突出端由通用的核苷酸或4碱基对突出端所有可能的组成的组合构成。具有通用核苷酸的突出端能连接所有组合中的4碱基5’突出端。基因片段也含有能在多核苷酸内部切割的限制性酶(如HgaI)位点，标准的限制性酶(如EcoRI)位点，和含有信号“T”的序列(可用作探针等的序列)(图5B)。AatII突出端和PstI位点具有与在EX4.1中相同的功能。由于具有5碱基对突出端的多核苷酸不能与具有4碱基对突出端的基因片段连接，只有那些原先具有一个最靠里面的“T”的多核苷酸才能与基因片段连接。图5C显示了成功和不成功的连接。由于突出端的内部未掺入碱基，图上方的DNA片段不能与衔接子A连接。由于只有内部具有“A”的突出端掺入了一个碱基，因此如图下方所示，只有这些突出端能与衔接子A连接。DNA片段中最上方的线表示将由HgaI切割形成的突出端。然后用碱基C，G并T重复相同的过程。
5)最后，通过用EcoRI切割和连接而用DNA片段/衔接子环化基础载体。
6)然后用HgaI进行裂解，在DNA片段中产生新的突出端，使反应循环重新开始。
当连续的碱基相同时，可使用具有不同大小突出端的衔接子，例如3个碱基的突出端允许Klenow补平2个碱基。实施例6使用衔接子的测序方法，所述衔接子当与单链靶分平结合时可用作引物方法1)图6A中阐明了该方法中所用的衔接子，所述衔接子具有对应于片段组成的突出端。标出了对应于突出端中的碱基组成的片段组成。必须构建对应于所有片段组合的DNA衔接子。
2)将靶DNA片段制成单链片段，借助于RNA连接酶使3’末端连接至衔接子，5’末端连接至引物模板(图6B)。衔接子和DNA片段之间成功连接的先决条件是衔接子的突出端互补DNA片段的5’末端。这样可以确保正确的片段与DNA片段连接。
3)使靶DNA片段与衔接子杂交，然后使分子互相连接。再进行一轮或几轮PCR循环。成功PCR循环的先决条件是ssDNA片段已被杂交并与衔接子连接。
4)使用EcoRI位点环化衔接子和DNA片段之间连接之后产生的DNA分子。然后使用HgaI位点在DNA片段中产生新的切口，从而开始下一轮循环。为了减少用EcoRI切割之后分子之间的连接，可以有利地将分子固定于底物，例如覆盖有链霉亲和素的球上。实施例7使用自我-杂交的衔接平的测序方法该方法的起点是单链DNA或RNA衔接子，所述衔接子能与待测序的DNA分子杂交，而同时携有对应于除了自我-杂交的区域以外它们所杂交的碱基的片段(放大标记物)(图7)。通过使这种衔接子具有所有可能的片段组合，并且通过使它们与待测序的DNA分子杂交，而使多个衔接子一个接一个地排列(见图7)。如果衔接子被正确排列，即前两个衔接子没有错配的话，可以使它们互相连接，以使它们形成较长的链。实施例8构建对应于一个以上碱基的衔接子的方法构建衔接子的一个策略是使用与构建DNA芯片相类似的原理。在该方法中，按照与构建DNA芯片相同的方法，在不同的地址处制备不同的寡核苷酸。然后使用相同的原理，按照与将碱基对固定在不断变长的寡核苷酸上相同的方法，将DNA片段固定在寡核苷酸上。最后，松开DNA分子，得到衔接子溶液。
该实施例还提供了另一种制备衔接子的方法，图8中阐明了该方法。按图8所示，使用8种各具有一个标记物的不同的衔接子制备16种各具有两个标记物的不同的衔接子。由8种其它的1-标记物衔接子开始，可以制备出16种新的两-标记物衔接子，这些新的衔接子反过来与前面16种衔接子组合，可产生256种不同的4-标记物衔接子。通过这种方式，可以产生衔接子混合物，其中只有适合进入溶液的不同分子的数目能限制排列的数目。起初需要的不同的1-标记物衔接子数等于每个衔接子中标记物数的4倍。例如，如果想制备16-标记物的衔接子(4.29×109种排列)，最初需要16×4个不同的1-标记物衔接子。
方法1)如图8所示，使用8种不同的1-标记物衔接子。左边的衔接子由EcoRI突出端，特异于分子中很靠右的碱基的标记物和BseMI切割位点组成。BseMI在其自身位点的外部进行切割，在分子右侧碱基的右边产生平端切口。也用磷酸酶处理衔接子，使得这些衔接子之间的连接减少。右边的衔接子由对应于分子中很靠左的碱基的标记物和EcoRI切割位点组成。也将衔接子固定于底物上，以防止这些衔接子之间的连接。
2)通过混合和连接两个衔接子群体来启动此方法。这会产生16种不同的DNA分子，它们对应于具有2种标记物的所有排列。
3)使用EcoRI进行裂解，然后进行连接以环化所述分子。
4)最后，用BseMI进行裂解，这会产生具有16种不同的2-标记物衔接子的群体。实施例9基于发夹衔接子的转变方法几种前述的转变方法的关键点是碱基对转变之后，DNA片段被转移到正被转变的DNA分子的另一端，这样会释放正被转变的末端，使得下一轮循环得以进行，而同时也节省了DNA片段。下文描述了另一种将多个DNA片段转移至该DNA片段的另一端的策略。
起点是，很多种连接酶，包括T4 DNA连接酶，可使dsDNA上的突出端与ssDNA的末端连接。由图9所示的方法可以实现此目的。
方法1)将靶DNA转变成单链形式。
2)加入转变衔接子并与DNA片段的3’末端连接。
3)进行聚合酶延伸。
4)加入发夹衔接子并连接。事先处理转变衔接子的末端，使得它不能与发夹衔接子连接(例如用磷酸酶处理)。
5)使DNA分子解链。
6)使单链DNA分子与补足这些片段的DNA分子杂交。互补的DNA分子也具有突出端，所述突出端具有能与靶DNA中最前面的碱基杂交的通用碱基。
7)借助于酶的切割位点，准备好DNA供下一轮转变循环使用，所述酶在其自身识别序列的外部形成突出端。
在上述每一轮循环中，每次循环准备两份放大标记物以进行校对。实施例10基于连接转变的DNA分子的转变方法很多前述的转变方法基于在循环过程中发生的转变。因此，每一个放大标记物链(或信号链)上转变碱基对的数目随着循环数目的增加呈线性增加。另一种可替换的策略是将转变的DNA片段连接至长链。根据此原理，有很多种可能的方法，下文将建议一种方法，该方法示于图10方法该方法由切割和根据大小分选靶DNA开始。然后从该方案中除去特定长度(例如30个碱基对)的DNA片段。
1)使用上述方法转变DNA片段的末端。
2)环化已转变的DNA分子。
3)加入IIS酶，该酶使用位于转变衔接子末端的裂解位点。该酶如图10所示切割DNA片段。
4)使DNA分子解链，并与补足这些片段的DNA分子，如经荧光标记的探针杂交。
5)最后，杂交并连接已转变的DNA片段，必要时在溶液中进行反应。
由于上述实施例中具有靶DNA的突出端寻求互补的突出端，每个转变的DNA片段会与遇到的DNA片段杂交/连接。这样就产生了放大标记物链(信号链)，所述链可提供被22个未知碱基(如AGCTGTGA N22AGTCTGCA N22 TGAC)中断的8个碱基对的序列片段的信息。通过用DNA片段的原始长度减去每个DNA片段中转变的碱基对数目即可测定未知碱基对的数目。根据信号链之间的重叠，可以重构靶序列，甚至可以在具有重复序列的区域中重构靶序列。实施例11双倍增加DNA的方法如图11所示，使单链DNA分子经受两轮倍增循环。通过将发夹衔接子与分子的3’末端连接以开始倍增。按照例如与逆转录酶使用3’发夹环作为引物相同的方式，将衔接子用作延伸分子的聚合酶所用的引物。最后，溶解(dissolve)DNA分子，重新回到起点。借助于ybp长的衔接子，使用此方法倍增xbp长的DNA分子n次，DNA的长度将是1)x·2n＋(2n－1)y那么，倍增前分别为x和x＋1bp长的两个DNA分子之间的差异将是2)(x＋1)·2n＋(2n－1)y－x·2n＋(2n－1)y＝2n因此，两个经倍增的DNA分子之间长度的差异仅通过它们在倍增前的绝对长度差异而不是相对长度差异即可测定。实施例12利用基于引物的分选策略的DNA测序方法该实施例阐明了如何制备256个测序梯，使用16次独立的凝胶分离和16种不同的标记，如荧光团可将这些序列梯互相分开。与仅使用4个测序梯的方法相比，测序反应的长度大大增加。因此当测序较长的序列时，可以特别地用于减少分选的工作量，所需的引物数目等。在此实施例中使用了16个测序梯和16种荧光团，但显然可以改变测序梯和荧光团的数目以适合大多数需求和可使用的仪器。所用的测序梯和荧光团越多，测序反应越长。
方法图12A举例概述了所用方法。
1)将靶DNA溶液分放在16个含有测序引物的孔中，所述引物锚着于孔的底物上。这些引物决定了聚合酶反应的固定起点，因此，共有的起点使所产生的最终产物的大小成为末端序列与该起点之间距离的指示物。
2)进行聚合酶延伸反应，加热DNA分子以导致解链，然后洗涤孔。
3)然后如图12B所示，在16个孔中的每一个中加入16种不同的引物(总共256种不同的引物)。除了3’末端的碱基3和4外，每个孔中所加的所有引物都相同。在此位置具有AA的引物与信号1相连，在此位置具有AC的引物与信号2相连等。除了例如3’末端以AC替代AA开始外，孔2中的引物也是相同的，而孔3中的引物以AG开始。因此，总共有256种不同的引物，覆盖3’末端所有256种4-碱基排列。使独特的荧光信号与16种不同引物的每一种结合。然后再次进行聚合酶延伸反应。
4)然后，在解链DNA分子之前洗涤孔。再用16次独立的凝胶分离(每次针对一个孔)，根据大小分选释放的单链DNA分子。
5)记录荧光信号，用适当的软件重构靶序列。
结果结果示于图12C。每个荧光信号提供了有关4碱基序列片段的信息。参照从中读出荧光信号的孔，可得到前两个碱基的信息，而根据存在的特定信号可测定后两个碱基。实施例13利用基于杂交的分选策略的DNA测序方法在此方法中，利用与扫描表面上的八聚体杂交，将靶DNA分子定位在所述表面的不同位点上。然后展开分子，评估荧光信号与垂直的锚着线之间的距离，以提供有关八聚体在靶序列中的位置的信息。图13中显示了总方案。
方法
1)起点是由65,536个地址组成的扫描表面。具有单链八聚体的垂直锚着线与每个地址结合。AAAAAAAA八聚体锚着在平板的地址1处，AAAAAAAC八聚体锚着在平板的地址2处等，使得所有65,536种八聚体排列各具有其自己的地址。
2)然后在扫描表面上混合一端或两端具有荧光标记的单链靶DNA分子，使得它们能与八聚体杂交(图13A)。
3)必要时，通过将分子暴露于UV照射，以八聚体为引物进行聚合酶延伸，或通过其它方法以加强八聚体/靶DNA之间的结合力。
4)然后洗涤扫描平面，展开DNA分子(图13B)。
5)使用荧光扫描仪扫描表面，以将每个地址处的荧光强度记录为与锚着线的距离的函数，并使用适当的软件重构靶序列。
结果图13C显示了所得结果。在所示的地址处，有7种不同长度的DNA分子，约为150，300，500，550，780，870和1040kb(如果DNA分子被展开成每微米为2kb)。实施例14使用基于连接酶的分选法的DNA测序方法该实施例根据基于连接酶的分选法，其中将65,536个测序梯分选在65,536个地址。与利用4个各代表1个碱基的测序梯的其它方法相反，在此方法中，65,536个测序梯中的每一个都代表8碱基的序列片段。相对于仅使用4个测序梯的方法而言，此方法降低了对通过大小进行分选的精确度要求。因此，测序反应的长度可增加，也可以利用很多种方法来通过大小分选聚合物。
在此实施例中，通过测定展开的DNA分子长度的方法阐明基于大小的分选。然而，其它变动也是可以想象到的，其中直接在扫描表面上进行基于大小的分选，例如，在使用标记法之后测定DNA分子的信号强度，从而使DNA分子的信号强度与长度成比例等。也可以想象出下述变动，其中使测序梯保持物理分离，在不同的时间从底物上释放等，从而可以使用流式细胞仪，质谱法，纳米孔分析，凝胶分选等来分别分析65,536个测序梯中的每一个。
方法1)由按本文所述制备的如1Mb的靶序列开始产生测序梯。
2)使靶DNA甲基化以使步骤3)和6)所用的限制性酶裂解位点被灭活。
3)如本文所述，在靶DNA的任意末端产生4-碱基突出端。DNA分子的任意末端可以例如与DNA接头连接，所述接头含有IIS酶的结合位点，其能制备出4碱基对突出端。定位结合位点以在实际的靶DNA中制备突出端。然后用IIS酶裂解分子。
4)然后按实施例12所述，通过在256个孔之间分配溶液来分选靶DNA。孔壁上覆盖了具有4-碱基突出端的分选衔接子，所述突出端能补足步骤3)中产生的突出端。分选衔接子也含有IIS限制性酶，如FokI的结合位点，所述位点所处的位置使得可形成突出端，所述突出端含有位于在步骤5中被切割的突出端旁边的4个碱基对。
5)使靶DNA与分选衔接子连接，然后洗涤试管以除去未被连接的DNA。
6)用IIS酶进行裂解，使得靶DNA松开，形成新的4-碱基突出端。
7)如实施例12所述，将256个孔中的靶DNA分布在256个微列阵中。所有微列阵都是类似的，都由256个具有分选衔接子的地址组成，所述衔接子具有4-碱基突出端，这些突出端能补足步骤6)中产生的突出端。在地址1处，分选衔接子具有AAAA突出端，在地址2处，分选衔接子具有AAAC突出端等。
8)加入连接酶，并保温混合物。在地址1处，有具有TTTT突出端的靶DNA，在地址2处，有具有TTTG突出端的靶DNA等。
9)洗涤扫描平面，确定DNA分子的地址，并使用TOTO-1，YOYO-1或类似物使分子染色。
10)使用CCD照相机等拍下这些地址的照片，可将CCD照相机设置成例如每个地址拍一张照片。
11)使用适当的软件识别荧光DNA分子，测定它们的长度，然后重构实际的靶序列。
可以实现上述目的的一种方法如下1)在每个孔中加入1等份含有任意4-碱基突出端的靶DNA分子，10μl10×连接酶缓冲液，1μl T4 DNA连接酶(400U/μl，NEB#202)和水，至终体积为100μl。于16℃保温12-16小时。
2)除去液体，用1×NE缓冲液4将孔洗涤1次或几次。
3)加入10μl 10×NE缓冲液4，4个单位FokI(New England Biolabs，#109)/μgDNA，并加入水至终体积为100μl。37℃保温1小时。
4)于65℃灭活20分钟。
5)在独立的试管中用乙醇沉淀每个孔中的DNA分子。
6)溶解沉淀物，加入10μl 10×连接酶缓冲液，1μl T4 DNA连接酶(400U/μl，NEB#202)和水，至终体积为100μl。于16℃与微列阵一起保温12-16小时。
7)展开，标记和分析这些分子。
结果特定地址处分子的存在与否和大小既表示序列信息也表示其位置。因此，如果微列阵1的地址1含有100微米的DNA分子，这表示+200kb处存在与用于(尽管通过2步分选)结合该分子的八聚体相对应的序列(例如TTTTTTTT)。类似地，2个不同大小的分子的存在表示特定序列的重复。特定地址处不存在任何分子表示靶序列中缺乏与固定的八聚体互补的序列。
上述实施例中错误分选的潜在来源是粗-分选衔接子也可以用作细-分选衔接子。然而，通过使粗-分选衔接子中具有另一个限制性内切核酸酶的切割位点，使得粗-分选衔接子在扫描之前就被切下，就可以避免上述问题。尽管在上述实施例中未提及，但终止未与粗-分选衔接子结合的DNA片段末端也很重要。通过例如Klenow补平可以做到这一点。
如果在上述方法中使用Bensimon方法(Michalet等，1997，文献同上)展开DNA分子，可在尺寸为1.28×1.28cm的扫描平面上展开1-2百万个DNA分子。256个地址中的每一个含有约4-8,000个展开的DNA分子。由于每65,536个碱基对中有一个8碱基对的序列片段会重复，因此，如果靶序列为1Mb，每个地址处将平均有15个不同的长度(1,000,000/65,536＝15.2)。因此，每个长度平均将被测定260-520次(4-8,000/15.2＝260-520)。实施例15靶DNA分子被锚着于固定参考点的DNA测序方法在此方法中，使携有线性排列的放大标记物(信号链)的PNA八聚体与固定在扫描平面上的靶DNA杂交，然后进行扫描，并测定靶序列中与八聚体互补的区域的位置。图14显示了总方案。
方法1)该方法的起点是按本文所述，将双链靶DNA分子锚着于扫描平面上的固定参考点，例如锚着于与扫描平板垂直的锚着线上。
2)然后加入65,536种不同的转变衔接子(即携有放大标记物的衔接子)排列，所述衔接子由与信号链结合的PNA八聚体组成，所述信号链上具有与八聚体相对应的组分。信号可以是经荧光标记的球，珠或携有其它适当的标记。因此，PNA分子能与靶DNA分子杂交。
3)展开分子，记录它们的位置以及信号链的组成。
4)使用适当的软件重构靶序列。
结果结果示于图14。信号链和固定的锚着点之间的距离提供了靶序列中每个序列片段的位置信息。实施例16基于分选或与转变相结合的分选的测序和光学作图法此方法可以在作图或测序反应中作图或测序十分长的DNA序列，如基因组。该方法可以仅用于光学作图，或者用于作图加测序。重要的是应指出该方法可以在同一测序反应中测序很多不同的靶序列。
方法(仅进行分选)按照实施例14的方法，但与该方法中的步骤1不同的是，用DNA酶I或类似物切割靶DNA，以形成几百个碱基对的片段。按实施例14所述进行步骤2至8。然后洗涤扫描平面，展开DNA分子。再进行光学作图法或类似的方法。用荧光扫描仪或类似的仪器对扫描平面进行扫描，使用适当的软件重构序列。
方法(分选加转变)
步骤1至6按上述光学作图方法的相应步骤进行，然后7)加入256种转变衔接子，并与步骤6)形成的突出端连接。转变衔接子可以例如具有二进制的信号链，其中1-信号是含有针对一种特定限制性酶的很多裂解位点的DNA序列，而0-信号是不合有任何所述位点的DNA序列。
8)将每个孔中经转变的DNA分子转移至其自身扫描平面，用在1信号中具有切割位点的限制性酶进行光学作图。
9)用荧光扫描仪或类似的仪器对扫描平面进行扫描，使用适当的软件重构序列。实施例17基于二进制末端转变和纳米孔分析的DNA测序方法已证实电场可驱动单链RNA和DNA分子穿过脂质膜的离子通道。分子的穿过可被测定为离子电流的瞬时降低。已证实可以根据大小差异区分嘌呤和嘧啶。由此暗示可使用该方法进行快速测序。然而，已证实难以区分不同的嘌呤(腺嘌呤或鸟嘌呤)和不同的嘧啶(胞嘧啶，胸腺嘧啶或尿嘧啶)，因为它们之间只有很小的大小差异。在此实施例中，可证实通过将靶DNA转变为由嘌呤/嘧啶信号组成的二进制密码能解决上述问题。
方法1)通过用DNA酶I或类似的酶进行裂解，产生靶DNA的片段，处理这些片段以产生平端。
2)使靶DNA分子与接头连接，所述接头含有一个或多个IIS限制性酶(例如FokI)结合位点。
3)通过用IIS限制性酶裂解，在靶DNA中产生突出端。
4)用磷酸酶处理突出端。
5)使突出端与转变衔接子连接，所述衔接子也含有方向标记，使得软件分析变得更加容易。
6)通过纳米孔分析读出嘌呤/嘧啶的组成。使用未被转变的靶DNA部分得到位置信息。
7)使用适当的软件程序重构靶序列。将转变衔接子和靶DNA之间的突出端区域与序列片段信息相比较以作为校对机制。
结果信号由二进制的嘌呤/嘧啶密码组成，其中A＝嘌呤＋嘌呤，C＝嘌呤＋嘧啶等。图15中有所说明。实施例18在测序反应中使用细胞产生信号此实施例阐明了使用细胞产生信号，而细胞自身也可用作放大标记物，指示测序反应中的特殊碱基。
方法A)在此方法中，将报道基因用作放大标记物，将其表达后的相对信号强度用于指示特定碱基在序列中的相对位置。图16中显示了所用的技术和所得的结果。
1)如图16所示，使用作为模板的靶DNA和测序引物进行聚合酶延伸反应，所述引物与具有增强子和报道基因的单链或双链结合。使用测序引物结合靶DNA中的已知序列，指示将被测序的序列由此开始。
2)用由4种不同引物组成的引物混合物进行聚合酶延伸。每种引物由通用碱基(U)或随机碱基(N)组成，但最靠3’端的碱基是A，C，G或T。引物与4种不同的报道基因结合。最靠3’端的位置具有A的引物与报道基因A结合，以此类推。该步骤中所用的转变引物随机结合靶DNA，但最靠3’端的碱基对成功的聚合酶延伸至关重要。
3)用与步骤1和2中所用引物的5’末端互补的引物进行一次或多次聚合酶延伸反应。
4)将转变的DNA分子转化/转染至适当的细胞。
5)在允许报道基因表达的条件下培养细胞。
6)用流式细胞仪分析报道基因的表达，使用适当的软件重构序列。
B)在此方法中，与不同碱基相关联的信号被导入细胞或其它结构内的不同位置，以指示它们在信号链中的位置。
1)用DNA酶I或通过类似的技术使靶DNA片段化。
2)将每个靶DNA分子中的16个碱基对转变为信号链。使用4种信号指示各个碱基A，C，G或T。每种信号由与启动子相连接的报道基因A，C，G或T组成，所述报道基因将在不同的位置表达每种信号，即对16个碱基对而言，通过16种不同的启动子将信号导入16个不同的位置。位置可以是一个细胞或多细胞生物中的细胞群体。也可以是细胞上的位置(例如外膜的一部分)。将信号链转化/转染至产生生物/结构的细胞。
3)在允许生物/结构产生的条件下培养细胞。
4)登记4种不同的信号在每个生物/结构中的不同位置的分布，绘图，图中的碱基在沿着产生信号链所用序列的位置处出现。
结果A)可检查特定位置处产生的信号强度。这一点在图16中有所阐明。由于信号强度与增强子和报道基因之间的距离成反比，因此可以确定特定信号(因而是碱基)相对于起始碱基的位置。
理想地，为了有助于区分所产生的不同分子，起初根据其末端序列分选靶核酸分子，以使延伸产物有一个以上碱基的差异。实施例19通过产生各相差3个放大碱基的测序梯的测序方法此方法描述了测序梯的形成，其中在相同的固体支持物上进行转变(即放大)和读出序列。这些方法的重点是除了得到短区域(6-9bp或更长，以3个碱基递增)的碱基组成外，也得到有关它们在较长DNA分子(长达几kb)中的内部位置的信息。这对重构序列信息至关重要，例如，可使用该方法补充通过上述方法得到的序列信息。图17阐明了测序9个碱基对长的多核苷酸的原理。
方法1)通过PCR扩增待测序的DNA序列。用生物素标记其中一个引物的一端，以使DNA分子能固定于链霉亲和素底物上。链霉亲和素以细线排列，使得DNA分子彼此相邻被固定成一行。
2)用DNA酶I(或类似的酶)处理这些分子以产生随机切口(图17的步骤1)。
3)使切口的末端与含有II类限制性内切核酸酶结合位点的多核苷酸相连接，所述酶在其自身结合位点的外部进行切割(此时为EarI)(图17中的步骤2)。
4)然后加入限制性内切核酸酶，在多核苷酸中产生突出端(图17中的步骤3)。
5)加入能识别和特异性连接多核苷酸突出端的衔接子(图17中的步骤4)。从而使图上方具有AGC突出端的多核苷酸与具有AGC片段组合的衔接子连接等。
6)借助于液流，电场或类似的技术使DNA分子伸直，使得用荧光扫描仪可读出经荧光标记的衔接子。
7)通过比对具有序列信息的片段来重构序列。
应说明的是每个衔接子的相对位置根据DNA酶I在何处切割多核苷酸而变化。在此方法中，可以给出每个含序列信息的片段在多核苷酸上的相对位置，这样会使重构序列变得更加容易。
最后，应该强调的是在相同的阅读平板上读出几个不同的DNA序列(图17)可以增加读信号的效力。例如，借助于PCR，可以用基因特异性引物扩增较大数目的基因。然后在经扩增的基因序列上制备独特的突出端。通过例如在最后一轮循环中使用很长的引物，并且插入很少切割的限制性内切核酸酶的切割位点等即可做到这一点。籍此可以使基因与DNA芯片杂交，所述芯片的每个方格由特异于多个基因的寡核苷酸组成。对应于基因A的DNA分子可以与方格A杂交，对应于基因B的DNA分子可以与方格B杂交等。当该方法可以挑选出基因组中的那些具有医学价值的特定区域时，特别适于大规模筛选个体基因组。
通过使用基因特异性引物进行扩增也可以平行测序不同的基因。然后可产生特异于每个基因的突出端，随后，基因与DNA芯片上的寡核苷酸杂交。构建DNA芯片，使得与不同基因互补的寡核苷酸具有不同的位点。现实中可以在相同的阅读平板上产生几千个不同的地址，使得可以平行测序几千个基因。
如图18所示，另一种方法是得到二维位置信息。
1)该方法的起点是将待测序的DNA分子切割成几kb或更长的分子。然后将生物素掺入DNA分子，使得平均间隔几百个碱基(碱基的多或少取决于实际需要)就有含生物素的碱基出现。然后将DNA分子的一个末端固定于覆盖有链霉亲和素的平板上。末端固定机制应该不是链霉亲和素/生物素。
2)借助于液流，电场或其它方式伸直分子。通过加入反应溶液将DNA分子锚着在底物上，所述溶液能产生生物素-链霉亲和素结合。
3)然后用DNA酶I或其它方式切割DNA分子，再将游离末端连接至前衔接子上，所述前衔接子含有IIS型限制性内切核酸酶的结合位点(未显示)。然后通过用相应内切核酸酶切割，产生突出端，所述突出端与含序列信息的衔接子连接。
4)然后使具有ACGT片段组合的衔接子与ACGT突出端连接，等等。
5)使用液流，电场或类似方法在与待测序的DNA分子垂直的方向上伸直DNA衔接子，然后用生物素/链霉亲和素系统锚着所述衔接子。当所有DNA分子已锚着在底物上时，重复上述过程直至已转变/放大所需的碱基对数目。应指出的是衔接子之间的相对距离对应于待测序的DNA分子中序列片段的内部距离。应指出，当然可以在一个阅读平板上平行测序很多个DNA分子。实施例20使用具有接头的衔接子的测序方法，所述接头可以将经放大的部分与靶分子间隔开下文所述的方法阐明了一项技术，其中可实现一轮以上的测序循环。在此方法中，所产生的放大标记物与固体支持物结合。随后，除去将标记物与其所对应的序列间隔开的接头，然后放大靶序列的邻接部分。图19中显示了方法。
方法1)将待测序的DNA分子ACGTGAGCT的一端固定在覆盖有链霉亲和素的平板上。固定机制应该是除链霉亲和素/生物素以外的机制。
2)使DNA分子与多核苷酸相连接，所述多核苷酸含有II型限制性内切核酸酶的结合位点，所述酶的切割位点位于结合位点的外部(例如图19所示的BspMI)。
3)在下一步中，加入所述限制性内切核酸酶，裂解形成突出端，所述突出端具有来自待测序的DNA分子的碱基。
4)然后加入含有多种衔接子和连接酶的溶液。图19显示了已识别并结合ACGT突出端的衔接子。除了对应于ACGT突出端的，经荧光标记的片段外，两个或多个生物素分子已掺入衔接子中。
5)借助于液流或电场伸直DNA分子，如图所示将片段固定于底物上。(DNA接头区域的功能是将片段与待测序的DNA分子间隔开，这样可以给下一步中的新衔接子留下空间。)6)用SmaI和BspMI进行裂解，使得除去DNA接头的同时形成新的突出端，所述突出端由DNA分子上接下来的4个碱基对组成。这样就可以使新的衔接子与经荧光标记的片段相连接。仅有的差异是该衔接子不含有DNA接头。然后将经荧光标记的衔接子固定于链霉亲和素底物上的新位置。通过使用不同长度的DNA接头，可以进行多个连续的转变循环。实施例21在测序方法中使用位置标志在此方法中，将位置标志与待测序的分子相连，以有助于定位所得到的序列信息。
方法图20中阐明了所用的方法。起点是例如100kb的环形靶DNA分子。该分子含有两个被浅灰和深灰标记的序列(图20)，它们可用作位置标志。
1)用Bst71I甲基化酶使DNA分子甲基化。
2)用DNA酶I或类似的酶使这些分子线性化，然后通过连接加入含有Bst71I裂解位点的衔接子。(切割位点所处的位置使得它们可被用于制备突出端，所述突出端具有靶DNA分子的前4个碱基。因此，2个4bp的突出端能提供8bp连续序列的信息。)3)用Bst71I进行裂解，加入片段衔接子并连接。
4)将DNA分子转变成单链形式，然后利用分子梳，电场或类似的方法将所述分子锚着并展开于载玻片上，同时与荧光探针杂交，所述探针能识别片段和位置标志。也可以用YOYO-1或类似物染色DNA分子。
5)然后使用荧光显微镜/扫描仪扫描序列片段，测定与已结合至位置标志的探针之间的距离。这样就可以推断出每个8bp序列片段在待测序的DNA分子上的大致位置。实施例22包括分选，接着放大的测序方法在此方法中，利用片段末端的4个碱基，在固体支持物上分选片段，然后将分子的末端结合于固体支持物上。然后通过放大评估相邻的4个碱基。图21中显示了该方法的例子。
方法使用被分成256个地址的DNA芯片。每个地址含有分选衔接子，突出端，IIS类限制性内切核酸酶的结合位点和能产生平端切口的限制性内切核酸酶的结合位点。地址与地址之间的突出端各不相同，使得地址1中的分选衔接子具有AAAA突出端，地址2具有AAAC突出端等。另外，所有的地址都被具有结合特性的分子，如链霉亲和素所覆盖。
1)通过将靶DNA切割成片段，并处理DNA片段的末端以形成4-碱基突出端来开始分选。
2)将片段导入携有分选衔接子的固体支持物，所述衔接子与固体支持物连接。具有TTTT突出端的DNA片段将与地址1连接，该地址1中的分选衔接子具有互补突出端AAAA，具有GTTT突出端的DNA片段将与地址2连接等。
3)处理DNA片段上的另一个突出端，使得该末端可锚着于下层。例如，通过Klenow补平反应用生物素标记末端，使末端与经生物素标记的通用衔接子连接等即可实现上述目的。
4)用IIS和平端酶进行裂解(此时用FokI和DraI举例说明)。在此方法中，在代表接下来的4个碱基的DNA片段中得到新的突出端。
5)加入转变衔接子以将这些碱基转变为信号链。
6)展开DNA分子，使用例如荧光扫描仪进行扫描。DNA分子的一个末端的位置为我们提供了有关4个碱基的信息，另一端的信号链提供了接下来的4个碱基的信息。实施例23制备作图法，分布图分析等所用靶分子的方法此方法背后的原理是用一种或几种核酸酶消化靶DNA，所述核酸酶优先在其自身识别序列的外部进行切割，例如IIS酶，但也可以使用其它类型的核酸酶，例如来产生范围为-5至+5的突出端。然后将突出端与信号链连接，所述信号链由一个含有序列信息的部分和一个含有突出端的特征信息(即该突出端由哪一种限制性酶制备)的部分组成。从而将每个经消化的分子转变为末端的信号组成和末端之间的长度有所不同的特征性分子(signature)。通过比对末端与互补序列(例如比对与消化产生的互补突出端相连的一个或多个放大标记物)，可以使用信息绘制限制性图谱。也可以使用特征性分子鉴定异源DNA群体中的靶序列。图22中显示了使用FokI的原理。
如果想作图靶DNA中的FokI位点，所述靶DNA是溶解于水的100kbBAC克隆，我们可使用下列方法1)加入1个单位FokI(New England Biolabs#109)，2.5μl 10×NE缓冲液4，1μgBAC DNA和水，至终体积为25ul。
2)于37℃保温1小时。
3)于65℃热灭活20分钟。
4)用乙醇沉淀DNA。
5)将沉淀物溶解于水，并加入经磷酸酶处理的转变衔接子(转变衔接子和靶DNA之间的摩尔比应该至少为50∶1)，200个单位T4 DNA连接酶(NewEngland Biolabs#202)，2.5μl 10×T4 DNA连接酶反应缓冲液。终体积为25μl。
6)于16℃保温4至16个小时。
现在就可以进行分析。然而，优选除去未连接的衔接子，例如7)加入1.5-2×108Dynabeads M-280链霉亲和素(Dynal#112.05或#112.06)，其上包被有衔接子，所述衔接子的5’端含有4碱基突出端的所有排列，还加入2000个单位的T4 DNA连接酶(New England Biolabs#202)，22.5μl 10×T4 DNA连接酶反应缓冲液和水，至终体积为250μl。
8)于16℃保温4-16小时。
9)按“分子生物学中的生物磁技术”，第3版(由Dynal AS，Norway发行)中所述，用磁力沉淀珠，并取出上清液。
10)用乙醇沉淀上清液中的DNA分子。
11)将DNA分子溶解于适当的溶液和体积中。
此方法中所用的转变衔接子可代表所有256种突出端排列，仅代表256个突出端的一个亚集，或具有一个或多个简并碱基的突出端。如果将用光学作图策略分析分子，信号可以例如由不含EcoRI位点的0-信号和含有大量EcoRI位点的1-信号组成。
也可以用其它套限制性酶和信号链将上述方法重复一次或多次，然后再分析分子。然而必须指出与第一轮中产生的突出端连接的信号链必须受到保护以免受第二轮中所用酶的消化。通过使用不含第二轮中所用限制性酶的结合位点的信号链，甲基化该位点等即可实现上述目的。
也可结合分选法或其它能增加每次结束时所得的序列-长度的方法来进行此方法。
部分通过鉴定所得靶DNA片段另一端存在的限制性位点，部分通过鉴定其它含有互补突出端的靶片段和与这些片段连接的限制性位点，可以测定哪些限制性位点侧翼于特定的限制性位点，从而测定靶序列内的限制性位点位置。不必测定每个片段的长度，因为利用足够的限制性酶即可十分精确地测定位置。
与常规的光学作图方法相比，该方法具有几个重要的，有利的特征1)分辨率更高可以区分仅有几个碱基对差异的限制性位点，而常规的技术需要至少几百个碱基对。
2)使得用多个限制性酶绘制限制性图谱变得更加容易。
3)重构的统计学问题大大减少，因为是在信号链组成的基础上进行比对，而不是不确定地测定仅被部分切割的限制性位点之间的DNA长度。
4)当使用在其识别位点的外部进行裂解的酶时，图谱中的每个位置基于结合位点的长度加上突出端的长度(通常为9个或更多个碱基)。因此，可以在结合位点的序列和它产生的突出端的基础上鉴定限制性位点。与常规的用不常见的裂解酶(8个碱基)绘制的基因组图谱相比，该方法是有利的。
权利要求
1.放大靶核酸分子的全部或部分序列的方法，其中一种或多种放大标记物与靶序列中的一个或多个碱基相连，其中所述标记物对应于所述靶序列中的一个或多个碱基。
2.权利要求1所述的方法，至少含有下列步骤a)将所述靶序列的至少一部分转变为适于结合衔接分子的形式，优选转变为单链形式；b)使步骤a)产生的，适于结合衔接分子的所述区域的至少一部分，优选所述单链区域与衔接分子结合，所述衔接分子含有一种或多种放大标记物，或含有能结合一种或多种放大标记物的工具，所述标记物对应于所述靶序列的一个或多个碱基，优选对应于适于结合所述衔接分子的所述区域中的一个或多个碱基，所述区域优选所述单链区域，所述衔接分子与所述区域结合，或与所述区域邻近；c)任选连接所述靶分子与所述衔接分子，使得至少所述放大标记物能与所述靶分子保持相连；d)任选重复步骤a)，其中所产生的适于结合所述衔接子的所述区域，优选所述单链区域包括一个或多个不与根据步骤b)的放大标记物相连的碱基；e)任选重复步骤b)至d)，所述衔接分子结合所述靶分子中与前一轮循环中衔接分子结合区相邻或重叠的区域。
3.权利要求1或2所述的方法，其中每个放大标记物对应于至少2个碱基。
4.权利要求1至3中任一项所述的方法，其中所述放大标记物合起来对应于至少2个碱基，优选至少4个碱基。
5.权利要求1至4中任一项所述的方法，其中放大标记物链与所述分子相连，优选其含有对应于至少4个连续碱基的4个或更多个放大标记物。
6.权利要求1至5中任一项所述的方法，其中放大标记物是长度至少为2个碱基，优选10至30个碱基的核酸序列。
7.权利要求2至6中任一项所述的方法，其中将每轮步骤a)至c)循环的所述放大标记物连接在一起。
8.权利要求2至7中任一项所述的方法，其中所述衔接子含有核酸酶的识别位点，所述核酸酶具有的裂解位点与其识别位点是分开的。
9.权利要求2至8中任一项所述的方法，其中所述衔接子含有两种或多种核酸酶的识别位点，所述核酸酶具有的裂解位点与其识别位点是分开的，其中用所述核酸酶裂解会产生相邻或重叠的单链区域。
10.权利要求2至9中任一项所述的方法，其中一种以上的衔接子在步骤b)中优选与所述部分的重叠或相邻区域结合。
11.权利要求10所述的方法，其中所述衔接子与所述序列的重叠区域结合，从而可以使一种以上放大标记物与每个碱基相连。
12.权利要求2至11中任一项所述的方法，其中进行步骤c)和e)。
13.测序靶核酸分子的全部或部分的方法，其中每轮测序循环测序2个或更多个碱基，优选4个或更多个碱基，和/或将与每个碱基，或一个以上的碱基相连的信号放大。
14.权利要求13所述的测序方法，其中通过增加所述碱基在所述序列中出现的次数来放大与每个碱基相连的信号。
15.权利要求13或14所述的测序方法，其中如权利要求1至12中任一项所述，放大所述靶核酸分子序列的至少一部分，其中所述经放大的序列任选被转变为可读的信号，并通过评估产生的信号来测定所述序列。
16.权利要求15所述的方法，其中每个所述信号含有由单个信号事件组成的模式，所述事件能在每个放大标记物上产生独特的信号。
17.测序靶核酸分子的全部或部分的方法，其至少含有下列步骤a)测定所述核酸分子的一部分的序列；b)测定所述部分在所述核酸分子内的位置；和c)组合步骤a)和b)中获得的信息，得到所述分子的序列。
18.权利要求17所述的方法，其中通过参照位置标志来测定所述位置。
19.权利要求17或18所述的方法，其中通过参照所述靶分子的限制性图谱来测定所述位置。
20.权利要求17至19中任一项所述的测序方法，其中被测序的部分具有4个或更多个碱基和/或以低于1kb的精确度测定所述部分在所述靶分子中的位置。
21.权利要求17至20中任一项所述的测序方法，其中通过权利要求13至16中任一项所述的方法测序所述部分。
22.权利要求17至20中任一项所述的测序方法，其中通过用至少包括下列步骤的方法评估所述分子之部分的互补性来测定所述序列a)将所述靶序列的至少部分转变为适于结合互补探针的形式，所述探针与固体支持物结合，或者携有能结合固体支持物的工具，优选转变为单链形式；b)使所述互补探针与步骤a)产生的，适于结合互补探针的所述区域的至少一部分，优选长度为4至12个碱基相结合，所述区域优选所述单链区域；c)任选重复步骤a)和b)，其中所述互补探针结合所述靶分子中与先前循环中互补探针的结合区相邻或重叠的区域；和d)通过鉴定与所述靶序列结合的互补探针，来测定所述靶序列的序列。
23.权利要求17至22中任一项所述的测序方法，其中通过基于权利要求13至16中任一项所述的放大的测序方法测定所述序列的一部分，并如权利要求22所述测定相邻或重叠的部分。
24.放大靶核酸分子的一个或多个碱基的试剂盒，其含有至少一种或多种如权利要求2至12中任一项所述的衔接子，所述衔接子任选与一个或多个固体支持物结合。
25.权利要求1至24中任一项所述的放大或测序方法，其中对异源样品进行所述方法。
26.产生靶核酸分子的图谱的方法，所述方法包括通过用一种或多种核酸酶，优选裂解位点与其识别位点分开的核酸酶裂解所述靶分子，优选产生互补的单链区域，使衔接分子与所述靶分子的区域结合，其中所述衔接分子携有一种或多种如权利要求2至11中任一项所述的放大标记物，其中所述标记物含有对应于与所述衔接分子结合的所述区域的一个或多个碱基的，能产生信号的组分，另外还含有另一个对应于裂解所用核酸酶的，能产生信号的组分，其中所述部分含有所述核酸酶的全部或部分裂解位点，和/或所述核酸酶的全部或部分限制性位点，并测定所述部分在所述靶序列中的位置，以得到所述序列部分的序列信息。
全文摘要
本发明提供了通过测定靶核酸分子的一部分的序列,以及关于所述部分的位置的信息,来对靶核酸分子的全部或部分测序的方法,本发明特别地提供了包括放大所述碱基的一个或多个碱基以有助于鉴定的新的测序方法。
文档编号C12N15/09GK1334879SQ9981610
公开日2002年2月6日申请日期1999年12月23日优先权日1998年12月23日
发明者普雷本·莱克索申请人:普雷本·莱克索

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：普雷本.莱克索
技术所有人：普雷本.莱克索
我是此专利的发明人

上一篇：视黄醇结合蛋白4作为每窝产仔数的基因标记的制作方法
上一篇：钠/质子反向转运载体基因的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.食品功能因子基因工程菌种的构建、智能高通量进化筛选 2.发酵工艺优化
2、马老师：1.酶工程与生物催化 2.酿造技术与风味分析 3.生物质资源综合利用
3、林老师：1.酿造微生物育种及关键酿造工艺开发 2. 真菌基因功能及调控网络解析 3.精细化学品、蛋白真菌细胞底盘开发
4、张老师：1.发酵食品安全：危害物相关基因的筛选，危害物产生菌的快速检测，危害物的预警和发酵过程控制 2.真菌次级代谢与调控 3.酿造酒相关研究
5、郭老师：1.现代酿造技术与食品安全 2. 酵母生物学 3.生物基化学品与合成生物学
如您是高校老师，可以点此联系我们加入专家库。