专利名称:用于dna测序和dna鉴定的方法和装置的制作方法
技术领域:
本发明总体上涉及用于核酸分析的方法和装置,尤其是用于DNA测序的方法和装置。
背景测定DNA样品中四种核苷酸序列的速度是分子生物学、医学、和生物技术进一步发展的一个主要的技术障碍。从1978就开始使用了凝胶分离DNA分子而进行DNA测序的方法。唯一可行的其它核酸测序方法是杂交测序(SBH)。
基于列阵的SBH方法对DNA分子进行分离、降解、合成或成像时,不要求单个碱基的分辨力。其最为普遍的改进方法,利用长度为K个碱基的短寡核苷酸进行错配辨别杂交,构成的K聚体寡核苷酸组成物的排列可因靶DNA而确定,序列可通过独特的重叠批量寡核苷酸而读出。
在SBH法序列的读出中,在分析的DNA片段中由于随机或生物学原因重复出现的K-1寡核苷酸可加以特殊考虑。如果没有其它的信息,相对小的DNA片段可被完全读出,如每一个碱基对(bp)被读多次。相对长的片段的读出中,不确定性可因K-1寡核苷酸重复出现而增加。如果测定的是突变的或类似的序列则该问题就不存在了。一个序列的已知信息可用以作为模板来组装一个类似的序列。
有几种利用杂交来测序的方法,在SBH格式1中,DNA样品被排成矩阵,标记的探针与样品杂交,带有相同一组样品DNA重复的膜可用以几种探针和/或多重探针的平行杂交。尼龙膜上DNA样品的矩阵杂交经过显影。每一矩阵可以重新利用多次。格式1对于批量进行大量样品测试非常高效。
在SBH格式2中,探针被排成矩阵,一个被标记的DNA样品片段与列阵的探针杂交。在这种情况下,一个片段的完全序列可以通过同时和列阵的探针进行的杂交反应而确定。在测定其他DNA片段的序列时,相同的列阵的寡核苷酸可以重复使用。可通过格式2的印迹或原位杂交的方法而产生矩阵,DNA锚排成矩阵并连接以确定合成寡序列,已证明有特异杂交。在一种格式2的改进方法中,DNA锚排成矩阵并连接而确定了靶DNA末端的寡序列。
在SBH格式3中,使用了两套探针,一套用于排成矩阵,另一套标记后存于多孔板中。在此情形中,靶DNA不需标记。靶DNA和一标记的探针加入到那套列阵的探针中。如果一个附带的探针和一个标记的探针与靶DNA上相邻位置杂交,那么它们可共价相连产生一个两倍长度的序列。这个方法可用于对长DNA片段的测序,如完整细菌基因组,而无需亚克隆成小片段。
本发明中,SBH用于在短时间内有效地鉴定和测序一个或多个DNA样品。该方法已应用于DNA诊断、法医学和基因作图。它也可以用于鉴定引起遗传紊乱和其他性状的突变,用于分析生物多样性以及获得其它许多类型基于DNA序列的数据。
发明概述如上所述,格式1的SBH利于同时分析大量的样品,对一个样品可在大矩阵上进行上千种样品的平行分析,或者利用小片膜的上千个独立杂交反应分析一些少量样品。DNA的鉴定可能涉及1-20个探针,而突变的鉴定可能在某些情况下要涉及1000多个为每一样品特别选择或设计的探针。为了确定突变DNA片段的特性,要针对在第一轮杂交时检测的每一突变合成或选择特异的探针。
按照本发明,DNA样品可以备成小矩阵,其可以用合适的间隔分开,并可以同时用选自保存于多孔板中的寡核苷酸中的一套探针检测。该小矩阵可包括一个或多个样品,每一小矩阵中的DNA样品可以由突变体或一个序列的各个样品组成。形成较大矩阵的连续小矩阵可为相同矩阵的重复也可为不同的DNA片段。一套通用探针含有能以预定精度分析任何DNA片段的足够量的探针,比如要考虑其冗余量可读出每一bp。这套通用探针可以包括多于对一个特异片段所必需的、但对几千种不同序列的DNA样品的测试还不够的探针量。
DNA或等位基因的鉴定和诊断测序方法包括的步骤为1)从一套所提供的代表性的或通用的探针中选出一个子集用于与多个小矩阵中的每一个杂交;2)加入第一个探针到需平行分析的各个矩阵的每一个亚矩阵;3)进行杂交并分析结果;4)去除前面已用的探针并重复将要使用的探针;5)处理已有的结果得出最终的分析或决定用另外的探针再杂交;6)对某些亚矩阵进行另外的杂交;并7)通过全套的数据计算得到最终的分析本发明解决了对一种类型的少量核酸样品(如DNA,RNA)快速鉴定和测序的问题;并可以利用一套预先合成的易控制大小的探针和以亚矩阵形式附着于支持物的样品平行分析许多样品类型。两种途径结合能得到一个高效、多用途的方法,用于DNA同一性的鉴定、DNA诊断和突变的鉴定。为了鉴定已知序列,可用一小套短探针替换一个长的特定探针。在此情形下,可能使用许多探针,但是可合成一套通用探针来覆盖所有的序列类型,比如,全套的6聚体或7聚体的探针分别只有4096个或16384个探针。
一个DNA片段的完全测序需包括两个水平,一个水平是利用覆盖每一碱基至少一次的一套足够的探针进行的杂交。为此目的,要根据标准样品合成一套特异探针。这一杂交数据给出在非标准样品上是否和在何处存在突变(差异)。为确定此变化,要用另外的特异探针与样品杂交。在另一实施方案中,将一套通用探针中的所有探针都用于分析。
一套通用探针可使得毫不费时地以两步方法用对每个样品相对较少的探针来分析。杂交方法包括相继的探查,第一步算出一个优化的探针子集用于初次杂交,然后,根据得到的结果,第二步从该套通用探针中选定另外的探针进行分析。
使用样品矩阵中的一个矩阵可避免对单个样品或一小数量样品进行许多寡核苷酸的连续分析,此方法可就一个物理对象平行地进行多个探针分析。结合使用通用探针形成的亚矩阵和四步杂交方法,一个1000bp长度的DNA样品可以在相当短的时间里得到测序。如果样品在一矩阵中点成50个亚矩阵,且该矩阵与探针重复杂交10次,那么共用了500个探针,这一探针数是足够了。在扫描一个突变的存在时,约使用335个探针以覆盖每个碱基三次。如果突变存在,一些覆盖的探针则受到影响,这些阴性探针可以2个碱基的精度定位突变。为了解决用此精度定位单个碱基突变的问题,可再使用另外15个探针,这些探针覆盖了这2个可疑位置上存在的任何碱基组合(假设排除缺失和插入)。这些探针可以在含有所给样品的50个亚矩阵中进行一轮分析。在应用多标记颜色系统(multiplexing)时,2-6个标记有不同荧光染料的探针可以作为一个集合使用,从而减少杂交轮数并缩短测序过程。
在更为复杂的情形中,可能存在两个靠近的突变或插入,它们可以用更多的探针来处理,比如,一个3个碱基的插入要用64个探针来解决。最为复杂的情形可用几步杂交来处理,并根据先前的杂交结果选择一套新的探针。
如果亚矩阵由一种类型的几十个或几百个样品组成,那么其中的一些可能发现含有一个或多个变化(突变、插入、或缺失)。对于每个存在突变的片段,可用一套特异的探针分析。分析一个类型样品的全部探针数可能要几百个。重复矩阵可平行使用上百个探针进行相对较少轮次的分析。此外,相容的探针可以集合使用。阳性杂交可归因于选择用于检查特定的DNA片段的探针,因为这些片段的构成碱基通常有75%的差异。
利用较大一套长探针,可以很方便地分析较长的靶。这些靶可以是许多较小片段的集合,如外显子克隆的集合。
减少所需探针数量的多步骤方法,可使用特异杂交分析法确定来自一套二倍体染色体的待测序基因组片段中的杂合子(序列差异)的存在。这有两种可能性1)序列来自一个基本型的染色体和一个新的变异体的染色体;或,2)两条染色体都含有新的但不同的变异体。在第一种情况下,设计的定位变化的扫描步骤可在杂合位点得出2倍的最大信号差异。在第二种情况下,没有任何掩饰;需要更为复杂的探针选择来进行进一步的杂交。
在第一种情况中需要的2倍信号差异的分析可以通过将相应信号与来自基本序列型的对照信号和来自其它被分析样品的信号之间的比较而有效地进行。此方法可确定所给样品中每一个特定探针的杂交信号的相对降低程度。这点很有意义,因为特定的探针与含有其完全配对靶的不同DNA片段的杂交效率可以变化达2倍。另外,杂合位点可根据寡核苷酸探针数量的多少而影响不止一个探针。2-4个连续探针的信号的减少给出杂合位点存在的更明显的指示,该提示可通过几小套所选探针验证,这些探针中的一个或几个预计给出完全配对信号,其平均比来自错配双链的信号强8倍。
分隔膜可以非常灵活地组织实验,以容纳一个所给序列类型的大量样品、或者许多不同类型而每种类型样品数量较少的样品。可以非常有效地处理4-256个样品。可根据用于储存和标记寡核苷酸的标准多孔板的大小和构型来设计具有上述数量斑点的亚矩阵。亚矩阵的大小可根据样品的不同数量调整,或者可以用一些标准的亚矩阵大小。如果一种类型的所有样品不能在同一亚矩阵中容纳下,可使用另外的亚矩阵或膜并用相同探针分析。另外,通过调节每一亚矩阵的重复数量,鉴定和测序方法的完成时间会有变化。
优选实施方案的详细描述实施例1一套通用探针的制备制备了两种类型的通用探针套。第一类是相对短的一套完全(或至少是非互补的子集)的探针。如,所有4096(或约2000个非互补的)个6-聚体,或16384(或约8000非互补的)个7-聚体探针。8聚体和更长探针的完全非互补子集包括32000个或更多探针因而较为不便。
第二类探针套为探针小子集,用一个探针足以读出任何序列中的每个bp。比如,16个二聚体中的12个是足够的。用于双链DNA测序的7-聚体,8-聚体和9聚体的小子集分别约为3000,10000和30000个探针。
探针用标准的化学法制备,末端为1-3个非特异碱基(A,T,C和G的混合物)或通用碱基(如M碱基,肌苷)。如果运用放射性标记,则探针可含有5′端OH基用于被放射性标记的磷酸基团激发。或者,探针用荧光染料标记。其它还使用了如PNA(蛋白核酸)或含有改变双链稳定性的修饰碱基的探针类型。
探针储存于多孔板。对于小量的探针可使用96孔板对于10000个或更多的探针,最好储存于384或864孔板。5-50个板可以足够储存所有探针。大约5pg的探针足够用于与一个DNA样品杂交。因此,以每个探针50μg的小量合成,可分析上千万个样品。如果每个探针用于每3个样品,并且如果每个样品为1000bp长,那么一套5000个的探针可测序300亿个碱基(10个人基因组)实施例2DNA样品的制备DNA片段以M13、质粒或lambda载体上的克隆,和/或直接从基因组DNA或经PCR或其它扩增法得到的cDNA制备。样品可以在多孔板中制备或分装入多孔板。在2-500μl终体积中制备约100-1000ngDNA样品。
实施例3DNA矩阵的制备将DNA样品斑点印迹于一支持物如尼龙膜上而制备矩阵。可利用金属针矩阵(位置相对于多孔板的矩阵)反复将20nl的DNA溶液移至一个尼龙膜上而产生印迹。通过转印,斑点的密度比孔的密度要高。根据使用的标记类型可在1平方厘米上容纳1-25个斑点。为了在预定的行和列不产生印迹,可形成分隔的子集(亚矩阵)。一个亚矩阵中的样品可以是来自不同个体的相同基因组DNA片段(或相同基因),也可以是不同的重叠的基因组克隆。每一个亚矩阵可为相同样品印迹的重复。在一个实施例中,一个基因片段可扩增自64个患者,对于每个患者,扩增的基因片段置于一个96孔板上(全部96孔中的样品相同),制备一个含有64个患者样品多孔板。利用96针设备将所有样品印迹到一个8×12cm膜上,亚矩阵可含有64个样品,每个样品来自不同的患者。当96个亚矩阵相同时,其斑点大小为1mm且亚矩阵间间隔1mm。
另一个方法是使用带有物理间隔例如模塑于膜上的塑料格栅的膜或平板(NUNU,Naperville,Illinois有售),格栅类似于用于多孔板底部的膜,或使用疏水条。固定的物理间隔对于用平磷储存屏或X光曝光成象并不优选。
实施例4探针的筛选与标记含一系列亚矩阵的矩阵制备后,确定在每个亚矩阵上每一轮杂交所用的一套探针。对于实施例3中的样品,从通用探针中筛选出一套384个探针,共4轮每轮96个探针杂交。在一轮循环中优选含有类似G+C成分的探针。
将为每一循环选择的探针转至96孔板上,在储存之前,如探针还未标记则用激酶标记或用其它标记方法标记(如用稳定的荧光染料)。
根据第一轮的杂交,对每个亚矩阵确定一套新的探针用于进一步的杂交循环。某些矩阵在某些循环中可能并不使用。例如,如果64个患者中的8个样品显示出一个突变,先用8个探针分析每个突变,然后在一轮中分析全部64个探针,32个亚矩阵则没有使用。这些亚矩阵随后可用杂交缓冲液处理以防干在滤纸上。
可以采用任何方便的方法从储存板上回收探针,比如单道进样器,或机器人工作站如Beckman Biomek 100(Beckman Instruments,Fullerton,California)或Mega Two机器人(Megamation,Lawrenceville,New Jersey)。机器人工作站可以结合使用数据分析程序和探针管理程序。这些程序的结果可以输入到一个或多个机器人工作站中去。
探针可以逐个回收并加入到已覆盖有杂交缓冲液的亚矩阵中。较为优选的是回收的探针放置于一个新的板中,标记或与杂交缓冲液混合。优选的回收方法是逐个取出储存板,并利用进样器(或用金属针移取)从每个板上吸取足够量的每种选用的探针移入一个中间板上的特定孔中。使用各自定位的进样器或进样针可以提高回收的速度。
实施例5杂交和分析方法可将标记探针与杂交缓冲液混合,并最好使用多道进样器进样至亚矩阵中。为了防止亚矩阵之间的探针相混(如果膜上没有疏水条或物理边界的话),可以用一个适当的塑料、金属或陶瓷格栅紧压在膜上。还有,可以减少缓冲液的体积至每mm21ul或更少。使用的探针浓度和杂交条件如前所述,只是可以将漂洗缓冲液快速倒入亚矩阵组成的矩阵中,以快速稀释探针从而防止产生显著的交叉杂交。为同样的原因,可使用最低浓度的探针并最大地延长杂交时间。对于DNA检测和测序,可利用“正常”序列的已知信息,通过使用连续堆积相互作用来增强信号。除了标记探针,可以将额外的、与标记探针相应的非标记探针加入到杂交反应中去。杂交体的量可增加数倍。可通过连接反应联结探针,此方法对分析形成“压缩”结构的DNA区域很重要。
在放射性标记探针的情况中,可优选地通过磷储存技术获得滤膜的成像。荧光标记可以用CCD相机、反焦显微镜或其它仪器来分析。根据每个斑点的靶DNA量,可将粗信号标准化为合适规格,并经不同的杂交实验整合数据。通过将一个斑点上每个探针的信号除以所有探针的平均信号,可以对每个斑点中靶DNA量的差异加以修正。另外,标准化信号可通过划分为1-100以比较不同实验的数据。此外,每个亚矩阵中可使用若干对照DNA以确定那些不含有完全匹配靶的样品中的平均背景信号。而且,对于从二倍体(多倍体)得到的样品,可以使用纯合对照以识别样品中的杂合子。
实施例6诊断-分析已知突变或全基因再测序一个简单的例子是检测一个DNA样品中是否存在一些已知的突变。对于此目的,少于12个探针就够了,例如,5个探针对于某个等位基因呈阳性,5个对另一基因呈阳性,且2个对二者都呈阴性。由于分析每个样品只要如此少量的探针,所以可平行分析大量的样品。例如,可在一块6×9in的膜(膜上面有12×24个亚矩阵、每个亚矩阵具有来自64个患者的相同DNA片段的64个斑点)上以12个探针作3个循环,分析来自64个患者的96个不同基因位点或基因片段。在此例子中,样品可制备于六十四个96孔板中。每个平板代表一个患者,每个孔为待测的一种DNA片段。64块板的样品四次重复地印迹于同一膜上的四角。
对于96个片段中的每个片段,通过单道移样器或单针移样设备(或用一列分别可调的移样器或针)选择一套12个探针并排列在12块96孔板上。可标记探针(如果探针在储存前未被标记的话),然后将4块板上的探针与杂交缓冲液混合,并最好用96道移样器加入到亚矩阵中。一个杂交轮次后,可通过将膜置于优选未稀释杂交或清洗缓冲液中于37-55℃孵育,将用过的探针去除。
一个等位基因的阳性探针呈阳性,另一等位基因的阳性探针呈阴性,利用此可能性可确定两个等位基因中的哪一个存在。在此较长的分析过程中,每个探针一定水平(10%)的杂交误差是可以忍受的。
可用一套不完全的探针分析大多数等位基因,尤其是如果有足够的少量冗余,例如,一个或两个能证明两个等位基因中的一个在样品中存在或不存在的探针。例如,使用一套4000个8聚体的探针,有91%的机会能发现至少一个探针对随机选择的基因座上的两个等位基因之一呈阳性。可针对待分析样品中G+C含量或其它偏性而优化这套不完全探针。
对于全基因测序,基因可以适当数量的片段扩增。对于每个片段,可选用一套探针(约每2-4个碱基一个探针)进行杂交。这些探针可以确定被分析片段中的什么地方是否存在突变。检测出一个或多个突变位点的片段(即,含有这些片段的亚矩阵)可与另外的探针杂交以发现突变位点的准确序列。如果一个DNA样品用每两个6聚体进行测试,并且一个突变所处的位点被阳性杂交探针TGCAAA和TATTCC包围,且被3个阴性探针CAAAAC,AAACTA和ACTATT所覆盖,那么突变的核苷酸在正常序列中的此位点上一定是A和/或C。它们可能因单个碱基突变,或者因一个或两个核苷酸缺失和/或在AA,AC或CT之间的插入而改变。
一个方法是将阳性杂交探针TGCAAA向右侧延伸一个核苷酸,并将探针TATTCC向左侧延伸一个核苷酸。利用这8个探针(GCAAAA,GCAAAT,GCAAAC,GCAAAG和ATATTC,TTATTC,CTATTC,GTATTC)确定这两个有疑问的核苷酸。
可以确定关于该突变的最可能的假设,例如,A被发现突变成为G,与这些结果相合的解释有两种,要么G替换A是唯一的变化,要么除此变化外在新确定的G和随后的C之间有另外的若干碱基的插入。如果桥连探针的结果呈阴性,这些可能性可先通过至少一个含有突变位点的桥连探针(AAGGCTA)与另外的8个探针(CAAAGA,CAAAGT,CAAAGC,CAAAGG和ACTATT,TCTATT,CCTATT,GCTATT)加以检查。还有许多其它方法来选择用以检测突变的探针。
在二倍体的情况下,可进行测试样品和纯合对照的比较来确定杂合子(见上)。如果被几个连续探针覆盖的片段在两个染色体之一上有突变,这些连续探针预计给出大约小两倍的信号。
实施例7导致遗传学紊乱和其它性状的基因(突变)的鉴定本文所公开的测序方法每个碱基的花费非常低,而且利用较大一套通用长探针(8聚体或9聚体),无需亚克隆就可测序5-20kb长度的DNA片,且测序速度可达1000万/bp/天/每台杂交仪。该方法能够对具有生物学或医学价值的个体的大部分人基因或人基因组进行反复再测序,进行50%人基因的再测序,可检测约1亿个bp。这可以在相当短的时间内以可接受的花费完成。
可以利用这种巨大的再测序能力对编码遗传学紊乱和其它性状的突变和/或基因进行鉴定。基本上,可以选用特定疾病患者的特异组织mRNA(可转成cDNA)或基因组DNA作为初始材料。两种来源的DNA,都可通过克隆方法或体外扩增(如PCR)来分离基因或适当长度的基因组片段,如果通过克隆方法,可在测序之前从文库中先选取待分析的最小克隆组合,这可用少量探针的杂交来高效完成,尤其当挑选的是少量的5kb以上的克隆时。克隆可以提高2倍数量的杂交数据,而不需要上万个PCR引物。
此方法的一个变化是,可以通过酶的限制性切割,如HgaI切割DNA于GACGC(N5′)/CTGCG(N10′),制备基因或基因组片段。不同的片段具有不同的5个突出的碱基。一种酶将一定数量的基因切割产生适当的片段。在不同反应中分别使用几种限制酶切割cDNA或基因组DNA,可恰当地将感兴趣的基因切下。在一研究中,切割的DNA以大小分开,可将这样制备的DNA片段(还可任选地加入外切酶III去除3′核苷酸和增加末端的长度和特异性)分装在试管或多孔板中。对于每个要扩增的基因片段,从带有通用部分和适当长度不同突出端的相对较小的DNA接头中选择一对较小的接头。连接这些接头并以通用引物进行PCR。1000个接头可产生100万对,因此,利用互补于接头的通用末端的一对通用引物可以在相同条件下特异扩增出100万个不同的片段。
如果发现DNA差异在几个患者中重复,且序列的改变是无义突变或改变了相应的蛋白功能,那么该突变基因可能导致该紊乱。通过分析足够数量的带有特异性状的个体,能得出某基因的功能等位基因变异和特异性状之间的联系。
本方法不需要对广泛的遗传学家系进行非常昂贵的遗传作图,且在没有这些遗传数据和材料时具有特殊的价值。
实施例8在遗传作图中分析单核苷酸多态性本申请所公布的技术很适合高效鉴定带有单核苷酸多态性(SNUPs)的基因组片段。在10个个体中通过对能利用克隆或体外扩增而扩增的已知序列的大量基因组片段进行本文所述的测序,可鉴定足够数量的带有SNUPs的DNA片段。多态性片段可进一步作为SNUP标记。这些标记可以是事先已定位的(如它们代表已定位的STSs),或者也可以通过下面所述的扫描方法定位。
可利用扩增标记并将其排列成亚矩阵组成的矩阵的形式从相关家系或群体中对于每个个体进行SNUPs分析,亚矩阵含有自待测个体扩增出的相同标记。对于每个标记,如同诊断已知突变,可选用一套6个或更少的对于某一等位基因呈阳性的探针,和6个或更少的对另一个等位基因呈阳性的探针。从与紊乱显著关联的一个或一组标记中,可确定相关基因的染色体位点。因为其高产量及低花费,对于上千个个体可分析上千个标记。
这种大量的数据能以低于1百万bp的分辨力定位一个基因,并能定位多基因疾病的相关多个基因。通过对相对正常的个体和受影响的个体特定区域进行测序分析突变可鉴定定位的基因。
优选利用PCR进行基因组DNA标记的扩增。每个标记需要一对特异引物。利用HgaI型限制酶切割基因组DNA,再按照实施例7中所述连接一对接头,可改变已存在的标记或确定新的标记。
SNUP标记可共同扩增或印迹,以减少单独的扩增反应次数。这种情况下,每一个样品要分析更多的探针。当同时使用4个标记印迹于12个重复的膜上时,则需48个探针(每个标记12个)分析4个循环。
实施例9检测和鉴定DNA片段可在一个实验中对限制酶切、克隆或体外扩增(如PCR)产生的DNA片段进行鉴定。可通过在凝胶电泳上确定DNA的特异条带进行鉴定,也可以,通过制备一特异寡核苷酸利用杂交来确定有疑问的DNA样品。本文在此发展的方法可更有效鉴定大量的样品而无需为每个片段制备特异的寡核苷酸。根据已知的序列,对每个片段可从通用探针中选出一套阳性和阴性的探针。选择的阳性探针常可构成一个或一些重叠组,而阴性探针分散于整个插入物。
此技术可用于YAC克隆中作图方法中的STSs鉴定。每个STSs可在100个YAC克隆或YAC克隆库上测试。来自这100个反应的DNA可印迹于一个亚矩阵。不同的STSs代表连续的亚矩阵。经几个循环的杂交后,每个DNA样品给出一个信号,此信号可高可信度地证实或否定在所给YAC中特异STSs的存在。
为了减少独立的PCR反应数量或独立的样品印迹数量,可在一个反应中同时扩增几个STSs或者分别混合多个PCR样品。在这种情况下,每个印迹需要更多的探针分析。STSs库应独立于YAC库,可在单个YAC或YAC库中使用STS。该方案在用几个不同颜色标记的探针一起杂交时特别有效。
除了确认一个样品中某个DNA片段的存在,还可利用几个独立的探针或一个或多个探针集合的杂交密度来估计DNA的量。将所得的密度与已定量的对照样品的密度进行比较,所有印迹的样品的DNA数量可得以同时确定。因为鉴定DNA片段只需数量的探针,并且用于N个碱基长度的DNA的分析只需N种可能的探针,所以本申请无需大套少量的探针就足以鉴定任何DNA片段。1000个8聚体的探针中,平均可选出约30个完全配对的探针用于1000bp片段的分析。
实施例10传染病生物及其变异体的鉴定在检测患者体内的病毒、细菌、真菌和其它寄生生物时基于DNA的测试通常比其它方法更为可靠和便宜。DNA测试的主要优点是能够鉴定特异病原株和突变体,最终能够采用更有效的治疗。以下描述了两种方法。
细菌感染中12个已知抗生素抗性基因的存在可通过这些基因的扩增来检测。可将来自128个患者的扩增产物印迹于2个亚矩阵,然后将12个基因的24个亚矩阵在8×12cm的膜上重复4次。对每个基因选择12个探针进行阳性和阴性分析。杂交进行3个循环。对于这些检测,同实施例9中的检测一样,很小的一套探针即可作为通用探针。例如,在一套1000个8聚体探针中,平均30个探针在1000bp片段中呈阳性,且10个阳性探针通常足以得出高可信度的鉴定。如实施例9中所述,可将几个基因一一起扩增和/或印迹,并且可确定出所给DNA的量。可用扩增基因的量作为感染水平的指标。
另一个例子涉及HIV病毒的一个基因或全基因组的可能的测序。因为此病毒的快速多变,在选择对其的优化治疗方法上具有许多困难。可从最多64个患者分离的病毒中扩增DNA片段,并用所述方法进行再测序。根据所得序列可选择优化治疗方法。如果存在两种病毒类型的混合,且其中一个为基本序列(与杂合子相似),那么可通过与其它样品,尤其是含有基本病毒类型的对照样品的杂交分析结果进行定量比较而鉴定该突变体。用3-4个探针,少到只要两次分析,就可覆盖样品中两种类型病毒之一的突变位点(见上)。
实施例11法医和亲子鉴定的应用序列多态性使得个体的基因组DNA具有唯一性。这样就能对来自犯罪现场的血液或其它体液或组织进行分析并与犯罪嫌疑人的样品比较。足够数量的多态位点的分析可产生该样品的特有信号。SBH能容易地分析单个核苷酸多态性从而产生这种信号。
从样品和可疑物中可扩增出一套DNA片段(10-1000),代表一个片段的来自样品或可疑物的DNA印迹于一个或几个亚矩阵,每个亚矩阵重复4次。经3个循环,12个探针能够确定每一样品(包括可疑物)中每个DNA位点的等位基因A或B的存在。比较样品与可疑物的图式可发现犯罪的嫌疑人。
可用同样的方法来认定或否定一个孩子的父母。从孩子和成人身上制备DNA并扩增多态性位点,每个位点通过杂交确定A或B等位基因图式。与阳性和阴性对照一起比较获得的图式,可确定家族关系。在这种情况下,仅仅需要有显著部分的等位基因与父母之一匹配鉴定。大量的分析位点可避免本方法的统计学误差或新突变导致的掩盖效应。
实施例12评估群体或物种的遗传学多样性和小生境的生物学多样性计算大量位点(例如,几个基因或整个线粒体DNA)上的等位基因变化的频率能够对不同类型的结论提供依据,比如一个群体的基因型受环境的影响、其历史和进化,或者其对疾病的易感性或其灭绝,等等结论。这些评估的进行可通过检测特异的已知等位基因,或通过对某些位点的全部再测序确定新的突变,从而能够发现细微的变化或环境中诱变物质的存在。
此外,通过对进化上保守的DNA序列,如核糖体RNA编码基因或高度保守蛋白的编码基因的再测序,可调查微生物界的生物多样性。可从环境中及利用对应于保守序列的引物扩增的基因来制备DNA。DNA片段可优选克隆入一个质粒载体(或者稀释至每个多孔板的孔内含有一个分子的水平再体外扩增)。这样制备的克隆可按上面的方法再测序。可得到两种类型的信息。首先,可确定不同物种的目录以及每个物种的个体的密度,另一部分的信息可用来衡量生态因素或生态系统污染的影响。这可揭示出某些物种是否灭绝或物种间的丰富程度是否因污染而改变。此方法也可应用于化石中DNA的测序。
实施例13DNA测序一组亚矩阵组成的矩阵可以对重复亚矩阵的形式的一小套样品进行测序。例如,64个样品可排列成8×8mm的亚矩阵,且16×24个亚矩阵在15×23cm的膜上重复,亚矩阵间以1mm的边条相隔。制备几个重复的膜。例如,将一套3072个7聚体通用探针分入32个96孔板并激酶标记。一个杂交循环可以平行进行4个膜的杂交。每个膜上可分析384个探针。在2个杂交循环中可分析所有的探针。按下面的方法分析杂交密度及读出序列。
如果一个单一样品亚矩阵或几个亚矩阵含有几个未知序列,尤其是当使用相似样品时,那么若根据先前探针分析的结果而认真选择了探针,则少量的探针就足够了。例如,如果探针AAAAAAA不呈阳性,那么8个重叠探针中的任何一个很少有可能呈阳性。如果AAAAAAA呈阳性,那么两个探针通常呈阳性。这种情况下的测序方法包括,首先杂交于一亚套最小重叠的探针以确定阳性锚,然后,杂交于相继筛选的探针,以证实锚的顺序和它们间隔的大小与类型的最可能的一个假设。在这第2步中,可用2-10个探针的集合,其中所选的每个探针只对一个DNA样品呈阳性,而其它样品则对集合中的另外的探针呈阳性。
该亚矩阵方法在解决分支问题上可有效地实行探针竞争(重叠探针)和探针协同(探针的连续排列)。一套通用探针杂交后,序列产生程序将确定候选序列亚片段(SFs)。为了进一步产生SFs,需要提供额外的信息(来自DNA片段的重叠序列、相似序列、单通过凝胶序列,或来自其它杂交或限制酶作图数据)。竞争性杂交和连续排列反应曾被应用于SF的产生。在应用于通过SBH对大量样品测序时,这些方法在实践价值上有局限性。SBH要求对固定在矩阵中的一个样品使用一个标记探针。幸运的是,利用重复亚矩阵分析少量样品可有效地实行这两种方法。在每个重复亚矩阵中,可用探针集合测试一个或多个DNA样品的分支点,这类似于不同样品印迹在同一亚矩阵中分析突变序列的方法(见上)。
如果在本例所述的64个样品中,每个样品有100个分支点,且如果在每个亚矩阵平行分析8个样品,那么至少800个亚矩阵探查能解决所有的分支。这意味着,对于3072个基本探查,还要采用800次(25%)附加的探查。更为优选地,两个探查用于一个分支点。如果亚矩阵较小,使用的附加探查次数就少。例如,如果一个亚矩阵含有16个样品,则要进行200次(6%)附加探查。通过使用7聚体探针(N1-2B7N1-2)和竞争性或协同性分支解决方法或两者并用,经4000次探查可读出1000bp的片段。而且,利用8聚体探针(NB8N)经12000次探查可读出4kb或更长的片段。间隔探针,例如NB4NB3N或NB4NB4N的使用可减少分支点的数量。
实施例14 通过探针瞬间结合亚矩阵以及标记探针的连接进行DNA分析通过标准化学法合成长度范围在4-40碱基的寡核苷酸探针,并储存于试管或多孔板中。几个含有1-10000个探针的特异探针套通过沉积或原位合成,在单独支持物上或在较大支持物的各个独立区上排列成矩阵。在后一种情况下区域和亚矩阵可用物理的或疏水障分隔开。探针矩阵可用原位合成制备。适当大小的DNA样品与一个或多个探针特异性矩阵杂交。在同一亚矩阵上多个探针可混合成集合体或在同一支持物上的不同亚矩阵上各自独立。单个标记探针或标记探针集合与样品同时或先后加入到每个亚矩阵中。如果结合的和标记的探针与样品DNA上的互补靶位逐个杂交,那么探针间发生了连接。连接的发生可通过检测探针上的标记加以测试。
本方法是一个改进的DNA分析方法,其中DNA样品不是永久地结合于支持物。探针固定在支持物上产生瞬间结合。在此,无需靶DNA的排列过程。此外,连接使得可以通过短标记探针与短固定探针的结合进行较长寡核苷酸序列的检测。
本方法具有几个特点,瞬间与靶的结合使得它基本上可以再次使用,连接发生后,靶可被释放而标记则保持与支持物共价结合,这一特点利于循环使用靶并能以少量的靶产生可检测的信号。在优化条件下靶无需扩增,如天然来源的DNA样品可直接用于诊断和测序目的。随有效的杂交温度和有效的双链解链温度的循环,靶可被释放,更为优选的是没有循环。可限定温度和样品的浓度以使游离靶与杂交体中的靶之间平衡于50∶50%的水平。在此情况下连接产物不断地产生。对于不同目的可优选不同的平衡比率。
可用电场来增强靶的利用。开始时,可在每个亚矩阵中利用一个水平电场脉冲产生快速的靶排序。在此过程中平衡向形成杂交体方向移动,可使用非标记探针。靶排序之后,可进行适当的清洗(可用垂直电场限制样品的运动)。可进行几个循环的区分性杂交体解链、通过杂交和连接进行的靶的收集和未使用的靶的去除以增加特异性。下一步加入标记探针并使用垂直电场脉冲。通过增加温度可获得游离靶与杂交靶的优化比率。垂直电场可防止排序的靶分散开来。
可按不同的方法安排固定探针亚矩阵和几套标记探针(尤其是从一套通用探针中设计或选出的),以进行有效和灵活的测序和诊断操作。例如,如果要对一短的(约100-500bp)细菌基因组进行部分或完全测序,可根据已知序列设计使用小的探针(长度5-30碱基)矩阵。如果每个亚矩阵与不同的10个标记探针集合体混合,一个含10个亚矩阵,每个亚矩阵含10个探针的矩阵可进行200碱基的检测,假设仅分析通过连接相连的2个碱基。在从杂交体中辨别错配的条件下,可替换使用相同数量的覆盖一个碱基以上较长靶的探针。利用长探针,可直接使用靶而无需从样品剩余的DNA中扩增或分离。而且,在一个样品中可同时分析(扫描)几个靶。如果所得的结果提示有突变或病原存在,则可用附加的探针集合体来检测突变类型或病原的亚型。这是本方法的所需要一个的特点,它可以对仅有一小部分预期带有感染或突变的患者进行非常有效的预防诊断。
在本实施例中所述的方法中,可采用各种检测方法,例如,放射性标记,荧光标记,酶或抗体(化学发光),通过光散射或干涉计量方法检测的大分子或粒子。
实施例15适合于SBH的寡核苷酸探针和靶为了获得由(片段克隆数)×(探针数)矩阵确定的实验序列数据,可根据所用的片段数减少探针数,反之亦然。根据一个特定的杂交测序所需的技术要求来确定两者数量的优化比率。
有两个方面影响到探针长度的选择。第一个是能否成功地获得显示所需分辨力的杂交。第二个是合成所需数量探针的技术可行性。
要获得与实际和有用量的靶核酸的足够杂交分辨力这一要求限制了探针的长度。很难以短探针获得足够数量的杂交,也很难区分长探针末端错配。文献中传统上11聚体以下的探针的应用限于非常稳定的探针(Estivill etal,Nucl.Acids Res.151415(1987))。另一方面,长度超过15个碱基的探针很难区分末端错配(Wood et al.,Natl.Acad.Sci.USA 821585(1985))。
这种不稳定探针和末端错配的区分问题的一个解决方案是,利用带有相同信息的一组长探针代替一个短探针。例如,一组16个10聚体的探针可用来代替一个8聚体的探针,该组中每个探针部含有共同的8聚体核心,并且在每一端有两个变化,外围位点有3种变化之一种。探针可表示为5′(A,T,C,G)(A,T,C,G)B8(A,T,C,G)3′。用此类探针,无需区分末端无信息碱基(2个在5′端,1个在3′端),因为只有中间的8聚体是可读的。此解决分案在杂交反应中要用很大数量的探针和标记。
这些不利方面可以通过使用几套短至6聚体的寡聚物探针进行的区分杂交得到消除。
杂交反应的数量取决于不连续标记探针的数量,因此,在用比寡核苷酸数少的片段克隆进行短核酸测序时,最好是用寡聚体为靶,核酸片段为探针。
含有未确定序列的靶核酸可以各种形式产生,如带有不同大小的基因组片段插入物的噬菌体或质粒载体代表性文库的混合物或PCR制备的样品。由于复杂基因组的非随机或重复序列结构,以及在大肠杆菌中克隆有毒序列的困难,会在测序片段的排列中产生不可避免的缺口间隔和不确定点。这些问题是以任何方法进行大的复杂分子测序中所固有的问题,可通过文库的选择和用于杂交的亚克隆数的选择来减少这些问题,或者,可通过应用扩增靶序列,如通过PCR扩增,连接反应,连接-扩增反应,等等来克服这些难点。
用于分离、克隆和测序的核酸和方法为本领域的熟练技术人员所熟知。可见,Ausubel et al.,分子生物学通用方法,Bol,1-2,John Wiley & Sons(1989);和Sambrook et al.,分子克隆实验手册,2版,Vols.1-3,ColdSprongs Harbor Press(1989),附此供参考。
SBH是一个发展完善的技术,可用本领域熟练人员所知的许多其它方法进行。特别是引入本文供参考的下列文献中涉及的杂交测序技术Drmanac等,电泳超算人基因组进展的第一界国际会议资料汇编,DR & Lim HA编辑,世界科学出版公司,新加坡,47-59(1991);Drmanac等,科学260,1649-1652(1993);Lehrach等,基因组分析遗传和物理作图,1,39-81(1990),冷泉港实验室出版公司;Drmanac等,核酸研究,4691(1986);Stevanovic等,基因79,139(1989);Panusku等,分子生物学进展1,607(1990);Nizetic等,核酸研究19,182(1991);Drmanac等,生物分子结构动力学5,1085(1991)Hoheisel等,分子遗传学4,125-132(1991);Strezoska等,美国国家科学进展88,10089(1991);Drmanac等,核酸研究19,5839(1991);Drmanac等,国际基因组研究杂志1,59-79(1992)。
实施例16通过杂交数据确定序列一旦一个给定的重叠(N-1)聚体被重复了两次或更多次,核酸序列的读出就会受到影响,那时两个仅最后一个核苷酸不同的N-聚体中的任意一个均可被用于延伸核酸序列,这个分支点限制了对核酸序列的明确读出。
在某些情况下,可能不能通过重新读出那些与靶核酸杂交的已知寡核苷酸的序列来产生靶核酸的完整序列,这是因为如果靶核酸不在那些与用来杂交的寡核苷酸的大小相对应的大小合适的片段中时可能会丢失一些信息,丢失的信息量与待测的靶序列的长度成正比。然而,如果用了足够短的靶序列,就能明确地得出它们的序列。
在对一定长度的DNA进行序列读出时可能对其产生影响的重复序列可能的频率可以通过计算得出。这种推导需要引入一个与序列结构有关的参数的定义序列亚片段(SF)。如果一个靶核酸的某一部分是以一个在靶序列中重复两次或更多次的(N-1)聚体起始或结尾时就会产生一个序列亚片段。因此,亚片段是在用本发明的方法进行序列读出过程中在两个分支点之间产生的序列。短末端的重叠使所有亚片段的总和比实际的靶核酸要长。通常由于亚片段在其首尾两端共享(N-1)聚体因而在没有其它信息的情况下是无法将亚片段按线性顺序定位的。对于每个靶核酸序列根据其重复的(N-1)聚体的数目不同可以获得不同数目的亚片段。其数目依赖于N-1的值及靶序列的长度。
概率计算能估计出这二者之间的相互关系。如果利用长度为N-1或平均距离为A0的重叠序列能完成阳性N-聚体的排序,那么长为Lf个碱基的片段其N-1可由等式一得出Nsf=1+A0×∑K×P(K,Lf)
这里K大于或等于2,P(K,Lf)代表一个N聚体在一个Lf个碱基的片段中出现K次的概率。此外,在下面的实施例18中描述了一种对任何给定的序列能从N-聚体的组成形成亚片段的计算机程序。
对一个给定长度的探针,随着片段的长度增加亚片段的数目也增加。所获得的亚片段可能在它们之中未精确排序。尽管不完整,但这些信息对于比较序列分析和识别功能序列的特性方面是十分有用的。这种信息可被称为部分序列。另一种获得部分序列的方法是只利用给定长度的寡核苷酸探针的一个子集。
对一个随机的DNA序列,理论上预计的序列和计算机模拟的序列可能会有相对很好的一致性。例如N-1=7[利用一个8聚体或一组16个5′(A,T,C,G)B8(A,T,C,G)3′型10聚体]时,一个200个碱基的靶核酸平均有3个亚片段。然而,由于围绕均值的离散,一个靶核酸的文库应有500bp的插入片段以便在2000个靶序列中不到一个靶序列含有三个以上的亚片段。因此在理想状态下测定一个随机序列的长核酸的序列时,可以使用一个含足够短的靶核酸插入片段的文库。对于这些插入片段可以利用本发明的方法重新构建出单独的靶。因而可以通过叠加这些单个插入序列来获得一个大核酸的完整序列。
为了减少对非常短的片段的需求,如对8-聚体探针所需的50bp片段,使用了包含在重叠片段中的信息,它们出现在克隆或随机PCR等每一个随机的DNA片段化过程中。利用短的物理核酸片段集合体也是可行的。用8-聚体或如5′(A,T,G,C)N8(A,T,G,C)3′的11-聚体进行一百万个碱基的测序,不需用20,000个50bp的片段只需2,100个样品就足够了,这个数字包括了700个随机的7kb克隆(基本文库),1250个500bp的20个克隆的集合体(亚片段排序文库)和150个从跳跃(或类似)文库中得来的克隆。推导出的算法(见实施例18)可利用上述样品的杂交数据再现核酸序列。
实施例17与寡核苷酸杂交寡核苷酸可从Genosys Inc.,Houston,Texas公司购买或在AppliedBiosystems 381A DNA合成仪上合成。所用的探针大多数都没有经过HPLC或凝胶电泳纯化。例如,探针被设计成既有一个单一的完全互补的干扰素中的靶,即一个含有一个921bp EcoR I-Bgl II人B1-干扰素片段的M13克隆(Ohno andTangiuchi.Proc.Natl.Acad.Sci.744370-4374(1981)),又至少具有一个在M13载体本身中的末端碱基错配的靶。
寡核苷酸的末端标记操作如所述[Maniatis et al.,分子克隆实验手册,冷泉港实验室,冷泉港,纽约(1982)],在含T4-多聚核苷酸激酶(5单位Amersham),γ32P-ATP(3.3pM,10μCi Amer sham 3000Ci/mM)及寡核苷酸(4pM,10ng)的10μl体系中进行。探针的比活为2.5-5×109cpm/nM。
单链DNA(2到4μl于0.5M NaOH,1.5M NaCl中)点于一张用同样溶液湿润的Gene Screen膜上,滤膜在0.05M Na2HPO4pH6.5的溶液中中和,80℃烘烤60分钟,紫外照射1分钟。滤膜于室温浸泡于杂交液中(0.5M Na2HPO4pH7.2,7%十二烷基肌氨酸钠)5分钟后置于一个塑料培养皿的表面上。将一滴含有终浓度为4nM的32P末端标记的寡聚探针的杂交液(10μl,0.5MNa2HPO4,pH7.2,7%十二烷基肌氨酸钠)置于膜上的1-6个斑点上,覆盖一片聚乙烯(大约1×1cm),在潮湿的容器中于指定的温度温育3小时。将滤膜放入6×SSC漂洗液中中止杂交,于0℃洗脱3×5分钟以去除未杂交的探针。滤膜或被干燥或在特定的时间和温度下继续漂洗,并自显影。对分辨力的测量,在自显影后(可用Phosphoimager(Molecular Dynamics,Sunnyvale,California))将斑点从干滤膜上切下,放入液闪管内计数。IF和M13斑点的未校正的cpms的比值为D。
此处所述的情况使得可与非常短的寡核苷酸杂交并能确切地区分与靶核酸互补并因此结合其上的非错配和错配的寡核苷酸。能够影响有效检测特定短序列杂交的因素也被详细说明,而此检测基于对完全互补的靶和杂交体中有单个错配的不完全互补的靶的分辨程度(D)。在实验检测中,二十八个长6-8个核苷酸的探针与两个M13克隆或与结合在滤膜上的模型寡核苷酸进行了斑点杂交。实验步骤的原理如下。
当探针过量时寡核苷酸与滤膜结合的仅比探针长几个核苷酸的靶核酸的杂交反应是一个与靶核酸浓度有关的假一级反应。此反应可表示为St/S0=e-Kh[OP]t此处St和S0分别为在时间t和to时的靶序列浓度。(OP)为探针浓度,t为温度。杂交子形成的速率常数kh从0到30℃范围内仅有微量的增加(Poschke and Eigen,J.Mol.Biol.62361(1971);Craig et al.,J.Mol.Biol.62383(1971)),杂交体的解链是与杂交体的浓度(因为结合在膜上这里用质量代替)相关的一级反应,表示为Ht/H0=e-Kmt在此等式中,Ht与H0为杂交体在时间t和t0时的浓度。Km是依赖于温度和盐浓度的杂交体解链的速率常数[Ikuta et al.,Nucl.Acids Res.15797(1987);Porsclike and Eigen,J.Mol.Biol.62361(1971);Craig etal.,J.Mol.Biol.62303(1971)]。在链相关过程的杂交反应中,其反方向的解链,或链的解离反应也在同时发生。因此,某刻形成的杂交体的量是正反两个方向反应的结果。增加探针的浓度和/或降低温度可使平衡向杂交体生成方向移动,然而,在大体积缓冲液的洗脱循环中,解链反应占优势,由于无探针存在,其反向杂交反应很微弱。这个分析表明实用的短寡核苷酸杂交(SOH)的反应条件可因探针浓度和温度而改变。
D或称分辨力由等式四限定D=Hp(tw)/Hi(tw)Hp(tw)和Hi(tw)分别代表相同量的完全互补及不完全互补的双链经过一段洗脱时间tw后残余杂交体的量。对一个特定的温度,分辨力D随着洗脱时间的10倍而变化,且在等式五中的Hi=B时达到最大值。
背景B代表系统中可检测到的最低的杂交信号。由于Hi的进一步减弱无法检测,D值会随着不断的洗脱而增加。经过tw时间的洗脱,Hp相对于B降低时,可以看作是D值的减少。从等式三和等式五可以得出对非完全配对杂交体的最适洗脱时间tw为tw=-ln(B/Hi(t0))/Km,i由于Hp也同样经过了tw的洗脱时间,综合以上等式,可得出最佳分辨力的函数为D=eln(B/Hi(t0))Km,p/Km,i×Hp(t0)/BD作为一个对T的函数改变是很重要的,因为要选择一个最佳的洗脱温度。这是通过替代Arhenius等式即K-=Ae-Eα/RT]]>至前一个等式得出最终的等式D=Hp((t0)/B×(B/Hi(t0))(AP/AI)e(Eα,i-Eα,p)/RT;]]>这里B小于Hi(t0).
由于完全杂交体的活化能Eα,p,及非完全杂交体的活化能Eα,i,既可以相同也可以Eα,i小于Eα,p,因此D不依赖于温度,或随温度的升高而降低。这个结果表明在SOH中为了得到良好的分辨力而寻找严格的温度条件是不现实的。在较低温度下洗脱,可以得到同样或更好的分辨力,但随着温度的降低,洗脱的时间要指数倍地增长。如果Hi(t0)相对于Hp(t0)增加,分辨力随着T而更加剧烈地降低。
在更低的温度下D对Hp(t0)/B比率的依赖程度要高于对Hp(t0)/Hi(t0)比率的依赖程度。这个结果表明在不考虑在这个步骤能达到多少分辨力的情况下,最好是能得到足够量的Hp。由于更高量的完全杂交体允许更多的时间差异解链以显现效果,因此可以通过洗脱得到更好的分辨力。同样的,即使在Km,p与Km,i的差异很小时,用大量的靶核酸也能达到所需的分辨力。
可以推断在比这个简单的模型更复杂的情况下,其结果是当杂交的探针在给定的靶核酸序列中有很多末端错配时,在更低的温度下洗脱对获得良好的分辨力更重要。
以所述的理论原理作为实验的指导,用六到八个核苷酸的探针就能得到可靠的增加结果。所有的实验都是在一个飘浮的塑料薄片上进行的,以便在滤膜上形成一薄层杂交液。这种操作能最大限度地减少探针的用量,因而降低了斑点杂交的标记费用。磷酸杂交缓冲液中的高浓度的十二烷基肌氨酸钠而不是十二烷基磺酸钠,可使反应从室温降到12℃。同样的,4-6×SSC,10%十二烷基肌氨酸钠缓冲液可使杂交在2℃的低温下进行。这些缓冲液中的去垢剂是为了在浓度高达40nM的标记探针存在情况下得到可以接受的背景。短寡核苷酸杂交体的热稳定性的初步鉴定是由G+C含量为50%的一个原型8-聚体确定,即序列为TGCTCATG的探针,理论上认为这个探针属于较不稳定的8-聚体,它的瞬间焓值与那些更加稳定的7-聚体或甚至长度为6个核苷酸的探针焓值类似(Bresslauer et al..Proc.Natl.Acad.Sci.U.S.A.833746(1986))。参数Td,在一分钟的单位时间内使50%的杂交体解链的温度是18℃。此结果表明对于8bp的杂交体其Td的值比11bp双螺旋要低15℃[Wallace er al.,Nucleic Acids Res.63543(1979)]。
除了用模型寡核苷酸做实验外,还选取一个M13载体作为实际的展示短核苷酸杂交的系统,主要目的是为了表明在使用一个与应用于本发明的方法中的靶核酸相类似的靶序列时其有效的末端错配的分辨力。对M13模型所用的寡核苷酸探针的选择是基于基于这样一种考虑,即M13载体本身含有末端错配碱基。载体IF,一个含有一段921bp人干扰素基因插入片段的M13重组载体,含有单一的完全配对的靶。因而与M13本身相比IF具有M13同样或更高数目的错配靶。
利用低温条件和斑点杂交,获得了含完全配对和错配靶的斑点与只含有错配靶的斑点之间的杂交信号足够的差异。这适用于对与IF-M13这对大分子核酸的杂交的6-聚体寡核苷酸是正确的,也同样发现于7,8聚体寡核苷酸。
杂交信号依赖于滤膜上能与探针反应的靶核酸的量。需要一个对照以表明杂交信号强度的差异并不是由于两个斑点中的核酸的量的差异造成的。用一个在IF和M13中有同样数目及种类靶序列的探针所作的杂交表明在两个斑点中含有等量的DNA。由于杂交体形成的效率随着杂交体的长度而增加,最好用大量的固定在滤膜上的寡核苷酸靶检测六个核苷酸的双链信号。由于具有较低的分子量,因此同作为靶的大分子核酸相比,在一个给定的表面积内可以结合大量的寡核苷酸靶。
为了测量对未纯化的DNA的检测敏感性,将各种不同量的噬菌体上清液点种于滤膜并同32P-标记的8聚体杂交。仅有5千万个未经纯化的噬菌体即含不超过0.5ng的DNA就能得到可检测的信号,表明短寡核苷酸杂交方法的灵敏性是足够的。反应时间较短,增加了其实用性。
正如上面的理论部分提到的,杂交体的平衡产量依赖于油中探针的浓度和/或反应的温度。例如,在同样量的靶存在时,与4nM8-聚体在13℃的杂交信号要比与40nM的探针的杂交信号低3倍,且当把杂交温度升高至25℃时杂交信号降低了4.5倍。
已证明应用低温洗脱能得到最高分辨力。为了使此现象看得更清楚,在与一种载体特异性的探针杂交时在M13斑点中加入比IF斑点中的DNA多50倍的DNA量。这样在与实际探针杂交后错配的的信号要比完全配对的信号强。其Hp/Hi的比率是1∶4。在7℃继续洗脱可以得到相反的信号强度达到2∶1,且完全配对杂交体的量没有大量丢失。相反的,在25℃时任何分辨力均达不到,因为经过2分钟的洗脱后完全配对的信号已经降到了背景水平,与此同时不完全配对的杂交体的信号却仍能检测到。13℃时的分辨力与7℃时相比降低得不是很大但已能明显地看出来。如果有人认为7℃时90分钟和13℃时15分钟,即错配杂交体信号接近于背景时,分别代表了各自条件下的最适洗脱时间,很明显7℃时的时间要比13℃的多几倍。为了更清楚地表明这一点,以相同量的杂交体起始的在两个温度下洗脱其分辨力随时间的变化表明温度越低,其最大分辨力越高。这些结果也证实了D随温度及洗脱起始时两种类型杂交体量的比率的变化而变化的趋势。
为了表明短寡核苷酸杂交条件的通用性。我们在简单的M13系统中试验了4个7-聚体,10个8-聚体以及其它14个最长为12个核苷酸的探针。这其中包括代表两种极端GC含量的9-聚体GTTTTTTAA和8-聚体GGCAGGCG。尽管认为GC含量及序列影响短杂交体的稳定性[Bresslauer et al.,Proc.Natl.Acad.Sci.U.S.A.833746(1986)],但低温短寡核苷酸条件对于所有测试的探针都达到了足够的分辨力。由于长为13个核苷酸的探针所得到的最佳分辨力为20,由于序列变化而产生的分辨力降低几倍也是可以接受的。
M13系统具有的优点是能显示靶DNA复杂性对分辨力水平所造成的影响。对于两个分别具有零或五个错配靶且仅在一个GC对上有差别的8-聚体,所观察到的分辨力分别是18.3和1.7。
为了展示本方法的应用性,三个长为8个核苷酸的探针被用于检测由Bluescript载体文库中收集的51个质粒DNA斑点。一个探针特异地存在于Bluescript载体但在M13中不存在,而其它两个探针在已知的插入序列中有靶序列。这个系统可以用阳性和阴性对照DNA同每个探针杂交。此探针序列(CTCCCTTT)在干扰素的插入片段中也有互补的靶。因为M13斑点为阴性而M13和Bluescript中的干扰素插入片段均为阳性,因此杂交是序列特异性的。同样的,能探测出51个插入片段中仅有的一个靶或在检测的插入片段及对照中没有的靶的这些探针证明如果克隆中存在有合适的靶序列就能发生杂交反应。
对于长为6-8个核苷酸的非常短寡核苷酸杂交体其热稳定曲线比长为11-12个核苷酸的杂交体至少低15℃[
图1及Wallace er al.,Nucleic Acids Res.63542-3557(1979)]。然而在低温及使用非常实用的寡核苷酸探针浓度0.4-40nM进行杂交可以在已知或未知的靶核酸中检测互补序列。为了完全读出一个未知核酸的完全序列,可以用一套含65,535个8-聚体的探针。常规的生物样品中就含有足够量的核酸进行此实验,如几微升M13培养物,由10毫升细菌培养物或细菌的一个单菌落制备的质粒,不到1微升的标准PCR反应物即可。
长为6-10个核苷酸的短寡核苷酸能得到极好的分辨力。当有一个单一的末端错配时,其杂交体的稳定性下降得比长探针要大。8-聚体TGCTCATG的结果也支持这个结论。在实验中,靶具有一个G/T末端错配,与这种错配靶的杂交要比其它类型的寡核苷酸都稳定。所达到的分辨力与含一个内部G/T错配的19个碱基对的双链杂交体的分辨力相同甚至更高(Ikuta et al.,Nucl.AcidsRes.15797(1987))。根据所述的短核苷酸杂交条件使用这些分辨力的特性可以精确读出寡核苷酸靶的序列。
同检测完全杂交体和不完全杂交体之间的分辨力的简便相反,用很短的寡核苷酸检测时可能存在的问题是如何制备足够量的杂交体。实际上,区分Hp和Hi是通过增加斑点中DNA的量和/或探针的浓度,或通过降低杂交温度而实现的。然而,高浓度的探针会增加背景。此外,实际上可以应用的靶核酸的量是有限的。此问题是通过较高浓度的能在4nM探针存在下提供一个有效背景的去垢剂十二烷基肌氨酸钠而解决的。进一步的改善是使用探针非特异结合膜的竞争物或改变杂交支持介质。此外,对于Eα低于45Kcal/mol的探针(例如很多7-聚体和大多数6-聚体)修饰后的寡核苷酸能得到一个比未修饰前更稳定的杂交体[Asseline,et al.,Proc.Natl.Acad.Sci.813297(1984)]。本发明描述的低温短寡核苷酸杂交的条件对所有的序列及双链杂交体均能得到较好的分辨力。为了对不同的序列在杂交条件上达到一致所需的仅是依序列不同将洗脱时间从几分钟增加至24小时。此外,洗脱时间可以通过增加盐浓度而进一步减少。
尽管一个完全配对杂交体比不完全杂交体的分辨力高,但在短寡核苷酸杂交中,不完全配对杂交体的信号依然存在,大多是来自于末端错配的杂交体。这可能会限制一个特定长度探针所能有效检测的插入片段的长度。
序列复杂性对分辨力的影响也不能忽视。然而,只有通过短寡核苷酸与特异的非随机序列的杂交来读出序列时复杂性的效应才较突出,并可以通过采取适当的探针与靶核酸的长度比来克服。长度比的选择是在统计学基础上使那些具有很多末端错配能减少甚至产生错误的分辨力的特定序列的发生几率变得不太可能发生。结果提示,对小于0.6、2.5和10kb的靶核酸插入片段可分别用6,7,8聚体的寡核苷酸。
实施例18采用八聚物和九聚物测定靶序列在本实施例中,杂交条件与实施例17中所述的条件相同。八聚体寡核苷酸和九聚体寡核苷酸的杂交结果表明,杂交测序的准确性很高。在本实验中,采用了一已知的序列来预测一系列相邻的重叠八聚体寡核苷酸和九聚体寡核苷酸除了严格配对的寡核苷酸外,还检测了寡核苷酸和靶形成的双链内部的及末端的错配寡核苷酸。这些分析在可行的最低温度下进行,以使杂交尽可能形成。相对于配对寡核苷酸/靶杂交,错配的寡核苷酸与靶有较高的解链速率,在同样或较低的温度下洗脱,可以保证最大限度地区分配对与错配寡核苷酸。尽管完全杂交与序列有关,不过这些条件可用于任何序列。
能预知的最小的去稳定化的错配是简单的末端错配,因此对杂交测序的检测是测定其分辨完全配对的寡核苷酸/靶双螺旋与末端错配寡核苷酸/靶双螺旋的能力。
在斑点杂交中,若105个杂交寡核苷酸中有102个寡核苷酸的分辨值大于2,就可得到一高度准确的序列。本系统还可分析序列对杂交形成和杂交不稳定性的影响。
通过PCR制备的人β-干扰素基因中一已知的100bp部分,即100bp靶序列的序列,是通过已知序列的105个寡核苷酸探针与靶核酸的杂交数据得到的。所用的寡核苷酸探针包括72个八聚体寡核苷酸与21个九聚体寡核苷酸,其序列与靶核酸完全互补。这93个探针提供了靶序列的连续重叠框架,这些框架具有一或两个碱基的替换。
为了估计错配率,在与这100bp靶序列杂交时,另外使用了12个探针,这些探针包含至少一个末端错配。同时还测定了这12个探针与另外四个对照核酸序列的杂交,所选的四个对照DNAs与这12个寡核苷酸完全配对。这样,确定了实验中所用的各个寡核苷酸与靶序列的内部错配、末端错配和完全配对的杂交。在与八聚体寡核苷酸和九聚体寡核苷酸的杂交中,通过检测不同的寡核苷酸与共扩质粒中的非靶位点的杂交情况确定了靶DNA的浓度,并由此确定了靶DNA的绝对浓度对杂交的影响。
本实验的结果表明,所有含与靶DNA或对照DNA完全配对的互补序列的寡核苷酸比那些有错配的寡核苷酸有更强的杂交信号。为了证实这一结论,我们检测了每个探针的Hp和D值。Hp规定了被测靶和某一寡核苷酸探针之间所形成的杂交双链的量。将105个探针的杂交结果分别指定为0到10之间的值,可明显看出105个探针中有68.5%的Hp值大于2。
分辨值D定义为两个斑点信号强度的比值,其中一个斑点含检测寡核苷酸与靶或对照核酸完全配对形成的双链,另一个斑点含同样寡核苷酸与靶中的不同位点或对照核酸形成错配的双链。1)可视背景对杂交效率的干扰;或2)检测寡核苷酸与靶发生错配的类型不同会导致D值的变化。本实验所测的105个寡核苷酸探针中,有102个中的D值介于2和40之间。这102个寡核苷酸的平均D值为10.6。
在20种情况下寡核苷酸/靶双链出现末端错配。其中5种情况中D值大于10。这些高的D值很可能是由于除最稳定的末端错配(G/T或G/A)外的其它错配导致杂交不稳定引起的。寡核苷酸或靶序列中存在错误也会导致高的D值具有低Hp值的探针的靶中的错误被排除,因为这种错误对其它八个重叠寡核苷酸的杂交都有影响,而其它重叠寡核苷酸没有因错配而出现明显的不稳定,表明靶序列是正确的。重新检测七个新合成的寡核苷酸的杂交后,排除了寡核苷酸序列中存在错误的可能性。这七个寡核苷酸中只有一个的D值较好。低的杂交体形成值可能是杂交体不稳定或不能形成杂交双链导致的。不能形成杂交双链可能是因为1)所选探针自身互补或2)靶/靶自身杂交。探针自身互补时,寡核苷酸/寡核苷酸双链的形成可能比寡核苷酸/靶杂交双链的形成更容易。类似地,如果靶是自身互补的或者可能形成内部回文结构,则易发生靶/靶结合。在对这些可能性进行估计时,探针分析明显表明这些可疑探针不发生自身杂交。在检测靶/靶的杂交情况时,发现一种可疑探针与含相同靶的两个不同DNAs杂交无效。这样,两个不同DNAs具有一相应于相同靶的自身互补区的可能性不大,因此靶/靶杂交不是导致低杂交体形成的原因。这些结果表明,是杂交体不稳定性,而不是不能形成杂交体导致了这些特异寡核苷酸的低杂交体形成。这些结果也表明,低杂交体形成是特定寡核苷酸的特异序列引起的。这些结果进一步表明,采用八聚体寡核苷酸和九聚体寡核苷酸时,测序结果是可靠的。
这些结果说明,使用所述方法通过组成寡核苷酸的最大限度的和唯一的重叠,可以得到任何特定靶核酸的长序列。这种测序方法与各种组分的寡核苷酸的组成有关,与它们的频率和位置无关。
用下述算法得到的序列是高度可信的,如从105个杂交值,其中包括四个不可靠的值得出的序列是正确的这一事实所示,该算法允许存在斑点杂交中的假阳性信号。杂交测序的可靠性是由于短寡核苷酸杂交具有的“全有或全无”动力学特性,以及完全配对双链和错配双链之间存在的双链稳定性的差异。配对和末端错配双链的稳定性的比值随双链长度的下降而增加。此外,结合能量随双链长度的减少而减少,从而使杂交效率降低。然而,这些结果表明,八聚体杂交使影响双链稳定性和分辨力的因素保持平衡,从而为杂交测序提供了一个高度准确的方法。其它实验结果表明,6、7、或8个核苷酸的寡核苷酸可以有效的用于可靠地测定0.5kb(六聚体)、2kb(7聚体)和6kb(八聚体)的靶序列。长片段的序列可在重叠后得到全基因组序列。
确定杂交测序的序列的算法在实施例18中有介绍。
实施例19算法本实施例描述了从一个起始核酸序列的最小量随机定义的独立中的构成k-字节组字(k-tuple word)产生一个以4字母写出的长序列的算法,其中K代表寡核苷酸探针的长度。该算法最初是准备用于杂交测序(SBH)方法。该算法以亚片段(SF)、信息片段(informative fragments,IF)和使用大量的物理核酸序列定义信息片段的可能性为基础。
如上所述,靶核酸中K-1寡序列的重复在排序过程中形成分支点,并由此导致亚片段的产生。亚片段是位于任何两个出现于序列中的K-1长度的重复字之间的序列片段。K-1字的重复出现打乱了排序过程中K-1字重叠的顺序,导致序列保持为亚片段形式。这样,位于两个分支点间的顺序不加独特限定的明确部分被称作序列亚片段。
信息片段是指由最末端的重叠物理序列片段确定的序列片段。
一定数量的物理片段可以汇集在一起而不丧失限定信息片段的可能性。随机汇集的片段的总长依测序过程中所用的k-字节组(k-tuple)的长度而定。
该算法由两个主要部分组成。第一部分用于从包含在一序列中的k-字节组组合得出亚片段。亚片段可以产生于一定长度的物理核酸序列编码区内或产生于长核酸序列中定义的信息片段内。这两种片段都是基本文库的成员。该算法没有描述如何确定基本文库中信息片段的k-字节组组成,即制备测序过程中所用的信息片段的步骤。
该算法的第二部分为确定所得亚片段的线性顺序,以此得到基本文库核酸片段的完整序列。为实现这一目的,采用了第二个排序文库,这个库是由起始序列的随机汇集片段组成的。该算法不包括汇集基础片段序列以产生一个完整的几百万个碱基序列的步骤。将获得信息片段所必需的基本文库中的片段相连接可以完成上述步骤。另外,这一步骤还可在用这个算法得出基本文库片段的序列后,根据存在的共同末端序列,找寻它们的重叠部位来完成。
该算法既不要求知道基本文库或排序文库中某一核酸序列内特定k-字节组出现的次数,也不要求了解位于片段末端的k-字节组字是哪些,它用不同长度的各种k-字节组进行混合运算。该算法在概念上可以用包含假阳性和假阴性k-字节组的k-字节组组合进行运算。只有在特殊情况下,假k-字节组会首先影响所得序列的完整性和正确性。该算法可用于模拟实验中参数的优化,并用于实际的SBH实验,如基因组序列的获得。在参数优化中,方便实用片段的寡核苷酸探针(k-字节组)的选择和/或对于指定探针的片段最佳长度和数量的选择特别重要。
该算法的这一部分在根据k-字节组的组成得出序列时起主要作用。它由最大重叠进行的k-字节组的独特排序为基础。得出序列的主要障碍是特殊重复序列和假阳性与/或假阴性k-字节组。该算法这一部分的目的就是获得最少数量的、序列正确的、最长的可能性亚片段。该算法的这一部分由一个基本步骤和几个控制步骤组成,两步方法是必需的因为某些信息仅能在得出所有主要亚片段后使用。
得出序列的主要问题在于,当字组成中缺少特殊k-字节组出现的频率时,怎样从字组成中获得重复序列。这一问题的解决奠定了整个算法的基础。理论上有两种相反的处理方法1)重复序列可在一开始,也即在得出pSFs的过程中获得,或2)重复序列可在后来,即亚片段最后排序过程中得出。第一种情况中,pSFs带一多余序列,第二种情况中,它们带一缺失序列。第一种方法要求去掉多余的序列,第二种方法要求在最后排序过程中允许多重使用一些亚片段。
两种不同方法的区别在于,规定k-字节组唯一性重叠的严格程度不同。较不严格的规定是当且仅当k-字节组X的k-1最右端只出现于k-字节组Y的最左端时,k-字节组X与k-字节组Y具有明确的最大程度的重叠。该规定允许重复序列的产生和多余序列的形成。
在第二种方法中所用的较严格的规定还增加了一个条件当且仅当k-字节组X最右端k-1只出现于k-字节组Y的最左端以及当k-字节组Y的最左端K-1不出现在任何其它k-字节组的最右端时,k-字节组X与k-字节组Y具有明确的最大程度的重叠。基于较严格规定的算法比较简单,在此加以描述。
当最后一个k-字节组的右端k-1没有出现在任何k-字节组的左端时,或出现在两个或两个以上的k-字节组中时,某一特定亚片段的延伸过程停止。如果它仅出现在一个k-字节组中,则用算法的第二部分进行检测。如果另外存在一个不同于先前的k-字节组,这一特定亚片段的排序只能终止于第一个最左端位置。当这一另外的k-字节组不存在时,满足唯一k-1重叠的条件,特定亚片段向右延伸一个单元。
除了这个基本规定,在采用不同长度的k-字节组时还有一个补充规定。最大重叠是重叠碱基对较短的k-字节组的k-1长度。pSFs的得出是从文件中第一个k-字节组开始进行的,文件中的k-字节组是随机的,并且不依赖于它们在核酸序列中的顺序。这样,文件中第一个k-字节组不需要出现在序列的开始,也不需要出现在特定亚片段的开始。根据上述规定的限制,通过排列唯一重叠的k-字节组的顺序得到亚片段。每一个用过的k-字节组从文件中删掉。在没有下一个可与前一k-字节组有明确重叠的k-字节组时,亚片段的构建就终止,另一个pSF的构建又开始。由于大部分亚片段的构建不是从它们的实际起始点开始的,形成的pSF被加入k-字节组文件中并作为较长的k-字节组。另一种可能性是从起始k-字节组处双向构建亚片段。当下一个重叠,即任何亚片段的延伸不再可能时,过程停止。
pSFs可以分为三组1)k-字节组准确时,最长的和序列正确的亚片段;2)短的亚片段,根据最大和明确重叠的规定,分析不完全的和/或带有假阳性的k-字节组组合,得到短的亚片段;3)不正确序列的pSFs。2)中k-字节组组合的不完全是由杂交实验的假阴性和使用了不正确的k-字节组组合引起的。它们的形成是由于假阳性和假阴性k-字节组的存在,它们可能为a)错误连接的亚片段;b)带错误末端的亚片段;和c)表现为假最小亚片段的假阳性k-字节组。
关于假阳性k-字节组,可能存在一个含有一个以上错误碱基或在中间含有一个错误碱基的k-字节组,也可能是k-字节组末端有错误碱基。短的、错误的或错连的亚片段是由后一种k-字节组产生的。前两种k-字节组代表与k-字节组长度相等的错误的pSFs片段。
在一个假阴性k-字节组的情况中,由于最大重叠的不可能性,将产生pSFs。在其最左边或最右边存在带有错误碱基的一个假阳性k-字节组的情况下,由于明确重叠的不可能性,将产生pSFs。当文件中存在带有一个通用的k-1序列的假阳性和假阴性k-字节组时,将产生pSFs,且一个这样的pSFs在相关末端含有错误的k-字节组。
在亚片段产生后和亚片段排序时,进行亚片段序列的错误修正和明确相连的pSF的连接。第一步中包括去除错误连接的pSF并通过pSF的明确相连获得最终的亚片段,如下所述。
有两种情况导致形成错误连接的亚片段。第一种,当一个错误的k-字节组出现在k-1长度的重复序列的排列点时,发生错误。第二种,重复序列短于k-1。这些情况都有两种变化。第一种变化是,重复序列在一个片段的末端。第二种变化是,重复序列发生于片段内的任何一个位点。对于第一种可能,产生一个错误连接要求文件中的一些k-字节组缺失(假阴性)。第二种要求假阳性和假阴性k-字节组都存在于文件中。考虑到k-1序列的重复,当任何一端在内部重复,缺失一个k-字节组就足够了。原因是序列的末端可被视为假阴性k-字节组的无穷线性排列。对于“小于k-1的情况”,只有要求2或3个特定错误k-字节组的k-2长度的重复序列才被考虑。这很可能是在一个真正的实验中能被检测到的唯一的情况,而其它情况不经常出现。
当重复序列不出现在片段末端时,错误连接的亚片段的识别将更加严格。在这种情况下,可再检测另外两个亚片段,其中一个在其最左端,另一个在其最右端含有k-2序列,该k-2序列也存在于错连的亚片段中。当重复序列在片段的末端时,只有一种含有k-2序列的亚片段,它导致其最左边或最右边末端亚片段形成中的错误。
按照通用算法通过切除而进行错连亚片段的清除如果在任何其它亚片段中存在有亚片段的k-2长度的最左边或最右边序列,那么该亚片段被切为两个亚片段,每个含有k-2序列。该算法不包括罕见的一个重复末端的情况,那种情况下在重复的k-1序列处有一个以上的假阴性k-字节组。这种错连的亚片段可通过基本文库及排序文库的重复片段或信息片段的信息加以识别。此外,当两个或更多的假阴性k-字节组存在的位点都含有同一k-1序列时,错连的亚片段将被保留,这是一种非常罕见的情况因为其需要至少4个特异的假k-字节组。如果根据来自一个亚片段的结尾和另一个亚片段的起始端小于k-2的序列组合能获得所给的序列,可以引入附加的一个规则以去除这类k长度序列上的亚片段。
严格应用所述的规则,某些完整性会为了确保输出的精确性而丢失。一些亚片段虽然不是错连的,但因符合错连的类型而将被切去。这有几种情况,例如,一个片段,除了至少两个相同的k-1序列,还含有任何的k-1序列中的k-2序列,或者一个片段含有重复至少两次的k-2序列并至少一个假阴性k-字节组中间含有所给的k-2序列,等等。
此部分算法的目的在于,将pSFs的数量减少到含有正确序列的长亚片段最小数量。独特的较长亚片段或完全序列的产生可能有两种情况,第一种情况涉及重复的k-1字的特定顺序,许多情况下一些或所有最大延伸的pSFs(第一类pSFs)可被以唯一顺序排列。例如,在一个片段S-R1-a-R2-b-R1-c-R2-E中,其中S和E是片段的起点和末端,a,b和c是特别代表亚片段的不同序列,R1和R2是两个串联重复的k-1序列,产生5个亚片段(S-R1,R1-a-R2,R2-b-R1,R1-c-R2,和R-E),它们可按两种顺序排列;如上述的原来序列或S-R1-c-R-b-R1-a-R-E。相反,在一个重复序列的数量和类型相同但排列顺序不同的片段中,如,S-R1-a-R1-b-R-c-R-c-R-E,没有其它的包含所有亚片段的序列。这种类型只能在pSFs产生后才能加以识别,它们代表pSFs产生的两个步骤。当文件含有假阴性和/或假阳性k-字节组时,这第二种在非重复k-1序列位点产生假的短亚片段的情况更为重要。
两类pSF的解决方法包括两个部分。第一,消除作为不存在的最小亚片段而出现的假阳性k-字节组。消除所有的两端都不存在重叠的k长度的k-字节组亚片段,其一端的长度长于k-a另一端的长度长于k-b,这样可形成最大数量的连接。在我们的实验中,a和b的值分别为2和3,看来足以消除大量的假阳性k-字节组。
第二步完成可唯一连接的亚片段的合并。连接的规则是当且仅当两个亚片段的相应的结尾或起点的重叠序列不存在于其它任何亚片段的起点和/或结尾处时,两个亚片段可明确相连。
例外是,如果来自所考虑的一对亚片段的一个亚片段具有相同的起点和结尾。在此情况下允许连接,尽管文件中另一个亚片段具有相同的结尾。这里的主要问题是重叠序列的精确确定。如果只对于一对亚片段独特的重叠序列短于k-2,或者它是k-2长或更长,但存在另外的具有任何长于k-4的重叠序列的亚片段,那么序列则不能连接。另外,pSFs的两个典型末端和去掉一个(或几个)最后碱基的末端都可被视作重叠末端。
经过此步后,一些假阳性的k-字节组(最小亚片段)和一些带有错误末端的亚片段会留下来。此外,在非常罕见的机会下,其中一定数量的一些特定的假k-字节组同时存在,则可能发生错误的连接。这些情况将在亚片段排序过程中,以及另外的处理未切除的“错连”亚片段的控制步骤中得到检测和解决。
获得的短亚片段有两类。在通常情况下,这些亚片段由于重复k-1序列的分配可明确地连接,这可在pSFs产生过程之后完成,且这对于pSFs产生过程的两个步骤的必要性是一个很好的例子。在利用含有假阳性和/或假阴性k-字节组文件的情况中,在非重复k-1序列的位点可获得短的pSFs。考虑到假阳性k-字节组,一个k-字节组可能含有一个以上的错误碱基(或在中间某处含有一个错误碱基),在末端的k-字节组也是如此。短的和错误的(或错连的)亚片段的产生是由于后种k-字节组导致。前种k-字节组为具有和k-字节组相等长度的错误的pSFs。
算法中合并pSF的部分的目的在于,将pSFs的数量减少到含有正确序列的较长亚片段的最小数量。在两端都不含有重叠,一端长于k-a,另一端长于k-b,的所有k-字节组亚片段被清除,以获得最大的连接数。这样,大部分假阳性k-字节组被去除了。连接的规则是当且仅当两个亚片段的相应的结尾或起点的重叠序列不存在于任何其它亚片段的起点和/或结尾上时,两个亚片段可明确相连。例外是含有相同的起点和结尾的亚片段。在此情况下允许连接,条件是文件中存在有另一个带有相同末端的亚片段。这里的主要问题是重叠序列的精确确定。在k-1或k-2序列重复位点上至少两个特定的假阴性k-字节组的存在,以及假阳性和假阴性k-字节组的联合,可破坏或“遮盖”一些重叠序列并产生一个确定的但是错误的pSFs连接。为了防止这一点,完整性必须牺牲于精确性末端序列短于k-2,且存在额外的长于k-4的重叠序列,则不允许连接。从pSFs的末端或去掉一个或几个最后碱基,来确定重叠序列。
在非常罕见的情况下,由于存在有一定数量的一些特定的假阳性和假阴性k-字节组,一些带有错误末端的亚片段会留下来,一些假阳性的k-字节组(最小亚片段)也会保留,或者可能发生错误的连接。这些情况将在亚片段排序过程中,以及另外的处理未切除的“错配”亚片段的控制步骤中得到检测和解决。
亚片段的排序过程类似于其产生过程。如果将亚片段视作较长的k-字节组,则可利用重叠末端经其明确的连接来进行排序。明确连接的信息基础是将产生于基本文库片段的亚片段分成代表这些片段的区段组合。此方法类似于这一问题生化解决方案,即基于与较长的、带有相关连接序列的寡核苷酸的杂交的方法。连接序列作为亚片段,通过基本文库片段的k-字节组适当区段而产生。通过和基本文库中相应片段相重叠的排序文库的片段来确定相关区段。最短的区段是排序文库的信息片段。较长的区段是几个相邻的信息片段或是对应于排序文库和基本文库的片段的完全重叠部分。为了降低各样品的数量,随机混合排序文库的片段,并确定独特的k-字节组组成。
通过利用排序文库中的大量片段,产生了很小的区段,因而降低了k-1序列的多次出现机会,k-1序列正是亚片段产生的原因。进一步,由基本文库中给定片段的不同区域组成的较长区段不含一些重复k-1序列。在每个区段中,对于某一对来自给定片段的亚片段,可产生一个连接序列(连接亚片段)。排序的过程包括三步(1)每个区段的k-字节组组成的产生;(2)每个区段中亚片段的产生;和(3)区段的亚片段的连接。初级区段定义为基本文库的一个给定片段的k-字节组组成与排序文库混合物中k-字节组组成的显著交集和差异。二级(较短)区段定义为初级区段的k-字节组组成的交集和差异。
积累在差异和交集中都存在的假阳性和假阴性k-字节组有一个问题。来自起始序列的假阴性k-字节组积累于交集(重叠部分),随机存在于两种序列的假阳性k-字节组也是如此,但不积累于相关的重叠区域。另一方面,大多来自起始序列的假阳性并不被划入交集。这是一个利用来自与其重叠的片段的信息来减少各个片段的实验误差的例子。假k-字节组因其它原因在差异中积累。那套来自原始序列的假阴性,由于交集中的假阳性以及那些因误差未被包括于交集中的k-字节组的一系列假阳性,例如在交集中是假阴性,而被放大。如果起始序列含有10%的假阴性数据,那么初级和二级交集将分别含有19%和28%的假阴性k-字节组。另一方面,如果基本片段和混合物长度分别为500bp和10000bp,那么可预计其数学期望值是77个假阳性。然而,有可能恢复大多数“丢失”的k-字节组并消除这些假阳性k-字节组。
首先,要确定一个给定片段的k-字节组的基本组成作为所给定的一对k-字节组组成的交集。接着,将起始k-字节组组成的所有k-字节组包括在交集中,这其中含有一端k-1另一端k-+序列,其在基本片段的两个k-字节组末端存在。在产生差异前完成这些,从而防止了在其过程中积累假阳性。然后,同样的k-字节组系列放大类型可应用于差异,不同之处在于借用是来自交集的。所有借用的k-字节组作为假阳性从交集中去除。
交集,即一套通用k-字节组定义为每对(基本片段)×(排序文库的集合)。如果此套k-字节组数量显著,那么根据所述的规则它的假阴性被放大了。通过从给定的基本片段中除去得到的交集可得到初级差异。通过根据所述的规则借用交集系列,将假阴性k-字节组加到差异系列中,并同时作为假阳性k-字节组从交集系列中去除。当基本片段长于混合的片段时,差异则代表两个分开的区段,它在后面的步骤中的用处将很小。初级区段是含有显著数量k-字节组的配对(基本片段)×(排序文库的集合)所产生的交集和差异。二级区段的k-字节组组合可通过所有可能成对的初级区段的k-字节组的比较而获得。由每对产生带有显著数量k-字节组的交集的片段来确定两个差异。在此步骤中,从重叠片段中可恢复大多数可用信息,这样几乎不需第三个步骤来形成交集和差异了。
(2)按所述的对基本文库的片段的相同操作,产生区段的亚片段。
(3)连接亚片段的方法包括,在来自具有重叠末端的一个给定基本文库片段中,依次确定正确的亚片段的连接对。在4个相关亚片段的情况中,其中2个含有相同的起点,2个含有相同的结尾,则可有4种不同的连接对。一般2个是正确,2个是错误的。为了找出正确的,在产生自一给定的基本片段的所有初级和二级区段的亚片段中,检测每对连接序列的存在。选择连接序列的长度和位置以防随机存在的序列的干扰。它们是k+2或更长,且除了给定对的亚片段中的重叠序列外,还含有至少一个因子2。只有当找到这两个连接序列且剩下的两个不存在时,这种连接才能被允许。将这两个连接的亚片段替代文件中先前的亚片段,并循环重复此过程。
此步骤中产生重复序列,这意味着一些亚片段被多次包括在连接的亚片段中。通过找到相关的连接序列,其涉及一个亚片段和两个不同的亚片段的连接,从而将它们识别出来。
在构建pSF和合并pSF到较长亚片段的过程中产生的错连亚片段的识别,是根据测试来自一给定基本片段的亚片段序列是否存在于由该片段的区段产生的亚片段序列中而进行。在错误的连接位置的序列将不会被发现,指示错连的亚片段。
除了所述的亚片段排序的三个步骤之外,为了不带错误地产生更为完全的序列,还需要一些另外的控制步骤或适用于特异序列的步骤。
通过比较区段与亚片段中的k-字节组组成,确定哪个亚片段属于哪个区段。由于k-字节组组成中的误差(源于集合体中的初级误差和k-字节组发生频率导致的统计误差),精确分隔亚片段是不可能的。因此,取代“全部或没有”的分隔,而对每个亚片段确定其来自给定区段的概率。这种概率是k-字节组长度、亚片段长度、排序文库片段的长度、集合体的大小以及文件中假k-字节组的百分比的函数P(sf,s)=(Ck-F)/Lsf这里Lsf为亚片段的长度,Ck为给定的亚片段/区段对共同的k-字节组数,F为包括k-字节组长度、基本文库片段的长度、集合体的大小与误差百分比之间的关系的参数。
某一特定区段的亚片段被看作丰富的短pSFs并用于进行明确连接。在此情况下,明确连接的定义具有细小的差别,因为它是以带重叠末端的亚片段属于给定区段的可能性为基础的。另外,明确连接的正确性以这些亚片段在其它区段中的连接来控制,在不同的区段中连接后,所有得到的亚片段合在一起,去掉包括在长亚片段中的较短亚片段,剩下的部分进行普通连接。如果得到的序列不完整,用同样的或较不严格的属于特定区段可能性的标准,重新进行亚片段的划分和连接,然后进行明确连接。
用严格标准规定明确重叠,一些信息不能使用,获得的是限定一个给定片段的各种可能性的亚片段,而不是完整序列。用较不严格的标准得到的是一正确完整的序列。多数情况下,如一个错误的连接,可能产生一个完整的但不正确的序列或产生其中没有连接的“鬼怪”亚片段。因此,对于基本文库的每一片段,可以获得a)许多种结果,其中一种是正确的,b)最可能正确的结果。当然,在极少数情况下,由于亚片段产生过程中的错误或归属可能性的特殊比值,不能产生明确的结果或一个最可能的结果。这些情况作为不完整序列保存,或将这些数据与基本文库的其它重叠片段相比较得到明确结果。
用所述的算法检测随机产生的、50kb长的、含模拟人基因组GC含量的具有40%GC含量的序列。这一序列中间插入了各种不同的All和其它一些总长4kb的重复序列。为了模拟一体外SBH实验,进行下列步骤准备相应数据。
—随机规定60个5kb长的重叠“克隆”的位置,以模拟基本文库的制备—随机确定一千个500bp“克隆”的位置,以模拟排序文库的制备。从序列中取出这些片段,制备有20个片段的随机库,确定库中k-字节组组合并保存在硬盘上。这些数据用于亚片段排序为克隆密度相同,将基本文库中的4百万个克隆和排序文库中的3百万个克隆用于分析整个人基因组。这7百万个克隆的总数比用于随机克隆几乎所有基因组DNA并用基于凝胶方法测序的几kb长的克隆数少几倍。
根据有关5kb的起点和结尾的数据,在该序列中确定了117个“信息片段”,随后确定组成单一“信息片段”的重叠k-字节组组合。只使用与预定的列表相符合的k-字节组子集。该列表包括65%的8聚体、30%的9聚体和5%的10-12聚体。根据以上数据进行亚片段的产生和排序。
根据两个实验中的模拟数据对该算法进行检测。五十个信息片段的序列通过100%正确数据集合(超过20,000bp)和带有10%假k-字节组(5%为阳性而其余5%为阴性)的26个信息片段(大约10,000bp)读出。
在第一个试验中,所有的亚片段都是正确的且50个信息片段中只有一个的序列没有被完全读出但以5个亚片段形式存在。分析排序文库中的重叠片段的位置表明它们都缺少将这5个亚片段特异性定位的信息。这些亚片段根据其重叠末端很可能是以两种方式连接,1-2-3-4-5和1-4-3-2-5。唯一的不同是亚片段2和4的位置发生了变化。由于亚片段2,3,4相对较短(总计约100bp),没有一个排序文库中的亚片段是以亚片段3起始或结尾的这一情况相对存在的几率较高且在本例中确实如此。
为模拟真正的测序,在一些试验中将一些假(杂交)数据包括在输入中。在寡聚体杂交实验中,在给定的条件下,唯一会产生不可靠数据的情况是相对于完全配对杂交的末端错配。因此,在模拟时只有那些同真正的链在任意末端有单个单元区别的k-字节组被认为是假阳性。这些假阳性是这样产生的有信息片段的初始k-字节组组成中,增加了5%的假阳性k-字节组子集。假阳性k-字节组是由于随机从集合中挑取一个k-字节组,对其进行复制并在其起始端和末端改变了一个碱基而造成的。紧接着是减去5%随机挑选的k-字节组子集。这样可以得出统计学上预期的最复杂情况的数目,在此情况下正确的k-字节组被末端含错误碱基的k-字节组所替代。
按所述的方法产生的k-字节组集合可导致最高达10%的错误数据。根据选择被复制,改变及删除的k-字节组的随机性而导致在不同的例子中此数值有所不同。然而,这一百分比已经超过在实际杂交实验中不可靠数据的3-4倍。引入的10%的错误会导致基本文库片段(信息片段基础文库)和区段中的亚片段数目增加两倍。正如预期的含假阳性的k-字节组集合中(见初级亚片段的产生),10%的最终亚片段在末端有错误碱基。没有发现亚片段的错误连接和带有错误序列的亚片段。排序过程中检测的26个信息片段中有4个的全系列没有能读出来。在所有的4个例子中所得到的序列均是以包括在同一区段中的几个较长或者较短亚片段的形式存在。此结果表明这种算法在有很大部分的错误数据时仍能有效工作。
从其k-字节组的组成中成功地读出序列可以用完整性和精确性来描述。在读序列的过程中,可能有两种特殊的情况1)在读序列时一部分信息丢失,但是已知何处不明确以及属于何种类型,2)获得的重新读出的序列同产生k-字节组组成的序列不符合,但不能检出错误。假定在使用精确的k-字节组集合时此算法已经达到了它的理论极限,那么只有第一种情况会发生。这种个完整性会导致一定数量的亚片段不能被明确排序且在决定序列的确切长度时会产生问题,例如,完全串联重复的数目。
由于假k-字节组,可能会产生不正确的序列。错误的原因不在于算法的不足,而在于给定的k-字节组组成明确代表的序列与最原始的序列不同。根据文件中存在的假k-字节组的种类可以定义成三种错误。假阴性k-字节组(不与假阳性同时产生)产生“缺失”。假阳性的k-字节组产生“延伸(不均等交换)”。随假阴性出现的假阳性是产生同“缺失”一起存在或独立存在的“插入”的原因。当在亚片段的两个可能的起始部位之间的所有的k-字节组(或其大多数)是假阴性时,产生缺失。由于序列中的每一个位置都是由k-字节组限定的,通常情况下缺失要求k个连续的假阴性。(在10%假阴性和k=8时,这种情况每经过108个单元就会发生一次)。即使是在利用含10个基因组等价物的随机文库进行哺乳动物基因组测序中这种情况也很少发生。
由于假阳性k-字节组引起的序列末端延伸是一种特殊类型“插入”,因为序列末端可以被认为是假阴性的k-字节组的无穷线性排列。可以认为一组假阳性k-字节组产生的亚片段要比一个k-字节组产生的亚片段长。如果亚片段是由重叠片段如排序文库中的随机物理片段产生的,那么这种情况是可以被检测出来的。假阳性和假阴性的k-字节组的特异性组合可以产生插入或替代缺失的插入。第一种情况下,连续的假阴性的数目小于k。两种情况下都需要几个重叠的假阳性k-字节组。这些插入和缺失大部分只是理论上的可能性而没有相应的实际影响,因为对假k-字节组的数目和特异性的要求简直太高了。
在不符合假阳性和/或假阴性的理论上要求的最小数目和种类的每种其它情况下,k-字节组组成中的错误只会导致所读出的序列完整性降低。
权利要求
1.一个通过杂交分析核酸的方法,包括如下步骤在支持物第一个区域中将第一套多个核酸区段排成矩阵;在所述支持物第二个区域中放置第二套多个核酸区段;在可分辨完全互补和一个碱基错配的条件下,在所述的第一个区域中,将所述的第一套多个核酸区段暴露于第一个杂交探针,所述的第一个杂交探针短于一个来自所述的第一套多个核酸区段的区段,在可分辨完全互补和一个碱基错配的条件下,在所述的第二个区域中温育第二个杂交探针,该第二个杂交探针短于一个来自所述的第二套多个核酸片段的区段,且所述的第二个杂交探针与所述的第一个杂交探针在序列上不相同;检测杂交探针与核酸区段的杂交;并分析结果。
2.如权利要求1中所述的方法,进一步包括,在所述的放置步骤前,引入一个防止核酸移动的阻障的步骤。
3.如权利要求1中所述的方法,进一步包括,在所述排列矩阵和放置步骤之后但在所述温育步骤之前,引入一个防止核酸移动的阻障的步骤。
4.如权利要求3中所述的方法,其中所述的引入步骤包括在所述支持物上压上一个物理阻障。
5.如权利要求2中所述的方法,其中所述的引入步骤包括施加一个垂直于所述的支持物可转换方向的电场的步骤,以防止区域间的探针混合。
6.如权利要求3中所述的方法,其中所述的引入步骤包括施加一个垂直于所述的支持物的可转换方向的电场的步骤,以防止区域间的探针混合。
7.如权利要求1中所述的方法,其中所述的排列矩阵步骤包括利用一个针矩阵来印迹核酸样品的步骤。
8.如权利要求1中所述的方法,其中所述的排列矩阵步骤包括利用一个试管矩阵来分配核酸样品的步骤。
9.如权利要求1中所述的方法,其中所述的排列矩阵步骤包括喷印核酸样品的步骤。
10.如权利要求1中所述的方法,其中所述的暴露步骤包括应用多个相邻杂交探针的步骤。
11.如权利要求1中所述的方法,其中所述的温育步骤包括应用多个相邻杂交探针的步骤。
12.如权利要求10中所述的方法,进一步包括连接所述的多个相邻杂交探针中的至少两个探针的步骤。
13.如权利要求11中所述的方法,进一步包括连接所述的多个相邻杂交探针中的至少两个探针的步骤。
14.如权利要求1中所述的方法,其中所述的暴露步骤包括应用具有重叠核酸序列的多个竞争性杂交探针的步骤。
15.如权利要求1中所述的方法,其中所述的温育步骤包括应用具有重叠核酸序列的多个竞争性杂交探针的步骤。
16.如权利要求1中所述的方法,其中所述的第一套多个核酸区段中的至少两个作为混合物而排列。
17.如权利要求1中所述的方法,其中所述的第二套多个核酸区段中的至少两个作为混合物而放置。
18.如权利要求1中所述的方法,进一步包括利用HgaI型限制酶消化制备样品并且利用一个锚来连接所产生的限制片段的步骤。
19.如权利要求1中所述的方法,进一步包括从给定长度的一套通用探针中选择探针的步骤。
20.如权利要求1中所述的方法,进一步包括从给定长度的一套不完全探针中选择探针的步骤。
21.如权利要求1中所述的方法,进一步包括选择脱氧核糖核酸探针的步骤。
22.如权利要求1中所述的方法,进一步包括选择核糖核酸探针的步骤。
23.如权利要求1中所述的方法,进一步包括从蛋白质核酸探针和含有碱基类似物的探针组成的一组中选择一个核酸类似物的步骤。
24.如权利要求1中所述的方法,进一步包括探针多重标记的步骤。
25.如权利要求1中所述的方法,进一步包括降解非杂交探针上的标记的步骤。
26.如权利要求19中所述的方法,其中所述的暴露或所述的温育步骤包括读出一套长度为6,7,8,9或10个碱基的通用探针的步骤。
27.如权利要求19中所述的方法,其中所述的暴露或所述的温育步骤包括读出一套长度为6,7,8,9或10个碱基的通用探针的步骤。
28.如权利要求20中所述的方法,其中所述的暴露或所述的温育步骤包括读出一套长度为5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29或30个碱基的不完全探针的步骤。
29.通过杂交分析核酸的设备,包括一个具有核酸片段附着点的支持物,所述的支持物被杂交区域所分隔。
30.如权利要求20中所述的方法,其中所述的放置步骤包括读出一套长度为5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29或30个碱基的不完全探针的步骤。
31.如权利要求1中所述的方法,进一步包括通过检测两个或更多的具有重叠核酸序列的探针杂交来确定一个区段上至少两个碱基的相对顺序的步骤,所述的重叠核酸序列包括所要确定的至少两个碱基。
32.一种核酸分析方法,包括如下步骤在一个探针矩阵中引入一个样品;调节温度使得在任何给定时间内大部分样品分子与连接的探针是不结合的;在混合物中加入一个标记探针;将混合物与连接酶温育;去除游离的探针;并检测连接产物。
33.如权利要求1中所述的方法,进一步包括确定改进所希望的结果的附加的探针并重复所述的暴露、温育、检测和分析步骤的步骤。
34.如权利要求1中所述的方法,进一步包括去除支持物上的探针以再利用所述的多个核酸区段的步骤。
全文摘要
杂交测序(SBH)的方法和装置可以用于DNA鉴定和DNA测序,所述的方法和装置采用分成亚区的滤膜以用于对多个样品进行不连续多个探针分析。制备分隔的滤膜,将样品附着于分隔的滤膜的各个区域,且每个区域用一个探针或多重探针进行杂交分析。经杂交数据的分析得到探针的互补性、SBH部分测序或SBH完全测序。
文档编号C12Q1/68GK1175283SQ95197574
公开日1998年3月4日 申请日期1995年12月8日 优先权日1994年12月9日
发明者拉多耶·T·德尔马纳茨 申请人:海塞克公司