专利名称:高通量测序模板的原位复制及其增加阅读长度的测序方法
技术领域:
本发明属于生物技术领域,具体是一种实现DNA序列分析中增加测序阅读长度的 方法,尤其涉及一种通过已测序模板的原位复制来增加阅读长度的高通量测序方法。
背景技术:
随着人类基因组计划和各种模式生物基因组计划的开展和完成,使人类步入了后 基因时代,对当代的生物学研究和医学研究产生了巨大的影响,分子生物学相关学科得到 了迅猛的发展。从基因水平上认识生命的差异,疾病发生、发展的规律,以及药物与生命体 的相互作用将成为可能。就基因序列分析而言,后基因时代的重点已由全基因组序列测定 转移到了对基因组中个体遗传差异及物种间遗传差异的比较。目前,无论是找寻新的还是 确认已知SNP位点,传统的Sanger DNA测序法,仍处于无可替代的地位。但这一方法存在 通量低和价格高的问题。第一个人类基因组序列测定的费用大约为10亿美元,目前这一费 用已经降低到大约2千万美元。但是,功能基因组的研究进展仍然受限于DNA测序技术。 为此,美国Venter基金会在2003年提出了 1000美金人类全基因组测序的研究目标。基于 传统的Sanger DNA测序法,目前国际上要完成一个哺乳动物全基因组的测序需要上千万美 元。以当前最为先进的ABI Prism 3730 DNA测序仪为例,完成人类基因组中30亿碱基 的测序,需要150台ABI Prism 3730 DNA测序仪运转一年,其测序成本达到二千四百万美 元。现在以Sanger DNA测序法为基础的,在发展高密度的毛细管阵列,以提高测序的并行 性,进而提高DNA的测序速度这一研究思路在提高DNA测序速度和降低成本方面的改进空 间也十分有限。目前,全基因组DNA测序技术已经成为国际上一个竞争十分激烈的研究领 域。大部分研究在合成测序策略方面,在市场化目前较为成功的例子是美国的454 Life Sciences公司基于乳液PCR产物的高通量并行焦测序技术;Illumina (Solexa)公司的桥 式扩增-DNA芯片延伸测序技术;以及Applied Biosestems (SOLiD)公司基于乳液PCR产 物的杂交-酶连接-酶切割高通量测序技术。在这些合成测序方法中,不管是焦测序还是 标记单体的延伸测序,或者是连接测序方法,随着延伸(或者连接)反应次数的增加,由于其 延伸(或者连接)效率、切割效率、测序引物的流失等影响,测序的错误会不断增加,导致序 列阅读长度的降低,而序列阅读长度显著影响拼接组装效率。已有文献表明,当序列阅读长 度为20个碱基时,需要进行50次以上的序列测定,而当序列阅读长度为80个碱基时,只需 要5-6次左右的序列测定就能将人类基因组序列进行有效的完整组装。因此,提高测序的 阅读长度不仅可以提高序列的准确性,而且可以大大降低序列测定的成本。
发明内容
发明目的本发明的目的就是通过一种已测序的高通量测序模板的原位复制,为 DNA序列分析增加测序阅读长度,建立快速,准确,便宜的基因组序列测定方法。技术方案一种高通量测序模板的原位复制及其增加阅读长度的测序方法,已经 制备好的DNA测序模板,在测序得到一段序列片段后,将其变性为DNA单链一旧模板,再通 过活化先前引入的延伸引物将其复制,并将旧模板全部切除后,得到与原来DNA测序模板 完全互补的DNA单链一新模板,将这些DNA单链作为DNA测序模板进行序列测定,便得到与 旧模板另一端、且互补的新测定序列,将新、旧模板测定的序列片段拼接,增加了测序模板 的阅读长度,降低了短片段序列拼接的困难,提高序列的准确性。高通量测序旧模板含有一个可以切割的位点,切割位点直接通过包含在切割位点 的通用引物与测序片段连接得到,或将包含在切割位点的扩增引物通过乳液PCR、滚环扩增 或者桥式PCR等方法获得到。所述高通量测序旧模板切割位点是化学切割的化学键,所述化学键为还原剂断裂 的二硫键或氧化剂断裂的邻二羟基,
所述高通量测序旧模板切割位点是酶识别切割位点,所述切割位点为核酸内切酶识别 的次黄嘌呤(I)碱基或尿嘧啶DNA糖苷酶识别的尿嘧啶(U)碱基。先前引入的延伸引物在获得旧模板的扩增过程和使用旧模板的测序过程中不能 发生扩增与测序反应,在扩增前,这个延伸引物的3’端可以通过磷酸化等方式非羟基化; 而在测序反应过程中,在采用延伸测序时,这个延伸引物的3’端也是非羟基化的,在采用连 接测序时,则这个延伸引物的3’端是羟基化的。旧模板测序完成并变性成单链后,通过对先前引入的延伸引物3’端羟基化后,在 聚合酶的作用下,将A、G、C、T四个碱基一并加入进行延伸反应,新模板的获得通过延伸引 物的一次延伸反应完成或通过多次退火进行多次延伸反应来实现。所述测序法为延伸测序方法或连接测序方法;所述测序模板为单分子测序模板或 多分子测序模板。有益效果
本发明与现有技术相比,具有如下优点
1.本发明的最大优点是实现了已测序一段DNA模板的原位复制,并以复制模板重新 进行序列测定,这相当于对与原来的DNA模板的另一端进行了序列测定,增加了序列阅读 长度,提高了拼接的正确性,减少重复测定的次数,大大降低了序列测定的费用。2.本发明涉及的已测序一段DNA模板的高通量复制、旧模板的切除,引物的固定 与活化均按照传统成熟的化学与流行的分子生物学方法进行,不存在技术难点,容易在现 有的技术上实施。
图1是本发明一种高通量单分子测序模板的原位复制及其增加阅读长度的测序 方法示意图。图中有基因组(1);基因组片段(2);连接子(3、4),连接子(3)的5’端有能 与基片发生键合反应的活性基团,序列中间含有化学或者酶切割位点;连接连接子(3)、连接子(4)的基因组片段(5);封闭引物(6),5’端有能与基片发生键合反应的活性基团,序 列与连接子4全部或者部分互补;活化基片(7),如修饰亲和素等的玻璃片;测序引物(8), 序列与连接子(4)全部或者部分互补;引物(6);延伸模板(9);测序引物(10),序列与连接 子C3)全部或者部分互补。基因组(1)用酶切割(或者超声破碎)(a)成大小为50-1000碱 基的片段,并在连接酶的作用下将这些片段化核酸序列(2)用一对序列已知的通用连接子 (3、4)进行连接反应(b)成为含有连接臂的片段化序列(5),含有连接臂的片段化序列(5) 和封闭引物(6)的活性基团(如生物素等)与基片(7)的活性基团发生化学键合(c)使之固 定,加入测序引物(8)对单分子模板(5)进行一系列的测序反应(d)(Harris,Τ. D. et al. Single-molecule DNA sequencing of a viral genome. Science,2008,320, 106 - 109), 实现对模板5的一段序列测定;当模板5的测序反应完成后,清除测序引物(8)的合成产 物,并活化(e)封闭引物6,在聚合酶作用下,引物6发生延伸反应(单体A、G、C、T的聚合合 成)(f、g),得到与模板5完全互补的单链DNA模板9,对模板4进行切割(h),并将其封闭 (i)后,加入测序引物(10)对单分子模板(9)进行一系列的测序反应(j) (Braslavsky, I. et al. Sequence information can be obtained from single DNA molecules. Proc. Natl. Acad. Sci. USA. 2003, 100, 3960 - 3964),实现对模板9的一段序列测定。由于模 板(5)与模板(9)是完全互补的序列,对新模板(9)序列的测定可以转换到模板(5)的序列 信息,从而得到模板(5)两端各一段序列片段的信息。图2是本发明一种微球乳液扩增高通量测序模板的原位复制及其增加阅读长度 的测序方法示意图。图中有基因组(1);基因组片段(2);连接子(3、4);连接连接子(3)、 连接子(4)的基因组片段(5);微球(6);引物(7),5’端有能与微球发生键合反应的活性基 团;引物(8),5’端有能与微球发生键合反应的活性基团,序列中间含有化学或者酶切割位 点;固定引物(7)和引物(8)的微球(9);扩增产物(10);微球固定的基片(11);模板(10) 的测序产物(12)。基因组(1)用酶切割(或者超声破碎)(a)成大小为50-1000碱基的片 段,并在连接酶的作用下将这些片段化核酸序列(2)用一对序列已知的通用连接子(3、4) 进行连接反应(b)成为含有连接臂的片段化序列(5),片段化序列(5 )通过预扩增反应, 并经电泳后,取长度100-200bp的片段用于扩增测序模板;同时,引物(7、8)固定(c)于微 球(6)上,得到固定引物7、8的微球(9)。微球(9)和长度100-200bp的片段化序列(5) 在微乳液体系中进行 PCR 扩增(d) (Williams, R. et al. Amplification of complex gene libraries by emulsion PCR. Nature Methods, 2006, 3 (7),545-550 ;Dieh, F. et al. BEAMing: single-molecule PCR on microparticles in water—in—oil emulsions. Nature Methods,2006,3 (7),551-559),得到可用于测序的DNA模板,然后利用微球上引物 (7)的3’端基团与基片发生键合反应(e),使之固定于基片上,对模板(10)进行一系列的 测序反应(f),实现模板10的一段序列测定;当模板(10)的测序反应完成后,变性清除测 序产物(12),并活化(g)封闭引物(7),在聚合酶作用下,引物(7)发生延伸反应(单体A、G、 C、T的聚合合成)(h、i),得到与模板(10)完全互补的单链DNA模板(13),对模板10进行 切割(j),并将其封闭(k)后,对模板(13)进行一系列的测序反应(1),实现对模板(13)的 一段序列测定。由于模板(1 与模板(10)是完全互补的序列,对新模板(13)序列的测定 可以转换到模板(10)的序列信息,从而得到模板(10)两端各一段序列片段的信息。图3不同浓度的原始DNA样品超声打碎的琼脂糖凝胶电泳图(M1、M2 梯度IOObp的标识长度DNA, A DNA浓度为100ng/mL,B: DNA浓度为150ng/m L) 图4模板磁珠在玻璃片基片固定的显微图片;
图5连接测序法一次连接得到的四色荧光图(局部),其中(I)Cyanine 3 ;(2) Cyanine 5; (3) Texas Red ; (4) Fuorescein Isothiocyannate0
具体实施例方式以下结合实例对本发明作进一步的描述
高通量测序模板的原位复制是在已经完成高通量测序模板制备,并完成对高通量DNA 模板一端序列测定后,将其变性成单链DNA分子,并将先前固定在模板周围的延伸引物活 化,然后以单链DNA分子为延伸模板,延伸引物完成延伸后得到与原来单链DNA分子完全 互补的一条链(新模板),将旧模板全部切除后,新模板可以继续用于DNA序列的测定,测定 的这段序列与旧模板另一端的一段序列完全互补,这样可以将这段序列与旧模板测定的序 列片段拼接,增加了测序模板的阅读长度,降低了短片段序列拼接的困难,提高序列的准确 性。
实施例1 高通量测序模板的再生及其连接测序方法测定大肠杆菌基因组 (1)将 lOOng/mL大肠杆菌基因组样品IOOmL在超声仪上选择低频超声时间20分钟, 超声结果进行了电泳检测(如图3),从凝胶上回收100士30bp长度的DNA片段。
(2)将连接子1、2 (具体序列见下表)与上述100士30bp片段化核酸序列在连接酶 的作用下进行连接(所有不同模板分子的两端均含有相同序列,即连接子)。
■疲子删连接子I 逢擴子ι 5补序列 连接子2…… 盡接子2互补細5' -PO,: -/.mCCAClACCCCTCCGClTlCriCTCTATCiCrGCAGTC'GOTGATJ. * · —!TGA《:-(**> :τ'ΓΑΑ 逝n'AAGA《,A (3)将生物素修饰的扩增引物和延伸引物(具体序列见下表),与亲和素修饰的磁 性微球充分反应,使其固定于磁性微球上。
引物序列模板扩增引物5‘ -Bio-CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGAT延伸引物5‘ -Bio-AACTGCCCCGGGTTCCTCATTCTCT-P043_(4)将连接连接子的片段化核酸序列与固定扩增引物和延伸引物的磁性微球在微 乳液体系下进行PCR扩增,并利用延伸引物的3端磷酸基团与基片上的氨基键合固定磁珠 (图4),得到磁性微球大肠杆菌基因组测序模板芯片。(5)用T4激酶将延伸引物的3端羟基化,以避免干扰后续的连接测序反应。将固定微球的玻璃片安装到高通量测序仪中构建反应池,按照连接测序方法的 禾呈序(Shendure, J. et al. Accurate multiplex polony sequencing of an evolved bacterial genome. Science, 2005, 309, 1728 - 1732.文献),获取每个磁珠每次反应的荧 光信号,并将信号转化为碱基信息(图5),当进行30次连接测序测定模板30个碱基序列信
(6)将0. IM NaOH溶液加入到反应池中使测序产物变性成单链DNA。(7)将聚合酶和单体A、G、C、T加入到反应池中,经过测序产物与单链DNA模板的 退火,延伸,复制第一次测序的DNA模板。(8)用核酸内切酶处理上述芯片切割第一次测序的DNA模板,并在碱性条件下将
其清除。(9)加入测序引物对新模板进行序列测定,并将测定的序列转化到对应第一次模 板的序列中。(10)将所有序列片段在大肠杆菌基因组参考序列中进行比对,拼接(相同微球上, 第二次测定的序列片段第一个碱基距离第一次测定的序列片段的第30个碱基相距0 95bp),完成大肠杆菌基因组的再测序。
实施例2 高通量测序模板的再生及其连接测序方法测定人基因组 (1)按照实施例1的方法制备磁性微球人基因组测序模板芯片(见实施例1中(1) (4)步骤)。(2)将固定微球人基因组测序模板的玻璃片安装到高通量测序仪中构建反应池, 按照延伸狈Ij序方法(Bentley, D. R. et aL Accurate whole human genome sequencing using reversible terminator chemistry. Nature, 2008, 456,53-59)的程序,获取每个磁 珠每次反应的荧光信号,并将信号转化为碱基信息(图5),当进行35次延伸测序测定模板 35个碱基序列信息。(3)将0. IM NaOH溶液加入到反应池中使测序产物变性成单链DNA。(4)用T4激酶处理预先固定的延伸引物的3端磷酸基团,将其羟基化。(5)将聚合酶和单体A、G、C、T加入到反应池中,经过测序产物与单链DNA模板的 退火,延伸,复制第一次测序的DNA模板。(6)用尿嘧啶DNA糖苷酶处理上述芯片切割第一次测序的DNA模板,并在碱性条件 下将其清除。(7)加入测序引物对新模板进行序列测定,并将测定的序列转化到对应第一次模 板的序列中。(8)将所有序列片段在人基因组参考序列中进行比对,拼接(相同微球上,第二次 测定的序列片段第一个碱基距离第一次测定的序列片段的第35个碱基相距0 95bp),完 成人基因组的再测序。
序列表
<110> 东南大学
<120> 一种高通量测序模板的原位复制及其增加阅读长度的测序方法
<130>
<160> 6
<170> PatentIn version 3.3 <210> 权利要求
1.一种高通量测序模板的原位复制及其增加阅读长度的测序方法,其特征在于已经制 备好的DNA测序模板,在测序得到一段序列片段后,将其变性为DNA单链一旧模板,再通过 活化先前引入的延伸引物将其复制,并将旧模板全部切除后,得到与原来DNA测序模板完 全互补的DNA单链一新模板,将这些DNA单链作为DNA测序模板进行序列测定,便得到与旧 模板另一端、且互补的新测定序列,将新、旧模板测定的序列片段拼接,增加了测序模板的 阅读长度,降低了短片段序列拼接的困难,提高序列的准确性。
2.根据权利要求1所述的高通量测序模板的原位复制及其增加阅读长度的测序方 法,其特征在于高通量测序旧模板含有一个可以切割的位点,切割位点直接通过包含在切 割位点的通用引物与测序片段连接得到,或将包含在切割位点的扩增引物通过乳液PCR、滚 环扩增或者桥式PCR等方法获得到。
3.根据权利要求2所述的高通量测序模板的原位复制及其增加阅读长度的测序方 法,其特征在于所述高通量测序旧模板切割位点是化学切割的化学键,所述化学键为还原 剂断裂的二硫键或氧化剂断裂的邻二羟基。
4.根据权利要求2所述的高通量测序模板的原位复制及其增加阅读长度的测序方 法,其特征在于所述高通量测序旧模板切割位点是酶识别切割位点,所述切割位点为核酸 内切酶识别的次黄嘌呤(I)碱基或尿嘧啶DNA糖苷酶识别的尿嘧啶(U)碱基。
5.根据权利要求1所述的高通量测序模板的原位复制及其增加阅读长度的测序方法, 其特征在于先前引入的延伸引物在获得旧模板的扩增过程和使用旧模板的测序过程中不 能发生扩增与测序反应,在扩增前,这个延伸引物的3’端可以通过磷酸化等方式非羟基化; 而在测序反应过程中,在采用延伸测序时,这个延伸引物的3’端也是非羟基化的,在采用连 接测序时,则这个延伸引物的3’端是羟基化的。
6.根据权利要求1所述的高通量测序模板的原位复制及其增加阅读长度的测序方 法,其特征在于旧模板测序完成并变性成单链后,通过对先前引入的延伸引物3’端羟基化 后,在聚合酶的作用下,将A、G、C、T四个碱基一并加入进行延伸反应,新模板的获得通过延 伸引物的一次延伸反应完成或通过多次退火进行多次延伸反应来实现。
7.根据权利要求1所述的高通量测序模板的原位复制及其增加阅读长度的测序方 法,其特征在于所述测序法为延伸测序方法或连接测序方法;所述测序模板为单分子测序 模板或多分子测序模板。
全文摘要
高通量测序模板的原位复制及其增加阅读长度的测序方法,已经制备好的DNA测序模板,在测序得到一段序列片段后,将其变性为DNA单链-旧模板,再通过活化先前引入的延伸引物将其复制,并将旧模板全部切除后,得到与原来DNA测序模板完全互补的DNA单链-新模板,将这些DNA单链作为DNA测序模板进行序列测定,便得到与旧模板另一端、且互补的新测定序列,将新、旧模板测定的序列片段拼接,增加了测序模板的阅读长度,降低了短片段序列拼接的困难,提高序列的准确性。
文档编号C12Q1/68GK102140523SQ201110030788
公开日2011年8月3日 申请日期2011年1月28日 优先权日2011年1月28日
发明者肖鹏峰, 葛芹玉, 陆祖宏, 陈婧 申请人:东南大学