靶dna富集和测序的制作方法
【专利摘要】本发明涉及用于富集组合物中一种或多种脱氧核酸(DNA)靶序列的方法,所述方法包括以下步骤:提供包含一种或多种脱氧核酸(DNA)分子的组合物,将所述一种或多种DNA分子与一种或多种靶特异性的核糖核酸(RNA)杂交探针杂交,从而形成一种或多种RNA/DNA的杂交体,用特异性针对这类RNA/DNA的杂交体的一种或多种抗体捕获所述RNA/DNA的杂交体,从而形成一种或多种RNA/DNA/抗体的杂交体,分离所述一种或多种RNA/DNA/抗体的杂交体,如果需要的话扩增所述一种或多种RNA/DNA/抗体的杂交体的一种或多种DNA分子,以及任选地测序所述一种或多种RNA/DNA/抗体的杂交体的一种或多种DNA分子或者所述扩增产物,其中优选地所述测序是通过下一代测序进行。本发明还涉及包含特异性针对DNA/RNA的杂交分子的第一抗体并且额外地包含一种或多种靶特异性的RNA杂交探针的试剂盒,其中任选地,所述抗体被结合到磁性颗粒上。
【专利说明】靶DNA富集和测序
【技术领域】
[0001] 本发明属于分子生物学的领域、核酸测序的领域,以及更具体地属于DNA序列富 集和测序的领域。
【背景技术】
[0002] 多年以来,在基因组分析的领域中的研究已经从仅测序几个核苷酸发展到测序全 基因组。
[0003]高通量测序仪,也称为"下一代"(next-gen或ngs)、或有时候称为"第二代"(和 第三代相对)测序仪是将能够输出十万到数百万个读长(read)(覆盖了数百万个碱基或数 十亿个碱基对(Gbp))的技术。该技术被用于(重)测序基因组、测定蛋白质的DNA结合位 点(ChIP-seq)、测序转录组(RNA-seq)(参见最后一段)。
[0004] 生产商和技术分别如下:Solexa/Illumina(产生最高达600Gb的36或150bp的读 长)、Roche/454 (产生最高达 700Mbp的 400-1000bp的读长)、ABI/S0LiD(产生 >20Gb/ 天的 35_75bp的读长)、Helicos(产生 21_35Gb的 25_45bp的读长)和CompleteGenomics( - 家服务公司)。
[0005] 这些技术将序列信息的分析带入另一层面。重新考虑实验是至关重要的。
[0006] 例如,如果想要分析所有已知的致癌基因(已知大约3000个与癌症相关的基 因(M.E. Higgins et al. CancerGenes:a gene selection resource for cancer genome pro jects. Nature Methods. 2007 35 (1)?Pp.D721-D726)),必须测序大量DNA 以获得少量相 关的序列信息。
[0007] 所产生的大量数据使以产生主要有用的序列信息的方式来设计实验是至关重要 的。
[0008] 因此,本发明的目的是提供用于仅富集那些目的DNA序列(靶序列)的方法。本 发明的另一目的是提供用于特异性确定靶序列的序列而不需要测序(复合)样品中存在的 所有DNA的方法。
[0009] 定义
[0010] 本文的"组合物"是包含至少一种或多种脱氧核糖核酸分子(DNA分子)的水溶液。 优选地,所述组合物是一种复合溶液,即,包含目的DNA序列(靶序列)和其他非目的DNA 序列(不需要的序列)的溶液。对于技术人员而言显而易见的,所述不需要的序列通常比 所述靶序列丰富得多,相差1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或更多的数量级。
[0011] 本文中的"核糖核酸"在每一个核苷酸包括一个核糖,其碳原子编号为1'到5'。 碱基被连接到1'位上,一般为腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)或尿嘧啶(U)。腺嘌呤和 鸟嘌呤是嘌呤,胞嘧啶和尿嘧啶是嘧啶。磷酸基团被连接到一个核糖的3'位和下一个核糖 的5'位。在生理pH下所述磷酸基团均都带有负电,使RNA成为荷电分子(聚阴离子)。所 述碱基可能在胞嘧啶和鸟嘌呤之间、腺嘌呤和尿嘧啶之间以及鸟嘌呤和尿嘧啶之间形成氢 键。但是,其它的相互作用是可能的,例如,在凸出(bulge)中的一组彼此结合的腺嘌呤碱 基,或具有鸟嘌呤-腺嘌呤碱基对的GNRA四环。RNA区别于DNA的一个重要结构特征是在 其核糖的2'位上存在一个羟基基团。该官能团的存在导致螺旋采用A型几何形状而不是 在DNA中最常观察到的B-型。这导致形成极深且窄的大沟、阴影和宽的小沟。存在2'羟 基基团的第二个后果是在RNA分子的构象柔性区域(即,不参与形成双螺旋的区域),该基 团能对邻近的磷酸二酯键进行化学攻击以切割所述主链。
[0012] 有将近100个其他天然存在的经修饰的核苷,其中假尿嘧啶核苷和带有2' -0-甲 基核糖的核苷是最常见的。
[0013] 在本文,"RNA/DNA"杂交分子是当RNA链以反向互补的方式与DNA链杂交时的分 子:参见图11。
[0014] 这类特异性震对RNA/DNA的杂交体的抗体也被称为抗RNA/DNA(杂交体)的抗体。 一旦这类抗体结合到RNA/DNA的杂交体,所产生的杂交体被称为RNA/DNA/抗体的杂交体。
【发明内容】
[0015] 本文所述的方法与之前的方法的不同之处在于使用未标记的RNA探选择性富集 所述目的基因组区域(靶区域)。这样的靶富集特别用于随后的测序步骤,因为仅所述靶序 列会被分析,从而有助于将DNA压载物(DNAballast)显著降低数个数量级。
[0016] 本文所述的方法是实施例部分描述的SureSelect靶富集系统的增强方案,但是 避免了使用昂贵的经标记的RNA探针(RNA诱饵(bait))。另外,本发明的方法将记载于Digene的专利US6, 228, 578B1中的DNA/RNA的杂交体捕获技术的应用扩展到复杂有机体的 基因组DNA,其中仅需要特异性地富集靶序列以用于例如测序。因此,本发明适于选择性富 集和/或测序任何目的DNA区域。这些区域可以是来自任何基因组(genepanel)(例如, 代谢或调节基因和致癌基因)的编码区(外显子)。
[0017] 在W02011/097528中公开了相似的方法,所述方法包括使RNA样品与DNA探针接 触以使得由互补链形成DNA/RNA的杂交体,从所述样品中分离杂交体并检测所述杂交体中 的DNA探针,从而间接检测了互补的RNA。所述DNA探针包括用于扩增的侧翼特征序列(引 物结合位点)和用于检测的条形码序列。
[0018] 和现有方法相比,W02011/097528的方法具有一些缺点。在已知的方法中,通过 DNA探针间接检测RNA。与直接测定RNA的方法相比,这种情况下的测定可靠性比较低。另 夕卜,所述DNA探针相当复杂,其包含与待检测的RNA互补的小的序列部分以及相当长的侧翼 序列。因此,这类探针不但很难设计而且可能通过所述长侧翼序列无意中结合至RNA,从而 产生假阳性信号。
[0019] 本发明涉及用于富集和/或测序组合物中一种或多种脱氧核糖核酸(DNA)靶序列 的方法,所述方法包括以下步骤:(a)提供包含一种或多种脱氧核酸(DNA)分子的组合物, (b)将所述一种或多种DNA分子与一种或多种靶特异性的核糖核酸(RNA)杂交探针杂交, 从而形成一种或多种RNA/DNA的杂交体,(c)用特异性针对这类RNA/DNA的杂交体的一种 或多种抗体捕获所述RNA/DNA的杂交体,从而形成一种或多种RNA/DNA/抗体的杂交体,(d) 分离所述一种或多种RNA/DNA/抗体的杂交体,(e)如果需要的话,扩增所述RNA/DNA/抗体 的杂交体的DNA分子,和(f)任选地,测序所述RNA/DNA/抗体的杂交体的DNA分子或所述 扩增产物。优选地,所述测序是通过下一代测序进行。
[0020] 简言之,将特异性针对存在于所述样品中的一种或多种目的DNA分子的RNA探针 (即靶特异性RNA探针)杂交到DNA上(参见图11)。为了有效地将所述RNA探针杂交到 所述DNA分子上,可能必须将DNA分子变性以产生单链的DNA。提供了抗-RNA/DNA的杂交 体的抗体,所述抗体特异性结合RNA/DNA的杂交体从而捕获所述杂交体。然后可通过适当 的方法(例如,经由使用蛋白A的游离抗体的Fc结合或通过使用结合至固体表面的抗体) 分离所述包含RNA/DNA的杂交体的抗体。所述方法可任选地包括对所述分离的和抗体结合 的RNA/DNA的杂交体(RNA/DNA/抗体的杂交体)进行洗涤。然后可对所述RNA/DNA/抗体 的杂交体的DNA分子进行扩增和/或测序。所述方法在下文被详细介绍。
[0021] 如上文所述,所述靶序列优选地选自编码区(外显子)。另外,优选地,所述编码区 选自代谢基因、调节基因和致癌基因。
[0022] 优选地,组合物中的DNA分子是用于下一代测序的DNA片段文库,和任选地,所述 文库中的DNA片段包含末端通用接头序列。
[0023] 可由全DNA或基因组DNA构建DNA片段文库。分离所述DNA、将其片段化并进行大 小筛选。如果需要的话,对3'和/或5'突出(overhang)进行修复以产生平末端或优选在 3'端带有A-突出的片段。在DNA片段的两端连接接头序列以使得所述文库中的所有DNA 片段均侧接相同的序列基序,从而产生通用末端接头序列。优选地,DNA片段侧接两种不同 的通用末端接头序列。然后可将所述末端接头序列用于扩增所述DNA片段文库。
[0024] 因此,优选地,所述DNA分子由DNA片段文库组成,其中(a)将所述文库中的DNA 片段化并进行大小筛选,如果需要的话,接着进行末端修复以分别产生双链平末端片段或 带有A-突出的末端,和其中(b)将所述片段连接到双链接头寡核苷酸上以产生带有相同侧 翼序列的片段文库。
[0025] 本发明的方法使用了靶特异性RNA探针。目前的方法具有这样的缺点--它们涉 及经标记的RNA探针(例如,生物素化的RNA诱馆)和/或使用非特异性RNA探针。经标 记的探针的生产既昂贵又麻烦。相比之下,不需要修饰或标记本文所述方法中使用的RNA 探针。因此,所述RNA探针易于生产并且具有成本效益。因此,优选地,所述RNA探针是未 经修饰且未经标记的。非特异性RNA探针导致了不需要的DNA序列的富集,S卩,给随后的步 骤(例如,测序步骤)带来增加的压载物。
[0026] -方面,所述RNA探针可以是合成的RNA探针。另一方面,可从生物样品中分离和 纯化所述RNA探针。优选地,首先将所述RNA探针合成为在一端含有RNA聚合酶启动子序 列的DNA寡核苷酸,然后将其进行体外转录(即,转录的DNA探针)。
[0027] 所述DNA/RNA杂交的捕获技术记载于Digene的专利US6, 228, 578B1中。在本文 中,所述抗RNA/DNA的杂交体的抗体优选地选自单克隆或多克隆抗体。尤其优选地,所述抗 体是单克隆的。
[0028] DNA/RNA的特异性抗体优选地偶联固相(例如,磁珠)以用于单纯分离(simple separation)或者可能处于溶液中并通过结合至偶联G蛋白的固相(其结合IgG抗体)而 被分离。也就是说,本文所述方法中使用的抗RNA/DNA的杂交体的抗体优选地结合到固体 表面上。本领域技术人员会理解,抗体的取向对于有效结合RNA/DNA的杂交体是很重要的。 可将抗体共价偶联到固体表面上。所述固体表面可以是球形形状,例如圆形或椭圆形。圆 形或椭圆形固体表面的直径可以在〇. 05ym到100iim之间,优选0. 2iim到20iim之间,更 优选1Um到10lim之间。尤其优选地,将所述抗体结合到颗粒(优选磁性颗粒)上。
[0029] 如果将所述抗体结合到颗粒上,优选地,所述分离步骤是分别通过离心或使用磁 场来进行。
[0030] 本文公开的方法可能包括扩增RNA/DNA/抗体的杂交体的DNA分子的步骤,该步骤 取决于DNA分子的扩增对于随后的方法步骤(例如,分析、定量、检测和/或测序)是否是 必需的。例如,由于DNA分子的浓度太小。
[0031] 很多扩增方法是已知的。在一个优选的实施方案中,所述扩增方法选自聚合酶链 式反应(PCR)、实时PCR(rtPCR)、解螺旋酶依赖性扩增(HAD)和重组酶-聚合酶扩增(RPA)。
[0032] 所述扩增方法是非等温方法或等温方法。所述非等温扩增方法可选自聚合酶链式 反应(PCR)(Saikietal. (1985)Science230:1350)。所述等温扩增方法可选自解螺旋酶依 赖性扩增(HAD)(Vincentetal. (2004)EMB0r印5(8):795-800)、热稳定性祖0(纽0六)(八11 etal. (2005)JBiolChem280 (32): 28952-28958)、重组酶聚合酶扩增(RPA) (Pi印enburg etal. (2006)P1〇SBiol4(7): 1115-1120)。
[0033] 本发明上下文中的通过"等温扩增反应"意指在反应过程中温度不会显著变化。在 一个优选的实施方案中,在扩增发生的主要酶反应步骤中,所述等温扩增反应的温度偏离 不超过10°C、优选不超过5°C、更优选不超过2°C。
[0034] 根据核酸的等温扩增的方法,所述扩增反应需要不同的酶。已知的用于核酸扩增 的等温方法为上文所述的方法,其中至少一种用于在等温条件下扩增核酸的嗜温酶选自解 螺旋酶、嗜温聚合酶、具有链置换活性的嗜温聚合酶、重组蛋白。
[0035] "解螺旋酶"是本领域技术人员已知的。它们是这样的蛋白:即所述蛋白沿着核酸 磷酸二酯键主链定向移动,使用从NTP或dNTP的水解中获得的能量分开两条退火的核酸链 (例如,DNA、RNA、或RNA-DNA的杂交体)。基于所定义的解螺旋酶基序的存在情况,可以人 为给定的蛋白具备解螺旋酶活性。技术人员能够选择具有解螺旋酶活性的适当的酶以用在 本发明的方法中。在一个优选的实施方案中,所述解螺旋酶选自如下来自不同家族的解螺 旋酶:超家族I解螺旋酶(例如,dda、pcrA、F-质粒tral蛋白解螺旋酶、uvrD)、超家族II 解螺旋酶(例如,recQ、NS3-解螺旋酶)、超家族III解螺旋酶(例如,AAVrep解螺旋酶)、 来自DnaB-样超家族的解螺旋酶(例如,17噬菌体解螺旋酶)或来自Rho-样超家族的解 螺旋酶。
[0036] 除了所需的酶之外,所述扩增方法还包括缓冲液、dNTP或NTP。
[0037] 如本文使用的,术语"dNTP"是指脱氧核糖核苷三磷酸。这类dNTP的非限制性实 例为dATP、dGTP、dCTP、dTTP、dUTP,其也可以以经标记的衍生物的形式存在,例如,包含荧光 标记物、放射性标记物、生物素标记物。也包括具有经修饰的核苷酸碱基的dNTP,其中所述 核苷酸碱基是例如:次黄嘌呤,黄嘌呤、7-甲基鸟嘌呤、次黄苷、黄嘌呤核苷、7-甲基鸟苷、 5,6-二氢尿嘧啶、5-甲基胞嘧啶、假尿苷、二氢尿苷、5-甲基胞苷。
[0038] 如本文使用的,术语"NTP"是指核糖核苷三磷酸。这类NTP的非限制性实例为ATP、 GTP、CTP、TTP、UTP,其也可以以经标记的衍生物的形式存在,例如,包含荧光标记物、放射性 标记物、生物素标记物。
[0039] 优选地,所述扩增方法是聚合酶链式反应(PCR)方法。
[0040] PCR反应可由10-100个"循环"的DNA分子的变性和合成组成。在一个优选 的实施方案中,热循环扩增反应中发生变性时的温度为约90°C到95°C以上,更优选地为 92°C-94°C。优选的热循环扩增方法包括聚合酶链式反应,所述聚合酶链式反应包含约10 至丨J1〇〇个循环,更优选地约25到50个循环,以及约90°C到95°C以上的峰值温度,更优选 92°C-94°C。在一个优选的实施方案中,PCR反应通常是使用源自嗜热性原核生物的DNA聚 合酶进行,以便以与所包括的反应步骤数相比的指数数量级来产生至少一种靶核酸序列, 条件是(a)足够详细地了解所述靶序列的末端以使得能够合成会与其杂交的寡核苷酸引 物,(b)可获得少量所述靶序列来启动所述链式反应。在本文,所述聚合酶优选地为具有校 对活性的聚合酶。所述酶优选是热稳定性的。
[0041] 用于扩增的引物可使用任何适当的方法(例如,磷酸三酯和磷酸二酯方法 或其自动化实施方案)来制备。在一个这样的自动化实施方案中,将二乙基亚磷酰 胺(diethylophosphoramidite)用作起始原料并按照Beaucageetal.,Tetrahedron Letters,22:1859-1862 (1981)中所记载的合成。用于在经修饰的固体载体上合成寡核苷酸 的方法记载于以引用的方式纳入本文的美国专利4, 458, 006中。也可能使用分离自生物来 源(例如,限制性核酸内切酶消化物)的引物。
[0042] 优选的引物具有约15-100个碱基的长度,更优选约20-50个碱基,最优选约20-40 个喊基。
[0043] 本方法的其他优势在于可进行所述扩增步骤而不需要从RNA/DNA抗体的杂交体 中预先分离DNA分子。所述抗体和固体表面都不干扰所述扩增步骤。因此在扩增所述DNA 之前不必为了释放DNA分子而将所述杂交体变性。也就是说,可直接在所述分离的RNA/ DNA/抗体的杂交体上对所述DNA分子进行扩增。
[0044] 优选使用结合所述通用接头序列的引物进行所述扩增步骤。制备引物的步骤如上 所述。
[0045] 本发明优选地包括以下步骤:测序所述一种或多种RNA/DNA/抗体的杂交体的一 种或多种DNA分子,或者如果需要或必须的话所述扩增产物。目前的方法具有这样的优 势--即,其不受限于一种特定的测序方法。但是,优选下一代测序方法。
[0046] DNA测序技术在从基础研究到临床诊断的多种领域中都是极其重要的。可从这些 技术中获得的结果可包括不同程度特异性的信息。例如,有用的信息可由如下内容组成:确 定特定的多核苷酸在序列上是否不同于参考多核苷酸、确认样品中特定的多核苷酸序列的 存在情况、确定部分序列信息(例如多核苷酸中一种或多种核苷酸的种类)、确定多核苷酸 中的核苷酸的种类和顺序,等等。
[0047] 所述测序步骤优选地是通过下一代测序进行。生产商和技术分别如下:Solexa/ Illumina(产生最高达600Gb的36或150bp的读长)、Roche/454(产生最高达700Mbp 的 400-100bp的读长)、ABI/SOLiD?(产生 >20Gb/ 天的 35-75bp的读长)、Helicos(产生 21_35Gb的25_45bp的读长)和CompleteGenomics( -家服务公司)。其他的生产商包括 PacificBioscience商业化的PacBioRS。
[0048] 使用合成技术的Solexa/Illumina测序基于可逆的染料终止子。首先将DNA 分子与玻片上的引物连接并对其进行扩增,以形成局部克隆菌落(桥式扩增)。加入四 种类型的可逆终止子碱基(RT-碱基),并将未整合的核苷酸洗去。不同于焦磷酸测序 (pyrosequencing),所述DNA-次只能被延伸一个核苷酸。用照相机拍摄突光标记的核苷 酸的图像,然后从DNA中以化学方法移除染料和末端3'阻断剂,使得能够进行下一个循环(Brenneretal. ,NatureBiotechnol. 2000. 18(6):630-634)〇
[0049] S0LiD?( "通过寡核苷酸连接和检测进行测序")方法(LifeTechnologies; W006/084132A2)是基于如下步骤:通过通用接头序列将模板核酸的PCR扩增片段连接到磁 珠上,随后通过将经标记的探针连接到与接头序列杂交的引物上来对所述片段序列进行检 测。对于读出数据,使用了一组四种荧光标记的双碱基探针。读出后,将部分探针切除并进 行新的连接、检测和切割的循环。由于使用了双碱基探针,对于每一个模板序列必须要进行 两轮测序。
[0050] PacBioRS是基于零级波导的特性的单分子实时测序(SMRT)平台。将单DNA聚合 酶固定在ZMW的底部,以单DNA分子作为模板。所述ZMW是一种结构,其产生了照明观察体 积,该体积小到足以仅仅能观察到被DNA聚合酶整合的DNA的单个核苷酸。将四种DNA核 苷酸中的每一个与四种不同的荧光染料之一连接。当核苷酸被DNA聚合酶整合时,荧光标 签被切除并扩散出ZMW的观察区,在那里不再能观察到其荧光。用检测器检测核苷酸整合 的荧光信号,并根据相应的染料的荧光进行碱基识别(basecall)。
[0051] 目前的方法具有这样的优势--即,其不受限于一种特定的测序方法。如果所述 测序步骤是通过下一代测序进行,则所使用的方法优选地选自以上描述的那些方法。
[0052] 可在所述测序步骤之前对所述扩增产物进行额外地检测和/或定量。
[0053] 所述检测步骤可通过在扩增产物中整合可检测的探针(例如,荧光标记的探针) 来进行。本发明的探针是寡核苷酸、核酸或其片段,所述探针基本上与特定的核酸序列互 补。适合的杂交探针包括LightCycler探针(Roche)、TaqMan探针(LifeTechnologies)、 分子信标探针、Scorpion引物、Sunrise引物、LUX引物和Amplifluor引物。
[0054] 或者,所述检测步骤可通过在实时PCR中使用双链DNA结合染料(例如,STBR Green)作为报告分子来进行。DNA结合染料结合PCR中的所有双链DNA,从而产生所述染料 的荧光。因此,在PCR过程中DNA产物的增加导致了荧光强度的增加,并且在每一循环中对 其进行测量,因此使得能够定量DNA浓度。
[0055] 所述定量步骤可基于使用前述技术的定量实时PCR来进行。
[0056] 本发明也涉及包含特异性针对DNA/RNA的杂交分子的抗体并且额外包含一种或 多种靶特异性的RNA杂交探针的试剂盒,其中任选地,所述抗体被结合到磁性颗粒上。
[0057] 所述试剂盒的成分与用于上文公开的方法的成分相同。例如,所述RNA杂交探针 优选地特异性针对选自编码区(外显子)的靶序列。所述编码区优选地选自代谢基因、调 节基因和致癌基因。所述RNA探针可以是合成的RNA探针。或者,所述RNA探针可从生物 样品中分离和纯化。优选地,首先将所述RNA探针合成为在一端含有RNA聚合酶启动子序 列的DNA寡核苷酸,然后将其进行体外转录。例如,优选地将本文使用的抗RNA/DNA的杂交 体的抗体结合到固体表面上。本领域技术人员会理解,抗体的取向对于有效结合RNA/DNA 的杂交体是很重要的。可将抗体共价偶联到固体表面上。所述固体表面可以是球形形状, 例如圆形或椭圆形。圆形或椭圆形的固体表面的直径可以在0. 05ym到100ym之间,优选 0? 2iim至lj20iim之间,更优选1iim至lj10iim之间。尤其优选地,将所述抗体结合至lj磁性颗 粒上。
【专利附图】
【附图说明】
[0058] 图1 :用于下一代测序的靶富集技术的示意图。
[0059] 图2 :单链接头连接的DNA片段与RNA探针的杂交。DNA/RNA的杂交分子结合到磁 性颗粒上并随后经过磁性分离而被分离。在测序前可通过PCR对分离的DNA片段进行富集。 A.用生物素化的RNA诱饵杂交靶DNA片段,并用链霉亲和素包被的磁珠进行纯化。B.用未 经标记的和未经修饰的RNA探针与靶DNA片段杂交,并用抗体包被的磁珠分离靶杂交体。
[0060] 图3 :序列读长在定位到人类基因组(hgl9)之前和之后的百分数。在质量评估前 将百分数标准化为成功读长的数目。
[0061] 图4:目的区域(R0I)和设计区域(ROD)的描述。R0I描述了用于富集的靶区域 (例如,包含外显子-内含子边界的外显子序列E1-E5)。ROD描述了被探针(a-e)覆盖的区 域。因此,ROD描述了预期的序列数据的区域。f和g标记了目的区域中不会被适当的探针 覆盖的缺口。
[0062] 图5 :富集技术的敏感度。被至少一种序列覆盖的R0I和ROD的百分数。百分数 分别涉及R0I和ROD的大小。
[0063] 图6 :富集技术的特异性。与ROD和R0I匹配的测序碱基的百分数。百分数涉及 定位到人类基因组的测序碱基的数目。
[0064] 图7 :未被序列数据覆盖的ROD和R0I的百分数。
[0065] 图8 :R0I内序列覆盖度的箱线图。所研究的所有4个文库的中位数值在2402和 2867之间。在下图中示出了上四分位数(q3)和下四分位数(ql)之间的差异。
[0066] 图9 :R0I的累积序列覆盖度。所有4条曲线都具有相似的形状。R0I的约93%被覆 盖至少1倍(=敏感度)。在100倍覆盖度时,取决于文库,87%到90%之间(Q7:90. 47%、Q8:88. 13%、Q9:88. 33%、Q10:86. 97% )的区域被序列数据覆盖,在1000倍覆盖度时,R0I 的至少60%被序列数据覆盖。
[0067] 图10 :R0I的标准化的序列覆盖度。其描述了R0I中的序列覆盖度的均匀性或序 列偏置,并且就期望的序列覆盖度为实验设计提供了重要的信息。Q9的实施例计算:如果 革巴区域的至少85%应被覆盖至少30倍的话(x-值=0. 1 ;y-值=85% ),则祀区域必须平 均被覆盖300倍以上(x-值=1 =平均序列覆盖度)或靶区域的65%应被覆盖至少150倍 (x-值=0. 5)。另外,所述曲线使得能够比较具有不同数目的读长的序列运行以及不同样 品制剂的序列运行。和y-轴交叉的最高点和曲线的光滑斜率指示了有效的样品制剂。
[0068] 图11 :示出了DNA/RNA的杂交体结构。
【具体实施方式】
[0069] 下一代测序技术使得能够通过大规模平行测序产生大量序列信息。但是,大多数 测序平台还不具有在单次运行中以成本效益的方式测序如复杂基因组(如人基因组)的能 力。另一方面,对于很多任务来说,测序一种或多种样品的靶区域是相当有必要的。
[0070] 为此,在下一代测序之前已经开发出几种靶DNA富集方案(图1)。
[0071] 然而,所谓的"SureSelect"方案需要在每条诱饵序列上都带有亲和标签(即,生 物素或半抗原)的RNA诱饵,该RNA诱饵被用于杂交并随后分离结合所述亲和标签的分子 或颗粒(例如,链霉亲和素、亲和素或结合到所述半抗原或其抗原结合片段上的抗体包被 的磁珠),而本文公开的方法是基于如下步骤:将DNA文库片段与不带亲和标签的未经修饰 的单链RNA探针在溶液中杂交,然后通过DNA/RNA特异性抗体分离靶DNA片段。DNA/RNA的 特异性抗体被偶联到用于单纯分离的固相(例如,磁珠)上或者可能处于溶液中并通过结 合至偶联G蛋白特异性二抗的固相而被分离。
[0072] 本发明的原理示出于图2B中。
[0073] 首先构建片段文库。将DNA片段化并进行大小筛选,然后进行末端修复以分别产 生双链平末端片段或带有A-突出的末端。将所述片段连接到双链接头寡核苷酸上以产生 带有相同侧翼序列的片段文库。PCR使得能够使用与所述接头末端匹配的引物在靶DNA富 集之前和之后对文库进行任意扩增。
[0074]为 了评估本发明的性能,使用Agilent的eArrayInternetportal(https:// earray.chem.agilent.com/erray/)设计和合成了用于60个基因(表1)的外显子富集的 RNA探针。
[0075] 合成了各具有120个核苷酸的共5942个RNA诱饵,这覆盖了基因组中靶区域的 91. 83%。
[0076] 将生物素化的RNA诱饵用于比较使用"SureSelect"方案以及使用基于抗体捕获 的本发明方案所进行的靶DNA富集。生物素化对于结合"SureSelect"方案中使用的链霉 亲和素小珠是必要的,但是其不会干扰本发明中使用的DNA/RNA抗体或小珠。
[0077] 本发明的富集方案包括以下步骤:(i)使DNA片段文库变性,(ii)与RNA诱饵在溶 液中杂交,(iii)将DNA/RNA的杂交体结合到抗体包被的磁珠上,(iv)对靶DNA片段进行磁 性分离,(v)进行反复洗涤步骤以移除非特异性连接的DNA,(vi)用于扩增富集的DNA并引 入测序仪的特异性连接序列的PCR,并进行文库的任选条形编码。
[0078] 在PCR之前,没有必要变性DNA/RNA的杂交体和移出抗体包被的小珠。小珠和抗 体都不会抑制PCR。
[0079] 在下文,将从根据"311代5616(^"方案富集后的2个重复0嫩文库(文库〇7和〇8) 生成的测序结果与从根据本发明的基于抗体的杂交捕获方案的2个重复富集文库(文库Q9 和Q10)获得的数据进行比较。对于测序,在测序之前将所述文库用不同的索引代码(index code)标记,并将其上样到Illumina的HiSeq2000测序仪的一条泳道上。按照具有2xl00bp 的所需读长的配对末端测序来进行测序。使用软件包"Galaxy"对序列进行分析。使用程 序BWA将序列数据定位(map)到人类基因组公布(releaSe)GRCh37.p5(hgl9)。
[0080] 表3总结了用HiSeq2000生成的4个文库的原始数据。对于所有4个文库,获得 了具有相当质量的类似数量的原始数据(参见修剪(trimming)后的平均读长和修剪后的 平均PHRED质量)。
[0081]
【权利要求】
1. 用于富集组合物中一种或多种脱氧核酸(DNA)靶序列的方法,所述方法包括以下步 骤: (a) 提供包含一种或多种脱氧核酸(DNA)分子的组合物, (b) 将所述一种或多种DNA分子与一种或多种靶特异性的核糖核酸(RNA)杂交探针杂 交,从而形成一种或多种RNA/DNA的杂交体, (c) 用特异性针对这类RNA/DNA的杂交体的一种或多种抗体捕获所述RNA/DNA的杂交 体,从而形成一种或多种RNA/DNA/抗体的杂交体, (d) 分离所述一种或多种RNA/DNA/抗体的杂交体。 (e) 如果需要的话,扩增所述一种或多种RNA/DNA/抗体的杂交体的一种或多种DNA分 子,和 (f) 测序所述RNA/DNA/抗体的杂交体的DNA分子或者所述扩增产物,其中优选地所述 测序是通过下一代测序进行。
2. 权利要求1的方法,其中所述靶序列选自编码区(外显子)。
3. 权利要求2的方法,其中所述编码区选自代谢基因、调节基因和致癌基因。
4. 前述权利要求中任一项的方法,其中所述组合物中的DNA分子是用于下一代测序的 DNA片段文库,和任选地,所述文库中的DNA片段包含末端通用接头序列。
5. 前述权利要求中任一项的方法,其中所述DNA分子由DNA片段文库组成,其中: (a) 将文库中的DNA片段化并进行大小筛选,如果需要的话接着进行末端修复,以分别 产生双链平末端片段或带有A-突出的末端,和其中, (b) 将所述片段连接到双链或部分双链接头寡核苷酸上,以产生带有相同侧翼序列的 片段文库。
6. 前述权利要求中任一项的方法,其中所述RNA探针是未经修饰的和未标记的。
7. 前述权利要求中任一项的方法,其中所述RNA探针是合成的RNA探针、转录的DNA探 针,或者是从生物样品中分离和纯化的。
8. 前述权利要求中任一项的方法,其中所述抗体被结合到固体表面上,优选被结合到 磁性颗粒上。
9. 前述权利要求中任一项的方法,其中如果所述抗体被结合到磁性颗粒上,则所述分 离步骤是使用磁场进行,而且所述分离步骤任选地包括洗涤所述分离的RNA/DNA抗体的杂 交体。
10. 前述权利要求中任一项的方法,其中可直接在所述分离的RNA/DNA/抗体的杂交体 上扩增所述DNA分子。
11. 前述权利要求中任一项的方法,其中所述扩增步骤是使用结合所述通用接头序列 的引物进行。
12. 前述权利要求中任一项的方法,其中在测序前对RNA进行酶法消化。
13. -种试剂盒,所述试剂盒包含特异性震对DNA/RNA的杂交分子的抗体并且额外包 含一种或多种靶特异性的RNA杂交探针,其中任选地,所述抗体被结合到磁性颗粒上。
14. 权利要求13的试剂盒,其中所述RNA杂交探针是特异性针对选自编码区(外显子) 的靶序列。
15. 权利要求14的试剂盒,其中所述编码区选自代谢基因、调节基因和致癌基因。
【文档编号】C12Q1/68GK104271770SQ201380022651
【公开日】2015年1月7日 申请日期:2013年4月29日 优先权日:2012年4月30日
【发明者】H·韦德勒, E·韦德勒, D·劳弗特, D·奥尼尔 申请人:奇亚根有限公司