用于分析核酸的方法和组合物
1.相关专利申请
2.本专利申请要求美国临时专利申请第63/043,688号的权益,该美国临时专利申请于2020年6月24日提交,题为“methods and compositions for analyzing nucleic acid”,命名christopher j.troll为发明人,且由代理人案卷号cbs-2004-pv指定。本专利申请还要求美国临时专利申请第63/086,208号的权益,该美国临时专利申请于2020年10月1日提交,题为“methods and compositions for analyzing nucleic acid”,命名christopher j.troll等人为发明人,且由代理人案卷号cbs-2004-pv2指定。本专利申请还要求美国临时专利申请第63/159,174号的权益,该美国临时专利申请于2021年3月10日提交,题为“methods and compositions for analyzing nucleic acid”,命名christopher j.troll等人为发明人,且由代理人案卷号cbs-2004-pv3指定。本专利申请还要求美国临时专利申请第63/195,352号的权益,该美国临时专利申请于2021年6月1日提交,题为“methods and compositions for analyzing nucleic acid”,命名christopher j.troll等人为发明人,且由代理人案卷号cbs-2004-pv4指定。前述专利申请的全部内容,包括所有文本、表格和附图,通过引入并入本文用于所有目的。
3.领域
4.该技术部分地涉及用于分析核酸的方法和组合物。在一些方面,该技术涉及用于从单链核酸片段制备核酸文库的方法和组合物。
5.背景
6.活的生物体(例如动物、植物和微生物)和复制遗传信息的其他形式(例如病毒)的遗传信息在核酸(即脱氧核糖核酸(dna)或核糖核酸(rna))中编码。遗传信息是代表化学或假设核酸的一级结构的一连串核苷酸或修饰的核苷酸。
7.多种高通量测序平台被用于分析核酸。例如,illumina平台涉及衔接子连接的dna片段的克隆扩增。另一个平台是基于纳米孔的测序,其依赖于核酸分子或个体核苷酸通过小通道的转换。用于某些测序平台的文库制备通常包括dna的片段化、片段末端的修饰和衔接子的连接,并且可包括核酸片段的扩增(例如,pcr扩增)。
8.为特定类型的核酸分析选择合适的测序平台需要详细了解可用的技术,包括错误来源、错误率以及测序的速度和成本。虽然测序成本已经降低,但文库制备的通量和成本可能是一个限制因素。文库制备的一个方面包括修饰核酸片段的末端,使得它们适合用于特定的测序平台。核酸末端可能包含有用的信息。因此,修饰核酸末端(例如,用于文库制备)同时保留核酸末端中所包含的信息的方法对于处理和分析核酸将是有用的。
9.文库制备的另一方面包括捕获单链核酸片段。在某些情况下,与传统的双链dna(dsdna)制备方法相比,单链文库制备方法可生成更好且更复杂的文库。产生单链dna(ssdna)文库的缺点包括劳动密集、昂贵且耗时的方案,以及外来或定制的试剂要求。因此,捕获单链核酸(例如,用于文库制备)而无需劳动密集、昂贵且耗时的方案和/或外来或定制的试剂的方法对于处理和分析核酸(例如,单链核酸、变性的双链核酸或含有单链核酸的混合物)将是有用的。
10.概述
11.在某些方面提供了产生核酸文库的方法,所述方法包括将(i)包含单链核酸(ssna)的核酸组合物、(ii)多个第一寡核苷酸种类和(iii)多个第一支架多核苷酸种类组合,其中(a)所述多个第一支架多核苷酸种类中的每个多核苷酸包含ssna杂交区域和第一寡核苷酸杂交区域;(b)所述多个第一寡核苷酸种类中的每个寡核苷酸包含第一独特分子标识符(umi),其侧翼为第一侧翼区域和第二侧翼区域;(c)所述第一寡核苷酸杂交区域包含(i)与所述第一侧翼区域互补的多核苷酸和(ii)与所述第二侧翼区域互补的多核苷酸;和(d)在以下条件下将所述核酸组合物、所述多个第一寡核苷酸种类和所述多个第一支架多核苷酸种类组合,在所述条件中,所述第一支架多核苷酸种类的分子与(i)第一ssna末端区域和(ii)所述第一寡核苷酸种类的分子杂交,从而形成杂交产物,其中所述第一寡核苷酸的分子的末端与所述第一ssna末端区域的末端相邻。
12.还提供了组合物,所述组合物包含多个第一寡核苷酸种类,每个第一寡核苷酸种类包含第一独特分子标识符(umi),其侧翼为第一侧翼区域和第二侧翼区域;和多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含ssna杂交区域和第一寡核苷酸杂交区域,其中所述第一寡核苷酸杂交区域包含(i)与所述第一侧翼区域互补的多核苷酸和(ii)与所述第二侧翼区域互补的多核苷酸。
13.还提供了产生核酸文库的方法,所述方法包括(a)使包含单链核糖核酸(ssrna)和双链脱氧核糖核酸(dsdna)的第一混合物中的ssrna与引物寡核苷酸和包含逆转录酶活性的试剂(agent)接触,从而生成包含互补脱氧核糖核酸(cdna)-rna双链体和dsdna的第二混合物,其中所述引物寡核苷酸包含rna特异性标签,并且其中cdna包含rna特异性标签,并且dsdna不包含所述rna特异性标签;(b)从cdna-rna双链体和dsdna生成单链cdna(sscdna)和单链dna(ssdna),从而生成包含sscdna和ssdna的核酸组合物;(c)将所述核酸组合物与第一寡核苷酸和多个第一支架多核苷酸种类组合,其中(i)所述多个第一支架多核苷酸种类中的每个多核苷酸包含sscdna杂交区域或ssdna杂交区域和第一寡核苷酸杂交区域;和(ii)在以下条件下将所述核酸组合物、所述第一寡核苷酸和所述多个第一支架多核苷酸种类组合,在所述条件中,所述第一支架多核苷酸种类的分子与(1)第一sscdna末端区域或第一ssdna末端区域和(2)所述第一寡核苷酸的分子杂交,从而形成杂交产物,其中所述第一寡核苷酸的分子的末端与所述第一sscdna末端区域或所述第一ssdna末端区域的末端相邻。
14.还提供了包含核酸组合物的组合物,所述核酸组合物含有单链互补脱氧核糖核酸(sscdna)和单链脱氧核糖核酸(ssdna),其中sscdna包含rna特异性标签;第一寡核苷酸;和多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含sscdna杂交区域或ssdna杂交区域和第一寡核苷酸杂交区域。
15.还提供了产生核酸文库的方法,所述方法包括将(i)包含单链核糖核酸(ssrna)和单链脱氧核糖核酸(ssdna)的核酸组合物、(ii)第一寡核苷酸、(iii)多个第一支架多核苷酸种类、(iv)第二寡核苷酸和(v)多个第二支架多核苷酸种类组合,其中(a)所述第一寡核苷酸包含rna特异性标签;(b)所述第二寡核苷酸包含dna特异性标签;(c)所述多个第一支架多核苷酸种类中的每个多核苷酸包含ssrna杂交区域和第一寡核苷酸杂交区域;(d)所述多个第二支架多核苷酸种类中的每个多核苷酸包含ssdna杂交区域和第二寡核苷酸杂交区
域;和(e)在以下条件下将所述核酸组合物、所述第一寡核苷酸、所述多个第一支架多核苷酸种类、所述第二寡核苷酸和所述多个第二支架多核苷酸种类组合,在所述条件下,所述第一支架多核苷酸种类的分子与(i)第一ssrna末端区域和(ii)所述第一寡核苷酸的分子杂交,从而形成第一组杂交产物,其中所述第一寡核苷酸的分子的末端与所述第一ssrna末端区域的末端相邻;并且所述第二支架多核苷酸种类的分子与(i)第一ssdna末端区域和(ii)所述第二寡核苷酸的分子杂交,从而形成第二组杂交产物,其中所述第二寡核苷酸的分子的末端与所述第一ssdna末端区域的末端相邻。
16.还提供了组合物,所述组合物含有包含rna特异性标签的第一寡核苷酸;包含dna特异性标签的第二寡核苷酸;多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含ssrna杂交区域和第一寡核苷酸杂交区域;和多个第二支架多核苷酸种类,每个第二支架多核苷酸种类包含ssdna杂交区域和第二寡核苷酸杂交区域。
17.还提供了产生核酸文库的方法,所述方法包括:(a)在延伸条件下使包含靶核酸的第一核酸组合物与一个或多个独特核苷酸以及包含延伸活性的剂接触,从而生成延伸的靶核酸,其中(i)所述靶核酸中的一些或全部包含含有突出端的双链核酸(dsna);(ii)所述延伸的靶核酸各自包含与所述突出端互补的延伸区域;和(iii)所述延伸区域包含一个或多个独特核苷酸;(b)从所述延伸的靶核酸生成单链核酸(ssna),从而生成包含ssna的第二核酸组合物;和(c)将所述第二核酸组合物与第一寡核苷酸和多个第一支架多核苷酸种类组合,其中(i)所述多个第一支架多核苷酸种类中的每个多核苷酸包含ssna杂交区域和第一寡核苷酸杂交区域;和(ii)在以下条件下将所述第二核酸组合物、所述第一寡核苷酸和所述多个第一支架多核苷酸种类组合,在所述条件中,所述第一支架多核苷酸种类的分子与(1)第一ssna末端区域和(2)所述第一寡核苷酸的分子杂交,从而形成杂交产物,其中所述第一寡核苷酸的分子的末端与第一ssna末端区域的末端相邻。
18.还提供了产生核酸文库的方法,所述方法包括:(a)在延伸条件下使包含靶核酸的核酸组合物与一个或多个独特核苷酸以及包含延伸活性的剂接触,从而生成延伸的靶核酸,其中(i)所述靶核酸中的一些或全部包含含有突出端的双链脱氧核糖核酸(dsdna);(ii)所述延伸的靶核酸各自包含与所述突出端互补的延伸区域;和(iii)所述延伸区域包含一个或多个独特核苷酸;和(b)将衔接子多核苷酸连接至所述延伸的靶核酸,其中所述衔接子多核苷酸包含能够形成具有单链环和双链区域的发夹结构的一条链,从而生成包含单链环和双链区域的连续链延伸的靶核酸。
19.还提供了产生核酸文库的方法,所述方法包括:(a)在延伸条件下使包含靶核酸的核酸组合物与一个或多个独特核苷酸以及包含延伸活性的剂接触,从而生成延伸的靶核酸,其中(i)所述靶核酸中的一些或全部包含含有突出端的双链脱氧核糖核酸(dsdna);(ii)所述延伸的靶核酸各自包含与所述突出端互补的延伸区域;和(iii)所述延伸区域包含至少一个或多个独特核苷酸;和(b)生成所述延伸的靶核酸的串联体,从而生成串联的延伸的靶核酸。
20.还提供了产生核酸文库的方法,所述方法包括(a)将(i)包含单链核酸(ssna)的核酸组合物、(ii)第一寡核苷酸和(iii)多个第一支架多核苷酸种类组合,其中所述多个第一支架多核苷酸种类中的每个多核苷酸包含ssna杂交区域和第一寡核苷酸杂交区域,并且在以下条件下将所述核酸组合物、所述第一寡核苷酸和所述多个第一支架多核苷酸种类组
合,在所述条件中,所述第一支架多核苷酸种类的分子与(1)第一ssna末端区域和(2)所述第一寡核苷酸的分子杂交,从而形成杂交产物,其中所述第一寡核苷酸的分子的末端与所述第一ssna末端区域的末端相邻;和(b)将ssna中的一个或多个未甲基化的胞嘧啶残基脱氨基,从而将所述一个或多个未甲基化的胞嘧啶残基转化为尿嘧啶。
21.还提供了产生核酸文库的方法,所述方法包括(a)使包含单链核糖核酸(ssrna)和双链脱氧核糖核酸(dsdna)的第一混合物中的ssrna与引发多核苷酸(priming polynucleotide)和包含逆转录酶活性的剂接触,从而生成包含互补脱氧核糖核酸(cdna)-rna双链体和dsdna的第二混合物,其中(i)所述引发多核苷酸包含引物、rna特异性标签和第一寡核苷酸;(ii)所述cdna包含所述rna特异性标签和所述第一寡核苷酸,并且(iii)所述dsdna不包含所述rna特异性标签或所述第一寡核苷酸;(b)从cdna-rna双链体和dsdna生成单链cdna(sscdna)和单链dna(ssdna),从而生成包含sscdna和ssdna的核酸组合物;(c)将所述包含sscdna和ssdna的核酸组合物与第二寡核苷酸、多个第一支架多核苷酸种类、第三寡核苷酸和多个第二支架多核苷酸种类组合,其中(i)所述多个第一支架多核苷酸种类中的每个多核苷酸包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域;(ii)所述多个第二支架多核苷酸种类中的每个多核苷酸包含ssdna杂交区域和第三寡核苷酸杂交区域;(iii)在以下条件下将所述包含sscdna和ssdna的核酸组合物、所述第二寡核苷酸、所述多个第一支架多核苷酸种类、所述第三寡核苷酸和所述多个第二支架多核苷酸种类组合,在所述条件中,所述第一支架多核苷酸种类的分子与(1)第一sscdna末端区域或第一ssdna末端区域和(2)所述第二寡核苷酸的分子杂交,从而形成杂交产物,其中所述第二寡核苷酸的分子的末端与所述第一sscdna末端区域或所述第一ssdna末端区域的末端相邻,并且所述第二支架多核苷酸种类的分子与(1)第二ssdna末端区域和(2)所述第三寡核苷酸的分子杂交,从而形成杂交产物,其中所述第三寡核苷酸的分子的末端与所述第二ssdna末端区域的末端相邻。
22.还提供了根据来源差异扩增核酸的方法,其中所述方法包括(i)根据本文描述的方法产生核酸文库;(ii)扩增所述文库的核酸分子,其中所述扩增包括在扩增条件下使所述文库的核酸分子与第一扩增引物和第二扩增引物接触,其中来自第一来源的核酸和来自第二来源的核酸被差异扩增,从而生成差异扩增产物。
23.还提供了组合物,所述组合物包含含有单链互补脱氧核糖核酸(sscdna)和单链脱氧核糖核酸(ssdna)的核酸组合物,其中所述sscdna包含rna特异性标签和第一寡核苷酸;第二寡核苷酸;多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域;第三寡核苷酸;和多个第二支架多核苷酸种类,每个第二支架多核苷酸种类包含ssdna杂交区域和第三寡核苷酸杂交区域。
24.还提供了试剂盒,所述试剂盒包含引发多核苷酸,所述引发多核苷酸包含引物、rna特异性标签和第一寡核苷酸;第二寡核苷酸;多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域;第三寡核苷酸;多个第二支架多核苷酸种类,每个第二支架多核苷酸种类包含ssdna杂交区域和第三寡核苷酸杂交区域;和使用说明。
25.还提供了产生核酸文库的方法,所述方法包括(a)将包含单链核糖核酸(ssrna)和双链脱氧核糖核酸(dsdna)的第一混合物中的ssrna与第一寡核苷酸共价连接,从而生成共
价连接的ssrna产物;(b)使所述共价连接的ssrna产物与引物寡核苷酸和包含逆转录酶活性的剂接触,从而生成包含互补脱氧核糖核酸(cdna)-rna双链体和dsdna的第二混合物,其中所述引物寡核苷酸包含第一寡核苷酸杂交区;(c)从所述cdna-rna双链体和所述dsdna生成单链cdna(sscdna)和单链dna(ssdna),从而生成包含sscdna和ssdna的核酸组合物;(d)将所述包含sscdna和ssdna的核酸组合物与第二寡核苷酸、多个第一支架多核苷酸种类、第三寡核苷酸和多个第二支架多核苷酸种类组合,其中(i)所述多个第一支架多核苷酸种类中的每个多核苷酸包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域;(ii)所述多个第二支架多核苷酸种类中的每个多核苷酸包含ssdna杂交区域和第三寡核苷酸杂交区域;(iii)在以下条件下将所述包含sscdna和ssdna的核酸组合物、所述第二寡核苷酸、所述多个第一支架多核苷酸种类、所述第三寡核苷酸和所述多个第二支架多核苷酸种类组合,在所述条件中,所述第一支架多核苷酸种类的分子与(1)第一sscdna末端区域或第一ssdna末端区域和(2)所述第二寡核苷酸的分子杂交,从而形成杂交产物,其中所述第二寡核苷酸的分子的末端与所述第一sscdna末端区域或所述第一ssdna末端区域的末端相邻,并且所述第二支架多核苷酸种类的分子与(1)第二ssdna末端区域和(2)所述第三寡核苷酸的分子杂交,从而形成杂交产物,其中所述第三寡核苷酸的分子的末端与所述第二ssdna末端区域的末端相邻。
26.还提供了试剂盒,所述试剂盒包含第一寡核苷酸;包含第一寡核苷酸杂交区域的引物寡核苷酸;第二寡核苷酸;多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域;第三寡核苷酸;多个第二支架多核苷酸种类,每个第二支架多核苷酸种类包含ssdna杂交区域和第三寡核苷酸杂交区域;和使用说明。
27.以下描述、实施例和所附权利要求以及附图中进一步描述了某些实施方式。
28.附图简述
29.附图阐明了该技术的某些实施方式,并且不是限制性的。为了清楚和易于阐明,附图没有按比例绘制,并且在一些情况下,各个方面可能被夸大或放大显示,以便于理解特定的实施方式。
30.图1显示了示例性支架衔接子构造(configuration),其包含具有侧翼非随机序列(即非随机锚定序列和p7衔接子序列)的内嵌式(in-line)随机umi。
31.图2显示了示例性支架衔接子构造,其包含具有侧翼非随机序列(即,非随机锚定序列和p7衔接子序列)的内嵌式随机umi,其中使用不同的锚定序列和/或变化的umi长度来增加umi的复杂性。
32.图3显示了与现有衔接子相比,使用本文描述的内嵌式随机umi支架衔接子的最终文库构建体构造。
33.图4a和4b显示了用标准支架衔接子文库(无umi;“sop”)与内嵌式umi支架衔接子生成的文库之间的分子性能比较。大小和片段长度分布通过电泳(图4a)和迹线(图4b;tapestation 4200)显示。
34.图5显示了示例性数据修整方案。
35.图6显示了示例性支架衔接子构造,其包含具有侧翼非随机序列(即gc锚定序列和p7衔接子序列)的内嵌式非随机umi。
36.图7显示了用于处理包含dna和rna混合物的样品的示例性工作流程,所述rna进行初始第一链合成。
37.图8显示了用于处理包含dna和rna混合物的样品的示例性工作流程,其具有初始连接步骤。
38.图9a和9b显示了用于处理rna的具有初始第一链合成的示例性方法。
39.图10a和10b显示了用于处理rna的具有初始连接步骤的示例性方法。
40.图11显示了在实施例2中描述的实验中使用的衔接子的示意图。
41.图12提供了在实施例2中描述的实验的结果的概述。
42.图13提供了在实施例2中描述的实验的结果的一般度量。特别地,该表显示了针对每个样品测序的读段对的数目、甲基化的cg二核苷酸的量、甲基化的其他(非人类表观遗传)基序的量、重复读段的百分比、对齐的读段的百分比、平均插入物大小、含有衔接子(修整的)的读段的量和读段的gc含量。
43.图14显示了实施例2中描述的产生文库的四个实验条件的插入物大小与读段的比例。从左至右将各迹线标记为1-4:1)zymo ez dna methylation lightning试剂盒(亚硫酸氢盐处理),然后进行支架衔接子连接(非甲基保护的衔接子);2)将甲基保护的支架衔接子与dna连接,然后为neb酶促甲基化试剂盒;3)将甲基保护的dsdna衔接子与dna连接,然后为neb酶促甲基化试剂盒;和4)neb酶促甲基化试剂盒,然后进行支架衔接子连接(非甲基保护的衔接子)。150bp处的尖峰信号(blip)是本次运行(2x151)的测序读段长度的伪象。
44.图15显示了实施例2中描述的产生文库的四个实验条件的preseq复杂性(总分子对独特分子)。从左至右将各迹线标记为1-4:1)zymo ez dna methylation lightning试剂盒(亚硫酸氢盐处理),然后进行支架衔接子连接(非甲基保护的衔接子);2)将甲基保护的支架衔接子与dna连接,然后为neb酶促甲基化试剂盒;3)neb酶促甲基化试剂盒,然后进行支架衔接子连接(非甲基保护的衔接子);和4)将甲基保护的dsdna衔接子与dna连接,然后为neb酶促甲基化试剂盒。
45.图16显示了实施例2中描述的产生文库的四个实验条件的gc分布(gc含量与读段的比例)。将各迹线标记为1-4:1)将甲基保护的支架衔接子与dna连接,然后为neb酶促甲基化试剂盒;2)将甲基保护的dsdna衔接子与dna连接,然后为neb酶促甲基化试剂盒;3)zymo ez dna methylation lightning试剂盒(亚硫酸氢盐处理),然后进行支架衔接子连接(非甲基保护的衔接子);和4)neb酶促甲基化试剂盒,然后进行支架衔接子连接(非甲基保护的衔接子)。
46.图17显示了示例性工作流程。在基于rna酶h的rrna消耗的下游,用加标签的差异p5随机六聚体生成cdna。热变性后,将支架衔接子加入混合物以将dna特异性读段加标签,并将p7衔接子附接至cdna分子和dna分子两者。索引pcr最终确定文库分子,并允许基于p5衔接子序列的差异扩增。
47.图18a-18c显示了伴随dna:rna文库的性能度量。图18a显示了映射度量;图18b显示了插入物大小;并且图18c显示了基因体覆盖率。
48.图19显示了具有初始连接步骤的用于处理rna的示例性工作流程。
49.详细描述
50.本文提供了可用于分析核酸的方法和组合物。本文还提供了可用于产生核酸文库
的方法和组合物。本文还提供了可用于分析单链核酸片段的方法和组合物。在某些方面,方法包括将包含单链核酸片段的样品核酸与专用的衔接子组合。在一些实施方案中,专用的衔接子包含独特分子标识符(umi)。在一些实施方案中,专用的衔接子包括能够与单链核酸的末端杂交的支架多核苷酸。这种杂交的产物可以例如可用于产生核酸文库和/或进一步的分析或处理。
51.支架衔接子
52.本文中的某些方法包括将单链核酸(ssna)与支架衔接子或其组分组合。支架衔接子通常包括支架多核苷酸和寡核苷酸。因此,支架衔接子的“组分”可以指支架多核苷酸和/或寡核苷酸,或其子组分或区域。寡核苷酸和/或支架多核苷酸可以包括嘧啶(c、t、u)和/或嘌呤(a、g)核苷酸。另外的组分或子组分可包括一种或多种索引多核苷酸、独特分子标识符(umi)、位于独特分子标识符(umi)侧翼的一个或多个区域、引物结合位点(例如测序引物结合位点、p5引物结合位点、p7引物结合位点)、流动池结合区域等及其互补物。包含p5引物结合位点的支架衔接子可被称为p5衔接子或p5支架衔接子。包含p7引物结合位点的支架衔接子可被称为p7衔接子或p7支架衔接子。
53.支架多核苷酸是支架衔接子的单链组分。本文中的多核苷酸通常指5至500个核苷酸(例如,5至100个核苷酸)的核苷酸的单链多聚体。多核苷酸可以是合成的或者可以是酶促制备的,并且在一些实施方案中,长度为约5至50个核苷酸。多核苷酸可包含核糖核苷酸单体(即,可以是多核糖核苷酸或“rna多核苷酸”)、脱氧核糖核苷酸单体(即,可以是多脱氧核糖核苷酸或“dna多核苷酸”)或其组合。多核苷酸的长度可以例如为10至20个、20至30个、30至40个、40至50个、50至60个、60至70个、70至80个、80至100个、100至150个或150至200个或多达500个核苷酸。术语多核苷酸和寡核苷酸可以可互换地使用。
54.支架多核苷酸可以包含ssna杂交区域(也称为支架、支架区域、单链支架、单链支架区域)和寡核苷酸杂交区域。ssna杂交区域和寡核苷酸杂交区域可被称为支架多核苷酸的子组分。ssna杂交区域通常包含与ssna末端区域杂交或能够与ssna末端区域杂交的多核苷酸。寡核苷酸杂交区域通常包含与支架衔接子的全部或部分寡核苷酸组分杂交或能够与支架衔接子的全部或部分寡核苷酸组分杂交的多核苷酸。
55.支架多核苷酸的ssna杂交区域可包含与ssna末端区域(例如,ssdna末端区域、sscdna末端区域、ssrna末端区域)互补或基本互补的多核苷酸。在一些实施方案中,ssna杂交区域是ssdna杂交区域、sscdna杂交区域或ssrna杂交区域。在一些实施方案中,支架多核苷酸的sscdna杂交区域包含与rna特异性标签(例如,本文中描述的rna特异性标签)互补或基本互补的多核苷酸或子组分。在一些实施方案中,支架多核苷酸的ssrna杂交区域包含与rna特异性标签(例如,本文中描述的rna特异性标签)互补或基本互补的多核苷酸或子组分。在一些实施方案中,支架多核苷酸的ssdna杂交区域包含与dna特异性标签(例如,本文中描述的dna特异性标签)互补或基本互补的多核苷酸或子组分。在一些实施方案中,ssna杂交区域包含随机序列。在一些实施方案中,ssna杂交区域包含与感兴趣的ssna末端区域序列(例如,靶向序列)互补的序列。在某些实施方案中,ssna杂交区域包含一个或多个核苷酸,所述一个或多个核苷酸均能够与ssna中的碱基进行非特异性碱基配对。能够进行非特异性碱基配对的核苷酸可称为通用碱基。通用碱基是能够与四种标准核苷酸碱基a、c、g和t中的每一种进行无差别碱基配对的碱基。可掺入ssna杂交区域的通用碱基包括但不限于肌
苷、脱氧肌苷、2
’‑
脱氧肌苷(di,dinosine)、硝基吲哚、5-硝基吲哚和3-硝基吡咯。在某些实施方案中,ssna杂交区域包含一个或多个简并/摆动碱基,所述简并/摆动碱基可以取代四种典型碱基中的两种或三种(但不是全部)(例如,非天然碱基p和k)。
56.支架多核苷酸的ssna杂交区域可以具有任何合适的长度和序列。在一些实施方案中,ssna杂交区域的长度为10个核苷酸或更少。在某些方面,ssna杂交区域的长度为4至100个核苷酸,例如,长度为约5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个或100个核苷酸。在某些方面,ssna杂交区域的长度为4至20个核苷酸,例如,长度为5至15个、5至10个、5至9个、5至8个或5至7个(例如,6或7个)核苷酸。在一些实施方案中,ssna杂交区域的长度为7个核苷酸。在一些实施方案中,ssna杂交区域包含随机核苷酸序列或由随机核苷酸序列组成,使得当使用具有多种随机ssna杂交区域的多个异质支架多核苷酸时,集合能够充当ssna异质群体的支架多核苷酸,而不管ssna的末端区域的序列如何。具有独特ssna杂交区域序列的每个支架多核苷酸可被称为支架多核苷酸种类,并且多个支架多核苷酸种类的集合可被称为多个支架多核苷酸种类(例如,对于被设计为在ssna杂交区域中具有7个随机碱基的支架多核苷酸,多个支架多核苷酸种类将包括47个独特ssna杂交区域序列)。因此,具有独特支架多核苷酸(即,包含独特ssna杂交区域序列)的每个支架衔接子可被称为支架衔接子种类,并且多个支架衔接子种类的集合可被称为多个支架衔接子种类。一个支架多核苷酸种类通常包含相对于其他支架多核苷酸种类是独特的特征。例如,一个支架多核苷酸种类可以包含一个独特的序列特征。独特的序列特征可以包括独特的序列长度、独特的核苷酸序列(例如,独特的随机序列、独特的靶向序列)或者独特的序列长度和核苷酸序列的组合。
57.支架多核苷酸可包含一个或多个另外的子组分,包括索引多核苷酸、独特分子标识符(umi)、位于独特分子标识符(umi)侧翼的一个或多个区域、引物结合位点(例如,p5引物结合位点、p7引物结合位点)、流动池结合区域等,或其互补多核苷酸。支架多核苷酸可包含引物结合位点(或与引物结合位点互补的多核苷酸)。包含p5引物结合位点(或其互补物)的支架多核苷酸可被称为p5支架或p5支架多核苷酸。包含p7引物结合位点(或其互补物)的支架多核苷酸可被称为p7支架或p7支架多核苷酸。
58.寡核苷酸可以是支架衔接子的另外的单链组分。本文中的寡核苷酸通常指5至500个核苷酸(例如,5至100个核苷酸)的核苷酸的单链多聚体。寡核苷酸可以是合成的或者可以是酶促制备的,并且在一些实施方案中,长度为5至50个核苷酸。寡核苷酸可包含核糖核苷酸单体(即,可以是寡核糖核苷酸或“rna寡核苷酸”)、脱氧核糖核苷酸单体(即,可以是寡脱氧核糖核苷酸或“dna寡核苷酸”)或其组合。寡核苷酸的长度可以例如为10至20个、20至30个、30至40个、40至50个、50至60个、60至70个、70至80个、80至100个、100至150个或150至200个或多达500个核苷酸。术语寡核苷酸和多核苷酸可以可互换地使用。
59.支架衔接子的寡核苷酸组分通常包含与支架多核苷酸的寡核苷酸杂交区域互补或基本互补的核酸序列。支架衔接子的寡核苷酸组分可包括对种或多种下游应用诸如例如ssna片段或其衍生物的pcr扩增、ssna或其衍生物的测序等是有用的一种或多种子组分。在一些实施方案中,寡核苷酸的子组分是测序衔接子。测序衔接子通常指包括被感兴趣的测序平台所利用的核苷酸序列(或其互补物)的至少一部分的一个或多个核酸结构域,所述感兴趣的测序平台例如由以下提供的测序平台:(例如,hiseq
tm
、miseq
tm
和/或
genome analyzer
tm
测序系统);oxford nanopore
tm
技术(例如,minion
tm
测序系统)、ion torrent
tm
(例如,ion pgm
tm
和/或ion proton
tm
测序系统);pacific biosciences(例如,sequel或pacbio rs ii测序系统);life technologies
tm
(例如,solid
tm
测序系统);roche(例如,454gs flx+和/或gs初级测序系统);genapsys;bgi;或任何感兴趣的测序平台。
60.在一些实施方案中,支架衔接子的寡核苷酸组分是选自以下的核酸结构域或包含选自以下的核酸结构域:特异性结合表面附着的测序平台寡核苷酸(例如,附着至测序系统中流动池表面的p5或p7寡核苷酸)的结构域(例如,“捕获位点”或“捕获序列”);测序引物结合结构域(例如,平台的read 1或read 2引物可以结合的结构域);独特的标识符或索引(例如,独特地鉴定被测序的ssna的样品来源的条形码或其他结构域,以通过用特定的条形码或“标签”标记来自给定样品的每个分子来实现样品多重化);条形码测序引物结合结构域(用于对条形码进行测序的引物所结合的结构域);分子鉴定结构域或独特分子标识符(umi)(例如,分子索引标签,例如4个、6个或其他数目的核苷酸的随机化标签),用于独特地标记感兴趣的分子,例如,以基于独特标签被测序的实体(instances)的数目来确定表达水平;任何此类结构域的互补物;或其任意组合。在一些实施方案中,寡核苷酸包含位于独特分子标识符(umi)侧翼的一个或多个区域。在一些实施方案中,条形码结构域(例如,样品索引标签)和分子鉴定结构域(例如,分子索引标签;umi)可以被包含在同一核酸中。测序平台寡核苷酸、测序引物和它们对应的结合结构域可以被设计为与多种可用的测序平台和技术,包括但不限于本文讨论的那些测序平台和技术相容。
61.当支架衔接子的寡核苷酸组分包括一个测序衔接子或测序衔接子的一部分时,可以使用多种方法添加一个或多个另外的测序衔接子和/或测序衔接子的剩余部分。例如,另外的测序衔接子和/或测序衔接子的剩余部分可以通过连接、逆转录、pcr扩增等中的任一种来添加。在pcr的情况下,可以使用包括第一扩增引物和第二扩增引物的扩增引物对,所述第一扩增引物包含3’杂交区域(例如,用于与寡核苷酸的衔接子区域杂交)和包含另外的测序衔接子和/或测序衔接子的剩余部分的5’区域,所述第二扩增引物包含3’杂交区域(例如,用于与添加至ssna分子相对端的第二寡核苷酸的衔接子区域杂交)和任选的包含另外的测序衔接子和/或测序衔接子的剩余部分的5’区域。
62.支架衔接子的寡核苷酸组分可包括一种或多种另外的子组分,包括rna特异性标签或dna特异性标签。rna特异性标签可以标记样品(例如,包含rna和dna片段的混合物的样品)中的rna片段。dna特异性标签可以标记样品(例如,包含rna和dna片段的混合物的样品)中的dna片段。通常,当rna特异性标签和dna特异性标签用于同一文库制备时,rna特异性标签与dna特异性标签是可区分的。例如,rna特异性标签和dna特异性标签可以包含不同的序列;rna特异性标签和dna特异性标签可以包含不同的长度;rna特异性标签和dna特异性标签可以包含不同的可检测标记物;或者这些的任意组合。rna特异性标签或dna特异性标签可包含约5至约15个核苷酸。在一些实施方案中,rna特异性标签包含9个核苷酸。在一些实施方案中,dna特异性标签包含9个核苷酸。在一些实施方案中,rna特异性标签或dna特异性标签位于支架衔接子的寡核苷酸组分的末端。在一些实施方案中,rna特异性标签或dna特异性标签位于支架衔接子的寡核苷酸组分的5’端。在一些实施方案中,rna特异性标签或dna特异性标签位于支架衔接子的寡核苷酸组分的3’端。在一些实施方案中,rna特异性标签或dna特异性标签位于支架衔接子的寡核苷酸组分的末端,使得当支架衔接子与ssrna或
ssdna杂交时,rna特异性标签或dna特异性标签与ssrna末端区域的末端或ssdna末端区域的末端相邻。
63.支架衔接子的寡核苷酸组分可包含一个或多个另外的子组分,包括索引多核苷酸、独特分子标识符(umi)、位于独特分子标识符(umi)侧翼的一个或多个区域、引物结合位点(例如,p5引物结合位点、p7引物结合位点)、流动池结合区域或测序衔接子等,或其互补多核苷酸。寡核苷酸可包含引物结合位点(或与引物结合位点互补的多核苷酸)。包含p5引物结合位点(或其互补物)的寡核苷酸可被称为p5寡核苷酸(oligo)或p5寡核苷酸(oligonucleotide)。包含p7引物结合位点(或其互补物)的寡核苷酸可被称为p7寡核苷酸(oligo)或p7寡核苷酸(oligonucleotide)。
64.支架衔接子的寡核苷酸组分可包含富含鸟嘌呤和胞嘧啶(gc)的区域。富含gc的区域可包含至少约50%的鸟嘌呤和胞嘧啶核苷酸。例如,富含gc的区域可包含约60%的鸟嘌呤和胞嘧啶核苷酸、约70%的鸟嘌呤和胞嘧啶核苷酸、约80%的鸟嘌呤和胞嘧啶核苷酸、约90%的鸟嘌呤和胞嘧啶核苷酸或100%的鸟嘌呤和胞嘧啶核苷酸。在一些实施方案中,富含gc的区域包含约70%的鸟嘌呤和胞嘧啶核苷酸。支架衔接子的寡核苷酸组分可在一个末端(例如,在3’末端或5’末端)包含富含鸟嘌呤和胞嘧啶(gc)的区域。在一些实施方案中,支架衔接子的寡核苷酸组分在与ssna片段连接的寡核苷酸末端(即,在寡核苷酸-ssna连接处或“连接末端”)包含富含鸟嘌呤和胞嘧啶(gc)的区域。支架多核苷酸可包含与寡核苷酸中富含gc的区域互补的对应区域。
65.支架多核苷酸可以与寡核苷酸杂交,在支架衔接子中形成双链体。因此,支架衔接子可被称为支架双链体、双链体衔接子、双链体寡核苷酸或双链体多核苷酸。具有独特支架多核苷酸(即,包含独特的ssna杂交区域序列)的每个支架双链体可被称为支架双链体种类,并且多个支架双链体种类的集合可被称为多个支架双链体种类。在一些实施方案中,支架多核苷酸和寡核苷酸在单独的dna链上。在一些实施方案中,支架多核苷酸和寡核苷酸在单个dna链上(例如,能够形成发夹结构的单个dna链)。
66.支架衔接子可包含dna、rna或其组合。支架衔接子可包含dna支架多核苷酸和dna寡核苷酸、dna支架多核苷酸和rna寡核苷酸、rna支架多核苷酸和dna寡核苷酸或rna支架多核苷酸和rna寡核苷酸。在一种示例性构造中,支架衔接子包含用于与rna样品核酸组合的dna支架多核苷酸和dna寡核苷酸,并且用于与这种衔接子/样品构造一起使用的示例性连接酶包括t4 rna连接酶2、t4 dna连接酶、截短的t4 rna连接酶2和热稳定的5
′
app dna/rna连接酶。在另一种示例性衔接子构造中,支架衔接子包含用于与rna样品核酸组合的dna支架多核苷酸和rna寡核苷酸,并且用于与这种衔接子/样品构造一起使用的示例性连接酶包括t4 rna连接酶1、t4 rna连接酶2、截短的t4 rna连接酶2和热稳定的5
′
app dna/rna连接酶。在另一种示例性衔接子构造中,支架衔接子包含用于与rna样品核酸组合的rna支架多核苷酸和rna寡核苷酸,并且用于与这种衔接子/样品构造一起使用的示例性连接酶包括t4rna连接酶1、t4 rna连接酶2、截短的t4 rna连接酶2和热稳定的5
′
app dna/rna连接酶。在一些情况下,选择衔接子核苷酸组成以提供样品核酸与支架衔接子核酸之间的同质性(例如,使得至少寡核苷酸与样品核酸是同质的)。在一些情况下,选择衔接子核苷酸组成以提供寡核苷酸与样品核酸之间的同质性以及支架多核苷酸与样品核酸之间的异质性。
67.独特分子标识符(umi)
68.在一些实施方案中,支架衔接子包含独特分子标识符(umi)。在一些实施方案中,寡核苷酸(例如,支架衔接子的寡核苷酸组分)包含独特分子标识符(umi)。独特分子标识符(umi)也可被称为分子条形码、条形码、分子鉴定结构域、分子索引标签、序列标签和/或标签,通常是短序列(例如,长度为约3至约10个核苷酸),其可在核酸文库制备期间被添加至核酸片段,以鉴定或标记输入的核酸分子。在某些应用中,umi可用于独特地标记感兴趣的分子,例如,以基于独特标签被测序的实体的数目来确定表达水平。umi通常在扩增步骤(例如,pcr扩增)之前添加,并且可用于减少例如由扩增引入的错误和定量偏差。如本文所描述的包含umi的支架衔接子和/或支架衔接子的寡核苷酸组分可被称为包含“内嵌式”umi。内嵌式umi通常指作为本文所描述的支架衔接子和/或寡核苷酸的组分的umi序列,其成为通过对与支架衔接子的寡核苷酸组分连接的ssna片段进行测序产生的序列读段的一部分。当支架衔接子包含内嵌式umi时,文库生成可不需要某些另外的处理步骤(例如,通过使用链置换聚合酶的延伸步骤向衔接子添加umi)。
69.在一些实施方案中,umi包含随机序列。在一些实施方案中,umi包含非随机序列。在一些实施方案中,umi包含一个或多个通用碱基。在一些实施方案中,umi由随机序列组成。在一些实施方案中,umi由非随机序列组成。在一些实施方案中,umi由通用碱基组成。umi可以是任何合适的长度。在一些实施方案中,umi包含三至十个核苷酸。例如,umi可以包含三个核苷酸、四个核苷酸、五个核苷酸、六个核苷酸、七个核苷酸、八个核苷酸、九个核苷酸或十个核苷酸。在一些实施方案中,umi包含五个核苷酸。在一些实施方案中,umi包含五个随机核苷酸。在一些实施方案中,umi包含五个非随机核苷酸。在一些实施方案中,umi包含五个通用碱基。
70.在一些实施方案中,寡核苷酸(例如,支架衔接子的寡核苷酸组分)包含独特分子标识符(umi),其侧翼是一个或两个侧翼区域。侧翼为侧翼区域的umi通常与侧翼区域相邻。侧翼为两个侧翼区域的umi通常与每个侧翼区域相邻,其中umi位于两个侧翼区域之间。当形成复合物时,侧翼区域(也称为锚定序列)可位于与ssna末端相邻的寡核苷酸末端处(即与寡核苷酸-ssna连接或“连接末端”相邻)。侧翼区域通常包含非随机序列。在一些实施方案中,侧翼区域包含来自非随机序列种类汇集物(pool)的非随机序列种类。在一些实施方案中,非随机序列种类汇集物包含两种或多种非随机序列种类。在一些实施方案中,非随机序列种类汇集物包含三种或多种非随机序列种类。在一些实施方案中,非随机序列种类汇集物包含四种或多种非随机序列种类。在一些实施方案中,非随机序列种类汇集物包含五种或多种非随机序列种类。在一些实施方案中,非随机序列种类汇集物包含六种或多种非随机序列种类。在一些实施方案中,非随机序列种类汇集物包含四种非随机序列种类。侧翼区域可以是任何合适的长度。在一些实施方案中,侧翼区域包含八至十五个核苷酸。例如,侧翼区域可包含八个核苷酸、九个核苷酸、十个核苷酸、十一个核苷酸、十二个核苷酸、十三个核苷酸、十四个核苷酸、十五个核苷酸、十六个核苷酸、十七个核苷酸、十八个核苷酸、十九个核苷酸或二十个核苷酸。在一些实施方案中,侧翼区域包含十个核苷酸。umi序列(例如,五个随机碱基)与特定侧翼序列种类(例如,来自四种可能的侧翼序列种类的汇集物的十个非随机碱基)的组合可用作分子标识符,并可被认为是“umi”。
71.侧翼区域可以被设计为具有合适的解链温度(tm)。如本文所描述的,解链温度通常指一半侧翼区域/与侧翼区域互补的多核苷酸保持杂交且一半侧翼区域/与侧翼区域互
补的多核苷酸解离成单链的温度。合适的解链温度可以是高于进行连接反应(例如,本文所描述的连接反应)的温度的温度。例如,如果连接反应在37℃进行,那么侧翼区域的合适的解链温度为大于37℃的温度。如果连接反应在16℃进行,那么合适的解链温度为大于16℃的温度。在一些实施方案中,合适的解链温度等于或大于约37℃。例如,合适的解链温度可以等于或大于约38℃、约39℃、约40℃、约41℃、约42℃、约43℃、约44℃、约45℃、约46℃、约47℃、约48℃、约49℃或约50℃。在一些实施方案中,合适的解链温度等于或大于约38℃。在一些实施方案中,合适的解链温度等于或大于约45℃。
72.在某些构造中,侧翼区域可以被设计为足够长,以具有足够的鸟嘌呤和胞嘧啶含量,和/或包含一个或多个修饰的核苷酸(例如,锁核酸(lna)碱基),以具有合适的解链温度(tm)。通常,增加侧翼区域的长度可以补偿较低的gc含量,并且增加gc含量可以补偿较短的侧翼区域(即,提供具有合适tm的侧翼区域)。例如,侧翼区域可包含十个核苷酸,其中70%的核苷酸是鸟嘌呤或胞嘧啶以获得大于45℃的tm。在另一个实例中,侧翼区域可包含十八个核苷酸,其中50%的核苷酸是鸟嘌呤或胞嘧啶以获得大于45℃的tm。对于上述实例,如果侧翼中包含增加tm的一个或多个修饰的核苷酸(例如,lna碱基),则侧翼区域可更短和/或包含更低的gc含量。
73.侧翼区域可富含鸟嘌呤和胞嘧啶(gc)。富含gc的侧翼区域可包含至少约50%的鸟嘌呤和胞嘧啶核苷酸。例如,富含gc的侧翼区域可包含约60%的鸟嘌呤和胞嘧啶核苷酸、约70%的鸟嘌呤和胞嘧啶核苷酸、约80%的鸟嘌呤和胞嘧啶核苷酸、约90%的鸟嘌呤和胞嘧啶核苷酸或100%的鸟嘌呤和胞嘧啶核苷酸。在一些实施方案中,富含gc的侧翼区域包含约70%的鸟嘌呤和胞嘧啶核苷酸。在一些实施方案中,侧翼区域包含约90%的鸟嘌呤和胞嘧啶核苷酸。在一些实施方案中,侧翼区域包含约90%的鸟嘌呤和胞嘧啶核苷酸,并且具有约38℃的tm。在一些实施方案中,侧翼区域包含以下多核苷酸序列:ggcccgacgg。
74.寡核苷酸可以包含另外的侧翼区域。当形成复合物时,另外的侧翼区域可位于远离与ssna末端相邻的寡核苷酸末端的位置(即,远离寡核苷酸-ssna接合或“连接末端”)。另外的侧翼区域通常包含非随机序列。另外的侧翼区域可包含本文所描述的侧翼区域或锚定序列的任何特征。在一些构造中,另外的侧翼区域构成支架衔接子的寡核苷酸组分的一个或多个另外的子组分。例如,另外的侧翼区域可包含引物结合结构域、测序衔接子或其部分以及索引(例如,样品鉴定索引)中的一个或多个。
75.在一些实施方案中,寡核苷酸从寡核苷酸-ssna接合末端开始依次包含侧翼区域、随后是umi、随后是另外的侧翼区域。在一些实施方案中,寡核苷酸从寡核苷酸-ssna接合末端开始依次包含非随机侧翼区域、随后是随机umi、随后是另外的非随机侧翼区域。在一些实施方案中,寡核苷酸从寡核苷酸-ssna接合末端开始依次包含非随机侧翼区域、随后是非随机umi、随后是另外的非随机侧翼区域。
76.在一些实施方案中,支架多核苷酸包含寡核苷酸杂交区域,该寡核苷酸杂交区域包含与寡核苷酸中的侧翼区域互补的多核苷酸。在一些实施方案中,支架多核苷酸包含寡核苷酸杂交区域,该寡核苷酸杂交区域包含与寡核苷酸中的侧翼区域互补的多核苷酸和与寡核苷酸中的另外的侧翼区域互补的多核苷酸。在一些实施方案中,支架多核苷酸包含寡核苷酸杂交区域,该寡核苷酸杂交区域包含对应于寡核苷酸中的umi的区域。对应于寡核苷酸中的umi的区域可包含与umi互补的序列,或者可包含与umi不互补的序列。当寡核苷酸包
含随机umi序列时,对应于umi的区域也可包含随机序列,并因此umi和对应于umi的区域通常不互补。随机umi序列和对应于umi的区域可包含相同数目的核苷酸,或者可包含不同数目的核苷酸。当寡核苷酸包含非随机umi序列时,对应于umi的区域也可包含非随机序列,并且umi和对应于umi的区域被设计为互补的。当寡核苷酸包含含有通用碱基的umi时,对应于umi的区域也可以含有通用碱基。在一些实施方案中,支架多核苷酸包含寡核苷酸杂交区域,该寡核苷酸杂交区域包含对应于寡核苷酸中的umi的区域,其侧翼为与寡核苷酸中的侧翼区域互补的多核苷酸和与寡核苷酸中的另外的侧翼区域互补的多核苷酸。
77.具有独特umi构造(即,包含独特umi序列和/或与特定侧翼序列种类组合的独特umi序列)的每个寡核苷酸可被称为寡核苷酸种类,并且多个寡核苷酸种类的集合可被称为多个寡核苷酸种类(例如,对于被设计为具有5个随机碱基umi的寡核苷酸,多个寡核苷酸种类可包含45个独特umi序列)。因此,具有独特寡核苷酸(即,包含独特umi序列和/或与特定侧翼序列种类组合的独特umi序列)和/或独特支架多核苷酸(即,包含独特ssna杂交区域序列)的每个支架衔接子可被称为支架衔接子种类,并且多个支架衔接子种类的集合可被称为多个支架衔接子种类。一个寡核苷酸种类通常包含相对于其他寡核苷酸种类是独特的特征。例如,一个寡核苷酸种类可以包含一个独特的序列特征。独特的序列特征可以包括独特的序列长度、独特的核苷酸序列(例如,独特的随机序列)或者独特的序列长度和核苷酸序列的组合。
78.将支架衔接子或其组分与ssna组合
79.本文中的方法可包括将一个或多个支架衔接子或其组分与包含单链核酸(ssna)的组合物组合,以形成一种或多种复合物。支架多核苷酸被设计用于同时与ssna片段和寡核苷酸组分杂交,使得在复合物形成后,寡核苷酸组分的末端与ssna片段的末端区域的末端相邻。通常,在复合物形成后,寡核苷酸组分的5’末端与ssna末端区域的3’末端相邻,或者寡核苷酸组分的5’末端与ssna末端区域的3’末端相邻。在支架衔接子附接至ssna片段的两个末端的情况下,在复合物形成后,一个寡核苷酸组分的5’末端与ssna的一个末端区域的3’末端相邻,且第二寡核苷酸组分的5’末端与ssna的第二末端区域的3’末端相邻。
80.在一些实施方案中,方法包括通过将ssna组合物、寡核苷酸与多个异质支架多核苷酸组合形成复合物,所述异质支架多核苷酸具有能够充当用于异质ssna群体的支架的多种随机ssna杂交区域,所述异质ssna群体具有未确定的序列的末端区域。在一些实施方案中,方法包括通过将ssna组合物、具有多种umi构造的多个异质寡核苷酸与多个异质支架多核苷酸组合形成复合物,所述异质支架多核苷酸具有能够充当用于异质ssna群体的支架的多种随机ssna杂交区域,所述异质ssna群体具有未确定的序列的末端区域。在一些实施方案中,方法包括通过将ssna组合物、寡核苷酸或具有多种umi构造的多个异质寡核苷酸与多个异质支架多核苷酸组合形成复合物,其中以超过寡核苷酸的量的量提供所述支架多核苷酸。在一些实施方案中,支架多核苷酸和寡核苷酸以至少1.1比1(支架多核苷酸比寡核苷酸)的比例提供。例如,支架多核苷酸和寡核苷酸可以以至少1.2比1、至少1.3比1、至少1.4比1、至少1.5比1、至少1.6比1、至少1.7比1、至少1.8比1、至少1.9比1或至少2比1的比例提供。在一些实施方案中,支架多核苷酸和寡核苷酸以1.4比1(支架多核苷酸比寡核苷酸)的比例提供。例如,方法可包括将ssna组合物与14μm支架多核苷酸和10μm寡核苷酸组合。
81.在一些实施方案中,ssna杂交区域包含设计为与已知序列的ssna末端区域杂交的
已知序列。在一些实施方案中,具有已知序列的不同ssna杂交区域的两个或多个异质支架多核苷酸被设计为与已知序列的相应ssna末端区域杂交。其中ssna杂交区域具有已知序列的实施方案可例如可用于从具有已知序列的末端区域的ssna子集产生核酸文库。因此,在某些实施方案中,本文中的方法包括通过将ssna组合物、寡核苷酸和一个或多个异质支架多核苷酸组合形成复合物,所述异质支架多核苷酸具有已知序列的一个或多个不同ssna杂交区域,其能够充当用于具有已知序列的一个或多个末端区域的一个或多个ssna的支架。
82.ssna片段、寡核苷酸和支架多核苷酸可以以多种方式组合。在一些构造中,组合包括将1)包含通过寡核苷酸杂交区域与寡核苷酸组分杂交的支架多核苷酸的复合物与2)ssna片段组合。在另一种构造中,组合包括将1)包含通过ssna杂交区域与ssna片段杂交的支架多核苷酸的复合物与2)寡核苷酸组分组合。在另一种构造中,组合包括将1)ssna片段、2)寡核苷酸和3)支架多核苷酸组合,其中在组合之前,这三种组分都不与另一种组分预复合或杂交。
83.组合可以在杂交条件下进行,使得形成的复合物包含通过ssna杂交区域与ssna片段的末端区域杂交的支架多核苷酸,以及通过寡核苷酸杂交区域与寡核苷酸组分杂交的支架多核苷酸。是否发生特异性杂交可由诸如以下的因素确定:支架多核苷酸的杂交区域、ssna片段的末端区域和寡核苷酸组分之间的互补性程度以及它们的长度、盐浓度、gc含量和杂交发生的温度,其可通过相关区域的解链温度(tm)来获知。
84.可以形成复合物,使得寡核苷酸组分的末端与ssna片段的末端区域的末端相邻。相邻是指寡核苷酸末端的末端核苷酸与ssna片段末端区域的末端的末端核苷酸彼此足够接近,使得末端核苷酸可以例如通过化学连接、酶促连接等进行共价连接。在一些实施方案中,由于寡核苷酸末端的末端核苷酸和ssna末端区域的末端的末端核苷酸与支架多核苷酸的相邻核苷酸杂交,末端彼此相邻。支架多核苷酸可以被设计为确保寡核苷酸的末端与ssna片段末端区域的末端相邻。
85.在一些实施方案中,可以形成复合物,使得寡核苷酸组分中的rna特异性标签的末端与ssrna片段末端区域的末端相邻。相邻是指rna特异性标签末端的末端核苷酸与ssrna片段末端区域的末端的末端核苷酸彼此足够接近,使得末端核苷酸可以例如通过化学连接、酶促连接等进行共价连接。在一些实施方案中,由于rna特异性标签末端的末端核苷酸和ssrna末端区域的末端的末端核苷酸与支架多核苷酸的相邻核苷酸杂交,末端彼此相邻。支架多核苷酸可以被设计为确保rna特异性标签的末端与ssrna片段末端区域的末端相邻。
86.在一些实施方案中,可以形成复合物,使得寡核苷酸组分中的dna特异性标签的末端与ssdna片段末端区域的末端相邻。相邻是指dna特异性标签末端的末端核苷酸与ssdna片段末端区域的末端的末端核苷酸彼此足够接近,使得末端核苷酸可以例如通过化学连接、酶促连接等进行共价连接。在一些实施方案中,由于dna特异性标签末端的末端核苷酸和ssdna末端区域的末端的末端核苷酸与支架多核苷酸的相邻核苷酸杂交,末端彼此相邻。支架多核苷酸可以被设计为确保dna特异性标签的末端与ssdna片段末端区域的末端相邻。
87.可以通过用一个或多个尿嘧啶碱基代替胸腺嘧啶来设计支架多核苷酸。在一些实施方案中,支架衔接子双链体中的一条链可以通过在尿嘧啶碱基处生成多个切割位点而被降解,例如通过使用尿嘧啶-dna糖基化酶和核酸内切酶。
88.本文所描述的包含内嵌式umi设计的支架衔接子可被构造为与ssna片段的一端或
两端连接。在一些构造中,支架衔接子被设计为使得与ssna的5’末端连接的衔接子种类包含本文所描述的内嵌式umi设计。在一些构造中,支架衔接子被设计为使得与ssna的3’末端连接的衔接子种类包含本文所描述的内嵌式umi设计。在一些构造中,支架衔接子被设计为使得与ssna的5’末端连接的衔接子种类包含本文所描述的内嵌式umi设计,且与ssna的3’末端连接的衔接子种类不包含内嵌式umi。在一些构造中,支架衔接子被设计为使得与ssna的3’末端连接的衔接子种类包含本文所描述的内嵌式umi设计,且与ssna的5’末端连接的衔接子种类不包含内嵌式umi。在一些构造中,支架衔接子被设计为使得与ssna的5’末端连接的衔接子种类包含本文所描述的内嵌式umi设计,且与ssna的3’末端连接的衔接子种类也包含本文所描述的内嵌式umi设计。
89.支架衔接子、寡核苷酸组分和支架多核苷酸在本文中可被称为第一支架衔接子(或第一支架双链体)、第一寡核苷酸组分(或第一寡核苷酸)、第一独特分子标识符(umi)和第一支架多核苷酸;或第二支架衔接子(或第二支架双链体)、第二寡核苷酸组分(或第二寡核苷酸)、第二独特分子标识符(umi)和第二支架多核苷酸。术语第一和第二通常指与ssna片段末端的第一末端和第二末端(即5’末端和3’末端)杂交和/或共价连接的支架衔接子或其组分。术语第一末端和第二末端并不总是指ssna片段的特定方向性。因此,ssna末端的第一末端可以是5’末端或3’末端,且ssna末端的第二末端可以是5’末端或3’末端。第一支架衔接子或其组分可以指p5衔接子或其组分,或p7衔接子或其组分。第二支架衔接子或其组分可以指p5衔接子或其组分,或p7衔接子或其组分。
90.在一些情况下,支架衔接子、寡核苷酸组分和支架多核苷酸在本文中可被称为(i)第一支架衔接子(或第一支架双链体)、第一寡核苷酸组分(或第一寡核苷酸)和第一支架多核苷酸;(ii)第二支架衔接子(或第二支架双链体)、第二寡核苷酸组分(或第二寡核苷酸)和第二支架多核苷酸;(iii)第三支架衔接子(或第三支架双链体)、第三寡核苷酸组分(或第三寡核苷酸)和第三支架多核苷酸;或(iv)第四支架衔接子(或第四支架双链体)、第四寡核苷酸组分(或第四寡核苷酸)和第四支架多核苷酸。在这种情况下(例如,当支架衔接子或其组分与ssrna和ssdna的混合物组合时),术语第一和第二通常指分别与ssrna片段末端的第一末端(即5’末端和3’末端)和ssdna片段末端的第一末端(即5’末端和3’末端)杂交和/或共价连接的支架衔接子或其组分。术语第三和第四通常指分别与ssrna片段末端的第二末端(即5’末端和3’末端)和ssdna片段末端的第二末端(即5’末端和3’末端)杂交和/或共价连接的支架衔接子或其组分。
91.位于第一独特分子标识符(umi)侧翼的区域可被称为第一侧翼区域和第二侧翼区域。第一侧翼区域通常指当形成复合物时,第一寡核苷酸中靠近与ssna末端相邻的寡核苷酸末端的区域(即,与寡核苷酸-ssna接合或“连接末端”相邻)。第二侧翼区域通常指当形成复合物时,第一寡核苷酸中远离与ssna末端相邻的寡核苷酸末端的区域。位于第二独特分子标识符(umi)侧翼的区域可被称为第三侧翼区域和第四侧翼区域。第三侧翼区域通常指当形成复合物时,第二寡核苷酸中靠近与ssna末端相邻的寡核苷酸末端的区域(即,与寡核苷酸-ssna接合或“连接末端”相邻)。第四侧翼区域通常指当形成复合物时,第二寡核苷酸中远离与ssna末端相邻的寡核苷酸末端的区域。术语第一侧翼区域、第二侧翼区域、第三侧翼区域和第四侧翼区域并不总是指寡核苷酸中组分的特定方向性。第一侧翼区域和第三侧翼区域在本文中可称为侧翼区域或锚定序列。第二侧翼区域和第四侧翼区域在本文中可称
为另外的侧翼区域。
92.在一些情况下,在将支架衔接子或其组分与包含ssna的核酸样品组合之前,可以用核酸酶处理核酸样品以去除不想要的核酸。例如,双链特异性核酸酶(例如,t7核酸酶)可用于消化一些或所有双链dna,并且然后如本文公开的,支架衔接子可用于制备剩余核酸的测序文库。在一个实例中,双链特异性核酸酶用于消化样品中的双链核酸,留下完整的单链核酸,例如来自单链dna病毒、单链rna病毒和单链dna(例如受损的dna)的单链核酸,同时消化来自宿主生物体和/或细菌的双链dna。
93.将支架衔接子或其组分与ssrna和/或sscdna组合
94.本文中的方法可包括将一个或多个支架衔接子或其组分与包含单链核糖核酸(ssrna)和/或单链互补脱氧核糖核酸(sscdna)的组合物组合,以形成一种或多种复合物。支架多核苷酸被设计用于同时与ssrna或sscdna片段和寡核苷酸组分杂交,使得在复合物形成后,寡核苷酸组分的末端与ssrna或sscdna片段的末端区域的末端相邻,如以上针对ssna所描述的。
95.在一些实施方案中,核酸组合物包含sscdna。在一些实施方案中,方法包括在组合之前,从单链核糖核酸(ssrna)生成sscdna。通常,当核酸组合物包含sscdna时,本文中的方法使用第一链cdna,且不需要生成第二链cdna。因此,在一些实施方案中,核酸组合物包含第一链sscdna。在一些实施方案中,核酸组合物基本上由第一链sscdna组成。“基本上由”第一链sscdna“组成”的核酸组合物通常包含第一链sscdna,并且没有另外的蛋白或核酸组分。基本上由第一链sscdna组成的核酸组合物通常不包含第二链sscdna。此外,例如,“基本上由”第一链sscdna“组成”的核酸组合物可不包含双链cdna(dscdna),或者可包含低百分比的dscdna(例如,小于10%的dscdna、小于5%的dscdna、小于1%的dscdna)。“基本上由”第一链sscdna“组成”的核酸组合物可不包含蛋白。例如,“基本上由”第一链sscdna“组成”的核酸组合物可不包含单链结合蛋白(ssb)或可用于稳定第一链sscdna的其他蛋白。“基本上由”第一链sscdna“组成”的核酸组合物可包含通常存在于核酸组合物中的化学组分,例如缓冲液、盐、醇、拥挤剂(crowding agent)(例如peg)等;并且可包含来自核酸来源(例如样品)、来自核酸提取或来自cdna合成的残余组分(例如核酸(例如残余rna)、蛋白、细胞膜组分)。“基本上由”第一链sscdna“组成”的核酸组合物可包含具有一个或多个磷酸(例如末端磷酸,5’末端磷酸)的第一链sscdna片段。“基本上由”第一链sscdna“组成”的核酸组合物可包含含有一个或多个修饰的核苷酸的第一链sscdna片段。
96.在一些实施方案中,生成sscdna包括使ssrna与引物和包含逆转录酶活性的剂接触,从而生成dna-rna双链体。在一些实施方案中,生成sscdna可以进一步包括使dna-rna双链体与包含rna酶活性的剂接触,从而消化rna并生成sscdna产物。在一些实施方案中,包含逆转录酶活性的剂是逆转录酶或rna依赖性dna聚合酶(即,用于通过逆转录从rna模板生成互补dna(cdna)的酶)。逆转录酶的实例包括hiv-1逆转录酶、m-mlv逆转录酶和amv逆转录酶。在一些实施方案中,包含逆转录酶活性的剂还包含rna酶活性。因此,在一些实施方案中,逆转录和rna酶消化被组合到一个步骤中。在一些实施方案中,包含逆转录酶活性和rna酶活性的剂是m-mulv逆转录酶(也称为m-mlv逆转录酶)。
97.一种或多种引物可被称为引物寡核苷酸,并且可包括适合用于与逆转录酶联合使用的任一种或多种引物。一种或多种引物可选自以下的一种或多种:随机引物(例如,随机n
聚体、随机六聚体引物、随机八聚体引物)和多聚(t)引物。可以通过合适的纯化或洗涤方法,例如本文所描述的纯化或洗涤方法来纯化sscdna产物。在一些实施方案中,引物寡核苷酸包含引发区域和rna特异性标签。在一些实施方案中,引物可被称为引发多核苷酸。引发多核苷酸可包含引物、rna特异性标签和寡核苷酸(例如,测序衔接子或其部分;扩增引发位点)。rna特异性标签可包含约5至约15个核苷酸。在一些实施方案中,rna特异性标签包含9个核苷酸。在一些实施方案中,rna特异性标签位于引物寡核苷酸的末端。在一些实施方案中,rna特异性标签位于引物寡核苷酸的5’末端。引物寡核苷酸中的引发区域可包含与rna片段杂交的序列。引物寡核苷酸中的引发区域可包含与rna片段末端区域杂交的序列。引物寡核苷酸中的引发区域可包含与rna片段在3’末端区域杂交的序列。引发区域可包含随机引物(例如,随机n聚体、随机六聚体引物、随机八聚体引物)。在一些实施方案中,引发区域与rna片段杂交,并且rna特异性标签不与rna片段杂交。因此,在一些实施方案中,本文中的方法包括生成单链cdna(sscdna),其包含与rna片段互补的序列和包含rna特异性标签的另外的序列。在一些实施方案中,rna特异性标签位于sscdna的末端。在一些实施方案中,rna特异性标签位于sscdna的5’末端。在包含ssrna和dsdna混合物的核酸组合物中,可以将rna特异性标签添加至源自ssrna的cdna,并且可以不添加至dsdna的任一条链。在包含cdna和dsdna混合物的核酸组合物中,cdna可以包含rna特异性标签,且dsdna可以不包含rna特异性标签。在包含sscdna和ssdna混合物的核酸组合物中,sscdna可以包含rna特异性标签,且ssdna可以不包含rna特异性标签。
98.在一些实施方案中,核酸组合物包含单链互补脱氧核糖核酸(sscdna)和单链脱氧核糖核酸(ssdna)的混合物。在一些实施方案中,sscdna包括但不限于源自cdna-rna双链体(例如,如上文所描述的通过逆转录生成的)的sscdna。例如,sscdna可以源自cdna-rna双链体,其被变性(例如,热变性和/或化学变性)或经受rna酶处理以产生sscdna。在一些实施方案中,ssdna包括但不限于源自双链dna(dsdna)的ssdna。例如,ssdna可源自双链dna,其被变性(例如,热变性和/或化学变性)以产生ssdna。在一些实施方案中,本文中的方法包括在将sscdna和ssdna与本文所描述的支架衔接子或其组分组合之前,从cdna-rna双链体生成sscdna,并从dsdna生成ssdna。在一些实施方案中,sscdna和ssdna可以通过使cdna-rna双链体和dsdna变性来生成。
99.在一些实施方案中,核酸组合物包含ssrna。在这样的实施方案中,支架衔接子可以直接与ssrna片段杂交,并且寡核苷酸组分与ssrna末端的一个或多个末端共价连接,从而形成含有一个或多个支架衔接子和ssrna片段的杂交产物。在一些实施方案中,方法进一步包括从杂交产物生成单链连接产物(例如,通过使杂交产物变性)。在这样的实施方案中,单链连接产物包含与一个或多个寡核苷酸组分共价连接的ssrna片段。在一些实施方案中,方法进一步包括使单链连接产物与引物和包含逆转录酶活性的剂接触,从而生成dna-rna双链体。在一些实施方案中,方法进一步包括使dna-rna双链体与包含rna酶活性的剂接触,从而消化rna并生成单链cdna(sscdna)产物。在一些实施方案中,包含逆转录酶活性的剂还包含rna酶活性。因此,在一些实施方案中,逆转录和rna酶消化被组合到一个步骤中。在一些实施方案中,包含逆转录酶活性和rna酶活性的剂是m-mulv逆转录酶(也称为m-mlv逆转录酶)。引物可以是适合用于与逆转录酶联合使用的任何引物。在一些实施方案中,引物包含与寡核苷酸组分(即与ssrna片段共价连接的寡核苷酸组分)中的序列互补的核苷酸序
列。可以通过合适的纯化或洗涤方法,例如本文所描述的纯化或洗涤方法来纯化sscdna产物。
100.在一些实施方案中,寡核苷酸可以与ssrna共价连接(例如,没有预先与支架衔接子杂交)。共价连接的ssrna产物可以与引物寡核苷酸和包含逆转录酶活性的剂接触,以生成cdna,如本文所描述的。引物寡核苷酸通常包含寡核苷酸杂交区域。寡核苷酸可以包含rna,或者寡核苷酸可以由rna组成。在一些实施方案中,寡核苷酸包含rna特异性标签。在一些实施方案中,寡核苷酸包含测序衔接子或其部分,或引物结合位点。在一些实施方案中,通过使ssrna和寡核苷酸与包含连接酶活性的一种或多种剂在其中ssrna末端区域的末端与寡核苷酸的末端共价连接的条件下接触,将寡核苷酸与ssrna共价连接。包含连接酶活性的一种或多种剂可选自例如t4 rna连接酶1、t4 rna连接酶2、截短的t4 rna连接酶2和热稳定的5
′
app dna/rna连接酶。
101.在一些实施方案中,sscdna产物被扩增。可以通过合适的扩增方法,例如本文所描述的扩增方法来扩增sscdna产物。在一些实施方案中,扩增sscdna产物可以与生成dna-rna双链体和/或生成sscdna产物组合(例如,组合在单一步骤、反应、容器和/或体积中)。因此,用于生成dna-rna双链体的试剂(例如,包含逆转录酶活性的一种或多种剂)、用于生成sscdna产物的试剂(例如,包含rna酶活性的一种或多种试剂)和用于扩增sscdna产物的试剂(例如,引物、包含聚合酶活性的剂)可以被组合用于在单一步骤、反应、容器和/或体积中使用。在一些实施方案中,用于扩增sscdna产物的试剂包含与本文所描述的支架衔接子的组分(例如,第一寡核苷酸)杂交的扩增引物。扩增引物可以是适合用于与聚合酶联合使用的任何引物。在一些实施方案中,每个引物包含与sscdna产物中对应于寡核苷酸组分(即与ssrna片段共价连接的寡核苷酸组分)的序列互补的核苷酸序列。可以通过合适的纯化或洗涤方法,例如本文所描述的纯化或洗涤方法来纯化扩增的sscdna产物。
102.在一些实施方案中,本文中的方法包括在将ssrna与支架衔接子或其组分组合之前,或在生成sscdna之前,将ssrna片段化,从而生成ssrna片段。可以使用任何合适的片段化方法,例如本技术描述的片段化方法。在一些实施方案中,本文中的方法包括在将ssrna与支架衔接子或其组分组合之前,或在生成sscdna之前,消耗核糖体rna(rrna)和/或富集信使rna(mrna)。可以使用任何合适的rrna消耗方法和/或mrna富集方法,诸如例如本文所描述的rrna消耗方法和/或mrna富集方法。
103.本文中的方法可包括将一个或多个支架衔接子或其组分与包含单链核糖核酸(ssrna)和单链脱氧核糖核酸(ssdna)的混合物或单链互补dna(sscdna)和ssdna的混合物的组合物组合,以形成一种或多种复合物。支架多核苷酸可以被设计用于同时与ssrna、sscdna或ssdna片段和寡核苷酸组分杂交,使得在复合物形成后,寡核苷酸组分的末端与ssrna、sscdna或ssdna片段的末端区域的末端相邻,如以上针对ssna所描述的。
104.图7显示了用于处理包含dna和rna混合物的样品的示例性工作流程。首先,rna可经历第一链cdna合成(其中cdna被加标签,如本文所描述的),而双链dna保持不变或被加标签,例如用条形码加标签。然后,可以将支架衔接子与核酸组合并连接。接下来,衔接子连接的核酸可以被扩增,例如通过索引pcr扩增。然后,核酸可以任选地被富集(例如,针对感兴趣的靶进行富集)和/或测序,并且可以对dna和rna序列进行去卷积。
105.图9a和9b显示了用于处理rna的具有初始第一链合成的示例性方法(例如,如在图
7中显示的工作流程中所示)。首先对同时具有dna和rna的片段化的样品进行逆转录和rna加标签(也可称为rna条形码化),其例如使用包含标签和随机n聚体(例如随机六聚体)序列的引物进行。然后,使dna变性。变性的dna可以以单链形式稳定,其例如通过使用单链增强剂诸如单链结合蛋白(ssb)进行。接下来,使支架衔接子与核酸(包括原始样品dna和cdna)接触并进行连接。进行扩增,例如索引pcr。可以选择不与受试者(例如人类)基因组或转录组杂交的标签。可以选择不使用将在工作流程中的其他地方使用的启动子(例如,t7启动子)的标签。测序后,可以使用rna特异性标签鉴定rna序列或对其进行去卷积。
106.图8显示了用于处理包含dna和rna混合物的样品的另一个示例性工作流程。首先,样品中的rna和dna两者都可以与包含标签(rna特异性标签和dna特异性标签)的支架衔接子组合并进行连接。然后,进行一步pcr。然后,核酸可以任选地被富集(例如,针对感兴趣的靶进行富集)和/或测序,并且可以对dna和rna序列进行去卷积。
107.图10a和10b显示了用于处理rna的具有初始连接步骤的示例性方法(例如,如在图8中显示的工作流程中所示)。首先对同时具有dna和rna的片段化的样品进行dna变性。变性的dna可以以单链形式稳定,其例如通过使用单链增强剂诸如单链结合蛋白(ssb)进行。接下来,使支架衔接子(一些包含rna特异性标签,且一些包含dna特异性标签)与核酸(dna和rna)接触并进行连接。rna和dna衔接子分别与ssrna和ssdna附接的特异性可由衔接子或其组分的构成,和/或所用酶的选择(如连接酶)来提供。在一些实施方案中,与rna片段连接的支架衔接子的寡核苷酸组分由rna制成。在一些实施方案中,与rna片段连接的支架衔接子的寡核苷酸组分由rna制成,且支架多核苷酸由rna或dna制成。在一些实施方案中,与dna片段连接的支架衔接子的寡核苷酸组分由dna制成。在一些实施方案中,与dna片段连接的支架衔接子的寡核苷酸组分由dna制成,且支架多核苷酸由dna制成。可以使用至少在靶核酸的5’末端具有rna或dna特异性的酶(例如,用于rna的t4 rna连接酶2,用于dna的t4 dna连接酶)。这些酶不会在5’末端连接“错误”种类的核酸。在一些实施方案中,对于靶核酸的3’末端,连接可以更灵活,因为与靶核酸的3’末端杂交的衔接子对于rna或dna片段可以是相同的。连接后,进行一步pcr,从rna生成cdna并合成变性的dna的第二链。测序后,可以使用rna特异性标签和dna特异性标签对dna和rna序列进行去卷积。
108.这些方法的示例性应用包括cfdna分析、单细胞分析和人类样品分析。
109.杂交和连接
110.可以将核酸片段(例如,ssna片段)与支架衔接子或其组分组合,从而生成组合的产物。将ssna片段与支架衔接子或其组分组合可包括杂交和/或连接(例如,杂交产物的连接)。组合的产物可包括在ssna片段的一端或两端与支架衔接子或其组分相连(例如,杂交和/或连接)的ssna片段。组合的产物可包括在ssna片段的一端或两端与支架衔接子或其组分杂交的ssna片段,其可被称为杂交产物。组合的产物可包括在ssna片段的一端或两端与支架衔接子或其组分连接的ssna片段,其可被称为连接产物。在一些实施方案中,可以将来自裂解步骤的产物(即裂解产物)与支架衔接子或其组分组合,从而产生组合的产物。本文中的某些方法包括生成组合的产物的组(例如,第一组组合的产物和第二组组合的产物)。在一些实施方案中,第一组组合的产物包含与来自第一组支架衔接子或其组分的支架衔接子或其组分相连(例如,杂交和/或连接)的ssna。在一些实施方案中,第二组组合的产物包含与来自第二组支架衔接子或其组分的支架衔接子或其组分相连(例如,杂交和/或连接)
oh末端(5’p连接至3’oh)。连接酶活性可以包括将一个多核苷酸的3’磷酸化末端连接至另一个多核苷酸的5’oh末端(3’p连接至5’oh)。连接酶活性可以包括在连接反应中将ssna的5’末端连接到与其杂交的支架衔接子和/或支架衔接子的寡核苷酸组分的3’末端。连接酶活性可以包括在连接反应中将ssna的3’末端连接到与其杂交的支架衔接子和/或支架衔接子的寡核苷酸组分的5’末端。用于进行连接反应的合适试剂(例如连接酶)和试剂盒是已知的且可获得的。例如,可以使用从new england biolabs(ipswich,ma)可获得的即时粘性末端连接酶主混合物(instant sticky-end ligase master mix)。可以使用的连接酶包括但不限于,例如t3连接酶、t4 dna连接酶(例如,低浓度或高浓度)、t7 dna连接酶、大肠杆菌(e.coli)dna连接酶、electrorna连接酶、t4rna连接酶1、t4 rna连接酶2、截短的t4 rna连接酶2、热稳定的5
′
app dna/rna连接酶、连接酶、rtcb连接酶、taq连接酶等及其组合。当需要时,可以使用合适的激酶(诸如例如t4多核苷酸激酶(pnk)),将磷酸基团添加在寡核苷酸组分或ssna片段的5’末端。这种激酶和使用这种激酶磷酸化5’末端的指导例如从new england biolabs,inc.(ipswich,ma)可获得。
115.在一些实施方案中,方法包括将寡核苷酸组分和ssna末端区域的相邻末端共价连接,从而生成共价连接的杂交产物。在一些实施方案中,共价连接包括使杂交产物(例如,与本文中的至少一种支架衔接子杂交的ssna片段)与包含连接酶活性的剂在以下条件下接触,在所述条件中,ssna末端区域的末端与寡核苷酸组分的末端共价连接。在一些实施方案中,方法包括将第一寡核苷酸组分和第一ssna末端区域的相邻末端共价连接,以及将第二寡核苷酸组分和第二ssna末端区域的相邻末端共价连接,从而生成共价连接的杂交产物。在一些实施方案中,共价连接包括使杂交产物(例如,各自与本文中的两个支架衔接子杂交的ssna片段)与包含连接酶活性的剂在以下条件下接触,在所述条件中,第一ssna末端区域的末端与第一寡核苷酸组分的末端共价连接并且第二ssna末端区域的末端与第二寡核苷酸组分的末端共价连接。在一些实施方案中,包含连接酶活性的剂是t4 dna连接酶。在一些实施方案中,t4 dna连接酶以约1单位/μl至约50单位/μl之间的量使用。在一些实施方案中,t4 dna连接酶以约5单位/μl至约30单位/μl之间的量使用。在一些实施方案中,t4 dna连接酶以约5单位/μl至约15单位/μl之间的量使用。在一些实施方案中,t4dna连接酶以约10单位/μl使用。在一些实施方案中,t4 dna连接酶以小于25单位/μl的量使用。在一些实施方案中,t4 dna连接酶以小于20单位/μl的量使用。在一些实施方案中,t4 dna连接酶以小于15单位/μl的量使用。在一些实施方案中,t4 dna连接酶以小于10单位/μl的量使用。
116.在一些实施方案中,杂交产物与包含第一连接酶活性的第一剂和包含不同于第一连接酶活性的第二连接酶活性的第二剂接触。例如,第一连接酶活性和第二连接酶活性可以独立地选自平末端连接酶活性、切口封闭连接酶活性、粘性末端(sticky end)连接酶活性、环化连接酶活性和粘性末端(cohesive end)连接酶活性、双链连接酶活性、单链连接酶活性、5’p至3’oh连接酶活性和3’p至5’oh连接酶活性。
117.在一些实施方案中,本文中的方法包括通过生物相容的附接将ssna连接至支架衔接子和/或支架衔接子的寡核苷酸组分。方法可包括例如点击化学或加标签,其包括可用于连接生物分子的生物相容的反应。在一些实施方案中,每个寡核苷酸组分的末端包含第一化学反应性部分,且每个ssna的末端包含第二化学反应性部分。在这样的实施方案中,第一
化学反应性部分通常能够与第二化学反应性部分反应,并在支架衔接子的寡核苷酸组分和与支架衔接子杂交的ssna之间形成共价键。在一些实施方案中,本文中的方法包括使ssna与一种或多种化学剂在以下条件下接触,在所述条件中,第二化学反应性部分掺入每个ssna片段的末端。在一些实施方案中,本文中的方法包括将杂交产物暴露于以下条件,在所述条件中,第一化学反应性部分与第二化学反应性部分反应,在寡核苷酸组分和与支架衔接子杂交的ssna之间形成共价键。在一些实施方案中,第一化学反应性部分能够与第二化学反应性部分反应,以在寡核苷酸组分和与支架衔接子杂交的ssna之间形成1,2,3-三唑。在一些实施方案中,第一化学反应性部分能够在包含铜的条件下与第二化学反应性部分反应。第一化学反应性部分和第二化学反应性部分可包括任何合适的配对物。例如,第一化学反应性部分可以选自含叠氮化物的部分和5-辛二炔基脱氧尿嘧啶,且第二化学反应性部分可以独立地选自含叠氮化物的部分、己炔基和5-辛二炔基脱氧尿嘧啶。在一些实施方案中,含叠氮化物的部分是n-羟基琥珀酰亚胺(nhs)酯叠氮化物。
118.将寡核苷酸和ssna片段的相邻末端共价连接产生共价连接的产物,其可被称为连接产物。包含与寡核苷酸组分共价连接的ssna片段(其保持与支架多核苷酸杂交)的共价连接产物,可被称为共价连接的杂交产物。可使共价连接的杂交产物变性(例如,热变性)以从支架多核苷酸中分离与寡核苷酸组分共价连接的ssna片段。包含与寡核苷酸组分共价连接的ssna片段(其不再与支架多核苷酸杂交(例如,在变性后))的共价连接产物,可被称为单链连接产物。在一些情况下,支架多核苷酸的部分可以被裂解和/或降解,其例如通过在支架多核苷酸中的一个或多个尿嘧啶碱基处使用尿嘧啶-dna糖基化酶和核酸内切酶进行。
119.共价连接的杂交产物和/或单链连接产物可以被纯化,然后用作感兴趣的下游应用(例如,扩增;测序)中的输入物。例如,共价连接的杂交产物和/或单链连接产物可以从在组合、杂交和/或共价连接(连接)步骤中存在的某些组分中纯化出(例如,通过固相可逆固定(spri)、柱纯化和/或类似方法)。
120.在一些实施方案中,当本文中的方法包括将ssna组合物与本文中的支架衔接子或其组分组合,并将寡核苷酸组分和ssna片段的相邻末端共价连接时,组合和共价连接的总持续时间可以是4小时或更少、3小时或更少、2小时或更少或者1小时或更少。在一些实施方案中,组合和共价连接的总持续时间小于1小时。
121.在一些实施方案中,本文中的方法在单个容器、单个室和/或单个体积(即,连续体积)中进行,包括但不限于在微流体装置上进行。在一些实施方案中,将ssna组合物与本文中的支架衔接子或其组分组合,以及将寡核苷酸组分和ssna片段的相邻末端共价连接在单个容器、单个室和/或单个体积(即连续体积)中进行,包括但不限于在微流体装置上进行。在一些实施方案中,本文中的方法在孔、液滴、乳液、分区或其他反应体积的集合中进行,包括但不限于在微流体装置上进行。在一些实施方案中,将ssna组合物与本文中的支架衔接子或其组分组合,以及将寡核苷酸组分和ssna片段的相邻末端共价连接在孔、液滴、乳液、分区或其他反应体积的集合中进行,包括但不限于在微流体装置上进行。在一些情况下,制备反应体积的集合,使得多数或所有反应体积包含至多一个ssna。在一些情况下,制备反应体积的集合,使得多数或所有反应体积包含至多2个、至多3个、至多4个、至多5个、至多6个、至多7个、至多8个、至多9个、至多10个、至多20个、至多30个、至多40个、至多50个、至多60个、至多70个、至多80个、至多90个、至多100个、至多1000个、至多2000个、至多3000个、至多
4000个、至多5000个、至多6000个、至多7000个、至多8000个、至多9000个、至多10000个、至多20000个、至多30000个、至多40000个、至多50000个、至多60000个、至多70000个、至多80000个、至多90000个、至多100000个或多个ssna。将一个或有限数目的ssna分成反应体积可提供有利的反应动力学,例如增加样品核酸的稀有种类的文库转化。
122.用于表观遗传分析的衔接子
123.本文所描述的衔接子可用于表观遗传(或表观基因组)分析。例如,本文所描述的衔接子可用于甲基化分析(例如,甲基化组(methylome)分析)。dna甲基化是一种可影响某些发育过程的表观遗传修饰。甲基化异常,例如胞嘧啶-鸟嘌呤(cpg)二核苷酸的低甲基化或高甲基化,可引起诸如基因组不稳定性和/或转录沉默的问题,这可导致多种精神障碍或疾病(诸如例如癌症、糖尿病、心血管疾病和炎性疾病)的发展。
124.甲基化分析可包括甲基化测序(methyl-seq)。甲基化测序通常包括对样品核酸中的胞嘧啶进行脱氨基处理。脱氨基作用是指从分子中去除氨基基团。这种处理基于胞嘧啶的甲基化状态产生两种不同的结果:1)未甲基化的胞嘧啶残基被转化为尿嘧啶,和2)甲基化的胞嘧啶(5’甲基胞嘧啶,5-mc,5-hmc)残基保持未被处理修饰。在一些测定中,脱氨基处理后可进行核酸扩增(例如pcr)和/或核酸测序(例如大规模平行测序),以揭示基因特异性分析或全基因组分析中胞嘧啶残基的甲基化状态。转化为尿嘧啶的未甲基化的胞嘧啶残基通常在随后的扩增反应中被扩增为胸腺嘧啶残基,而甲基化的胞嘧啶残基被扩增为胞嘧啶残基。参考基因组和脱氨基处理的核酸之间的序列信息的比较可以提供关于胞嘧啶甲基化模式的信息。
125.脱氨基处理可包括基于化学的处理和/或基于酶的处理。基于化学的处理可包括亚硫酸氢钠处理,也称为亚硫酸氢盐转化(例如,zymo的ezmethylation-lightning试剂盒)。基于酶的处理可包括使用脱氨酶(例如,胞苷脱氨酶;enzymatic methyl-seq(em-seq
tm
)(neb#e7120))。脱氨酶可包括apobec(载脂蛋白b mrna编辑酶催化多肽样),其是胞苷脱氨酶家族。亚硫酸氢盐处理通常被认为是苛刻的,经常导致样品核酸的变性、剪切和/或损失,而基于酶的处理相对于亚硫酸氢盐处理被认为是温和的,并且可最小化对样品核酸的损害。不受理论的限制,在某些情况下,亚硫酸氢盐处理可适合用于包含短核酸片段(例如小于约250bp的片段)的样品核酸,其中该处理导致最小的剪切和/或损失。
126.本文提供了用于产生核酸文库的方法,所述方法包括(a)将包含单链核酸(ssna)的核酸组合物与本文所描述的多个支架衔接子或其组分组合,和(b)将ssna中的一个或多个未甲基化的胞嘧啶残基脱氨基,从而将一个或多个未甲基化的胞嘧啶残基转化为尿嘧啶。在一些实施方案中,支架衔接子包含如本文所描述的内嵌式umi。在一些实施方案中,支架衔接子不包含内嵌式umi。在一些实施方案中,(b)中的脱氨基在(a)中的组合之前进行。在一些实施方案中,(b)中的脱氨基在(a)中的组合之后进行。在一些实施方案中,支架衔接子或其一种或多种组分包含一个或多个甲基化的胞嘧啶残基。在这种情况下,支架衔接子或其一种或多种组分在本文中可被称为甲基化的衔接子或甲基化的组分。在一些实施方案中,支架衔接子的寡核苷酸组分包含一个或多个甲基化的胞嘧啶残基(甲基化的寡核苷酸)。在一些实施方案中,支架衔接子的支架多核苷酸组分包含一个或多个甲基化的胞嘧啶残基(甲基化的支架多核苷酸)。在一些实施方案中,脱氨基包括使用亚硫酸氢钠。在一些实
施方案中,脱氨基包括使用脱氨酶
127.可根据本文中的方法制备文库用于甲基化测序。在一些实施方案中,制备用于对包含基因组核酸(例如,gdna)的核酸组合物进行甲基化测序的文库。在一些实施方案中,制备用于对包含无细胞核酸(例如,cfdna)的核酸组合物进行甲基化测序的文库。在一些实施方案中,制备用于对包含古核酸(例如,adna)的核酸组合物进行甲基化测序的文库。在一些实施方案中,制备用于对包含来自法医样品的核酸的核酸组合物进行甲基化测序的文库。在一些实施方案中,制备用于对包含合成的核酸(例如,合成的寡核苷酸)的核酸组合物进行甲基化测序的文库。
128.在一些实施方案中,制备用于对核酸组合物进行甲基化测序的文库,所述核酸组合物包含具有小于特定阈值或截止长度的平均(average)、均值(mean)、中值或众数长度的核酸片段。在一些实施方案中,制备用于对核酸组合物进行甲基化测序的文库,所述核酸组合物包含具有小于特定阈值或截止长度的平均(average)、均值(mean)、中值或众数长度的核酸片段,其中核酸用亚硫酸氢钠处理。在一些实施方案中,制备用于对核酸组合物进行甲基化测序的文库,所述核酸组合物包含具有小于特定阈值或截止长度的平均(average)、均值(mean)、中值或众数长度的核酸片段,其中核酸在与本文中的支架衔接子或其组分(例如甲基化的衔接子或其甲基化的组分)组合后用亚硫酸氢钠处理。在一些实施方案中,核酸组合物包含具有小于约250bp的平均、均值、中值或众数长度的核酸片段。例如,核酸组合物可包含具有小于约250bp、小于约200bp、小于约150bp、小于约100bp或小于约50bp的平均、均值、中值或众数长度的核酸片段。在一些实施方案中,核酸组合物包含具有在约30bp至约250bp之间的平均、均值、中值或众数长度的核酸片段。例如,核酸组合物可包含具有约50bp、约60bp、约70bp、约80bp、约90bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约160bp、约170bp、约180bp、约190bp或约200bp的平均、均值、中值或众数长度的核酸片段。在一些实施方案中,核酸组合物包含具有约75bp的平均、均值、中值或众数长度的核酸片段。在一些实施方案中,核酸组合物包含具有约75bp的众数长度的核酸片段。在一些实施方案中,核酸组合物包含具有约167bp的平均、均值、中值或众数长度的核酸片段。在一些实施方案中,核酸组合物包含具有约167bp的众数长度的核酸片段。
129.衔接子二聚体
130.在一些实施方案中,本文中的方法包括一个或多个修饰和/或另外的步骤,用于防止、减少或消除衔接子二聚体。衔接子二聚体可能在本文描述的方法中无意间形成。衔接子二聚体通常指彼此杂交或杂交并连接的两个或多个支架衔接子、其组分或其部分。
131.在某些实施方案中,支架衔接子或其组分被修饰以防止衔接子二聚体的形成。对支架衔接子进行修饰的实例包括能够阻断支架衔接子、寡核苷酸组分或支架多核苷酸与另一寡核苷酸、多核苷酸或核酸分子(例如,另一支架衔接子、寡核苷酸组分和/或支架多核苷酸)共价连接的修饰的核苷酸。修饰的核苷酸的实例在以下描述。对支架衔接子的其他/另外的修饰包括诸如y-构型或发夹构型的构型,这在下文中进一步详细描述。在一些实施方案中,支架衔接子、寡核苷酸组分和/或支架多核苷酸可包含硫代磷酸酯骨架修饰(例如,链上最后两个核苷酸之间的硫代磷酸酯键)。
132.在一些实施方案中,方法包括去磷酸化步骤,以防止或减少衔接子二聚体的形成。在一些实施方案中,方法包括在将支架衔接子或其组分与ssna组合之前,使支架衔接子、寡
核苷酸组分和/或支架多核苷酸与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,支架衔接子、寡核苷酸组分和/或支架多核苷酸被去磷酸化,从而生成去磷酸化的支架衔接子、去磷酸化的寡核苷酸组分和/或去磷酸化的支架多核苷酸。
133.在一些实施方案中,方法包括一种或多种分阶段连接方法,以防止或减少衔接子二聚体的形成。在一些实施方案中,方法包括分阶段连接,其包括延迟添加包含磷酰基转移活性的剂(例如,直到杂交产物形成)和/或延迟添加第二支架衔接子或其组分。例如,方法可包括在形成杂交产物之后和将寡核苷酸组分与ssna末端区域共价连接之前,使寡核苷酸组分与包含磷酰基转移活性的剂在其中5’磷酸添加到寡核苷酸组分的5’末端的条件下接触。在另一个实例中,方法可包括将第一组支架衔接子与ssna组合。第一组支架衔接子可包含具有3’oh的寡核苷酸组分。第一组支架衔接子与ssna杂交,并且寡核苷酸组分的3’oh与ssna末端区域的5’末端(例如,5’磷酸化末端)共价连接。这种第一轮杂交和共价连接的产物可被称为中间共价连接的杂交产物。然后将中间共价连接的杂交产物与第二组支架衔接子组合。第二组支架衔接子可包含具有可如本文所述的被磷酸化的5’末端的寡核苷酸组分。第二组支架衔接子与中间共价连接的杂交产物杂交,并且寡核苷酸组分的5’磷酸化末端与ssna末端区域的3’末端共价连接。
134.在一些实施方案中,方法包括分阶段连接,其包括使用具有腺苷酰化(adenylation)修饰的支架衔接子或其组分。例如,第一组支架衔接子可以在寡核苷酸组分的5’末端包含腺苷酰化修饰(5’app)。第一组支架衔接子与ssna杂交,并且寡核苷酸组分的5’app与ssna末端区域的3’末端共价连接。共价连接可以在没有atp的情况下发生。这种第一轮杂交和共价连接的产物可被称为中间共价连接的杂交产物。然后将中间共价连接的杂交产物与第二组支架衔接子组合。第二组支架衔接子可包含具有3’oh末端的寡核苷酸组分。第二组支架衔接子与中间共价连接的杂交产物杂交,并且寡核苷酸组分的3’oh末端与ssna末端区域的5’末端(例如,5’磷酸化末端)共价连接(在添加atp的情况下)。在一个变化形式中,在没有atp的情况下,将第一组支架衔接子和第二组支架衔接子同时与ssna组合。第一组支架衔接子的连接可在没有atp的情况下进行,而第二组支架衔接子的连接可直到添加atp才进行。
135.在一些实施方案中,方法包括分阶段连接,其包括使用具有3’磷酸化末端的寡核苷酸(即单链寡核苷酸)。具有3’磷酸化末端的寡核苷酸可包括本文针对支架衔接子的寡核苷酸组分所描述的任何子组分(例如,引物结合位点、索引、umi、流动池衔接子等)。具有3’磷酸化末端的寡核苷酸通常是单链的,并且不与支架多核苷酸杂交。在一个实例中,方法可包括在将支架衔接子或其组分与ssna组合之前,将ssna与在3’末端包含磷酸的寡核苷酸组合,并将寡核苷酸的3’磷酸化末端与ssna末端区域的5’末端(例如,5’非磷酸化末端)共价连接。在一些实施方案中,在将寡核苷酸与ssna共价连接之前,使ssna与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,使ssna去磷酸化,从而生成去磷酸化的ssna。在一些实施方案中,将寡核苷酸与ssna共价连接包括使ssna和寡核苷酸与包含单链连接酶活性的剂在这样的条件下接触,在所述条件中,ssna的5’末端与寡核苷酸的3’末端共价连接。在一些实施方案中,包含连接酶活性的剂是rtcb连接酶。这种共价连接的产物可被称为中间共价连接的产物。然后将中间共价连接的产物与一组支架衔接子组合。一组支架衔接子可包含具有5’磷酸化末端的寡核苷酸组分。该组支架衔接子与中间共价连接的产物杂交,并且
寡核苷酸组分的5’磷酸化末端与ssna末端区域的3’末端共价连接。
136.在一些实施方案中,方法包括使用能够与寡核苷酸二聚体产物杂交的寡核苷酸以减少或消除衔接子二聚体。寡核苷酸二聚体产物可以是支架衔接子二聚体的组分,并且可包含与来自第二支架衔接子的寡核苷酸组分共价连接的来自第一支架衔接子的寡核苷酸组分。本文中的方法可包括变性步骤,其可以从支架衔接子二聚体中释放寡核苷酸二聚体产物。寡核苷酸二聚体产物可以与具有与寡核苷酸二聚体产物或其部分互补的序列的寡核苷酸杂交,从而形成寡核苷酸二聚体杂交产物。在一些实施方案中,寡核苷酸二聚体杂交产物包含裂解位点。在一些实施方案中,裂解位点是限制性酶识别位点。在一些实施方案中,本文中的方法进一步包括使寡核苷酸二聚体杂交产物与裂解剂(例如,限制性酶、稀有切割限制性酶(rare-cutter restriction enzyme))接触。
137.在一些实施方案中,方法包括在文库制备的不同阶段纯化或洗涤核酸产物,以减少或消除衔接子二聚体。在一些情况下,纯化或洗涤核酸产物可减少或消除衔接子二聚体。例如,共价连接的杂交产物(即,与支架衔接子杂交并与寡核苷酸组分共价连接的ssna)、单链连接产物(即,变性的共价连接的杂交产物;与寡核苷酸组分共价连接且不再与支架多核苷酸杂交的ssna)或其扩增产物,可以通过任何合适的纯化或洗涤方法进行纯化或洗涤。在一些实施方案中,纯化或洗涤包括使用固相可逆固定(spri)。spri珠可重悬于dna结合缓冲液中,该缓冲液包含例如约2.5m至约5m nacl、约0.1mm至约1m edta、约10mm tris、约0.01%至约0.05%吐温-20以及约8%和约38%之间的peg-8000。例如,1ml的spri珠悬浮液可以与2.5m nacl、10mm tris、1mm edta、0.05%吐温-20和20% peg-8000组合。在一些实施方案中,spri包括连续spri(背靠背进行洗涤)和或顺序spri(洗涤包括顺序添加spri珠和孵育)。连续spri可包括多次连续(背靠背)洗涤,其可包括2、3、4、5、6、7、8、9、10次或更多次连续洗涤。顺序spri可包括多次顺序添加spri珠(其间有孵育),其可包括2、3、4、5、6、7、8、9、10次或更多次顺序添加spri珠。在一些实施方案中,在spri纯化中使用的spri珠的量可包括0.1x至3x spri珠之间的量(x是珠与核酸的比率(例如,珠体积比反应体积))。例如,在spri纯化中使用的spri珠的量可包括约0.1x、约0.2x、约0.3x、约0.4x、约0.5x、约0.6x、约0.7x、约0.8x、约0.9x、约1.0x、约1.1x、约1.2x、约1.3x、约1.4x、约1.5x、约1.7x、约1.8x、约1.9x、约2.0x、约2.1x、约2.2x、约2.3x、约2.4x、约2.5x、约2.5x、约2.6x、约2.7x、约2.8x、约2.9x或3.0x spri珠。在一些实施方案中,在spri纯化中使用的spri珠的量是1.2x。在一些实施方案中,在spri纯化中使用的spri珠的量是1.5x。在一些实施方案中,纯化或洗涤包括柱纯化(例如,柱色谱法)。在一些实施方案中,纯化或洗涤不包括柱纯化(例如,柱色谱法)。在一些实施方案中,共价连接的杂交产物、单链连接产物和/或其扩增产物未被纯化或洗涤。
138.spri纯化通常在缓冲液的存在下进行。可以使用任何合适的缓冲液,例如tris缓冲液、具有类似ph值的水等。spri纯化珠可以直接添加至样品溶液(例如,含有共价连接的杂交产物(连接产物)或其扩增产物的样品溶液)。在某些情况下,可以添加缓冲液以提高反应体积,因此可以添加另外的珠。在一些实施方案中,spri珠溶液由添加至溶解在水、nacl、tris和edta中的peg 8000的羧化磁珠制成。peg的量通常决定了spri珠溶液的peg百分比。例如,在50ml spri珠溶液中添加9g peg 8000可被称为“18% spri”。在另一个实例中,在50ml spri溶液中添加19g peg 8000可被称为“38% spri”。通常,peg比例越高,保留的dna
片段的大小越小。
139.在一些实施方案中,纯化过程包括使共价连接的杂交产物(连接产物)与固相可逆固定(spri)珠和缓冲液接触。在一些实施方案中,一些或全部spri缓冲液被异丙醇替代。在一些实施方案中,spri缓冲液包含异丙醇。在一些实施方案中,spri缓冲液被异丙醇完全替代。在一些实施方案中,spri缓冲液包含约5%体积/体积(v/v)异丙醇至约50%v/v异丙醇。在一些实施方案中,spri缓冲液包含约10%v/v异丙醇至约40%v/v异丙醇。例如,spri缓冲液可包含约10%v/v异丙醇、15%v/v异丙醇、20%v/v异丙醇、25%v/v异丙醇、30%v/v异丙醇、35%v/v异丙醇或40%v/v异丙醇。在一些实施方案中,spri缓冲液包含约20%v/v异丙醇。
140.在一些实施方案中,纯化或洗涤步骤可以富集具有特定长度或长度范围的核酸片段或其扩增产物。在一些实施方案中,spri纯化可以富集具有特定长度或长度范围的核酸片段或其扩增产物。在一些实施方案中,spri纯化中使用的spri珠溶液中peg 8000的量可影响被富集的片段的长度或长度范围。例如,以1.5x v/v比率的spri纯化可以比以1.2x的spri纯化回收更多小于100个碱基范围的片段,因为peg 8000的最终浓度在1.5x中比在1.2x中更高。在一些实施方案中,本文中的方法包括调节spri比率,以富集期望的片段长度或长度范围。在一些实施方案中,本文中的方法包括调节spri纯化中异丙醇的量,以富集期望的片段长度或长度范围。在一些实施方案中,本文中的方法包括调节spri纯化中异丙醇的量,以富集期望的片段长度或长度范围,同时最小化不想要的人工产物(例如,衔接子二聚体)的量。例如,本文中的方法可包括调节spri纯化中异丙醇的量,以富集期望的片段长度或长度范围,其中回收的衔接子二聚体的量小于回收的总核酸的约10%。在另一个实例中,本文中的方法可包括调节spri纯化中异丙醇的量,以富集期望的片段长度或长度范围,其中回收的衔接子二聚体的量小于回收的总核酸的约5%。
141.在一些实施方案中,本文中的方法(例如,将ssna与支架衔接子或其组分组合、杂交和共价连接)可在合适的反应体积中和/或用合适的ssna量和/或合适的ssna与支架衔接子(或其组分)的比例进行。合适的反应体积和/或合适的ssna量和/或合适的ssna与支架衔接子(或其组分)的比例可以包括减少或防止衔接子二聚体形成的反应体积、ssna量和/或ssna与支架衔接子的比例。在一些实施方案中,合适量的ssna的范围可以是约250pg至约5ng ssna。例如,合适的ssna量可以是约250pg、约500pg、约750pg、约1ng、约1.5ng、约2ng、约2.5ng、约3ng、约3.5ng、约4ng、约4.5ng或约5ng。在一些实施方案中,合适量的ssna可以是约1ng ssna。在一些实施方案中,对于25μl的最终反应体积,1ng ssna可以与约1.0至约2.0皮摩尔的每种支架衔接子(即,约1.0至约2.0皮摩尔的与ssna末端区域的5’末端杂交的支架衔接子(包含多个支架衔接子种类的支架衔接子汇集物),以及约1.0至约2.0皮摩尔的与ssna末端区域的3’末端杂交的支架衔接子(包含多个支架衔接子种类的支架衔接子汇集物)组合。例如,对于25μl的最终反应体积,1ng ssna可以与约1.0、约1.1、约1.2、约1.3、约1.4、约1.5、约1.6、约1.7、约1.8、约1.9或约2.0皮摩尔的每种支架衔接子组合。在一些实施方案中,对于25μl的最终反应体积,1ng ssna与约1.6皮摩尔的每种支架衔接子(即,约1.6皮摩尔的与ssna末端区域的5’末端杂交的支架衔接子和约1.6皮摩尔的与ssna末端区域的3’末端杂交的支架衔接子)组合。对于更大的反应体积,ssna和支架衔接子的量可以按比例增加,只要相对量保持不变。对于较小的反应体积,ssna和支架衔接子的量可以按比例减
少,只要相对量保持不变。在一些实施方案中,本文中的支架衔接子与ssna以约5∶1(支架衔接子比ssna)至约50∶1(支架衔接子比ssna)的摩尔比例组合。例如,支架衔接子与ssna可以以约5∶1(支架衔接子比ssna)、约10∶1(支架衔接子比ssna)、约15∶1(支架衔接子比ssna)、约20∶1(支架衔接子比ssna)、约25∶1(支架衔接子比ssna)、约30∶1(支架衔接子比ssna)、约35∶1(支架衔接子比ssna)、约40∶1(支架衔接子比ssna)、约45∶1(支架衔接子比ssna)或约50∶1(支架衔接子比ssna)的摩尔比例组合。在一些实施方案中,支架衔接子与ssna以约15∶1(支架衔接子比ssna)的摩尔比例组合。在一些实施方案中,支架衔接子与ssna以约30∶1(支架衔接子比ssna)的摩尔比例组合。
142.在一些实施方案中,本文中的方法包括使用拥挤剂。合适量的拥挤剂可用于减少或防止衔接子二聚体的形成。拥挤剂可以包括,例如,聚蔗糖70、葡聚糖70、聚乙二醇(peg)2000和聚乙二醇(peg)8000。在一些实施方案中,本文中的方法包括使用聚乙二醇(peg)8000。peg例如可以以约15%至约20%的量使用,该百分比指的是peg在连接反应中的最终浓度。例如,peg可以以约15%、约15.5%、约16%、约16.5%、约17%、约17.5%、约18%、约18.5%、约19%、约19.5%或约20%的量使用。在一些实施方案中,使用18.5% peg。在一些实施方案中,使用18% peg。
143.在纯化过程中,通常在具有v/v比的说明的情况下,可以将spri珠溶液添加至样品溶液中。例如,1.2x 18% spri意指,如果给定50μl样品,则添加60μl(50x 1.2)18% spri珠。假设样品溶液中没有peg,该v/v比导致peg的最终浓度为9.8%。然而,通常在连接后,样品溶液(即连接产物)中存在一定量的peg。因此,用户可以调节添加的spri珠的体积,以达到期望的peg最终浓度。期望的peg最终浓度的范围可以是约5%最终peg至约15%最终peg。例如,期望的peg最终浓度可以是约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%或约15%。在一些实施方案中,期望的peg最终浓度为约10%(例如,对于毛发样品和cfdna样品)。在一些实施方案中,期望的peg最终浓度为约12%(例如,对于福尔马林固定的石蜡包埋(ffpe)样品和具有大模板片段的样品)。
144.y-衔接子
145.在一些实施方案中,本文所描述的支架衔接子包含两条链,其中单链支架区域在第一端,且两条非互补链在第二端。这种支架衔接子可称为y-支架衔接子、y-衔接子、y-形支架衔接子、y-形衔接子、y-双链体、y-形双链体、y-支架双链体、y-形支架双链体等。具有y形结构的支架衔接子通常包含双链双链体区域,即位端的两个单链“臂”,和位于另一端的单链支架区域。
146.y-支架衔接子可包含多个核酸组分和子组分。在一些实施方案中,y-支架衔接子包含第一核酸链和第二核酸链。在一些实施方案中,第一核酸链与第二核酸链互补。在一些实施方案中,第一核酸链的部分与第二核酸链的部分互补。在一些实施方案中,第一核酸链包含与第二核酸链中的第一区域互补的第一区域,并且第一多核苷酸包含与第二多核苷酸中的第二区域不互补的第二区域。互补区域通常形成y-支架衔接子的双链体区域,且非互补区域通常形成y-支架衔接子的臂或其部分。第一核酸链和第二核酸链可以包含子组分(例如,本文所描述的支架多核苷酸的子组分、寡核苷酸的子组分和测序衔接子的子组分,诸如例如umi、umi侧翼区域、扩增引发位点和/或特异性测序衔接子(例如,p5、p7衔接子))。在一些实施方案中,第一核酸链和第二核酸链不包含本文所描述的测序衔接子的某些子组
分,诸如例如扩增引发位点和/或特异性测序衔接子(例如p5、p7衔接子)。
147.在一些实施方案中,y-支架衔接子包含单链支架区域(ssna杂交区域)。y-支架衔接子的单链支架区域通常位于与双链双链体部分相邻处,并且位于非互补链(或“臂”)部分的相对端。y-支架衔接子的单链支架区域通常与靶核酸的末端区域(例如,单链核酸的末端区域)互补。
148.发夹
149.在一些实施方案中,支架衔接子包含能够形成具有单链环的发夹结构的一条链。在一些实施方案中,支架衔接子由能够形成具有单链环的发夹结构的一条链组成。具有发夹结构的支架衔接子通常包含双链“茎”区域和单链“环”区域。在一些实施方案中,支架衔接子包含能够采用发夹结构的一条链(即,一条连续链)。在一些实施方案中,支架衔接子基本上由能够采用发夹结构的一条链(即,一条连续链)组成。基本上由一条链组成意指支架衔接子不包含不是连续链的部分的任何另外的核酸链(例如,与支架衔接子杂交)。因此,“基本上由
……
组成”在此是指支架衔接子中的链的数目,并且支架衔接子可包括对链的数目不是必要的其他特征(例如,可包括可检测的标记物,可包括其他区域)。包含能够形成发夹结构的一条链的支架衔接子或基本上由能够形成发夹结构的一条链组成的支架衔接子在本文中可称为发夹、发夹支架衔接子或发夹衔接子。
150.发夹支架衔接子可以在一条链内包含多个核酸组分和子组分。在一些实施方案中,发夹支架衔接子包含寡核苷酸和支架多核苷酸。在一些实施方案中,寡核苷酸与支架多核苷酸中的寡核苷酸杂交区域互补。在一些实施方案中,寡核苷酸的部分与支架多核苷酸中的寡核苷酸杂交区域的部分互补。在一些实施方案中,发夹支架衔接子包含互补区域和非互补区域。互补区域通常形成发夹衔接子的茎,且非互补区域通常形成发夹支架衔接子的环或其部分。寡核苷酸和支架多核苷酸可以包含子组分(例如,本文所描述的支架多核苷酸的子组分、寡核苷酸的子组分和测序衔接子的子组分,诸如例如umi、umi侧翼区域、扩增引发位点和/或特异性测序衔接子(例如,p5、p7衔接子))。在一些实施方案中,寡核苷酸和支架多核苷酸不包含本文所描述的测序衔接子的某些子组分,诸如例如扩增引发位点和特异性测序衔接子(例如p5、p7衔接子)。
151.发夹支架衔接子可以包含能够在裂解条件下被裂解的一个或多个裂解位点。在一些实施方案中,裂解位点位于寡核苷酸和支架多核苷酸之间。在裂解位点处的裂解通常从发夹支架衔接子生成两条单独的链。在一些实施方案中,在裂解位点处的裂解生成部分双链支架衔接子,其中两条不配对的链形成“y”结构。裂解位点可包括任何合适的裂解位点,诸如例如本文所描述的裂解位点。在一些实施方案中,裂解位点包括rna核苷酸,并且可以例如使用rna酶被裂解。在一些实施方案中,裂解位点包括尿嘧啶和/或脱氧尿苷,并且可以例如使用dna糖基化酶、核酸内切酶、rna酶等及其组合被裂解。在一些实施方案中,裂解位点不包含尿嘧啶和/或脱氧尿苷。在一些实施方案中,本文中的方法包括在将发夹支架衔接子与单链核酸组合后,将一个或多个裂解位点暴露于裂解条件,从而裂解支架衔接子。
152.在一些实施方案中,发夹支架衔接子包含单链支架区域(ssna杂交区域)。发夹支架衔接子的单链支架区域通常位于与双链茎部分相邻处,并且位于环部分的相对端。发夹支架衔接子的单链支架区域通常与靶核酸的末端区域(例如,单链核酸的末端区域)互补。
153.在一些实施方案中,发夹支架衔接子在5’至3’方向包含:寡核苷酸、一个或多个裂
解位点和包含寡核苷酸杂交区域和支架区域(ssna杂交区域)的支架多核苷酸。在一些实施方案中,发夹寡核苷酸在5’至3’方向包含:包含支架区域(ssna杂交区域)和寡核苷酸杂交区域的支架多核苷酸、一个或多个裂解位点和寡核苷酸。在一些实施方案中,多个发夹支架衔接子种类或发夹支架衔接子种类的汇集物包含以下的混合物:1)发夹支架衔接子,其在5’至3’方向包含:寡核苷酸、一个或多个裂解位点和包含寡核苷酸杂交区域和支架区域(ssna杂交区域)的支架多核苷酸;和2)发夹支架衔接子,其在5’至3’方向包含:包含支架区域(ssna杂交区域)和寡核苷酸杂交区域的支架多核苷酸、一个或多个裂解位点和寡核苷酸。
154.修饰的核苷酸
155.在一些实施方案中,支架衔接子或其组分包含一个或多个修饰的核苷酸。在一些实施方案中,umi和/或与umi相邻的侧翼区域包含一个或多个修饰的核苷酸。修饰的核苷酸可被称为修饰的碱基或非规范碱基,并且可包括例如与结合对的成员缀合的核苷酸、阻断核苷酸、非天然核苷酸、核苷酸类似物、肽核酸(pna)核苷酸、吗啉代核苷酸、锁核酸(lna)核苷酸、桥接的核酸(bna)核苷酸、乙二醇核酸(gna)核苷酸、苏糖核酸(tna)核苷酸等及其组合。在某些构造中,支架衔接子或其组分(例如,umi和/或与umi相邻的侧翼区域)包含具有修饰的一个或多个核苷酸,所述修饰选自氨基修饰剂、生物素化、硫醇、炔烃、2
’‑
o-甲氧基-乙基碱基(2
’‑
moe)、rna、氟碱基、异(异-dg、异-dc)、倒置、甲基、硝基、无机磷(phos)等中的一种或多种。
156.在一些实施方案中,支架衔接子或其组分(例如,umi和/或与umi相邻的侧翼区域),在双链体区域内、在支架区域内、在支架衔接子或其组分的一端或两端包含一个或多个修饰的核苷酸。在一些实施方案中,支架衔接子或其组分包含一个或多个不配对的修饰的核苷酸。在一些实施方案中,支架衔接子或其组分在衔接子的一端包含一个或多个不配对的修饰的核苷酸。在一些实施方案中,支架衔接子或其组分在衔接子的与杂交至靶核酸的末端相对的末端(例如,包含单链支架区域的末端)包含一个或多个不配对的修饰的核苷酸。修饰的核苷酸可以存在于具有3’端的链的末端或具有5’端的链的末端。
157.在一些实施方案中,寡核苷酸组分包含一个或多个修饰的核苷酸。在一些实施方案中,一个或多个修饰的核苷酸能够阻断寡核苷酸组分与另一寡核苷酸、多核苷酸或核酸分子的共价连接。在一些实施方案中,寡核苷酸组分在不与ssna相邻的末端包含一个或多个修饰的核苷酸。在一些实施方案中,支架多核苷酸包含一个或多个修饰的核苷酸。在一些实施方案中,一个或多个修饰的核苷酸能够阻断支架多核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。支架多核苷酸可以在多核苷酸的一端或两端包含一个或多个修饰的核苷酸。在一些实施方案中,一个或多个修饰的核苷酸包含连接阻断修饰。
158.在一些实施方案中,支架衔接子或其组分包含一个或多个阻断核苷酸。在一个实例中,支架衔接子或其组分可包含能够阻断与另一支架衔接子或其组分中的核苷酸杂交的一个或多个修饰的核苷酸。在一些情况下,一个或多个修饰的核苷酸能够阻断与另一支架衔接子或其组分中的核苷酸的连接。在另一个实例中,支架衔接子或其组分可包含能够阻断与靶核酸(例如ssna)中的核苷酸杂交的一个或多个修饰的核苷酸。在一些情况下,一个或多个修饰的核苷酸能够阻断与靶核酸中的核苷酸的连接。在一些实施方案中,支架多核苷酸的一端或两端包括阻断修饰,和/或寡核苷酸组分的不与ssna片段相邻的末端可包括
阻断修饰。阻断修饰是指使用共价连接寡核苷酸组分和ssna片段的相邻末端所采用的方法不能被连接至另一核酸组分的末端的修饰的末端。在某些实施方案中,阻断修饰是连接阻断修饰。可被包含在支架多核苷酸的一端或两端和/或寡核苷酸组分的不与ssna相邻的末端的阻断修饰的实例包括缺少3’oh和不可接近的3’oh。末端具有不可接近的3’oh的阻断修饰的非限制性实例包括:氨基修饰剂、氨基接头、间隔子、异脱氧碱基、双脱氧碱基、倒置的双脱氧碱基、3’磷酸等。在一些实施方案中,支架衔接子或其组分包含不能结合天然核苷酸的一个或多个修饰的核苷酸。
159.在一些实施方案中,一个或多个修饰的核苷酸包含异脱氧碱基。在一些实施方案中,一个或多个修饰的核苷酸包含异脱氧鸟嘌呤(异-dg)。在一些实施方案中,一个或多个修饰的核苷酸包含异脱氧胞嘧啶(异-dc)。异-dc和异-dg分别是胞嘧啶和鸟嘌呤的化学变体。异-dc可以与异-dg进行氢键结合,但不与未修饰的鸟嘌呤(天然鸟嘌呤)进行氢键结合。异-dg可以与异-dc进行碱基配对,但不与未修饰的胞嘧啶(天然胞嘧啶)进行碱基配对。可以设计含有异-dc的支架衔接子或其组分,使得其与含有异-dg的互补寡核苷酸杂交,但不能与任何天然存在的核酸序列杂交。
160.在一些实施方案中,一个或多个修饰的核苷酸包含表观遗传相关的修饰,包括但不限于甲基化、羟甲基化和羧基化。示例性的表观遗传相关的修饰包括羧基胞嘧啶、5-甲基胞嘧啶(5mc)及其氧化衍生物(例如,5-羟甲基胞嘧啶(5hmc)、5-甲酰胞嘧啶(5fc)和5-羧基胞嘧啶(5cac))、n(6)-甲基腺嘌呤(6ma)、n4-甲基胞嘧啶(4mc)、n(6)-甲基腺嘌呤(m(6)a)、假尿苷(ψ)、5-甲基胞苷(m(5)c)、羟甲基尿嘧啶、3’末端的2
’‑
o-甲基化、trna修饰、mirna修饰和snrna修饰。
161.在一些实施方案中,一个或多个修饰的核苷酸包含双脱氧碱基。在一些实施方案中,一个或多个修饰的核苷酸包含双脱氧胞嘧啶。在一些实施方案中,一个或多个修饰的核苷酸包含倒置的双脱氧碱基。在一些实施方案中,一个或多个修饰的核苷酸包含倒置的双脱氧胸腺嘧啶。例如,位于序列5’末端的倒置的双脱氧胸腺嘧啶可以防止不想要的5’连接。
162.在一些实施方案中,一个或多个修饰的核苷酸包含间隔子。在一些实施方案中,一个或多个修饰的核苷酸包含c3间隔子。c3间隔子亚磷酰胺可以被掺入寡核苷酸的内部或5’末端。可以在支架衔接子或其组分的任一端添加多个c3间隔子,以引入长的亲水性间隔子臂(例如,用于附接荧光团或其他侧基)。其他间隔子包括,例如,光可裂解(pc)间隔子、己二醇、间隔子9、间隔子18、1’,2
’‑
双脱氧核糖(dspacer)等。
163.在一些实施方案中,修饰的核苷酸包含氨基接头或氨基阻断剂。在一些实施方案中,修饰的核苷酸包含氨基接头c6(例如,5’氨基接头c6或3’氨基接头c6)。在一个实例中,氨基接头c6可用于将活性伯氨基基团掺入寡核苷酸的5’末端。然后它可以与配体缀合。然后氨基基团变成在5’末端配体的内部。氨基基团通过6碳间隔臂与5
’‑
末端核苷酸碱基分开,以减少氨基基团和寡核苷酸之间的空间相互作用。在一些实施方案中,修饰的核苷酸包含氨基接头c12(例如,5’氨基接头c12或3’氨基接头c12)。在一个实例中,氨基接头c12可用于将活性伯氨基基团掺入寡核苷酸的5’末端。氨基基团通过12碳间隔臂与5
’‑
末端核苷酸碱基分开,以最小化氨基基团和寡核苷酸之间的空间相互作用。
164.在一些实施方案中,修饰的核苷酸包含结合对的成员。结合对可包括例如抗体/抗原、抗体/抗体、抗体/抗体片段、抗体/抗体受体、抗体/蛋白a或蛋白g、半抗原/抗半抗原、生
物素/亲和素、生物素/链霉亲和素、叶酸/叶酸结合蛋白、维生素b12/内因子、化学反应基团/互补化学反应基团、地高辛部分/抗地高辛抗体、荧光素部分/抗荧光素抗体、类固醇/类固醇结合蛋白、操纵子/阻遏物、核酸酶/核苷酸、凝集素/多糖、活性化合物/活性化合物受体、激素/激素受体、酶/底物、寡核苷酸或多核苷酸/其对应的互补物等或其组合。在一些实施方案中,修饰的核苷酸包含生物素。
165.在一些实施方案中,修饰的核苷酸包含结合对的第一成员(例如,生物素);结合对的第二成员(例如,链霉亲和素)与固体支持物或基底缀合。固体支持物或基底可以是任何物理上可分离的固体,结合对的成员可以直接或间接附接至所述固体支持物或基底,其包括但不限于由微阵列和孔提供的表面,以及颗粒诸如珠(例如,顺磁珠、磁珠、微珠、纳米珠)、微粒和纳米颗粒。固体支持物还可包括,例如芯片、柱、光纤、擦拭物(wipe)、过滤器(例如,平面过滤器)、一种或多种毛细管、玻璃和改性或功能化的玻璃(例如,受控孔度玻璃(cpg))、石英、云母、重氮化膜(纸或尼龙)、聚甲醛、纤维素、醋酸纤维素、纸、陶瓷、金属、准金属、半导体材料、量子点、涂覆的珠或颗粒、其他色谱材料、磁性颗粒;塑料(包括丙烯酸树脂、聚苯乙烯、苯乙烯或其他材料的共聚物、聚丁烯、聚氨酯、teflon
tm
、聚乙烯、聚丙烯、聚酰胺、聚酯、聚偏二氟乙烯(pvdf)等)、多糖、尼龙或硝化纤维素、树脂、二氧化硅或基于二氧化硅的材料,包括硅、硅胶和改性硅、碳、金属(例如钢、金、银、铝、硅和铜)、无机玻璃、导电聚合物(包括诸如聚吡咯和聚吲哚的聚合物);微米或纳米结构表面,诸如核酸平铺阵列、纳米管、纳米线或纳米颗粒修饰的表面;或多孔表面或凝胶,诸如甲基丙烯酸酯、丙烯酰胺、糖聚合物、纤维素、硅酸盐或其他纤维或链聚合物。在一些实施方案中,固体支持物或基底可以用任何数目的材料(包括聚合物,诸如葡聚糖、丙烯酰胺、明胶或琼脂糖),使用被动或化学衍生的涂层来涂覆。珠和/或颗粒可以是游离的或彼此连接的(例如烧结的)。在一些实施方案中,固体支持物可以是颗粒的集合。在一些实施方案中,颗粒可以包括二氧化硅(silica),并且二氧化硅(silica)可以包括二氧化硅(silica dioxide)。在一些实施方案中,二氧化硅可以是多孔的,并且在某些实施方案中,二氧化硅可以是无孔的。在一些实施方案中,颗粒还包括赋予颗粒顺磁性的剂。在某些实施方案中,剂包括金属,并且在某些实施方案中,剂是金属氧化物(例如,铁或铁氧化物,其中铁氧化物包含fe2+和fe3+的混合物)。结合对的成员可以通过共价键或通过非共价相互作用连接至固相支持物,并且可以直接或间接(例如,通过中间剂诸如间隔分子或生物素)连接至固相支持物。
166.在一些实施方案中,支架多核苷酸、寡核苷酸组分(例如,umi和/或与umi相邻的侧翼区域)或两者包含一个或多个非天然核苷酸,也称为核苷酸类似物。可被包含在支架多核苷酸、寡核苷酸组分或两者中的非天然核苷酸的非限制性实例包括lna(锁核酸)、pna(肽核酸)、fana(2
’‑
脱氧-2
’‑
氟阿拉伯核苷酸)、gna(乙二醇核酸)、tna(苏糖核酸)、2
’‑
o-me rna、2
’‑
氟rna、吗啉代核苷酸及其任意组合。
167.末端处理
168.在一些实施方案中,本文中的方法包括使包含单链核酸(ssna)的核酸组合物与包含末端处理活性的剂在以下条件下接触,在所述条件中,单链核酸(ssna)分子末端被处理,从而生成末端被处理的ssna组合物。末端处理可包括但不限于磷酸化、去磷酸化、甲基化、去甲基化、氧化、去氧化、碱基修饰、延伸、聚合及其组合。可用酶进行末端处理,所述酶包括
但不限于连接酶、多核苷酸激酶(pnk)、末端转移酶、甲基转移酶、甲基化酶(例如,3’甲基化酶、5’甲基化酶)、聚合酶(例如,多聚a聚合酶)、氧化酶及其组合。
169.在一些实施方案中,本文中的方法包括使包含单链核酸(ssna)的核酸组合物与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,单链核酸(ssna)分子被去磷酸化,从而生成去磷酸化的ssna组合物。在一些实施方案中,本文中的方法包括使支架衔接子或其组分与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,支架衔接子或其组分被去磷酸化,从而生成去磷酸化的支架衔接子或其组分(例如,去磷酸化的寡核苷酸;去磷酸化的支架多核苷酸)。通常,ssna组合物和/或支架衔接子或其组分在组合步骤之前(即在杂交之前)被去磷酸化。ssna可以被去磷酸化,并且然后接下来在组合步骤之前(即在杂交之前)被磷酸化。支架衔接子或其组分可以被去磷酸化并且然后接下来在组合步骤之前(即在杂交之前)被磷酸化。支架衔接子或其组分可以被去磷酸化并且然后在组合步骤之前(即在杂交之前)不被磷酸化。支架衔接子或其组分可以被去磷酸化,在组合步骤之前(即在杂交之前)不被磷酸化,并且然后在组合步骤之后(即在杂交之后)且在连接步骤之前或期间被磷酸化。用于进行核酸去磷酸化的试剂和试剂盒是已知的和可获得的。例如,靶核酸(例如,ssna)和/或支架衔接子或其组分可以用磷酸酶(即,利用水将磷酸单酯裂解为磷酸根离子和醇的酶)处理。
170.在一些实施方案中,本文中的方法包括使包含单链核酸(ssna)的核酸组合物与包含磷酰基转移活性的剂在其中5’磷酸被添加至ssna的5’末端的条件下接触。在一些实施方案中,本文中的方法包括使去磷酸化的ssna组合物与包含磷酰基转移活性的剂在其中5’磷酸被添加至ssna的5’末端的条件下接触。在一些实施方案中,本文中的方法包括使支架衔接子或其组分与包含磷酰基转移活性的剂在其中5’磷酸被添加至支架衔接子或其组分的5’末端的条件下接触。在一些实施方案中,本文中的方法包括使去磷酸化的支架衔接子或其组分与包含磷酰基转移活性的剂在其中5’磷酸被添加至支架衔接子或其组分的5’末端的条件下接触。在某些情况下,ssna组合物和/或支架衔接子或其组分在组合步骤之前(即在杂交之前)被磷酸化。核酸的5’磷酸化可以通过多种技术进行。例如,可以用多核苷酸激酶(pnk)(例如t4 pnk)处理ssna组合物和/或支架衔接子或其组分,所述激酶催化pi从atp的γ位转移和交换至多核苷酸(双链和单链dna和rna)的5
′‑
羟基末端和核苷3
′‑
单磷酸。合适的反应条件包括,例如,将核酸与pnk在1x pnk反应缓冲液(例如,70mm tris-hcl、10mm mgcl2、5mm dtt,ph 7.6@25℃)中于37℃孵育30分钟;和将核酸与pnk在t4 dna连接酶缓冲液(例如,50mm tris-hcl、10mm mgcl2、1mm atp、10mm dtt,ph 7.5@25℃)中于37℃孵育30分钟。任选地,在磷酸化反应后,pnk可以被热灭活,例如,在65℃孵育20分钟。
171.在一些实施方案中,本文中的方法不包括使用包含磷酰基转移活性的剂。在一些实施方案中,方法不包括通过磷酸化来自核酸样品的ssna的5’末端来产生5’磷酸化的ssna。在某些情况下,核酸样品包含具有天然磷酸化的5’末端的ssna。在一些实施方案中,方法不包括通过磷酸化支架衔接子或其组分的5’末端来产生5’磷酸化的支架衔接子或其组分。
172.裂解
173.在一些实施方案中,在本文所描述的方法之前、期间或之后,ssna、支架衔接子和/或杂交产物(例如,与ssna杂交的支架衔接子)被裂解或剪切。在一些实施方案中,ssna、支
i、pst i、pvu i、pvu ii、rsa i、sac i、sal i、sau3a i、sca i、scrf i、sfi i、sma i、spe i、sph i、ssp i、stu i、sty i、swa i、taq i、xba i、xho i;糖基化酶(例如,尿嘧啶-dna糖基化酶(udg)、3-甲基腺嘌呤dna糖基化酶、3-甲基腺嘌呤dna糖基化酶ii、嘧啶水合物-dna糖基化酶、fapy-dna糖基化酶、胸腺嘧啶错配-dna糖基化酶(例如,次黄嘌呤-dna糖基化酶、尿嘧啶dna糖基化酶(udg)、5-羟甲基尿嘧啶dna糖基化酶(hmudg)、5-羟甲基胞嘧啶dna糖基化酶或1,n6-乙烯基腺嘌呤dna糖基化酶(1,n6-etheno-adenine dna glycosylase));核酸外切酶(例如,核酸外切酶i、核酸外切酶ii、核酸外切酶iii、核酸外切酶iv、核酸外切酶v、核酸外切酶vi、核酸外切酶vii、核酸外切酶viii);5’至3’核酸外切酶(例如核酸外切酶ii);3’至5’核酸外切酶(例如核酸外切酶i);多聚(a)特异性3’至5’核酸外切酶;核酶;脱氧核酶;和类似物及其组合。
177.在一些实施方案中,裂解位点包括限制性酶识别位点。在一些实施方案中,裂解剂包括限制性酶。在一些实施方案中,裂解位点包括稀有切割限制性酶识别位点(例如noti识别序列)。在一些实施方案中,裂解剂包括稀有切割酶(例如稀有切割限制性酶)。稀有切割酶通常指具有在基因组(例如人类基因组)中仅很少出现的识别序列的限制性酶。一个实例是noti,其在5'-gcggccgc-3'序列的首个gc之后进行切割。具有七个和八个碱基对识别序列的限制性酶通常被认为是稀有切割酶。
178.裂解方法和用于选择在特定位点切割dna的限制性酶的程序是技术人员熟知的。例如,限制性酶的许多供应商提供关于特定限制性酶切割的dna序列的条件和类型的信息,包括new england biolabs、pro-mega biochems、boehringer-mannheim等。酶通常在能够以约95%-100%的效率、优选以约98%-100%的效率裂解dna的条件下使用。
179.在一些实施方案中,裂解位点包含一个或多个核糖核酸(rna)核苷酸。在一些实施方案中,裂解位点包含含有一个或多个rna核苷酸的单链部分。在一些实施方案中,单链部分的侧翼是双链体部分。在一些实施方案中,单链部分是发夹环。在一些实施方案中,裂解位点包含一个rna核苷酸。在一些实施方案中,裂解位点包含两个rna核苷酸。在一些实施方案中,裂解位点包含三个rna核苷酸。在一些实施方案中,裂解位点包含四个rna核苷酸。在一些实施方案中,裂解位点包含五个rna核苷酸。在一些实施方案中,裂解位点包含多于五个rna核苷酸。在一些实施方案中,裂解位点包含选自腺嘌呤(a)、胞嘧啶(c)、鸟嘌呤(g)和尿嘧啶(u)的一个或多个rna核苷酸。在一些实施方案中,裂解位点包含选自腺嘌呤(a)、胞嘧啶(c)和鸟嘌呤(g)的一个或多个rna核苷酸。在一些实施方案中,裂解位点不包含尿嘧啶(u)。在一些实施方案中,裂解位点包含含有鸟嘌呤(g)的一个或多个rna核苷酸。在一些实施方案中,裂解位点包含由鸟嘌呤(g)组成的一个或多个rna核苷酸。在一些实施方案中,裂解位点包含含有胞嘧啶(c)的一个或多个rna核苷酸。在一些实施方案中,裂解位点包含由胞嘧啶(c)组成的一个或多个rna核苷酸。在一些实施方案中,裂解位点包含含有腺嘌呤(a)的一个或多个rna核苷酸。在一些实施方案中,裂解位点包含由腺嘌呤(a)组成的一个或多个rna核苷酸。在一些实施方案中,裂解位点包含由腺嘌呤(a)、胞嘧啶(c)和鸟嘌呤(g)组成的一个或多个rna核苷酸。在一些实施方案中,裂解位点包含由腺嘌呤(a)和胞嘧啶(c)组成的一个或多个rna核苷酸。在一些实施方案中,裂解位点包含由腺嘌呤(a)和鸟嘌呤(g)组成的一个或多个rna核苷酸。在一些实施方案中,裂解位点包含由胞嘧啶(c)和鸟嘌呤(g)组成的一个或多个rna核苷酸。在一些实施方案中,裂解剂包括核糖核酸酶(rna酶)。在一些实施
方案中,rna酶是核糖核酸内切酶。rna酶可以选自rna酶a、rna酶e、rna酶f、rna酶h、rna酶iii、rna酶l、rna酶p、rna酶phym、rna酶t1、rna酶t2、rna酶u2和rna酶v中的一种或多种。
180.在一些实施方案中,裂解位点包含光可裂解的间隔子或光可裂解的修饰。光可裂解的修饰可包含例如可被特定波长(例如,300-350nm)的紫外(uv)光裂解的光不稳定官能团。示例性光可裂解的间隔子(从integrated dna technologies可获得;产品号1707)是10原子的接头臂,其只有当暴露于适当光谱范围内的uv光时才能被裂解。包含光可裂解间隔子的寡核苷酸可具有5’磷酸基团,其可用于随后的连接酶反应。光可裂解的间隔子可以放置在dna碱基之间或寡核苷酸与末端修饰(例如荧光团)之间。在这样的实施方案中,紫外(uv)光可被认为是裂解剂。
181.在一些实施方案中,裂解位点包含二醇。例如,裂解位点可以包含以5’至5’连键掺入的邻二醇。包含二醇的裂解位点可以被化学裂解,例如使用高碘酸盐进行化学裂解。在一些实施方案中,裂解位点包括平末端限制性酶识别位点。包含平末端限制性酶识别位点的裂解位点可以被平末端限制性酶裂解。
182.切口封闭和填充(fill-in)
183.在一些实施方案中,本文中的方法包括进行切口封闭反应(例如,使用dna连接酶或其他合适的酶,并且在某些情况下,使用适于使核酸5’磷酸化的激酶(例如,多核苷酸激酶(pnk))。在一些实施方案中,本文中的方法包括进行填充反应。例如,当支架衔接子作为双链体存在时,一些或所有的双链体可在双链体的与杂交至ssna的末端相对的末端包含突出端。当存在这样的双链体突出端时,在组合之后,本文中的方法可以进一步包括填充由双链体形成的突出端。在一些实施方案中,进行填充反应以生成平末端杂交产物。可以使用用于进行填充反应的任何合适的试剂。适合用于进行填充反应的聚合酶包括,例如,dna聚合酶i、dna聚合酶i的大(klenow)片段、t4 dna聚合酶、嗜热脂肪芽孢杆菌(bacillus stearothermophilus)(bst)dna聚合酶、热稳定dna聚合酶(例如,来自超嗜热海洋古生菌)、9
°ntm dna聚合酶(genbank登录号aaa88769.1)、therminator聚合酶(具有以下突变的9
°ntm dna聚合酶:d141a、e143a、a485l)等。在一些实施方案中,使用链置换聚合酶(例如,bst dna聚合酶)。
184.核酸外切酶处理
185.在一些实施方案中,核酸(例如,rna-dna双链体,杂交产物;环化的杂交产物)用核酸外切酶处理。在一些实施方案中,rna-dna双链体(例如,通过第一链cdna合成生成的rna-dna双链体)中的rna用核酸外切酶处理。核酸外切酶是通过水解反应从多核苷酸链的末端一次裂解一个核苷酸来起作用的酶,所述水解反应在3’末端或5’末端使磷酸二酯键断裂。核酸外切酶包括,例如,dna酶、rna酶(例如rna酶h)、5’至3’核酸外切酶(例如核酸外切酶ii)、3’至5’核酸外切酶(例如核酸外切酶i)和多聚(a)特异性3’至5’核酸外切酶。在一些实施方案中,核酸外切酶活性由逆转录酶提供(例如,由具有全功能rna酶h结构域的m-mlv逆转录酶提供的rna酶活性)。在一些实施方案中,用核酸外切酶处理杂交产物以从rna-dna双链体中去除污染核酸,诸如例如单链寡核苷酸、核酸片段或rna。在一些实施方案中,用核酸外切酶处理环化的杂交产物,以去除任何非环化的杂交产物、非杂交的寡核苷酸、非杂交的靶核酸、寡核苷酸二聚体等及其组合。
186.样品
187.本文提供了用于处理和/或分析核酸的方法和组合物。本文中所描述的方法和组合物中使用的核酸或核酸混合物可以从获自受试者(例如,测试受试者)的样品中分离。受试者可以是任何活的或非活的生物体,包括但不限于人类、非人类动物、植物、细菌、真菌、原生生物或病原体。可以选择任何人类或非人类动物,并且可以包括,例如,哺乳动物、爬行动物、鸟类、两栖动物、鱼类、有蹄类动物、反刍动物、牛类(例如,牛)、马类(例如,马)、山羊类和绵羊类(例如,绵羊、山羊)、猪类(例如,猪)、骆驼科动物(例如,骆驼、美洲驼、羊驼)、猴、猿(例如,大猩猩、黑猩猩)、熊科动物(例如,熊)、家禽、狗、猫、小鼠、大鼠、鱼类、海豚、鲸和鲨鱼。受试者可以是雄性或雌性(例如,女性、妊娠女性)。受试者可以是任何年龄(例如,胚胎、胎儿、婴儿、儿童、成年)。受试者可以是癌症患者、怀疑患有癌症的患者、处于缓解期的患者、具有癌症家族史的患者和/或获得癌症筛查的受试者。受试者可以是患有感染或传染性疾病或被病原体(例如,细菌、病毒、真菌、原生动物等)感染的患者,怀疑患有感染或传染性疾病或被病原体感染的患者,从感染、传染性疾病或致病性感染中康复的患者,具有感染、传染性疾病、致病性感染史的患者,和/或获得传染性疾病或病原体筛查的受试者。受试者可以是移植物接受者。受试者可以是进行微生物组分析的患者。在一些实施方案中,测试受试者是雌性。在一些实施方案中,测试受试者是人类雌性。在一些实施方案中,测试受试者是雄性。在一些实施方案中,测试受试者是人类雄性。
188.核酸样品可以从任何类型的适合的生物样本或样品(例如,测试样品)中分离或获得。核酸样品可以从单细胞、多个细胞(例如,培养的细胞)、细胞培养基、条件培养基、组织、器官或生物体(例如,细菌、酵母等)中分离或获得。在一些实施方案中,核酸样品从动物(例如,动物受试者)的细胞、组织、器官等中分离或获得。在一些实施方案中,核酸样品从诸如细菌、酵母、昆虫(例如果蝇属)、哺乳动物、两栖动物(例如青蛙(例如爪蟾))、病毒、植物或任何其他哺乳动物或非哺乳动物核酸样品来源的来源中分离或获得。
189.核酸样品可以从现存的生物体或动物中分离或获得。在一些情况下,核酸样品可以从灭绝的(或“古代的”)生物体或动物(例如,灭绝的哺乳动物;来自人属的灭绝的哺乳动物)分离或获得。在一些情况下,核酸样品可以作为诊断分析的部分获得。
190.在一些情况下,核酸样品可以作为法医分析的部分获得。在一些实施方案中,将本文所描述的单链核酸文库制备(ssprep)方法应用于法医样品或样本。法医样品或样本可包括含有核酸的任何生物物质。例如,法医样品或样本可包括血液、精液、毛发、皮肤、汗液、唾液、腐烂的组织、骨、指甲刮屑、舔过的邮票/信封、浆料(sluff)、触碰dna、剃刀残留物等。
191.样品或测试样品可以是从受试者或其部分(例如,人类受试者、妊娠雌性、癌症患者、患有感染或传染性疾病的患者、移植物接受者、胎儿、肿瘤、受感染的器官或组织、移植的器官或组织、微生物组)分离或获得的任何样本。样品有时来自处于妊娠任何阶段(例如,人类受试者的第一孕期、第二孕期或第三孕期)的孕育胎儿的妊娠雌性受试者,且有时来自分娩后的受试者。样品有时来自孕育所有染色体为整倍体的胎儿的妊娠受试者,且有时来自孕育具有染色体非整倍体(例如,一个、三个(即三体性(例如,t21、t18、t13))或四个染色体拷贝)或其他遗传变异的胎儿的妊娠受试者。样本的非限制性实例包括来自受试者的流体或组织,包括但不限于血液或血液制品(例如,血清、血浆等)、脐带血、绒毛膜绒毛、羊水、脑脊液、脊髓液、灌洗液(例如,支气管肺泡、胃、腹腔、导管、耳、关节镜)、活检样品(例如,来自植入前胚胎;癌症活检物)、膜间液抽取法(celocentesis)样品、细胞(血细胞、胎盘细胞、
胚胎或胎儿细胞、胎儿有核细胞或胎儿细胞残余物、正常细胞、异常细胞(例如癌细胞))或其部分(例如线粒体、细胞核、提取物等)、女性生殖道洗液、尿液、粪便、痰、唾液、鼻黏液、前列腺液、灌洗液、精液、淋巴液、胆汁、泪液、汗液、母乳、乳腺液等或其组合。在一些实施方案中,生物样品是来自受试者的宫颈拭子。从其中提取核酸的流体或组织样品可以是非细胞的(例如,无细胞的)。在一些实施方案中,流体或组织样品可包含细胞组分或细胞残余物。在一些实施方案中,胎儿细胞或癌细胞可被包含在样品中。
192.样品可以是液体样品。液体样品可以包含细胞外核酸(例如,循环无细胞dna)。液体样品的实例包括但不限于血液或血液制品(例如,血清、血浆等)、尿液、脑脊液、唾液、痰、活检样品(例如,用于检测癌症的液体活检物)、以上描述的液体样品等或其组合。在某些实施方案中,样品是液体活检物,其通常是指对来自受试者的液体样品进行评估以确定疾病(例如,癌症)的存在、不存在、进展或缓解。液体活检可以与固体活检(例如,肿瘤活检)联合使用,或者作为固体活检(例如,肿瘤活检)的替代方式使用。在某些情况下,在液体活检中分析细胞外核酸。
193.在一些实施方案中,生物样品可以是血液、血浆或血清。术语“血液”包括全血、血液制品或血液的任何级分,诸如血清、血浆、血沉棕黄层或常规定义的类似物。血液或其级分通常包含核小体。核小体包含核酸,且有时是无细胞的或细胞内的。血液也包括血沉棕黄层。血沉棕黄层有时通过利用聚蔗糖(ficoll)梯度来分离。血沉棕黄层可包含白血细胞(例如,白细胞、t细胞、b细胞、血小板等)。血浆是指用抗凝剂处理的血液离心得到的全血级分。血清是指血液样品凝血后剩余的流体的水样部分。通常根据医院或诊所通常遵循的标准协议来收集流体或组织样本。对于血液,通常收集适当量的外周血(例如,在3至40毫升之间,在5至50毫升之间),并且可以在制备之前或之后根据标准程序储存。
194.可以使用例如全血、血清或血浆对受试者血液中发现的核酸进行分析。例如,可以使用例如全血、血清或血浆对母体血液中发现的胎儿dna进行分析。例如,可以使用例如全血、血清或血浆对患者血液中发现的肿瘤或癌症dna进行分析。例如,可以使用例如全血、血清或血浆对患者血液中发现的病原体dna进行分析。例如,可以使用例如全血、血清或血浆对移植物接受者血液中发现的移植dna进行分析。从获自受试者(例如,母体受试者、患者、癌症患者)的血液制备血清或血浆的方法是已知。例如,受试者的血液(例如,妊娠女性的血液;患者的血液;癌症患者的血液)可以放置在含有edta或专用的商业产品诸如无细胞dna bct(streck,omaha,ne)或vacutainer sst(becton dickinson,franklin lakes,n.j.)的管中以防止血液凝结,并且然后可以通过离心从全血中获得血浆。血清可以在血液凝结后在离心或不离心的情况下获得。如果使用离心,则通常(但不排他地)以适当的速度例如1,500-3,000xg进行。血浆或血清可在转移至用于核酸提取的新管之前进行另外的离心步骤。除了全血的非细胞部分之外,也可以从富含血沉棕黄层部分的细胞级分中回收核酸,所述细胞级分可以在将来自受试者的全血样品离心并去除血浆之后获得。
195.样品可以是肿瘤核酸样品(即从肿瘤中分离的核酸样品)。术语“肿瘤”通常指赘生细胞的生长和增殖,无论是恶性的还是良性的,并且可包括癌前和癌性细胞和组织。术语“癌症”和“癌”通常指哺乳动物的生理状况,其典型特征是细胞生长/增殖不受调节。癌症的实例包括但不限于上皮癌(carcinoma)、淋巴瘤、母细胞瘤、肉瘤、白血病、鳞状细胞癌、小细胞肺癌、非小细胞肺癌、肺腺癌、肺鳞癌、腹膜癌、肝细胞癌、胃肠癌、胰腺癌、胶质母细胞瘤、
宫颈癌、卵巢癌、肝癌(liver cancer)、膀胱癌、肝细胞瘤(hepatoma)、乳腺癌、结肠癌、结肠直肠癌、子宫内膜癌或子宫癌、唾液腺癌、肾癌、肝癌、前列腺癌、外阴癌、甲状腺癌、肝上皮癌、各种类型的头颈癌等。
196.样品可以是异质的。例如,样品可以包含多种细胞类型和/或一种或多种核酸种类。在一些情况下,样品可以包含(i)胎儿细胞和母体细胞,(ii)癌细胞和非癌细胞,和/或(iii)病原体细胞和宿主细胞。在一些情况下,样品可以包含(i)癌症和非癌症核酸,(ii)病原体和宿主核酸,(iii)胎儿来源和母体来源的核酸,和/或更一般地,(iv)突变的核酸和野生型核酸。在一些情况下,样品可以包含少数核酸种类和多数核酸种类,如下文进一步详细描述的。在一些情况下,样品可以包含来自单个受试者的细胞和/或核酸,或者可以包含来自多个受试者的细胞和/或核酸。
197.核酸
198.本文提供了用于处理和/或分析核酸的方法和组合物。术语核酸、核酸分子、核酸片段、靶核酸、核酸模板、模板核酸、靶核酸、靶核酸、多核苷酸、多核苷酸片段、靶多核苷酸、多核苷酸靶等在整个公开内容中可以可互换地使用。该术语指任何构成形式的核酸,诸如dna(例如,互补dna(cdna;从任何感兴趣的rna或dna合成)、基因组dna(gdna)、基因组dna片段、线粒体dna(mtdna)、重组dna(例如质粒dna)等)、rna(例如信使rna(mrna)、短抑制rna(sirna)、核糖体rna(rrna)、转移rna(trna)、微rna、反式作用小干扰rna(ta-sirna)、天然小干扰rna(nat-sirna)、小核仁rna(snorna)、小核rna(snrna)、长非编码rna(lncrna)、非编码rna(ncrna)、转移信使rna(tmrna),前体信使rna(pre-mrna),小cajal体特异性rna(scarna),piwi相互作用rna(pirna),核糖核酸内切酶制备的sirna(esirna)、小时序rna(strna)、信号识别rna、端粒rna、由胎儿或胎盘高度表达的rna等),和/或dna或rna类似物(例如,含有碱基类似物、糖类似物和/或非天然骨架等)、rna/dna杂交体和聚酰胺核酸(pna),所有这些都可以是单链或双链形式,并且除非另有限制,可以包括已知的天然核苷酸类似物,其可以以与天然存在的核苷酸类似的方式起作用。在某些实施方案中,核酸可以是或可以来自质粒、噬菌体、病毒、细菌、自主复制序列(ars)、线粒体、着丝粒、人工染色体、染色体或能够在体外或在宿主细胞、细胞、细胞核或细胞的细胞质中复制或被复制的其他核酸。在一些实施方案中,模板核酸可以来自单个染色体(例如,核酸样品可以来自从二倍体生物体获得的样品的一条染色体)。除非特别限定,否则该术语包含含有已知天然核苷酸类似物的核酸,所述天然核苷酸类似物具有与参考核酸类似的结合特性,并且以与天然存在的核苷酸类似的方式代谢。除非另有说明,否则特定的核酸序列还隐含地包括其保守修饰的变体(例如简并密码子取代)、等位基因、直系同源物、单核苷酸多态性(snp)和互补序列以及明确指示的序列。具体而言,简并密码子取代可通过生成其中一个或多个所选(或所有)密码子的第三位被混合碱基和/或脱氧肌苷残基取代的序列来实现。术语核酸与基因座、基因、cdna和由基因编码的mrna可互换地使用。该术语还可以包括由核苷酸类似物、单链(“有义”或“反义”、“正”链或“负”链、“正向”阅读框或“反向”阅读框)和双链多核苷酸合成的rna或dna的衍生物、变体和类似物作为等同物。术语“基因”指参与产生多肽链的一段dna;并且通常包括在编码区域之前和之后(前导和尾部)的参与基因产物的转录/翻译和转录/翻译的调节的区域,以及个体编码区域(外显子)之间的间插序列(内含子)。核苷酸或碱基通常指核酸的嘌呤和嘧啶分子单元(例如,腺嘌呤(a)、胸腺嘧啶(t)、鸟嘌呤(g)和胞嘧啶
(c))。对于rna,碱基胸腺嘧啶被尿嘧啶取代。核酸的长度或大小可以用碱基数来表示。
199.靶核酸可以是任何感兴趣的核酸。核酸可以是由脱氧核糖核苷酸(即dna碱基)、核糖核苷酸(即rna碱基)或其组合构成的任何长度的聚合物,例如10个碱基或更长、20个碱基或更长、50个碱基或更长、100个碱基或更长、200个碱基或更长、300个碱基或更长、400个碱基或更长、500个碱基或更长、1000个碱基或更长、2000个碱基或更长、3000个碱基或更长、4000个碱基或更长、5000个碱基或更长。在某些方面,核酸是由脱氧核糖核苷酸(即dna碱基)、核糖核苷酸(即rna碱基)或其组合(例如10个碱基或更少、20个碱基或更少、50个碱基或更少、100个碱基或更少、200个碱基或更少、300个碱基或更少、400个碱基或更少、500个碱基或更少、1000个碱基或更少、2000个碱基或更少、3000个碱基或更少、4000个碱基或更少或5000个碱基或更少)构成的聚合物。
200.核酸可以是单链或双链的。单链dna(ssdna)例如可以通过例如加热或用碱处理使双链dna变性来生成。因此,在一些实施方案中,ssdna源自双链dna(dsdna)。在一些实施方案中,本文中的方法包括在将包含dsdna的核酸组合物与本文中的支架衔接子或其组分组合之前,使dsdna变性,从而生成ssdna。
201.在某些实施方案中,核酸呈d-环结构,其由寡核苷酸或dna样分子诸如肽核酸(pna)对双链体dna分子的链侵入形成。可以通过添加大肠杆菌reca蛋白和/或通过改变盐浓度,例如,使用本领域已知的方法,来促进d环的形成。
202.核酸(例如,核酸靶、单链核酸(ssna)、寡核苷酸、突出端、支架多核苷酸及其杂交区域(例如,ssna杂交区域、寡核苷酸杂交区域))在本文中可被描述为与另一核酸互补、具有互补区域、能够与另一核酸杂交或具有杂交区域。术语“互补”或“互补性”或“杂交”通常指通过非共价键与核酸区域碱基配对的核苷酸序列(例如,与ssna片段末端区域杂交的ssna杂交区域的核苷酸序列,以及与支架衔接子的寡核苷酸组分杂交的寡核苷酸杂交区域的核苷酸序列)。在规范的沃森-克里克碱基配对中,dna中腺嘌呤(a)与胸腺嘧啶(t)形成碱基对,且鸟嘌呤(g)与胞嘧啶(c)形成碱基对。在rna中,胸腺嘧啶(t)被尿嘧啶(u)取代。因此,a与t互补,且g与c互补。在rna中,a与u互补,并且反之亦然。在dna-rna双链体中,a(在dna链中)与u(在rna链中)互补。在一些实施方案中,支架衔接子或其组分中一个或多个胸腺嘧啶(t)碱基被尿嘧啶(u)取代,并且与腺嘌呤(a)互补。通常,“互补”或“互补性”或“能够杂交”是指至少部分互补的核苷酸序列。这些术语还可以包括完全互补的双链体,使得一条链中的每个核苷酸与另一条链中对应位置的每个核苷酸互补或杂交。
203.在某些情况下,核苷酸序列可以与靶部分互补,其中不是所有的核苷酸都与靶核酸中所有对应位置的每个核苷酸互补。例如,ssna杂交区域可以与靶ssna末端区域完全互补(即100%),或者ssna杂交区域可以共享某种程度的不完全互补性(例如70%、75%、85%、90%、95%、99%)。在另一个实例中,寡核苷酸杂交区域可以与寡核苷酸完全互补(即100%),或者寡核苷酸杂交区域可以共享某种程度的不完全互补性(例如70%、75%、85%、90%、95%、99%)。
204.两个核苷酸序列的同一性百分比可以通过为了最佳比较目的而比对序列来确定(例如,为了最佳比对,可以在第一序列的序列中引入空位)。然后比较对应位置的核苷酸,并且两个序列之间的同一性百分比是序列共有的相同位置数目的函数(即,%同一性=相同位置数目/总位置数目
×
100)。当一个序列中的一个位置与另一个序列中的对应位置被
相同核苷酸占据时,那么分子在该位置是相同的。
205.在一些实施方案中,核酸混合物中的核酸被分析。核酸混合物可包含两种或更多种核酸种类,其具有相同或不同的核苷酸序列、不同的长度、不同的起源(例如,基因组起源、胎儿起源与母体起源、细胞或组织起源、癌症起源与非癌症起源、肿瘤起源与非肿瘤起源、宿主与病原体、宿主与移植物、宿主与微生物组、样品起源、受试者起源等)、不同的突出端长度、不同的突出端类型(例如,5’突出端、3’突出端、无突出端)或其组合。在一些实施方案中,核酸混合物包含单链核酸和双链核酸。在一些实施方案中,核酸混合物包含dna和rna。在一些实施方案中,核酸混合物包含核糖体rna(rrna)和信使rna(mrna)。提供用于本文中所描述的方法的核酸可包含来自一个样品或来自两个或更多个样品(例如,来自1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、15个或更多个、16个或更多个、17个或更多个、18个或更多个、19个或更多个或20个或更多个样品)的核酸。
206.在一些实施方案中,靶核酸(例如,ssna)包含降解的dna。降解的dna可被称为低质量dna或高度降解的dna。降解的dna可以是高度片段化的,并且可包括诸如碱基类似物和脱碱基位点的损伤,这些损伤受错编码损害和/或分子间交联的影响。例如,由胞嘧啶残基的脱氨基导致的测序错误可能存在于从降解的dna获得的某些序列中(例如,c到t和g到a的错编码)。在一些实施方案中,靶核酸(例如,ssna)源自带切口的双链核酸片段。带切口的双链核酸片段可以变性(例如,热变性)以生成ssna片段。
207.通过本领域已知的方法,核酸可以源自一种或多种来源(例如,生物样品、血液、细胞、血清、血浆、血沉棕黄层、尿液、淋巴液、皮肤、毛发、土壤等)。可以使用任何合适的方法从生物样品(例如从血液或血液制品)中分离、提取和/或纯化dna,所述方法的非限制性实例包括dna制备方法(例如sambrook和russell,molecular cloning:a laboratory manual 3d ed.,2001所描述的方法),各种市售可得的试剂或试剂盒,诸如qiagen,inc.(germantown,md)的和(例如,循环核酸试剂盒、dna微型试剂盒或dna血液微型试剂盒)核酸分离/纯化试剂盒;genomicprep
tm
血液dna分离试剂盒(promega,madison,wis.);gfx
tm
基因组血液dna纯化试剂盒(amersham,piscataway,n.j.);life technologies,inc.(carlsbad,ca)的核酸分离/纯化试剂盒;clontech laboratories,inc.(mountain view,ca)的和核酸分离/纯化试剂盒;等等或其组合。在某些方面,从固定的生物样品,例如福尔马林固定的石蜡包埋(ffpe)组织中分离核酸。来自ffpe组织的基因组dna可以使用市售可得的试剂盒分离,所述市售可得的试剂盒例如qiagen,inc.(germantown,md)的dna/rna ffpe试剂盒、life technologies,inc.(carlsbad,ca)的总核酸分离试剂盒以及clontech laboratories,inc.(mountain view,ca)的ffpe试剂盒。
208.在一些实施方案中,使用细胞裂解程序从细胞中提取核酸。细胞裂解程序和试剂
是本领域已知的,并且通常可以通过化学(例如去污剂、低渗溶液、酶促程序等,或其组合)、物理(例如弗氏压碎、声处理等)或电解裂解方法进行。可以利用任何合适的裂解程序。例如,化学方法通常使用裂解剂来破坏细胞并从细胞中提取核酸,然后用离液盐处理。物理方法诸如冻/融,随后研磨;使用细胞压碎器等也是有用的。在一些情况下,可以利用高盐和/或碱裂解程序。在一些情况下,裂解程序可包括用edta/蛋白酶k的裂解步骤,用高量盐(例如盐酸胍(guhcl)、乙酸钠)和异丙醇的结合缓冲步骤,以及将该溶液中的dna结合到基于二氧化硅的柱。在一些情况下,裂解方案包括dabney等人,proceedings of the national academy of sciences110,no.39(2013):15758-15763中描述的某些程序。
209.在某些实施方案中,核酸可以包括细胞外核酸。本文使用的术语“细胞外核酸”可以指从基本上不具有细胞的来源分离的核酸,并且也称为“无细胞”核酸(无细胞dna、无细胞rna或两者)、“循环无细胞核酸”(例如,ccf片段、ccfdna)和/或“无细胞循环核酸”。细胞外核酸可以存在于血液(例如,人类受试者的血液)中并从血液中获得(例如,从人类受试者的血液中获得)。细胞外核酸通常不包含可检测的细胞,并且可含有细胞组分或细胞残余物。细胞外核酸的非细胞来源的非限制性实例是血液、血浆、血清和尿液。在某些方面,从体液样品中获得无细胞核酸,所述体液样品选自全血、血浆、血清、羊水、唾液、尿液、胸腔积液、支气管灌洗液、支气管抽吸物、母乳、初乳、泪液、精液、腹膜液、胸腔积液和粪便。如本文所用的,术语“获得无细胞循环样品核酸”包括直接获得样品(例如,收集样品,例如测试样品)或从已经收集样品的其他人获得样品。细胞外核酸可以是细胞分泌和/或核酸释放(例如,dna释放)的产物。例如,细胞外核酸可以是任何形式的细胞死亡的产物。在一些情况下,细胞外核酸是任何形式的i型或ii型细胞死亡(包括有丝分裂、胀亡、中毒、缺血等及其组合)的产物。不受理论的限制,细胞外核酸可以是细胞凋亡和细胞分解的产物,其为细胞外核酸通常具有一系列谱学(例如“梯状”)长度提供了基础。在一些情况下,细胞外核酸是细胞坏死、坏死性凋亡、胀亡、细胞套亡(entosis)、细胞焦亡(pyrotosis)等及其组合的产物。在一些实施方案中,来自测试受试者的样品核酸是循环无细胞核酸。在一些实施方案中,循环无细胞核酸来自测试受试者的血浆或血清。在一些方面,无细胞核酸被降解。在一些实施方案中,无细胞核酸包括无细胞胎儿核酸(例如,无细胞胎儿dna)。在某些方面,无细胞核酸包含循环癌症核酸(例如,癌症dna)。在某些方面,无细胞核酸包含循环肿瘤核酸(例如,肿瘤dna)。在一些实施方案中,无细胞核酸包含感染性因子核酸(例如,病原体dna)。在一些实施方案中,无细胞核酸包括来自移植物的核酸(例如,dna)。在一些实施方案中,无细胞核酸包括来自微生物组(例如,肠道微生物组、血液微生物组、口腔微生物组、脊髓液微生物组、粪便微生物组)的核酸(例如,dna)。
210.无细胞dna(cfdna)可起源于降解的来源,并且在提取时通常提供有限量的dna。本文中所描述的用于生成单链dna(ssdna)文库的方法能够从cfdna中捕获大量的短dna片段。例如,来自癌症样品的cfdna倾向于具有更高的短片段群体。在某些情况下,cfdna中的短片段可针对起源于转录因子而非核小体的片段进行富集。
211.细胞外核酸可包含不同的核酸种类,并因此在本文在某些实施方案中被称为“异质的”。例如,来自患有肿瘤或癌症的人的血清或血浆可以包含来自肿瘤细胞或癌细胞(例如瘤形成)的核酸和来自非肿瘤细胞或非癌细胞的核酸。在另一个实例中,来自妊娠雌性的血清或血浆可包含母体核酸和胎儿核酸。在另一个实例中,来自具有感染或传染性疾病的
患者的血清或血浆可包含宿主核酸和感染性因子或病原体核酸。在另一个实例中,来自具有接受的移植物的受试者的样品可包含宿主核酸和来自供体器官或组织的核酸。在一些情况下,癌症核酸、肿瘤核酸、胎儿核酸、病原体核酸或移植物核酸有时为总核酸的约5%至约50%(例如,总核酸的约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%或49%是癌症核酸、肿瘤核酸、胎儿核酸、病原体核酸、移植物核酸或微生物组核酸)。在另一个实例中,异质核酸可包括来自两个或更多个受试者的核酸(例如,来自犯罪现场的样品)。
212.至少两个不同的核酸种类可以以不同的量存在于细胞外核酸中,并且有时被称为少数种类和多数种类。在某些情况下,少数种类的核酸来自受影响的细胞类型(例如,癌细胞、消耗细胞(wasting cell)、被免疫系统攻击的细胞)。在某些实施方案中,确定少数核酸种类的遗传变异或遗传改变(例如,拷贝数改变、拷贝数变异、单核苷酸改变、单核苷酸变异、染色体改变和/或易位)。在某些实施方案中,确定多数核酸种类的遗传变异或遗传改变。通常,术语“少数”或“多数”不意图在任何方面被严格定义。在一个方面,被认为是“少数”的核酸,例如,可以具有样品中总核酸的至少约0.1%至小于样品中总核酸的50%的丰度。在一些实施方案中,少数核酸可具有样品中总核酸的至少约1%至样品中总核酸的约40%的丰度。在一些实施方案中,少数核酸可具有样品中总核酸的至少约2%至样品中总核酸的约30%的丰度。在一些实施方案中,少数核酸可具有样品中总核酸的至少约3%至样品中总核酸的约25%的丰度。例如,少数核酸可具有样品中总核酸的约1%、约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%或约30%的丰度。在一些情况下,少数种类的细胞外核酸有时为全部核酸的约1%至约40%(例如,约1%、约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%或约40%的核酸是少数种类核酸)。在一些实施方案中,少数核酸是细胞外dna。在一些实施方案中,少数核酸是来自凋亡组织的细胞外dna。在一些实施方案中,少数核酸是来自其中一些细胞经历凋亡的组织的细胞外dna。在一些实施方案中,少数核酸是来自坏死组织的细胞外dna。在一些实施方案中,少数核酸是来自其中一些细胞经历坏死的组织的细胞外dna。在某些情况下,坏死可指细胞死亡后的死后过程。在一些实施方案中,少数核酸是来自受细胞增殖性疾病(例如,癌症)影响的组织的细胞外dna。在一些实施方案中,少数核酸是来自肿瘤细胞的细胞外dna。在一些实施方案中,少数核酸是细胞外胎儿dna。在一些实施方案中,少数核酸是来自病原体的细胞外dna。在一些实施方案中,少数核酸是来自移植物的细胞外dna。在一些实施方案中,少数核酸是来自微生物组的细胞外dna。
213.在另一方面,被认为是“多数”的核酸,例如,可以具有大于样品中总核酸的50%至样品中总核酸的约99.9%的丰度。在一些实施方案中,多数核酸可具有样品中总核酸的至
少约60%至样品中总核酸的约99%的丰度。在一些实施方案中,多数核酸可具有样品中总核酸的至少约70%至样品中总核酸的约98%的丰度。在一些实施方案中,多数核酸可具有样品中总核酸的至少约75%至样品中总核酸的约97%的丰度。例如,多数核酸可具有样品中总核酸的至少约70%、至少约71%、至少约72%、至少约73%、至少约74%、至少约75%、至少约76%、至少约77%、至少约78%、至少约79%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的丰度。在一些实施方案中,多数核酸是细胞外dna。在一些实施方案中,多数核酸是细胞外母体dna。在一些实施方案中,多数核酸是来自健康组织的dna。在一些实施方案中,多数核酸是来自非肿瘤细胞的dna。在一些实施方案中,多数核酸是来自宿主细胞的dna。
214.在一些实施方案中,少数种类的细胞外核酸的长度为约500个碱基对或更少(例如,约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或100%的少数种类核酸的长度为约500个碱基对或更少)。在一些实施方案中,少数种类的细胞外核酸的长度为约300个碱基对或更少(例如,约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或100%的少数种类核酸的长度为约300个碱基对或更少)。在一些实施方案中,少数种类的细胞外核酸的长度为约250个碱基对或更少(例如,约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或100%的少数种类核酸的长度为约250个碱基对或更少)。在一些实施方案中,少数种类的细胞外核酸的长度为约200个碱基对或更少(例如,约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或100%的少数种类核酸的长度为约200个碱基对或更少)。在一些实施方案中,少数种类的细胞外核酸的长度为约150个碱基对或更少(例如,约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或100%的少数种类核酸的长度为约150个碱基对或更少)。在一些实施方案中,少数种类的细胞外核酸的长度为约100个碱基对或更少(例如,约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或100%的少数种类核酸的长度为约100个碱基对或更少)。在一些实施方案中,少数种类的细胞外核酸的长度为约50个碱基对或更少(例如,约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或100%的少数种类核酸的长度为约50个碱基对或更少)。
215.可以在对含有核酸的样品进行或不进行处理的情况下提供核酸用于进行本文所描述的方法。在一些实施方案中,在处理含有核酸的样品后,提供核酸用于进行本文所描述的方法。例如,可以从样品中提取、分离、纯化、部分纯化或扩增核酸。如本文所用的术语“分离的”是指从其原始环境(例如,如果是天然存在的,则为天然环境,或者如果是外源表达的,则为宿主细胞)中取出的核酸,并因此通过人为干预(例如,“通过人的手”)从其原始环境中被改变。如本文所用的术语“分离的核酸”可以指从受试者(例如,人类受试者)中取出的核酸。分离的核酸可以以具有比来源样品中存在的组分的量更少的非核酸组分(例如,蛋白、脂质)提供。包含分离的核酸的组合物可以约50%至大于99%不含非核酸组分。包含分离的核酸的组合物可以约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、
约98%、约99%或大于99%不含非核酸组分。如本文所用的术语“纯化的”可以指所提供的核酸包含的非核酸组分(例如,蛋白、脂质、碳水化合物)少于对核酸进行纯化程序之前存在的非核酸组分的量。包含纯化的核酸的组合物可以约80%、约81%、约82%、约83%、约84%、约85%、约86%、约87%、约88%、约89%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或大于99%不含其他非核酸组分。如本文所用的术语“纯化的”可以指所提供的核酸包含的核酸种类少于该核酸源自其的样品来源中的核酸种类。包含纯化的核酸的组合物可以约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或大于99%不含其他核酸种类。例如,可以从包含母体核酸和胎儿核酸的混合物中纯化胎儿核酸。在某些实例中,可以从包含不同长度核酸片段的混合物中纯化或部分纯化小的核酸片段(例如,30至500bp的片段)。在某些实例中,可以从包含较大核酸片段的较大核小体复合物的混合物中纯化包含较小核酸片段的核小体。在某些实例中,可以从包含较小核酸片段的核小体中纯化包含较大核酸片段的较大核小体复合物。在某些实例中,可以从包含胎儿核酸片段和母体核酸片段两者的混合物中纯化或部分纯化胎儿核酸的小片段(例如,30至500bp的片段)。在某些实例中,可以从包含较大的母体核酸片段的较大核小体复合物的混合物中纯化包含较小的胎儿核酸片段的核小体。在某些实例中,可以从包含癌细胞和非癌细胞核酸的混合物中纯化癌细胞核酸。在某些实例中,可以从包含较大的非癌核酸片段的较大核小体复合物的混合物中纯化包含小的癌细胞核酸片段的核小体。在一些实施方案中,提供核酸用于进行本文中所描述的方法,而无需预先处理包含核酸的样品。例如,可以直接从样品中分析核酸,而无需预先提取、纯化、部分纯化和/或扩增。
216.核酸可以在扩增条件下被扩增。如本文所用的术语“扩增的”或“扩增”或“扩增条件”是指使样品中的靶核酸(例如,ssna)或通过本文中的方法生成的核酸产物经受线性或指数生成扩增子核酸的过程,所述扩增子核酸具有与靶核酸(例如,ssna)或其部分相同或基本相同的核苷酸序列。在某些实施方案中,术语“扩增的”或“扩增”或“扩增条件”是指包括聚合酶链式反应(pcr)的方法。在某些情况下,扩增产物可以包含比核酸模板序列的扩增核苷酸区域多一个或多个核苷酸(例如,除了与核酸模板基因分子互补的核苷酸之外,引物可以包含“额外”核苷酸诸如转录起始序列,导致扩增产物包含“额外”核苷酸或不对应于核酸模板基因分子的扩增核苷酸区域的核苷酸)。
217.在提供用于本文中所描述的方法的核酸之前,核酸也可以暴露于修饰核酸中某些核苷酸的方法。例如,基于核酸中核苷酸的甲基化状态选择性修饰核酸的方法可以被应用于核酸。此外,诸如高温、紫外线辐射、x射线辐射的条件可以诱导核酸分子序列的变化。核酸可以以可用于进行序列分析的任何合适的形式提供。
218.在一些实施方案中,靶核酸(例如,ssna)在与本文中的支架衔接子或其组分组合之前未被修饰。在一些实施方案中,靶核酸(例如,ssna)在与本文中的支架衔接子或其组分组合之前长度未被修饰。在该上下文中,“未被修饰”意指从样品中分离出靶核酸,并且然后将其与支架衔接子或其组分组合,而不修饰靶核酸的长度或构成。例如,靶核酸(例如,ssna)可以不被缩短(例如,它们不与限制性酶或核酸酶或减少长度的物理条件(例如,剪切条件、裂解条件)接触),并且可以不使长度增加一个或多个核苷酸(例如,末端不在突出端处被填充;没有核苷酸被添加至末端)。将磷酸基团或化学反应基团添加至靶核酸(例如
ssna)的一端或两端通常不被认为是修饰核酸或修饰核酸的长度。使双链核酸(dsna)片段变性以生成ssna片段通常不被认为是修饰核酸或修饰核酸的长度。
219.在一些实施方案中,当将ssna与本文中的支架衔接子或其组分组合时,存在靶核酸(例如,ssna)的一个或两个天然末端。天然末端通常指核酸片段的未修饰末端。在一些实施方案中,靶核酸(例如,ssna)的天然末端在与本文中的支架衔接子或其组分组合之前长度未被修饰。在该上下文中,“未被修饰”意指从样品中分离出靶核酸,并且然后将其与支架衔接子或其组分组合,而不修饰靶核酸的天然末端的长度。例如,靶核酸(例如,ssna)不被缩短(例如,它们不与限制性酶或核酸酶或减少长度的物理条件(例如,剪切条件、裂解条件)接触以生成非天然末端),并且不使长度增加一个或多个核苷酸(例如,天然末端不在突出端处被填充;没有核苷酸被添加至天然末端)。将磷酸基团或化学反应基团添加至靶核酸的一个或两个天然末端通常不被认为是修饰核酸的长度。
220.在一些实施方案中,在与本文中的支架衔接子或其组分组合之前,靶核酸(例如,ssna)不与裂解剂(例如,核酸内切酶、核酸外切酶、限制性酶)和/或聚合酶接触。在一些实施方案中,靶核酸在与本文中的支架衔接子或其组分组合之前,不进行机械剪切(例如,超声处理(例如,covaris的adaptive focused acoustics
tm
afa)方法))。在一些实施方案中,在与本文中的支架衔接子或其组分组合之前,靶核酸不与核酸外切酶(例如,dna酶)接触。在一些实施方案中,靶核酸在与本文中的支架衔接子或其组分组合之前不被扩增。在一些实施方案中,靶核酸在与本文中的支架衔接子或其组分组合之前不被附接至固相支持物。在一些实施方案中,靶核酸在与本文中的支架衔接子或其组分组合之前不与另一分子缀合。在一些实施方案中,靶核酸在与本文中的支架衔接子或其组分组合之前不被克隆到载体中。在一些实施方案中,靶核酸在与本文中的支架衔接子或其组分组合之前可以进行去磷酸化。在一些实施方案中,靶核酸在与本文中的支架衔接子或其组分组合之前可以进行磷酸化。
221.在一些实施方案中,将靶核酸(例如,ssna)与本文中的支架衔接子或其组分组合,包括分离靶核酸,并将分离的靶核酸与本文中的支架衔接子或其组分组合。在一些实施方案中,将靶核酸与本文中的支架衔接子或其组分组合,包括分离靶核酸,使分离的靶核酸磷酸化,并将磷酸化的靶核酸与本文中的支架衔接子或其组分组合。在一些实施方案中,将靶核酸与本文中的支架衔接子或其组分组合,包括分离靶核酸,使本文中的支架衔接子或其组分去磷酸化,并将分离的靶核酸与本文中的去磷酸化的支架衔接子或其去磷酸化的组分组合。在一些实施方案中,将靶核酸与本文中的支架衔接子或其组分组合,包括分离靶核酸,使分离的靶核酸去磷酸化,使去磷酸化的靶核酸磷酸化并将磷酸化的靶核酸与本文中的支架衔接子或其组分组合。在一些实施方案中,将靶核酸与本文中的支架衔接子或其组分组合,包括分离靶核酸,使分离的靶核酸去磷酸化,使去磷酸化的靶核酸磷酸化,使支架衔接子或其组分去磷酸化,并将磷酸化的靶核酸与本文中的去磷酸化的支架衔接子或其去磷酸化的组分组合。
222.在一些实施方案中,将靶核酸(例如,ssna)与本文中的支架衔接子或其组分组合由以下组成:分离靶核酸,并将分离的靶核酸与本文中的支架衔接子或其组分组合。在一些实施方案中,将靶核酸与本文中的支架衔接子或其组分组合由以下组成:分离靶核酸,使分离的靶核酸磷酸化,并将磷酸化的靶核酸与本文中的支架衔接子或其组分组合。在一些实
施方案中,将靶核酸与本文中的支架衔接子或其组分组合由以下组成:分离靶核酸,使支架衔接子或其组分去磷酸化,并将分离的靶核酸与本文中的去磷酸化的支架衔接子或其去磷酸化的组分组合。在一些实施方案中,将靶核酸与本文中的支架衔接子或其组分组合由以下组成:分离靶核酸,使分离的靶核酸去磷酸化,使去磷酸化的靶核酸磷酸化并将磷酸化的靶核酸与本文中的支架衔接子或其组分组合。在一些实施方案中,将靶核酸与本文中的支架衔接子或其组分组合由以下组成:分离靶核酸,使分离的靶核酸去磷酸化,使去磷酸化的靶核酸磷酸化,使支架衔接子或其组分去磷酸化,并将磷酸化的靶核酸与本文中的去磷酸化的支架衔接子或其去磷酸化的组分组合。
223.突出端
224.靶核酸可以包含突出端(例如,在核酸片段的末端),并且可以包含两个突出端(例如,在核酸片段的两个末端)。核酸突出端可以包含不同的突出端长度和/或不同的突出端类型(例如,5’突出端、3’突出端、无突出端)。靶核酸可以包含两个突出端、一个突出端和一个平末端、两个平末端或它们的组合。靶核酸可以包含两个3’突出端、两个5’突出端、一个3’突出端和一个5’突出端、一个3’突出端和一个平末端、一个5’突出端和一个平末端、两个平末端或它们的组合。在一些情况下,在进一步处理之前(例如,在变性之前),双链核酸中的突出端可以被延伸(即,被填充)。
225.在一些实施方案中,靶核酸中的突出端是天然突出端。在一些实施方案中,延伸前靶核酸中的突出端是天然突出端。在一些实施方案中,靶核酸末端是天然平末端。天然突出端和天然平末端通常指在延伸之前、变性之前和/或与本文中所描述的支架衔接子或其组分组合之前未被修饰(例如,未被延伸、未被填充、未被裂解或消化(例如,通过核酸内切酶或核酸外切酶)、未被添加或添加至)的突出端和平末端。通常,天然突出端和天然平末端通常指在延伸之前、变性之前和/或与本文中所描述的支架衔接子或其组分组合之前未被离体修饰(例如,未被离体延伸、未被离体填充、未被离体裂解或消化(例如,通过核酸内切酶或核酸外切酶)、未被离体添加或添加至)的突出端和平末端。在某些情况下,天然突出端和天然平末端通常指在延伸之前、变性之前和/或与本文中所描述的支架衔接子或其组分组合之前,从受试者或来源收集后未被修饰(例如,从受试者或来源收集后未被延伸,从受试者或来源收集后未被填充,从受试者或来源收集后未被裂解或消化(例如,通过核酸内切酶或核酸外切酶),从受试者或来源收集后未被添加或添加至)的突出端和平末端。天然突出端和天然平末端通常不包括通过使分离的样品与裂解剂(例如,核酸内切酶、核酸外切酶、限制性酶)和/或聚合酶接触而产生的突出端/末端。天然突出端和天然平末端通常不包括由机械剪切(例如,超声处理(例如,covaris的adaptive focused acoustics
tm
(afa)方法))产生的突出端/末端。天然突出端和天然平末端通常不包括通过使分离的样品与核酸外切酶(例如,dna酶)接触而产生的突出端/末端。天然突出端和天然平末端通常不包括通过扩增(例如聚合酶链式反应)产生的突出端/末端。天然突出端和天然平末端通常不包括附接至固体支持物、与另一分子缀合或克隆到载体中的突出端/末端。在一些实施方案中,天然突出端和天然平末端可以进行去磷酸化,并且可以被称为去磷酸化的天然突出端和去磷酸化的天然平末端。在一些实施方案中,天然突出端和天然平末端可以进行磷酸化,并且可以被称为磷酸化的天然突出端和磷酸化的天然平末端。
226.在一些实施方案中,本文中的方法包括在延伸条件下使包含靶核酸的核酸组合物
与一个或多个独特核苷酸和包含延伸活性的剂接触。延伸条件包括用于延伸核酸的合适的酶、缓冲液、试剂和温度。包含延伸活性的剂可以是聚合酶(例如,dna聚合酶i、dna聚合酶i的大(klenow)片段、t4 dna聚合酶、嗜热脂肪芽孢杆菌(bst)dna聚合酶、热稳定dna聚合酶(例如,来自超嗜热海洋古生菌)、9
°ntm dna聚合酶(genbank登录号aaa88769.1)、therminator聚合酶(具有以下突变的9
°ntm dna聚合酶:d141a、e143a、a485l)等)。在一些实施方案中,包含延伸活性的剂是therminator聚合酶。在一些实施方案中,包含延伸活性的剂是不具有核酸外切酶活性的聚合酶。在一些实施方案中,包含延伸活性的剂是不具有3’至5’核酸外切酶活性的聚合酶。因此,在一些实施方案中,不具有核酸外切酶活性的聚合酶被选择来填充靶核酸突出端,而不消化靶核酸中的任何单链部分。
227.一些或所有靶核酸可以包含含有突出端的双链核酸(dsna)。一些或所有靶核酸可以包含含有突出端的双链dna(dsdna)。包含突出端的靶核酸可以包含双链体区域和单链突出端。具有至少一个突出端的靶核酸可以被延伸,使得突出端被填充并生成平末端。延伸的靶核酸可以包含与突出端(即延伸前存在于靶核酸中的突出端)互补的延伸区域。在一些实施方案中,延伸区域包含一个或多个独特的核苷酸。
228.突出端可以使用独特的核苷酸来填充。独特的核苷酸(也称为独特的碱基)通常指能够与靶核酸中的核苷酸相区别的任何合适的核苷酸。独特的核苷酸的非限制性实例包括通用碱基(例如,肌苷、脱氧肌苷、2
’‑
脱氧肌苷(di,dinosine)、硝基吲哚、5-硝基吲哚和3-硝基吡咯)、修饰的碱基(例如,本文中所描述的修饰的核苷酸)、甲基化的碱基(例如,甲基胞嘧啶)、核酸类似物或人工核酸(例如,异种核酸(xna)、肽核酸(pna)、吗啉代、锁核酸(lna)、乙二醇核酸(gna)、苏糖核酸(tna))或以其他方式可检测地标记的碱基。使用独特的核苷酸使能够在后续鉴定哪些区域被填充,从而使能够检测突出端区域(例如,天然突出端)。例如,在测序(例如,通过纳米孔测序)过程中可以检测独特的核苷酸。可以利用合适的聚合酶来掺入独特的核苷酸(例如,therminator聚合酶)。
229.在一些实施方案中,延伸区域包含一个或多个独特的核苷酸。在一些实施方案中,延伸区域由独特的核苷酸组成。在这样的实施方案中,突出端全部由独特的核苷酸填充。在一些实施方案中,延伸区域包含一个或多个但不是所有的独特的核苷酸。在这样的实施方案中,一个或多个但不是所有的碱基被独特的核苷酸(例如,只有胞嘧啶,诸如用甲基胞嘧啶)填充。在某些实施方案中,使用所有独特的碱基可以实现突出端区域的精确单碱基分辨鉴定。在某些实施方案中,使用一个或多个但不是所有的独特的碱基,可以实现以与最近的独特碱基的空间分辨率鉴定突出端区域。
230.具有经填充的突出端的核酸可以被进一步处理并制备用于测序,例如通过本文中讨论的方法进一步处理并制备用于测序。在某些情况下,可以制备具有经填充的突出端的核酸用于纳米孔测序。纳米孔测序制备可以包括将多个核酸串联成更长的核酸用于测序。串联可以包括使用衔接子或间隔子来表示或标记不同的样品核酸。可选地,串联可以直接连接样品核酸;同一串联体中的不同样品核酸可以通过检测突出端(例如,通过检测独特的碱基)或通过其他信息手段去卷积。纳米孔测序制备可以包括附接纳米孔测序衔接子,例如发夹衔接子。使用发夹衔接子可以连接两条链,允许两个单链序列的容易缔合——例如,如果通用碱基(例如,肌苷)被用作独特的碱基,连接两条链可以允许突出端序列从对应的互补序列中被确定。互补链序列也可以在测序后进行信息关联,例如基于匹配的序列和/或长
度。
231.单链核酸
232.本文提供了用于使用专用的衔接子捕获单链核酸(ssna)的方法和组合物(例如,用于生成测序文库)。单链核酸或ssna通常指其长度的70%或更多上是单链(即分子间或分子内不杂交)的多核苷酸的集合。在一些实施方案中,ssna在多核苷酸长度的75%或更多、80%或更多、85%或更多、90%或更多、95%或更多、或99%或更多上是单链的。在某些方面,ssna在多核苷酸的全长上是单链的。单链核酸在本文中可称为靶核酸。
233.ssna可以包括单链脱氧核糖核酸(ssdna)。在一些实施方案中,ssdna包括但不限于源自双链dna(dsdna)的ssdna。例如,ssdna可源自双链dna,其被变性(例如,热变性和/或化学变性)以产生ssdna。在一些实施方案中,本文中的方法包括在将ssdna与本文所描述的支架衔接子或其组分组合之前,通过使dsdna变性生成ssdna。
234.在一些实施方案中,ssna包括单链核糖核酸(ssrna)。rna可以包括例如信使rna(mrna)、微rna(mirna)、小干扰rna(sirna)、反式作用小干扰rna(ta-sirna)、天然小干扰rna(nat-sirna)、核糖体rna(rrna)、转移rna(trna)、小核仁rna(snorna)、小核rna(snrna)、长非编码rna(lncrna)、非编码rna(ncrna)、转移信使rna(tmrna)、前体信使rna(pre-mrna)、小cajal体特异性rna(scarna)、piwi相互作用rna(pirna)、核糖核酸内切酶制备的sirna(esirna)、小时序rna(strna)、信号识别rna、端粒rna、核酶或其组合。在一些实施方案中,当ssna是ssrna时,ssrna是mrna。在一些实施方案中,ssna包括单链互补dna(cdna)。
235.在一些实施方案中,本文中的方法包括使ssna与单链核酸结合剂接触。在一些实施方案中,本文中的方法包括使ssna与单链核酸结合蛋白(ssb)接触以产生ssb结合的ssna。在一些实施方案中,本文中的方法包括使sscdna与单链核酸结合蛋白(ssb)接触以产生ssb结合的sscdna。在一些实施方案中,本文中的方法包括使ssdna与单链核酸结合蛋白(ssb)接触以产生ssb结合的ssdna。在一些实施方案中,本文中的方法包括使ssrna与单链核酸结合蛋白(ssb)接触以产生ssb结合的ssrna。ssb通常以协作方式与ssna结合,且通常不与双链核酸(dsna)很好地结合。结合ssdna后,ssb使螺旋双链体不稳定。ssb可以是原核ssb(例如,细菌或古生菌ssb)或真核ssb。ssb的实例可包括大肠杆菌ssb、大肠杆菌reca、极端热稳定单链dna结合蛋白(et ssb)、嗜热栖热菌(thermus thermophilus)(tth)reca、t4基因32蛋白、复制蛋白a(rpa
–
真核ssb)等。et ssb、tth reca、大肠杆菌reca、t4基因32蛋白,以及使用这些ssb制备ssb结合的ssna的缓冲液和详细方案是市售可得的(例如,new england biolabs,inc.(ipswich,ma))。
236.在一些实施方案中,本文中的方法不包括使ssna与单链核酸结合蛋白(ssb)接触以产生ssb结合的ssna。因此,本文中的方法可以省略产生ssb结合的ssna的步骤。例如,本文中的方法可包括将ssna与本文所描述的支架衔接子或其组分组合,而不使ssna与ssb接触。在这种情况下,本文中的方法可被称为用于产生核酸文库的“无ssb的”方法。本文中所描述的某些无ssb的方法可产生具有类似于使用ssb制备的文库的参数的参数的文库,如附图所示和实施例中所讨论的。在一些实施方案中,本文中的方法包括使ssna与除ssb之外的单链核酸结合剂接触。这种单链核酸结合剂可以稳定地结合单链核酸,可以防止或减少核酸双链体的形成,还可以允许结合的核酸被连接或以其他方式进行末端修饰,并且可以是
热稳定的。示例性单链核酸结合剂包括但不限于拓扑异构酶、解旋酶、其结构域和包含其结构域的融合蛋白。
237.在一些实施方案中,本文中的方法包括将包含单链核酸(ssna)的核酸组合物与本文所描述的支架衔接子或其组分组合。在一些实施方案中,本文中的方法包括将由单链核酸(ssna)组成的核酸组合物与本文所描述的支架衔接子或其组分组合。在一些实施方案中,本文中的方法包括将基本上由单链核酸(ssna)组成的核酸组合物与本文所描述的支架衔接子或其组分组合。“基本上由”单链核酸(ssna)“组成”的核酸组合物通常包含ssna,并且没有另外的蛋白或核酸组分。例如,“基本上由”单链核酸(ssna)“组成”的核酸组合物可不包含双链核酸(dsna),或者可包含低百分比的dsna(例如,小于10%的dsna、小于5%的dsna、小于1%的dsna)。“基本上由”单链核酸(ssna)“组成”的核酸组合物可不包含蛋白。例如,“基本上由”单链核酸(ssna)“组成”的核酸组合物可不包含单链结合蛋白(ssb)或可用于稳定ssna的其他蛋白。“基本上由”单链核酸(ssna)“组成”的核酸组合物可包含通常存在于核酸组合物中的化学组分,例如缓冲液、盐、醇、拥挤剂(例如peg)等;并且可包含来自核酸来源(例如样品)或核酸提取的残余组分(例如核酸、蛋白、细胞膜组分)。“基本上由”单链核酸(ssna)“组成”的核酸组合物可包含具有一个或多个磷酸(例如末端磷酸,5’末端磷酸)的ssna片段。“基本上由”单链核酸(ssna)“组成”的核酸组合物可包含含有一个或多个修饰的核苷酸的ssna片段。
238.富集核酸
239.在一些实施方案中,核酸(例如,细胞外核酸)针对核酸的亚群或种类被富集或被相对富集。核酸亚群可以包括,例如,胎儿核酸、母体核酸、癌症核酸、肿瘤核酸、患者核酸、宿主核酸、病原体核酸、移植物核酸、微生物组核酸、包含特定长度或长度范围的片段的核酸,或来自特定基因组区域(例如,单个染色体、染色体组和/或某些染色体区域)的核酸。这种经富集的样品可以与本文中提供的方法联合使用。因此,在某些实施方案中,该技术的方法包括富集样品中核酸亚群的另外步骤。在某些实施方案中,来自正常组织(例如,非癌细胞、宿主细胞)的核酸被选择性地从样品中(部分地、基本上、几乎完全地或完全地)去除。在某些实施方案中,母体核酸被选择性从样品中(部分地、基本上、几乎完全地或完全地)去除。在某些实施方案中,富集特定的低拷贝数种类核酸(例如,癌症、肿瘤、胎儿、病原体、移植物、微生物组核酸)可以改进定量灵敏度。用于富集样品的特定种类的核酸的方法例如在美国专利第6,927,028号、国际专利申请公布第wo2007/140417号、国际专利申请公布第wo2007/147063号、国际专利申请公布第wo2009/032779号、国际专利申请公布第wo2009/032781号、国际专利申请公布第wo2010/033639号、国际专利申请公布第wo2011/034631号、国际专利申请公布第wo2006/056480号和国际专利申请公布第wo2011/143659号中描述,每个专利或专利申请的全部内容,包括所有文本、表格、方程式和附图,都通过引用并入本文。
240.在一些实施方案中,富集核酸的某些靶片段种类和/或参考片段种类。在某些实施方案中,使用以下描述的一种或多种基于长度的分离方法,针对特定核酸片段长度或片段长度范围富集核酸。在某些实施方案中,使用本文所描述的和/或本领域已知的一种或多种基于序列的分离方法,富集核酸的来自所选基因组区域(例如染色体)的片段。
241.用于富集样品中核酸亚群的方法的非限制性实例包括利用核酸种类之间表观遗传差异的方法(例如,美国专利申请公布第2010/0105049号中描述的基于甲基化的胎儿核
酸富集方法,其通过引用并入本文);限制性核酸内切酶增强的多态性序列方法(例如,诸如美国专利申请公布第2009/0317818号中描述的方法,其通过引用并入本文);选择性酶促降解方法;大规模并行签名测序(mpss)方法;基于扩增(例如,pcr)的方法(例如,基因座特异性扩增方法,多重snp等位基因pcr方法;通用扩增方法);下拉方法(例如,生物素化的超聚体下拉方法);基于延伸和连接的方法(例如,分子倒置探针(mip)延伸和连接);及其组合。
242.在一些实施方案中,可以富集修饰的核酸。核酸修饰包括但不限于羧基胞嘧啶、5-甲基胞嘧啶(5mc)及其氧化衍生物(例如,5-羟甲基胞嘧啶(5hmc)、5-甲酰胞嘧啶(5fc)和5-羧基胞嘧啶(5cac))、n(6)-甲基腺嘌呤(6ma)、n4-甲基胞嘧啶(4mc)、n(6)-甲基腺嘌呤(m(6)a)、假尿苷(ψ)、5-甲基胞苷(m(5)c)、羟甲基尿嘧啶、3’末端的2
’‑
o-甲基化、trna修饰、mirna修饰和snrna修饰。包含一个或多个修饰的核酸可以通过多种方法富集,包括但不限于基于抗体的下拉。修饰的核酸富集可以在dsdna变性之前或之后进行。变性前的富集也可导致可能缺乏修饰的互补链的富集,而变性后的富集不会富集缺乏修饰的互补链。
243.在一些实施方案中,使用本文所描述的一种或多种基于序列的分离方法,对来自所选基因组区域(例如染色体)的片段富集核酸。基于序列的分离通常基于存在于感兴趣片段(例如,靶和/或参考片段)中且基本上不存在于样品的其他片段中或以极少量(例如,5%或更少)存在于其他片段中的核苷酸序列。在一些实施方案中,基于序列的分离可以生成分离的靶片段和/或分离的参考片段。分离的靶片段和/或分离的参考片段通常与核酸样品中的剩余片段分离。在某些实施方案中,分离的靶片段和分离的参考片段也彼此分离(例如,被分离在分离测定隔室中)。在某些实施方案中,分离的靶片段和分离的参考片段被一起分离(例如,被分离在同一分离测定隔室中)。在一些实施方案中,未结合的片段可以被差异地去除或降解或消化。
244.在一些实施方案中,支架衔接子被用于富集靶核酸。例如,可以设计支架衔接子,使得ssna杂交区域中的一些或所有碱基是确定的或已知的碱基。这些支架衔接子可优先与具有与支架衔接子ssna杂交区域的确定或已知碱基互补的序列的靶核酸杂交,从而在所得文库中富集靶核酸。例如,在ssna杂交区域中包含gc二核苷酸可用于富集具有末端cg(也称为cpg)二核苷酸的靶核酸。使用支架衔接子ssna杂交区域的部分或全部长度,任何其他确定的序列可以以类似的方式被靶向,包括但不限于核酸酶裂解位点、基因启动子区域、病原体序列、肿瘤相关序列和其他基序。在一个实例中,使用非富集支架衔接子和cg二核苷酸富集支架衔接子制备文库。对于在没有进行富集的情况下制备的文库,1.7%的读段以cg开始,且1.1%的读段以cg结束。对于在进行富集的情况下制备的文库,5.2%的读段以cg开始,且19.6%的读段以cg结束。在另一个实例中,用对感兴趣的病原体rna特异性的引物逆转录包含rna(例如,宿主和病原体rna)的样品,以生成cdna;然后纯化cdna,并用如本文中所讨论的单链文库制备方法,用标准支架衔接子或者用具有靶向逆转录引物富集的区域的ssna杂交区域的支架衔接子进行制备。病原体dna可以类似地富集。
245.在一些情况下,5’或3’核酸末端的靶核酸序列是确定的或已知的。在其他情况下,支架衔接子可用于鉴定5’或3’核酸末端的感兴趣的新靶。感兴趣的核酸序列或模式可以在进行富集或不富集的情况下通过支架衔接子文库输出来表征。在一些情况下,5’核酸末端、3’核酸末端或两个核酸末端的特定序列或序列模式可与特定状态相关联。此类状态包括但不限于疾病状态、甲基化状态和基因表达状态。支架衔接子可用于定量样品和对照之间核
酸末端的已知或新靶序列的存在或相对丰度,例如来自癌症患者和健康对照的无细胞dna。这些数据可用于了解dna末端的序列信息与给定状态之间的关系。在一个实例中,通过在患者和健康样品的良好表征的数据集上进行训练,可以使用分析方法或算法来预测状态或状态之间的转换。例如,我们观察到与非aml患者样品相比,来自急性髓系白血病(aml)患者的cfdna中5’和3’dna末端的at二核苷酸增加,且cpg二核苷酸减少。在这个实例中,分析工具可以使用cfdna末端序列信息来预测一个人发展aml的风险。
246.在一些实施方案中,选择性核酸捕获过程被用于从核酸样品中分离靶和/或参考片段。市售可得的核酸捕获系统包括,例如nimblegen序列捕获系统(roche nimblegen,madison,wi);illumina beadarray平台(illumina,san diego,ca);affymetrix genechip平台(affymetrix,santa clara,ca);agilent sureselect靶富集系统(agilent technologies,santa clara,ca);以及相关平台。这样的方法通常包括捕获寡核苷酸与靶或参考片段的部分或全部核苷酸序列的杂交,并且可包括使用固相(例如,固相阵列)和/或基于溶液的平台。可以选择或设计捕获寡核苷酸(有时称为“诱饵”),使得它们优先与来自所选基因组区域或基因座的核酸片段或核酸靶中的特定序列杂交。在某些实施方案中,基于杂交的方法(例如,使用寡核苷酸阵列)可用于富集含有某些核酸序列的片段。因此,在一些实施方案中,核酸样品任选地通过使用与例如样品核酸中所选序列互补的捕获寡核苷酸捕获片段子集而被富集。在某些情况下,捕获的片段被扩增。例如,包含衔接子的捕获片段可以使用与衔接子序列互补的引物进行扩增,以形成扩增片段的集合,根据衔接子序列进行索引。在一些实施方案中,通过使用与含有感兴趣区域或其部分的片段中的序列互补的寡核苷酸(例如pcr引物)扩增一个或多个感兴趣区域,富集核酸的来自所选基因组区域(例如染色体、基因)的片段。
247.在一些实施方案中,使用一种或多种基于长度的分离方法,针对特定核酸片段长度、长度范围、或低于或高于特定阈值或截止值的长度富集核酸。核酸片段长度通常指片段中核苷酸的数目。核酸片段长度有时也被称为核酸片段大小。在一些实施方案中,进行基于长度的分离方法,而不测量个体片段的长度。在一些实施方案中,基于长度的分离方法与用于确定个体片段长度的方法联合进行。在一些实施方案中,基于长度的分离是指大小分级程序,其中分级的汇集物的全部或部分可以被分离(例如,保留)和/或分析。大小分级程序是本领域已知的(例如,阵列分离、分子筛分离、凝胶电泳分离、柱色谱法分离(例如,尺寸排阻柱)和基于微流体的方法)。在某些情况下,基于长度的分离方法可以包括例如选择性序列加标签法、片段环化、化学处理(例如甲醛、聚乙二醇(peg)沉淀)、质谱法和/或大小特异性核酸扩增。
248.在一些实施方案中,富集核酸的与一种或多种核酸结合蛋白缔合的片段。示例性富集方法包括但不限于染色质免疫沉淀(chip)、交联chip(xchip)、天然chip(nchip)、无珠chip、载体chip(cchip)、快速chip(qchip)、快速且定量chip(q2chip)、微芯片(μchip)、基质chip、病理chip(pat-chip)、chip-exo、chip-on-chip、rip-chip、hichip、chia-pet和hichirp。
249.在一些实施方案中,本文中的方法包括富集rna种类的混合物中的一种rna种类。例如,本文中的方法可以包括富集信使rna(mrna)和核糖体rna(rrna)混合物中存在的mrna。可以使用任何合适的mrna富集方法,所述方法包括rrna消耗和/或mrna富集方法,例
如用磁珠消耗rrna(例如,ribo-zero
tm
、ribominus
tm
和microbexpress
tm
,它们使用rrna消耗探针与磁珠组合来消耗样品中的rrna,从而富集mrna)、基于寡聚(dt)的多聚(a)富集(例如,oligo(dt)20)、基于核酸酶的rrna消耗(例如,用terminator
tm5′‑
磷酸依赖性核酸外切酶消耗rrna)及其组合。
250.富集策略可以使靶核酸的相对丰度(例如,通过测序读段的百分比评估)增加至少5%、至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少100%、至少200%、至少300%、至少400%、至少500%、至少600%、至少700%、至少800%、至少900%、至少1000%、至少1100%、至少1200%、至少1300%、至少1400%、至少1500%、至少1600%、至少1700%、至少1800%、至少1900%、至少2000%、至少3000%、至少4000%、至少5000%、至少6000%、至少7000%、至少8000%、至少9000%、至少10000%或更多。
251.基于长度的分离
252.在一些实施方案中,本文中的方法包括根据片段长度分离靶核酸(例如,ssna)。例如,可以使用一种或多种基于长度的分离方法,针对特定核酸片段长度、长度范围、或低于或高于特定阈值或截止值的长度富集靶核酸(例如,ssna)。核酸片段长度通常指片段中核苷酸的数目。核酸片段长度也可以被称为核酸片段大小。在一些实施方案中,进行基于长度的分离方法,而不测量个体片段的长度。在一些实施方案中,基于长度的分离方法与用于确定个体片段长度的方法联合进行。在一些实施方案中,基于长度的分离是指大小分级程序,其中分级的汇集物的全部或部分可以被分离(例如,保留)和/或分析。大小分级程序是本领域已知的(例如,阵列分离、分子筛分离、凝胶电泳分离、柱色谱法分离(例如,尺寸排阻柱)和基于微流体的方法)。在一些实施方案中,基于长度的分离方法可以包括例如片段环化、化学处理(例如甲醛、聚乙二醇(peg))、质谱法和/或大小特异性核酸扩增。在一些实施方案中,使用固相可逆固定(spri)珠来进行基于长度的分离。
253.在一些实施方案中,从样品中分离出特定长度、长度范围或低于或高于特定阈值或截止值的长度的核酸片段。在一些实施方案中,具有低于特定阈值或截止值(例如,500bp、400bp、300bp、200bp、150bp、100bp)的长度的片段被称为“短”片段,且具有高于特定阈值或截止值(例如,500bp、600bp、700bp、800bp、900bp、1000bp)的长度的片段被称为“长”片段、大片段和/或高分子量(hmw)片段。在一些实施方案中,特定长度、长度范围、或低于或高于特定阈值或截止值的长度的片段被保留用于分析,而不同长度或长度范围、或高于或低于阈值或截止值的长度的片段不被保留用于分析。在一些实施方案中,小于约500bp的片段被保留。在一些实施方案中,小于约400bp的片段被保留。在一些实施方案中,小于约300bp的片段被保留。在一些实施方案中,小于约200bp的片段被保留。在一些实施方案中,小于约150bp的片段被保留。例如,小于约190bp、小于约180bp、小于约170bp、小于约160bp、小于约150bp、小于约140bp、小于约130bp、小于约120bp、小于约110bp或小于约100bp的片段被保留。在一些实施方案中,约100bp至约200bp的片段被保留。例如,约190bp、约180bp、约170bp、约160bp、约150bp、约140bp、约130bp、约120bp或约110bp的片段被保留。在一些实施方案中,约100bp至约200bp范围内的片段被保留。例如,约110bp至约190bp、130bp至约180bp、140bp至约170bp、140bp至约150bp、150bp至约160bp或145bp至约155bp范围内的片段被保留。
254.在一些实施方案中,将具有小于约1000bp的片段长度的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。在一些实施方案中,将具有小于约500bp的片段长度的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。在一些实施方案中,将具有小于约400bp的片段长度的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。在一些实施方案中,将具有小于约300bp的片段长度的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。在一些实施方案中,将具有小于约200bp的片段长度的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。在一些实施方案中,将具有小于约100bp的片段长度的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。
255.在一些实施方案中,将具有约100bp或更长的片段长度的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。在一些实施方案中,将具有约200bp或更长的片段长度的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。在一些实施方案中,将具有约300bp或更长的片段长度的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。在一些实施方案中,将具有约400bp或更长的片段长度的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。在一些实施方案中,将具有约500bp或更长的片段长度的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。在一些实施方案中,将具有约1000bp或更长的片段长度的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。
256.在一些实施方案中,将具有任何片段长度或任何片段长度的组合的靶核酸(例如,ssna)与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。例如,具有小于500bp的片段长度和500bp或更长的片段长度的靶核酸(例如,ssna)可以与本文所描述的多个支架衔接子种类或支架衔接子种类的汇集物或支架衔接子种类的组分组合。
257.可用于与本文所描述的方法一起使用的某些基于长度的分离方法利用例如选择性序列加标签方法。在这样的方法中,包含长核酸和短核酸的样品中片段大小种类(例如,短片段)核酸被选择性地加标签。这样的方法通常包括使用包括内部引物和外部引物的一组巢式引物进行核酸扩增反应。在一些实施方案中,一个或两个内部引物可以被加标签,从而将标签引入到靶扩增产物上。外部引物通常不与携带(内部)靶序列的短片段退火。内部引物可以与短片段退火,并生成携带标签和靶序列的扩增产物。通常,对长片段加标签通过机制的组合而被抑制,所述机制包括例如通过外部引物的预先退火和延伸来阻断内部引物的延伸。加标签的片段的富集可以通过多种方法中的任一种来实现,包括例如单链核酸的核酸外切酶消化和使用对至少一种标签特异性的扩增引物来扩增加标签的片段。
258.可用于与本文所描述的方法一起使用的另一种基于长度的分离方法包括将核酸
样品进行聚乙二醇(peg)沉淀。方法的实例包括在国际专利申请公布第wo2007/140417号和第wo2010/115016号中描述的那些。该方法通常需要在一种或多种单价盐的存在下,在足以显著沉淀大核酸而不显著沉淀小(例如,小于300个核苷酸)核酸的条件下,使核酸样品与peg接触。
259.可用于与本文所描述的方法一起使用的另一种基于长度的富集方法包括通过连接进行环化,例如使用环化连接酶。短核酸片段通常可以以比长片段更高的效率环化。非环化的序列可以与环化的序列分离,并且富集的短片段可以用于进一步分析。
260.核酸文库
261.本文中的方法可包括制备核酸文库和/或修饰用于核酸文库的核酸。在一些实施方案中,核酸片段的末端被修饰,使得该片段或其扩增产物可以整合到核酸文库中。通常,核酸文库是指被制备、被组装和/或被修饰以用于特定处理的多个多核苷酸分子(例如,核酸样品),其非限制性实例包括在固相(例如,固体支持物、流动池、珠)上的固定、富集、扩增、克隆、检测和/或用于核酸测序。在某些实施方案中,在测序过程之前或期间制备核酸文库。核酸文库(例如测序文库)可以通过本领域已知的合适方法制备。核酸文库可以通过靶向或非靶向制备方法来制备。
262.在一些实施方案中,核酸文库被修饰为包含被配置用于将核酸固定至固体支持物的化学部分(例如,官能团)。在一些实施方案中,核酸文库被修饰为包含被配置用于将文库固定至固体支持物的生物分子(例如,官能团)和/或结合对的成员,其非限制性实例包括甲状腺素结合球蛋白、类固醇结合蛋白、抗体、抗原、半抗原、酶、凝集素、核酸、阻遏物、蛋白a、蛋白g、亲和素、链霉亲和素、生物素、补体组分c1q、核酸结合蛋白、受体、碳水化合物、寡核苷酸、多核苷酸、互补核酸序列等及其组合。特异性结合对的一些实例包括但不限于:亲和素部分和生物素部分;抗原表位和抗体或其免疫反应性片段;抗体和半抗原;地高辛部分和抗地高辛抗体;荧光素部分和抗荧光素抗体;操纵子和阻遏物;核酸酶和核苷酸;凝集素和多糖;类固醇和类固醇结合蛋白;活性化合物和活性化合物受体;激素和激素受体;酶和底物;免疫球蛋白和蛋白a;寡核苷酸或多核苷酸及其对应的互补物;等等或其组合。
263.在一些实施方案中,核酸文库被修饰为包含一个或多个已知构成的多核苷酸,其非限制性实例包括标识符(例如标签、索引标签)、捕获序列、标记物、衔接子、限制性酶位点、启动子、增强子、复制起点、茎环、互补序列(例如引物结合位点、退火位点)、合适的整合位点(例如转座子、病毒整合位点)、修饰的核苷酸、本文所描述的独特分子标识符(umi)、本文所描述的回文序列;等等或其组合。已知序列的多核苷酸可以被添加在合适的位置,例如核酸序列的5’端、3’端或内部。已知序列的多核苷酸可以是相同或不同的序列。在一些实施方案中,已知序列的多核苷酸被配置为与固定在表面(例如,流动池中的表面)上的一个或多个寡核苷酸杂交。例如,包含5’已知序列的核酸分子可以与第一多个寡核苷酸杂交,而3’已知序列可以与第二多个寡核苷酸杂交。在一些实施方案中,核酸文库可以包含染色体特异性标签、捕获序列、标记物和/或衔接子(例如,本文所描述的寡核苷酸衔接子)。在一些实施方案中,核酸文库包含一种或多种可检测的标记物。在一些实施方案中,一种或多种可检测的标记物可以在5’端、3’端和/或文库中核酸内的任何核苷酸位置被掺入核酸文库。在一些实施方案中,核酸文库包含杂交的寡核苷酸。在某些实施方案中,杂交的寡核苷酸是标记的探针。在一些实施方案中,核酸文库包含固定在固相上之前的杂交的寡核苷酸探针。
264.在一些实施方案中,已知序列的多核苷酸包含通用序列。通用序列是整合到两个或更多个核酸分子或两个或更多个核酸分子子集中的特定核苷酸序列,其中通用序列对于其整合到其中的所有分子或分子子集是相同的。通用序列通常被设计为使用与通用序列互补的单一通用引物来杂交和/或扩增多个不同的序列。在一些实施方案中,使用两种(例如一对)或更多种通用序列和/或通用引物。通用引物通常包含通用序列。在一些实施方案中,衔接子(例如通用衔接子)包含通用序列。在一些实施方案中,一种或多种通用序列被用于捕获、鉴定和/或检测多个种类或子集的核酸。
265.在制备核酸文库的某些实施方案中(例如,在通过合成程序的某些测序中),对核酸进行大小选择和/或将其片段化为几百个碱基对或更少的长度(例如,在用于文库生成的制备中)。在一些实施方案中,文库制备在没有进行片段化的情况下进行(例如,当使用无细胞dna时)。
266.在某些实施方案中,使用基于连接的文库制备方法(例如,illumina truseq,illumina,san diego ca)。基于连接的文库制备方法通常利用衔接子(例如甲基化的衔接子)设计,其可以在初始连接步骤掺入索引序列(例如样品索引序列以鉴定核酸序列的样品起源),并且通常可以用于制备用于单读段测序、配对末端测序和多重测序的样品。例如,核酸(例如片段化的核酸或无细胞dna)可以通过填充反应、核酸外切酶反应或其组合进行末端修复。在一些实施方案中,得到的平末端修复的核酸可以被延伸一个单核苷酸,该单核苷酸与衔接子/引物3’末端的单核苷酸突出端互补。任何核苷酸都可以用于延伸/突出端核苷酸。在一些实施方案中,末端修复被省略,并且将支架衔接子(例如,本文所描述的支架衔接子)直接连接至核酸(例如,单链核酸、片段化的核酸和/或无细胞dna)的天然末端。
267.在一些实施方案中,核酸文库制备包括连接支架衔接子或其组分(例如,连接至样品核酸、连接至样品核酸片段、连接至模板核酸、连接至靶核酸、连接至ssna),例如本文所描述的支架衔接子。支架衔接子或其组分可包含与流动池锚定物互补的序列,并且有时用于将核酸文库固定至固体支持物,例如流动池的内表面。在一些实施方案中,支架衔接子或其组分包含标识符、一个或多个测序引物杂交位点(例如,与通用测序引物、单末端测序引物、配对末端测序引物、多重测序引物等互补的序列),或其组合(例如,衔接子/测序、衔接子/标识符、衔接子/标识符/测序)。在一些实施方案中,支架衔接子或其组分包含一个或多个引物退火多核苷酸,在本文中也称为引发序列或引物结合结构域(例如,用于退火至流动池附接的寡核苷酸和/或游离扩增引物),索引多核苷酸(例如,用于追踪来自不同样品的核酸的样品索引序列;也称为样品id)、条形码多核苷酸(例如,单分子条形码(smb),用于追踪测序前扩增的样品核酸的个体分子;也称为分子条形码或独特分子标识符(umi))。在一些实施方案中,支架衔接子或其组分的引物退火组分(或引发序列或引物结合结构域)包含一个或多个通用序列(例如,与一个或多个通用扩增引物互补的序列)。在一些实施方案中,索引多核苷酸(例如,样品索引;样品id)是支架衔接子或其组分的组分。在一些实施方案中,索引多核苷酸(例如,样品索引;样品id)是通用扩增引物序列的组分。
268.在一些实施方案中,当与扩增引物(例如,通用扩增引物)组合使用时,支架衔接子或其组分被设计为生成包含以下的一个或多个的文库构建体:通用序列、分子条形码(umi)、umi侧翼序列、样品id序列、间隔区序列和样品核酸序列(例如,ssna序列)。在一些实施方案中,当与通用扩增引物组合使用时,支架衔接子或其组分被设计为生成包含以下的
一个或多个的有序组合的文库构建体:通用序列、分子条形码(umi)、样品id序列、间隔区序列和样品核酸序列(例如,ssna序列)。例如,文库构建体可包含第一通用序列,随后是第二通用序列,随后是第一分子条形码(umi),随后是间隔区序列,随后是模板序列(例如,样品核酸序列;ssna序列),随后是间隔区序列,随后是第二分子条形码(umi),随后是第三通用序列,随后是样品id,随后是第四通用序列。在一些实施方案中,当与扩增引物(例如,通用扩增引物)组合使用时,支架衔接子或其组分被设计为生成模板分子(例如,样品核酸分子;ssna分子)的每条链的文库构建体。在一些实施方案中,支架衔接子是双链体衔接子。
269.标识符可以是掺入或附接至核酸(例如多核苷酸)的合适的可检测标记物,其允许检测和/或鉴定包含标识符的核酸。在一些实施方案中,在测序方法期间,标识符被掺入或附接至核酸(例如,通过聚合酶)。在一些实施方案中,在测序方法之前,标识符被掺入或附接至核酸(例如,通过延伸反应、通过扩增反应、通过连接反应)。标识符的非限制性实例包括核酸标签、核酸索引或条形码、放射性标记物(例如同位素)、金属标记物、荧光标记物、化学发光标记物、磷光标记物、荧光团猝灭剂、染料、蛋白(例如酶、抗体或其部分、接头、结合对的成员)、类似物或其组合。在一些实施方案中,标识符(例如,核酸索引或条形码)是独特的、已知的和/或可识别的核苷酸或核苷酸类似物序列。在一些实施方案中,标识符是六个或更多个连续的核苷酸。具有各种不同的激发和发射光谱的许多荧光团是可得的。任何合适类型和/或数目的荧光团都可被用作标识符。在一些实施方案中,在本文描述的方法(例如,核酸检测和/或测序方法)中使用1种或更多种、2种或更多种、3种或更多种、4种或更多种、5种或更多种、6种或更多种、7种或更多种、8种或更多种、9种或更多种、10种或更多种、20种或更多种、30种或更多种或者50种或更多种不同的标识符。在一些实施方案中,将一种或两种类型的标识符(例如荧光标记物)与文库中的每个核酸连接。标识符的检测和/或定量可以通过合适的方法、装置或机器进行,其非限制性实例包括流式细胞术、定量聚合酶链式反应(qpcr)、凝胶电泳、发光计、荧光计、分光光度计、合适的基因芯片或微阵列分析、蛋白印迹、质谱法、色谱法、细胞荧光分析(cytofluorimetric analysis)、荧光显微术、合适的荧光或数字成像方法、共聚焦激光扫描显微术、激光扫描细胞术、亲和色谱法、手动分批模式分离、电场悬浮、合适的核酸测序方法和/或核酸测序装置等及其组合。
270.在一些实施方案中,通过单引物延伸(例如,通过链置换聚合酶),将标识符、测序特异性索引/条形码和测序仪特异性流动池结合引物位点掺入核酸文库。
271.在一些实施方案中,在扩增条件下扩增核酸文库或其部分(例如,通过基于pcr的方法扩增)。在一些实施方案中,测序方法包括核酸文库的扩增。核酸文库可以在固相支持物(例如,流动池中的固相支持物)上固定之前或之后被扩增。核酸扩增包括通过产生模板和/或其互补物的一个或多个拷贝来扩增或增加存在(例如于核酸文库中)的核酸模板和/或其互补物的数目的过程。扩增可以通过合适的方法进行。核酸文库可以通过热循环方法或通过等温扩增方法进行扩增。在一些实施方案中,使用滚环扩增方法。在一些实施方案中,扩增发生在固相支持物上(例如,在流动池内),其中核酸文库或其部分被固定。在某些测序方法中,将核酸文库添加至流动池,并通过在合适的条件下与锚杂交来固定。这种类型的核酸扩增通常被称为固相扩增。在固相扩增的一些实施方案中,扩增产物的全部或部分通过从固定的引物开始的延伸来合成。除了至少一种扩增寡核苷酸(例如引物)被固定在固体支持物上,固相扩增反应类似于标准溶液相扩增。在一些实施方案中,经修饰的核酸(例
如,通过添加衔接子而被修饰的核酸)被扩增。
272.在一些实施方案中,固相扩增包括核酸扩增反应,该核酸扩增反应包括固定至表面的仅一个种类的寡核苷酸引物。在某些实施方案中,固相扩增包括多个不同的固定的寡核苷酸引物种类。在一些实施方案中,固相扩增可包括核酸扩增反应,该核酸扩增反应包括固定在固体表面的一个种类的寡核苷酸引物和在溶液中的第二不同的寡核苷酸引物。可以使用多种不同种类的固定的或基于溶液的引物。固相核酸扩增反应的非限制性实例包括界面扩增、桥式扩增、乳液pcr、wildfire扩增(例如,美国专利申请公布第2013/0012399号)等或其组合。
273.在一些实施方案中,核酸被差异扩增。差异扩增通常指第一核酸种类比第二核酸种类扩增的程度更高。例如,与第二核酸的扩增相比,第一核酸种类可以扩增至少约2倍、至少约3倍、至少约4倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍或更多倍。在一些实施方案中,第一核酸种类被指数扩增,且第二核酸种类被线性扩增。核酸种类可以指核酸的来源或起源。例如,来源可以是rna(例如单链rna)或dna(例如双链dna)。在一些实施方案中,第一种类或来源是rna。在一些实施方案中,第一种类或来源是dna。在一些实施方案中,第二种类或来源是rna。在一些实施方案中,第二种类或来源是dna。在一些实施方案中,第一种类或来源是rna,且第二种类或来源是dna。因此,在一些实施方案中,本文中的方法可以差异扩增源自rna来源的核酸和源自dna来源的核酸,其中源自rna来源的核酸与源自dna来源的核酸相比被扩增至更大程度。在一些实施方案中,通过本文所描述的方法产生的文库中的核酸被差异扩增。在一些实施方案中,通过图17所示的方法产生的文库中的核酸被差异扩增。在一些实施方案中,核酸文库包含源自rna来源的核酸和源自dna来源的核酸,其中两种类型的核酸分子在一个末端包含共同的引发位点,且在另一末端包含不同的引发位点。例如,两种类型的核酸分子可以在一个末端均具有引发位点a,源自rna来源的核酸可以在相对末端具有引发位点b,且源自dna来源的核酸可以在相对末端具有引发位点c。包含与a和b结合的引物而不包含与c结合的引物的扩增反应将导致源自rna来源的核酸的指数扩增和源自dna来源的核酸的线性扩增。
274.核酸测序
275.在一些实施方案中,核酸(例如,核酸片段、样品核酸、无细胞核酸、单链核酸、单链dna、单链rna)被测序。在一些实施方案中,通过测序方法对与本文提供的支架衔接子杂交的ssna(“杂交产物”)进行测序。在一些实施方案中,通过测序方法对与本文提供的寡核苷酸组分连接的ssna(“单链连接产物”)进行测序。在一些实施方案中,杂交产物和/或单链连接产物通过扩增方法进行扩增,并且扩增产物通过测序方法进行测序。在一些实施方案中,杂交产物和/或单链连接产物不通过扩增方法进行扩增,并且杂交产物和/或单链连接产物在没有预先扩增的情况下通过测序方法进行测序。在一些实施方案中,测序方法生成序列读段(或测序读段)。在一些实施方案中,本文中的方法包括基于序列读段确定单链核酸分子的序列。
276.对于某些测序平台(例如,配对末端测序),生成序列读段可包括生成正向序列读段和生成反向序列读段。例如,使用某些配对末端测序平台的测序从两个方向对每个核酸片段进行测序,通常导致每个核酸片段两个读段,第一读段在正向方向(正向读段),且第二读段在反向互补方向(反向读段)。对于某些平台,从测序衔接子内的特定引物(例如,
illumina衔接子,p5引物)生成正向读段,且从测序衔接子内的不同引物(例如,illumina衔接子,p7引物)生成反向读段。
277.可以使用任何合适的测序平台对核酸进行测序,包括sanger测序平台、高通量或大规模平行测序(下一代测序(ngs))平台等,诸如例如由以下提供的测序平台:(例如,hiseq
tm
、miseq
tm
和/或genome analyzer
tm
测序系统);oxford nanopore
tm
技术(例如minion测序系统)、ion torrent
tm
(例如ion pgm
tm
和/或ion proton
tm
测序系统);pacific biosciences(例如pacbio rs ii测序系统);life technologies
tm
(例如,solid测序系统);roche(例如454gs flx+和/或gs初级测序系统);或任何其他合适的测序平台。在一些实施方案中,测序方法是高度多重测序方法。在某些情况下,获得完整或基本完整的序列,且有时获得部分序列。核酸测序通常产生序列读段的集合。如本文所用的,“读段”(例如,“一个读段”、“序列读段”)是由本文所描述的或本领域已知的任何测序方法产生的核苷酸短序列。读段可以从核酸片段的一个末端生成(单末端读段),且有时从核酸片段的两个末端生成(例如,配对末端读段、双末端读段)。在一些实施方案中,测序方法生成短测序读段或“短读段”。在一些实施方案中,短读段的标称、平均、均值或绝对长度有时为约10个连续核苷酸至约250个或更多个连续核苷酸。在一些实施方案中,短读段的标称、平均、均值或绝对长度有时为约50个连续核苷酸至约150个或更多个连续核苷酸。
278.序列读段的长度通常与所用的特定测序技术相关。例如,高通量方法提供的序列读段的大小可以从几十至几百个碱基对(bp)不等。例如,纳米孔测序可以提供的序列读段的大小可以从几十至几百至几千个碱基对不等。在一些实施方案中,序列读段的均值、中值、平均或绝对长度为约15bp至约900bp长。在某些实施方案中,序列读段的均值、中值、平均或绝对长度为约1000bp或更长。在一些实施方案中,序列读段的均值、中值、平均或绝对长度为约1500bp、约2000bp、约2500bp、约3000bp、约3500bp、约4000bp、约4500bp或约5000bp或更长。在一些实施方案中,序列读段的均值、中值、平均或绝对长度为约100bp至约200bp。
279.在一些实施方案中,单末端读段的标称、平均、均值或绝对长度有时为约10个连续核苷酸至约250个或更多个连续核苷酸、约15个连续核苷酸至约200个或更多个连续核苷酸、约15个连续核苷酸至约150个或更多个连续核苷酸、约15个连续核苷酸至约125个或更多个连续核苷酸、约15个连续核苷酸至约100个或更多个连续核苷酸、约15个连续核苷酸至约75个或更多个连续核苷酸、约15个连续核苷酸至约60个或更多个连续核苷酸、15个连续核苷酸至约50个或更多个连续核苷酸、约15个连续核苷酸至约40个或更多个连续核苷酸,且有时为约15个连续核苷酸或约36个或更多个连续核苷酸。在某些实施方案中,单末端读段的标称、平均、均值或绝对长度为约20至约30个碱基长或约24至约28个碱基长。在某些实施方案中,单末端读段的标称、平均、均值或绝对长度为约1个、约2个、约3个、约4个、约5个、约6个、约7个、约8个、约9个、约10个、约11个、约12个、约13个、约14个、约15个、约16个、约17个、约18个、约19个、约21个、约22个、约23个、约24个、约25个、约26个、约27个、约28个或约29个碱基长或更长。在某些实施方案中,单末端读段的标称、平均、均值或绝对长度为约20至约200个碱基长、约100至约200个碱基长或约140至约160个碱基长。在某些实施方案中,单末端读段的标称、平均、均值或绝对长度为约30个、约40个、约50个、约60个、约70个、约80个、约90个、约100个、约110个、约120个、约130个、约140个、约150个、约160个、约170个、约
180个、约190个或约200个碱基长或更长。在某些实施方案中,配对末端读段的标称、平均、均值或绝对长度有时为约10个连续核苷酸至约25个连续核苷酸或更长(例如,长度为约10个、约11个、约12个、约13个、约14个、约15个、约16个、约17个、约18个、约19个、约20个、约21个、约22个、约23个、约24个或约25个核苷酸或更长)、约15个连续核苷酸至约20个连续核苷酸或更长,且有时为约17个连续核苷酸或约18个连续核苷酸。在某些实施方案中,配对末端读段的标称、平均、均值或绝对长度有时为约25个连续核苷酸至约400个连续核苷酸或更长(例如,长度为约25个、约30个、约40个、约50个、约60个、约70个、约80个、约90个、约100个、约110个、约120个、约130个、约140个、约150个、约160个、约170个、约180个、约190个、约200个、约210个、约220个、约230个、约240个、约250个、约260个、约270个、约280个、约290个、约300个、约310个、约320个、约330个、约340个、约350个、约360个、约370个、约380个、约390个或约400个核苷酸或更长)、约50个连续核苷酸至约350个连续核苷酸或更长、约100个连续核苷酸至约325个连续核苷酸、约150个连续核苷酸至约325个连续核苷酸、约200个连续核苷酸至约325个连续核苷酸、约275个连续核苷酸至约310个连续核苷酸、约100个连续核苷酸至约200个连续核苷酸、约100个连续核苷酸至约175个连续核苷酸、约125个连续核苷酸至约175个连续核苷酸,且有时为约140个连续核苷酸至约160个连续核苷酸。在某些实施方案中,配对末端读段的标称、平均、均值或绝对长度为约150个连续核苷酸且有时为150个连续核苷酸。
280.读段通常代表物理核酸中的核苷酸序列。例如,在含有序列atgc描述的读段中,“a”代表物理核酸中的腺嘌呤核苷酸、“t”代表物理核酸中的胸腺嘧啶核苷酸、“g”代表物理核酸中的鸟嘌呤核苷酸且“c”代表物理核酸中的胞嘧啶核苷酸。获自受试者样品的序列读段可以是来自少数核酸和多数核酸的混合物的读段。例如,获自癌症患者血液的序列读段可以是来自癌症核酸和非癌症核酸的混合物的读段。在另一实例中,从妊娠雌性的血液获得的序列读段可以是来自胎儿核酸和母体核酸的混合物的读段。在另一实例中,从患有感染或传染性疾病的患者的血液获得的序列读段可以是来自宿主核酸和病原体核酸的混合物的读段。在另一实例中,从移植物接受者的血液获得的序列读段可以是来自宿主核酸和移植物核酸的混合物的读段。在另一实例中,从样品获得的序列读段可以是来自微生物核酸的混合物的读段,所述微生物核酸共同构成受试者中的微生物组(例如,肠道微生物组、血液微生物组、口腔微生物组、脊髓液微生物组、粪便微生物组)。在另一实例中,从样品获得的序列读段可以是来自微生物核酸与宿主受试者核酸的混合物的读段,所述微生物核酸共同构成微生物组(例如,肠道微生物组、血液微生物组、口腔微生物组、脊髓液微生物组、粪便微生物组)。相对短的读段的混合物可以通过本文所描述的方法转化为受试者中存在的基因组核酸的代表,和/或肿瘤、胎儿、病原体、移植物或微生物组中存在的基因组核酸的代表。
281.在某些实施方案中,从受试者“获得”样品的核酸序列读段和/或从一个或更多个参照人“获得”生物样本的核酸序列读段可以包括直接对核酸进行测序以获得序列信息。在一些实施方案中,“获得”可以包括接收由另一个核酸直接获得的序列信息。
282.在一些实施方案中,样品中的一些或所有核酸在测序之前或期间被富集和/或扩增(例如,非特异性地,例如,通过基于pcr的方法)。在某些实施方案中,样品中的特定核酸种类或子集在测序之前或期间被富集和/或扩增。在一些实施方案中,预先选择的核酸汇集
物的种类或子集被随机测序。在一些实施方案中,样品中的核酸在测序之前或期间不被富集和/或扩增。
283.在一些实施方案中,基因组的代表性部分被测序,并有时被称为“覆盖率(coverage)”或“倍数覆盖率(fold coverage)”。例如,1倍覆盖率表示大约100%的基因组核苷酸序列由读段代表。在一些情况下,倍数覆盖率被称为“测序深度”(并比其成正比)。在一些实施方案中,“倍数覆盖率”是涉及先前的测序运行作为参考的相对术语。例如,第二测序运行可具有比第一测序运行低2倍的覆盖率。在一些实施方案中,基因组被冗余测序,其中基因组的给定区域可以被两个或更多个读段或重叠读段覆盖(例如,大于1的“倍数覆盖率”,例如,2倍覆盖率)。在一些实施方案中,基因组(例如,全基因组)以约0.01倍至约100倍的覆盖率、约0.1倍至约20倍的覆盖率或者约0.1倍至约1倍的覆盖率(例如,约0.015倍、约0.02倍、约0.03倍、约0.04倍、约0.05倍、约0.06倍、约0.07倍、约0.08倍、约0.09倍、约0.1倍、约0.2倍、约0.3倍、约0.4倍、约0.5倍、约0.6倍、约0.7倍、约0.8倍、约0.9倍、约1倍、约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍、约15倍、约20倍、约30倍、约40倍、约50倍、约60倍、约70倍、约80倍、约90倍或更高的覆盖率)被测序。在一些实施方案中,基因组的特定部分(例如,来自靶向方法的基因组部分)被测序,并且倍数覆盖率值通常指被测序的特定基因组部分的分数(即,倍数覆盖率值不指全基因组)。在一些情况下,特定基因组部分以1000倍或更高的覆盖率被测序。例如,特定基因组部分可以以2000倍、5,000倍、10,000倍、20,000倍、30,000倍、40,000倍或50,000倍的覆盖率被测序。在一些实施方案中,测序覆盖率为约1,000倍至约100,000倍。在一些实施方案中,测序覆盖率为约10,000倍至约70,000倍。在一些实施方案中,测序覆盖率为约20,000倍至约60,000倍。在一些实施方案中,测序覆盖率为约30,000倍至约50,000倍。
284.在一些实施方案中,来自一个个体的一个核酸样品被测序。在某些实施方案中,来自两个或更多个样品的每一个的核酸被测序,其中样品来自一个个体或来自不同的个体。在某些实施方案中,汇集来自两个或更多个生物样品的核酸样品,其中每个生物样品来自一个个体或两个或更多个个体,并且汇集物被测序。在随后的实施方案中,来自每个生物样品的核酸样品通常通过一个或更多个独特的标识符来鉴定。
285.在一些实施方案中,测序方法使用标识符,其允许在测序过程中使序列反应多重化。独特标识符的数目越大,用于检测的例如可以在测序过程中被多重化的样品和/或染色体的数目就越大。可以使用任何合适数目的独特标识符(例如,4种、8种、12种、24种、48种、96种或更多种)进行测序过程。
286.测序过程有时利用固相,并且有时固相包括流动池,来自文库的核酸可以附接至流动池上,并且试剂可以流动并与附接的核酸接触。流动池有时包括流动池泳道(lane),并且使用标识符可以便于分析每个泳道中的许多样品。流动池通常是固体支持物,其可以被配置为保持和/或允许试剂溶液在结合的分析物上有序通过。流动池通常为平面形状,光学透明,通常为毫米或亚毫米级,并且通常具有通道或泳道,分析物/试剂相互作用在所述通道或泳道中发生。在一些实施方案中,在给定的流动池泳道中分析的样品数目取决于在文库制备和/或探针设计期间使用的独特标识符的数目。例如,使用12种标识符的多重化允许在8泳道流动池中同时分析96个样品(例如,等于96孔微孔板中的孔数)。类似地,使用48种标识符的多重化允许在8泳道流动池中同时分析384个样品(例如,等于384孔微孔板中的孔
数)。市售可得的多重化测序试剂盒的非限制性实例包括illumina的多重化样品制备寡核苷酸试剂盒和多重化测序引物和phix对照试剂盒(例如,illumina的目录号分别为pe-400-1001和pe-400-1002)。
287.可以使用任何合适的核酸测序方法,其非限制性实例包括maxim&gilbert、链终止法、合成测序、连接测序、质谱法测序、基于显微术的技术等或其组合。在一些实施方案中,本文提供的方法中可以使用第一代技术,诸如例如sanger测序方法,包括自动化sanger测序方法,包括微流控sanger测序。在一些实施方案中,可以使用包括使用核酸成像技术(例如,透射电子显微术(tem)和原子力显微术(afm))的测序技术。在一些实施方案中,使用高通量测序方法。高通量测序方法通常包括克隆扩增的dna模板或单个dna分子,其以大规模平行方式,有时在流动池内被测序。能够以大规模平行方式对dna进行测序的下一代(例如,第二代和第三代)测序技术可以用于本文所描述的方法,并且在本文中统称为“大规模平行测序”(mps)。在一些实施方案中,mps测序方法使用靶向方法,其中特定的染色体、基因或感兴趣的区域被测序。在某些实施方案中,使用非靶向方法,其中样品中的多数或所有核酸被随机测序、扩增和/或捕获。
288.在一些实施方案中,使用靶向富集、扩增和/或测序方法。靶向方法通常分离、选择和/或富集样品中的核酸子集,以用于通过使用序列特异性寡核苷酸的进一步处理。在一些实施方案中,使用序列特异性寡核苷酸文库来靶向样品中的核酸的一个或多个子集(例如,与其杂交)。序列特异性寡核苷酸和/或引物通常对一个或多个染色体、基因、外显子、内含子和/或感兴趣的调控区域中存在的特定序列(例如,独特的核酸序列)是选择性的。任何合适的方法或方法组合都可以用于靶核酸的一个或多个子集的富集、扩增和/或测序。在一些实施方案中,靶序列通过使用一个或多个序列特异性锚捕获至固相(例如,流动池、珠)被分离和/或富集。在一些实施方案中,使用序列特异性引物和/或引物组,通过基于聚合酶的方法(例如,基于pcr的方法,通过任何合适的基于聚合酶的延伸)富集和/或扩增靶序列。序列特异性锚通常可以被用作序列特异性引物。
289.mps测序有时利用合成测序和某些成像方法。可用于本文所描述的方法中的核酸测序技术是合成测序和基于可逆终止子的测序(例如,illumina的基因组分析仪;基因组分析仪ii;hiseq 2000;hiseq 2500(illumina,san diego ca))。利用这种技术,数百万个核酸(例如,dna)片段可以被平行测序。在这种类型的测序技术的一个实例中,使用包含光学透明载玻片的流动池,该载玻片具有8个个体泳道,其表面结合有寡核苷酸锚(例如,衔接子引物)。
290.合成测序通常通过以模板指导的方式向引物或预先存在的核酸链中反复添加(例如通过共价添加)核苷酸来进行。每个反复添加的核苷酸被检测,并将该过程重复多次,直到获得核酸链的序列。获得的序列的长度部分取决于所进行的添加和检测步骤的数目。在合成测序的一些实施方案中,在一轮核苷酸添加中,添加并检测一个、两个、三个或更多个相同类型的核苷酸(例如,a、g、c或t)。核苷酸可以通过任何合适的方法添加(例如,酶促法或化学法)。例如,在一些实施方案中,聚合酶或连接酶以模板指导的方式将核苷酸添加至引物或预先存在的核酸链。在合成测序的一些实施方案中,使用不同类型的核苷酸、核苷酸类似物和/或标识符。在一些实施方案中,使用可逆终止子和/或可去除的(例如,可裂解的)标识符。在一些实施方案中,使用荧光标记的核苷酸和/或核苷酸类似物。在某些实施方案
中,合成测序包括裂解(例如裂解和去除标识符)和/或洗涤步骤。在一些实施方案中,通过本文所描述的或本领域已知的合适方法检测一个或多个核苷酸的添加,所述方法的非限制性实例包括任何合适的成像装置、合适的相机、数字相机、基于ccd(电荷耦合器件)的成像装置(例如ccd相机)、基于cmos(互补金属氧化物硅)的成像装置(例如cmos相机)、光电二极管(例如光电倍增管)、电子显微术、场效应晶体管(例如dna场效应晶体管)、isfet离子传感器(例如,chemfet传感器)等或其组合。
291.用于进行本文所描述的方法的任何合适的mps方法、系统或技术平台可用于获得核酸序列读段。mps平台的非限制性实例包括illumina/solex/hiseq(例如,illumina的基因组分析仪;基因组分析仪ii;hiseq 2000;hiseq)、solid、roche/454、pacbio和/或smrt、helicos真单分子测序、基于离子激流和离子半导体的测序(例如,由life technologies开发的)、wildfire、基于5500、5500xl w和/或5500xl w基因分析仪的技术(例如,由life technologies开发和销售的,美国专利申请公布第2013/0012399号);polony测序、焦磷酸测序、大规模平行签名测序(mpss)、rna聚合酶(rnap)测序、lasergen系统和方法、基于纳米孔的平台、化学敏感场效应晶体管(chemfet)阵列、基于电子显微术的测序(例如,由zs genetics,halcyon molecular开发的)、纳米球测序等或其组合。可用于进行本文中的方法的其他测序方法包括数字pcr、杂交测序、纳米孔测序、染色体特异性测序(例如,使用dansr(选定区域的数字分析)技术。
292.在一些实施方案中,对核酸进行测序,并在分析测序的核酸之前或与分析测序的核酸联合地对测序产物(例如,序列读段的集合)进行处理。例如,序列读段可以根据以下一种或多种方法处理:比对、映射、过滤、计数、归一化、加权、生成谱图等,以及其组合。某些处理步骤可以以任何顺序进行,并且某些处理步骤可以被重复。
293.本公开内容的方法可用于降低测序错误率。在一些实施方案中,在初始变性之前,可以用条形码标记双链分子,使得在随后的变性、单链文库制备和测序之后,来自最初配对在一起的核酸分子的序列可以被关联。在一些实施方案中,在支架衔接子的初始连接后,使用索引引物汇集物进行索引pcr,使得生成原始样品核酸分子和来自初始pcr第一链合成的核酸的拷贝,它们都包含相同的条形码或umi(或其互补序列)。通过这些或其他将最初杂交的链(并因此具有互补序列)相关联的手段,两条链的测序读段信息可以被比较,并用于降低测序错误率。
294.映射读段
295.可以对序列读段进行映射,并且映射至特定核酸区域(例如,染色体或其部分)的读段的数目称为计数。可以使用任何合适的映射方法(例如,过程、算法、程序、软件、模块等或其组合)。映射过程的某些方面将在下文描述。
296.核苷酸序列读段映射(即,来自其物理基因组位置未知的片段的序列信息)可以以许多方式进行,并且通常包括将获得的序列读段与参考基因组中的匹配序列进行比对。在这样的比对中,通常将序列读段与参考序列进行比对,并且比对上的读段被称为“映射的”、“映射的序列读段”或“映射的读段”。在某些实施方案中,映射的序列读段被称为“击中”或“计数”。在一些实施方案中,根据多种参数将映射的序列读段分组在一起,并分配至特定的基因组部分,这将在下面进一步详细讨论。
297.术语“比对(aligned)”、“比对(alignment)”或“比对(aligning)”通常指可以被鉴
定为匹配(例如100%同一性)或部分匹配的两个或更多个核酸序列。可以手动或通过计算机(例如,软件、程序、模块或算法)进行比对,其非限制性实例包括作为illumina genomics分析流水线的一部分分发的核苷酸数据高效局部比对(eland)计算机程序。序列读段比对可以是100%序列匹配。在一些情况下,比对为小于100%序列匹配(即,非完全匹配、部分匹配、部分比对)。在一些实施方案中,比对为约99%、约98%、约97%、约96%、约95%、约94%、约93%、约92%、约91%、约90%、约89%、约88%、约87%、约86%、约85%、约84%、约83%、约82%、约81%、约80%、约79%、约78%、约77%、约76%或约75%匹配。在一些实施方案中,比对包括错配。在一些实施方案中,比对包含1、2、3、4或5个错配。可以使用任一条链(例如,有义链或反义链)比对两个或更多个序列。在某些实施方案中,将核酸序列与另一核酸序列的反向互补物比对。
298.可以使用多种计算方法将每个序列读段映射至一个部分。可用于比对序列的计算机算法的非限制性实例包括但不限于blast、blitz、fasta、bowtie 1、bowtie 2、eland、maq、probematch、soap、bwa或seqmap,或其变化形式或其组合。在一些实施方案中,可以将序列读段与参考基因组中的序列进行比对。在一些实施方案中,可以在本领域已知的核酸数据库中找到序列读段和/或将其与本领域已知的核酸数据库中的序列进行比对,所述核酸数据库包括例如genbank、dbest、dbsts、embl(欧洲分子生物学实验室)和ddbj(日本dna数据库)。blast或类似工具可用于针对序列数据库搜索已鉴定的序列。例如,搜索击中然后可用于将所鉴定的序列分类为适当的部分(如下文所描述的)。
299.在一些实施方案中,读段可以唯一或非唯一地映射到参考基因组中的部分。如果一个读段与参考基因组中的单个序列比对上,则其被认为是“唯一映射的”。如果一个读段与参考基因组中的两个或更多个序列比对上,则其被认为是“非唯一映射的”。在一些实施方案中,将非唯一映射的读段从进一步分析(例如定量)中剔除。在某些实施方案中,可以允许特定小程度的错配(0-1),以解释可能存在于参考基因组和来自个体样品的被映射的读段之间的单核苷酸多态性。在一些实施方案中,对于映射至参考序列的读段,不允许任何程度的错配。
300.如本文所用的,术语“参考基因组”可以指任何生物体或病毒的任何特定的已知的、测序的或表征的基因组,无论是部分的还是完整的,其可以用于作为来自受试者的已鉴定序列的参考。例如,用于人类受试者以及许多其他生物体的参考基因组可以在万维网url ncbi.nlm.nih.gov国家生物技术信息中心找到。“基因组”是指以核酸序列形式表示的生物体或病毒的完整遗传信息。如本文所用的,参考序列或参考基因组通常是来自一个个体或多个个体的组装或部分组装的基因组序列。在一些实施方案中,参考基因组是来自一个或多个人类个体的组装或部分组装的基因组序列。在一些实施方案中,参考基因组包括分配至染色体的序列。
301.在某些实施方案中,评估基因组区域(例如,部分,基因组部分)的可映射性。可映射性是将核苷酸序列读段与参考基因组的部分进行明确比对的能力,通常最多存在指定数目的错配,包括例如0、1、2或更多错配。对于给定的基因组区域,可以使用预设读段长度的滑动窗口方法并对所得的读段水平可映射性值进行平均来评估预期的可映射性。包含独特核苷酸序列片段的基因组区域有时具有高的可映射性值。
302.对于配对末端测序,可通过使用合适的映射和/或比对程序或算法将读段映射至
参考基因组,所述映射和/或比对程序或算法的非限制性实例包括bwa bwa(li h.和durbin r.(2009)bioinformatics 25,1754
–
60)、novoalign[novocraft(2010)]、bowtie(langmead b等人,(2009)genome biol.10:r25)、soap2(li r等人,(2009)bioinformatics 25,1966
–
67)、bfast(homer n等人,(2009)plos one 4,e7767)、gassst(rizk,g.和lavenier,d.(2010)bioinformatics 26,2534
–
2540)和mpscan(rivals e.等人(2009)lecture notes in computer science 5724,246
–
260)等。可以通过使用合适的修整和/或合并程序或算法来修整和/或合并读段,其非限制性实例包括cutadapt、trimmomatic、seqprep和usearch。一些配对末端读段,诸如来自核酸模板的比测序读段长度短的那些,可以具有通过正向读取和反向读取两者测序的部分;在这种情况下,可以利用正向读段和反向读段之间的重叠部分,将正向读段和反向读段合并成单个读段。不重叠或重叠不充分的读段可以保持不合并,并作为配对读段被映射。可以使用合适的短读段比对程序或算法来对配对末端读段进行映射和/或比对。短读段比对程序的非限制性实例包括barracuda、bfast、blastn、blat、bowtie、bwa、cashx、cuda-ec、cushaw、cushaw2、drfast、eland、erne、gnumap、gem、gensearchngs、gmap、geneious assembler、isaac、last、maq、mrfast、mrsfast、mosaik、mpscan、novoalign、novoaligncs、novocraft、nextgene、omixon、palmapper、partek、pass、perm、qpalma、razers、real、creal、rmap、rna、rtg、segemehl、seqmap、shrec、shrimp、slider、soap、soap2、soap3、socs、ssaha、ssaha2、stampy、storm、subread、subjunc、taipan、ugene、velocimapper、timelogic、xpressalign、zoom等或其组合。根据参考基因组,配对末端读段通常被映射到同一多核苷酸片段的相对末端。在一些实施方案中,独立地映射读段配对物。在一些实施方案中,来自两个序列读段(即,来自每个末端)的信息在映射过程中被考虑。参考基因组通常用于确定和/或推断位于配对末端读段配对物之间的核酸序列。如本文所用的术语“不协调的读段对”是指包含一对读段配对物的配对末端读段,其中一个或两个读段配对物不能明确映射至部分地通过连续核苷酸区段界定的参考基因组的相同区域。在一些实施方案中,不协调的读段对是映射至参考基因组的意想不到的位置的配对末端读段配对物。参考基因组的意想不到的位置的非限制性实例包括(i)两个不同的染色体、(ii)相隔超过预定片段大小(例如,超过300bp、超过500bp、超过1000bp、超过5000bp或超过10,000bp)的位置、(iii)与参考序列不一致的方向(例如,相对的方向),等等或其组合。在一些实施方案中,根据样品中模板多核苷酸片段的长度(例如,平均长度、预定片段大小)或预期长度来鉴定不协调的读段配对物。例如,映射至相隔超过样品中多核苷酸片段的平均长度或预期长度的位置的读段配对物有时被鉴定为不协调的读段对。以相对方向映射的读段对有时是通过取其中一个读段的反向互补物并使用参考序列的相同链比较两个读段的比对来确定的。可以通过本领域已知的或本文描述的任何合适的方法和/或算法(例如,svdetect、lumpy、breakdancer、breakdancermax、crest、delly等或其组合)来鉴定不协调的读段对。
[0303]
序列读段定量
[0304]
基于所选特征或变量映射或分区的序列读段可以被定量,以确定映射到一个或多个部分(例如,参考基因组的部分)的读段的量或数目。在某些实施方案中,被映射到部分或区段的序列读段的数量被称为计数或读段密度。
[0305]
计数通常与基因组部分相关联。在一些实施方案中,从映射到(即,关联到)部分的
一些或所有序列读段确定计数。在某些实施方案中,从映射到一组部分(例如,区段或区域中的部分)的一些或所有序列读段确定计数。
[0306]
可以通过合适的方法、操作或数学过程来确定计数。计数有时是映射至对应于区段的基因组部分或一组基因组部分、对应于基因组子区域(例如,拷贝数变异区、拷贝数改变区、拷贝数复制区、拷贝数缺失区、微复制区、微缺失区、染色体区、常染色体区、性染色体区)的一组部分和/或有时是对应于基因组的一组部分的所有序列读段的直接总和。读段定量有时是比率,且有时是区域a中部分的定量与区域b中部分的定量的比率。区域a有时是一个部分、区段区域、拷贝数变异区、拷贝数改变区、拷贝数复制区、拷贝数缺失区、微复制区、微缺失区、染色体区、常染色体区和/或性染色体区。区域b有时独立地是一个部分、区段区域、拷贝数变异区、拷贝数改变区、拷贝数复制区、拷贝数缺失区、微复制区、微缺失区、染色体区、常染色体区、性染色体区、包括所有常染色体的区域、包括性染色体的区域和/或包括所有染色体的区域。
[0307]
在一些实施方案中,计数源自原始序列读段和/或经过滤的序列读段。在某些实施方案中,计数是映射至基因组部分或一组基因组部分(例如,区域中的基因组部分)的序列读段的平均值、均值或总和。在一些实施方案中,计数与不确定性值相关联。计数有时会被调整。计数可以根据与基因组部分或一组部分相关联的已经被加权、去除、过滤、归一化、调整、平均、作为均值导出、作为中值导出、相加或其组合的序列读段来调整。
[0308]
序列读段定量有时是读段密度。可以确定和/或生成基因组的一个或多个区段的读段密度。在某些情况下,可以确定和/或生成一个或多个染色体的读段密度。在一些实施方案中,读段密度包括映射至参考基因组的区段或部分的序列读段计数的定量度量。可以通过合适的方法来确定读段密度。在一些实施方案中,读段密度通过合适的分布和/或合适的分布函数来确定。分布函数的非限制性实例包括概率函数、概率分布函数、概率密度函数(pdf)、核密度函数(核密度估计)、累积分布函数、概率质量函数、离散概率分布、绝对连续单变量分布等、任何合适的分布或其组合。读段密度可以是从合适的概率密度函数导出的密度估计。密度估计是基于观测数据对潜在概率密度函数的估计的构建。在一些实施方案中,读段密度包括密度估计(例如,概率密度估计、核密度估计)。可以根据包括生成基因组的一个或多个部分的每一个的密度估计的过程来生成读段密度,其中每个部分包括序列读段的计数。可以生成映射至部分或区段的归一化和/或加权计数的读段密度。在一些情况下,映射至部分或区段的每个读段可对读段密度(等于从本文描述的归一化过程获得的其权重的值(例如,计数))作出贡献。在一些实施方案中,一个或多个部分或区段的读段密度被调整。可以通过合适的方法调整读段密度。例如,一个或多个部分的读段密度可以被加权和/或归一化。
[0309]
针对给定部分或区段定量的读段可以来自一个来源或不同来源。在一个实例中,可以从来自患有癌症或怀疑患有癌症的受试者的核酸中获得读段。在这种情况下,映射至一个或多个部分的读段通常是代表健康细胞(即非癌细胞)和癌细胞(例如肿瘤细胞)两者的读段。在某些实施方案中,映射至部分的一些读段来自癌细胞核酸,且映射至同一部分的一些读段来自非癌细胞核酸。在另一实例中,读段可以从孕育胎儿的妊娠雌性的核酸样品中获得。在这种情况下,映射至一个或多个部分的读段通常是代表胎儿和胎儿母亲(例如,妊娠雌性受试者)的读段。在某些实施方案中,映射至部分的一些读段来自胎儿基因组,且
映射至同一部分的一些读段来自母体基因组。
[0310]
分类及其用途
[0311]
本文描述的方法可以提供指示上述样品或来源的一个或多个特征的结果。本文描述的方法有时提供指示测试样品的表型和/或医学状况存在或不存在的结果(例如,提供决定医学状况和/或表型存在或不存在的结果)。结果通常是分类过程的部分,并且分类(例如,样品或来源的一个或多个特征的分类;和/或测试样品的基因型、表型、遗传变异和/或医学状况的存在或不存在)有时基于和/或包括结果。结果和/或分类有时基于和/或包括测试样品的数据处理结果,其有助于在分类过程中确定样品或来源的一个或多个特征和/或基因型、表型、遗传变异、遗传改变和/或医学状况的存在或不存在(例如统计值)。结果和/或分类有时包括或基于决定样品或来源的一个或多个特征和/或基因型、表型、遗传变异、遗传改变和/或医学状况的存在或不存在的评分或者样品或来源的一个或多个特征和/或基因型、表型、遗传变异、遗传改变和/或医学状况的存在或不存在的调用。在某些实施方案中,结果和/或分类包括预测和/或确定样品或来源的一个或多个特征和/或分类过程中基因型、表型、遗传变异、遗传改变和/或医学状况的存在或不存在的结论。
[0312]
可以提供结果和/或分类的任何合适的表示。结果和/或分类有时基于和/或包括一个或多个数值,该一个或多个数值是使用本文描述的处理方法在一个或多个概率考虑的背景下生成的。可以使用的值的非限制性实例包括灵敏度、特异性、标准偏差、中值绝对偏差(mad)、确定性的度量、置信度的度量、针对测试样品获得的值在特定值范围之内或之外的确定性或置信度的度量、不确定性的度量、针对测试样品获得的值在特定值范围之内或之外的不确定性的度量、变异系数(cv)、置信水平、置信区间(例如,约95%置信区间)、标准评分(例如z评分)、χ值、值、t检验结果、p值、倍性值、拟合的少数物种分数、面积比、中值水平等或其组合。在一些实施方案中,结果和/或分类包括读段密度、读段密度分布和/或图(例如,分布图)。在某些实施方案中,多个值被一起分析,有时在这些值的分布(例如,z评分分布、p值分布、χ值分布、值分布、t检验结果、值分布等,或其组合)方面被一起分析。对概率的考虑可以有助于确定样品或来源的一个或多个特征和/或受试者是否处于具有或已经具有基因型、表型、遗传变异和/或医学状况的风险中,并且决定前述的结果和/或分类有时包括这种考虑。
[0313]
在某些实施方案中,结果和/或分类基于和/或包括预测和/或确定测试样品基因型、表型、遗传变异和/或医学状况的存在或不存在的风险或概率的结论。结论有时基于由本文所描述的数据分析方法确定的值(例如,指示概率、确定性和/或不确定性的统计值(例如,标准偏差、中值绝对偏差(mad)、确定性的度量、置信度的度量、针对测试样品获得的值在特定值范围之内或之外的确定性或置信度的度量、不确定性的度量,针对测试样品获得的值在特定值范围之内或之外的不确定性的度量、变异系数(cv)、置信水平、置信区间(例如,约95%置信区间)、标准评分(例如,z评分)、χ值、值、t检验结果、p值、灵敏度、特异性等或其组合)。结果和/或分类有时在针对特定测试样品的实验室测试报告中表示为与基因型、表型、遗传变异和/或医学状况的存在或不存在相关的概率(例如,比值比、p值)、似然性或风险因素。测试样品的结果和/或分类有时被提供为对于特定基因型、表型、遗传变异和/或医学状况是“阳性”或“阴性”的。例如,结果和/或分类有时在特定测试样品的实验室测试报告中被指定为“阳性”,其中确定存在基因型、表型、遗传变异和/或医学状况,且有时结果
和/或分类在特定测试样品的实验室测试报告中被指定为“阴性”,其中确定不存在基因型、表型、遗传变异和/或医学状况。结果和/或分类有时是确定的,且有时包括数据处理中使用的假定。
[0314]
在分类过程中通常生成四种类型的分类:真阳性、假阳性、真阴性和假阴性。如本文所用的术语“真阳性”是指正确确定的测试样品的基因型、表型、遗传变异或医学状况的存在。如本文所用的术语“假阳性”是指错误确定的测试样品的基因型、表型、遗传变异或医学状况的存在。如本文所用的术语“真阴性”是指正确确定的测试样品的基因型、表型、遗传变异或医学状况的不存在。如本文所用的术语“假阴性”是指错误确定的测试样品的基因型、表型、遗传变异或医学状况的不存在。基于这些事件的比率,可以计算分类过程的两种性能度量:(i)灵敏度值,其通常是预测阳性中被正确鉴定为阳性的比例;和(ii)特异性值,其通常是正确鉴定为阴性的预测阴性的比例。
[0315]
在某些实施方案中,针对分类过程生成的实验室测试报告包括测试性能的度量(例如,灵敏度和/或特异性)和/或置信度的度量(例如,置信水平、置信区间)。测试性能和/或置信度的度量有时从在对测试样品进行实验室测试之前进行的临床验证研究中获得。在某些实施方案中,灵敏度、特异性和/或置信度中的一个或多个被表示为百分数。在一些实施方案中,针对灵敏度、特异性或置信水平中的每一个独立地表示的百分数大于约90%(例如,约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%或约99%,或大于99%(例如,约99.5%或更大、约99.9%或更大、约99.95%或更大、约99.99%或更大))。针对特定置信水平(例如,约90%至约99.9%(例如,约95%)的置信水平)表示的置信区间可被表示为值的范围,并且有时被表示为特定置信水平的灵敏度和/或特异性的范围。在一些实施方案中,变异系数(cv)被表示为百分数,且有时该百分数为约10%或更小(例如,约10%、约9%、约8%、约7%、约6%、约5%、约4%、约3%、约2%或约1%,或小于1%(例如,约0.5%或更小、约0.1%或更小、约0.05%或更小、约0.01%或更小))。在某些实施方案中,概率(例如,特定结果和/或分类不是由于偶然的概率)被表示为标准评分(例如,z评分)、p值或t检验的结果。在一些实施方案中,结果和/或分类的测量方差、置信水平、置信区间、灵敏度、特异性等(例如,统称为置信参数)可以使用本文描述的一个或多个数据处理操作来生成。
[0316]
测试样品的结果和/或分类通常由医疗保健专业人员或其他有资格的个体(例如,医师或助手)订购并通常提供给他们,他们将结果和/或分类传输至从其获得测试样品的受试者。在某些实施方案中,使用合适的视觉介质(例如,机器的外围设备或组件,例如,打印机或显示器)来提供结果和/或分类。分类和/或结果通常以报告的形式提供给医疗保健专业人员或有资格的个体。报告通常包括结果和/或分类的显示(例如,值、样品或来源的一个或多个特征,或者基因型、表型、遗传变异和/或医学状况的存在或不存在的评估或概率),有时包括相关的置信参数,并且有时包括用于生成结果和/或分类的测试的性能度量。报告有时包括后续程序(例如,确认结果或分类的程序)的建议。报告有时包括染色体或其部分的可视化表示(例如,染色体表意图或核型图),并且有时显示所鉴定的测试样品的染色体的复制和/或缺失区域的可视化(例如,染色体缺失或复制的整个染色体的可视化;显示具有缺失区域或复制区域的整个染色体的可视化;染色体复制或缺失部分的可视化;在染色体的部分缺失的情况下保留的染色体的部分的可视化)。
[0317]
报告可以以合适的格式显示,其便于健康专业人员或其他有资格的个体确定基因型、表型、遗传变异和/或医学状况的存在或不存在。适合用于生成报告的格式的非限制性实例包括数字数据、图、2d图、3d图和4d图、图片(例如jpg、位图(例如bmp)、pdf、tiff、gif、raw、png等或合适的格式)、象形图、图表、表、条形图、饼图、示意图、流程图、散点图、地图、直方图、密度图、函数图、线路图、框图、气泡图、星座图、等高线图、统计图、蜘蛛图、文氏图、诺模图等,或前述的组合。
[0318]
报告可以由计算机和/或人工数据录入来生成,并且可以使用合适的电子介质(例如,经由互联网、经由计算机、经由传真,从一个网络位置到相同或不同物理站点的另一个位置),或者通过发送或接收数据的另一种方法(例如,邮件服务、快递服务等)来传输和通讯。用于传输报告的通讯介质的非限制性实例包括听觉文件、计算机可读文件(例如,pdf文件)、纸质文件、实验室文件、医疗记录文件或前段中描述的任何其他介质。在某些实施方案中,实验室文件或医疗记录文件可以呈有形形式或电子形式(例如,计算机可读形式)。在生成并传输报告后,可以通过经由合适的通讯介质获得包括结果和/或分类的书面和/或图形表示来接收报告,该报告在研读后允许医疗保健专业人员或其他有资格的个体做出关于样品或来源的一个或多个特征,或者测试样品的基因型、表型、遗传变异和/或医学状况的存在或不存在的确定。
[0319]
结果和/或分类可以由实验室提供并从实验室获得(例如,从实验室文件获得)。实验室文件可以由实验室生成,该实验室实施一个或多个测试以确定样品或来源的一个或多个特征和/或测试样品的基因型、表型、遗传变异和/或医学状况的存在或不存在。实验室人员(例如,实验室管理者)可以分析作为结果和/或分类基础的与测试样品相关的信息(例如,测试谱、参考谱、测试值、参考值、偏差水平、患者信息)。对于与接近或可疑的基因型、表型、遗传变异和/或医学状况的存在或不存在有关的调用,实验室人员可以使用来自测试受试者的相同(例如,相同样品的等分试样)或不同的测试样品再运行相同的程序。当人员根据实验室文件评估基因型、表型、遗传变异和/或医学状况的存在或不存在时,实验室可以在相同的位置或不同的位置(例如,在另一个国家)。例如,实验室文件可以在一个位置生成,并被传输至另一个位置,在该位置,由医疗保健专业人员或其他有资格的个体评估其中的测试样品的信息,并且任选地,被传输至从其获得测试样品的受试者。实验室有时生成和/或传输实验室报告,该报告包含测试样品的基因组不稳定性、基因型、表型、遗传变异和/或医学状况的存在或不存在的分类。生成实验室测试报告的实验室有时是认证实验室,且有时是根据临床实验室改进修正案(clia)认证的实验室。
[0320]
结果和/或分类有时是受试者诊断的组成部分,且有时结果和/或分类作为提供测试样品的诊断的部分被使用和/或评估。例如,医疗保健专业人员或其他有资格的个体可以分析结果和/或分类,并基于或部分基于结果和/或分类提供诊断。在一些实施方案中,医学状况、疾病、综合征或异常的确定、检测或诊断包括使用决定基因型、表型、遗传变异和/或医学状况的存在或不存在的结果和/或分类。因此,本文提供了用于根据通过本文所描述的方法生成的结果或分类,并且任选地根据生成和传输包括测试样品的基因型、表型、遗传变异和/或医学状况的存在或不存在的分类的实验室报告,来诊断测试样品的基因型、表型、遗传变异和/或医学状况的存在或不存在的方法。
[0321]
机器、软件和界面
[0322]
本文所描述的某些过程和方法(例如,选择序列读段的子集、生成序列读段谱、处理序列读段数据、处理序列读段定量、基于序列读段数据或序列读段谱确定样品的一个或多个特征)通常太复杂而不能在头脑中进行,并且在没有计算机、微处理器、软件、模块或其他机器的情况下不能进行。本文描述的方法可以是计算机实现的方法,并且方法的一个或多个部分有时通过一个或多个处理器(例如,微处理器)、计算机、系统、装置或机器(例如,微处理器控制的机器)来执行。
[0323]
适合用于使用的计算机、系统、装置、机器和计算机程序产品通常包括计算机可读存储介质,或者与计算机可读存储介质联合使用。计算机可读存储介质的非限制性实例包括存储器、硬盘、cd-rom、快闪存储器装置等。计算机可读存储介质通常是计算机硬件,并且通常是非暂时性计算机可读存储介质。计算机可读存储介质不是计算机可读传输介质,后者是传输信号本身。
[0324]
本文提供了计算机可读存储介质,其上存储有可执行程序,其中该程序指示微处理器执行本文描述的方法。还提供了计算机可读存储介质,其上存储有可执行程序模块,其中该程序模块指示微处理器执行本文描述的方法的部分。本文还提供了包括计算机可读存储介质的系统、机器、装置和计算机程序产品,所述计算机可读存储介质上存储有可执行程序,其中该程序指示微处理器执行本文所描述的方法。还提供了包括计算机可读存储介质的系统、机器和装置,所述计算机可读存储介质上存储有可执行程序模块,其中该程序模块指示微处理器执行本文描述的方法的部分。
[0325]
还提供了计算机程序产品。计算机程序产品通常包括计算机可用介质,该介质包括体现在其中的计算机可读程序代码,该计算机可读程序代码适于被执行以实现本文描述的方法或方法的部分。计算机可用介质和可读程序代码不是传输介质(即传输信号本身)。计算机可读程序代码通常适于被处理器、计算机、系统、装置或机器执行。
[0326]
在一些实施方案中,本文所描述的方法(例如,选择序列读段的子集、生成序列读段谱、处理序列读段数据、处理序列读段定量、基于序列读段数据或序列读段谱确定样品的一个或多个特征)通过自动化方法执行。在一些实施方案中,本文描述的方法的一个或多个步骤由微处理器和/或计算机实施,和/或联合存储器实施。在一些实施方案中,自动化方法体现在执行本文所描述的方法的软件、模块、微处理器、外围设备和/或机器等中。如本文所使用的,软件是指计算机可读程序指令,当被微处理器执行时,该指令执行计算机操作,如本文所描述的。
[0327]
机器、软件和接口可以用于实施本文描述的方法。使用机器、软件和界面,用户可以输入、请求、查询或确定使用特定信息、程序或过程(例如,处理序列读段数据、处理序列读段定量和/或提供结果)的选项,其可涉及例如实施统计分析算法、统计显著性算法、统计算法、迭代步骤、验证算法和图形表示。在一些实施方案中,数据集可以由用户作为输入信息输入,用户可以通过合适的硬件介质(例如,闪存驱动器)下载一个或多个数据集,和/或用户可以将数据集从一个系统发送到另一个系统用于后续处理和/或提供结果(例如,将序列读段数据从测序仪发送到计算机系统用于序列读段处理;将经处理的序列读段数据发送到计算机系统用于进一步处理和/或产生结果和/或报告)。
[0328]
系统通常包括一个或多个机器。每个机器包括一个或多个存储器、一个或多个微处理器和指令。在系统包括两个或更多个机器的情况下,一些或所有机器可以位于相同位
置,一些或所有机器可以位于不同位置,所有机器可以位个位置和/或所有机器可以位于不同位置。在系统包括两个或更多个机器的情况下,一些或所有机器可以位于与用户相同的位置,一些或所有机器可以位于与用户不同的位置,所有机器可以位于与用户相同的位置,和/或所有机器可以位于与用户不同的一个或多个位置。
[0329]
系统有时包括计算机器和测序装置或机器,其中测序装置或机器被配置为接收物理核酸并生成序列读段,并且计算装置被配置为处理来自测序装置或机器的读段。计算机器有时被配置为根据序列读段确定结果(例如,样品的特征)。
[0330]
例如,用户可以向软件发出查询,然后该软件可以通过互联网访问获取数据集,并且在某些实施方案中,可以提示可编程微处理器基于给定的参数获取合适的数据集。可编程微处理器也可以提示用户选择由微处理器基于给定参数选择的一个或多个数据集选项。可编程微处理器可以提示用户选择由微处理器基于通过互联网找到的信息、其他内部或外部信息等选择的一个或多个数据集选项。可以选择选项来选择一个或多个数据特征选择、一个或多个统计算法、一个或多个统计分析算法、一个或多个统计显著性算法、迭代步骤、一个或多个验证算法以及方法、机器、装置、计算机程序或其上存储有可执行程序的非暂时性计算机可读存储介质的一个或多个图形表示。
[0331]
本文所提出的系统可以包括计算机系统的通用组件,诸如例如网络服务器、便携式系统(laptop system)、台式系统、手持式系统、个人数字助理、计算亭(computing kiosk)等。计算机系统可以包括一个或多个输入工具,例如键盘、触摸屏、鼠标、语音识别或允许用户向系统输入数据的其他工具。系统还可以包括一个或多个输出设备,包括但不限于显示屏(例如,crt或lcd)、扬声器、传真机、打印机(例如,激光、喷墨、击打式、黑白或彩色打印机),或者用于提供信息的视觉、听觉和/或硬拷贝输出(例如,结果和/或报告)的其他输出设备。
[0332]
在系统中,输入和输出组件可以连接至中央处理单元,该中央处理单元除了其他组件以外可以包括用于执行程序指令的微处理器和用于存储程序代码和数据的存储器。在一些实施方案中,过程可以被实现为位于单个地理位置的单用户系统。在某些实施方案中,过程可以被实现为多用户系统。在多用户实现的情况下,多个中央处理单元可以通过网络连接。网络可以是本地的,包括建筑物的一个部分中的单个部门、整个建筑物、跨越多个建筑物、跨越一个区域、跨越整个国家或者是全球的。网络可以是私有的,由提供商拥有和控制,或者其可以被实现为基于互联网的服务,其中用户访问网页以输入和检索信息。因此,在某些实施方案中,系统包括一个或多个机器,所述机器对于用户而言可以是本地的或远程的。用户可以访问一个位置或多个位置中的多个机器,并且可以串行和/或并行地映射和/或处理数据。因此,合适的配置和控制可以被用于使用多个机器来映射和/或处理数据,例如在本地网络、远程网络和/或“云”计算平台中映射和/或处理数据。
[0333]
在一些实施方案中,系统可以包括通讯接口。通讯接口允许在计算机系统和一个或多个外部装置之间传输软件和数据。通讯接口的非限制性实例包括调制解调器、网络接口(例如以太网卡)、通讯端口、pcmcia插槽和卡等。经由通讯接口传输的软件和数据通常呈信号的形式,其可以是电子、电磁、光学和/或能够被通讯接口接收的其他信号。信号通常通过信道提供至通讯接口。信道通常承载信号,并且可以使用电线或电缆、光纤、电话线、蜂窝电话链路、rf链路和/或其他通讯信道来实现。因此,在一个实例中,通讯接口可用于接收可
由信号检测模块检测的信号信息。
[0334]
数据可以通过合适的装置和/或方法输入,包括但不限于手动输入装置或直接数据输入装置(dde)。手动装置的非限制性实例包括键盘、概念键盘、触摸感应屏、光笔、鼠标、跟踪球、操纵杆、图形输入板、扫描仪、数字相机、视频数字化仪和语音识别装置。dde的非限制性实例包括条形码阅读器、磁条代码、智能卡、磁性墨水字符识别、光学字符识别、光学标记识别和周转文件。
[0335]
在一些实施方案中,来自测序装置或机器的输出信息可以用作可以通过输入装置被输入的数据。在某些实施方案中,序列读段信息可以用作可以通过输入装置被输入的数据。在某些实施方案中,映射的序列读段可以用作可以通过输入装置被输入的数据。在某些实施方案中,核酸片段大小(例如长度)可以用作可以通过输入装置被输入的数据。在某些实施方案中,来自核酸捕获过程的输出信息(例如,基因组区域起源数据)可以用作可以通过输入装置被输入的数据。在某些实施方案中,核酸片段大小(例如长度)和来自核酸捕获过程的输出信息(例如,基因组区域起源数据)的组合可以用作可以通过输入装置被输入的数据。在某些实施方案中,模拟数据由计算机模拟过程生成,并且模拟数据用作可以通过输入装置被输入的数据。术语“计算机模拟(in silico)”是指使用计算机进行的研究和实验。计算机模拟过程包括但不限于根据本文所描述的方法映射序列读段和处理映射的序列读段。
[0336]
系统可以包括可用于执行本文描述的过程或过程的部分的软件,并且软件可以包括用于执行这样的过程的一个或多个模块(例如,测序模块、逻辑处理模块、数据显示组织模块)。术语“软件”是指计算机可读程序指令,当被计算机执行时,该指令执行计算机操作。被一个或多个微处理器可执行的指令有时被提供为可执行代码,当被执行时,所述可执行代码可使一个或多个微处理器实现本文描述的方法。本文描述的模块可以作为软件存在,并且体现在软件中的指令(例如,过程、例程、子例程)可以由微处理器实现或执行。例如,模块(例如,软件模块)可以是执行特定过程或任务的程序的部分。术语“模块”是指可以在更大的机器或软件系统中使用的独立功能单元。模块可以包括用于执行模块功能的一组指令。模块可以转换数据和/或信息。数据和/或信息可以呈合适的形式。例如,数据和/或信息可以是数字的或模拟的。在某些实施方案中,数据和/或信息有时可以是分组(packet)、字节、字符或比特。在一些实施方案中,数据和/或信息可以是任何收集的、组装的或可用的数据或信息。数据和/或信息的非限制性实例包括合适的介质、图片、视频、声音(例如,频率、可听或不可听)、数字、常数、值、对象、时间、函数、指令、地图、参考、序列、读段、映射的读段、水平、范围、阈值、信号、显示、表示或其转换形式。模块可以接受或接收数据和/或信息,将数据和/或信息转换成第二形式,并将第二形式提供或传输至机器、外围设备、组件或另一模块。在某些实施方案中,微处理器可以执行模块中的指令。在一些实施方案中,需要一个或多个微处理器来执行模块或一组模块中的指令。模块可以将数据和/或信息提供至另一个模块、机器或源,并且可以从另一个模块、机器或源接收数据和/或信息。
[0337]
计算机程序产品有时体现在有形的计算机可读介质上,且有时有形地体现在非暂时性计算机可读介质上。模块有时存储在计算机可读介质(例如,磁盘、驱动器)上或存储在存储器(例如,随机存取存储器)中。模块和能够执行来自模块的指令的微处理器可以位于机器中或不同的机器中。模块和/或能够执行模块指令的微处理器可以位于与用户相同的
位置(例如,本地网络),或者位于与用户不同的位置(例如,远程网络、云系统)。在联合两个或更多个模块实施方法的实施方案中,模块可以位于同一机器中,一个或多个模块可以位于同一物理位置的不同机器中,并且一个或多个模块可以位于不同物理位置的不同机器中。
[0338]
在一些实施方案中,机器包括至少一个微处理器,用于执行模块中的指令。序列读段定量(例如,计数)有时被微处理器访问,该微处理器执行被配置为实施本文描述的方法的指令。被微处理器访问的序列读段定量可以在系统的存储器内,并且序列读段计数可以在它们被获得后被访问并被放入系统的存储器中。在一些实施方案中,机器包括微处理器(例如,一个或多个微处理器),该微处理器可以执行和/或实施来自模块的一个或多个指令(例如,过程、例程和/或子例程)。在一些实施方案中,机器包括多个微处理器,例如协调并并行工作的微处理器。在一些实施方案中,机器与一个或多个外部微处理器(例如,内部或外部网络、服务器、存储装置和/或存储网络(例如,云))一起操作。在一些实施方案中,机器包括模块(例如,一个或多个模块)。包括模块的机器通常能够从其他模块接收一个或多个数据和/或信息和将一个或多个数据和/或信息传输至其他模块。
[0339]
在某些实施方案中,机器包括外围设备和/或组件。在某些实施方案中,机器可以包括一个或多个外围设备或组件,所述外围设备或组件可以向其他模块、外围设备和/或组件传输数据和/或信息,以及从其他模块、外围设备和/或组件传输数据和/或信息。在某些实施方案中,机器与提供数据和/或信息的外围设备和/或组件交互。在某些实施方案中,外围设备和组件帮助机器执行功能或直接与模块交互。外围设备和/或组件的非限制性实例包括合适的计算机外围设备、i/o或存储方法或装置,包括但不限于扫描仪、打印机、显示器(例如,监视器、led、lct或crt)、相机、麦克风、pad(例如,ipad、平板电脑)、触摸屏、智能电话、移动电话、usb i/o装置、usb大容量存储装置、键盘、计算机鼠标、数字笔、调制解调器、硬盘驱动器、跳跃驱动器、闪存驱动器、微处理器、服务器、cd、dvd、图形卡、专用i/o装置(例如,测序仪、光电池、光电倍增管、光学阅读器、传感器等)、一个或多个流动池、流体处理组件、网络接口控制器、rom、ram、无线传输方法和装置(蓝牙、wifi等)、万维网(www)、互联网、计算机和/或另一模块。
[0340]
软件通常在包含记录在计算机可读介质上的程序指令的程序产品上提供,所述计算机可读介质包括但不限于磁介质,包括软盘、硬盘和磁带;以及光学介质,包括cd-rom盘、dvd盘、磁光盘、快闪存储器装置(例如闪存驱动器)、ram、软盘等,以及其他可以记录程序指令的此类介质。在在线实现中,由组织维护的服务器和网站可以被配置为向远程用户提供软件下载,或者远程用户可以访问由组织维护的远程系统来远程访问软件。软件可以获得或接收输入信息。软件可以包括专门获得或接收数据的模块(例如,接收序列读段数据和/或映射的读段数据的数据接收模块),并且可以包括专门处理数据的模块(例如,处理接收的数据的处理模块(例如,过滤、归一化、提供结果和/或报告)。术语“获得”和“接收”输入信息是指通过计算机通讯手段从本地或远程站点、人工数据输入或任何其他接收数据的方法接收数据(例如,序列读段、映射的读段)。输入信息可以在其被接收的相同位置生成,或者其可以在不同位置生成并传输到接收位置。在一些实施方案中,输入信息在其被处理之前被修改(例如,被放置成适于处理的格式(例如,制成表))。
[0341]
在某些实施方案中,软件可以包括一个或多个算法。根据有限的指令序列,可以使
用算法来处理数据和/或提供结果或报告。算法通常是用于完成一项任务的定义的指令的列表。从初始状态开始,指令可以描述通过定义的一系列连续状态进行的计算,最终终止于最终结束状态。从一个状态到下一个状态的转换不一定是确定性的(例如,一些算法包含随机性)。作为示例而非限制,算法可以是搜索算法、排序算法、合并算法、数值算法、图形算法、字符串算法、建模算法、计算几何算法、组合算法、机器学习算法、密码算法、数据压缩算法、解析算法等。算法可以包括一个算法,或组合工作的两个或多个算法。算法可以是任何合适的复杂性类别和/或参数化复杂性。算法可用于计算和/或数据处理,并且在一些实施方案中,可用于确定性或概率性/预测性方法。可以通过使用合适的编程语言在计算环境中实现算法,编程语言的非限制性实例是c、c++、java、perl、python、fortran等。在一些实施方案中,算法可以被配置或修改为包括误差容限、统计分析、统计显著性和/或与其他信息或数据集的比较(例如,当使用神经网络或聚类算法时适用)。
[0342]
在某些实施方案中,可以实现几种算法用于在软件中使用。在一些实施方案中,这些算法可以用原始数据来训练。对于每个新的原始数据样品,经训练的算法可以产生代表性的经处理的数据集或结果。与被处理的亲本数据集相比,经处理的数据集有时具有降低的复杂性。在一些实施方案中,基于经处理的集,可以基于灵敏度和特异性来评估经训练的算法的性能。在某些实施方案中,可以鉴定和使用具有最高灵敏度和/或特异性的算法。
[0343]
在某些实施方案中,模拟(simulated)(或模拟(simulation))数据例如,通过训练算法或测试算法,可以有助于数据处理。在一些实施方案中,模拟数据包括序列读段的不同分组的假设的各种取样。模拟数据可以基于根据真实群体的可能预期,或者可以被偏斜以测试算法和/或分配正确的分类。模拟数据在本文也被称为“虚拟”数据。在某些实施方案中,模拟可以由计算机程序来执行。使用模拟数据集的一个可能步骤是评估鉴定的结果的置信度,例如随机取样与原始数据的匹配程度或最佳代表程度。一种方法是计算概率值(p值),其评估随机样品比所选样品具有更好评分的概率。在一些实施方案中,可以评估经验模型,其中假设至少一个样品匹配参考样品(有或没有已解决的变化)。在一些实施方案中,另一种分布,诸如例如泊松分布,可以用于定义概率分布。
[0344]
在某些实施方案中,系统可以包括一个或多个微处理器。微处理器可以连接到通讯总线。计算机系统可以包括主存储器,通常是随机存取存储器(ram),并且还可以包括辅助存储器。在一些实施方案中,存储器包括非暂时性计算机可读存储介质。辅助存储器可以包括例如硬盘驱动器和/或可移动存储驱动器,代表软盘驱动器、磁带驱动器、光盘驱动器、存储卡等。可移动存储驱动器通常读取和/或写入可移动存储单元。可移动存储单元的非限制性实例包括软盘、磁带、光盘等,它们可以由例如可移动存储驱动器读取和写入。可移动存储单元可以包括其中存储了计算机软件和/或数据的计算机可用存储介质。
[0345]
微处理器可以执行系统中的软件。在一些实施方案中,微处理器可以被编程为自动执行本文描述的用户可以执行的任务。因此,微处理器或由所述微处理器执行的算法几乎不需要或者不需要用户的监督或输入(例如,软件可以被编程为自动实现功能)。在一些实施方案中,过程的复杂性如此之大,以至个人或一组人不能在足够短的时间段内执行该过程来确定样品的一个或多个特征。
[0346]
在一些实施方案中,辅助存储器可以包括用于允许计算机程序或其他指令被加载到计算机系统中的其他类似装置。例如,系统可以包括可移动存储单元和接口装置。这样的
系统的非限制性实例包括程序盒式存储器和盒式接口(例如在视频游戏装置中发现的那些)、可移动存储器芯片(例如eprom或prom)和相关插口,以及允许软件和数据从可移动存储单元传输到计算机系统的其他可移动存储单元和接口。
[0347]
用于分析核酸的方法
[0348]
本文提供了用于分析核酸的方法。
[0349]
本文提供了用于评估核酸纯度和/或质量的方法。可以使用本文描述的单链文库制备方法来评估核酸的纯度和/或质量。
[0350]
在一些实施方案中,本文所描述的单链文库制备方法可用于评估单链核酸(ssna)的纯度和/或质量。ssna可包括单个ssna种类(例如,具有相同序列和长度的ssna)或者可包括ssna种类的汇集物(例如,具有不同序列和/或长度的ssna)。在一些实施方案中,ssna包含单链寡核苷酸。在一些实施方案中,单链寡核苷酸是商业生产的。在一些实施方案中,单链寡核苷酸由用户产生。在一些实施方案中,ssna包含单链探针。在一些实施方案中,单链探针是商业生产的。在一些实施方案中,单链探针由用户产生。
[0351]
在一些实施方案中,本文所描述的单链文库制备方法可用于评估单链核糖核酸(ssrna)的纯度和/或质量。ssrna可包括单个ssrna种类(例如,具有相同序列和长度的ssrna)或者可包括ssrna种类的汇集物(例如,具有不同序列和/或长度的ssrna)。在一些实施方案中,ssrna包含单链rna寡核苷酸。在一些实施方案中,单链rna寡核苷酸是商业生产的。在一些实施方案中,单链rna寡核苷酸由用户产生。在一些实施方案中,ssrna包含单链rna探针。在一些实施方案中,单链rna探针是商业生产的。在一些实施方案中,单链rna探针由用户产生。
[0352]
在一些实施方案中,本文所描述的单链文库制备方法可用于评估单链互补脱氧核糖核酸(sscdna)的纯度和/或质量。sscdna可包括单个sscdna种类(例如,具有相同序列和长度的sscdna)或者可包括sscdna种类的汇集物(例如,具有不同序列和/或长度的sscdna)。在一些实施方案中,sscdna包含单链cdna寡核苷酸。在一些实施方案中,单链cdna寡核苷酸是商业生产的。在一些实施方案中,单链cdna寡核苷酸由用户产生。在一些实施方案中,sscdna包含单链cdna探针。在一些实施方案中,单链cdna探针是商业生产的。在一些实施方案中,单链cdna探针由用户产生。
[0353]
ssna、ssrna和/或sscdna的纯度和/或质量可以根据片段长度的评估来评估。片段长度可以使用任何合适的确定片段长度的方法来确定。在一些实施方案中,片段长度根据单末端测序读段的长度来确定(例如,其中读段长度覆盖整个片段的长度)。在一些实施方案中,片段长度根据配对末端测序读段的映射位置来确定。在一些实施方案中,ssna、ssrna和/或sscdna的纯度和/或质量根据片段长度谱来评估。片段长度谱可以包括具有特定长度的片段的定量。在一些实施方案中,ssna、ssrna和/或sscdna的纯度和/或质量根据片段长度谱中主要ssna、ssrna和/或sscdna种类的量和次要ssna、ssrna和/或sscdna种类的量来评估。主要种类通常涉及样品中最丰富的片段长度。主要种类可以涉及被评估的ssna、ssrna和/或sscdna的预期或期望的片段长度。例如,对于被设计为正好包含50个核苷酸的寡核苷酸,对该寡核苷酸的纯度和/或质量的评估可以产生50个核苷酸的主要种类长度。次要种类通常涉及不是主要种类的剩余片段长度。次要种类可以涉及被评估的ssna、ssrna和/或sscdna的非预期或非期望的片段长度。例如,对于被设计为正好包含50个核苷酸的寡
核苷酸,对该寡核苷酸的纯度和/或质量的评估可以产生具有大于50和/或小于50,但不是正好50个核苷酸的长度的次要种类。ssna、ssrna和/或sscdna的纯度和/或质量可以被表示为比率或百分比。例如,如果样品中90%的寡核苷酸具有主要种类片段长度,且样品中10%的寡核苷酸(集体)具有次要种类片段长度,则可以认为寡核苷酸是主要种类90%纯的。
[0354]
可以估计或测量样品中带切口的dna的量。例如,测序文库可以从切口修复前和切口修复后的样品制备。可以比较两个文库的测序结果,并且可以估计或测量带切口的dna的量。带切口的dna可以是cfdna,例如由于经历凋亡的细胞内以及随后在血流中的基因组dna上的核酸内切酶和核酸外切酶活性而生成的。初始核酸酶活性可以包括核小体之间的核酸内切酶活性或核小体上dna酶i的切口活性。了解易受切口影响的核酸区域可以提供核小体占据的信息。带切口的dna的其他来源包括但不限于ffpe样品、毛发、降解样品和切口酶的体外测试。单链文库制备方法诸如本公开内容的那些方法可以捕获带切口的片段。此外,本公开内容的方法保留由切口生成的末端。直接在带切口的分子上执行本公开内容的方法会产生3条不同长度的链——1条长,且2条较短的分子。用切口封闭酶(例如hifi taq连接酶)处理将连接两条带切口的链;随后用这种密封的dsdna执行本公开内容的方法会产生2条具有相似长度的链,而观察不到在切口处生成的末端。从两个文库获得的序列(和片段末端)的比较显示,在切口被封闭的文库中,存在较少的短片段以及较少的具有在带切口的区域侧翼的序列的读段。
[0355]
在一个实例中,使用在5’gagtcnnnn^n3’处生成切口的n.bstnbi在gdna中生成已知切口。一部分带切口的gdna样品用hifi taq连接酶进行切口封闭,且一部分没有进行切口封闭。如本文所讨论的对两者进行单链文库制备,并对文库进行测序和比较。从未被切口的对照gdna显示0.07%的序列读段以gagtcnnnn结尾;未封闭的带切口的dna显示15.74%的序列读段以gagtcnnnn结尾;被切口且进行切口封闭的dna显示10.67%的序列读段以gagtcnnnn结尾。
[0356]
核酸(例如,适体、sirna、寡核苷酸探针)的汇集物可以被测序,而不需要核酸包含某些类型的侧翼区域,例如引物结合位点,这可影响它们的性质。可以生成用于给定目的的核酸汇集物,对其进行一轮或多轮所需性质的选择,并通过本公开内容的单链文库制备方法进行测序。例如,可以生成适体或sirna的随机汇集物,进行一轮或多轮阳性和/或阴性选择(例如,结合所需靶的阳性选择,非靶结合的阴性选择),并且成功的候选物可以通过本公开内容的方法进行测序,而不需要随机适体或sirna包含侧翼区域用于测序;这样的侧翼区域的存在可影响适体或sirna的性能。
[0357]
在一个实例中,通过化学合成或从合成的dna转录来合成核酸的随机汇集物(例如,适体、sirna、寡核苷酸探针)。然后对随机汇集物进行一轮或多轮阳性选择和/或一轮或多轮阴性选择。阳性选择可以包括在越来越严格的结合条件下与所需结合靶一起孵育。阴性选择可以包括在越来越有利的结合条件下与非靶结合底物一起孵育。结合条件可以包括但不限于温度、盐浓度、ph、磁场、拥挤剂、竞争性结合剂、抑制剂和其他条件。通过本公开内容的方法的测序可以在选择之前、选择轮次之间和/或选择完成之后进行,以允许对汇集物及其变化进行生物信息学分析。umi或其他条形码可用于获得汇集物中核酸种类相对数量的数值或绝对计数。例如,可以在所需结合靶的存在下进行n轮阳性选择,对每个结合汇集物单独进行测序,以监测结合的序列汇集物如何随着不同的选择严格性而变化。在不同轮
次的选择中,可以发现核酸序列的不同簇。在一些情况下,来自每个阳性选择轮次的结合的核酸可以单独经历剩余的选择和文库制备过程,以监测结合的核酸汇集物如何随着不同的选择严格性而变化,因为在不同的选择轮次中可以发现核酸序列的不同簇。
[0358]
在一些实施方案中,本文所描述的单链文库制备方法可用于鉴定核酸序列读段的来源。例如,可以从rna(例如,ssrna)和dna(例如,dsdna)的混合物生成文库,并且可以将所得的序列读段分配来源(例如,来自初始混合物的rna或dna)。因此,在一些实施方案中,本文中的方法包括为核酸序列读段分配来源。来源可以是rna或dna。在一些实施方案中,来源是来自初始混合物(例如,包含ssrna和dsdna的样品)的ssrna或dsdna。分配来源可以包括鉴定包含本文所描述的rna特异性标签或dna特异性标签的序列读段。在一些实施方案中,包含rna特异性标签的序列读段被分配rna来源(例如ssrna),且不包含rna特异性标签的序列读段被分配dna来源(例如dsdna)。在一些实施方案中,包含rna特异性标签的序列读段被分配rna来源(例如ssrna),且包含dna特异性标签的序列读段被分配dna来源(例如dsdna、ssdna)。
[0359]
在一些实施方案中,本文所描述的单链文库制备方法可用于分析突出端(例如,天然突出端)。例如,可以从包含突出端的靶核酸生成文库,其中突出端已经用独特核苷酸(例如,本文所描述的独特核苷酸)延伸(例如,填充),并且可以分析所得的序列读段。在一些实施方案中,本文中的方法包括基于序列读段和延伸区域(例如本文所描述的延伸区域)中的一个或多个独特核苷酸分析靶核酸中的突出端。在一些实施方案中,分析包括确定突出端的序列。在一些实施方案中,分析包括确定突出端的长度。在一些实施方案中,分析包括对特定突出端的量进行定量,从而生成突出端定量。突出端定量可以针对特征在于以下的突出端:(i)5’突出端、(ii)3’突出端、(iii)特定序列、(iv)特定长度或(v)(i)、(ii)、(iii)和(iv)中的两个、三个或四个的组合。在一些实施方案中,突出端定量针对特征在于以下的突出端:(i)5’突出端或3’突出端和(ii)特定长度。在一些实施方案中,本文中的方法包括基于突出端定量来鉴定靶核酸组合物源自其的核酸样品中靶核酸的来源。在一些实施方案中,进行突出端分析以用于法医分析。在一些实施方案中,进行突出端分析以用于诊断分析。
[0360]
本公开内容的技术可用于进行多种测定。在一些情况下,可以针对样品核酸中存在的一些、许多或所有突出端测定样品。该信息可用于生成样品的总体突出端谱,表明突出端存在的数目或频率。在一些情况下,可以针对样品中存在的一个或多个特定突出端的组测定样品。在一些情况下,可以针对样品中存在的突出端的一个或多个特征测定样品。在一些情况下,可以针对平末端片段(例如,一侧为平末端或两侧均为平末端的靶核酸(例如,dna))测定样品。
[0361]
可以通过分析和/或定量样品中存在的突出端的某些特征来生成样品的突出端谱。在某些情况下,谱可另外或可选地包括靶/模板核酸本身的特征(例如,有或没有突出端信息)。在某些情况下,突出端谱不包括靶/模板核酸的特征。因此,在某些实施方案中,突出端谱由突出端特征组成。可以使用任何合适的定量方法、聚类方法、统计算法、分类器或模型来分析或定量突出端/模板特征,包括但不限于回归(例如,逻辑回归、线性回归、多元回归、最小二乘回归)、层次聚类(例如,沃德层次聚类)、监督学习算法(例如,支持向量机(svm))、多元模型(例如,主成分分析(pca))、线性判别分析、二次判别分析、袋翻法
(bagging)、神经网络、支持向量机模型、随机森林、分类树模型、k-最近邻等,和/或任何合适的数学和/或统计操作。
[0362]
可以分析或定量的突出端/模板特征包括但不限于二核苷酸计数(例如,突出端或读段中特定二核苷酸的存在/不存在(例如,样品中具有特定二核苷酸的突出端的数目,样品中具有特定二核苷酸的模板+突出端的数目,或样品中具有特定二核苷酸的模板减去突出端的数目)和/或突出端或读段中特定二核苷酸的实体计数);三核苷酸计数(例如,突出端或读段中特定三核苷酸的存在/不存在(例如,样品中具有特定三核苷酸的突出端的数目,样品中具有特定三核苷酸的模板+突出端的数目,或样品中具有特定三核苷酸的模板减去突出端的数目)和/或突出端或读段中特定三核苷酸的实体计数);四核苷酸计数(例如,突出端或读段中特定四核苷酸的存在/不存在(例如,样品中具有特定四核苷酸的突出端的数目,样品中具有特定四核苷酸的模板+突出端的数目,或样品中具有特定四核苷酸的模板减去突出端的数目)和/或突出端或读段中特定四核苷酸的实体计数);二核苷酸百分比(例如,样品中具有特定二核苷酸的突出端的百分比,样品中具有特定二核苷酸的模板+突出端的百分比,或样品中具有特定二核苷酸的模板减去突出端的百分比;通过突出端长度归一化的突出端中二核苷酸的数目;该特定突出端的二核苷酸比例;所有突出端之间的比较,不管长度如何);三核苷酸百分比(例如,样品中具有特定三核苷酸的突出端的百分比,样品中具有特定三核苷酸的模板+突出端的百分比,或样品中具有特定三核苷酸的模板减去突出端的百分比;通过突出端长度归一化的突出端中三核苷酸的数目;该特定突出端的三核苷酸比例;所有突出端之间的比较,不管长度如何);四核苷酸百分比(例如,样品中具有特定四核苷酸的突出端的百分比,样品中具有特定四核苷酸的模板+突出端的百分比,或样品中具有特定四核苷酸的模板减去突出端的百分比;通过突出端长度归一化的突出端中四核苷酸的数目;该特定突出端的四核苷酸比例;所有突出端的比较,不管长度如何);模板的全长;长度类别(例如,对于cfdna:亚核小体、单核小体、多核小体);突出端长度(例如,1个碱基、2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基或更多);突出端类型(例如,5’突出端、3’突出端、平末端);gc含量(例如,突出端gc含量、模板+突出端gc含量或模板减去突出端gc含量);甲基化状态;突出端百分比(例如,突出端序列/总突出端的log 2%);突出端计数(例如,特定突出端序列的计数);长度百分比(例如,突出端长度/模板全长);突出端对模板分子整个序列的二核苷酸计数;突出端对模板分子整个序列的三核苷酸计数;突出端对模板分子整个序列的四核苷酸计数;布尔变量,其可包括突出端是否与特定区域(例如,编码区域、cpg岛、转录因子结合位点(例如,ccctc结合因子(ctcf)结合位点)、dna酶超敏位点、表示开放染色质的序列(例如,atac-seq峰))重叠、包含在和/或起始或终止于所述特定区域;启动子区域、增强子区域、超甲基化区域、其他感兴趣的区域等);基因组坐标;具有给定突出端类型和长度的分子的平均片段长度或分布;具有给定突出端序列的分子的平均片段长度或分布;文库之间的差异(例如,鉴定变量之间的数据相关性(例如,检测x特征和y特征之间的相关性,例如片段长度分布的平均值对x变量(例如,具有给定突出端序列的片段的平均长度或分布对其x,其中x=上述任何特征/变量)));突出端或模板分子中某些基序(例如,某些核苷酸、二核苷酸、三核苷酸、四核苷酸或其他序列)的存在或不存在(以相对或绝对术语表示);在模板或突出端的特定末端(例如,3’末端或5’末端)或一个末端或特定末端的特定距离内某些基序的存在或不存在(以相对或绝对
术语表示);等等及其组合。二核苷酸的实例包括aa、at、ac、ag、tt、ta、tc、tg、cc、cg、ca、ct、gg、ga、gc和gt。三核苷酸包括43种可能的核苷酸组合,且四核苷酸包括44种可能的核苷酸组合。在一些实施方案中,分析样品中的突出端中二核苷酸的存在。在一些实施方案中,分析样品中的突出端中cg二核苷酸的存在。在一些实施方案中,分析样品中的突出端中gg二核苷酸的存在。在一些实施方案中,分析样品中的突出端中gc二核苷酸的存在。
[0363]
在一些情况下,可以在模板分子本身的序列信息中检测特征(例如,某个基序的存在或不存在)。在某些情况下,可以在模板分子的基因组背景中检测特征。例如,特定信号可以包括突出端区域中特定基序的存在;这样的信号可以通过对作为模板分子的部分的突出端区域进行测序来检测,或者通过与基因组参考进行比较来确定特定模板突出端的序列从而确定什么序列会与模板分子相邻存在来检测。在另一实例中,特定信号可以包括在分子特定末端的特定距离内存在特定基序;这样的信号可以在模板分子中位于该分子末端该距离内的部分中检测,或者可以在产生模板分子的基因组断裂另一侧的基因组的部分中检测。在某些情况下,可以在模板分子的3’末端或突出端中检测特征;常规分析方法回嚼模板分子的3’末端,并且可能会错过检测这些特征。
[0364]
特征可以通过它们在突出端、模板或样品中的绝对水平来分析。特征可以通过它们与不同样品类型中的特征水平相比较的相对水平来分析(例如,健康对疾病)。
[0365]
突出端或模板谱,包括整体突出端或模板谱、突出端或模板小组以及突出端或模板特征,可以指示样品或从中提取样品的来源(例如,生物体)的多种特征。这些特征可包括但不限于核酸酶活性和/或含量、拓扑异构酶活性和/或含量、疾病(例如,癌症类型、癌症阶段、感染、器官疾病或衰竭、神经退行性疾病、局部缺血、中风、心血管疾病)、细胞死亡(例如,全身性细胞死亡率的增加或降低、特定器官或细胞类型中细胞死亡率的增加或降低、某些细胞死亡模式(例如,凋亡、自噬、坏死、有丝分裂灾难、失巢凋亡、角化、兴奋性毒性、铁死亡、沃勒变性、活化诱导的细胞死亡(aicd)、缺血性细胞死亡、胀亡、免疫原性细胞死亡或凋亡、细胞焦亡)、凋亡失调或其他细胞死亡模式)的比率的增加或降低、微生物组谱(例如,肠道微生物组、血液微生物组、口腔微生物组、皮肤微生物组、环境微生物组(例如,土壤微生物组、水微生物组))和辐射暴露类型和/或量(例如,紫外线(a和b)、电离辐射(例如,宇宙射线、α粒子、β粒子、γ射线、x射线)、中子辐射)。在一些实施方案中,突出端谱,包括整体突出端谱、突出端小组和突出端特征,指示癌症。在一些实施方案中,突出端谱,包括整体突出端谱、突出端小组和突出端特征,指示胃肠癌。
[0366]
突出端谱,包括整体突出端谱、突出端小组和突出端特征,可以指示核酸酶(例如,dna酶)活性,例如内源核酸酶活性。核酸酶(例如,dna酶)活性可以指示本文讨论的样品或来源的多种特征,包括但不限于癌症。在一些情况下,可以测定样品中天然存在的核酸的突出端。在一些情况下,核酸(例如,合成的核酸)可以被引入到样品中,其中样品中存在的核酸酶随后可以作用于它们。使用已知的核酸群体可以产生突出端谱,将其与来自不同样品的突出端谱相比较。已知核酸上产生的不同突出端可以提供样品核酸酶谱的信息。可以在体外测定组织特异性核酸酶活性。例如,可以培养来自不同器官、组织或细胞类型的细胞系,并且可以诱导细胞死亡,然后测定突出端谱。还可以针对特定酶(例如核酸酶)或酶组测定突出端谱。特定的酶或酶组可用于消化核酸群体,并可以测定所得的突出端谱。例如,可以测定crispr/cas系统蛋白或其他核酸引导的核酸酶,以确定它们产生的末端类型(例如,
平末端、1-bp交错末端、其他突出端)。在一些应用中,突出端谱测定可用于监测旨在改变dna酶活性的特定治疗和靶向疗法的效力(例如,维生素c和k3;用于抗癌疗法的拓扑异构酶抑制剂;等等)。
[0367]
在某些情况下,受试者或样品中的核酸酶可以被抑制以保持特定的突出端谱。例如,细胞过程可以产生一种突出端谱(例如,来自裂解、细胞死亡和/或死后的细胞内过程),而细胞外(例如,在体液诸如血液中)存在的核酸酶可以进一步改变细胞的第一突出端谱。核酸酶,例如细胞外的核酸酶,可以被抑制或失活(例如,暂时地)以保持用于测定的初始突出端谱。可以在样品收集之前抑制核酸酶活性(例如,用肌动蛋白)。在一个实例中,测定了两个突出端群体,来自患病细胞的群体(d)和来自健康细胞的群体(h);从细胞中释放dna后,血液中的核酸酶可以进一步改变突出端,产生修饰的突出端群体d’和h’;抑制血液中存在的核酸酶(例如,dna酶)可以允许测定未被修饰或较少被修饰的突出端群体(例如,d和h,或者比没有抑制时观察到的更接近d和h)。也可以抑制影响突出端谱的其他酶。例如,拓扑异构酶切除可以裂解核酸,产生特定的突出端谱。可以引入拓扑异构酶抑制剂来保持这些突出端(例如,通过防止再连接)以允许测定这些谱。
[0368]
突出端谱可以通过多种技术进行测定。突出端可以通过核酸测序(包括如本文所公开的)来测定。突出端可以通过结合或杂交来测定。例如,突出端可以与特异性杂交特定突出端的结合剂结合。结合剂可以位于基底上,例如阵列或珠。可以检测结合事件(例如,荧光或其他光学信号、电信号),并且可以确定突出端谱。在测定之前,或作为测定的部分,特定种类的核酸(例如,具有特定突出端或具有来自一组突出端的一个或多个突出端的核酸)可以被富集,包括如本文所公开的。
[0369]
试剂盒
[0370]
在某些实施方案中提供了试剂盒。试剂盒可包含本文所描述的任何组分和组合物(例如,支架衔接子及其组分/子组分、寡核苷酸、寡核苷酸组分/区域、支架多核苷酸、支架多核苷酸组分/区域、核酸、单链核酸、引物、单链结合蛋白、酶),所述组分和组合物可用于以任何合适的组合进行本文所描述的任何方法。试剂盒还可包含可用于实施本文所描述的任何方法的任何试剂、缓冲液或其他组分。例如,试剂盒可包含以下的一种或多种:多个支架衔接子种类、多个寡核苷酸种类和/或多个支架多核苷酸种类、适于5’磷酸化核酸的激酶(例如,多核苷酸激酶(pnk))、dna连接酶及其任何组合。在一些实施方案中,试剂盒还包含以下的一种或多种:逆转录酶、聚合酶、单链结合蛋白(ssb)、引物寡核苷酸(例如,包含rna特异性标签的引物寡核苷酸)、引发多核苷酸(例如,包含引物、rna特异性标签和寡核苷酸)、rna寡核苷酸(例如,包含rna特异性标签)、rna酶、包含rna特异性标签的寡核苷酸、包含dna特异性标签的寡核苷酸、连接酶(例如,t4 rna连接酶1、t4 rna连接酶2、截短的t4 rna连接酶2、热稳定的5
′
app dna/rna连接酶、t4 dna连接酶)、一种或多种独特核苷酸、发夹衔接子等。在一些实施方案中,试剂盒还包含脱氨剂(例如,亚硫酸氢钠、脱氨酶)。
[0371]
试剂盒可以包含用于捕获单链dna和/或单链rna的组分。用于捕获单链dna的试剂盒可以被配置使得用户提供双链或单链dna。用于捕获单链rna的试剂盒可以被配置使得用户提供cdna(单链或双链),或提供rna(例如,总rna或rrna消耗的rna)。用于捕获单链rna的试剂盒可以包含rrna消耗试剂、mrna富集试剂、片段化试剂、cdna合成试剂和/或rna消化试剂。
[0372]
试剂盒的组分可以存在于单独的容器中,或者多种组分可以存在于单个容器中。合适的容器包括单管(例如小瓶)、板(例如96孔板、384孔板等)的一个或多个孔等。
[0373]
试剂盒还可以包含用于执行本文所描述的一种或多种方法的使用说明和/或本文所描述的一种或多种组分的描述。例如,试剂盒可包含用于使用本文所描述的支架衔接子或其组分来捕获单链核酸片段和/或产生核酸文库的使用说明。使用说明和/或描述可以呈印刷形式,并且可以包含在试剂盒插入物中。在一些实施方案中,使用说明和/或描述被提供为存在于合适的计算机可读存储介质(例如便携式闪存驱动器、dvd、cd-rom、磁盘等)上的电子存储数据文件。试剂盒还可以包含提供这样的使用说明或描述的因特网位置的书面描述。
[0374]
某些实施方式
[0375]
以下是该技术的某些实施方式的非限制性实例。
[0376]
a1.一种产生核酸文库的方法,包括:
[0377]
将(i)包含单链核酸(ssna)的核酸组合物、(ii)多个第一寡核苷酸种类和(iii)多个第一支架多核苷酸种类组合,其中:
[0378]
(a)多个第一支架多核苷酸种类中的每个多核苷酸包含ssna杂交区域和第一寡核苷酸杂交区域;
[0379]
(b)多个第一寡核苷酸种类中的每个寡核苷酸包含第一独特分子标识符(umi),其侧翼为第一侧翼区域和第二侧翼区域;
[0380]
(c)第一寡核苷酸杂交区域包含(i)与第一侧翼区域互补的多核苷酸,和(ii)与第二侧翼区域互补的多核苷酸;和
[0381]
(d)将核酸组合物、多个第一寡核苷酸种类和多个第一支架多核苷酸种类在以下条件下组合,在所述条件中,第一支架多核苷酸种类的分子与(i)第一ssna末端区域和(ii)第一寡核苷酸种类的分子杂交,从而形成杂交产物,其中第一寡核苷酸的分子的末端与第一ssna末端区域的末端相邻。
[0382]
a1.1根据实施方案a1所述的方法,其中第一寡核苷酸杂交区域包含(iii)对应于第一umi的区域。
[0383]
a1.2根据实施方案a1.1所述的方法,其中对应于第一umi的区域包含与第一umi互补的多核苷酸。
[0384]
a1.3根据实施方案a1.1所述的方法,其中对应于第一umi的区域包含不与第一umi互补的多核苷酸。
[0385]
a2.根据实施方案a1至a1.3中任一项所述的方法,其中第一寡核苷酸种类的每一个的第一umi包含随机核苷酸序列。
[0386]
a2.1根据实施方案a1至a1.3中任一项所述的方法,其中第一寡核苷酸种类的每一个的第一umi包含非随机核苷酸序列。
[0387]
a3.根据实施方案a1至a2.1中任一项所述的方法,其中第一umi包含三至十个核苷酸。
[0388]
a4.根据实施方案a3所述的方法,其中第一umi包含五个核苷酸。
[0389]
a5.根据实施方案a1至a4中任一项所述的方法,其中第一寡核苷酸种类的每一个的第一侧翼区域包含非随机序列。
[0390]
a6.根据实施方案a1至a5中任一项所述的方法,其中第一寡核苷酸种类的每一个的第一侧翼区域包含来自非随机序列种类的汇集物的非随机序列种类。
[0391]
a7.根据实施方案a6所述的方法,其中非随机序列种类的汇集物包含两种或更多种非随机序列种类。
[0392]
a8.根据实施方案a6所述的方法,其中非随机序列种类的汇集物包含三种或更多种非随机序列种类。
[0393]
a9.根据实施方案a6所述的方法,其中非随机序列种类的汇集物包含四种或更多种非随机序列种类。
[0394]
a10.根据实施方案a6所述的方法,其中非随机序列种类的汇集物包含五种或更多种非随机序列种类。
[0395]
a11.根据实施方案a6所述的方法,其中非随机序列种类的汇集物包含六种或更多种非随机序列种类。
[0396]
a12.根据实施方案a6所述的方法,其中非随机序列种类的汇集物包含四种非随机序列种类。
[0397]
a13.根据实施方案a1至a12中任一项所述的方法,其中第一侧翼区域包含八至十五个核苷酸。
[0398]
a14.根据实施方案a13所述的方法,其中第一侧翼区域包含十个核苷酸。
[0399]
a15.根据实施方案a1至a14中任一项所述的方法,其中第一侧翼区域包含约70%的鸟嘌呤和胞嘧啶核苷酸。
[0400]
a15.1根据实施方案a1至a14中任一项所述的方法,其中第一侧翼区域包含约90%的鸟嘌呤和胞嘧啶核苷酸。
[0401]
a15.2根据实施方案a1至a15.1中任一项所述的方法,其中第一侧翼区域具有等于或大于约38℃的解链温度。
[0402]
a15.3根据实施方案a1至a15.1中任一项所述的方法,其中第一侧翼区域具有等于或大于约45℃的解链温度。
[0403]
a16.根据实施方案a1至a15.3中任一项所述的方法,其中第一寡核苷酸种类的每一个的第二侧翼区域包含非随机序列。
[0404]
a17.根据实施方案a1至a16中任一项所述的方法,其中第一寡核苷酸种类的每一个的第二侧翼区域包含第一引物结合结构域。
[0405]
a18.根据实施方案a1至a17中任一项所述的方法,其中第一寡核苷酸种类的每一个的第二侧翼区域包含第一测序衔接子或其部分。
[0406]
a19.根据实施方案a1至a18中任一项所述的方法,其中第一寡核苷酸种类的每一个的第二侧翼区域包含索引。
[0407]
a20.根据实施方案a1至a19中任一项所述的方法,包括在组合之前,使多个第一寡核苷酸种类和/或多个第一支架多核苷酸种类与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,第一寡核苷酸和/或多个第一支架多核苷酸种类被去磷酸化,从而生成去磷酸化的第一寡核苷酸种类和/或去磷酸化的第一支架多核苷酸种类。
[0408]
a20.1根据实施方案a1至a19中任一项所述的方法,其中在组合之前,多个第一寡核苷酸种类和/或多个第一支架多核苷酸种类不与包含磷酸酶活性的剂在其中第一寡核苷
酸和/或多个第一支架多核苷酸种类被去磷酸化的条件下接触。
[0409]
a21.根据实施方案a1至a20.1中任一项所述的方法,其中在组合之前,第一支架多核苷酸种类的每一个与第一寡核苷酸种类杂交以形成多个第一支架双链体种类。
[0410]
a22.根据实施方案a1至a21中任一项所述的方法,还包括将第一寡核苷酸种类和第一ssna末端区域的相邻末端共价连接,从而生成共价连接的杂交产物。
[0411]
a23.根据实施方案a22所述的方法,其中共价连接包括使杂交产物与包含连接酶活性的剂在其中第一ssna末端区域的末端共价连接至第一寡核苷酸种类的末端的条件下接触。
[0412]
a24.根据实施方案a1至a23中任一项所述的方法,所述方法还包括将核酸组合物与(iv)第二寡核苷酸和(v)多个第二支架多核苷酸种类组合,其中:
[0413]
(e)多个第二支架多核苷酸种类中的每个多核苷酸包含ssna杂交区域和第二寡核苷酸杂交区域;和
[0414]
(f)将核酸组合物、第二寡核苷酸和多个第二支架多核苷酸种类在以下条件下组合,在所述条件中,第二支架多核苷酸种类的分子与(i)第二ssna末端区域和(ii)第二寡核苷酸的分子杂交,从而形成杂交产物,其中第二寡核苷酸的分子的末端与第二ssna末端区域的末端相邻。
[0415]
a24.1根据实施方案a24所述的方法,其中第二寡核苷酸在与第二ssna末端区域的末端相邻的末端处包含含有至少约70%鸟嘌呤和胞嘧啶核苷酸的区域。
[0416]
a24.2根据实施方案a24所述的方法,其中第二寡核苷酸在与第二ssna末端区域的末端相邻的末端处包含含有至少约90%鸟嘌呤和胞嘧啶核苷酸的区域。
[0417]
a25.根据实施方案a1至a23中任一项所述的方法,所述方法还包括将核酸组合物与(iv)多个第二寡核苷酸种类和(v)多个第二支架多核苷酸种类组合,其中:
[0418]
(e)多个第二支架多核苷酸种类中的每个多核苷酸包含ssna杂交区域和第二寡核苷酸杂交区域;
[0419]
(f)多个第二寡核苷酸种类中的每个寡核苷酸包含第二独特分子标识符(umi),其侧翼为第三侧翼区域和第四侧翼区域;
[0420]
(g)第二寡核苷酸杂交区域包含(i)与第三侧翼区域互补的多核苷酸,和(ii)与第四侧翼区域互补的多核苷酸;和
[0421]
(h)将核酸组合物、多个第二寡核苷酸种类和多个第二支架多核苷酸种类在以下条件下组合,在所述条件中,第二支架多核苷酸种类的分子与(i)第二ssna末端区域和(ii)第二寡核苷酸种类的分子杂交,从而形成杂交产物,其中第二寡核苷酸的分子的末端与第二ssna末端区域的末端相邻。
[0422]
a25.1根据实施方案a25所述的方法,其中第二寡核苷酸杂交区域包含(iii)对应于第二umi的区域。
[0423]
a25.2根据实施方案a25.1所述的方法,其中对应于第二umi的区域包含与第二umi互补的多核苷酸。
[0424]
a25.3根据实施方案a25.1所述的方法,其中对应于第二umi的区域包含不与第二umi互补的多核苷酸。
[0425]
a26.根据实施方案a25至a25.3中任一项所述的方法,其中第二寡核苷酸种类的每
一个的第二umi包含随机核苷酸序列。
[0426]
a26.1根据实施方案a25至a25.3中任一项所述的方法,其中第二寡核苷酸种类的每一个的第二umi包含非随机核苷酸序列。
[0427]
a27.根据实施方案a25至a26.1中任一项所述的方法,其中第二umi包含三至十个核苷酸。
[0428]
a28.根据实施方案a27所述的方法,其中第二umi包含五个核苷酸。
[0429]
a29.根据实施方案a25至a28中任一项所述的方法,其中第二寡核苷酸种类的每一个的第三侧翼区域包含非随机序列。
[0430]
a30.根据实施方案a25至a29中任一项所述的方法,其中第二寡核苷酸种类的每一个的第三侧翼区域包含来自非随机序列种类的汇集物的非随机序列种类。
[0431]
a31.根据实施方案a30所述的方法,其中非随机序列种类的汇集物包含两种或更多种非随机序列种类。
[0432]
a32.根据实施方案a30所述的方法,其中非随机序列种类的汇集物包含三种或更多种非随机序列种类。
[0433]
a33.根据实施方案a30所述的方法,其中非随机序列种类的汇集物包含四种或更多种非随机序列种类。
[0434]
a34.根据实施方案a30所述的方法,其中非随机序列种类的汇集物包含五种或更多种非随机序列种类。
[0435]
a35.根据实施方案a30所述的方法,其中非随机序列种类的汇集物包含六种或更多种非随机序列种类。
[0436]
a36.根据实施方案a30所述的方法,其中非随机序列种类的汇集物包含四种非随机序列种类。
[0437]
a37.根据实施方案a25至a36中任一项所述的方法,其中第三侧翼区域包含八至十五个核苷酸。
[0438]
a38.根据实施方案a37所述的方法,其中第三侧翼区域包含十个核苷酸。
[0439]
a39.根据实施方案a25至a38中任一项所述的方法,其中第三侧翼区域包含约70%的鸟嘌呤和胞嘧啶核苷酸。
[0440]
a39.1根据实施方案a25至a38中任一项所述的方法,其中第三侧翼区域包含约90%的鸟嘌呤和胞嘧啶核苷酸。
[0441]
a39.2根据实施方案a25至a39.1中任一项所述的方法,其中第三侧翼区域具有等于或大于约38℃的解链温度。
[0442]
a39.3根据实施方案a25至a39.1中任一项所述的方法,其中第三侧翼区域具有等于或大于约45℃的解链温度。
[0443]
a40.根据实施方案a25至a39.3中任一项所述的方法,其中第二寡核苷酸种类的每一个的第四侧翼区域包含非随机序列。
[0444]
a41.根据实施方案a25至a40中任一项所述的方法,其中第二寡核苷酸种类的每一个的第四侧翼区域包含第二引物结合结构域。
[0445]
a42.根据实施方案a25至a41中任一项所述的方法,其中第二寡核苷酸种类的每一个的第四侧翼区域包含第二测序衔接子或其部分。
[0446]
a43.根据实施方案a25至a42中任一项所述的方法,其中第二寡核苷酸种类的每一个的第四侧翼区域包含索引。
[0447]
a44.根据实施方案a25至a43中任一项所述的方法,包括在组合之前,使多个第二寡核苷酸种类和/或多个第二支架多核苷酸种类与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,多个第二寡核苷酸种类和/或多个第二支架多核苷酸种类被去磷酸化,从而生成去磷酸化的第二寡核苷酸种类和/或去磷酸化的第二支架多核苷酸种类。
[0448]
a44.1根据实施方案a25至a43中任一项所述的方法,其中在组合之前,多个第二寡核苷酸种类和/或多个第二支架多核苷酸种类不与包含磷酸酶活性的剂在其中多个第二寡核苷酸种类和/或多个第二支架多核苷酸种类被去磷酸化的条件下接触。
[0449]
a45.根据实施方案a25至a44中任一项所述的方法,其中在组合之前,第二支架多核苷酸种类的每一个与第二寡核苷酸种类杂交以形成多个第二支架双链体种类。
[0450]
a46.根据实施方案a25至a45中任一项所述的方法,还包括将第一寡核苷酸种类和第一ssna末端区域的相邻末端共价连接,以及将第二寡核苷酸种类和第二ssna末端区域的相邻末端共价连接,从而生成共价连接的杂交产物。
[0451]
a47.根据实施方案a46所述的方法,其中共价连接包括使杂交产物与包含连接酶活性的剂在以下条件下接触,在所述条件中,第一ssna末端区域的末端与第一寡核苷酸种类的末端共价连接并且第二ssna末端区域的末端与第二寡核苷酸种类的末端共价连接。
[0452]
a48.根据实施方案a1至a47中任一项所述的方法,其中第一多核苷酸种类的每一个的ssna杂交区域不同于多个第一多核苷酸种类中其他第一多核苷酸种类的ssna杂交区域。
[0453]
a49.根据实施方案a25至a48中任一项所述的方法,其中第二多核苷酸种类的每一个的ssna杂交区域不同于多个第二多核苷酸种类中其他第二多核苷酸种类的ssna杂交区域。
[0454]
a50.根据实施方案a1至a49中任一项所述的方法,其中ssna杂交区域包含随机序列。
[0455]
a51.根据实施方案a22至a50中任一项所述的方法,还包括使共价连接的杂交产物变性,从而生成单链连接产物。
[0456]
a52.根据实施方案a51所述的方法,还包括扩增单链连接产物,从而生成扩增的连接产物。
[0457]
a53.根据实施方案a52所述的方法,还包括对扩增的连接产物进行测序。
[0458]
a54.根据实施方案a51所述的方法,其中单链连接产物不被扩增。
[0459]
a55.根据实施方案a54所述的方法,还包括对单链连接产物进行测序。
[0460]
a56.根据实施方案a1至a55中任一项所述的方法,其中核酸组合物包含单链dna(ssdna)。
[0461]
a57.根据实施方案a56所述的方法,其中ssdna源自双链dna(dsdna)。
[0462]
a57.1根据实施方案a57所述的方法,其中ssdna源自包含带切口的双链dna(dsdna)的dsdna。
[0463]
a58.根据实施方案a57或a57.1所述的方法,包括在组合之前,使dsdna变性,从而生成ssdna。
[0464]
a59.根据实施方案a1至a55中任一项所述的方法,其中核酸组合物包含单链rna(ssrna)。
[0465]
a60.根据实施方案a1至a59中任一项所述的方法,其中ssna在组合之前未被修饰。
[0466]
a61.根据实施方案a1至a60中任一项所述的方法,其中当将ssna与多个第一寡核苷酸种类和多个第一支架多核苷酸种类组合时,ssna的一个或两个天然末端存在。
[0467]
a62.根据实施方案a1至a61中任一项所述的方法,其中ssna来自无细胞核酸。
[0468]
a63.根据实施方案a1至a61中任一项所述的方法,还包括将ssna中的一个或多个未甲基化的胞嘧啶残基脱氨基,从而将一个或多个未甲基化的胞嘧啶残基转化为尿嘧啶。
[0469]
a64.根据实施方案a63所述的方法,其中在将(i)包含ssna的核酸组合物、(ii)多个第一寡核苷酸种类和(iii)多个第一支架多核苷酸种类组合之前进行脱氨基。
[0470]
a65.根据实施方案a64所述的方法,其中在将核酸组合物与(iv)第二寡核苷酸和(v)多个第二支架多核苷酸种类组合之前进行脱氨基。
[0471]
a66.根据实施方案a63所述的方法,其中在将(i)包含ssna的核酸组合物、(ii)多个第一寡核苷酸种类和(iii)多个第一支架多核苷酸种类组合之后进行脱氨基。
[0472]
a67.根据实施方案a66所述的方法,其中在将核酸组合物与(iv)第二寡核苷酸和(v)多个第二支架多核苷酸种类组合之后进行脱氨基。
[0473]
a68.根据实施方案a66或a67所述的方法,其中多个第一寡核苷酸种类中的每个寡核苷酸包含一个或多个甲基化的胞嘧啶残基。
[0474]
a69.根据实施方案a66至a68中任一项所述的方法,其中多个第一支架多核苷酸种类中的每个多核苷酸包含一个或多个甲基化的胞嘧啶残基。
[0475]
a70.根据实施方案a67至a69中任一项所述的方法,其中第二寡核苷酸包含一个或多个甲基化的胞嘧啶残基。
[0476]
a71.根据实施方案a67至a70中任一项所述的方法,其中多个第二支架多核苷酸种类中的每个多核苷酸包含一个或多个甲基化的胞嘧啶残基。
[0477]
a72.根据实施方案a63至a71中任一项所述的方法,其中脱氨基包括亚硫酸氢钠的使用。
[0478]
a73.根据实施方案a63至a71中任一项所述的方法,其中脱氨基包括脱氨酶的使用。
[0479]
b1.一种组合物,所述组合物包含:
[0480]
多个第一寡核苷酸种类,每个第一寡核苷酸种类包含第一独特分子标识符(umi),其侧翼为第一侧翼区域和第二侧翼区域;和
[0481]
多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含ssna杂交区域和第一寡核苷酸杂交区域,其中第一寡核苷酸杂交区域包含(i)与第一侧翼区域互补的多核苷酸,和(ii)与第二侧翼区域互补的多核苷酸。
[0482]
b1.1根据实施方案b1所述的组合物,其中第一寡核苷酸杂交区域包含(iii)对应于第一umi的区域。
[0483]
b1.2根据实施方案b1.1所述的组合物,其中对应于第一umi的区域包含与第一umi互补的多核苷酸。
[0484]
b1.3根据实施方案b1.1所述的组合物,其中对应于第一umi的区域包含不与第一
umi互补的多核苷酸。
[0485]
b2.根据实施方案b1至b1.3中任一项所述的组合物,其中第一寡核苷酸种类的每一个的第一umi包含随机核苷酸序列。
[0486]
b2.1根据实施方案b1至b1.3中任一项所述的组合物,其中第一寡核苷酸种类的每一个的第一umi包含非随机核苷酸序列。
[0487]
b3.根据实施方案b1至b2.1中任一项所述的组合物,其中第一umi包含三至十个核苷酸。
[0488]
b4.根据实施方案b3所述的组合物,其中第一umi包含五个核苷酸。
[0489]
b5.根据实施方案b1至b4中任一项所述的组合物,其中第一寡核苷酸种类的每一个的第一侧翼区域包含非随机序列。
[0490]
b6.根据实施方案b1至b5中任一项所述的组合物,其中第一寡核苷酸种类的每一个的第一侧翼区域包含来自非随机序列种类的汇集物的非随机序列种类。
[0491]
b7.根据实施方案b6所述的组合物,其中非随机序列种类的汇集物包含两种或更多种非随机序列种类。
[0492]
b8.根据实施方案b6所述的组合物,其中非随机序列种类的汇集物包含三种或更多种非随机序列种类。
[0493]
b9.根据实施方案b6所述的组合物,其中非随机序列种类的汇集物包含四种或更多种非随机序列种类。
[0494]
b10.根据实施方案b6所述的组合物,其中非随机序列种类的汇集物包含五种或更多种非随机序列种类。
[0495]
b11.根据实施方案b6所述的组合物,其中非随机序列种类的汇集物包含六种或更多种非随机序列种类。
[0496]
b12.根据实施方案b6所述的组合物,其中非随机序列种类的汇集物包含四种非随机序列种类。
[0497]
b13.根据实施方案b1至b12中任一项所述的组合物,其中第一侧翼区域包含八至十五个核苷酸。
[0498]
b14.根据实施方案b13所述的组合物,其中第一侧翼区域包含十个核苷酸。
[0499]
b15.根据实施方案b1至b14中任一项所述的组合物,其中第一侧翼区域包含约70%的鸟嘌呤和胞嘧啶核苷酸。
[0500]
b15.1根据实施方案b1至b14中任一项所述的组合物,其中第一侧翼区域包含约90%的鸟嘌呤和胞嘧啶核苷酸。
[0501]
b15.2根据实施方案b1至b15.1中任一项所述的组合物,其中第一侧翼区域具有等于或大于约38℃的解链温度。
[0502]
b15.3根据实施方案b1至b15.1中任一项所述的组合物,其中第一侧翼区域具有等于或大于约45℃的解链温度。
[0503]
b16.根据实施方案b1至b15.3中任一项所述的组合物,其中第一寡核苷酸种类的每一个的第二侧翼区域包含非随机序列。
[0504]
b17.根据实施方案b1至b16中任一项所述的组合物,其中第一寡核苷酸种类的每一个的第二侧翼区域包含第一引物结合结构域。
[0505]
b18.根据实施方案b1至b17中任一项所述的组合物,其中第一寡核苷酸种类的每一个的第二侧翼区域包含第一测序衔接子或其部分。
[0506]
b19.根据实施方案b1至b18中任一项所述的组合物,其中第一寡核苷酸种类的每一个的第二侧翼区域包含索引。
[0507]
b20.根据实施方案b1至b19中任一项所述的组合物,所述组合物还包含:
[0508]
第二寡核苷酸;和
[0509]
多个第二支架多核苷酸种类,每个第二支架多核苷酸种类包含ssna杂交区域和第二寡核苷酸杂交区域。
[0510]
b20.1根据实施方案b20所述的组合物,其中第二寡核苷酸在末端处包含含有至少约70%的鸟嘌呤和胞嘧啶核苷酸的区域。
[0511]
b20.2根据实施方案b20所述的组合物,其中第二寡核苷酸在末端处包含含有至少约90%的鸟嘌呤和胞嘧啶核苷酸的区域。
[0512]
b21.根据实施方案b1至b19中任一项所述的组合物,所述组合物还包含:
[0513]
多个第二寡核苷酸种类,每个第二寡核苷酸种类包含第二独特分子标识符(umi),其侧翼为第三侧翼区域和第四侧翼区域;和
[0514]
多个第二支架多核苷酸种类,每个第二支架多核苷酸种类包含ssna杂交区域和第二寡核苷酸杂交区域,其中第二寡核苷酸杂交区域包含(i)与第三侧翼区域互补的多核苷酸,和(ii)与第四侧翼区域互补的多核苷酸。
[0515]
b21.1根据实施方案b21所述的组合物,其中第二寡核苷酸杂交区域包含(iii)对应于第二umi的区域。
[0516]
b21.2根据实施方案b21.1所述的组合物,其中对应于第二umi的区域包含与第二umi互补的多核苷酸。
[0517]
b21.3根据实施方案b21.1所述的组合物,其中对应于第二umi的区域包含不与第二umi互补的多核苷酸。
[0518]
b22.根据实施方案b21至b21.3中任一项所述的组合物,其中第二寡核苷酸种类的每一个的第二umi包含随机核苷酸序列。
[0519]
b22.1根据实施方案b21至b21.3中任一项所述的组合物,其中第二寡核苷酸种类的每一个的第二umi包含非随机核苷酸序列。
[0520]
b23.根据实施方案b21至b22.1中任一项所述的组合物,其中第二umi包含三至十个核苷酸。
[0521]
b24.根据实施方案b23所述的组合物,其中第二umi包含五个核苷酸。
[0522]
b25.根据实施方案b21至b24中任一项所述的组合物,其中第二寡核苷酸种类的每一个的第三侧翼区域包含非随机序列。
[0523]
b26.根据实施方案b21至b25中任一项所述的组合物,其中第二寡核苷酸种类的每一个的第三侧翼区域包含来自非随机序列种类的汇集物的非随机序列种类。
[0524]
b27.根据实施方案b26所述的组合物,其中非随机序列种类的汇集物包含两种或更多种非随机序列种类。
[0525]
b28.根据实施方案b26所述的组合物,其中非随机序列种类的汇集物包含三种或更多种非随机序列种类。
[0526]
b29.根据实施方案b26所述的组合物,其中非随机序列种类的汇集物包含四种或更多种非随机序列种类。
[0527]
b30.根据实施方案b26所述的组合物,其中非随机序列种类的汇集物包含五种或更多种非随机序列种类。
[0528]
b31.根据实施方案b26所述的组合物,其中非随机序列种类的汇集物包含六种或更多种非随机序列种类。
[0529]
b32.根据实施方案b26所述的组合物,其中非随机序列种类的汇集物包含四种非随机序列种类。
[0530]
b33.根据实施方案b21至b32中任一项所述的组合物,其中第三侧翼区域包含八至十五个核苷酸。
[0531]
b34.根据实施方案b33所述的组合物,其中第三侧翼区域包含十个核苷酸。
[0532]
b35.根据实施方案b21至b34中任一项所述的组合物,其中第三侧翼区域包含约70%的鸟嘌呤和胞嘧啶核苷酸。
[0533]
b35.1根据实施方案b21至b34中任一项所述的组合物,其中第三侧翼区域包含约90%的鸟嘌呤和胞嘧啶核苷酸。
[0534]
b35.2根据实施方案b21至b35.1中任一项所述的组合物,其中第三侧翼区域具有等于或大于约38℃的解链温度。
[0535]
b35.3根据实施方案b21至b35.1中任一项所述的组合物,其中第三侧翼区域具有等于或大于约45℃的解链温度。
[0536]
b36.根据实施方案b21至b35.3中任一项所述的组合物,其中第二寡核苷酸种类的每一个的第四侧翼区域包含非随机序列。
[0537]
b37.根据实施方案b21至b36中任一项所述的组合物,其中第二寡核苷酸种类的每一个的第四侧翼区域包含第二引物结合结构域。
[0538]
b38.根据实施方案b21至b37中任一项所述的组合物,其中第二寡核苷酸种类的每一个的第四侧翼区域包含第二测序衔接子或其部分。
[0539]
b39.根据实施方案b21至b38中任一项所述的组合物,其中第二寡核苷酸种类的每一个的第四侧翼区域包含索引。
[0540]
b40.根据实施方案b1至b39中任一项所述的组合物,其中第一多核苷酸种类的每一个的ssna杂交区域不同于多个第一多核苷酸种类中其他第一多核苷酸种类的ssna杂交区域。
[0541]
b41.根据实施方案b21至b40中任一项所述的组合物,其中第二多核苷酸种类的每一个的ssna杂交区域不同于多个第二多核苷酸种类中其他第二多核苷酸种类的ssna杂交区域。
[0542]
b42.根据实施方案b1至b41中任一项所述的组合物,其中ssna杂交区域包含随机序列。
[0543]
b43.根据实施方案b1至b42中任一项所述的组合物,其中多个第一寡核苷酸种类和//或多个第一支架多核苷酸种类被去磷酸化。
[0544]
b44.根据实施方案b21至b43中任一项所述的组合物,其中多个第二寡核苷酸种类和/或多个第二支架多核苷酸种类被去磷酸化。
[0545]
b45.根据实施方案b1至b44中任一项所述的组合物,所述组合物包含多个第一支架双链体种类,其中第一支架多核苷酸种类的每一个与第一寡核苷酸种类杂交。
[0546]
b46.根据实施方案b45所述的组合物,其中多个第一支架双链体种类被去磷酸化。
[0547]
b47.根据实施方案b21至b46中任一项所述的组合物,所述组合物包含多个第二支架双链体种类,其中第二支架多核苷酸种类的每一个与第二寡核苷酸种类杂交。
[0548]
b48.根据实施方案b47所述的组合物,其中多个第二支架双链体种类被去磷酸化。
[0549]
b49.根据实施方案b1至b48中任一项所述的组合物,所述组合物还包含用于将寡核苷酸的末端与ssna末端区域的末端共价连接的剂。
[0550]
b50.根据实施方案b49所述的组合物,其中剂是连接酶。
[0551]
b51.根据实施方案b1至b50中任一项所述的组合物,所述组合物还包含单链核酸(ssna)。
[0552]
b52.根据实施方案b51所述的组合物,其中ssna包括单链dna(ssdna)。
[0553]
b53.根据实施方案b52所述的组合物,其中ssdna源自双链dna(dsdna)。
[0554]
b53.1根据实施方案b53所述的组合物,其中ssdna源自包含带切口的双链dna(dsdna)的dsdna。
[0555]
b54.根据实施方案b51所述的组合物,其中ssna包括单链rna(ssrna)。
[0556]
b55.根据实施方案b51至b54中任一项所述的组合物,其中ssna是未修饰的ssna。
[0557]
b56.根据实施方案b51至b55中任一项所述的组合物,其中ssna在一端或两端包含天然末端。
[0558]
b57.根据实施方案b51至b56中任一项所述的组合物,其中ssna来自无细胞核酸。
[0559]
b58.根据实施方案b1至b57中任一项所述的组合物,其中多个第一寡核苷酸种类中的每个寡核苷酸包含一个或多个甲基化的胞嘧啶残基。
[0560]
b59.根据实施方案b1至b58中任一项所述的组合物,其中多个第一支架多核苷酸种类中的每个多核苷酸包含一个或多个甲基化的胞嘧啶残基。
[0561]
b60.根据实施方案b20至b59中任一项所述的组合物,其中第二寡核苷酸包含一个或多个甲基化的胞嘧啶残基。
[0562]
b61.根据实施方案b20至b60中任一项所述的组合物,其中多个第二支架多核苷酸种类中的每个多核苷酸包含一个或多个甲基化的胞嘧啶残基。
[0563]
b62.一种试剂盒,所述试剂盒包含根据实施方案b1至b61中任一项所述的组合物和使用说明。
[0564]
b63.根据实施方案b62所述的试剂盒,所述试剂盒还包含亚硫酸氢钠。
[0565]
b64.根据实施方案b63所述的试剂盒,所述试剂盒还包含脱氨酶。
[0566]
c1.一种产生核酸文库的方法,包括:
[0567]
(a)使包含单链核糖核酸(ssrna)和双链脱氧核糖核酸(dsdna)的第一混合物中的ssrna与引物寡核苷酸和包含逆转录酶活性的剂接触,从而生成包含互补脱氧核糖核酸(cdna)-rna双链体和dsdna的第二混合物,其中引物寡核苷酸包含rna特异性标签,并且其中cdna包含rna特异性标签,且dsdna不包含rna特异性标签;
[0568]
(b)从cdna-rna双链体和dsdna生成单链cdna(sscdna)和单链dna(ssdna),从而生成包含sscdna和ssdna的核酸组合物;
[0569]
(c)将核酸组合物与第一寡核苷酸和多个第一支架多核苷酸种类组合,其中:
[0570]
(i)多个第一支架多核苷酸种类中的每个多核苷酸包含sscdna杂交区域或ssdna杂交区域和第一寡核苷酸杂交区域;和
[0571]
(ii)将核酸组合物、第一寡核苷酸和多个第一支架多核苷酸种类在以下条件下组合,在所述条件中,第一支架多核苷酸种类的分子与(1)第一sscdna末端区域或第一ssdna末端区域和(2)第一寡核苷酸的分子杂交,从而形成杂交产物,其中第一寡核苷酸的分子的末端与第一sscdna末端区域或第一ssdna末端区域的末端相邻。
[0572]
c2.根据实施方案c1所述的方法,其中引物寡核苷酸包含随机六聚体。
[0573]
c3.根据实施方案c1或c2所述的方法,其中rna特异性标签包含约5至约15个核苷酸。
[0574]
c4.根据实施方案c1至c3中任一项所述的方法,其中(b)包括使cdna-rna双链体与包含rna酶活性的剂接触,从而消化rna并生成sscdna产物。
[0575]
c5.根据实施方案c1至c4中任一项所述的方法,其中(b)包括使cdna-rna双链体和/或dsdna变性,从而生成sscdna和/或ssdna。
[0576]
c6.根据实施方案c1至c5中任一项所述的方法,其中(b)还包括使sscdna和ssdna与单链核酸结合剂接触。
[0577]
c7.根据实施方案c1至c6中任一项所述的方法,其中(b)还包括使sscdna和ssdna与单链核酸结合蛋白(ssb)接触以产生ssb结合的sscdna和ssb结合的ssdna。
[0578]
c8.根据实施方案c1至c7中任一项所述的方法,包括在(c)之前,使第一寡核苷酸和/或多个第一支架多核苷酸种类与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,第一寡核苷酸和/或多个第一支架多核苷酸种类被去磷酸化,从而生成去磷酸化的第一寡核苷酸和/或去磷酸化的第一支架多核苷酸种类。
[0579]
c9.根据实施方案c1至c7中任一项所述的方法,其中在(c)之前,第一寡核苷酸和/或多个第一支架多核苷酸种类不与包含磷酸酶活性的剂接触。
[0580]
c10.根据实施方案c1至c9中任一项所述的方法,其中在(c)之前,第一支架多核苷酸种类的每一个与第一寡核苷酸杂交以形成多个第一支架双链体种类。
[0581]
c11.根据实施方案c1至c10中任一项所述的方法,还包括将第一寡核苷酸和第一sscdna末端区域或第一ssdna末端区域的相邻末端共价连接,从而生成共价连接的杂交产物。
[0582]
c12.根据实施方案c11所述的方法,其中共价连接包括使杂交产物与包含连接酶活性的剂在其中第一sscdna末端区域或第一ssdna末端区域的末端共价连接至第一寡核苷酸的末端的条件下接触。
[0583]
c13.根据实施方案c1至c12中任一项所述的方法,还包括将核酸组合物与第二寡核苷酸和多个第二支架多核苷酸种类组合,其中:
[0584]
(iii)多个第二支架多核苷酸种类中的每个多核苷酸包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域;和
[0585]
(iv)将核酸组合物、第二寡核苷酸和多个第二支架多核苷酸种类在以下条件下组合,在所述条件中,第二支架多核苷酸种类的分子与(1)第二sscdna末端区域或第二ssdna末端区域和(2)第二寡核苷酸的分子杂交,从而形成杂交产物,其中第二寡核苷酸的分子的
末端与第二sscdna末端区域或第二ssdna末端区域的末端相邻。
[0586]
c14.根据实施方案c13所述的方法,包括在(c)之前,使第二寡核苷酸和/或多个第二支架多核苷酸种类与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,第二寡核苷酸和/或多个第二支架多核苷酸种类被去磷酸化,从而生成去磷酸化的第二寡核苷酸和/或去磷酸化的第二支架多核苷酸种类。
[0587]
c15.根据实施方案c13所述的方法,其中在(c)之前,第二寡核苷酸和/或多个第二支架多核苷酸种类不与包含磷酸酶活性的剂接触。
[0588]
c16.根据实施方案c13至c15中任一项所述的方法,其中在(c)之前,第二支架多核苷酸种类的每一个与第二寡核苷酸杂交以形成多个第二支架双链体种类。
[0589]
c17.根据实施方案c13至c15中任一项所述的方法,还包括将第一寡核苷酸和第一sscdna末端区域或第一ssdna末端区域的相邻末端共价连接,以及将第二寡核苷酸和第二sscdna末端区域或第二ssdna末端区域的相邻末端共价连接,从而生成共价连接的杂交产物。
[0590]
c18.根据实施方案c17所述的方法,其中共价连接包括使杂交产物与包含连接酶活性的剂在以下条件下接触,在所述条件中,第一sscdna末端区域或第一ssdna末端区域的末端与第一寡核苷酸的末端共价连接并且第二sscdna末端区域或第二ssdna末端区域的末端与第二寡核苷酸的末端共价连接。
[0591]
c19.根据实施方案c1至c18中任一项所述的方法,其中第一多核苷酸种类的每一个的sscdna杂交区域或ssdna杂交区域不同于多个第一多核苷酸种类中其他第一多核苷酸种类中的sscdna杂交区域或ssdna杂交区域。
[0592]
c29.根据实施方案c13至c18中任一项所述的方法,其中第二多核苷酸种类的每一个的sscdna杂交区域或ssdna杂交区域不同于多个第二多核苷酸种类中其他第二多核苷酸种类中的sscdna杂交区域或ssdna杂交区域。
[0593]
c30.根据实施方案c1至c29中任一项所述的方法,其中sscdna杂交区域和/或ssdna杂交区域包含随机序列。
[0594]
c31.根据实施方案c11至c30中任一项所述的方法,还包括使共价连接的杂交产物变性,从而生成单链连接产物。
[0595]
c32.根据实施方案c31所述的方法,还包括扩增单链连接产物,从而生成扩增的连接产物。
[0596]
c33.根据实施方案c32所述的方法,还包括对扩增的连接产物进行测序,从而生成核酸序列读段。
[0597]
c34.根据实施方案c33所述的方法,还包括分配核酸序列读段的来源。
[0598]
c35.根据实施方案c34所述的方法,其中所述来源是第一混合物中的ssrna或第一混合物中的dsdna。
[0599]
c36.根据实施方案c34或c35所述的方法,其中分配来源包括鉴定包含rna特异性标签的序列读段。
[0600]
c37.根据实施方案c36所述的方法,其中将包含rna特异性标签的序列读段分配至ssrna,并将不包含rna特异性标签的序列读段分配至dsdna。
[0601]
d1.一种组合物,所述组合物包含:
[0602]
核酸组合物,其包含单链互补脱氧核糖核酸(sscdna)和单链脱氧核糖核酸(ssdna),其中sscdna包含rna特异性标签;
[0603]
第一寡核苷酸;和
[0604]
多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含sscdna杂交区域或ssdna杂交区域和第一寡核苷酸杂交区域。
[0605]
d2.根据实施方案d1所述的组合物,还包含:
[0606]
第二寡核苷酸;和
[0607]
多个第二支架多核苷酸种类,每个第二支架多核苷酸种类包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域。
[0608]
d3.根据实施方案d1或d2所述的组合物,其中rna特异性标签包含约5至约15个核苷酸。
[0609]
d4.根据实施方案d1至d3中任一项所述的组合物,其中sscdna包括ssb结合的sscdna,并且ssdna包括ssb结合的ssdna。
[0610]
d5.根据实施方案d1至d4中任一项所述的组合物,所述组合物包含多个第一支架双链体种类,其中第一支架多核苷酸种类的每一个与第一寡核苷酸杂交。
[0611]
d6.根据实施方案d2至d5中任一项所述的组合物,所述组合物包含多个第二支架双链体种类,其中第二支架多核苷酸种类的每一个与第二寡核苷酸杂交。
[0612]
d7.根据实施方案d1至d6中任一项所述的组合物,还包含含有连接酶活性的剂。
[0613]
d8.根据实施方案d1至d7中任一项所述的组合物,其中第一多核苷酸种类的每一个的sscdna杂交区域或ssdna杂交区域不同于多个第一多核苷酸种类中其他第一多核苷酸种类中的sscdna杂交区域或ssdna杂交区域。
[0614]
d9.根据实施方案d2至d8中任一项所述的组合物,其中第二多核苷酸种类的每一个的sscdna杂交区域或ssdna杂交区域不同于多个第二多核苷酸种类中其他第二多核苷酸种类中的sscdna杂交区域或ssdna杂交区域。
[0615]
d10.根据实施方案d1至d9中任一项所述的组合物,其中sscdna杂交区域或ssdna杂交区域包含随机序列。
[0616]
d11.一种试剂盒,所述试剂盒包含根据实施方案d1至d10中任一项所述的组合物和使用说明。
[0617]
d12.一种试剂盒,所述试剂盒包含:
[0618]
引物寡核苷酸,其包含rna特异性标签;
[0619]
第一寡核苷酸;
[0620]
多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含sscdna杂交区域或ssdna杂交区域和第一寡核苷酸杂交区域;和
[0621]
使用说明。
[0622]
d13.根据实施方案d12所述的试剂盒,还包含:
[0623]
第二寡核苷酸;和
[0624]
多个第二支架多核苷酸种类,每个第二支架多核苷酸种类包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域。
[0625]
d14.根据实施方案d12或d13所述的试剂盒,其中引物寡核苷酸包含随机六聚体。
[0626]
d15.根据实施方案d12至d14中任一项所述的试剂盒,其中rna特异性标签包含约5至约15个核苷酸。
[0627]
d16.根据实施方案d12至d15中任一项所述的试剂盒,所述试剂盒还包含单链核酸结合剂。
[0628]
d17.根据实施方案d16所述的试剂盒,其中单链核酸结合剂是单链核酸结合蛋白(ssb)。
[0629]
d18.根据实施方案d12至d17中任一项所述的试剂盒,还包含含有逆转录酶活性的剂。
[0630]
d19.根据实施方案d12至d18中任一项所述的试剂盒,还包含含有rna酶活性的剂。
[0631]
d20.根据实施方案d12至d19中任一项所述的试剂盒,所述试剂盒包含多个第一支架双链体种类,其中第一支架多核苷酸种类的每一个与第一寡核苷酸杂交。
[0632]
d21.根据实施方案d13至d20中任一项所述的试剂盒,所述试剂盒包含多个第二支架双链体种类,其中第二支架多核苷酸种类的每一个与第二寡核苷酸杂交。
[0633]
d22.根据实施方案d12至d21中任一项所述的试剂盒,还包含含有连接酶活性的剂。
[0634]
d23.根据实施方案d12至d22中任一项所述的试剂盒,其中第一多核苷酸种类的每一个的sscdna杂交区域或ssdna杂交区域不同于多个第一多核苷酸种类中其他第一多核苷酸种类中的sscdna杂交区域或ssdna杂交区域。
[0635]
d24.根据实施方案d13至d23中任一项所述的试剂盒,其中第二多核苷酸种类的每一个的sscdna杂交区域或ssdna杂交区域不同于多个第二多核苷酸种类中其他第二多核苷酸种类中的sscdna杂交区域或ssdna杂交区域。
[0636]
d25.根据实施方案d12至d24中任一项所述的试剂盒,其中sscdna杂交区域或ssdna杂交区域包含随机序列。
[0637]
e1.一种产生核酸文库的方法,包括:
[0638]
将(i)包含单链核糖核酸(ssrna)和单链脱氧核糖核酸(ssdna)的核酸组合物、(ii)第一寡核苷酸、(iii)多个第一支架多核苷酸种类、(iv)第二寡核苷酸和(v)多个第二支架多核苷酸种类组合,其中:
[0639]
(a)第一寡核苷酸包含rna特异性标签;
[0640]
(b)第二寡核苷酸包含dna特异性标签;
[0641]
(c)多个第一支架多核苷酸种类中的每个多核苷酸包含ssrna杂交区域和第一寡核苷酸杂交区域;
[0642]
(d)多个第二支架多核苷酸种类中的每个多核苷酸包含ssdna杂交区域和第二寡核苷酸杂交区域;和
[0643]
(e)将核酸组合物、第一寡核苷酸、多个第一支架多核苷酸种类、第二寡核苷酸和多个第二支架多核苷酸种类在以下条件下组合,在所述条件中:
[0644]
第一支架多核苷酸种类的分子与(i)第一ssrna末端区域和(ii)第一寡核苷酸的分子杂交,从而形成第一组杂交产物,其中第一寡核苷酸的分子的末端与第一ssrna末端区域的末端相邻;和
[0645]
第二支架多核苷酸种类的分子与(i)第一ssdna末端区域和(ii)第二寡核苷酸的
分子杂交,从而形成第二组杂交产物,其中第二寡核苷酸的分子的末端与第一ssdna末端区域的末端相邻。
[0646]
e2.根据实施方案e1所述的方法,其中第一支架多核苷酸种类的分子与(i)第一ssrna末端区域和(ii)第一寡核苷酸的分子杂交,从而形成杂交产物,其中第一寡核苷酸中rna特异性标签的末端与第一ssrna末端区域的末端相邻。
[0647]
e3.根据实施方案e1或e2所述的方法,其中第二支架多核苷酸种类的分子与(i)第一ssdna末端区域和(ii)第二寡核苷酸的分子杂交,从而形成杂交产物,其中第二寡核苷酸中dna特异性标签的末端与第一ssdna末端区域的末端相邻。
[0648]
e4.根据实施方案e1至e3中任一项所述的方法,其中第一寡核苷酸包含rna,且第二寡核苷酸包含dna。
[0649]
e4.1根据实施方案e1至e3中任一项所述的方法,其中第一寡核苷酸由rna组成,且第二寡核苷酸由dna组成。
[0650]
e5.根据实施方案e1至e4.1中任一项所述的方法,其中rna特异性标签包含约5至约15个核苷酸。
[0651]
e6.根据实施方案e1至e5中任一项所述的方法,其中dna特异性标签包含约5至约15个核苷酸。
[0652]
e7.根据实施方案e1至e6中任一项所述的方法,其中rna特异性标签和dna特异性标签包含不同的序列。
[0653]
e8.根据实施方案e1至e7中任一项所述的方法,其中rna特异性标签和dna特异性标签包含不同的长度。
[0654]
e9.根据实施方案e1至e8中任一项所述的方法,其中rna特异性标签和dna特异性标签包含不同的可检测标记物。
[0655]
e10.根据实施方案e1至e9中任一项所述的方法,包括在组合之前,使dsdna变性,从而生成ssdna。
[0656]
e11.根据实施方案e10所述的方法,包括在变性之后且在组合之前,使ssrna和ssdna与单链核酸结合剂接触。
[0657]
e12.根据实施方案e10或e11所述的方法,包括在变性之后且在组合之前,使ssrna和ssdna与单链核酸结合蛋白(ssb)接触,以产生ssb结合的ssrna和ssb结合的ssdna。
[0658]
e13.根据实施方案e1至e12中任一项所述的方法,包括在组合之前,使第一寡核苷酸、多个第一支架多核苷酸种类、第二寡核苷酸和/或多个第二支架多核苷酸种类与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,第一寡核苷酸、多个第一支架多核苷酸种类、第二寡核苷酸和/或多个第二支架多核苷酸种类被去磷酸化,从而生成去磷酸化的第一寡核苷酸、去磷酸化的第一支架多核苷酸种类、去磷酸化的第二寡核苷酸和/或去磷酸化的第二支架多核苷酸种类。
[0659]
e14.根据实施方案e1至e12中任一项所述的方法,其中在组合之前,第一寡核苷酸、多个第一支架多核苷酸种类、第二寡核苷酸和/或多个第二支架多核苷酸种类不与包含磷酸酶活性的剂接触。
[0660]
e15.根据实施方案e1至e14中任一项所述的方法,其中在组合之前,第一支架多核苷酸种类的每一个与第一寡核苷酸杂交以形成多个第一支架双链体种类,和/或第二支架
多核苷酸种类的每一个与第二寡核苷酸杂交以形成多个第二支架双链体种类。
[0661]
e16.根据实施方案e1至e15中任一项所述的方法,还包括将第一寡核苷酸和第一ssrna末端区域的相邻末端共价连接,从而生成第一组共价连接的杂交产物,以及将第二寡核苷酸和第一ssdna末端区域的相邻末端共价连接,从而生成第二组共价连接的杂交产物。
[0662]
e17.根据实施方案e16所述的方法,其中共价连接包括使第一组杂交产物和第二组杂交产物与包含连接酶活性的一种或多种剂在以下条件下接触,在所述条件中,第一ssrna末端区域的末端与第一寡核苷酸的末端共价连接,且第一ssdna末端区域的末端与第二寡核苷酸的末端共价连接。
[0663]
e17.1根据实施方案e17所述的方法,其中包含连接酶活性的一种或多种剂选自t4 rna连接酶1、t4 rna连接酶2、截短的t4 rna连接酶2、热稳定的5
′
app dna/rna连接酶和t4 dna连接酶。
[0664]
e18.根据实施方案e1至e17.1中任一项所述的方法,还包括将核酸组合物与(vi)第三寡核苷酸、(vii)多个第三支架多核苷酸种类、(viii)第四寡核苷酸和(ix)多个第四支架多核苷酸种类组合,其中:
[0665]
(f)多个第三支架多核苷酸种类中的每个多核苷酸包含ssrna杂交区域和第三寡核苷酸杂交区域;
[0666]
(g)多个第四支架多核苷酸种类中的每个多核苷酸包含ssdna杂交区域和第四寡核苷酸杂交区域;
[0667]
(h)将核酸组合物、第三寡核苷酸、多个第三支架多核苷酸种类、第四寡核苷酸和多个第四支架多核苷酸种类在以下条件下组合,在所述条件中:
[0668]
第三支架多核苷酸种类的分子与(i)第二ssrna末端区域和(ii)第三寡核苷酸的分子杂交,从而形成第三组杂交产物,其中第三寡核苷酸的分子的末端与第二ssrna末端区域的末端相邻;和
[0669]
第四支架多核苷酸种类的分子与(i)第二ssdna末端区域和(ii)第四寡核苷酸的分子杂交,从而形成第四组杂交产物,其中第四寡核苷酸的分子的末端与第二ssdna末端区域的末端相邻。
[0670]
e19.根据实施方案e18所述的方法,包括在组合之前,使第三寡核苷酸、多个第三支架多核苷酸种类、第四寡核苷酸和/或多个第四支架多核苷酸种类与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,第三寡核苷酸、多个第三支架多核苷酸种类、第四寡核苷酸和/或多个第四支架多核苷酸种类被去磷酸化,从而生成去磷酸化的第三寡核苷酸、去磷酸化的第三支架多核苷酸种类、去磷酸化的第四寡核苷酸和/或去磷酸化的第四支架多核苷酸种类。
[0671]
e20.根据实施方案e18所述的方法,其中在组合之前,第三寡核苷酸、多个第三支架多核苷酸种类、第四寡核苷酸和/或多个第四支架多核苷酸种类不与包含磷酸酶活性的剂接触。
[0672]
e21.根据实施方案e18至e20中任一项所述的方法,其中在组合之前,第三支架多核苷酸种类的每一个与第三寡核苷酸杂交以形成多个第三支架双链体种类,和/或第四支架多核苷酸种类的每一个与第四寡核苷酸杂交以形成多个第四支架双链体种类。
[0673]
e22.根据实施方案e18至e21中任一项所述的方法,还包括将第一寡核苷酸和第一
ssrna末端区域的相邻末端共价连接,以及将第三寡核苷酸和第二ssrna末端区域的相邻末端共价连接,从而生成第三组共价连接的杂交产物;和将第二寡核苷酸和第一ssdna末端区域的相邻末端共价连接,以及将第四寡核苷酸和第二ssdna末端区域的相邻末端共价连接,从而生成第四组共价连接的杂交产物。
[0674]
e23.根据实施方案e22所述的方法,其中共价连接包括使第三组杂交产物与包含连接酶活性的剂在以下条件下接触,在所述条件中,第一ssrna末端区域的末端与第一寡核苷酸的末端共价连接且第二ssrna末端区域的末端与第三寡核苷酸的末端共价连接;和使第四组杂交产物与包含连接酶活性的剂在以下条件下接触,在所述条件中,第一ssdna末端区域的末端与第二寡核苷酸的末端共价连接且第二ssdna末端区域的末端与第四寡核苷酸的末端共价连接。
[0675]
e24.根据实施方案e1至e23中任一项所述的方法,其中第一多核苷酸种类的每一个的ssrna杂交区域不同于多个第一多核苷酸种类中其他第一多核苷酸种类中的ssrna杂交区域。
[0676]
e25.根据实施方案e1至e24中任一项所述的方法,其中第二多核苷酸种类的每一个的ssdna杂交区域不同于多个第二多核苷酸种类中其他第二多核苷酸种类中的ssdna杂交区域。
[0677]
e24.根据实施方案e18至e25中任一项所述的方法,其中第三多核苷酸种类的每一个的ssrna杂交区域不同于多个第三多核苷酸种类中其他第三多核苷酸种类中的ssrna杂交区域。
[0678]
e25.根据实施方案e18至e26中任一项所述的方法,其中第四多核苷酸种类的每一个的ssdna杂交区域不同于多个第四多核苷酸种类中其他第四多核苷酸种类中的ssdna杂交区域。
[0679]
e26.根据实施方案e1至e25中任一项所述的方法,其中第一支架多核苷酸种类和/或第三支架多核苷酸种类中的ssrna杂交区域包含随机序列;和/或第二支架多核苷酸种类和/或第四支架多核苷酸种类中的ssdna杂交区域包含随机序列。
[0680]
e27.根据实施方案e1至e26中任一项所述的方法,其中第三寡核苷酸包含dna,且第四寡核苷酸包含dna。
[0681]
e28.根据实施方案e22至e27中任一项所述的方法,还包括使共价连接的杂交产物变性,从而生成单链连接产物。
[0682]
e29.根据实施方案e28所述的方法,还包括扩增单链连接产物,从而生成扩增的连接产物。
[0683]
e30.根据实施方案e29所述的方法,还包括对扩增的连接产物进行测序,从而生成核酸序列读段。
[0684]
e31.根据实施方案e30所述的方法,还包括分配核酸序列读段的来源。
[0685]
e32.根据实施方案e31所述的方法,其中所述来源是rna或dna。
[0686]
e33.根据实施方案e31或e32所述的方法,其中分配来源包括鉴定包含rna特异性标签或dna特异性标签的序列读段。
[0687]
e34.根据实施方案e33所述的方法,其中将包含rna特异性标签的序列读段分配至rna来源,并将包含dna特异性标签的序列读段分配至dna来源。
[0688]
f1.一种组合物,所述组合物包含:
[0689]
第一寡核苷酸,其包含rna特异性标签;
[0690]
第二寡核苷酸,其包含dna特异性标签;
[0691]
多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含ssrna杂交区域和第一寡核苷酸杂交区域;和
[0692]
多个第二支架多核苷酸种类,每个第二支架多核苷酸种类包含ssdna杂交区域和第二寡核苷酸杂交区域。
[0693]
f2.根据实施方案f1所述的组合物,还包含:
[0694]
第三寡核苷酸;
[0695]
第四寡核苷酸;
[0696]
多个第三支架多核苷酸种类,每个第三支架多核苷酸种类包含ssrna杂交区域和第三寡核苷酸杂交区域;和
[0697]
多个第四支架多核苷酸种类,每个第四支架多核苷酸种类包含ssdna杂交区域和第四寡核苷酸杂交区域。
[0698]
f3.根据实施方案f1或f2所述的组合物,所述组合物还包含核酸组合物,所述核酸组合物包含单链核糖核酸(ssrna)和单链脱氧核糖核酸(ssdna)。
[0699]
f4.根据实施方案f1至f3中任一项所述的组合物,其中第一寡核苷酸包含rna,且第二寡核苷酸包含dna。
[0700]
f4.1根据实施方案f1至f3中任一项所述的组合物,其中第一寡核苷酸由rna组成,且第二寡核苷酸由dna组成。
[0701]
f5.根据实施方案f2至f4.1中任一项所述的组合物,其中第三寡核苷酸包含dna,且第四寡核苷酸包含dna。
[0702]
f6.根据实施方案f1至f5中任一项所述的组合物,其中rna特异性标签包含约5至约15个核苷酸。
[0703]
f7.根据实施方案f1至f6中任一项所述的组合物,其中dna特异性标签包含约5至约15个核苷酸。
[0704]
f8.根据实施方案f1至f7中任一项所述的组合物,其中rna特异性标签和dna特异性标签包含不同的序列。
[0705]
f9.根据实施方案f1至f8中任一项所述的组合物,其中rna特异性标签和dna特异性标签包含不同的长度。
[0706]
f10.根据实施方案f1至f9中任一项所述的组合物,其中rna特异性标签和dna特异性标签包含不同的可检测标记物。
[0707]
f11.根据实施方案f3至f10中任一项所述的组合物,其中ssrna包括ssb结合的ssrna,并且ssdna包括ssb结合的ssdna。
[0708]
f12.根据实施方案f1至f11中任一项所述的组合物,所述组合物包含多个第一支架双链体种类,其中第一支架多核苷酸种类的每一个与第一寡核苷酸杂交。
[0709]
f13.根据实施方案f1至f12中任一项所述的组合物,所述组合物包含多个第二支架双链体种类,其中第二支架多核苷酸种类的每一个与第二寡核苷酸杂交。
[0710]
f14.根据实施方案f2至f13中任一项所述的组合物,所述组合物包含多个第三支
架双链体种类,其中第三支架多核苷酸种类的每一个与第三寡核苷酸杂交。
[0711]
f15.根据实施方案f2至f14中任一项所述的组合物,所述组合物包含多个第四支架双链体种类,其中第四支架多核苷酸种类的每一个与第四寡核苷酸杂交。
[0712]
f16.根据实施方案f1至f15中任一项所述的组合物,还包含含有连接酶活性的一种或多种剂。
[0713]
f16.1根据实施方案f16所述的组合物,其中包含连接酶活性的一种或多种剂选自t4 rna连接酶1、t4 rna连接酶2、截短的t4 rna连接酶2、热稳定的5
′
app dna/rna连接酶和t4 dna连接酶。
[0714]
f17.根据实施方案f1至f16.1中任一项所述的组合物,其中第一多核苷酸种类的每一个的ssrna杂交区域不同于多个第一多核苷酸种类中其他第一多核苷酸种类中的ssrna杂交区域。
[0715]
f18.根据实施方案f1至f17中任一项所述的组合物,其中第二多核苷酸种类的每一个的ssdna杂交区域不同于多个第二多核苷酸种类中其他第二多核苷酸种类中的ssdna杂交区域。
[0716]
f19.根据实施方案f2至f18中任一项所述的组合物,其中第三多核苷酸种类的每一个的ssrna杂交区域不同于多个第三多核苷酸种类中其他第三多核苷酸种类中的ssrna杂交区域。
[0717]
f20.根据实施方案f2至f19中任一项所述的组合物,其中第四多核苷酸种类的每一个的ssdna杂交区域不同于多个第四多核苷酸种类中其他第四多核苷酸种类中的ssdna杂交区域。
[0718]
f21.根据实施方案f2至f20中任一项所述的组合物,其中第一支架多核苷酸种类和/或第三支架多核苷酸种类中的ssrna杂交区域包含随机序列;和/或第二支架多核苷酸种类和/或第四支架多核苷酸种类中的ssdna杂交区域包含随机序列。
[0719]
f22.一种试剂盒,所述试剂盒包含根据实施方案f1至f21中任一项所述的组合物和使用说明。
[0720]
g1.一种产生核酸文库的方法,包括:
[0721]
(a)使包含靶核酸的第一核酸组合物与一个或多个独特核苷酸和包含延伸活性的剂在延伸条件下接触,从而生成延伸的靶核酸,其中:
[0722]
(i)一些或所有靶核酸包含含有突出端的双链核酸(dsna);
[0723]
(ii)延伸的靶核酸各自包含与突出端互补的延伸区域;和
[0724]
(iii)延伸区域包含一个或多个独特核苷酸;
[0725]
(b)从延伸的靶核酸生成单链核酸(ssna),从而生成包含ssna的第二核酸组合物;和
[0726]
(c)将第二核酸组合物与第一寡核苷酸和多个第一支架多核苷酸种类组合,其中:
[0727]
(i)多个第一支架多核苷酸种类中的每个多核苷酸包含ssna杂交区域和第一寡核苷酸杂交区域;和
[0728]
(ii)将第二核酸组合物、第一寡核苷酸和多个第一支架多核苷酸种类在以下条件下组合,在所述条件中,第一支架多核苷酸种类的分子与(1)第一ssna末端区域和(2)第一寡核苷酸的分子杂交,从而形成杂交产物,其中第一寡核苷酸的分子的末端与第一ssna末
端区域的末端相邻。
[0729]
g2.根据实施方案g1所述的方法,其中一些或所有靶核酸包括双链脱氧核糖核酸(dsdna)。
[0730]
g3.根据实施方案g1或g2所述的方法,其中包含突出端的靶核酸包含双链体区域和单链突出端。
[0731]
g4.根据实施方案g1至g3中任一项所述的方法,其中包含突出端的每个靶核酸包含一个末端的突出端或两个末端的突出端。
[0732]
g5.根据实施方案g1至g4中任一项所述的方法,其中包含突出端的每个靶核酸的一个末端或两个末端独立地包含5'突出端或3'突出端。
[0733]
g6.根据实施方案g1至g5中任一项所述的方法,其中在延伸之前靶核酸中的突出端是天然突出端。
[0734]
g7.根据实施方案g1至g6中任一项所述的方法,其中在延伸之前靶核酸中的突出端是未修饰的突出端。
[0735]
g8.根据实施方案g1至g7中任一项所述的方法,其中包含延伸活性的剂是聚合酶。
[0736]
g9.根据实施方案g8所述的方法,其中聚合酶选自dna聚合酶i、dna聚合酶i的大(klenow)片段、t4 dna聚合酶、嗜热脂肪芽孢杆菌(bst)dna聚合酶、9
°ntm
dna聚合酶和therminator聚合酶。
[0737]
g10.根据实施方案g1至g7中任一项所述的方法,其中包含延伸活性的剂是不具有3’至5’核酸外切酶活性的聚合酶。
[0738]
g11.根据实施方案g8至g10中任一项所述的方法,其中聚合酶是therminator聚合酶。
[0739]
g12.根据实施方案g1至g11中任一项所述的方法,其中一个或多个独特核苷酸包含选自通用碱基、修饰的碱基、甲基化的碱基、核酸类似物、人工核酸和可检测地标记的碱基的一个或多个碱基。
[0740]
g13.根据实施方案g12所述的方法,其中一个或多个独特核苷酸包含选自肌苷、甲基胞嘧啶、异种核酸(xna)、肽核酸(pna)、吗啉代、锁核酸(lna)、乙二醇核酸(gna)和苏糖核酸(tna)的一个或多个碱基。
[0741]
g14.根据实施方案g1至g13中任一项所述的方法,其中延伸区域由独特核苷酸组成。
[0742]
g15.根据实施方案g1至g14中任一项所述的方法,其中(b)中从延伸的靶核酸生成单链核酸(ssna)包括使延伸的靶核酸变性。
[0743]
g16.根据实施方案g1至g15中任一项所述的方法,包括在(c)之前,使第一寡核苷酸和/或多个第一支架多核苷酸种类与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,第一寡核苷酸和/或多个第一支架多核苷酸种类被去磷酸化,从而生成去磷酸化的第一寡核苷酸和/或去磷酸化的第一支架多核苷酸种类。
[0744]
g17.根据实施方案g1至g15中任一项所述的方法,其中在(c)之前,第一寡核苷酸和/或多个第一支架多核苷酸种类不与包含磷酸酶活性的剂接触。
[0745]
g18.根据实施方案g1至g17中任一项所述的方法,其中在(c)之前,第一支架多核苷酸种类的每一个与第一寡核苷酸杂交以形成多个第一支架双链体种类。
[0746]
g19.根据实施方案g1至g18中任一项所述的方法,还包括将第一寡核苷酸和第一ssna末端区域的相邻末端共价连接,从而生成共价连接的杂交产物。
[0747]
g20.根据实施方案g19所述的方法,其中共价连接包括使杂交产物与包含连接酶活性的剂在其中第一ssna末端区域的末端共价连接至第一寡核苷酸的末端的条件下接触。
[0748]
g21.根据实施方案g1至g20中任一项所述的方法,还包括将第二核酸组合物与第二寡核苷酸和多个第二支架多核苷酸种类组合,其中:
[0749]
(iii)多个第二支架多核苷酸种类中的每个多核苷酸包含ssna杂交区域和第二寡核苷酸杂交区域;和
[0750]
(iv)将第二核酸组合物、第二寡核苷酸和多个第二支架多核苷酸种类在以下条件下组合,在所述条件中,第二支架多核苷酸种类的分子与(1)第二ssna末端区域和(2)第二寡核苷酸的分子杂交,从而形成杂交产物,其中第二寡核苷酸的分子的末端与第二ssna末端区域的末端相邻。
[0751]
g22.根据实施方案g21所述的方法,包括在(c)之前,使第二寡核苷酸和/或多个第二支架多核苷酸种类与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,第二寡核苷酸和/或多个第二支架多核苷酸种类被去磷酸化,从而生成去磷酸化的第二寡核苷酸和/或去磷酸化的第二支架多核苷酸种类。
[0752]
g23.根据实施方案g21所述的方法,其中在(c)之前,第二寡核苷酸和/或多个第二支架多核苷酸种类不与包含磷酸酶活性的剂接触。
[0753]
g24.根据实施方案g21至g23中任一项所述的方法,其中在(c)之前,第二支架多核苷酸种类的每一个与第二寡核苷酸杂交以形成多个第二支架双链体种类。
[0754]
g25.根据实施方案g21至g24中任一项所述的方法,还包括将第一寡核苷酸和第一ssna末端区域的相邻末端共价连接,以及将第二寡核苷酸和第二ssna末端区域的相邻末端共价连接,从而生成共价连接的杂交产物。
[0755]
g26.根据实施方案g25所述的方法,其中共价连接包括使杂交产物与包含连接酶活性的剂在以下条件下接触,在所述条件中,第一ssna末端区域的末端与第一寡核苷酸的末端共价连接并且第二ssna末端区域的末端与第二寡核苷酸的末端共价连接。
[0756]
g27.根据实施方案g1至g26中任一项所述的方法,其中第一多核苷酸种类的每一个的ssna杂交区域不同于多个第一多核苷酸种类中其他第一多核苷酸种类中的ssna杂交区域。
[0757]
g28.根据实施方案g21至g27中任一项所述的方法,其中第二多核苷酸种类的每一个的ssna杂交区域不同于多个第二多核苷酸种类中其他第二多核苷酸种类中的ssna杂交区域。
[0758]
g29.根据实施方案g1至g28中任一项所述的方法,其中sscdna杂交区域和/或ssdna杂交区域包含随机序列。
[0759]
g30.根据实施方案g19至g29中任一项所述的方法,还包括使共价连接的杂交产物变性,从而生成单链连接产物。
[0760]
g31.根据实施方案g30所述的方法,还包括扩增单链连接产物,从而生成扩增的连接产物。
[0761]
g32.根据实施方案g31所述的方法,还包括对扩增的连接产物进行测序,从而生成
核酸序列读段。
[0762]
g33.根据实施方案g32所述的方法,还包括基于序列读段和延伸区域中的一个或多个独特核苷酸分析靶核酸中的突出端。
[0763]
g34.根据实施方案g33所述的方法,其中分析包括确定突出端的序列。
[0764]
g35.根据实施方案g33或g34所述的方法,其中分析包括确定突出端的长度。
[0765]
g36.根据实施方案g33至g35中任一项所述的方法,其中分析包括对特定突出端的量进行定量,从而生成突出端定量。
[0766]
g37.根据实施方案g36所述的方法,其中突出端定量针对特征在于以下的突出端:(i)5’突出端、(ii)3’突出端、(iii)特定序列、(iv)特定长度或(v)(i)、(ii)、(iii)和(iv)中的两个、三个或四个的组合。
[0767]
g38.根据实施方案g36或g37所述的方法,其中突出端定量针对特征在于以下的突出端:(i)5'突出端或3'突出端和(ii)特定长度。
[0768]
g39.根据实施方案g36至g38中任一项所述的方法,包括基于突出端定量来鉴定靶核酸组合物源自其的核酸样品中靶核酸的来源。
[0769]
g40.根据实施方案g33至g39中任一项所述的方法,其中进行分析以用于法医分析。
[0770]
g41.根据实施方案g33至g39中任一项所述的方法,其中进行分析以用于诊断分析。
[0771]
h1.一种产生核酸文库的方法,包括:
[0772]
(a)使包含靶核酸的核酸组合物与一个或多个独特核苷酸和包含延伸活性的剂在延伸条件下接触,从而生成延伸的靶核酸,其中:
[0773]
(i)一些或所有靶核酸包含含有突出端的双链脱氧核糖核酸(dsna);
[0774]
(ii)延伸的靶核酸各自包含与突出端互补的延伸区域;和
[0775]
(iii)延伸区域包含一个或多个独特核苷酸;和
[0776]
(b)将衔接子多核苷酸附接至延伸的靶核酸,其中衔接子多核苷酸包含能够形成具有单链环和双链区域的发夹结构的一条链,从而生成包含单链环和双链区域的连续链延伸的靶核酸。
[0777]
h1.1一种产生核酸文库的方法,包括:
[0778]
(a)使包含靶核酸的核酸组合物与一个或多个独特核苷酸和包含延伸活性的剂在延伸条件下接触,从而生成延伸的靶核酸,其中:
[0779]
(i)一些或所有靶核酸包含含有突出端的双链脱氧核糖核酸(dsna);
[0780]
(ii)延伸的靶核酸各自包含与突出端互补的延伸区域;和
[0781]
(iii)延伸区域包含一个或多个独特核苷酸;和
[0782]
(b)生成延伸的靶核酸的串联体,从而生成串联的延伸的靶核酸。
[0783]
h2.根据实施方案h1或h1.1所述的方法,其中一些或所有靶核酸包括双链脱氧核糖核酸(dsdna)。
[0784]
h3.根据实施方案h1、h1.1或h2所述的方法,其中包含突出端的靶核酸包含双链体区域和单链突出端。
[0785]
h4.根据实施方案h1至h3中任一项所述的方法,其中包含突出端的每个靶核酸包
含一个末端的突出端或两个末端的突出端。
[0786]
h5.根据实施方案h1至h4中任一项所述的方法,其中包含突出端的每个靶核酸的一个末端或两个末端独立地包含5'突出端或3'突出端。
[0787]
h6.根据实施方案h1至h5中任一项所述的方法,其中在延伸之前靶核酸中的突出端是天然突出端。
[0788]
h7.根据实施方案h1至h6中任一项所述的方法,其中在延伸之前靶核酸中的突出端是未修饰的突出端。
[0789]
h8.根据实施方案h1至h7中任一项所述的方法,其中包含延伸活性的剂是聚合酶。
[0790]
h9.根据实施方案h8所述的方法,其中聚合酶选自dna聚合酶i、dna聚合酶i的大(klenow)片段、t4 dna聚合酶、嗜热脂肪芽孢杆菌(bst)dna聚合酶、9
°ntm
dna聚合酶和therminator聚合酶。
[0791]
h10.根据实施方案h1至h7中任一项所述的方法,其中包含延伸活性的剂是不具有3’至5’核酸外切酶活性的聚合酶。
[0792]
h11.根据实施方案h8至h10中任一项所述的方法,其中聚合酶是therminator聚合酶。
[0793]
h12.根据实施方案h1至h11中任一项所述的方法,其中一个或多个独特核苷酸包含选自通用碱基、修饰的碱基、甲基化的碱基、核酸类似物、人工核酸和可检测地标记的碱基的一个或多个碱基。
[0794]
h13.根据实施方案h12所述的方法,其中一个或多个独特核苷酸包含选自肌苷、甲基胞嘧啶、异种核酸(xna)、肽核酸(pna)、吗啉代、锁核酸(lna)、乙二醇核酸(gna)和苏糖核酸(tna)的一个或多个碱基。
[0795]
h14.根据实施方案h1至h13中任一项所述的方法,其中延伸区域由独特核苷酸组成。
[0796]
h15.根据实施方案h1和h2至h14中任一项所述的方法,还包括从连续链延伸的靶核酸生成连续链单链dna(ssdna)。
[0797]
h16.根据实施方案h15所述的方法,其中从连续链延伸的靶核酸生成连续链ssdna包括使连续链延伸的靶核酸变性。
[0798]
h17.根据实施方案h15或h16所述的方法,还包括通过测序方法对连续链ssdna进行测序,从而生成核酸序列读段。
[0799]
h18.根据实施方案h1.1至h14中任一项所述的方法,还包括通过测序方法对串联的延伸靶核酸进行测序,从而生成核酸序列读段。
[0800]
h19.根据实施方案h17或h18所述的方法,其中测序包括纳米孔测序。
[0801]
h20.根据实施方案h17至h19中任一项所述的方法,还包括基于序列读段和延伸区域中的一个或多个独特核苷酸分析靶核酸中的突出端。
[0802]
h21.根据实施方案h20所述的方法,其中分析包括确定突出端的序列。
[0803]
h22.根据实施方案h20或h21所述的方法,其中分析包括确定突出端的长度。
[0804]
h23.根据实施方案h20至h22中任一项所述的方法,其中分析包括对特定突出端的量进行定量,从而生成突出端定量。
[0805]
h24.根据实施方案h23所述的方法,其中突出端定量针对特征在于以下的突出端:
(i)5’突出端、(ii)3’突出端、(iii)特定序列、(iv)特定长度或(v)(i)、(ii)、(iii)和(iv)中的两个、三个或四个的组合。
[0806]
h25.根据实施方案h23或h24所述的方法,其中突出端定量针对特征在于以下的突出端:(i)5'突出端或3'突出端和(ii)特定长度。
[0807]
h26.根据实施方案h23至h25中任一项所述的方法,包括基于突出端定量来鉴定靶核酸组合物源自其的核酸样品中靶核酸的来源。
[0808]
h27.根据实施方案h20至h26中任一项所述的方法,其中进行分析以用于法医分析。
[0809]
h28.根据实施方案h20至h26中任一项所述的方法,其中进行分析以用于诊断分析。
[0810]
i1.一种产生核酸文库的方法,包括:
[0811]
(a)将(i)包含单链核酸(ssna)的核酸组合物、(ii)第一寡核苷酸和(iii)多个第一支架多核苷酸种类组合,其中:
[0812]
多个第一支架多核苷酸种类中的每个多核苷酸包含ssna杂交区域和第一寡核苷酸杂交区域;和
[0813]
将核酸组合物、第一寡核苷酸和多个第一支架多核苷酸种类在以下条件下组合,在所述条件中,第一支架多核苷酸种类的分子与(1)第一ssna末端区域和(2)第一寡核苷酸的分子杂交,从而形成杂交产物,其中第一寡核苷酸的分子的末端与第一ssna末端区域的末端相邻;和
[0814]
(b)将ssna中的一个或多个未甲基化的胞嘧啶残基脱氨基,从而将一个或多个未甲基化的胞嘧啶残基转化为尿嘧啶。
[0815]
i2.一种产生核酸文库的方法,包括:
[0816]
(a)将(i)包含单链核酸(ssna)的核酸组合物、(ii)多个第一寡核苷酸种类和(iii)多个第一支架多核苷酸种类组合,其中:
[0817]
多个第一支架多核苷酸种类中的每个多核苷酸包含ssna杂交区域和第一寡核苷酸杂交区域;和
[0818]
将核酸组合物、多个第一寡核苷酸种类和多个第一支架多核苷酸种类在以下条件下组合,在所述条件中,第一支架多核苷酸种类的分子与(1)第一ssna末端区域和(2)第一寡核苷酸种类的分子杂交,从而形成杂交产物,其中第一寡核苷酸的分子的末端与第一ssna末端区域的末端相邻;和
[0819]
(b)将ssna中的一个或多个未甲基化的胞嘧啶残基脱氨基,从而将一个或多个未甲基化的胞嘧啶残基转化为尿嘧啶。
[0820]
i3.根据实施方案i2所述的方法,其中多个第一寡核苷酸种类中的每个寡核苷酸包含第一独特分子标识符(umi),其侧翼为第一侧翼区域和第二侧翼区域。
[0821]
i4.根据实施方案i3所述的方法,其中第一寡核苷酸杂交区域包含(i)与第一侧翼区域互补的多核苷酸,和(ii)与第二侧翼区域互补的多核苷酸。
[0822]
i5.根据实施方案i2至i4中任一项所述的方法,包括实施方案a1.1至a73中任一项的一个或多个特征。
[0823]
i6.根据实施方案i1至i5中任一项所述的方法,其中(b)中的脱氨基在(a)中的组
合之前进行。
[0824]
i7.根据实施方案i1至i5中任一项所述的方法,其中(b)中的脱氨基在(a)中的组合之后进行。
[0825]
i8.根据实施方案i7所述的方法,其中第一寡核苷酸或多个第一寡核苷酸种类中的每个寡核苷酸包含一个或多个甲基化的胞嘧啶残基。
[0826]
i9.根据实施方案i7或i8所述的方法,其中多个第一支架多核苷酸种类中的每个多核苷酸包含一个或多个甲基化的胞嘧啶残基。
[0827]
i10.根据实施方案i1至i9中任一项所述的方法,其中脱氨基包括亚硫酸氢钠的使用。
[0828]
i11.根据实施方案i1至i9中任一项所述的方法,其中脱氨基包括脱氨酶的使用。
[0829]
i12.根据实施方案i1至i11中任一项所述的方法,包括在(a)中的组合之前,使第一寡核苷酸和/或多个第一支架多核苷酸种类与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,第一寡核苷酸和/或多个第一支架多核苷酸种类被去磷酸化,从而生成去磷酸化的第一寡核苷酸和/或去磷酸化的第一支架多核苷酸种类。
[0830]
i13.根据实施方案i1至i11中任一项所述的方法,其中在(a)中的组合之前,第一寡核苷酸和/或多个第一支架多核苷酸种类不与包含磷酸酶活性的剂在其中第一寡核苷酸和/或多个第一支架多核苷酸种类被去磷酸化的条件下接触。
[0831]
i14.根据实施方案i1至i13中任一项所述的方法,其中在(a)中的组合之前,第一支架多核苷酸种类的每一个与第一寡核苷酸杂交以形成多个第一支架双链体种类。
[0832]
i15.根据实施方案i1至i14中任一项所述的方法,还包括将第一寡核苷酸和第一ssna末端区域的相邻末端共价连接,从而生成共价连接的杂交产物。
[0833]
i16.根据实施方案i15所述的方法,其中共价连接包括使杂交产物与包含连接酶活性的剂在其中第一ssna末端区域的末端共价连接至第一寡核苷酸的末端的条件下接触。
[0834]
i17.根据实施方案i1至i16中任一项所述的方法,其中(a)还包括将核酸组合物与(iv)第二寡核苷酸和(v)多个第二支架多核苷酸种类组合,其中:
[0835]
多个第二支架多核苷酸种类中的每个多核苷酸包含ssna杂交区域和第二寡核苷酸杂交区域;和
[0836]
将核酸组合物、第二寡核苷酸和多个第二支架多核苷酸种类在以下条件下组合,在所述条件中,第二支架多核苷酸种类的分子与(1)第二ssna末端区域和(2)第二寡核苷酸的分子杂交,从而形成杂交产物,其中第二寡核苷酸的分子的末端与第二ssna末端区域的末端相邻。
[0837]
i18.根据实施方案i17所述的方法,其中第二寡核苷酸包含一个或多个甲基化的胞嘧啶残基。
[0838]
i19.根据实施方案i17或i18所述的方法,其中多个第二支架多核苷酸种类中的每个多核苷酸包含一个或多个甲基化的胞嘧啶残基。
[0839]
i20.根据实施方案i17至i19中任一项所述的方法,包括在组合之前,使第二寡核苷酸和/或多个第二支架多核苷酸种类与包含磷酸酶活性的剂在以下条件下接触,在所述条件中,第二寡核苷酸和/或多个第二支架多核苷酸种类被去磷酸化,从而生成去磷酸化的第二寡核苷酸和/或去磷酸化的第二支架多核苷酸种类。
[0840]
i21.根据实施方案i17至i19中任一项所述的方法,其中在组合之前,第二寡核苷酸和/或多个第二支架多核苷酸种类不与包含磷酸酶活性的剂在其中第二寡核苷酸和/或多个第二支架多核苷酸种类被去磷酸化的条件下接触。
[0841]
122.根据实施方案i17至i21中任一项所述的方法,其中在组合之前,第二支架多核苷酸种类的每一个与第二寡核苷酸杂交以形成多个第二支架双链体种类。
[0842]
i23.根据实施方案i17至i22中任一项所述的方法,还包括将第一寡核苷酸和第一ssna末端区域的相邻末端共价连接,以及将第二寡核苷酸和第二ssna末端区域的相邻末端共价连接,从而生成共价连接的杂交产物。
[0843]
i24.根据实施方案i23所述的方法,其中共价连接包括使杂交产物与包含连接酶活性的剂在以下条件下接触,在所述条件中,第一ssna末端区域的末端与第一寡核苷酸的末端共价连接并且第二ssna末端区域的末端与第二寡核苷酸的末端共价连接。
[0844]
i25.根据实施方案i1至i24中任一项所述的方法,其中第一多核苷酸种类的每一个的ssna杂交区域不同于多个第一多核苷酸种类中其他第一多核苷酸种类中的ssna杂交区域。
[0845]
i26.根据实施方案i17至i25中任一项所述的方法,其中第二多核苷酸种类的每一个的ssna杂交区域不同于多个第二多核苷酸种类中其他第二多核苷酸种类中的ssna杂交区域。
[0846]
i27.根据实施方案i1至i26中任一项所述的方法,其中ssna杂交区域包含随机序列。
[0847]
i28.根据实施方案i15至i27中任一项所述的方法,还包括使共价连接的杂交产物变性,从而生成单链连接产物。
[0848]
i29.根据实施方案i28所述的方法,还包括扩增单链连接产物,从而生成扩增的连接产物。
[0849]
i30.根据实施方案i29所述的方法,还包括对扩增的连接产物进行测序。
[0850]
i31.根据实施方案i28所述的方法,其中单链连接产物不被扩增。
[0851]
i32.根据实施方案i31所述的方法,还包括对单链连接产物进行测序。i33.根据实施方案i1至i32中任一项所述的方法,其中核酸组合物包含单链dna(ssdna)。
[0852]
i34.根据实施方案i33所述的方法,其中ssdna源自双链dna(dsdna)。
[0853]
i35.根据实施方案i34所述的方法,其中ssdna源自包含带切口的双链dna(dsdna)的dsdna。
[0854]
i36.根据实施方案i34或i35所述的方法,包括在组合之前,使dsdna变性,从而生成ssdna。
[0855]
i37.根据实施方案i1至i32中任一项所述的方法,其中核酸组合物包含单链rna(ssrna)。
[0856]
i38.根据实施方案i1至i37中任一项所述的方法,其中ssna在组合之前未被修饰。
[0857]
i39.根据实施方案i1至i38中任一项所述的方法,其中当将ssna与第一寡核苷酸和多个第一支架多核苷酸种类组合时,ssna的一个或两个天然末端存在。
[0858]
i40.根据实施方案i1至i39中任一项所述的方法,其中ssna来自无细胞核酸。
[0859]
j1.一种产生核酸文库的方法,包括:
[0860]
(a)使包含单链核糖核酸(ssrna)和双链脱氧核糖核酸(dsdna)的第一混合物中的ssrna与引发多核苷酸和包含逆转录酶活性的剂接触,从而生成包含互补脱氧核糖核酸(cdna)-rna双链体和dsdna的第二混合物,其中:
[0861]
(i)引发多核苷酸包含引物、rna特异性标签和第一寡核苷酸;
[0862]
(ii)cdna包含rna特异性标签和第一寡核苷酸;和
[0863]
(iii)dsdna不包含rna特异性标签或第一寡核苷酸;
[0864]
(b)从cdna-rna双链体和dsdna生成单链cdna(sscdna)和单链dna(ssdna),从而生成包含sscdna和ssdna的核酸组合物;
[0865]
(c)将包含sscdna和ssdna的核酸组合物与第二寡核苷酸、多个第一支架多核苷酸种类、第三寡核苷酸和多个第二支架多核苷酸种类组合,其中:
[0866]
(i)多个第一支架多核苷酸种类中的每个多核苷酸包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域;
[0867]
(ii)多个第二支架多核苷酸种类中的每个多核苷酸包含ssdna杂交区域和第三寡核苷酸杂交区域;
[0868]
(iii)将包含sscdna和ssdna的核酸组合物、第二寡核苷酸、多个第一支架多核苷酸种类、第三寡核苷酸和多个第二支架多核苷酸种类在以下条件下组合,在所述条件中:
[0869]
第一支架多核苷酸种类的分子与(1)第一sscdna末端区域或第一ssdna末端区域和(2)第二寡核苷酸的分子杂交,从而形成杂交产物,其中第二寡核苷酸的分子的末端与第一sscdna末端区域或第一ssdna末端区域的末端相邻,和
[0870]
第二支架多核苷酸种类的分子与(1)第二ssdna末端区域和(2)第三寡核苷酸的分子杂交,从而形成杂交产物,其中第三寡核苷酸的分子的末端与第二ssdna末端区域的末端相邻。
[0871]
j2.根据实施方案j1所述的方法,其中引物包含随机六聚体。
[0872]
j3.根据实施方案j1或j2所述的方法,其中rna特异性标签包含约5至约15个核苷酸。
[0873]
j4.根据实施方案j1至j3中任一项所述的方法,其中第一寡核苷酸包含第一测序衔接子或其部分。
[0874]
j5.根据实施方案j1至j4中任一项所述的方法,其中第一寡核苷酸包含一个或多个修饰的核苷酸。
[0875]
j6.根据实施方案j5所述的方法,其中一个或多个修饰的核苷酸能够阻断第一寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[0876]
j7.根据实施方案j5或j6所述的方法,其中一个或多个修饰的核苷酸包含连接阻断修饰。
[0877]
j8.根据实施方案j5至j7中任一项所述的方法,其中第一寡核苷酸包含5’末端,并且一个或多个修饰的核苷酸位于5’末端。
[0878]
j9.根据实施方案j1至j8中任一项所述的方法,其中引发多核苷酸包含5’末端和3’末端,并且从5’末端到3’末端按顺序包含:第一寡核苷酸、rna特异性标签和引物。
[0879]
j10.根据实施方案j1至j9中任一项所述的方法,其中(b)包括使cdna-rna双链体与包含rna酶活性的剂接触,从而消化rna并生成sscdna产物。
[0880]
j11.根据实施方案j1至j10中任一项所述的方法,其中(b)包括使cdna-rna双链体和/或dsdna变性,从而生成sscdna和/或ssdna。
[0881]
j12.根据实施方案j1至j11中任一项所述的方法,其中(b)还包括使sscdna和ssdna与单链核酸结合剂接触。
[0882]
j13.根据实施方案j1至j12中任一项所述的方法,其中(b)还包括使sscdna和ssdna与单链核酸结合蛋白(ssb)接触以产生ssb结合的sscdna和ssb结合的ssdna。
[0883]
j14.根据实施方案j1至j13中任一项所述的方法,其中在(c)之前,第一支架多核苷酸种类的每一个与第二寡核苷酸杂交以形成多个第一支架双链体种类,且第二支架多核苷酸种类的每一个与第三寡核苷酸杂交以形成多个第二支架双链体种类。
[0884]
j15.根据实施方案j1至j14中任一项所述的方法,还包括将第二寡核苷酸和第一sscdna末端区域或第一ssdna末端区域的相邻末端共价连接,以及将第三寡核苷酸和第二ssdna末端区域的相邻末端共价连接,从而生成共价连接的杂交产物。
[0885]
j16.根据实施方案j15所述的方法,其中共价连接包括使杂交产物与包含连接酶活性的剂在以下条件下接触,在所述条件中,第一sscdna末端区域或第一ssdna末端区域的末端与第二寡核苷酸的末端共价连接并且第二ssdna末端区域的末端与第三寡核苷酸的末端共价连接。
[0886]
j17.根据实施方案j1至j16中任一项所述的方法,其中第一支架多核苷酸种类的每一个的sscdna杂交区域或ssdna杂交区域不同于多个第一支架多核苷酸种类中其他第一支架多核苷酸种类中的sscdna杂交区域或ssdna杂交区域。
[0887]
j18.根据实施方案j1至j17中任一项所述的方法,其中第二支架多核苷酸种类的每一个的ssdna杂交区域不同于多个第二支架多核苷酸种类中其他第二支架多核苷酸种类中的ssdna杂交区域。
[0888]
j19.根据实施方案j1至j18中任一项所述的方法,其中多个第一支架多核苷酸种类中的sscdna杂交区域和/或ssdna杂交区域包含随机序列。
[0889]
j20.根据实施方案j1至j19中任一项所述的方法,其中多个第二支架多核苷酸种类中的ssdna杂交区域包含随机序列。
[0890]
j21.根据实施方案j1至j20中任一项所述的方法,其中第二寡核苷酸包含第二测序衔接子或其部分。
[0891]
j22.根据实施方案j1至j21中任一项所述的方法,其中第三寡核苷酸包含第三测序衔接子或其部分。
[0892]
j23.根据实施方案j1至j22中任一项所述的方法,其中第二寡核苷酸包含一个或多个修饰的核苷酸。
[0893]
j24.根据实施方案j23所述的方法,其中一个或多个修饰的核苷酸能够阻断第二寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[0894]
j25.根据实施方案j23或j24所述的方法,其中第二寡核苷酸包含3’末端,并且一个或多个修饰的核苷酸位于3’末端。
[0895]
j26.根据实施方案j25所述的方法,其中第二寡核苷酸包含5’末端,该5’末端不包含修饰的核苷酸。
[0896]
j27.根据实施方案j1至j26中任一项所述的方法,其中第三寡核苷酸包含一个或
多个修饰的核苷酸。
[0897]
j28.根据实施方案j27所述的方法,其中一个或多个修饰的核苷酸能够阻断第三寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[0898]
j29.根据实施方案j27或j28所述的方法,其中第三寡核苷酸包含5’末端,并且一个或多个修饰的核苷酸位于5’末端。
[0899]
j30.根据实施方案j29所述的方法,其中第三寡核苷酸包含3’末端,该3’末端不包含修饰的核苷酸。
[0900]
j31.根据实施方案j1至j30中任一项所述的方法,其中多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸包含一个或多个修饰的核苷酸。
[0901]
j32.根据实施方案j31所述的方法,其中一个或多个修饰的核苷酸能够阻断多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[0902]
j33.根据实施方案j31或j32所述的方法,其中多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸包含5’末端和3’末端,并且一个或多个修饰的核苷酸位于5’末端、3’末端或者5’末端和3’末端。
[0903]
j34.根据实施方案j23至j33中任一项所述的方法,其中一个或多个修饰的核苷酸包含连接阻断修饰。
[0904]
j35.根据实施方案j1至j34中任一项所述的方法,其中第三寡核苷酸包含dna特异性标签。
[0905]
j36.根据实施方案j35所述的方法,其中dna特异性标签包含约5至约15个核苷酸。
[0906]
j37.根据实施方案j35或j36所述的方法,其中第三寡核苷酸包含3’末端,并且dna特异性标签位于3’末端。
[0907]
j38.根据实施方案j15至j37中任一项所述的方法,还包括使共价连接的杂交产物变性,从而生成单链连接产物。
[0908]
j39.根据实施方案j38所述的方法,还包括扩增单链连接产物,从而生成扩增的连接产物。
[0909]
j40.根据实施方案j39所述的方法,还包括对扩增的连接产物进行测序,从而生成核酸序列读段。
[0910]
j41.根据实施方案j40所述的方法,还包括分配核酸序列读段的来源。
[0911]
j42.根据实施方案j41所述的方法,其中所述来源是第一混合物中的ssrna或第一混合物中的dsdna。
[0912]
j43.根据实施方案j41或j42所述的方法,其中分配来源包括鉴定包含rna特异性标签的序列读段。
[0913]
j44.根据实施方案j43所述的方法,其中将包含rna特异性标签的序列读段分配至ssrna,并将不包含rna特异性标签的序列读段分配至dsdna。
[0914]
j45.根据实施方案j41或j42所述的方法,其中分配来源包括鉴定包含rna特异性标签的序列读段和鉴定包含dna特异性标签的序列读段。
[0915]
j46.根据实施方案j45所述的方法,其中将包含rna特异性标签的序列读段分配至ssrna,并将包含dna特异性标签的序列读段分配至dsdna。
[0916]
k1.一种根据来源差异扩增核酸的方法,其中所述方法包括:
[0917]
(i)根据实施方案j1至j38中任一项产生核酸文库;
[0918]
(ii)扩增文库的核酸分子,其中扩增包括使文库的核酸分子与第一扩增引物和第二扩增引物在扩增条件下接触,其中来自第一来源的核酸和来自第二来源的核酸被差异扩增,从而生成差异扩增的产物。
[0919]
k1.1根据实施方案k1所述的方法,其中来自第一来源的核酸被指数扩增,且来自第二来源的核酸被线性扩增。
[0920]
k2.根据实施方案k1或k1.1所述的方法,其中第一来源包括rna或dna。
[0921]
k3.根据实施方案k1、k1.1或k2所述的方法,其中第二来源包括rna或dna。
[0922]
k4.根据实施方案k1或k1.1所述的方法,其中第一来源包括rna且第二来源包括dna。
[0923]
k5.根据实施方案k1至k4中任一项所述的方法,其中第一扩增引物包含与第一寡核苷酸或其部分互补的核苷酸序列。
[0924]
k6.根据实施方案k1至k5中任一项所述的方法,其中第二扩增引物包含与第二寡核苷酸或其部分互补的核苷酸序列。
[0925]
k7.根据实施方案k1至k6中任一项所述的方法,还包括对差异扩增的产物进行测序,从而生成核酸序列读段。
[0926]
k8.根据实施方案k7所述的方法,还包括分配核酸序列读段的来源。
[0927]
k9.根据实施方案k8所述的方法,其中所述来源是第一混合物中的ssrna或第一混合物中的dsdna。
[0928]
k10.根据实施方案k8或k9所述的方法,其中分配来源包括鉴定包含rna特异性标签的序列读段。
[0929]
k11.根据实施方案k10所述的方法,其中将包含rna特异性标签的序列读段分配至ssrna,并将不包含rna特异性标签的序列读段分配至dsdna。
[0930]
k12.根据实施方案k8或k9所述的方法,其中分配来源包括鉴定包含rna特异性标签的序列读段和鉴定包含dna特异性标签的序列读段。
[0931]
k13.根据实施方案k12所述的方法,其中将包含rna特异性标签的序列读段分配至ssrna,并将包含dna特异性标签的序列读段分配至dsdna。
[0932]
l1.一种组合物,所述组合物包含:
[0933]
核酸组合物,其包含单链互补脱氧核糖核酸(sscdna)和单链脱氧核糖核酸(ssdna),其中sscdna包含rna特异性标签和第一寡核苷酸;
[0934]
第二寡核苷酸;
[0935]
多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域;
[0936]
第三寡核苷酸;和
[0937]
多个第二支架多核苷酸种类,每个第二支架多核苷酸种类包含ssdna杂交区域和第三寡核苷酸杂交区域。
[0938]
l2.保留。
[0939]
l3.根据实施方案l1所述的组合物,其中rna特异性标签包含约5至约15个核苷酸。
[0940]
l4.根据实施方案l1至l3中任一项所述的组合物,其中第一寡核苷酸包含第一测序衔接子或其部分。
[0941]
l5.根据实施方案l1至l4中任一项所述的组合物,其中第一寡核苷酸包含一个或多个修饰的核苷酸。
[0942]
l6.根据实施方案l5所述的组合物,其中一个或多个修饰的核苷酸能够阻断第一寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[0943]
l7.根据实施方案l5或l6所述的组合物,其中一个或多个修饰的核苷酸包含连接阻断修饰。
[0944]
l8.根据实施方案l5至l7中任一项所述的组合物,其中第一寡核苷酸包含5’末端,并且一个或多个修饰的核苷酸位于5’末端。
[0945]
l9.根据实施方案l1至l8中任一项所述的组合物,其中sscdna包括ssb结合的sscdna,并且ssdna包括ssb结合的ssdna。
[0946]
l10.根据实施方案l1至l9中任一项所述的组合物,所述组合物包含多个第一支架双链体种类,其中第一支架多核苷酸种类的每一个与第二寡核苷酸杂交。
[0947]
l11.根据实施方案l1至l10中任一项所述的组合物,所述组合物包含多个第二支架双链体种类,其中第二支架多核苷酸种类的每一个与第三寡核苷酸杂交。
[0948]
l12.根据实施方案l1至l11中任一项所述的组合物,还包含含有连接酶活性的剂。
[0949]
l13.根据实施方案l1至l12中任一项所述的组合物,其中第一支架多核苷酸种类的每一个的sscdna杂交区域或ssdna杂交区域不同于多个第一支架多核苷酸种类中其他第一支架多核苷酸种类中的sscdna杂交区域或ssdna杂交区域。
[0950]
l14.根据实施方案l1至l13中任一项所述的组合物,其中第二支架多核苷酸种类的每一个的ssdna杂交区域不同于多个第二支架多核苷酸种类中其他第二支架多核苷酸种类中的ssdna杂交区域。
[0951]
l15.根据实施方案l1至l14中任一项所述的组合物,其中多个第一支架多核苷酸种类中的sscdna杂交区域和/或ssdna杂交区域包含随机序列。
[0952]
l16.根据实施方案l1至l15中任一项所述的组合物,其中多个第二支架多核苷酸种类中的ssdna杂交区域包含随机序列。
[0953]
l17.根据实施方案l1至l16中任一项所述的组合物,其中第二寡核苷酸包含第二测序衔接子或其部分。
[0954]
l18.根据实施方案l1至l17中任一项所述的组合物,其中第三寡核苷酸包含第三测序衔接子或其部分。
[0955]
l19.根据实施方案l1至l18中任一项所述的组合物,其中第二寡核苷酸包含一个或多个修饰的核苷酸。
[0956]
l20.根据实施方案l19所述的组合物,其中一个或多个修饰的核苷酸能够阻断第二寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[0957]
l21.根据实施方案l19或l20所述的组合物,其中第二寡核苷酸包含3’末端,并且一个或多个修饰的核苷酸位于3’末端。
[0958]
l22.根据实施方案l21所述的组合物,其中第二寡核苷酸包含5’末端,该5’末端不包含修饰的核苷酸。
[0959]
l23.根据实施方案l1至l22中任一项所述的组合物,其中第三寡核苷酸包含一个或多个修饰的核苷酸。
[0960]
l24.根据实施方案l23所述的组合物,其中一个或多个修饰的核苷酸能够阻断第三寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[0961]
l25.根据实施方案l23或l24所述的组合物,其中第三寡核苷酸包含5’末端,并且一个或多个修饰的核苷酸位于5’末端。
[0962]
l26.根据实施方案l25所述的组合物,其中第三寡核苷酸包含3’末端,该3’末端不包含修饰的核苷酸。
[0963]
l27.根据实施方案l1至l26中任一项所述的组合物,其中多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸包含一个或多个修饰的核苷酸。
[0964]
l28.根据实施方案l27所述的组合物,其中一个或多个修饰的核苷酸能够阻断多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[0965]
l29.根据实施方案l27或l28所述的组合物,其中多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸包含5’末端和3’末端,并且一个或多个修饰的核苷酸位于5’末端、3’末端或者5’末端和3’末端。
[0966]
l30.根据实施方案l19至l29中任一项所述的组合物,其中一个或多个修饰的核苷酸包含连接阻断修饰。
[0967]
l31.根据实施方案l1至l30中任一项所述的组合物,其中第三寡核苷酸包含dna特异性标签。
[0968]
l32.根据实施方案l31所述的组合物,其中dna特异性标签包含约5至约15个核苷酸。
[0969]
l33.根据实施方案l31或l32所述的组合物,其中第三寡核苷酸包含3’末端,并且dna特异性标签位于3’末端。
[0970]
l34.一种试剂盒,所述试剂盒包含根据实施方案l1至l33中任一项所述的组合物和使用说明。
[0971]
l35.一种试剂盒,所述试剂盒包含:
[0972]
引发多核苷酸,其包含引物、rna特异性标签和第一寡核苷酸;
[0973]
第二寡核苷酸;
[0974]
多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域;
[0975]
第三寡核苷酸;
[0976]
多个第二支架多核苷酸种类,每个第二支架多核苷酸种类包含ssdna杂交区域和第三寡核苷酸杂交区域;和
[0977]
使用说明。
[0978]
l36.根据实施方案l35所述的试剂盒,其中引物包含随机六聚体。
[0979]
l37.根据实施方案l35或l36所述的试剂盒,其中rna特异性标签包含约5至约15个核苷酸。
[0980]
l38.根据实施方案l35至l37中任一项所述的试剂盒,其中第一寡核苷酸包含第一
测序衔接子或其部分。
[0981]
l39.根据实施方案l35至l38中任一项所述的试剂盒,其中第一寡核苷酸包含一个或多个修饰的核苷酸。
[0982]
l40.根据实施方案l39所述的试剂盒,其中一个或多个修饰的核苷酸能够阻断第一寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[0983]
l41.根据实施方案l39或l40所述的试剂盒,其中一个或多个修饰的核苷酸包含连接阻断修饰。
[0984]
l42.根据实施方案l39至l41中任一项所述的试剂盒,其中第一寡核苷酸包含5’末端,并且一个或多个修饰的核苷酸位于5’末端。
[0985]
l43.根据实施方案l35至l42中任一项所述的试剂盒,其中引发多核苷酸包含5’末端和3’末端,并且从5’末端到3’末端按顺序包含:第一寡核苷酸、rna特异性标签和引物。
[0986]
l44.根据实施方案l35至l43中任一项所述的试剂盒,所述试剂盒还包含单链核酸结合剂。
[0987]
l45.根据实施方案l44所述的试剂盒,其中单链核酸结合剂是单链核酸结合蛋白(ssb)。
[0988]
l46.根据实施方案l35至l45中任一项所述的试剂盒,还包含含有逆转录酶活性的剂。
[0989]
l47.根据实施方案l35至l46中任一项所述的试剂盒,还包含含有rna酶活性的剂。
[0990]
l48.根据实施方案l35至l47中任一项所述的试剂盒,所述试剂盒包含多个第一支架双链体种类,其中第一支架多核苷酸种类的每一个与第二寡核苷酸杂交。
[0991]
l49.根据实施方案l35至l48中任一项所述的试剂盒,所述试剂盒包含多个第二支架双链体种类,其中第二支架多核苷酸种类的每一个与第三寡核苷酸杂交。
[0992]
l50.根据实施方案l35至l49中任一项所述的试剂盒,还包含含有连接酶活性的剂。
[0993]
l51.根据实施方案l35至l50中任一项所述的试剂盒,其中第一支架多核苷酸种类的每一个的sscdna杂交区域或ssdna杂交区域不同于多个第一支架多核苷酸种类中其他第一支架多核苷酸种类中的sscdna杂交区域或ssdna杂交区域。
[0994]
l52.根据实施方案l35至l51中任一项所述的试剂盒,其中第二支架多核苷酸种类的每一个的ssdna杂交区域不同于多个第二支架多核苷酸种类中其他第二支架多核苷酸种类中的ssdna杂交区域。
[0995]
l53.根据实施方案l35至l52中任一项所述的试剂盒,其中多个第一支架多核苷酸种类中的sscdna杂交区域和/或ssdna杂交区域包含随机序列。
[0996]
l54.根据实施方案l35至l53中任一项所述的试剂盒,其中多个第二支架多核苷酸种类中的ssdna杂交区域包含随机序列。
[0997]
l55.根据实施方案l35至l54中任一项所述的试剂盒,其中第二寡核苷酸包含第二测序衔接子或其部分。
[0998]
l56.根据实施方案l35至l55中任一项所述的试剂盒,其中第三寡核苷酸包含第三测序衔接子或其部分。
[0999]
l57.根据实施方案l35至l56中任一项所述的试剂盒,其中第二寡核苷酸包含一个
或多个修饰的核苷酸。
[1000]
l58.根据实施方案l57所述的试剂盒,其中一个或多个修饰的核苷酸能够阻断第二寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1001]
l59.根据实施方案l57或l58所述的试剂盒,其中第二寡核苷酸包含3’末端,并且一个或多个修饰的核苷酸位于3’末端。
[1002]
l60.根据实施方案l59所述的试剂盒,其中第二寡核苷酸包含5’末端,该5’末端不包含修饰的核苷酸。
[1003]
l61.根据实施方案l35至l60中任一项所述的试剂盒,其中第三寡核苷酸包含一个或多个修饰的核苷酸。
[1004]
l62.根据实施方案l61所述的试剂盒,其中一个或多个修饰的核苷酸能够阻断第三寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1005]
l63.根据实施方案l61或l62所述的试剂盒,其中第三寡核苷酸包含5’末端,并且一个或多个修饰的核苷酸位于5’末端。
[1006]
l64.根据实施方案l63所述的试剂盒,其中第三寡核苷酸包含3’末端,该3’末端不包含修饰的核苷酸。
[1007]
l65.根据实施方案l35至l64中任一项所述的试剂盒,其中多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸包含一个或多个修饰的核苷酸。
[1008]
l66.根据实施方案l65所述的试剂盒,其中一个或多个修饰的核苷酸能够阻断多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1009]
l67.根据实施方案l65或l66所述的试剂盒,其中多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸包含5’末端和3’末端,并且一个或多个修饰的核苷酸位于5’末端、3’末端或者5’末端和3’末端。
[1010]
l68.根据实施方案l57至l67中任一项所述的试剂盒,其中一个或多个修饰的核苷酸包含连接阻断修饰。
[1011]
l69.根据实施方案l35至l68中任一项所述的试剂盒,其中第三寡核苷酸包含dna特异性标签。
[1012]
l70.根据实施方案l69所述的试剂盒,其中dna特异性标签包含约5至约15个核苷酸。
[1013]
l71.根据实施方案l69或l70所述的试剂盒,其中第三寡核苷酸包含3’末端,并且dna特异性标签位于3’末端。
[1014]
l72.根据实施方案l35至l71中任一项所述的试剂盒,还包含第一扩增引物和第二扩增引物。
[1015]
l73.根据实施方案l72所述的试剂盒,其中第一扩增引物包含与第一寡核苷酸或其部分互补的核苷酸序列。
[1016]
l74.根据实施方案l72或l73所述的试剂盒,其中第二扩增引物包含与第二寡核苷酸或其部分互补的核苷酸序列。
[1017]
l75.根据实施方案l72至l74中任一项所述的试剂盒,还包含第三扩增引物。
[1018]
l76.根据实施方案l75所述的试剂盒,其中第三扩增引物包含与第三寡核苷酸或
其部分互补的核苷酸序列。
[1019]
m1.一种产生核酸文库的方法,包括:
[1020]
(a)将包含单链核糖核酸(ssrna)和双链脱氧核糖核酸(dsdna)的第一混合物中的ssrna与第一寡核苷酸共价连接,从而生成共价连接的ssrna产物;
[1021]
(b)使共价连接的ssrna产物与引物寡核苷酸和包含逆转录酶活性的剂接触,从而生成包含互补脱氧核糖核酸(cdna)-rna双链体和dsdna的第二混合物,其中引物寡核苷酸包含第一寡核苷酸杂交区域;
[1022]
(c)从cdna-rna双链体和dsdna生成单链cdna(sscdna)和单链dna(ssdna),从而生成包含sscdna和ssdna的核酸组合物;
[1023]
(d)将包含sscdna和ssdna的核酸组合物与第二寡核苷酸、多个第一支架多核苷酸种类、第三寡核苷酸和多个第二支架多核苷酸种类组合,其中:
[1024]
(i)多个第一支架多核苷酸种类中的每个多核苷酸包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域;
[1025]
(ii)多个第二支架多核苷酸种类中的每个多核苷酸包含ssdna杂交区域和第三寡核苷酸杂交区域;
[1026]
(iii)将包含sscdna和ssdna的核酸组合物、第二寡核苷酸、多个第一支架多核苷酸种类、第三寡核苷酸和多个第二支架多核苷酸种类在以下条件下组合,在所述条件中:
[1027]
第一支架多核苷酸种类的分子与(1)第一sscdna末端区域或第一ssdna末端区域和(2)第二寡核苷酸的分子杂交,从而形成杂交产物,其中第二寡核苷酸的分子的末端与第一sscdna末端区域或第一ssdna末端区域的末端相邻,和
[1028]
第二支架多核苷酸种类的分子与(1)第二ssdna末端区域和(2)第三寡核苷酸的分子杂交,从而形成杂交产物,其中第三寡核苷酸的分子的末端与第二ssdna末端区域的末端相邻。
[1029]
m2.根据实施方案m1所述的方法,其中第一寡核苷酸包括rna。
[1030]
m2.1根据实施方案m1所述的方法,其中第一寡核苷酸由rna组成。
[1031]
m2.2根据实施方案m1、m1.1或m1.2所述的方法,其中第一寡核苷酸包含rna特异性标签。
[1032]
m3.根据实施方案m2.2所述的方法,其中rna特异性标签包含约5至约15个核苷酸。
[1033]
m4.根据实施方案m1至m3中任一项所述的方法,其中第一寡核苷酸包含第一测序衔接子或其部分。
[1034]
m5.根据实施方案m1至m4中任一项所述的方法,其中第一寡核苷酸包含一个或多个修饰的核苷酸。
[1035]
m6.根据实施方案m5所述的方法,其中一个或多个修饰的核苷酸能够阻断第一寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1036]
m7.根据实施方案m5或m6所述的方法,其中一个或多个修饰的核苷酸包含连接阻断修饰。
[1037]
m8.根据实施方案m5至m7中任一项所述的方法,其中第一寡核苷酸包含3’末端,并且一个或多个修饰的核苷酸位于3’末端。
[1038]
m8.1根据实施方案m8所述的方法,其中第一寡核苷酸包含5’末端,该5’末端不包
含修饰的核苷酸。
[1039]
m9.根据实施方案m4至m8.1中任一项所述的方法,其中第一寡核苷酸包含5’末端和3’末端,并且从5’末端到3’末端按顺序包含:rna特异性标签和第一测序衔接子或其部分。
[1040]
m10.根据实施方案m1至m9中任一项所述的方法,其中(a)中的共价连接包括使ssrna和第一寡核苷酸与包含连接酶活性的一种或多种剂在其中ssrna末端区域的末端与第一寡核苷酸的末端共价连接的条件下接触。
[1041]
m11.根据实施方案m10所述的方法,其中包含连接酶活性的一种或多种剂选自t4 rna连接酶1、t4 rna连接酶2、截短的t4 rna连接酶2和热稳定的5
′
app dna/rna连接酶。
[1042]
m12.根据实施方案m1至m11中任一项所述的方法,其中引物寡核苷酸包含一个或多个修饰的核苷酸。
[1043]
m13.根据实施方案m12所述的方法,其中一个或多个修饰的核苷酸能够阻断引物寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1044]
m14.根据实施方案m12或m13所述的方法,其中一个或多个修饰的核苷酸包含连接阻断修饰。
[1045]
m15.根据实施方案m12至m14中任一项所述的方法,其中引物寡核苷酸包含5’末端,并且一个或多个修饰的核苷酸位于5’末端。
[1046]
m16.根据实施方案m1至m15中任一项所述的方法,其中(c)包括使cdna-rna双链体与包含rna酶活性的剂接触,从而消化rna并生成sscdna产物。
[1047]
m17.根据实施方案m1至m16中任一项所述的方法,其中(c)包括使cdna-rna双链体和/或dsdna变性,从而生成sscdna和/或ssdna。
[1048]
m18.根据实施方案m1至m17中任一项所述的方法,其中(c)还包括使sscdna和ssdna与单链核酸结合剂接触。
[1049]
m19.根据实施方案m1至m18中任一项所述的方法,其中(c)还包括使sscdna和ssdna与单链核酸结合蛋白(ssb)接触以产生ssb结合的sscdna和ssb结合的ssdna。
[1050]
m20.根据实施方案m1至m19中任一项所述的方法,其中在(d)之前,第一支架多核苷酸种类的每一个与第二寡核苷酸杂交以形成多个第一支架双链体种类,且第二支架多核苷酸种类的每一个与第三寡核苷酸杂交以形成多个第二支架双链体种类。
[1051]
m21.根据实施方案m1至m20中任一项所述的方法,还包括将第二寡核苷酸和第一sscdna末端区域或第一ssdna末端区域的相邻末端共价连接,以及将第三寡核苷酸和第二ssdna末端区域的相邻末端共价连接,从而生成共价连接的杂交产物。
[1052]
m22.根据实施方案m21所述的方法,其中共价连接包括使杂交产物与包含连接酶活性的剂在以下条件下接触,在所述条件中,第一sscdna末端区域或第一ssdna末端区域的末端与第二寡核苷酸的末端共价连接并且第二ssdna末端区域的末端与第三寡核苷酸的末端共价连接。
[1053]
m23.根据实施方案m1至m22中任一项所述的方法,其中第一支架多核苷酸种类的每一个的sscdna杂交区域或ssdna杂交区域不同于多个第一支架多核苷酸种类中其他第一支架多核苷酸种类中的sscdna杂交区域或ssdna杂交区域。
[1054]
m24.根据实施方案m1至m23中任一项所述的方法,其中第二支架多核苷酸种类的
每一个的ssdna杂交区域不同于多个第二支架多核苷酸种类中其他第二支架多核苷酸种类中的ssdna杂交区域。
[1055]
m25.根据实施方案m1至m24中任一项所述的方法,其中多个第一支架多核苷酸种类中的sscdna杂交区域和/或ssdna杂交区域包含随机序列。
[1056]
m26.根据实施方案m1至m25中任一项所述的方法,其中多个第二支架多核苷酸种类中的ssdna杂交区域包含随机序列。
[1057]
m27.根据实施方案m1至m26中任一项所述的方法,其中第二寡核苷酸包含第二测序衔接子或其部分。
[1058]
m28.根据实施方案m1至m27中任一项所述的方法,其中第三寡核苷酸包含第一测序衔接子或其部分。
[1059]
m29.根据实施方案m1至m27中任一项所述的方法,其中第三寡核苷酸包含第三测序衔接子或其部分。
[1060]
m30.根据实施方案m1至m29中任一项所述的方法,其中第二寡核苷酸包含一个或多个修饰的核苷酸。
[1061]
m31.根据实施方案m30所述的方法,其中一个或多个修饰的核苷酸能够阻断第二寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1062]
m32.根据实施方案m30或m31所述的方法,其中第二寡核苷酸包含3’末端,并且一个或多个修饰的核苷酸位于3’末端。
[1063]
m33.根据实施方案m32所述的方法,其中第二寡核苷酸包含5’末端,该5’末端不包含修饰的核苷酸。
[1064]
m34.根据实施方案m1至m33中任一项所述的方法,其中第三寡核苷酸包含一个或多个修饰的核苷酸。
[1065]
m35.根据实施方案m34所述的方法,其中一个或多个修饰的核苷酸能够阻断第三寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1066]
m36.根据实施方案m34或m35所述的方法,其中第三寡核苷酸包含5’末端,并且一个或多个修饰的核苷酸位于5’末端。
[1067]
m37.根据实施方案m36所述的方法,其中第三寡核苷酸包含3’末端,该3’末端不包含修饰的核苷酸。
[1068]
m38.根据实施方案m1至m37中任一项所述的方法,其中多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸包含一个或多个修饰的核苷酸。
[1069]
m39.根据实施方案m38所述的方法,其中一个或多个修饰的核苷酸能够阻断多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1070]
m40.根据实施方案m38或m39所述的方法,其中多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸包含5’末端和3’末端,并且一个或多个修饰的核苷酸位于5’末端、3’末端或者5’末端和3’末端。
[1071]
m41.根据实施方案m30至m40中任一项所述的方法,其中一个或多个修饰的核苷酸包含连接阻断修饰。
[1072]
m42.根据实施方案m1至m41中任一项所述的方法,其中第三寡核苷酸包含dna特异
性标签。
[1073]
m43.根据实施方案m42所述的方法,其中dna特异性标签包含约5至约15个核苷酸。
[1074]
m44.根据实施方案m42或m43所述的方法,其中第三寡核苷酸包含3’末端,并且dna特异性标签位于3’末端。
[1075]
m45.根据实施方案m21至m44中任一项所述的方法,还包括使共价连接的杂交产物变性,从而生成单链连接产物。
[1076]
m46.根据实施方案m45所述的方法,还包括扩增单链连接产物,从而生成扩增的连接产物。
[1077]
m47.根据实施方案m46所述的方法,还包括对扩增的连接产物进行测序,从而生成核酸序列读段。
[1078]
m48.根据实施方案m47所述的方法,还包括分配核酸序列读段的来源。
[1079]
m49.根据实施方案m48所述的方法,其中所述来源是第一混合物中的ssrna或第一混合物中的dsdna。
[1080]
m50.根据实施方案m48或m49所述的方法,其中分配来源包括鉴定包含rna特异性标签的序列读段。
[1081]
m51.根据实施方案m50所述的方法,其中将包含rna特异性标签的序列读段分配至ssrna,并将不包含rna特异性标签的序列读段分配至dsdna。
[1082]
m52.根据实施方案m48或m49所述的方法,其中分配来源包括鉴定包含rna特异性标签的序列读段和鉴定包含dna特异性标签的序列读段。
[1083]
m53.根据实施方案m52所述的方法,其中将包含rna特异性标签的序列读段分配至ssrna,并将包含dna特异性标签的序列读段分配至dsdna。
[1084]
n1.一种根据来源差异扩增核酸的方法,其中所述方法包括:
[1085]
(i)根据实施方案m1至m45中任一项产生核酸文库;
[1086]
(ii)扩增文库的核酸分子,其中扩增包括使文库的核酸分子与第一扩增引物和第二扩增引物在扩增条件下接触,其中来自第一来源的核酸和来自第二来源的核酸被差异扩增,从而生成差异扩增的产物。
[1087]
n1.1根据实施方案n1所述的方法,其中来自第一来源的核酸被指数扩增,且来自第二来源的核酸被线性扩增。
[1088]
n2.根据实施方案n1或n1.1所述的方法,其中第一来源包括rna或dna。
[1089]
n3.根据实施方案n1、n1.1或n2所述的方法,其中第二来源包括rna或dna。
[1090]
n4.根据实施方案n1或n1.1所述的方法,其中第一来源包括rna且第二来源包括dna。
[1091]
n5.根据实施方案n1至n4中任一项所述的方法,其中第一扩增引物包含与m1(b)中的引物寡核苷酸或其部分互补的核苷酸序列。
[1092]
n6.根据实施方案n1至n5中任一项所述的方法,其中第二扩增引物包含与第二寡核苷酸或其部分互补的核苷酸序列。
[1093]
n7.根据实施方案n1至n6中任一项所述的方法,还包括对差异扩增的产物进行测序,从而生成核酸序列读段。
[1094]
n8.根据实施方案n7所述的方法,还包括分配核酸序列读段的来源。
[1095]
n9.根据实施方案n8所述的方法,其中所述来源是第一混合物中的ssrna或第一混合物中的dsdna。
[1096]
n10.根据实施方案n8或n9所述的方法,其中分配来源包括鉴定包含rna特异性标签的序列读段。
[1097]
n11.根据实施方案k10所述的方法,其中将包含rna特异性标签的序列读段分配至ssrna,并将不包含rna特异性标签的序列读段分配至dsdna。
[1098]
n12.根据实施方案n8或n9所述的方法,其中分配来源包括鉴定包含rna特异性标签的序列读段和鉴定包含dna特异性标签的序列读段。
[1099]
n13.根据实施方案n12所述的方法,其中将包含rna特异性标签的序列读段分配至ssrna,并将包含dna特异性标签的序列读段分配至dsdna。
[1100]
o1.一种试剂盒,所述试剂盒包含:
[1101]
第一寡核苷酸;
[1102]
引物寡核苷酸,其包含第一寡核苷酸杂交区域;
[1103]
第二寡核苷酸;
[1104]
多个第一支架多核苷酸种类,每个第一支架多核苷酸种类包含sscdna杂交区域或ssdna杂交区域和第二寡核苷酸杂交区域;
[1105]
第三寡核苷酸;
[1106]
多个第二支架多核苷酸种类,每个第二支架多核苷酸种类包含ssdna杂交区域和第三寡核苷酸杂交区域;和
[1107]
使用说明。
[1108]
o2.根据实施方案o1所述的试剂盒,其中第一寡核苷酸包括rna。
[1109]
o3.根据实施方案o1所述的试剂盒,其中第一寡核苷酸由rna组成。
[1110]
o4.根据实施方案o1、o2或o3所述的试剂盒,其中第一寡核苷酸包含rna特异性标签。
[1111]
o5.根据实施方案o4所述的试剂盒,其中rna特异性标签包含约5至约15个核苷酸。
[1112]
o6.根据实施方案o1至o5中任一项所述的试剂盒,其中第一寡核苷酸包含第一测序衔接子或其部分。
[1113]
o7.根据实施方案o1至o6中任一项所述的试剂盒,其中第一寡核苷酸包含一个或多个修饰的核苷酸。
[1114]
o8.根据实施方案o7所述的试剂盒,其中一个或多个修饰的核苷酸能够阻断第一寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1115]
o9.根据实施方案o7或o8所述的试剂盒,其中一个或多个修饰的核苷酸包含连接阻断修饰。
[1116]
o10.根据实施方案o7至o9中任一项所述的试剂盒,其中第一寡核苷酸包含3’末端,并且一个或多个修饰的核苷酸位于3’末端。
[1117]
o11.根据实施方案o10所述的试剂盒,其中第一寡核苷酸包含5’末端,该5’末端不包含修饰的核苷酸。
[1118]
o12.根据实施方案o6至o11中任一项所述的试剂盒,其中第一寡核苷酸包含5’末端和3’末端,并且从5’末端到3’末端按顺序包含:rna特异性标签和第一测序衔接子或其部
分。
[1119]
o13.根据实施方案o1至o12中任一项所述的试剂盒,还包含含有rna连接酶活性的一种或多种剂。
[1120]
o14.根据实施方案o13所述的试剂盒,其中包含连接酶活性的一种或多种剂选自t4 rna连接酶1、t4 rna连接酶2、截短的t4 rna连接酶2和热稳定的5
′
app dna/rna连接酶。
[1121]
o15.根据实施方案o1至o14中任一项所述的试剂盒,其中引物寡核苷酸包含一个或多个修饰的核苷酸。
[1122]
o16.根据实施方案o15所述的试剂盒,其中一个或多个修饰的核苷酸能够阻断引物寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1123]
o17.根据实施方案o15或o16所述的试剂盒,其中一个或多个修饰的核苷酸包含连接阻断修饰。
[1124]
o18.根据实施方案o15至o17中任一项所述的试剂盒,其中引物寡核苷酸包含5’末端,并且一个或多个修饰的核苷酸位于5’末端。
[1125]
o19.根据实施方案o1至o18中任一项所述的试剂盒,所述试剂盒还包含单链核酸结合剂。
[1126]
o20.根据实施方案o19所述的试剂盒,其中单链核酸结合剂是单链核酸结合蛋白(ssb)。
[1127]
o21.根据实施方案o1至o20中任一项所述的试剂盒,还包含含有逆转录酶活性的剂。
[1128]
o22.根据实施方案o1至o21中任一项所述的试剂盒,还包含含有rna酶活性的剂。
[1129]
o23.根据实施方案o1至o22中任一项所述的试剂盒,所述试剂盒包含多个第一支架双链体种类,其中第一支架多核苷酸种类的每一个与第二寡核苷酸杂交。
[1130]
o24.根据实施方案o1至o23中任一项所述的试剂盒,所述试剂盒包含多个第二支架双链体种类,其中第二支架多核苷酸种类的每一个与第三寡核苷酸杂交。
[1131]
o25.根据实施方案o1至o24中任一项所述的试剂盒,还包含含有dna连接酶活性的剂。
[1132]
o26.根据实施方案o1至o25中任一项所述的试剂盒,其中第一支架多核苷酸种类的每一个的sscdna杂交区域或ssdna杂交区域不同于多个第一支架多核苷酸种类中其他第一支架多核苷酸种类中的sscdna杂交区域或ssdna杂交区域。
[1133]
o27.根据实施方案o1至o26中任一项所述的试剂盒,其中第二支架多核苷酸种类的每一个的ssdna杂交区域不同于多个第二支架多核苷酸种类中其他第二支架多核苷酸种类中的ssdna杂交区域。
[1134]
o28.根据实施方案o1至o27中任一项所述的试剂盒,其中多个第一支架多核苷酸种类中的sscdna杂交区域和/或ssdna杂交区域包含随机序列。
[1135]
o29.根据实施方案o1至o28中任一项所述的试剂盒,其中多个第二支架多核苷酸种类中的ssdna杂交区域包含随机序列。
[1136]
o30.根据实施方案o1至o29中任一项所述的试剂盒,其中第二寡核苷酸包含第二测序衔接子或其部分。
[1137]
o31.根据实施方案o1至o30中任一项所述的试剂盒,其中第三寡核苷酸包含第一
测序衔接子或其部分。
[1138]
o32.根据实施方案o1至o30中任一项所述的试剂盒,其中第三寡核苷酸包含第三测序衔接子或其部分。
[1139]
o33.根据实施方案o1至o32中任一项所述的试剂盒,其中第二寡核苷酸包含一个或多个修饰的核苷酸。
[1140]
o34.根据实施方案o33所述的试剂盒,其中一个或多个修饰的核苷酸能够阻断第二寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1141]
o35.根据实施方案o33或o34所述的试剂盒,其中第二寡核苷酸包含3’末端,并且一个或多个修饰的核苷酸位于3’末端。
[1142]
o36.根据实施方案o35所述的试剂盒,其中第二寡核苷酸包含5’末端,该5’末端不包含修饰的核苷酸。
[1143]
o37.根据实施方案o1至o36中任一项所述的试剂盒,其中第三寡核苷酸包含一个或多个修饰的核苷酸。
[1144]
o38.根据实施方案o37所述的试剂盒,其中一个或多个修饰的核苷酸能够阻断第三寡核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1145]
o39.根据实施方案o37或o38所述的试剂盒,其中第三寡核苷酸包含5’末端,并且一个或多个修饰的核苷酸位于5’末端。
[1146]
o40.根据实施方案o39所述的试剂盒,其中第三寡核苷酸包含3’末端,该3’末端不包含修饰的核苷酸。
[1147]
o41.根据实施方案o1至o40中任一项所述的试剂盒,其中多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸包含一个或多个修饰的核苷酸。
[1148]
o42.根据实施方案o41所述的试剂盒,其中一个或多个修饰的核苷酸能够阻断多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸与另一寡核苷酸、多核苷酸或核酸分子的共价连接。
[1149]
o43.根据实施方案o41或o42所述的试剂盒,其中多个第一支架多核苷酸种类和多个第二支架多核苷酸种类中的每个多核苷酸包含5’末端和3’末端,并且一个或多个修饰的核苷酸位于5’末端、3’末端或者5’末端和3’末端。
[1150]
o44.根据实施方案o33至o43中任一项所述的试剂盒,其中一个或多个修饰的核苷酸包含连接阻断修饰。
[1151]
o45.根据实施方案o1至o44中任一项所述的试剂盒,其中第三寡核苷酸包含dna特异性标签。
[1152]
o46.根据实施方案o45所述的试剂盒,其中dna特异性标签包含约5至约15个核苷酸。
[1153]
o47.根据实施方案o45或o46所述的试剂盒,其中第三寡核苷酸包含3’末端,并且dna特异性标签位于3’末端。
[1154]
o48.根据实施方案o1至o47中任一项所述的试剂盒,还包含第一扩增引物和第二扩增引物。
[1155]
o49.根据实施方案o48所述的试剂盒,其中第一扩增引物包含与引物寡核苷酸或其部分互补的核苷酸序列。
[1156]
o50.根据实施方案o48或o49所述的试剂盒,其中第二扩增引物包含与第二寡核苷酸或其部分互补的核苷酸序列。
[1157]
o51.根据实施方案o48至o50中任一项所述的试剂盒,还包含第三扩增引物。
[1158]
o52.根据实施方案o51所述的试剂盒,其中第三扩增引物包含与第三寡核苷酸或其部分互补的核苷酸序列。
实施例
[1159]
以下阐述的实施例说明了某些实施方式,并且不限制该技术。
[1160]
实施例1:具有内嵌式独特分子标识符(umi)的支架衔接子
[1161]
该实施例描述了具有内嵌式独特分子标识符(umi)的支架衔接子构造。内嵌式umi指作为本文所描述的支架衔接子的组分的umi序列,其成为通过对与支架衔接子的寡核苷酸组分连接的ssna片段进行测序生成的序列读段的一部分。与对照相比,以前使用与模板ssna相邻的随机/通用碱基(即,位于寡核苷酸末端的随机/通用碱基umi,当与ssna片段连接时,与ssna末端直接相邻)的内嵌式umi构造导致差的产率和高衔接子二聚体形成。不受理论的限制,推测差的产率是由于寡核苷酸中的n与支架多核苷酸中对应的n的不适当退火。当寡核苷酸中的umi n是随机的且支架多核苷酸中对应的n也是随机的时,这些组分不一定彼此互补。
[1162]
改进退火的一种替代方法是在寡核苷酸中使用非随机umi序列,在支架多核苷酸中使用对应的非随机互补序列,然而,在本文所描述的支架衔接子构造的情况下使用非随机umi序列(即,由于需要制造、退火和汇集大量寡核苷酸和支架多核苷酸以确保足够的umi复杂性)通常成本过高。另一种替代方法是其中umi与索引相邻定位并且通过链置换聚合酶添加至衔接子分子的构造,然而,这种构造给方案增加了至少1小时和更多的试剂(例如,链置换聚合酶以产生含umi的链)。
[1163]
因此,为了改进衔接子组分(其中组分包含内嵌式随机umi序列)退火,开发了新的衔接子构造。本文描述的内嵌式umi构造包括随机n加上已知互补序列的组合。例如,随机n的“鼓泡”的侧翼为两组互补的已知“锚”核苷酸序列。在一种构造中,p7衔接子位于多个随机n(例如,约5个随机碱基)的下游(即,远离ssna-寡核苷酸接合处)。多个随机n的上游(即,近ssna-寡核苷酸接合处)是已知序列(例如,约10个非随机碱基),其将是umi的一部分。随机n生成足够的复杂性,使得制造和生产这些组分是成本有效的。为了产生锚核苷酸的平衡测序谱,可以用不同的“锚”序列生成约2至4个衔接子种类的汇集物。通过这种构造,对反向读段进行测序的结果是读段将从15bp的umi(5个随机和10个已知碱基)开始。这些可以被修整和移动,以在fastq文件中创建umi标签,并允许天然ssna末端的映射。在一个实例中,测序方案的信息学组分伴随有命令行工具,以对独特读段进行解复用,考虑内嵌式umi,适当地修整读段1,以及修整读取2的umi,并附加到fastq头部,并且可以一直进行到bam。图5中示出了示例性的数据修整方案。添加符合模板的umi,而不是靠近测序索引,允许用户避免修改测序仪设置。本文描述的内嵌式umi构造可以应用于任一衔接子(即,本文描述的第一衔接子或第二衔接子)或者应用于两种衔接子。
[1164]
图1示出了具有内嵌式随机umi的示例性支架衔接子构造。在某些构造中,锚序列足够长,以在37℃的连接温度维持互补性。在某些构造中,锚序列具有70%的gc含量,从而
具有大于45℃的解链温度。示例性锚序列是ggcccgacgg,并且具有tm=47.7℃。在一个构造中,在具有一个锚种类和5nt随机umi的情况下,存在45=1024个独特标签。为了增加复杂性(即增加独特标签的数目),可以使用多个锚种类,可以增加随机umi的长度,内嵌式umi衔接子构造可以用于两种衔接子(例如,ssna片段每一端的p7和p5衔接子),和/或衔接子汇集物中的锚的长度和/或随机umi的长度可以变化。图2示出了通过添加多个锚种类和/或改变随机umi长度来增加复杂性的示例性构造。
[1165]
图6示出了其中内嵌式umi包含非随机序列的另一个示例性支架衔接子构造。以上描述的衔接子构造中的锚序列被包括,因为随机umi中的多个n可能不与衔接子中它们对应的序列退火。一个替代方法是使用所有可能的非随机五聚体的汇集物,这避免了使用多个随机n并允许更短的侧翼区域。在一些构造中,使用顶部和底部链上的所有45种组合,在1024个反应中制造并退火2048个衔接子种类。在一些构造中,在连接末端使用具有高gc含量的非随机侧翼。
[1166]
在一些构造中,高gc侧翼可被添加至非umi衔接子以增加连接效率。高gc侧翼可被添加至非umi衔接子,并与本文所描述的任何内嵌式umi衔接子(例如随机或非随机umi)组合使用。不受理论的限制,具有更高的解链温度并因此在连接位置更稳定可以提高连接效率。
[1167]
实施例2:用于methyl-seq的支架衔接子
[1168]
methyl-seq是一种方法,其中未甲基化的胞嘧啶残基被转化为尿嘧啶残基,并且然后最终转化为胸腺嘧啶残基(扩增后)。甲基化的胞嘧啶残基被保护免受转化过程。甲基转化的主要目的是表观遗传去卷积。methyl-seq具体指在下一代测序(ngs)(无论是全基因组测序(wgs),还是通过探针或扩增子富集的靶向测序,等等)过程中使用的甲基转化。
[1169]
dna上的甲基转化可能是苛刻的。例如,甲基转化可导致dna变性为单链dna(ssdna),并可导致各种切口和断裂。当利用基于连接的ngs文库制备方法(例如,甲基转化前或转化后的衔接子连接)创建methyl-seq文库时,目前使用的某些方法通常具有缺点。例如,某些预甲基转化方法可偏向于短的文库分子。由于甲基转化(例如,使用亚硫酸氢盐处理)使dna产生切口和片段化,在衔接子连接后dna断裂的任何分子(例如,p5从p7衔接子切断)不被包括在最终文库中。这对于ssdna制备和dsdna制备的预甲基转化衔接子连接方法都可能发生。某些甲基转化后衔接子连接方法生成ssdna,并需要第二链合成,以便将dsdna衔接子连接至甲基转化的dna(增加反应和清除步骤)。
[1170]
方法
[1171]
在该实施例中,进行了一系列实验以显示本文所描述的支架衔接子如何在methyl-seq的情况下起作用。下面是使用剪切的gdna进行的实验的描述。
[1172]
支架衔接子连接在两种情况下进行:
[1173]
1.在甲基转化之前连接甲基保护的支架衔接子
[1174]
2.在甲基转化之后连接正常的(非甲基保护的)支架衔接子
[1175]
测试了两种不同形式的甲基转化策略:
[1176]
1.zymo的ez methylation-lightning试剂盒(即亚硫酸氢盐转化)。
[1177]
2.neb酶促甲基化试剂盒。
[1178]
为了获得支架衔接子在methyl-seq情况下起作用的程度有多好的相对比较,在上
面列出的两种条件下,将支架衔接子与具有和没有甲基保护的胞嘧啶残基的dsdna衔接子(即,标准y衔接子和neb酶促methyl-seq(em)衔接子)进行比较。图11显示了本实验中使用的衔接子的实例。
[1179]
在测试的所有情况下,将10ng剪切的na12878 gdna用作输入物。在衔接子连接和甲基转化(不一定按此顺序)后,使用q5尿嘧啶+索引pcr聚合酶和8个索引pcr循环进行索引pcr。反应步骤之间的所有纯化都是根据制造商的说明使用dna纯化珠进行的。
[1180]
结果
[1181]
图12提供了结果的概述。图12的第1列显示了当dna在支架衔接子连接之前通过zymo ez dnamethylation-lightning试剂盒(亚硫酸氢盐处理)处理时,产生了高质量的测序文库。图12的第1列还显示了当dna在支架衔接子连接之前通过neb酶促甲基化试剂盒处理时,产生了高质量的测序文库。图12的第2列显示了当dna在dsdna衔接子(标准y衔接子)连接之前通过zymo ez dnamethylation-lightning试剂盒(亚硫酸氢盐处理)或neb酶促甲基化试剂盒处理时,没有产生测序文库。该结果是预料中的,因为dna在处理后是单链的,并且在衔接子连接步骤之前没有进行第二链合成。图12的第3列显示了当甲基保护的支架衔接子在zymo ez dnamethylation-lightning试剂盒(亚硫酸氢盐处理)之前连接到dna时,没有产生测序文库。不受理论的限制,这可能是由于dna链断裂(来自苛刻的亚硫酸氢盐处理)将大量衔接子彼此分开而失败的。图12的第3列还显示了当甲基保护的支架衔接子在neb酶促甲基化试剂盒测序之前连接到dna时,产生高质量文库。不受理论的限制,该处理可能成功而由于处理的相对苛刻,亚硫酸氢盐对应物可能失败。因为酶促处理对dna不如亚硫酸氢盐处理苛刻,所以更多的分子保持完整,并且产生了测序文库。在某些情况下(例如,当cfdna用作输入物时),将酶促甲基化处理与甲基保护的支架衔接子连接相组合的方法能够保留天然末端。图12的第4列显示了当甲基保护的dsdna衔接子在zymo ez dnamethylation-lightning试剂盒(亚硫酸氢盐处理)之前连接到dna时,没有产生测序文库。不受理论的限制,这可能是由于dna链断裂(来自苛刻的亚硫酸氢盐处理)将大量衔接子彼此分开而失败的。图12的第4列还显示了当甲基保护的dsdna衔接子在neb酶促甲基化试剂盒测序之前连接到dna时,产生高质量文库。不受理论的限制,该处理可能成功而由于处理的相对苛刻,亚硫酸氢盐对应物可能失败。因为酶促处理对dna不如亚硫酸氢盐处理苛刻,所以更多的分子保持完整,并且产生了测序文库。
[1182]
一般度量
[1183]
产生测序文库的四种实验条件是:
[1184]
1.zymo ez dnamethylation-lightning试剂盒(亚硫酸氢盐处理),然后进行支架衔接子连接(非甲基保护的衔接子)
[1185]
2.neb酶促甲基化试剂盒,然后进行支架衔接子连接(非甲基保护的衔接子)
[1186]
3.将甲基保护的支架衔接子连接至dna,然后是neb酶促甲基化试
[1187]
剂盒
[1188]
4.将甲基保护的dsdna衔接子连接至dna,然后是neb酶促甲基化
[1189]
试剂盒
[1190]
用于所有测试条件的文库都是一式两份产生的。在初始测序qc后,这些条件中的每一种的一个重复文库被送去进行更深层次的测序(目标是每个样品10m个读段对)。然后
测序数据通过bismark methyl-seq流水线和multiqc运行以进行分析。
[1191]
图13中的表显示了针对每个样品测序的读段对的数目、甲基化的cg二核苷酸的量、甲基化的其他(非人类表观遗传)基序的量、重复读段的百分比、比对上的读段的百分比、平均插入物大小、含有衔接子(修整的)的读段的量和读段的gc含量。修整的百分比和平均插入物大小完全相关(较短的插入物具有较多的衔接子含量,并需要修整)。插入物大小通常是甲基转化处理对dna苛刻程度的一个良好的度量(平均插入物大小越短,处理越苛刻)。总体而言,基于支架衔接子的样品比一个dsdna衔接子连接样品具有更高的映射,并且具有最佳总体度量的样品是neb酶促甲基化试剂盒、然后进行支架衔接子连接的方案。
[1192]
插入物大小
[1193]
图14显示了在以下四种条件下生成的文库的插入物大小(在图中从左至右标记为1-4;约150bp处的尖峰是本次运行(2x151)的测序读段长度的伪象):
[1194]
1.zymo ez dnamethylation-lightning试剂盒(亚硫酸氢盐处理),然后进行支架衔接子连接(非甲基保护的衔接子)
[1195]
2.将甲基保护的支架衔接子连接至dna,然后是neb酶促甲基化试剂盒
[1196]
3.将甲基保护的dsdna衔接子连接至dna,然后是neb酶促甲基化试剂盒
[1197]
4.neb酶促甲基化试剂盒,然后进行支架衔接子连接(非甲基保护的衔接子)
[1198]
preseq复杂性
[1199]
图15示出了在以下条件下从最高复杂性到最低复杂性的preseq文库复杂性估计:
[1200]
1.zymo ez dnamethylation-lightning试剂盒(亚硫酸氢盐处理),然后进行支架衔接子连接(非甲基保护的衔接子)
[1201]
2.将甲基保护的支架衔接子连接至dna,然后是neb酶促甲基化试剂盒
[1202]
3.neb酶促甲基化试剂盒,然后进行支架衔接子连接(非甲基保护的衔接子)
[1203]
4.将甲基保护的dsdna衔接子连接至dna,然后是neb酶促甲基化试剂盒
[1204]
样品1和2的复杂性可能被人为地提高,因为它们具有最短的片段大小。然而,鉴于当样品3与样品4相比具有更长的插入物大小时,样品3比样品4具有更高的复杂性估计,表明支架衔接子的methyl-seq复杂性与dsdna方法相当或稍好。
[1205]
gc分布:
[1206]
图16显示了在以下四种条件下生成的文库的gc分布(在图中标记为1-4):
[1207]
1.将甲基保护的支架衔接子连接至dna,然后是neb酶促甲基化试
[1208]
剂盒
[1209]
2.将甲基保护的dsdna衔接子连接至dna,然后是neb酶促甲基化
[1210]
试剂盒
[1211]
3.zymo ez dnamethylation-lightning试剂盒(亚硫酸氢盐处理),然后进行支架衔接子连接(非甲基保护的衔接子)
[1212]
4.neb酶促甲基化试剂盒,然后进行支架衔接子连接(非甲基保护的衔接子)
[1213]
所有样品是相似的。
[1214]
结论
[1215]
产生测序文库的所有方案产生了高质量的测序文库,其中度量彼此之间非常相似。支架衔接子(以及其他基于ssdna连接的制备物)通过允许用户在甲基转化的下游连接
衔接子,提供了methyl-seq的多功能性。这节省了时间,保持了分子的复杂性,并且该方法比dsdna方法更便宜,后者必须在衔接子连接之前合成第二链。
[1216]
当甲基保护的衔接子在甲基转化之前连接时,其中dna被甲基转化的方式很重要。对于较长的模板分子,结果表明甲基转化的温和处理产生了文库。当使用较短的模板分子作为输入物(诸如cfdna或古dna(adna))时,由于输入物(模板)dna已经非常短,在苛刻的亚硫酸氢盐处理上游进行甲基保护的衔接子连接可能产生测序文库。
[1217]
实施例3:用于dna和rna混合物的支架衔接子
[1218]
高通量、多分析物分析已经实现了用于医学表型的生物分子的集成基因组分析。专门的分子测定从生物样品中捕获蛋白质组谱、代谢谱、基因组谱和转录组谱。这些独立的数据可以被组合起来,以提供对所研究的生物状况的更深入的理解。dna和rna分析尤其受益于下一代测序(ngs)和下游分析流水线的进步。dna的ngs分析通常提供基因组中遗传和体细胞取代的目录,且rna-seq通常用于测定来自基因组的基因表达输出。这两种类型的数据都被用于检测和了解例如遗传性疾病、癌症和传染病的病因学。
[1219]
dna和rna-seq数据的组合可以提供互补的,且在一些情况下,协同的数据。人类宏基因组样品中的整合核酸分析可用于了解微生物组在代谢性疾病中的作用。对于传染病应用,组合dna和rna分析可有助于在单一测定中鉴定潜在的致病病原体。单细胞核酸的ngs分析可以揭示小组转移和致癌细胞的基因组和转录组谱中的细微变化。整合的无细胞核酸(cfna)ngs分析可以捕获循环肿瘤基因组和/或转录组片段的全面信号,从而改进这种测定的诊断能力。无细胞dna和无细胞rna都可以用作疾病状态的生物标志物。
[1220]
用于dna和rna的传统全基因组/转录组(非靶向)ngs文库制备通常以两种不同的方法进行,但通常具有几个重叠的分子步骤。例如,测序衔接子连接、文库扩增和索引步骤通常被包括在两种制备中。此外,随后的测序和分析通常在相同的测序平台上进行。尽管存在这些相似性,但是对于同时制备全基因组/转录组文库的现有流水线的无缝整合还是有若干限制。目前的方法通常需要转化为双链dna(dsdna),或者需要完全独立的rna特异性连接反应,然后进行转化,这引入方向性的偏差,增加了整个方案的时间,并且引入了更多的纯化步骤,降低了总体产率。
[1221]
该实施例中描述了一种同时dna:rna文库制备方法,用于对总核酸进行无偏差的全基因组/转录组分析,特别面向cfna和来自其他天然降解样品类型诸如例如ffpe的核酸。该概念基于本文所描述的单链dna文库制备技术。该方案可以快速提供测序就绪的dna和定向rna文库(例如,在4.5小时内)。该测定特异性地对dna和rna分子进行条形码化,使得基因组和转录组读段能够去卷积,并且如果需要的话,允许dna或rna的差异扩增。
[1222]
ssprep
[1223]
高通量测序揭示了降解核酸的许多主要特征,如在cfna或ffpe样品中发现的那些。降解的核酸通常是短的,并且经常通过例如切口、氧化、脱氨基作用而被损坏。通常,不考虑样品类型,降解dna的长度是一个或几个核小体的长度或更短。降解的dna通常通过dna骨架中的切口被损坏、丢失或妨碍传统的双链dna文库制备方案。降解的rna转录物同样是短的和片段化的。在没有显著的蛋白质保护的情况下,它们的长度通常短于100个核苷酸,并且是片段化的,使得polya捕获不太可能捕获完整的转录物。因此,可以将短片段转化为文库分子的文库方案对于片段化的核酸是有用的。
[1224]
在该实施例中,本文所描述的单链文库制备(ssprep)方法被用于同时将混合的rna和dna样品转化为序列就绪的文库分子。ssprep方法的工作原理是在衔接子连接之前使模板分子进行热变性,以使所有输入的dna都是单链的。在连接过程中,分子通过添加单链dna结合蛋白保持稳定。支架衔接子促进了局部dsdna切口连接事件,从而增加了单链文库的连接效率。最终结果是文库比传统的dsdna文库制备物捕获更高比例的输入分子,因为带切口(受损)和短分子更有效地转化为测序文库分子。组合的dna:rna方法在ssprep的上游和基于rna酶h的rrna消耗的下游并入了选择性第一链cdna合成(图17)。使用rna酶h rrna消耗方案是因为它选择性去除组合的rna/dna混合物中的核糖体rna,而不是核糖体编码的dna。因为提供了与rrna杂交的dna,rna酶h仅去除rrna并且rna酶h仅裂解dna/rna杂交体,不裂解单链rna。下面列举了组合的dna:rna方案的某些功能方面和步骤,并详细说明了每个优点:
[1225]
1.第一链cdna合成对rna进行条形码化,并附接差异p5衔接子。在可以发生支架衔接子连接之前,rna被转化为第一链cdna。这发生在dna存在的情况下,但由于逆转录酶(rt)的特性和放线菌素d的添加,不会影响dna,所述放线菌素d防止rt延伸出dna模板。六聚体引物(例如,随机六聚体)用于第一链合成。六聚体引物还包含八个核苷酸的分子条形码,该分子条形码后续出现在每个测序读段的开始,并可用于鉴定测序数据中源自rna的每个读段。该引物还包含定制的p5 illumina衔接子,其允许在后续制备过程中在索引pcr期间对rna或dna进行差异扩增。六聚体引物的5’末端包括末端阻断修饰。这确保了dna特异性p5衔接子不会在支架衔接子连接过程中被添加到rna(或cdna)分子。
[1226]
2.支架衔接子连接将条形码化的p5衔接子递送至dna分子,并将p7衔接子递送至dna和cdna分子。在衔接子连接过程中,将支架衔接子添加至反应中。衔接子中的支架区域包含6个随机碱基,其与每个单链模板的末端杂交。在第一链cdna合成过程中延伸的加帽条形码化引物确保只有真正的dna来源的分子接收dna特异性p5衔接子。dna特异性p5衔接子包含8个核苷酸的分子条形码,将读段鉴定为dna分子。dna特异性p5衔接子不同于rna特异性p5衔接子,允许随后在制备过程中在索引pcr步骤进行rna或dna的差异扩增。rna和dna分子通过衔接子连接过程接收相同的p7衔接子。
[1227]
3.生成定向文库。衔接子连接过程的单链性质和衔接子序列确保所有捕获的分子都是定向的。对于rna特异性读段,不需要生成第二链,该第二链可能混淆转录物链来源分析。
[1228]
4.索引pcr可用于dna或rna的差异扩增。分别添加至rna和dna分子中的不同p5衔接子允许在索引pcr过程中进行dna或rna的差异扩增。仅rna特异性p5引物的添加对rna分子进行指数扩增,并对dna分子进行线性扩增,而不需要附接必需的流动池结合序列。dna特异性p5引物的情况正好相反。在索引pcr过程中包含等摩尔量的rna和dnap5引物对dna和rna分子两者均进行指数扩增。在索引pcr之前,每种分子类型的定量是使用文库的等分部分和分别对rna和dna p5衔接子特异的qpcr引物进行的。
[1229]
数据
[1230]
对于dna,将本文描述的ssprep方案与几种市售可得的方案进行了比较。用于这种比较的输入物质是从血浆中提取的收集在streck无细胞dna管中并使用qiagen qiaamp minelute ccfdna试剂盒纯化的1ng相同cfdna输入物。按照制造商的建议制备文
库,并记录每个方案的总时间。本文所描述的ssprep方案产生了高度复杂的文库,即与其他方案相比,pcr重复率较低。ssprep序列数据以相当的但比其他方案生成的序列数据略高的比率映射至人类基因组。此外,ssprep方案一致地恢复了更完整的dna模板长度谱,包括比单核小体更短的片段。在cfdna中,这些较短的片段可以来源于较长的带切口的分子、转录因子结合分子(《100bp)、循环肿瘤dna和/或细菌/病毒。
[1231]
对于rna(cdna),在某些方案优化后,将本文所描述的ssprep方案与nebnext ultra ii定向rna-seq试剂盒的方案进行比较。从10ng富含多聚a的mrna中生成文库,具有ercc掺入对照。首先使用nebnext第一链合成模块将用于ssprep的输入rna转化为第一链cdna。与dna文库一样,rna-seq文库按照制造商的建议制备,并记录每个方案的总时间。因为完整的nebnext制备需要在cdna合成后产生第二链、末端平齐化以及随后降解第二链以保持方向性,所以nebnext制备需要约7小时,而本文描述的ssprep方法在小于4.5小时内生成定向文库。在与完整的nebnext制备的比较中,ssprep获得了等同的映射度量和复杂性,并降低了3’偏倚。
[1232]
为了测试本文所描述的ssprep方法可用于整合的dna和rna文库制备的假设,使用含有5ng剪切的人gdna(na12878)和5ng小鼠总rna的人为的dna:rna混合物进行实验。在cdna生成过程中没有使用特殊的条形码化六聚体cdna引物。nebnext第一链合成模块和标准随机六聚体用于生成第一链cdna。不同生物体的使用允许dna和rna来源的读段去卷积。仅dna的对照ssprep文库表现出优质的dna-seq特异性映射度量。同样,仅rna的文库表现出高质量的rna-seq特异性映射度量。组合的dna:rna ssprep文库显示了基于组合的输入物的预期dna-seq和rna-seq度量(图18a)。长度分布谱显示第一链cdna合成步骤对dna的片段长度没有影响(图18b)。图18c证实了rna-seq对照文库和dna:rna组合文库包含高质量的rna-seq信息,而dna-seq对照文库不包含。
[1233]
结论
[1234]
该实施例中描述的ssprep解决了与从降解的样品中同时制备dna:rna文库相关的某些技术挑战。例如,rna和dna通常以不同的浓度存在于不同的样品中,因此,为了产生有意义的数据,可能需要差异扩增。rna和dna两者都映射至基因组,因此对读段数据进行去卷积是有用的。rna和dna分子的长度通常短且受损,因此有效的制备对于最大化文库的复杂性是有用的。
[1235]
实施例中描述的方法在改良的ssprep方案上游组合了第一链cdna合成步骤,以生成可以被差异扩增的加分子标签的rna和dna分子。该方法是一种精简的rna-seq方案,可以在约4.5小时或更短时间内完成。以上描述的实验表明,该方法以同等效率捕获rna和dna分子。
[1236]
***
[1237]
本文中引用的每个专利、专利申请、出版物和文件的全部内容通过引用被并入。引用专利、专利申请、出版物和文件并不是承认前述任一项是相关的现有技术,也不构成对这些出版物或文件的内容或日期的任何承认。它们的引用并不表示对相关公开内容的搜索。所有关于文件日期或内容的陈述都是基于可的信息,并不是承认其准确性或正确性。
[1238]
已经参考特定实施方式描述了该技术。本文中用来描述该技术的术语和表达是描述性的,且不必然是限制性的。对所公开的实施方式做出的某些修改可以被认为在该技术
的范围内。所公开的实施方式的某些方面合适地可以在存在或不存在本文未具体公开的某些元素的情况下被实施。
[1239]
术语“包括/包含/含有”、“基本上由
……
组成”和“由
……
组成”中的每一个都可以用其他两个术语中的任何一个来代替。术语“一(a)”或“一(an)”可以指其所修饰的一个元素或多个元素(例如,“一种试剂”可以意指一种或多种试剂),除非从上下文清楚描述的是一个元素或多个元素。如本文使用的术语“约”是指基础参数的10%以内的值(即,正或负10%;例如,“约100克”的重量可以包括90克到110克的重量)。在值列表的开头使用术语“约”修饰每个值(例如,“约1、2和3”指“约1、约2和约3”)。当描述值列表时,该列表包括所有中间值及其所有分数值(例如,值列表“80%、85%或90%”包括中间值86%和分数值86.4%)。当值列表后接术语“或更多”时,术语“或更多”适用于所列的每一个值(例如,列表“80%、90%、95%,或更多”或“80%、90%、95%或更多”或“80%、90%或95%或更多”指“80%或更多、90%或更多、或95%或更多”)。当描述值列表时,该列表包括任何两个所列值之间的所有范围(例如,列表“80%、90%或95%”包括“80%至90%”、“80%至95%”和“90%至95%”的范围)。
[1240]
在所附权利要求书中阐述了该技术的某些实施方式。