背景技术:
1、生物分子研究中的进展部分是通过用于表征分子和/或其生物反应的技术的改进来带动的。具体地说,对核酸的研究得益于开发用于序列分析的技术。核酸测序在分子生物学和医学(例如,诊断和治疗监测)领域有各种应用。核酸测序可以提供可以用来诊断对象的某种病况和/或定制治疗方案的信息。测序被广泛用于分子生物学应用,包括载体设计、基因疗法、疫苗设计、工业菌株设计和验证。进行最终序列分析的方式可在此类分析中可能获得的信息的类型和质量方面发挥作用。
技术实现思路
1、本文认识到需要用于增加用于分析和/或处理核酸样品的方法的效率、灵敏度和准确性的系统、方法、过程和组合物。本公开提供了用于在高准确性和灵敏度以及使用高效试剂的情况下分析和/或处理模板(或样品)核酸分子(例如,在生物样品中存在的那些)的系统、方法和组合物。本文提供了用于将衔接子附接至模板插入序列以准备扩增和/或测序的系统、方法和组合物。本文提供了用于扩增诸如模板分子文库中的核酸分子以准备测序的系统、方法和组合物。本文提供了用于对根据本文描述的方法制备的模板和/或文库进行测序以及用于分析从此类测序获得的测序信息的系统、方法和组合物。
2、本文描述了用于样品处理以校正测序错误的各种方法,所述方法包括:提供支持物-模板组装体,其中所述支持物-模板组装体包含(i)包含第一表面引物和第二表面引物的支持物和(ii)包含第一链和第二链的模板核酸分子,其中第二链在3'端包含突出端和可切割部分,其中突出端的至少一部分退火至第一表面引物的至少一部分;使用至少一种酶从第二链切割可切割部分,所述酶被配置为在ap位点切割dna磷酸二酯主链并且在切割的第二链中生成3'-羟基末端;使用第一链作为模板延伸切割的第二链以生成延伸的第二链;以及通过将延伸的第二链退火至第二表面引物并且使用延伸的第二链作为模板延伸第二表面引物,生成包含共价结合至支持物的第二链拷贝的延伸的支持物-模板组装体。在一些实施方案中,支持物是珠粒。在一些实施方案中,在(b)之前,将支持物偶联至模板核酸分子文库中的至多一个模板核酸分子。在一些实施方案中,第一链经由第一链与第一表面引物之间的接合来共价结合至支持物。在一些实施方案中,(c)中的延伸在多个分区中的分区中进行。在一些实施方案中,(c)中的延伸在存在至少一个额外支持物-模板组装体的情况下在本体溶液中进行。在一些实施方案中,(d)在多个分区中的分区中进行。在一些实施方案中,支持物包含多个表面引物,多个表面引物包括第一表面引物和第二表面引物,并且所述方法还包括对延伸的支持物-模板组装体进行扩增以生成扩增的支持物,其中扩增的支持物包含各自与其共价结合的第一链、第一链的拷贝、第二链拷贝和第二链拷贝的拷贝。在一些实施方案中,扩增在多个分区中的分区中进行。在一些实施方案中,所述方法还包括对扩增的支持物进行测序。在一些实施方案中,测序包括将多个测序引物退火至扩增的支持物的多个链,以及以顺序流步骤延伸多个测序引物,其中在顺序流步骤中的流步骤中,提供多个单碱基的核苷酸,并且经由测序信号检测多个核苷酸的掺入或其缺乏。在一些实施方案中,所述方法还包括在顺序流步骤中的特定流步骤处检测定相,以及从碱基判定中忽略或去除在特定流步骤处和特定流步骤的下游收集的测序信号。在一些实施方案中,所述方法还包括从未去除的测序信号生成测序读段,以及将测序读段与参考进行比对。在一些实施方案中,所述方法还包括鉴定单核苷酸多态性(snp)。在一些实施方案中,可切割部分是尿嘧啶残基。在一些实施方案中,酶是脱嘌呤/脱嘧啶核酸内切酶1(ape1)。在一些实施方案中,(b)包括提供尿嘧啶-dna糖基化酶(udg)。在一些实施方案中,(c)包括使用taq聚合酶来延伸切割的第二链。
3、本文描述了用于样品处理以校正测序错误的各种方法,所述方法包括:获得通过在支持物上进行多个顺序测序流步骤而收集的多个测序信号,其中支持物包含各自与其共价结合的模板核酸分子的第一链、第一链的拷贝、模板核酸分子的第二链的第二链拷贝和第二链拷贝的拷贝;在多个顺序测序流步骤中的特定测序流步骤处确定定相的存在;从碱基判定中忽略或去除在特定测序流步骤处和特定测序流步骤的下游收集的测序信号;以及从多个测序信号中的未去除的测序信号生成测序读段。在一些实施方案中,所述方法还包括在特定测序流步骤处鉴定碱基错配错误。在一些实施方案中,碱基错配错误包括以下中的一种:snp、插入/缺失或人为碱基错配错误。在一些实施方案中,鉴定碱基错配错误包括针对多个顺序测序流步骤中的每个测序流步骤确定读段质量度量。在一些实施方案中,读段质量度量至少部分地基于多个顺序测序流步骤的一个或多个均聚物概率值来确定。在一些实施方案中,一个或多个均聚物概率值不同于最高均聚物概率值。在一些实施方案中,读段质量度量基于多个顺序测序流步骤的第二高概率值来确定。在一些实施方案中,在特定测序流步骤处确定定相的存在还包括:确定测序流步骤的读段质量度量移动平均值;选择特定测序流步骤,其中特定测序流步骤是移动平均值高于预定阈值的第n个测序流步骤,其中n是预定义的数;以及对包括特定测序流步骤的测序读段的至少一部分进行修剪。在一些实施方案中,在选定的测序流步骤之前的预定数目的连续测序流步骤是修剪的。在一些实施方案中,连续测序流步骤的预定数目是四的倍数。在一些实施方案中,所述方法还其还包括将修剪的测序数据存储在非暂时性计算机可读介质中。在一些实施方案中,所述方法还其还包括将修剪的测序数据中的测序读段与参考序列进行比对。在一些实施方案中,所述方法还包括针对多个支持物中的每一个获得以下项:获得通过在支持物上进行多个顺序测序流步骤而收集的多个测序信号,其中支持物包含各自与其共价结合的模板核酸分子的第一链、第一链的拷贝、模板核酸分子的第二链的第二链拷贝和第二链拷贝的拷贝;在多个顺序测序流步骤中的特定测序流步骤处确定定相的存在;从碱基判定中忽略或去除在特定测序流步骤处和特定测序流步骤的下游收集的测序信号;以及从多个测序信号中的未去除的测序信号生成测序读段。在一些实施方案中,所述方法还包括针对多个支持物的子集,鉴定碱基错配错误,其中对于多个支持物的子集中的至少一个支持物,碱基错配错误是人为碱基错配错误。在一些实施方案中,人为碱基错配错误并非起源于模板核酸分子所源自的样品。在一些实施方案中,人为碱基错配错误包括扩增错误。
4、本文描述了用于样品处理以校正测序错误的各种系统,所述系统包括一个或多个计算机处理器,其单独或共同地被配置为获得通过在支持物上进行多个顺序测序流步骤而收集的多个测序信号,其中支持物包含各自与其共价结合的模板核酸分子的第一链、第一链的拷贝、模板核酸分子的第二链的第二链拷贝和第二链拷贝的拷贝;在多个顺序测序流步骤中的特定测序流步骤处确定定相的存在;从碱基判定中忽略或去除在特定测序流步骤处和特定测序流步骤的下游收集的测序信号;以及从多个测序信号中的未去除的测序信号生成测序读段。在一些实施方案中,一个或多个计算机处理器单独或共同地被进一步配置为在特定测序流步骤处鉴定人为碱基错配错误,人为碱基错配错误并非起源于模板核酸分子所源自的样品。
5、本文描述了用于样品处理以校正测序错误的各种方法,所述方法包括:提供模板插入分子、部分双链的第一衔接子和部分双链的第二衔接子,其中第一衔接子包含第一链和第二链,第一链在5'端包含有包含第一捕获序列的突出端,其中第一衔接子包含条形码序列,其中第二衔接子包含第三链和第四链,第三链在3'端包含有包含第二捕获序列的突出端;经由(i)将第一捕获序列和第二捕获序列分别退火至模板插入分子,以及(ii)将第二链和第四链分别接合至模板插入分子,来将第一衔接子和第二衔接子附接至模板插入分子,以生成衔接子接合的模板插入分子;使用衔接子接合的模板插入分子、第一引物和第二引物生成模板核酸分子,其中第一引物包含在5'端的捕获部分、可切割部分和与第一衔接子的序列对应的第一序列,其中第二引物包含与第二衔接子的序列对应的第二序列,其中模板核酸分子包含在第一端的捕获部分;切割可切割部分以生成包含突出端的切割的模板核酸分子;通过将突出端退火至支持物的表面引物来将切割的模板核酸分子偶联至支持物,以生成支持物-模板组装体;以及通过捕获捕获部分,从未与模板核酸分子文库的任何模板核酸分子结合的多个支持物分离支持物-模板组装体。在一些实施方案中,支持物是珠粒。在一些实施方案中,捕获部分包含生物素。在一些实施方案中,第一捕获序列、第二捕获序列或两者包含随机n-mer序列。在一些实施方案中,第二衔接子在第四链中在5'至3'的方向上包含以下一个或多个序列区段:[功能序列1],并且在所述第三链中在3'至5'的方向上包含以下一个或多个序列区段:[随机n-mer],[功能序列1],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,第一衔接子在第二链中在5'至3'的方向上包含以下一个或多个序列区段:[功能序列2],[条形码],[功能序列3],并且在所述第一链中在3'至5'的方向上包含以下一个或多个序列区段:[功能序列2],[条形码],[功能序列3],[随机n-mer],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,第二引物在5'至3'的方向上包含以下一个或多个序列区段:[功能序列4],[功能序列2],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,第一引物在3'至5'的方向上包含以下一个或多个序列区段:[功能序列1],[功能序列5],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,模板核酸分子包含在5'至3'的方向上包含以下一个或多个序列区段的链:[功能序列4],[功能序列2],[条形码],[功能序列3],[插入序列],[功能序列1],[功能序列5],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,可切割部分是尿嘧啶。在一些实施方案中,第二衔接子的第三链包含在3'端的氨基封闭基团。在一些实施方案中,所述方法还包括多个第一衔接子,其中多个第一衔接子中的每一个都包含不同的条形码序列。
6、本文描述了用于样品处理以校正测序错误的各种方法,所述方法包括:提供模板插入分子、部分双链的第一衔接子和部分双链的第二衔接子,其中第一衔接子包含第一链和第二链,第一链在5'端包含有包含第一捕获序列的突出端,其中第一衔接子包含通用序列,其中第二衔接子包含第三链和第四链,第三链在3'端包含有包含第二捕获序列的突出端;经由(i)将第一捕获序列和第二捕获序列分别退火至模板插入分子,以及(ii)将第二链和第四链分别接合至模板插入分子,来将第一衔接子和第二衔接子附接至模板插入分子,以生成衔接子接合的模板插入分子;使用衔接子接合的模板插入分子、第一引物和第二引物生成模板核酸分子,其中第一引物包含在5'端的捕获部分、可切割部分和与第一衔接子的序列对应的第一序列,其中第二引物包含与第二衔接子的序列对应的第二序列,其中模板核酸分子包含在第一端的捕获部分;切割可切割部分以生成包含突出端的切割的模板核酸分子;通过将突出端退火至支持物的表面引物来将切割的模板核酸分子偶联至支持物,以生成支持物-模板组装体;以及通过捕获捕获部分,从未与模板核酸分子文库的任何模板核酸分子结合的多个支持物分离支持物-模板组装体。在一些实施方案中,支持物是珠粒。在一些实施方案中,捕获部分包含生物素。在一些实施方案中,第一捕获序列、第二捕获序列或两者包含随机n-mer序列。在一些实施方案中,第二衔接子在第四链中在5'至3'的方向上包含以下一个或多个序列区段:[功能序列1],并且在所述第三链中在3'至5'的方向上包含以下一个或多个序列区段:[随机n-mer],[功能序列1],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,第一衔接子在第二链中在5'至3'的方向上包含以下一个或多个序列区段:[通用序列],并且在所述第一链中在3'至5'的方向上包含以下一个或多个序列区段:[通用序列],[随机n-mer],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,第二引物在5'至3'的方向上包含以下一个或多个序列区段:[功能序列4],[功能序列2],[条形码],[功能序列3],[通用序列],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,第一引物在3'至5'的方向上包含以下一个或多个序列区段:[功能序列1],[功能序列5],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,模板核酸分子包含在5'至3'的方向上包含以下一个或多个序列区段的链:[功能序列4],[功能序列2],[条形码],[功能序列3],[通用序列],[插入序列],[功能序列1],[功能序列5],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,可切割部分是尿嘧啶。在一些实施方案中,第二衔接子的第三链包含在3'端的氨基封闭基团。在一些实施方案中,所述方法还包括多个第一衔接子,其中多个第一衔接子中的每一个都包含相同的通用序列。
7、本文描述了用于样品处理以校正测序错误的各种方法,所述方法包括:提供模板插入分子和部分双链的第一衔接子,其中第一衔接子包含第一链和第二链,第一链在3'端包含有包含捕获序列的突出端;经由(i)将捕获序列退火至模板插入分子,以及(ii)将第二链接合至模板插入分子,来将第一衔接子附接至模板插入分子,以生成衔接子接合的模板插入分子;使用衔接子接合的模板插入分子和引物生成中间分子,其中引物包含与第一衔接子的序列对应的第一序列;使用中间分子和部分双链的第二衔接子生成模板核酸分子,其中第二衔接子包含第三链和第四链,第三链包含在5'端的捕获部分、可切割部分和第二序列,其中模板核酸分子包含在第一端的捕获部分;切割可切割部分以生成包含突出端的切割的模板核酸分子;通过将突出端退火至支持物的表面引物,将切割的模板核酸分子偶联至支持物,以生成支持物-模板组装体;以及通过捕获捕获部分,从未与模板核酸分子文库的任何模板核酸分子结合的多个支持物分离支持物-模板组装体。在一些实施方案中,支持物是珠粒。在一些实施方案中,捕获部分包含生物素。在一些实施方案中,捕获序列包含随机n-mer序列。在一些实施方案中,第一衔接子在第二链中在5'至3'的方向上包含以下一个或多个序列区段:[功能序列1],[功能序列5],并且在所述第一链中在3'至5'的方向上包含以下一个或多个序列区段:[随机n-mer],[功能序列1],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,引物在3'至5'的方向上包含以下一个或多个序列区段:[功能序列1],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,第二衔接子在第三链中在5'至3'的方向上包含以下一个或多个序列区段:[功能序列4],[功能序列2],[条形码],[功能序列3],并且在所述第一链中在3'至5'的方向上包含以下一个或多个序列区段:[功能序列4],[功能序列2],[条形码],[功能序列3],其中序列区段对应于特定序列或其互补序列。在一些实施方案中,可切割部分是尿嘧啶。在一些实施方案中,第一衔接子的第一链包含在3'端的氨基封闭基团。
8、在一些实施方案中,第二衔接子包含(i)在5'至3'的方向上,第四链中的功能序列,和(ii)在3'至5'的方向上,随机n-mer和/或功能序列。在一些实施方案中,功能序列可以包含衔接子、引物、索引或条形码序列。在一些实施方案中,功能序列可以是本文描述的任何功能序列。在一些实施方案中,功能序列可以是本文描述的任何功能序列,并且[随机n-mer]的至少一部分是突出端。
9、本公开的另一方面提供一种系统,其包括一个或多个计算机处理器和与其联接的计算机存储器。计算机存储器包括机器可执行代码,其在通过一个或多个计算机处理器执行时实现上文或本文别处的任何方法。本公开的另一方面提供了一种非暂态计算机可读介质,其包括机器可执行代码,所述机器可执行代码在通过一个或多个计算机处理器执行时实现上文或本文别处的任何方法。
10、根据以下详细描述,本公开的另外的方面和优点对于本领域技术人员将变得显而易见,其中仅示出和描述了本公开的说明性实施方案。如将会理解的,本公开能够具有其他的和不同的实施方案,并且其若干细节能够在各个明显的方面进行修改,所有这些都不背离本公开。因此,附图和说明书将在本质上被视为是说明性的而非限制性的。
11、援引并入
12、本说明书中提到的所有出版物、专利和专利申请都通过引用并入本文,其并入程度如同每个单独的出版物、专利或专利申请被明确且单独地指示通过引用并入。在通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相抵触的程度上,本说明书旨在取代和/或优先于任何此类抵触的材料。