适用于扩增子测序文库构建的引物、构建方法、扩增子文库及包含其的试剂盒的制作方法
【专利摘要】本发明公开了一种适用于扩增子测序文库构建的引物、构建方法、扩增子文库及包含其的试剂盒。该引物包括目的片段扩增引物序列、测序引物序列以及接头序列,目的片段扩增引物序列、测序引物序列以及接头序列通过扩增步骤得到的扩增子文库中目的片段扩增引物序列的至少一端上带有内部标签序列,内部标签序列为6~10个碱基按不同的排列组合所形成的序列。本发明的引物使所构建的扩增子文库中因带有上述内部标签,不仅可以增加文库的混样个数,提高测序的通量;而且区分并除去文库构建过程中产生污染数据,提高后期数据分析的准确性,从而更加真实的反映出原始样品中不同菌群的丰度比例。
【专利说明】适用于扩增子测序文库构建的引物、构建方法、扩增子文库 及包含其的试剂盒
【技术领域】
[0001] 本发明涉及高通量测序领域,具体而言,涉及一种适用于扩增子测序文库构建的 引物、构建方法、扩增子文库及包含其的试剂盒。
【背景技术】
[0002] 扩增子测序是对特定长度的PCR产物或者捕获的片段进行测序,主要包括16S rDNA测序、18S rDNA测序、ITS测序及功能基因检测等。采用Illumina MiSeq第二代高通 量测序平台测定的16S/18S/ITS某个高变区域的序列,来反应环境样品在细菌、真菌、古细 菌分类方面物种之间的差异,对研究海洋、土壤、肠道粪便等环境中的微生物构成有重要的 指导作用;同样,也可通过对某些功能基因片段的测序,挖掘更多的生物学信息。
[0003] 16S rDNA为编码原核生物核糖体小亚基rRNA的DNA序列,采用MiSeq测序仪,对 16SrDNA某个高变区进行测序,以进一步对环境微生物中的细菌或古细菌的多样性进行分 析。为完成16S rDNA的测序,首先需要基于Illumina测序仪进行相应的文库构建,目前基 于Illumina测序平台的建库方法主要有两种,包括两步扩增建库方法以及一步扩增建库 方法。第一种建库方法为较早的建库方法,为两步扩增建库,即使用两对引物进行两轮PCR 进行建库。第二种方法为Illumina官方推荐的一步扩增方法,该方法目前使用比较广泛, 即通过一步扩增完成建库过程。
[0004] 这两种方法在建库过程都可进行混样建库,即在PCR过程中将标签序列(index) 引入到样品中,该标签序列信息也是进行测序时Miseq测序仪所必须加入的,在对下机数 据进行质控时,通过index信息将各个样品的数据进行拆分。但是由于受到标签序列信息 标签的限制,一个样品只能对应一个标签序列,无法做到一个标签序列对应多个样品,限制 了同一个文库中样品的混样个数,但是由于一个样品需要的数据量比较少,Miseq测序仪一 个通道(lane)产出的数据量比较大,因此标签序列的数目限制了混样的个数少从而造成 了数据的浪费。
[0005] 同时这两种建库方法在建库过程中还存在着很大的缺陷,由于16S rDNA或者ITS 等在扩增过程中使用的是混合模板(如土壤中的多个菌种的混合样品),而且这些模板之 间序列的相似性很高,所以基因组总DNA在16S rDNA扩增时容易出现错误,产生一些在环 境中原本并不存在的"16S rDNA"序列。其中嵌合体(chimeria)对文库的构建及后续数据 拆分影响较大。
[0006] 嵌合体是在PCR的过程中来自不同微生物的16S rDNA发生共扩增造成的。当以 微生物A的16S rDNA为模板进行扩增时,有可能由于延伸不完全,产生微生物A不完全的 16S rDNA单链分子,而在下一轮PCR扩增时,它就可能与另一种序列相近的微生物B的16S rDNA分子退火,并自身作为引物以微生物B的16S rDNA分子为模板延伸,产生一个一部分 来自于微生物A而另一部分来自于微生物B的嵌合体16S rDNA分子,这就叫做嵌合体。这 种原始样品中并不存在的嵌合体分子,会导致过高估计环境中微生物的多样性。
[0007] 针对上述如16S rDNA之类模板所构建的文库,目前还没有好的解决办法来区别上 述嵌合体,使得所得到的测序数据的准确性较低。因此,仍需要对现有的扩增子建库流程进 行改进,以提供一种既便于区分上述"污染数据"又能提高测序通量的文库构建方法。
【发明内容】
[0008] 本发明旨在提供一种适用于扩增子测序文库构建的引物、构建方法、扩增子文库 及包含其的试剂盒,以提高测序文库的通量,并提高所得测序数据的准确性。
[0009] 为了实现上述目的,根据本发明的一个方面,提供了一种适用于扩增子文库构建 的引物,包括目的片段扩增引物序列、测序引物序列以及接头序列,目的片段扩增引物序 列、测序引物序列以及接头序列通过扩增步骤得到的扩增子文库中目的片段扩增引物序列 的至少一端上带有内部标签序列,内部标签序列为6?10个碱基按不同的排列组合所形成 的序列。
[0010] 进一步地,当目的片段扩增引物序列与测序引物序列单独设计时,内部标签序列 设置在目的片段扩增引物序列上或者设置在测序引物序列上。
[0011] 进一步地,内部标签序列设置在目的片段扩增引物序列的5'端或者设置在测序引 物序列的3'端。
[0012] 进一步地,当目的片段扩增引物序列与测序引物序列设计在同一条引物上时,内 部标签序列设置在目的片段扩增引物序列与测序引物序列之间。
[0013] 进一步地,引物构建的扩增子文库中的目的片段扩增引物序列与测序引物序列相 连的两端均带有内部标签序列。
[0014] 进一步地,两端的内部标签序列相同或不同。
[0015] 进一步地,当目的片段扩增引物序列与测序引物序列设计在同一条引物上时,同 一条引物称为文库扩增引物,文库扩增引物由一条文库扩增上游引物和一条文库扩增下游 引物组成,文库扩增上游引物由目的片段扩增上游引物、测序上游引物和接头序列上游引 物组成,文库扩增下游引物由目的片段扩增下游引物、测序下游引物和接头序列下游引物 组成。
[0016] 进一步地,接头序列上游引物为P5接头序列引物,接头序列的下游引物为P7接头 序列引物,测序下游引物还包括外部标签序列,外部标签序列为6?10个碱基按不同的排 列组合所形成的序列,且外部标签序列与内部标签序列相同或不同。
[0017] 进一步地,引物用于构建16S rDNA v4区、18S rDNA、ITS或功能基因的扩增子测 序文库。
[0018] 进一步地,当引物用于构建16S rDNA v4区的扩增子测序文库时,引物由SEQ ID N0·1、SEQIDN0·2、SEQIDN0·3、SEQIDN0·4、SEQIDN0·5、SEQIDN0·6和SEQIDN0·7 所示的上游引物中的任一条上游引物;与SEQ ID NO. 8、SEQ ID NO. 9、SEQ ID NO. 10、SEQ ID NO. 11、SEQ ID NO. 12、SEQ ID NO. 13和SEQ ID NO. 14所示的下游引物中的任一条下游 引物随机组合而成。
[0019] 进一步地,当引物用于构建18S rDNA、ITS或功能基因的扩增子测序文库时,引物 中的用于扩增目的引物为18S rDNA、ITS或功能基因上的保守序列。
[0020] 根据本发明的另一方面,还提供了一种扩增子测序文库的构建方法,构建方法利 用上述任一种引物进行扩增,得到扩增子测序文库。
[0021] 根据本发明的又一方面,进一步提供了一种扩增子测序文库,该扩增子测序文库 在目的片段的至少一端上带有内部标签序列,内部标签序列为6?10个碱基按不同的排列 组合所形成的序列。
[0022] 根据本发明的再一方面,提供了一种试剂盒,该试剂盒包括上述任一种引物。
[0023] 应用本发明的技术方案,通过对现有的扩增子文库构建所用的引物进行改进,使 所构建的扩增子文库中目的片段扩增引物序列的至少一端上带有内部标签序列,增加的内 部标签,不仅可以增加文库的混样个数,提高测序的通量;而且可以根据内部标签序列信息 进一步区分并除去文库构建过程中产生的嵌合体以及非相关的PCR产物,提高后期数据分 析的准确性,从而更加真实的反映出原始样品中不同菌群的丰度比例。
【专利附图】
【附图说明】
[0024] 构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示 意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0025] 图1示出了本发明一种优选实施例中所提供的引物结构示意图;
[0026] 图2示出了本发明实施例1通过扩增后所得到扩增子测序文库经电泳检测的结 果;
[0027] 图3示出了本发明实施例2通过扩增后所得到扩增子测序文库经电泳检测的结 果;以及
[0028] 图4示出了本发明实施例3通过扩增后所得到扩增子测序文库经电泳检测的结 果。
【具体实施方式】
[0029] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。
[0030] 如【背景技术】部分所提到的,在现有技术中,扩增子测序文库的构建方法所构建的 文库存在通量低且后续得到的测序数据准确性较低的缺陷。为了克服上述缺陷,在本发明 一种典型的实施方式中,提供了一种适用于扩增子测序文库构建的引物,提供了一种适用 于扩增子文库构建的引物,包括目的片段扩增引物序列、测序引物序列以及接头序列,目的 片段扩增引物序列、测序引物序列以及接头序列通过扩增步骤得到的扩增子文库中目的片 段扩增引物序列的至少一端上带有内部标签序列,内部标签序列为6?10个碱基按不同的 排列组合所形成的序列。
[0031] 本发明的上述引物通过对现有的扩增子文库构建所用的引物进行改进,使所构建 的扩增子文库中目的片段扩增引物序列的至少一端上带有内部标签序列。通过增加的内部 标签,不仅可以增加文库的混样个数,提高测序的通量;而且可以根据内部标签序列信息进 一步区分并除去文库构建过程中产生的嵌合体和非相关的PCR产物。比如,我们使用的内 部标签序号上游为1,下游为2,而在产物中出现了 1、1组合或者2,2组合,或者没有加入的 组合3,4或者产生了没有标签序列的片段,在进行信息分析时可认为该部分为污染数据, 我们就可以将其去除,只使用上游为1下游为2的数据进行分析,提高了后期数据分析的准 确性,从而更加真实的反映出原始样品中不同菌群的丰度比例。
[0032] 与现有技术相比,本发明的上述引物可以通过内部标签序列的不同来标示不同样 品的模板来源,增加混样数目,从而提高测序的通量;还可以通过内部标签序列来确定目的 片段的菌种来源,提高了后续测序文库数据分析的准确性。上述内部标签序列的序列信息 通常由6?10个碱基按不同的排列组合形成,没有特殊的设计要求,只要排列形成不同的 序列能够用来区分不同的PCR样品即可。
[0033] 在本发明的上述用于扩增子文库构建的引物中,对目的片段扩增引物序列、测序 引物序列的具体设计形式并无特殊限制,可以采用常规的形式以单独的两对引物存在,通 过逐步扩增的方式来构建扩增子文库,也可以以其他的引物设计形式来进行扩增,只要能 够利用上述引物扩增得到具有上述结构特征的测序文库即可。
[0034] 在上述原则指导下,根据构建方法步骤的不同,可以对所用的引物进行不同的设 计。当采用多步扩增得到上述文库时,目的片段扩增引物序列和测序引物序列需要分步使 用,此时,内部标签序列可以设置在目的片段扩增引物序列上也可以设置在测序引物序列 上。在本发明中,当内部标签序列设置在目的片段扩增引物序列上时,设置在目的片段扩 增引物序列的5'端;当内部标签序列设置在测序引物序列上时,设置在测序引物序列的3' 端,这样能够确保内部标签序列能够被测序测到,同时能够区分目的片段的样品来源。
[0035] 在本发明一种优选的实施例中,上述引物构建的扩增子文库中的目的片段扩增引 物序列与测序引物序列相连的两端均带有内部标签序列。通过在目的片段扩增引物序列与 测序引物序列相连的两端均带上内部标签序列,使得各样品PCR产物两端均包含相应的内 部标签信息,从而可以通过改变不同样品两端的内部标签序列信息来标示不同的样品,从 而可以无限制的进行样品混池;而且由于每个样品PCR产物具有两个相对应的固定的内部 标签信息,如果产生嵌合体则内部标签信息会发生改变,此时则通过筛选可以去除掉嵌合 体,使得后期的数据信息分析更加准确,从而能够更加真实的反映出原始样品的菌群丰度 比例。
[0036] 在本发明的上述优选实施例中,由于每个样品两端的内部标签序列都有固定搭 配,因此,只要能跟另一个样品区分开来即可。因此,上述每个样品两端的内部标签序列可 以相同也可以不同。相同时能减少涉及标签的数目,不同时更能增加不同样品的特异性,在 一端的内部标签序列也无法区分样品来源时,可以进一步通过另一端的内部标签序列来进 行区分,从而更彻底地去除所可能混有的嵌合体。在本发明中,优选两端的内部标签序列不 同。
[0037] 本发明的上述用于扩增子文库构建的引物,也可以采用一步扩增的方法进行文库 构建。当采用一步扩增的方法进行文库构建时,需将目的片段扩增引物序列和测序引物序 列设计在同一条引物上,此时,将内部标签序列设置在目的片段扩增引物序列和测序引物 序列之间。这种一步扩增的方法能够快速、方便地得到目的片段的至少一端上带有内部标 签序列的扩增子测序文库。在本发明一种优选的实施例中,上述同一条引物具体称为文库 扩增引物,该文库扩增引物由一条文库扩增上游引物和一条文库扩增下游引物组成,文库 扩增上游引物由目的片段扩增上游引物、测序上游引物和接头序列上游引物组成,文库扩 增下游引物由目的片段扩增下游引物、测序下游引物和接头序列下游引物组成。这种将三 条不同的上游引物和三条不同的下游引物整合于一对文库扩增引物上的设计方式,不仅大 大降低了多步扩增带来的污染风险,而且简化了文库构建流程,缩短了文库构建时间。
[0038] 在本发明的上述优选实施例中,为了与常规的Miseq测序平台的试剂配套使用, 其中的接头序列和测序引物序列均为本领域扩增子文库构建常用的序列。即上游引物为的 P5引物,接头序列的下游引物为P7引物,用于测序的下游引物还包括外部标签序列,外部 标签序列为6?8个碱基按不同的排列组合所形成的序列,且外部标签序列与内部标签序 列相同或不同。
[0039] 接头序列通过采用P5接头序列和P7接头序列以及测序引物序列。常规测序引物 序列上的标签序列为外部标签序列,可以自己设计,也可以利用常规的标签序列进行设计, 本领域技术人员可以自行选择,在此不再赘述。外部标签序列与内部标签序列相同与否,都 不影响其对目的片段来源的区分,只是影响所需要设计的标签序列的数目。在本发明中,优 选外部标签序列与内部标签序列不同,这样,对目的片段样品来源的鉴别程度更强,且能够 混样的数目更多,能更进一步提高测序通量。
[0040] 本发明的上述引物,由于能够在后续更准确地区别目的片段的模板来源,因此更 适合应用于构建16S rDNA v4区、18S rDNA、ITS或功能基因的扩增子测序文库。16S rDNA v4区、18S rDNA和ITS大部分序列在不同的物种都是相当保守的,因此,在保守序列上设计 引物,且在引物上带有不同的内部标签序列的标示,可以在具有相同的外部标签序列时,通 过不同的内部标签序列来区分不同样品来源的扩增子文库。在用于16S rDNA v4区、18S rDNA、ITS或功能基因的扩增子测序文库时,只需更改扩增目的片段即可。
[0041] 当本发明的上述引物用于构建16S rDNA v4区的扩增子测序文库时,上游文库扩 增引物包括:SEQ ID N0.1、SEQ ID N0.2、SEQ ID N0.3、SEQ ID N0.4、SEQ ID N0.5、SEQ ID N0·6和SEQIDN0·7所示的上游引物;以及SEQIDN0·8、SEQIDN0·9、SEQIDN0·10、SEQ ID NO. 11、SEQ ID NO. 12、SEQ ID NO. 13和SEQ ID NO. 14所示的下游引物,扩增时上述任 一种上游引物与任一种下游引物随机搭配使用。上述构建16S rDNA v4区的扩增子测序文 库的引物,都仅需要一步扩增即可完成文库的构建,既操作简单、降低污染,又能提高后续 文库测序数据的准确性,同时又能增加测序通量。
[0042] 在本发明另一种典型的实施方式中,提供了一种扩增子测序文库的构建方法,该 构建方法通过利用上述任一种引物扩增得到扩增子测序文库。这种建库方法不仅能够不仅 可无上限地提高文库的混样个数,提高测序通量,更重要是的可以去除嵌合体,提高后期测 序数据信息分析的准确性,从而能够更加真实的反映出原始样品的菌群丰度比例,是一种 优化的扩增子快速、灵活高通量建库流程。
[0043] 在本发明又一种典型的实施方式中,还提供了一种扩增子测序文库,该扩增子测 序文库中在目的片段的至少一端上带有内部标签序列,内部标签序列为6?10个碱基按不 同的排列组合所形成的序列。本发明的这种文库因在目的片段上带有了内部序列标签,一 方面扩大了标签的数目,有利于增加混样量,提高测序通量;另一方面能够除去嵌合体,提 高测序文库后续分析的准确性。
[0044] 在本发明再一种典型的实施例中,还提供了一种试剂盒,该试剂盒包括上述任一 种引物。本发明的试剂盒所构建的测序文库在目的片段上带有内部序列标签,不仅扩大了 标签的数目,可以在同一测序通道中无上限地增加混样量,提高测序通量;而且含便于后续 分析测序数据时利用该内部标签除去污染数据,提高分析的准确性,有巨大的潜在市场价 值。
[0045] 下面将结合具体的实施例来说明本发明的有益效果。
[0046] 实施例1
[0047] 应用于Illumina MiSeq测序的16S rDNA v4区扩增子测序文库的构建方法,包括 如下实验步骤:
[0048] (1)根据样品16S rDNA DNA浓度,使用无菌水将样品稀释至Ing/ μ 1,如果样品中 存在大量的RNA污染则需要先使用RNase消化后再进行稀释。
[0049] (2)PCR扩增。使用表1中所示的已经合成好的引物按照表2所示的组合进行扩 增。
[0050] 表 1 :
[0051]
【权利要求】
1. 一种适用于扩增子文库构建的引物,包括目的片段扩增引物序列、测序引物序列以 及接头序列,其特征在于,所述目的片段扩增引物序列、所述测序引物序列以及所述接头序 列通过扩增步骤得到的扩增子文库中目的片段扩增引物序列的至少一端上带有内部标签 序列,所述内部标签序列为6?10个碱基按不同的排列组合所形成的序列。
2. 根据权利要求1所述的引物,其特征在于,当所述目的片段扩增引物序列与所述测 序引物序列单独设计时,所述内部标签序列设置在所述目的片段扩增引物序列上或者设置 在所述测序引物序列上。
3. 根据权利要求2所述的引物,其特征在于,所述内部标签序列设置在所述目的片段 扩增引物序列的5'端或者设置在所述测序引物序列的3'端。
4. 根据权利要求1所述的引物,其特征在于,当所述目的片段引物与所述测序引物序 列设计在同一条引物上时,所述内部标签序列设置在所述目的片段扩增引物序列与所述测 序引物序列之间。
5. 根据权利要求1所述的引物,其特征在于,所述引物构建的扩增子文库中的所述目 的片段扩增引物序列与所述测序引物序列相连的两端均带有所述内部标签序列。
6. 根据权利要求5所述的引物,其特征在于,两端的所述内部标签序列相同或不同。
7. 根据权利要求4所述的引物,其特征在于,当所述目的片段扩增引物序列与所述测 序引物序列设计在同一条引物上时,所述同一条引物称为文库扩增引物,所述文库扩增引 物由一条文库扩增上游引物和一条文库扩增下游引物组成,所述文库扩增上游引物由目的 片段扩增上游引物、测序上游引物和接头序列上游引物组成,所述文库扩增下游引物由目 的片段扩增下游引物、测序下游引物和接头序列下游引物组成。
8. 根据权利要求7所述的引物,其特征在于,所述接头序列上游引物为P5接头序列 引物,所述接头序列的下游引物为P7接头序列引物,所述测序下游引物还包括外部标签序 列,所述外部标签序列为6?10个碱基按不同的排列组合所形成的序列,且所述外部标签 序列与所述内部标签序列相同或不同。
9. 根据权利要求7或8中所述的引物,其特征在于,所述引物用于构建16S rDNA v4 区、18S rDNA、ITS或功能基因的扩增子测序文库。
10. 根据权利要求9所述的引物,其特征在于,当所述引物用于构建16S rDNA v4区的 扩增子测序文库时,所述引物由: SEQIDNO·l、SEQIDNO·2、SEQIDNO·3、SEQIDNO·4、SEQIDNO·5、SEQIDNO·6和 SEQ ID NO. 22所示的上游引物中的任一条上游引物;与 SEQ ID NO. 8、SEQ ID NO. 9、SEQ ID NO. 10、SEQ ID NO. 11、SEQ ID NO. 12 和 SEQ ID NO. 13所示的下游引物中的任一条下游引物随机组合而成。
11. 根据权利要求9所述的引物,其特征在于,当所述引物用于构建18S rDNA、ITS或 功能基因的扩增子测序文库时,所述引物中的用于扩增目的引物为18S rDNA、ITS或功能基 因上的保守序列。
12. -种扩增子测序文库的构建方法,其特征在于,所述构建方法利用权利要求1至11 中任一项所述的引物进行扩增,得到所述扩增子测序文库。
13. -种扩增子测序文库,其特征在于,所述扩增子测序文库在目的片段的至少一端上 带有内部标签序列,所述内部标签序列为6?10个碱基按不同的排列组合所形成的序列。
14. 一种试剂盒,其特征在于,所述试剂盒包括权利要求1至11中任一项所述的引物。
【文档编号】C40B40/06GK104293783SQ201410522715
【公开日】2015年1月21日 申请日期:2014年9月30日 优先权日:2014年9月30日
【发明者】蒋智, 曹志生, 朱海浩, 王大伟, 李明洲, 刘运超 申请人:天津诺禾致源生物信息科技有限公司