同时确定多种样本的线粒体基因组序列信息的方法和系统的制作方法
【技术领域】
[0001] 本发明涉及生物技术领域,具体地,涉及同时确定多种样本的线粒体基因组序列 ig息的方法和系统。
【背景技术】
[0002] 线粒体(mitochondrion)是真核生物细胞内的重要细胞器,几乎存在于各类真核 生物细胞内,处于新陈代谢和生物能量转换的中心地位。在后生动物中,大部分物种线粒体 的基因组大小大概在16Kb左右,编码13个蛋白质,2个rRNA以及22个tRNA。并且其基因 组具有相当一致的结构特点:十分细小和致密,基因的排列紧密,没有或很少的基因间隔序 列,所有的基因都不含有内含子。
[0003] 线粒体因其独特的系统发育历史常被用作系统发育研究的重要分子标记物。例 如,国际生命条形码项目(the International Barcode of Life, iBOL, http://ibol.org) 利用线粒体的coxl基因作为动物的物种鉴别序列,已经获得近15万个物种的数据库,线粒 体上的其他蛋白基因,如CYTB、ND1等都是有助于物种鉴定和系统发育关系的构建的很好 的分子标记。
[0004] 然而,如何快速有效的获得大量物种的线粒体基因组仍然是个难题。
【发明内容】
[0005] 需要说明的是,本发明是基于发明人的下列发现而完成的:
[0006] 传统的线粒体的基因组测序一般都是通过物理分离线粒体、常规PCR或LA-PCR 的方法分离得到研究者所关注物种的线粒体DNA,然后通过酶切或超声打断的方法得到短 的DNA片段,通过第一代测序仪(基于Sanger测序原理)测序并通过软件进行组装得到 全长线粒体基因组序列。而这些传统方法都不可避免的需要针对单个物种设计引物,并逐 个进行扩增和测序。受到引物设计和测序通量的限制,该过程非常耗时,成本高,无法快速 的用于大量生物的全线粒体基因组测序。近年来第二代测序技术(the next generation sequencing technology, NGS)使人们有能力完成大量样品的线粒体基因组测序。同时,也 使低廉地获取大量不同物种的全线粒体基因组成为可能。NGS所能够提供的测序通量大大 超过任何单个线粒体基因组的测序需求,以Illumina HiSeq 2000为例,单个run的测序通 量达到600G,足以对30万个线粒体基因组进行100X的测序。虽然将不同的样品混合可以 解决通量浪费的问题,但是怎样将混合的测序结果一一对应回混合样本中的原初个体是目 前研究的瓶颈。目前常用的技术采用物理分隔或在样本测序前添加带有索引标签的接头来 区分同一个测序反应中的多个样品。此技术的应用虽然能够极大的增加一次测序反应中测 序样本的数量,但由于此方法需要对每一个样本单独建库,其成本会随着所需测序样本的 数量呈线性增长,因此大大限制了索引标签序列在混合样本中的应用。
[0007] 从测序技术发展的早期开始,研究人员们就在找寻一种能够大规模测序和分析 物种的方法。不同的研究人员都从理论的角度上验证了混合测序分析的可行性。2010年 Timmermans等人将该思路应用在了 30个鞘翅目的线粒体全基因组测序上,证实了宏线粒 体基因组测序分析的可行性,他们利用大片段PCR扩增富集线粒体基因组,并利用罗氏454 测序30个混合的甲虫线粒体,扩增特定基因片段以辅助组装。然而该研究中使用的LA-PCR 受引物的限制很大,尤其对于不同科目的物种需要针对性的设计引物。而且因为,其混合的 物种亲缘关系较近,导致混合组装过程中产生钳合体的概率大大增加,同时也需要一系列 特定基因片段的sanger测序结果辅助组装,进一步增加了人力物力成本。
[0008] 因而,现阶段大量物种的线粒体基因组组装的方法仍有待改进。
[0009] 本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的 在于提出一种能够快速有效的同时确定大量物种的线粒体基因组信息的手段。具体地,本 发明旨在通过利用NGS的高通量和低成本的优势,结合宏基因组分析技术,通过生物信息 学的方法混合组装动物线粒体基因组。
[0010] 根据本发明的一个方面,本发明提供了一种同时确定多种样本的线粒体基因组序 列信息的方法,所述多种样本所属种相互不同。根据本发明的实施例,该方法包括以下步 骤:提供所述多种样本中每一种的基因组DNA并混合,以便获得DNA混合物;将所述DNA混 合物进行文库构建,以便获得DNA测序文库;对所述DNA测序文库进行测序,以便获得多个 测序序列;将所述多个测序序列进行筛选,以便获得目标序列;将所述目标序列进行序列 组装,以便获得多个组装序列;将所述多种样本中每一种进行形态学物种分类,以便获得多 种样本的形态学物种分类信息;基于多种样本的形态学物种分类信息,参考线粒体蛋白基 因数据库,将所述组装序列进行物种分配,以便确定多种样本中每一种的组装序列;以及基 于所述多种样本中每一种的组装序列,分别构建各样本的线粒体基因组,确定线粒体基因 组序列信息。
[0011] 发明人惊奇地发现,利用本发明的方法能够一次性平行获得大量物种的线粒体基 因组。并且,根据本发明的实施例,本发明的方法所需人力、物力和时间成本低,对实验材料 即各物种样本DNA的要求不高,易于推广应用。
[0012] 根据本发明的另一方面,本发明还提供了一种用于同时确定多种样本的线粒体基 因组序列信息的系统,所述多种样本所属种相互不同。根据本发明的实施例,该系统包括: DNA混合物提供装置,所述DNA混合物提供装置用于提供所述多种样本中每一种的基因组 DNA并混合,以便获得DNA混合物;文库构建装置,所述文库构建装置与所述DNA混合物提 供装置相连,用于将所述DNA混合物进行文库构建,以便获得DNA测序文库;测序装置,所 述测序装置与所述文库构建装置相连,用于对所述DNA测序文库进行测序,以便获得多个 测序序列;筛选装置,所述筛选装置与所述测序装置相连,用于将所述多个测序序列进行筛 选,以便获得目标序列;序列组装装置,所述序列组装装置与所述筛选装置相连,用于将所 述目标序列进行序列组装,以便获得多个组装序列;形态学物种分类装置,所述形态学物种 分类装置用于将所述多种样本中每一种进行形态学物种分类,以便获得多种样本的形态学 物种分类信息;组装序列物种分配装置,所述组装序列物种分配装置分别与所述序列组装 装置和所述形态学物种分类装置相连,用于基于多种样本的形态学物种分类信息,参考线 粒体蛋白基因数据库,将所述组装序列进行物种分配,以便确定多种样本中每一种的组装 序列;以及线粒体基因组构建装置,所述线粒体基因组构建装置与所述组装序列物种分配 装置相连,用于基于所述多种样本中每一种的组装序列,分别构建各样本的线粒体基因组, 确定线粒体基因组序列信息。
[0013] 根据本发明的实施例,利用本发明的系统能够一次性平行获得大量物种的线粒体 基因组。并且,发明人发现,本发明的方法所需人力、物力和时间成本低,对实验材料即各物 种样本DNA的要求不高,易于推广应用。
[0014] 其中,需要说明的是,在本文中所采用的表达方式"蛋白基因"、"蛋白编码基因"、 "线粒体蛋白基因"均是指线粒体蛋白编码基因。
[0015] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0016] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变 得明显和容易理解,其中:
[0017] 图1显示了根据本发明一个实施例的同时确定多种样本的线粒体基因组序列信 息的方法的流程示意图;
[0018] 图2显示了根据本发明一个实施例,组装序列物种分配的流程示意图;
[0019] 图3显示了根据本发明一个实施例,49个物种样本的线粒体基因组组装结果示意 图;
[0020] 图4显示了根据本发明一个实施例,49个物种样本的组装序列涵括线粒体蛋白基 因情况的不意图;
[0021] 图5显示了根据本发明一个实施例,49个物种样本中其中三个果蝇种的C0I基因 进化距离及其组装质量示意图;
[0022] 图6显示了根据本发明一个实施例,利用软件Geneious注释6个组装线粒体基因 组的结果示意图;
[0023] 图7显示了根据本发明一个实施例的用于同时确定多种样本的线粒体基因组序 列信息的系统的结构示意图;
[0024] 图8显示了根据本发明一个实施例,筛选装置400的结构示意图;
[0025] 图9显示了根据本发明一个实施例,序列组装装置500的结构示意图;
[0026] 图10显示了根据本发明一个实施例,组装序列物种分配装置700的结构示意图。
【具体实施方式】
[0027] 下面详细描述本发明的实施例。下面描述的实施例是示例性的,仅用于解释本发 明,而不能理解为对本发明的限制。
[0028] 根据本发明的一个方面,本发明提供了一种同时确定多种样本的线粒体基因组序 列信息的方法,所述多种样本所属种相互不同。发明人惊奇地发现,利用本发明的方法能够 一次性平行获得大量物种的线粒体基因组。并且,根据本发明的实施例,本发明的方法所需 人力、物力和时间成本低,对实验材料即各物种样本DNA的要求不高,易于推广应用。
[0029] 具体地,根据本发明的实施例,本发明的同时确定多种样本的线粒体基因组序列 信息的方法包括以下步骤:
[0030] 首先,提供所述多种样本中每一种的基因组DNA并混合,以便获得DNA混合物。
[0031 ] 其次,将所述DNA混合物进行文库构建,以便获得DNA测序文库。根据本发明的实 施例,所述DNA测序文库的插入片段长度为250bp。
[0032] 再次,对所述DNA测序文库进行测序,以便获得多个测序序列。根据本发明的实施 例,利用HiSeq2000测序平台进行所述测序。由此,前述的DNA测序文库也将按照HiSeq2000 测序平台的文库构建策略构建。
[0033] 接着,将所述多个测序序列进行筛选,以便获得目标序列。根据本发明的实施例, 将所述多个测序序列进行筛选,进一步包括:将所述多个测序序列进行去接头污染和质量 控制处理,以便获得经过去接头污染和质量控制处理的测序序列;将所述经过去接头污染 和质量控制处理的测序序列进行第一比对,以便获得第一比对序列;将所述第一比对序列 分剪成长度为51bp的Kmer片段;以及从所述多个测序序列中寻找与所述Kme