一种第二代、三代基因组测序数据联用的拼接方法及系统的制作方法

文档序号:9235646阅读:1346来源:国知局
一种第二代、三代基因组测序数据联用的拼接方法及系统的制作方法
【技术领域】
[0001] 本发明设及生物信息技术和计算生物学领域,尤其设及一种第二代、=代基因组 测序数据联用的拼接方法及系统。(此处无需加入本发明特点,故删除)
【背景技术】
[000引基因组是生物体内包含在DNA(对于部分病毒是RNA)内的所有遗传信息。DNA是 由A、C、T、G四种碱基组成的互补双链,依据生物学的"中屯、法则",DNA的碱基顺序指导RNA 的转录,W及进一步的蛋白质的翻译合成过程,因此,认识DNA的碱基顺序是认识生物规律 的重要基础,通过测序技术获得DNA的部分碱基序列(reads),用于拼接出完整的基因组序 列,从而用于进一步分析和研究。
[0003] DNA测序技术主要经历了S个阶段的发展,分别是第一代测序技术、第二代测序 技术和第=代测序技术,第一代测序技术是Sanger于1977年发明的双脱氧链终止反应 测序法,正是使用改进后的Sanger测序法,研究者完成了人类基因组计划(Human Genome Project,HGP,1995~2003)几乎所有的测序;第二代测序技术诞生于21世纪初,代表仪器 是454、Illumina和ABI公司相继推出的新一代测序仪(即第二代测序仪),该些测序仪能 够同时并行进行大量的测序反应,从而大幅降低了测序时间和成本,与传统测序方法相比, 第二代测序技术的显著优势是测序通量高,比如S0LiD3测序仪单次运行可W得到20GB测 序数据,其缺点是;产生的DNA读长比Sanger测序法要短很多,比如Sanger测序产生的读 长可W达到9(K)bp,而454测序仪的读长为250-4(K)bp,Solexa读长为50-7化P,短的序列 长度使拼接算法难于解决重复序列区域,导致拼接出现碎片化,此外,第二代测序技术的错 误率也更高;第=代测序技术始于2008年,其特点是采用"单分子测序"策略进行测序,主 要有BioScience公司的HeliScope单分子测序技术、Pacific Biosciences公司的单分子 实时测序技术和化化rd Nanopore Technology Ltd公司的纳米孔纳米孔单分子测序技术, 单分子测序技术显著特征是不再对样本进行扩增,并且最大程度上保证了测序数据(即 reads)在基因组上的均匀覆盖,单分子测序产生的reads长达3化~20化,其潜在的优势 在于可W解决长重复序列的拼接,缺点是reads错误率较高(约5%~15% )。
[0004] 无论是第一代Sanger测序法,还是第二代、第S代测序法,都只能每次"读"出DNA 中的一个短的片段,并不能在一次运行中就将基因组从头到尾完整读出,因此,需要将短的 片段组装成完整的基因组,该个过程被称之为"从头序列拼接"值e Novo assembly)。
[0005] 常见的=代测序数据拼接策略有:
[0006] AHA拼接软件的混合拼接策略;首先将=代数据联配到二代数据拼接产生的重叠 群(contigs)上,然后利用该些S代reads作为连接产生scafTolds图,结合从Illumina, Roche 454 序列数据和化cBio 序列,进行 scaffolding, overlap-layout-consensus 和错 误处理,最终产生完整的基因组,其缺点是将=代数据联配到完整基因组上相对正确,而联 配到相对较短的contigs上准确性有所下降。
[0007] SSPACE-Lon浊ead拼接软件的混合拼接策略;不断迭代地拼装已经产生的 contigs,但使用一种快速可靠的方式进行scafTolding,同AHA类似,其缺点是将S代数据 联配到完整基因组上相对正确,而联配到相对较短的contigs上准确性有所下降。
[000引 PBcR拼接软件的混合拼接策略;利用它的de novo序列拼接的潜力,一种方案是 用短的高准确率的序列来纠正长的单分子的序列,比如PBcR(PacBio corrected Reads)作 为Celera拼接器的一部分,通过回贴短的reads到单个长的reads上并且产生高准确率一 致短的reads来剪除和纠正单个长的read,纠正之后的混合的reads单独进行de novo的 拼接,或者与其他数据混合拼接,其缺点是需要利用大量的计算资源进行纠错。
[0009] HGAP (Hierarchical Genome-assembly Process)拼接软件的拼接策略;使用一个 长插入距离鸟枪DNA文库并结合单分子实时(SMRT)DNA测序技术,来进行高质量de novo微 生物基因组序列拼接,HGAP使用最长的reads作为种子收集所有其他的reads,并通过基于 有向无环图的构建一致性过程来预拼接reads,然后使用现成的长reads拼接器进行拼接, 与混合拼接的策略不同,HGAP不需要高准确率的reads进行纠错。其缺点是要得到高质量 的拼接结果,需要很高的测序深度,该样就增加了测序成本。
[0010] 使用第二代数据对第=代测序数据进行纠错,由于两种数据的量都很大,会消耗 很大的计算资源,迭代地用化cBio数据拆解用第二代数据形成的contigs,仍然有长的重 复序列渗杂在其中,很难进行拆解。
[0011] 另一方面,直接用S代数据进行拼接,需要消耗大量的时间用于自纠错;同时为保 证良好的拼接效果,必须使用足够高的测序深度,该就极大的增加了实验的成本。
[0012] 通常认为在测序深度不是很高的情况下,化R(长连续reads)不能用于高质量的 拼接,化in et al.提出了一种新的非联合方式HGAP,只用CLR完成细菌基因组序列拼接, 尽管测序深度需要达到50X来进行纠错,更高的测序深度用于跨越重复序列区域,还需要 手工干预来纠错,从测序成本角度考虑,该需要相对更高的成本完成单基因组的拼接,特别 是真核生物。
[0013] 目前,有一种联合拼接方式试图对CLR进行纠错,原则上,用化cBio CCS或者短的 NGS (或者混合两者)该是可行的,一些利用二代数据和S代数据提高拼接长度的方法已经 被提出,该些方法进一步加入混合拼接的策略,如Celera, MIRA和ALLPATHS-LG,尽管取得 了很好的结果,利用二代数据纠错需要较长的reads (reads^^p)和较高的测序深度,还 有较多的计算资源,PacBioToCA纠错流程同样支持非混合化cBio拼接。
[0014] 在scafTolding中,AHA策略是最常用的策略,在该一策略中,CLR只用作对拼接二 代数据产生的contig进行scafTolding,它通常产生不完整的拼接结果,并且不适用于大 规模的基因组,最近,Cerulean作为一个新的混合拼接工具发布出来,它利用ABySS产生的 contig图信息和没有纠错的化R来产生scafTolds,尽管产生了很好的结果,Cerulean需要 ABySS产生的contigs,其他的拼接软件可能产生更好地拼接结果,最后,一些用于化cBio reads填充scafTolds中的间隙软件开发出来,该些软件中有PBJelly。由于第二代测序数 据长度和第=代测序数据错误率的局限,完整地拼接原核生物和真核生物依然比较困难。

【发明内容】

[0015] 针对现有技术的不足,本发明提出一种第二代、=代基因组测序数据联用的拼接 方法及系统。
[0016] 本发明提出一种第二代、S代基因组测序数据联用的拼接方法,包括:
[0017] 步骤1,获取第二代基因组测序数据,通过所述第二代基因组测序数据中部分碱基 序列reads的质量信息,对所述第二代基因组测序数据进行预处理,构建de化uUn图;
[0018] 步骤2,对所述de化uijn图进行测序错误处理,生成新的de化uijn图,对所述新 的de化uijn图进行压缩,生成压缩de化uijn图,获取所述压缩de化uijn图中压缩边的 序列重数;
[0019] 步骤3,获取第=代基因组测序数据,将所述第=代基因组测序数据回帖到所述第 二
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1