一种基因拷贝数变异分析系统的制作方法
【专利摘要】本发明提供了一种基因拷贝数变异分析系统,包括分析模块,用于读入数据的索引文件和参考基因组并进行比对;分割模块,用于将整个基因组的比对结果的sam文件按照染色体分割开;统计模块,对比对测序数据的比对结果进行统计;窗口计算模块,用于以1KB为窗口,计算基因组上每个窗口平均覆盖深度,结果以列表形式给出;图形模块,用于根据计算结果画出染色体覆盖深度图形;所述分析模块为主模块,依次调用其它各模块,完成各部分的分析工作。本发明能够利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示,同时对数据比对信息进行统计,便于数据评估。
【专利说明】
一种基因拷贝数变异分析系统
技术领域
[0001] 本发明属于基因信息数据处理领域,特别是涉及到一种基因拷贝数变异分析系 统。
【背景技术】
[0002] 人类基因拷贝数变异是多种疾病,特别是肿瘤发生、发展中最重要的原因之一。近 年来随着高通量测序技术的迅猛发展,测序成本有了大幅度降低,基于全基因组测序分析 基因拷贝数变异越来越成为临床检测和科学研究的常规手段。对于基因拷贝数变异的准确 检测和分析也成为生物信息工作者们面对的共同的问题之一。
[0003] 高通量测序技术通过对基因组上长度为200-500bp的随机区域进行扩增、测序,用 测序得到的读长(reads)表征该区域的拷贝数。这样可将基因组上的拷贝数变异信号放大 到可检测水平,然后对测序数据进行分析,达到检测基因拷贝数变异的目的。然而,一方面, 目前基于高通量测序技术(也称新一代测序技术)的全基因组测序数据由于实验处理技术 的局限和人为操作偏差等因素,使得测序数据在整个人类基因组上的分布不均一,有的区 域覆盖很高,而有的区域甚至无法覆盖。这种覆盖的不均一性会对基因拷贝数变异检测产 生较大的干扰。因此,判断一个区域的reads数的变化是由于测序误差造成的还是源于真正 的基因组拷贝数变异,需要连续包含在一定长度的区域(如3MB)的多个小窗口(如IOOkb)的 reads覆盖的平均深度来消除误差影响,然后通过精细的图形化展示,直观的识别出拷贝数 变异。然而目前的拷贝数分析软件图形展示不够精细,能识别的拷贝数变异区域大,分辨率 低。另一方面,人类基因组着丝粒附近存在的大量重复序列和不易扩增的致密区域,以及参 考基因组上存在的未知的gap区域都会对拷贝数变异的检测产生较大干扰,在数据分析过 程中需要排除。然而目前的拷贝数变异分析软件大多都没有排除基因组着丝粒附近高复杂 区域和参考基因组的gap区域,导致检测到的拷贝数变异假阳性高,准确性低。
【发明内容】
[0004] 有鉴于此,本发明提出一种基因拷贝数变异分析系统,能够利用高通量测序数据 对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示,同时对数据比对 信息进行统计,便于数据评估。
[0005] 为达到上述目的,本发明的技术方案是这样实现的:一种基因拷贝数变异分析系 统,包括:
[0006] 分析模块,用于读入数据的索引文件和参考基因组并进行比对;
[0007] 分割模块,用于将整个基因组的比对结果的sam文件按照染色体分割开;
[0008] 统计模块,对比对测序数据的比对结果进行统计;
[0009]窗口计算模块,用于以IKB为窗口,计算基因组上每个窗口平均覆盖深度,结果以 列表形式给出;
[0010]图形模块,用于根据计算结果画出染色体覆盖深度图形,将全基因组覆盖深度图 按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列;
[0011]所述分析模块为主模块,依次调用其它各模块,完成各部分的分析工作。
[0012] 进一步的,本系统还包括SGE批量提交模块,用于实现多样本分析任务批量提交给 SGE集群管理系统。
[0013] 更进一步的,所述SGE批量提交模块根据实际需求指定队组、内存大小及每次提 交的作业数目。
[0014] 进一步的,本系统还包括多任务提交模块,用于没有SGE管理系统的集群进行批量 提交分析任务。
[0015]进一步的,所述窗口计算模块包括特殊区域处理单元,用于遇到着丝粒附近高复 杂度的区域或者参考基因组上的gap区域,自动跳过,不进行计算。
[0016] 相对于现有技术,本发明所述的一种基因拷贝数变异分析系统具有以下优势:
[0017] (1)本发明将全基因组覆盖深度按照染色体展示,即24条染色体每条单独展示覆 盖深度图形,并按竖排罗列,而非整个基因组用一条覆盖深度图形展示,这样可以将拷贝数 变异检测的分辨率提高10倍以上,进而提升识别拷贝数变异的准确性和灵敏度。
[0018] (2)本发明将基因组中的着丝粒高复杂区域和参考基因组的gap区域进行了去除, 降低了检测拷贝数变异的假阳性,提高了准确性。
[0019] (3)本发明以测序的原始clean reads作为输入文件,经比对,排序,按染色体分割 bam文件,统计比对信息,按窗口计算覆盖深度,最后画出展示图,利用高通量测序数据对人 类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示,同时,对数据比对信 息进行统计,便于数据评估。
【附图说明】
[0020] 构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0021] 图1为本发明的流程示意图。
[0022]图2为本发明实施例的HCC样本基因组覆盖图。
[0023]图3为本发明实施例的和HCC配对的正常肝组织基因组覆盖图。
【具体实施方式】
[0024]需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互 组合。
[0025]下面将参考附图并结合实施例来详细说明本发明。
[0026] 如图1所示为本发明软件系统的运算流程。
[0027] 本发明的系统架构为:
[0028] 运行平台:Windows ,Linux
[0029] 编程语言:Perl
[0030] 软件依赖:BWA ,Samtools, SVG画图包。
[0031] 1、分析模块设有CNVAnalyzer.pi主程序,读入数据的索引文件和参考基因组(两 个必须的参数),调用各个辅助程序,依次完成各部分分析工作。
[0032] 2、分割模块设有cut_sam_bychr.pl程序,将整个基因组的比对结果的sam文件按 照染色体分割开,提高运算速度,便于进行统计分析。
[0033] 3、统计模块设有sam_mapping_stat.pl程序,对比对测序数据的比对结果进行统 计。包括原始数据量,mapping rate,unique mapping rate,基因组覆盖率,平均覆盖深度, 建库时插入序列的平均长度以及样品的性染色体表型。
[0034] 4、窗口计算模块设有calcu_window_depth.pl程序,计算基因组上每个窗口(窗口 大小为Ikb)平均覆盖深度,结果以列表形式给出;
[0035] 本模块设有特殊区域处理单元,当遇到着丝粒附近高复杂度的区域或者参考基因 组上的gap区域,则可自动跳过。
[0036] 同时本程序还将计算每个窗口的覆盖区域大小,覆盖比例以及总的测序碱基数 目。
[0037] 5、SGE批量提交模块,设有qsub-sge. pi程序,可实现多样本分析任务批量提交给 SGE集群管理系统。用户可根据实际需求指定队组、内存大小及每次提交的作业数目。 [0038] 6、多任务提交模块,设有mult i-process.pl程序,用于没有SGE管理系统的集群进 行批量提交分析任务。
[0039] 7、图形模块,设有draw_coverage_depth_chrs.pl程序,可以根据前面的计算结果 画出染色体覆盖深度图形。该程序将全基因组覆盖深度图按照染色体展示,即24条染色体 每条单独展示覆盖深度图形,并按竖排罗列,而非整个基因组用一条覆盖深度图形展示,这 样可以最大限度的提高图形展示的分辨率,进而提升识别拷贝数变异的准确性和灵敏性。 程序生成SVG格式的矢量图,同时支持按所需ppi大小将SVG转化成pdf,png,jpeg等图片格 式。
[0040]下面通过一组肝癌肿瘤和正常配对组织样本的低深度全基因组pair-end测序数 据为应用实例,展示本发明的软件系统运行实施结果。基因组的拷贝数变异是结直肠癌中 常见的基因组变异,也是该癌种主要的引发机制之一。
[0041 ]以样本测序数据为输入数据,得到如下结果 [0042] (1)数据信息统计
[0043]表3.1测序数据统计信息
[0045] (2)根据统计信息和计算的每个窗口的测序覆盖深度,画出覆盖深度图(每条染色 体下面小标尺的刻度范围为0-4倍体)
[0046] 从图2可明显看出在HCC样本基因组上有包括chrl短臂和长臂,chr8短臂等大片段 的拷贝数变异发生。
[0047] 图3表示和HCC配对的正常肝组织基因组拷贝数分布图,从图中可以看出正常组织 中没有可靠的拷贝数变异发生。
[0048]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种基因拷贝数变异分析系统,其特征在于,包括: 分析模块,用于读入数据的索引文件和参考基因组并进行比对; 分割模块,用于将整个基因组的比对结果的sam文件按照染色体分割开; 统计模块,对比对测序数据的比对结果进行统计; 窗口计算模块,用于以1KB为窗口,计算基因组上每个窗口平均覆盖深度,结果以列表 形式给出; 图形模块,用于根据计算结果画出染色体覆盖深度图形,将全基因组覆盖深度图按照 染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列; 所述分析模块为主模块,依次调用其它各模块,完成各部分的分析工作。2. 根据权利要求1所述的一种基因拷贝数变异分析系统,其特征在于,本系统还包括 SGE批量提交模块,用于实现多样本分析任务批量提交给SGE集群管理系统。3. 根据权利要求2所述的一种基因拷贝数变异分析系统,其特征在于,所述SGE批量提 交模块根据实际需求指定队组、内存大小及每次提交的作业数目。4. 根据权利要求1所述的一种基因拷贝数变异分析系统,其特征在于,本系统还包括多 任务提交模块,用于没有SGE管理系统的集群进行批量提交分析任务。5. 根据权利要求1所述的一种基因拷贝数变异分析系统,其特征在于,所述窗口计算模 块包括特殊区域处理单元,用于遇到着丝粒附近高复杂度的区域或者参考基因组上的gap 区域,自动跳过,不进行计算。
【文档编号】G06F19/22GK106055926SQ201610319438
【公开日】2016年10月26日
【申请日】2016年5月13日
【发明人】薛成海, 马飞, 张广发
【申请人】万康源(天津)基因科技有限公司