一种基因拷贝数变异分析系统的制作方法

文档序号：10687420阅读：629来源：国知局

一种基因拷贝数变异分析系统的制作方法
【专利摘要】本发明提供了一种基因拷贝数变异分析系统，包括分析模块，用于读入数据的索引文件和参考基因组并进行比对；分割模块，用于将整个基因组的比对结果的sam文件按照染色体分割开；统计模块，对比对测序数据的比对结果进行统计；窗口计算模块，用于以1KB为窗口，计算基因组上每个窗口平均覆盖深度，结果以列表形式给出；图形模块，用于根据计算结果画出染色体覆盖深度图形；所述分析模块为主模块，依次调用其它各模块，完成各部分的分析工作。本发明能够利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示，同时对数据比对信息进行统计，便于数据评估。
【专利说明】
一种基因拷贝数变异分析系统
技术领域
[0001] 本发明属于基因信息数据处理领域，特别是涉及到一种基因拷贝数变异分析系统。
【背景技术】
[0002] 人类基因拷贝数变异是多种疾病，特别是肿瘤发生、发展中最重要的原因之一。近年来随着高通量测序技术的迅猛发展，测序成本有了大幅度降低，基于全基因组测序分析基因拷贝数变异越来越成为临床检测和科学研究的常规手段。对于基因拷贝数变异的准确检测和分析也成为生物信息工作者们面对的共同的问题之一。
[0003] 高通量测序技术通过对基因组上长度为200-500bp的随机区域进行扩增、测序，用测序得到的读长(reads)表征该区域的拷贝数。这样可将基因组上的拷贝数变异信号放大到可检测水平，然后对测序数据进行分析，达到检测基因拷贝数变异的目的。然而，一方面，目前基于高通量测序技术(也称新一代测序技术）的全基因组测序数据由于实验处理技术的局限和人为操作偏差等因素，使得测序数据在整个人类基因组上的分布不均一，有的区域覆盖很高，而有的区域甚至无法覆盖。这种覆盖的不均一性会对基因拷贝数变异检测产生较大的干扰。因此，判断一个区域的reads数的变化是由于测序误差造成的还是源于真正的基因组拷贝数变异，需要连续包含在一定长度的区域(如3MB)的多个小窗口（如IOOkb)的 reads覆盖的平均深度来消除误差影响，然后通过精细的图形化展示，直观的识别出拷贝数变异。然而目前的拷贝数分析软件图形展示不够精细，能识别的拷贝数变异区域大，分辨率低。另一方面，人类基因组着丝粒附近存在的大量重复序列和不易扩增的致密区域，以及参考基因组上存在的未知的gap区域都会对拷贝数变异的检测产生较大干扰，在数据分析过程中需要排除。然而目前的拷贝数变异分析软件大多都没有排除基因组着丝粒附近高复杂区域和参考基因组的gap区域，导致检测到的拷贝数变异假阳性高，准确性低。

【发明内容】

[0004] 有鉴于此，本发明提出一种基因拷贝数变异分析系统，能够利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示，同时对数据比对信息进行统计，便于数据评估。
[0005] 为达到上述目的，本发明的技术方案是这样实现的：一种基因拷贝数变异分析系统，包括：
[0006] 分析模块，用于读入数据的索引文件和参考基因组并进行比对；
[0007] 分割模块，用于将整个基因组的比对结果的sam文件按照染色体分割开；
[0008] 统计模块，对比对测序数据的比对结果进行统计；
[0009]窗口计算模块，用于以IKB为窗口，计算基因组上每个窗口平均覆盖深度，结果以列表形式给出；
[0010]图形模块，用于根据计算结果画出染色体覆盖深度图形，将全基因组覆盖深度图按照染色体展示，即24条染色体每条单独展示覆盖深度图形，并按竖排罗列；
[0011]所述分析模块为主模块，依次调用其它各模块，完成各部分的分析工作。
[0012] 进一步的，本系统还包括SGE批量提交模块，用于实现多样本分析任务批量提交给 SGE集群管理系统。
[0013] 更进一步的，所述SGE批量提交模块根据实际需求指定队组、内存大小及每次提交的作业数目。
[0014] 进一步的，本系统还包括多任务提交模块，用于没有SGE管理系统的集群进行批量提交分析任务。
[0015]进一步的，所述窗口计算模块包括特殊区域处理单元，用于遇到着丝粒附近高复杂度的区域或者参考基因组上的gap区域，自动跳过，不进行计算。
[0016] 相对于现有技术，本发明所述的一种基因拷贝数变异分析系统具有以下优势：
[0017] (1)本发明将全基因组覆盖深度按照染色体展示，即24条染色体每条单独展示覆盖深度图形，并按竖排罗列，而非整个基因组用一条覆盖深度图形展示，这样可以将拷贝数变异检测的分辨率提高10倍以上，进而提升识别拷贝数变异的准确性和灵敏度。
[0018] (2)本发明将基因组中的着丝粒高复杂区域和参考基因组的gap区域进行了去除，降低了检测拷贝数变异的假阳性，提高了准确性。
[0019] (3)本发明以测序的原始clean reads作为输入文件，经比对，排序，按染色体分割 bam文件，统计比对信息，按窗口计算覆盖深度，最后画出展示图，利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示，同时，对数据比对信息进行统计，便于数据评估。
【附图说明】
[0020] 构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
[0021] 图1为本发明的流程示意图。
[0022]图2为本发明实施例的HCC样本基因组覆盖图。
[0023]图3为本发明实施例的和HCC配对的正常肝组织基因组覆盖图。
【具体实施方式】
[0024]需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。
[0025]下面将参考附图并结合实施例来详细说明本发明。
[0026] 如图1所示为本发明软件系统的运算流程。
[0027] 本发明的系统架构为：
[0028] 运行平台：Windows ,Linux
[0029] 编程语言：Perl
[0030] 软件依赖:BWA ,Samtools, SVG画图包。
[0031] 1、分析模块设有CNVAnalyzer.pi主程序，读入数据的索引文件和参考基因组(两个必须的参数），调用各个辅助程序，依次完成各部分分析工作。
[0032] 2、分割模块设有cut_sam_bychr.pl程序，将整个基因组的比对结果的sam文件按照染色体分割开，提高运算速度，便于进行统计分析。
[0033] 3、统计模块设有sam_mapping_stat.pl程序，对比对测序数据的比对结果进行统计。包括原始数据量，mapping rate，unique mapping rate,基因组覆盖率，平均覆盖深度，建库时插入序列的平均长度以及样品的性染色体表型。
[0034] 4、窗口计算模块设有calcu_window_depth.pl程序，计算基因组上每个窗口（窗口大小为Ikb)平均覆盖深度，结果以列表形式给出；
[0035] 本模块设有特殊区域处理单元，当遇到着丝粒附近高复杂度的区域或者参考基因组上的gap区域，则可自动跳过。
[0036] 同时本程序还将计算每个窗口的覆盖区域大小，覆盖比例以及总的测序碱基数目。
[0037] 5、SGE批量提交模块，设有qsub-sge. pi程序，可实现多样本分析任务批量提交给 SGE集群管理系统。用户可根据实际需求指定队组、内存大小及每次提交的作业数目。 [0038] 6、多任务提交模块，设有mult i-process.pl程序，用于没有SGE管理系统的集群进行批量提交分析任务。
[0039] 7、图形模块，设有draw_coverage_depth_chrs.pl程序，可以根据前面的计算结果画出染色体覆盖深度图形。该程序将全基因组覆盖深度图按照染色体展示，即24条染色体每条单独展示覆盖深度图形，并按竖排罗列，而非整个基因组用一条覆盖深度图形展示，这样可以最大限度的提高图形展示的分辨率，进而提升识别拷贝数变异的准确性和灵敏性。程序生成SVG格式的矢量图，同时支持按所需ppi大小将SVG转化成pdf，png，jpeg等图片格式。
[0040]下面通过一组肝癌肿瘤和正常配对组织样本的低深度全基因组pair-end测序数据为应用实例，展示本发明的软件系统运行实施结果。基因组的拷贝数变异是结直肠癌中常见的基因组变异，也是该癌种主要的引发机制之一。
[0041 ]以样本测序数据为输入数据，得到如下结果 [0042] (1)数据信息统计
[0043]表3.1测序数据统计信息
[0045] (2)根据统计信息和计算的每个窗口的测序覆盖深度，画出覆盖深度图（每条染色体下面小标尺的刻度范围为0-4倍体）
[0046] 从图2可明显看出在HCC样本基因组上有包括chrl短臂和长臂，chr8短臂等大片段的拷贝数变异发生。
[0047] 图3表示和HCC配对的正常肝组织基因组拷贝数分布图，从图中可以看出正常组织中没有可靠的拷贝数变异发生。
[0048]以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1. 一种基因拷贝数变异分析系统，其特征在于，包括：分析模块，用于读入数据的索引文件和参考基因组并进行比对；分割模块，用于将整个基因组的比对结果的sam文件按照染色体分割开；统计模块，对比对测序数据的比对结果进行统计；窗口计算模块，用于以1KB为窗口，计算基因组上每个窗口平均覆盖深度，结果以列表形式给出；图形模块，用于根据计算结果画出染色体覆盖深度图形，将全基因组覆盖深度图按照染色体展示，即24条染色体每条单独展示覆盖深度图形，并按竖排罗列；所述分析模块为主模块，依次调用其它各模块，完成各部分的分析工作。2. 根据权利要求1所述的一种基因拷贝数变异分析系统，其特征在于，本系统还包括 SGE批量提交模块，用于实现多样本分析任务批量提交给SGE集群管理系统。3. 根据权利要求2所述的一种基因拷贝数变异分析系统，其特征在于，所述SGE批量提交模块根据实际需求指定队组、内存大小及每次提交的作业数目。4. 根据权利要求1所述的一种基因拷贝数变异分析系统，其特征在于，本系统还包括多任务提交模块，用于没有SGE管理系统的集群进行批量提交分析任务。5. 根据权利要求1所述的一种基因拷贝数变异分析系统，其特征在于，所述窗口计算模块包括特殊区域处理单元，用于遇到着丝粒附近高复杂度的区域或者参考基因组上的gap 区域，自动跳过，不进行计算。
【文档编号】G06F19/22GK106055926SQ201610319438
【公开日】2016年10月26日
【申请日】2016年5月13日
【发明人】薛成海, 马飞, 张广发
【申请人】万康源(天津)基因科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：薛成海;马飞;张广发;
技术所有人：万康源(天津)基因科技有限公司;
我是此专利的发明人

上一篇：mRNA信息的二进制存储方法
上一篇：基于转录组双端测序数据组装基因组序列的方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。