人基因组重测序数据分析系统及方法
【专利摘要】本发明提供一种专门针对人基因组重测序数据的分析系统及方法。所述分析系统包括Web交互装置、基础服务模块和数据分析平台。其中Web交互装置用于以Web方式接收用户输入的人基因组重测序数据和参数,并将结果展示给用户;基础服务模块用于对接收的数据和信息生成分析任务;数据分析平台用于根据生成的任务,读取基因组数据,并调用生物信息学软件和数据库,对数据进行分析,获取分析结果。本发明提供的人基因组重测序数据分析系统及方法,通过调用高效准确的生物信息学软件和个性化分析模块,简化了基因组重测序数据分析流程,提高了分析质量及检测结果的准确率,节省了计算机运行时间,同时还能使用户进行数据的重复分析和查询,节省了科研成本。
【专利说明】
人基因组重测序数据分析系统及方法
技术领域
[0001]本发明属于生物信息学领域,具体地说,涉及人基因组重测序数据分析系统及方法。
【背景技术】
[0002 ]生物信息学(Bi ο inf ormati c s)是研究生物信息的采集、处理、存储、传播、分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,由生命科学和计算机科学相结合形成的一门新兴学科。它通过综合利用生物学、计算机科学和信息技术而揭示大量而复杂的生物数据所蕴含的生物学奥秘。
[0003]人全基因组重测序是基于人基因组参考序列对个体或群体进行全基因组测序,并在个体或群体水平进行生物信息分析的方法。基于全基因组重测序的人类遗传学和群体进化学的研究,能够快速筛选出基因组范围内的遗传变异,实现基因型多样性分析、遗传进化分析以及致病和易感性基因等的筛选。随着二代测序技术的发展与普及,全基因组重测序已成为人类遗传学、转化医学和群体进化领域最为迅速而有效的方法之一,可更全面地挖掘基因序列差异和结构变异,包括单碱基突变、插入缺失变异、拷贝数变异和结构变异,在全基因组水平上扫描并检测与表型差异、疾病、进化等相关的突变位点,具有重要的科研意义
【发明内容】
[0004]本发明的目的是提供一种专门针对人基因组重测序数据的分析系统。
[0005]本发明的另一目的是提供基于上述分析系统的人基因组重测序数据分析方法。
[0006]本发明基于以下构思:人全基因组重测序是基于人基因组参考序列对个体或群体进行全基因组测序,并通过序列比对,可以找到大量的单核苷酸多态性位点SNP(SingleNucleotide Polymorphisms),插入缺失位点 InDe I (Insert1n-De let 1n)、结构变异位点SV(Structure Variat1n)位点,是在个体或群体水平上进行生物信息分析的方法。目前,人重测序数据分析需要用到多款生物信息学软件,要对每款软件的使用方法都比较了解,且针对人的基因组重测序分析数据量大,基因组结构复杂。为解决上述问题,本发明采用专门针对人基因组重测序数据进行分析的系统和过滤方法,并使整个生物信息学分析流程实现自动化。
[0007]为了实现本发明目的,本发明提供的人基因组重测序数据分析系统,所述分析系统包括:
[0008]Web交互装置I,以Web方式接收用户输入的人基因组重测序数据和必要的参数,并将结果展示给用户;
[0009]基础服务模块2,用于根据Web交互装置接收的数据和信息生成可进行分析的任务,并对任务进行调度操作;以及
[0010]数据分析平台3,用于根据基础服务模块生成的任务,读取基因组数据,并调用生物信息学软件和数据库,对用户提供的人基因组重测序数据进行分析,获取分析结果。
[0011]所述基础服务模块包括任务调度模块,用于根据所述Web交互装置接收的用户输入的数据和参数生成分析任务,并将分析任务发送至数据分析平台;在任务运行过程中用于实时监测分析任务的运行状态及进度。
[0012]所述基础服务模块还包括:
[0013]结果推送模块,用于在分析任务结束时,通过任务调度模块的调用,将所述数据分析平台得到的分析结果推送至Web交互装置并向用户进行展示;以及
[0014]数据库交互模块,用于在分析任务结束时,根据所述任务调度模块发送的存储指令,将所述数据分析平台得到的分析结果存储至云端数据库。
[0015]进一步低,所述基础服务模块包括云端数据库,用于存储分析结果和分析报告,用于用户从所述云端数据库中提取数据进行查询和二次分析。
[0016]所述数据分析平台包括数据分析单元和注释数据库:
[0017]数据分析单元调用的生物信息学软件包括SNP检测、InDel检测、SV检测、CNV检测、基因功能注释和统计绘图软件等;以及第三方软件81六、3&11^0018、641'1(、?化&^、8作&1^dancer、Contro1-FREEC、Annovar和Blast等。
[0018]注释数据库包括突变注释数据库和功能注释数据库。
[0019]所述数据分析单元包括:
[0020]数据评估模块,用于对用户输入的人基因组重测序数据进行质量检测,并根据质量检测结果,判断数据是否可以进行后续的分析;其中,所述质量检测包括碱基质量分布检测和碱基类型分布检测;
[0021 ]序列比对模块,用于将所述数据评估模块评估后的数据与人参考基因组分别进行比对率统计、测序深度分布统计、插入片段分布统计,从而得到比对率、基因组覆盖深度、基因组覆盖度;所述序列比对模块还用于过滤评估后的数据中的重复序列,得到过滤后的数据;以及
[0022]突变检测模块,用于通过调用所述生物信息学软件和数据库,对所述过滤后的人基因组重测序数据进行突变检测分析;其中,所述突变检测分析包括单核苷酸多态性检测、插入缺失检测、结构变异检测和拷贝数变异检测。
[0023]所述突变检测模块还能够在突变检测分析过程中,根据突变注释数据库对突变所在的基因组位置进行注释,所述基因位置包括基因区、基因间区和非翻译区。
[0024]注释需调用注释数据库;其中,所述突变注释数据库包括hgl9_ref、wgRna、WgEncodeGencodeBasicVl9、genomicSuperDups、esp6500siv2_al1、1000g2014oct_all、1000g2014oct_afr、1000g2014oct_eas、1000g2014oct_eu;r、1000g2014oct_amr、1000g2014oct_sas、Ijb26_al1、avsnpl42,cosmic70、avsift、gwasCatalog、cytoBand、targetScanS、dgvMerged,tfbsConsSites、phastConsElements46way等。
[0025]所述数据分析单元还包括功能注释模块,在突变检测分析过程中,根据功能注释数据库对突变基因进行功能注释。
[0026]注释需调用注释数据库;其中,所述功能注释数据库包括G0、C0G\K0G、Pfam、KEGG、NR、SWISS-PROT 等。
[0027]本发明进一步提供基于上述分析系统的人基因组重测序数据分析方法(非疾病诊断目的),包括以下步骤:
[0028]S1、通过Web交互装置接收用户输入的人基因组重测序数据和必要的参数;
[0029]S2、通过基础服务模块,根据Web交互装置接收的数据和信息生成分析任务,并对任务进行调度操作;
[0030]S3、利用数据分析平台,根据基础服务模块生成的分析任务,读取基因组数据,并调用生物信息学软件和数据库,对用户提供的人基因组重测序数据进行分析,获取分析结果;以及
[0031]S4、将分析结果以Web形式展示给用户。
[0032]本发明提供的人基因组重测序数据分析系统及方法,通过调用高效准确的生物信息学软件和个性化分析模块,简化了基因组重测序数据分析流程,提高了分析质量及检测结果的准确率,节省了计算机运行时间,同时还能使用户进行数据的重复分析和查询,节省了科研成本。
【附图说明】
[0033]图1为本发明实施例中人基因组重测序数据分析系统的结构示意图。
[0034]图2为本发明实施例中人基因组重测序数据分析方法的流程示意图。
【具体实施方式】
[0035]以下实施例用于说明本发明,但不用来限制本发明的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段,所用原料均为市售商品。
[0036]实施例人基因组重测序数据分析系统及方法
[0037]本实施例提供的人基因组重测序数据分析系统的结构示意图见图1,该分析系统包括:
[0038]Web交互装置I (即Web交互层),以Web方式接收用户输入的人基因组重测序数据和必要的参数,并将结果展示给用户;
[0039]基础服务模块2(即服务层),用于根据Web交互装置接收的数据和信息生成可进行分析的任务,并对任务进行调度操作;以及
[0040]数据分析平台3(即分析层),用于根据基础服务模块生成的任务,读取基因组数据,并调用生物信息学软件和数据库,对用户提供的人基因组重测序数据进行分析,获取分析结果。
[0041 ]基础服务模块2包括:任务调度模块2.1、结果推送模块2.2、数据库交互模块2.3以及云端数据库2.4。
[0042]数据分析平台3包括:数据分析单元3.1和注释数据库3.6。其中,数据分析单元3.1包括:数据评估模块3.2、序列比对模块3.3、突变检测模块3.4以及功能注释模块3.5。注释数据库3.6包括:突变注释数据库3.7和功能注释数据库3.8。
[0043]进一步地,基因组重测序数据是用于进行生物信息学分析的原始数据,通过Web交互层以预设格式FastQ(FastQ文件是高通量测序产生的标准测序结果文件,包括碱基序列和对应碱基的质量值)导入分析系统。任务参数是进行生物信息分析的设置参数,包括数据质量值、数据库种类等。可以理解的是,任务参数包含分析过程所需的各项参数,进一步地,分析任务包括进行分析过程的计算资源需求,生物信息学软件和数据库等信息。
[0044]服务层2,用于根据所述Web交互层I接收的用户参数,生成分析任务,并将所述分析任务发送至分析层3。
[0045]任务调度模块2.1,用于根据所述Web交互层接收的人基因组重测序数据和参数,生成分析任务,并将所述分析任务发送至分析层。
[0046]上述任务调度模块2.1,在分析过程中,还用于实时监测分析任务的运行状态及进度。
[0047]具体而言,任务调度模块2.1实时监测分析任务的运行状态及进度,生成任务日志文件,资源申请、任务投递、任务监控以及与结果推送模块和数据库交互模块通信的操作过程,方便项目运行出错后的错误排查。
[0048]结果推送模块2.2,用于在分析任务结束时,通过任务调度模块的调用,将所述分析层得到的分析结果推送至Web交互层并向用户进行展示。
[0049]具体而言,重测序分析结果能够以预设格式进行下载或在Web交互层展示,预设格式包括但不限于D0C、roF。分析结果包括项目名称、关键词、结果概述等内容,实现自动、高效、便捷的数据分析,为科研工作者提供了一种无任何技术门槛的数据分析手段,可以帮助其快速完成数据分析,并全方位的对分析结果进行挖掘,找出更有生物学意义的结果。
[0050]数据库交互模块2.3,用于在基因组重测序分析结束时,根据所述任务调度模块2.1发送的存储指令,将所述分析层获取的基因组重测序分析结果存储至数据库。
[0051]具体而言,数据库交互模块2.3将项目信息、分析流程运行参数以及分析结果存储至数据库中,当Web交互层对结果进行重复查询时,任务调度模块2.1再次通过数据库交互模块2.3从数据库中读取重测序分析结果在Web交互层进行展示。
[0052]分析层3,用于根据服务层生成的任务,读取基因组数据,并调用生物信息学软件和数据库,对用户提供的人基因组重测序数据进行分析,获取分析结果。
[0053]分析层包括:数据分析单元3.1和注释数据库3.6。
[0054]所述数据分析单元3.1包括:数据评估模块3.2、序列比对模块3.3、突变检测模块
3.4、功能注释模块3.5。
[0055]数据评估模块3.2,用于对用户输入的人基因组重测序数据进行质量检测,并根据质量检测结果,判断数据是否可以进行后续的分析。
[0056]可以理解的是,所述质量检测包括碱基质量分布检测,基于测序数据中包含的碱基质量值,利用Perl脚本对所有碱基的质量值进行统计,当85%以上的碱基质量值高于30分时,此数据才可以继续进行后续分析,否则需要先进行低质量序列过滤方可使用。
[0057]其中,所述质量检测还包括碱基类型分布检测,用于检测有无AT、GC碱基分离现象,高通量测序时,基因组随机打断,由于位点在基因组上的分布是近似均匀的,同时,G/C、A/T含量也是近似均匀的,因此,根据大数定理,在每个测序循环上,GC、AT含量应当分别相等,且等于基因组的GC、AT含量,因此当发生AT或GC分离的情况时,此数据不能继续进行后续分析。
[0058]序列比对模块3.3,用于将所述数据评估模块3.2评估后的基因组重测序数据与参考基因组分别进行比对率统计、测序深度分布统计、插入片段分布统计,分别得到比对率、
基因组覆盖深度、基因组覆盖度。
[0059]上述的序列比对模块3.3,还用于过滤评估后的基因组重测序数据中的重复序列,得到过滤后的基因组重测序数据。
[0060]序列比对模块3.3还用于过滤比对结果中的重复序列,重复序列主要是由于测序PCR产生的,会影响测序深度等比对评估参数,最终导致突变检测的假阳性,比对结果一般以BAM格式(二进制的比对结果存储格式,占用空间小,检索速度快)进行存储,使用Picard的Mark Duplicate模块进行处理去重复,屏蔽PCR-duplicat1n的影响。
[0061 ] 具体而言,用BWA将测序数据比对到参考基因组上,并用Picard去除比对重复,用Samtoo I s统计比对结果。
[0062]突变检测模块3.4,用于通过调用所述生物信息学软件和数据库,对所述过滤后的人基因组重测序数据进行突变检测分析。
[0063]其中,所述突变检测分析包括单核苷酸多态性检测、插入缺失检测、结构变异检测和拷贝数变异检测。
[0064]所述突变检测模块还用于在突变检测分析过程中,对突变所在的基因组位置进行注释,所述基因位置包括基因区、基因间区和非翻译区。
[0065]具体而言,基于比对结果,用GATK进行SNP和InDel检测,检测前要进行InDel附近重新比对,与Human_dbSNP数据库比对进行碱基校正,以降低检测的假阳性;使用Breakdancer基于成对reads间的距离关系进行SV检测;使用Contro 1-FREEC进行CNV检测;使用Annovar根据突变注释数据库3.7对突变区域进行注释。
[0066]所述突变注释数据库包括:hg19_ref、wgRna、WgEncodeGencodeBasi cVl9、genomi cSuperDups、esp6500s iv2—al1、1000g2014oct_al1、1000g2014oct_afr >1000g2014oct_eas、1000g2014oct—eur、1000g2014oct—amr、1000g2014oct—sas、Ijb26_all、avsnpl42,cosmic70、avsift、gwasCatalog、cytoBand、targetScanS、dgvMerged,tfbsConsSites、phastConsElements46way等。
[0067]功能注释模块3.5,在突变检测分析过程中,用于根据功能注释数据库,对突变基因进行功能注释。
[0068]具体而言,使用Blast与功能注释数据库3.8中的序列进行比对并做基因功能注释。其中,所述功能注释数据库3.8包括GO、C0G\K0G、Pfam、KEGG、NR、SWISS-PROT。
[0069]为了进一步保证分析结果的准确性,可设置一些特殊的软件参数:
[0070](I)在SNP检测中通过与dbSNP(单核苷酸多态性数据库)比较以及采用VQSR(变异位点质量值重新校正)模型的方式保证了结果的准确性。
[0071](2) SNP检测时参数设置:
[0072]chr number(染色体数)=23,ploidy(倍体)=2
[0073](3)annovar软件的参数设置:
[0074]-protocol=refGene,wgRna,WgEncodeGencodeBasicVl9,genomicSuperDups,esp6500s i v2_alI,1000g2014oct—all,1000g2014oct_afr,1000g2014oct_eas,1000g2014oct_eur,1000g2014oct_amr,1000g2014oct_sas,Ijb26—alI,avsnpl42,cosmic70,avsift,gwasCatalog,cytoBand,targetScanS,dgvMerged,tfbsConsSites,phastConsElements46way
[0075](4)freec软件的参数设置:
[0076]minExpectedGC = 0.3681
[0077]maxExpectedGC = 0.4499
[0078]在保证分析结果准确性的前提下,不仅限于对上述软件的参数设置。
[0079]对本发明的人基因组重测序数据分析系统进行了不同真实数据集的测试,与预期的结果一致。
[0080]基于上述分析系统,本实施例还提供人基因组重测序数据的分析方法(图2),包括以下步骤:
[0081]S1、通过Web交互装置接收用户输入的人基因组重测序数据和必要的参数;
[0082]S2、通过基础服务模块,根据Web交互装置接收的数据和信息生成分析任务,并对任务进行调度操作;
[0083]S3、利用数据分析平台,根据基础服务模块生成的分析任务,读取基因组数据,并调用生物信息学软件和数据库,对用户提供的人基因组重测序数据进行分析,获取分析结果;以及
[0084]S4、将分析结果以Web形式展示给用户。
[0085]本实施例提供的人基因组重测序数据分析系统及方法,通过调用高效准确的生物信息学软件和个性化分析模块,简化了基因组重测序数据分析流程,提高了分析质量及检测结果的准确率,节省了计算机运行时间,同时还能使用户进行数据的重复分析和查询,节省了科研成本。
[0086]虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
【主权项】
1.人基因组重测序数据分析系统,其特征在于,所述分析系统包括: Web交互装置,以Web方式接收用户输入的人基因组重测序数据和必要的参数,并将结果展不给用户; 基础服务模块,用于根据Web交互装置接收的数据和信息生成可进行分析的任务,并对任务进行调度操作;以及 数据分析平台,用于根据基础服务模块生成的任务,读取基因组数据,并调用生物信息学软件和数据库,对用户提供的人基因组重测序数据进行分析,获取分析结果。2.根据权利要求1所述的分析系统,其特征在于,所述基础服务模块包括任务调度模块,用于根据所述Web交互装置接收的用户输入的数据和参数生成分析任务,并将分析任务发送至数据分析平台;在任务运行过程中用于实时监测分析任务的运行状态及进度。3.根据权利要求1或2所述的分析系统,其特征在于,所述基础服务模块还包括: 结果推送模块,用于在分析任务结束时,通过任务调度模块的调用,将所述数据分析平台得到的分析结果推送至Web交互装置并向用户进行展示;以及 数据库交互模块,用于在分析任务结束时,根据所述任务调度模块发送的存储指令,将所述数据分析平台得到的分析结果存储至云端数据库。4.根据权利要求1-3任一项所述的分析系统,其特征在于,所述基础服务模块还包括云端数据库,用于存储分析结果和分析报告,用于用户从所述云端数据库中提取数据进行查询和二次分析。5.根据权利要求1-4任一项所述的分析系统,其特征在于,所述数据分析平台包括数据分析单元和注释数据库; 数据分析单元调用的生物信息学软件包括SNP检测、InDel检测、SV检测、CNV检测、基因功能注释和统计绘图软件;以及第三方软件BWA、Samtools、GATK、Picard、Break dancer、Control_FREEC、Annovar和Blast; 注释数据库包括突变注释数据库和功能注释数据库。6.根据权利要求5所述的分析系统,其特征在于,所述数据分析单元包括: 数据评估模块,用于对用户输入的人基因组重测序数据进行质量检测,并根据质量检测结果,判断数据是否可以进行后续的分析;其中,所述质量检测包括碱基质量分布检测和碱基类型分布检测; 序列比对模块,用于将所述数据评估模块评估后的数据与人参考基因组分别进行比对率统计、测序深度分布统计、插入片段分布统计,从而得到比对率、基因组覆盖深度、基因组覆盖度;所述序列比对模块还用于过滤评估后的数据中的重复序列,得到过滤后的数据;以及 突变检测模块,用于通过调用所述生物信息学软件和数据库,对所述过滤后的人基因组重测序数据进行突变检测分析;其中,所述突变检测分析包括单核苷酸多态性检测、插入缺失检测、结构变异检测和拷贝数变异检测。7.根据权利要求6所述的分析系统,其特征在于,所述突变检测模块还能够在突变检测分析过程中,根据突变注释数据库对突变所在的基因组位置进行注释,所述基因位置包括基因区、基因间区和非翻译区; 注释需调用注释数据库;其中,所述突变注释数据库包括hgl9_ref、wgRna、WgEncodeGencodeBasicVl9、genomicSuperDups、esp6500siv2_al1、1000g2014oct_all、1000g2014oct—afr、1000g2014oct_eas、1000g2014oct_eur、1000g2014oct_amr、1000g2014oct_sas、Ijb26_al1、avsnpl42,cosmic70、avsift、gwasCatalog、cytoBand、targetScanS、dgvMerged,tfbsConsSites、phastConsElements46wayo8.根据权利要求5-7任一项所述的分析系统,其特征在于,所述数据分析单元还包括功能注释模块,在突变检测分析过程中,根据功能注释数据库对突变基因进行功能注释; 注释需调用注释数据库;其中,所述功能注释数据库包括GO、C0G\K0G、Pfam、KEGG、NR、SffISS-PROTo9.基于权利要求1-8任一项所述分析系统的人基因组重测序数据分析方法。10.根据权利要求9所述的方法,其特征在于,包括以下步骤: . 51、通过Web交互装置接收用户输入的人基因组重测序数据和必要的参数; .52、通过基础服务模块,根据Web交互装置接收的数据和信息生成分析任务,并对任务进行调度操作;. 53、利用数据分析平台,根据基础服务模块生成的分析任务,读取基因组数据,并调用生物信息学软件和数据库,对用户提供的人基因组重测序数据进行分析,获取分析结果;以及 .54、将分析结果以Web形式展示给用户。
【文档编号】G06F19/24GK106021979SQ201610317618
【公开日】2016年10月12日
【申请日】2016年5月12日
【发明人】郑洪坤, 张增金, 刘威, 塔拉
【申请人】北京百迈客云科技有限公司