一种肿瘤突变位点筛选及互斥基因挖掘的系统的制作方法
【专利摘要】本发明提供了一种肿瘤突变位点筛选及互斥基因挖掘的系统,包括过滤模块,用于外显子组处理流程中的vcf文件以及ANNOVAR注释软件的输出文件;分析模块,用于进行不同实验组突变位点的描述性分析;汇总模块,用于对每个样本的突变基因进行汇总,依据实验组突变基因列表构建突变基因矩阵;挖掘模块,用于对生成的突变基因矩阵进行依据Fisher精确检验的互斥以及共突变分析,确定互斥与共突变基因。本发明通过使用突变位点的注释信息以及测序read数、位点测序深度等基本参数对突变位点进行过滤,然后对于得到的突变位点进行不同实验组突变模式的描述性分析以及共突变、互斥突变基因集合的挖掘。
【专利说明】
-种肿瘤突变位点筛选及互斥基因挖掘的系统
技术领域
[0001] 本发明属于基因信息数据处理领域,特别是设及到一种肿瘤突变位点筛选及互斥 基因挖掘的系统。
【背景技术】
[0002] 肿瘤是由环境因素与遗传因素共同诱发的恶性疾病,其中遗传诱因设及到大量基 因的功能异常(突变、甲基化改变)。而基因突变认为是肿瘤发生发展的最主要驱动因素。最 近一些W二代测序为主要手段的研究项目成功地在多种肿瘤类型中掲示了大量的潜在肿 瘤驱动基因。因此,对二代测序数据的有效分析是进一步了解肿瘤病理生理学特性、实现对 肿瘤的早期诊断、祀向治疗的关键。
[0003] 对肿瘤病人基因突变进行全局性描述,主要的二代测序技术手段有全基因组测序 W及全外显子组测序两种方法。虽然对于每个碱基而言,二代测序的成本在快速下降,但是 对大量样本进行全基因组测序仍然是一个耗费巨大的工作。已有研究证实有约85%的肿瘤 相关突变坐落于蛋白质编码区。因此,外显子组测序是一种经济成本相对较低,同时基本可 W完整反应肿瘤突变模式的测序手段。
[0004] 在肿瘤突变基因中,存在互斥突变基因 W及共突变基因两种特殊情况。互斥突变 基因指的是两个基因在同一样本中倾向不同时突变,而共突变基因倾向于两个基因在一定 数量样本中同时突变。通常认为互斥突变基因更加倾向于肿瘤的驱动基因,运些互斥突变 基因往往负责同一生物学通路的功能行使。而共突变基因往往设及到肿瘤需要影响的多个 生物学过程。因此鉴别肿瘤个体样本中具有互斥W及共突变关系的基因集合对于理解肿瘤 的发病机制W及生物学表现具有重要作用。
[0005] 目前挖掘肿瘤突变位点的方法W及软件工具往往筛选条件不够直观。筛选过程对 于使用者呈现一种"黑箱子"状态。运样不利于使用者对于找到的突变位点进行进一步的生 物学解读。
【发明内容】
[0006] 有鉴于此,本发明提出一种肿瘤突变位点筛选及互斥基因挖掘的系统,通过使用 突变位点的注释信息W及测序read数、位点测序深度等基本参数对突变位点进行过滤,然 后对于得到的突变位点进行不同实验组突变模式的描述性分析W及共突变、互斥突变基因 集合的挖掘。
[0007] 为达到上述目的,本发明的技术方案是运样实现的:一种肿瘤突变位点筛选及互 斥基因挖掘的系统,包括:
[0008] 过滤模块,用于外显子组处理流程中的VCf文件W及ANNOVAR注释软件的输出文 件,得到感兴趣组织和对照组织的突变位点的突变read数、位点测序深度、突变频率;
[0009] 分析模块,用于进行不同实验组突变位点的描述性分析,找到实验组间的交叠突 变位点W及特异性的突变位点,所述特异性的突变位点是指该突变位点在一个实验组出现 而不在另外一个实验组中出现;
[0010] 汇总模块,用于对每个样本的突变基因进行汇总,依据实验组突变基因列表构建 突变基因矩阵;
[0011] 挖掘模块,用于对生成的突变基因矩阵进行依据Fisher精确检验的互斥W及共突 变分析,确定互斥与共突变基因;
[0012 ]所述过滤模块、分析模块、汇总模块、挖掘模块依次连接。
[0013] 进一步的,所述过滤模块包括VCf文件过滤单元和ANNOVAR注释软件输出文件过滤 单元;
[0014] 所述VCf文件过滤单元用于根据VCf文件过滤标准进行过滤,所述VCf文件过滤标 准为:对于感兴趣组织的突变read数〉=3,位点测序深度〉=8,突变频率〉=0.1;对于对照 组织要求突变read数<3,位点测序深度〉=8,突变频率<0.1;
[0015] 所述ANNOVAR注释软件输出文件过滤单元的过滤标准为:突变位于外显子区域;突 变位点不能位于染色体高度重复区域;esp数据库中的群体变异频率低于5%;在千人基因 组计划中的变异频率低于5%。
[0016] 进一步的,所述分析模块包括突变位点发现单元和制图单元,所述突变位点发现 单元用于找到实验组之间特异性的突变位点W及实验组之间共同的突变位点,所述制图单 元用于将突变位点通过Venn图的方式进行展示。
[0017] 更进一步的,所述突变位点发现单元包括交叠突变位点子单元和特异突变位点子 单元、W及统计子单元;所述交叠突变位点子单元用于发现出现在两个实验组同一病人样 本中的突变位点集合;所述特异突变位点子单元用于发现在一实验组中病人样本中出现而 不在另一实验组同一病人样本中出现的突变位点;所述统计子单元对经过交叠或特异性分 析的病人突变位点文件进行个数统计。
[0018] 更进一步的,所述制图单元包括集合子单元和可视化子单元;所述集合子单元用 于将每个病人通过一些列运算得到的最终突变位点集合汇总成实验组群体样本的突变位 点集合;所述可视化子单元用于通过韦恩图对集合汇总子单元的数据进行可视化关系分 析。
[0019] 进一步的,所述汇总模块包括基因汇总单元和矩阵构成单元;所述基因汇总单元 用于对每个样本的突变基因进行汇总,所述矩阵构成单元用于构建突变基因矩阵信息,输 出结果每一行对应一个实验组突变基因,每一列对应一个样本,0表示未突变,1表示突变。
[0020] 相对于现有技术,本发明所述的肿瘤突变位点筛选及互斥基因挖掘的系统具有W 下优势:
[0021] 本发明结合外显子组处理流程中的VCf文件W及MNOVAR注释软件的输出文件对 样本基因突变位点进行基于突变read数、位点测序深度、突变频率W及突变对蛋白质影响 等方面的过滤。同时可W对不同组病人突变位点进行描述性分析W及获得同一实验组中共 突变W及互斥突变的基因集合,筛选条件W及筛选过程对于使用者直观呈现。有利于使用 者对于找到的突变位点进行进一步的生物学解读。
【附图说明】
[0022] 构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0023] 图1为本发明的分析流程示意图。
[0024] 图2为本发明实施例中Gl样本生成的频率文件局部截图。
[002引图3为本发明实施例中样本群体随过滤频率变化的曲线。
[0026] 图4为本发明实施例中肿瘤组织与正常组织的突变位点韦恩图。
[0027] 图5为本发明实施例中案例样本群体中突变部分基因列表。
[00%]图6为本发明实施例中突变基因矩阵示例。
[0029] 图7为本发明实施例中互斥与共突变基因关系展示。
【具体实施方式】
[0030] 需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可W相互 组合。
[0031 ]下面将参考附图并结合实施例来详细说明本发明。
[0032] 本发明的方法原理如下:
[0033] 基因突变的发生是肿瘤发生的前提条件,通过外显子组测序数据对突变基因(基 因位点)进行鉴定是生物医学研究的重要手段之一。对细胞生理状态影响较大的是那些对 基因所翻译蛋白质具有一定影响的基因,故为了鉴别出肿瘤相关突变基因(基因位点),我 们首先对常用注释软件ANNOVAR生成的注释文件进行蛋白质功能过滤。
[0034] 接下来由于二代测序技术存在一定的测序错误可能性,因此需要对测序错误导致 的假阳性突变位点进行甄别。大量研究证实通过校正突变位点read改变个数、突变位点测 序深度、突变位点的突变频率W及对照组织的此位点的read改变个数、测序深度W及突变 频率可W较好的控制假阳性突变位点的数量,从而更有利于发现具有生物学意义的突变基 因。结合注释文件里面突变对蛋白质翻译的影响W及突变频率信息可W得到较为可信的疾 病相关突变基因。
[0035] Fisher精确检验是统计互斥突变W及共表达基因的常用手段,本软件通过此方法 计算得到的互斥与突变基因具有较高的可信度。
[0036] 依据上述原理,构建系统软件如下:
[0037] 运行平台:Windows ,Linux [003引编程语言:Perl, R
[0039] 软件依赖:需安装R软件包Vennerable
[0040] 本软件设有过滤模块、分析模块、汇总模块、挖掘模块,共包含:Filter_anno.pl、 Extract_frequency.pi、Make_R_fre.R、FRE_FILTER.R、Process_format.pi、Setdiff_ SNV. pi、Intersect_SNV. pi、Stat_snv_number. pi、Pool_group_SNV.R、Visualize_group_ raltaions.R、Test_different-frequncy.R、SNV2Gene. pi、Make_snv_matrix. pi、Ex_Co_ mu1:ation. R共14个子程序。
[0041 ]其中过滤模块中,对注释文件进行过滤的程序(ANNOVAR注释软件输出文件过滤单 元)为Filter_anno.pl;
[0042] 对vcf文件进行过滤的程序(vcf文件过滤单元)有Extract_frequency .pi、Make_ R_f re.R、FRE-FILTER.R、Proces s_format.PI;
[0043] 分析模块中有特异突变位点子单元Setdiff_SNV.pl、交叠突变位点子单元 Intersect_SNV. pi、统计子单元 Stat_snv_numbe;r. pi、集合子单元化ol_g;roup_SNV. R、可视 化子单元Visualize_邑roup_raltaions.R、?J试子单元Test_different_frequncy.R;
[0044] 汇总模块中,基因汇总单元的程序有SNV2Gene.pl,矩阵构成单元的程序有Make_ snv_m曰trix.pl;
[0045] 挖掘模块有程序Ex_Co_mu化tion. R。
[0046] 1对上述程序详细说明
[0047] 1.1过滤注释文件
[004引对ANNOVAR生成的注释结果进行过滤需使用Fi 1 te;r_anno .pi函数。Filte;r_ anno. pi的输入参数有两个。第一个输入参数为存放同一实验组注释文件的文件夹路径,第 二个输入参数为过滤结果的输出路径。每一个注释文件需W "anno.txt"为文件结尾,否则 将会报错。输入文件的列应按表1进行排列。
[0049] 表lFilte;r_anno.pl输入文件列信息 [(K)加 ]
[0化2]
[0053]过滤指标有ExonicF'unc . refGene、genomicS叩erD叩S、esp6500si v2_al I、 1000g2014oct_all几项,具体条件可W在函数内部更改。
[0化4] 1.2过滤VCf文件
[0化日]对VCf文件的过滤需要顺序使用多个函数。第一个函数Ex化act_frequency.pl需 要4个参数。第一个参数为存放VCf文件的文件夹路径。第二个参数为得到的下一个函数可 W处理文件的输出目录。第=个参数为感兴趣组织的样本标签后缀。最后一个参数为对照 组织样本标签后缀。结果文件对于每一个样本输出一个7列的文件。每一列对应的意义见表 2。
[0056] 表沈xtract_frequen巧.pi输出文件的列信息 [0化7]
[0化引
[0059] 生成好频率文件需要使用Make_R_fre.R函数读入到R语言中,进行下一步处理。 Make_R_fre.R需要输入的参数为Ex1:ract_frequency .pi结果所在文件目录。输出结果为R 语言中类型为list的数据,其中包含n个(n =样本个数)子list,每个子list为此样本的频 率等f目息。
[0060] 接下来使用FRE_FILTER.R程序对符合我们条件的突变位点进行过滤。FRE_ FILT邸.R输入的6个参数分别为:fre(Make_R_fre. R中生成的数据)、vcf_foldeH存放VCf 文件的文件夹路径Koutfolder (过滤后文件的存放文件夹)、blood_fi Iter (对照组织的过 滤参数)、tumor_f ilter(目标组织的过滤参数)。此函数输出结果为每个样本符合对照组织 W及目标组织过滤条件的突变位点。Process_format. Pl为将FRE_FILTER. R输出结果进行 处理的函数。其输入参数为FRE_FILT邸.R的OUtfO Ider文件夹路径。
[0061] 经过对MNOVAR注释文件的过滤W及VCf文件的过滤我们分别得到了对应的过滤 结果。想要找到同时复合两个过滤条件的病人突变位点需使用Intersect_SNV.pl函数。由 于Intersect_SNV.pl会在下一小结提及,故此处不再寶述。
[0062] 通常突变频率对过滤结果影响较大,运里可W通过Test_different_frequncy.R 函数辅助使用者进行频率阔值的选择。其输入参数分别为Make_R_打e.R读入的样本突变位 点频率文件W及过滤得到的注释文件。
[0063] 1.3进行不同实验组突变位点的描述性分析
[0064] 生物学研究中往往检测了同意样本不同组织,进行对比分析。对于两个W及多个 实验组样本间的突变位点的描述性分析,最主要的分析操作就是找到实验组间的交叠突变 位点W及特异性(在一个实验组而不在另外一个实验组中出现)的突变位点。
[00化]Intersect_SNV.pl用来发现出现在两个实验组(Al, A2)同一病人a中的突变位点 集合。输入参数为Al实验组过滤后文件路径和A2实验组过滤后路径。
[0066] Setdiff _SNV.pl用来发现在Al实验组中病人a中出现而不在A2实验组a病人样本 中出现的突变位点。Setdiff_SNV.pl输入的参数1为Al实验组病人过滤得到的突变位点文 件,输入参数2为A2实验组病人过滤得到的突变位点文件。
[0067] 函数Stat_snv_numbe;r .pi可W对经过交叠或特异性分析的病人突变位点文件进 行个数统计。输入参数为存储过滤文件的文件夹路径。
[006引当我们要探讨群体间突变位点集合的时候,可W使用化ol_group_SNV.R函数,W 及Vi Siial i ze_g;roup_re 11:ai ons. R函数。其中化O l_g;roup_SNV. R函数可W将每个病人通过 一些列运算得到的最终突变位点集合汇总成实验组群体样本的突变位点集合。其输入参数 为存放每个样本突变位点文件的文件夹路径。生成R语言中群体突变位点信息,格式为 "chrl 1000 OG T"。使用Visualize_g;roup_relations.R函数可W通过韦恩图对实验组之间 突变位点的可视化关系分析。输入参数为不同组间化0l_group_SNV.R生成的数据。
[0069] 1.4互斥与共突变基因的确定
[0070] 为了确定互斥与共突变基因,首先需要使用SNV2Gene.pl对每个样本的突变基因 进行汇总。5^266116.91的参数有:输入过滤后的突变位点文件夹;--6曰油5曰1]1916选项如果 选择on则输出每个病人的突变基因集合,反之off则不输出。接下来使用Make_snv_ matrix.Pl依据实验组突变基因列表构建突变基因矩阵信息。输出结果每一行对应一个实 验组突变基因,每一列对应一个样本,0表示未突变,1表示突变。之后通过Ex_Co_ mutation. R对生成的突变基因矩阵进行依据Fisher精确检验的互斥W及共突变分析。输入 参数为突变基因矩阵文件。输出结果为统计学显著的互斥W及突变基因对。
[0071] 2运行实例数据描述
[0072] 本发明的具体分析步骤如图1所示。
[0073] 实例中包含了 3例胃癌组织外显子组测序数据W及对应样本的癌旁正常组织的外 显子组测序数据。胃癌组织数据和正常组织数据均W配对血液样本作为参考得到VCf文件。 胃癌组织和正常组织的突变位点文件经过ANNOVAR注释软件进行注释。
[0074] 2.1注释文件过滤
[0075] 3例胃癌组织W及对应的癌旁正常组织的注释文件进行过滤分别得到对应样本的 突变信息见表3。
[0076] 表 3Filte;r_anno.pl 的过滤效能
[0077]
[0078] 2.2Vcf文件过滤
[00巧]依次使用扣1:扣。1:_打69116]1。7.口1、]\1日46_1?_打6.1?、尸1?6_尸1^61?.1?、?1'0。633_ format, pi几个函数对VCf文件进行过滤。图2为Gl样本生成的频率截图。
[0080]经过FRE_FILTER.R过滤后的VCf文件中突变位点数量见表4。突变频率为衡量突变 可靠性的重要指标,可W通过Test_differentjrequncy .R函数进行变化频率对突变位点 个数的分析。其中T'est_different_frequncy .R输入参数为Make_R_fre.R读入的频率文件, W及过滤的注释文件。根据图3的输出图形可W选择合适的频率阔值。
[0081 ]表 4FRE_FILTER.R 的过滤效能
[0082]
[0083] 使用 Intersect_SNV. pi 取FRE_FILTER. R 和Fi I ter_anno. pi 过滤结果的交叠突变 位点数量见表5。
[0084] 表5注释与VCf双重过滤突变位点个数
[0085]
[0086] 2.3进行不同实验组突变位点的描述性分析
[0087] 使用化O l_group_SNV. R对肿瘤组织W及正常组织进行突变位点的汇总。对于肿瘤 组织得到了722个突变位点,对于正常组织得到了507个突变位点。通过Visualize_g;roup_ relations.R对两种组织交叠突变位点进行韦恩图绘制得到结果(图4)。
[0088] 2.4互斥与共突变分析
[0089] 首先通过SNV2Gene.pl得到实验组突变基因的总和,前10个基因结果如图5所示。
[0090] 接下来分别使用Make_snv_mat;rix.pl依照突变基因列表生成突变基因矩阵,如图 6所示。
[0091] 接下来使用Ex_Co_mu化tion.R函数进行基因与基因之间互斥关系的判断。运一步 由于每一个基因对子需要使用fisher精确检验进行一次比较,故计算时间往往较长。本例 中由于样本量较少,故计算出的统计P值较大。图7为部分结果展示。
[0092] W上所述仅为本发明的较佳实施例而已,并不用W限制本发明,凡在本发明的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种肿瘤突变位点筛选及互斥基因挖掘的系统,其特征在于,包括: 过滤模块,用于外显子组处理流程中的vcf文件以及ANNOVAR注释软件的输出文件,得 到感兴趣组织和对照组织的突变位点的突变read数、位点测序深度、突变频率; 分析模块,用于进行不同实验组突变位点的描述性分析,找到实验组间的交叠突变位 点以及特异性的突变位点,所述特异性的突变位点是指该突变位点在一个实验组出现而不 在另外一个实验组中出现; 汇总模块,用于对每个样本的突变基因进行汇总,依据实验组突变基因列表构建突变 基因矩阵; 挖掘模块,用于对生成的突变基因矩阵进行依据Fisher精确检验的互斥以及共突变分 析,确定互斥与共突变基因; 所述过滤模块、分析模块、汇总模块、挖掘模块依次连接。2. 根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的系统,其特征在于, 所述过滤模块包括vcf文件过滤单元和ANNOVAR注释软件输出文件过滤单元; 所述vcf文件过滤单元用于根据vcf文件过滤标准进行过滤,所述vcf文件过滤标准为: 对于感兴趣组织的突变read数> =3,位点测序深度> =8,突变频率> = 0.1;对于对照组织要 求突变read数〈3,位点测序深度> =8,突变频率〈0.1; 所述ANNOVAR注释软件输出文件过滤单元的过滤标准为:突变位于外显子区域;突变位 点不能位于染色体高度重复区域;esp数据库中的群体变异频率低于5% ;在千人基因组计 划中的变异频率低于5 %。3. 根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的系统,其特征在于, 所述分析模块包括突变位点发现单元和制图单元,所述突变位点发现单元用于找到实验组 之间特异性的突变位点以及实验组之间共同的突变位点,所述制图单元用于将突变位点通 过Venn图的方式进行展示。4. 根据权利要求3所述的一种肿瘤突变位点筛选及互斥基因挖掘的系统,其特征在于, 所述突变位点发现单元包括交叠突变位点子单元和特异突变位点子单元、以及统计子单 元;所述交叠突变位点子单元用于发现出现在两个实验组同一病人样本中的突变位点集 合;所述特异突变位点子单元用于发现在一实验组中病人样本中出现而不在另一实验组同 一病人样本中出现的突变位点;所述统计子单元对经过交叠或特异性分析的病人突变位点 文件进行个数统计。5. 根据权利要求3所述的一种肿瘤突变位点筛选及互斥基因挖掘的系统,其特征在于, 所述制图单元包括集合子单元和可视化子单元;所述集合子单元用于将每个病人通过一些 列运算得到的最终突变位点集合汇总成实验组群体样本的突变位点集合;所述可视化子单 元用于通过韦恩图对集合汇总子单元的数据进行可视化关系分析。6. 根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的系统,其特征在于, 所述汇总模块包括基因汇总单元和矩阵构成单元;所述基因汇总单元用于对每个样本的突 变基因进行汇总,所述矩阵构成单元用于构建突变基因矩阵信息,输出结果每一行对应一 个实验组突变基因,每一列对应一个样本,0表示未突变,1表示突变。
【文档编号】G06F19/24GK106022001SQ201610319437
【公开日】2016年10月12日
【申请日】2016年5月13日
【发明人】薛成海, 李连硕, 刘婷婷
【申请人】万康源(天津)基因科技有限公司