一种癌症肿瘤抑制基因簇(tsg)的检测方法
【专利摘要】为了能快速准确的得到对癌症发生起共同作用的肿瘤抑制基因,发明人设计了一套新的方法:首先,通过模拟随机抽样的方法对同一区域内的所有基因进行两两之间的关系寻找;其次,挑选出有共同发生关系的基因;然后,将这些两两共同发生的基因链接起来,形成一条链,链里的基因必须两两具有共发生关系;最后,结合样本的临床信息及表达数据,验证一条链中的基因是否对癌症的发生起到了共同的作用,这种共同的作用是否强于单个基因。
【专利说明】
一种癌症肿瘤抑制基因簇(TSG)的检测方法
技术领域
[0001]本发明涉及生物信息领域。更具体而言,本发明涉及癌症肿瘤抑制基因簇的检测。 【背景技术】
[0002]—直以来癌症发生的基因突变学说始终占据癌症发生机制学说的主流。从1982 年鉴定出第一个可能导致癌症发生的人类基因HRAS突变开始,癌症的研究进入癌基因跟抑癌基因的探索和鉴定时代。早期研究主要集中于基因组区域上的单个基因突变在肿瘤发生过程起“驱动(Driver) ”的作用,然而近期的研究发现,在基因组上出现大量频繁发生缺失突变的肿瘤抑制基因,这些与杂合缺失相关的缺失突变也会导致该肿瘤抑制基因周围基因的活性降低。研究证明基因组上大量频繁发生大片段缺失的基因,这些基因倾向于以簇 (cluster)的形式存在(多种基因对癌症的发生起共同的作用),这种共同的生物调控作用比单个基因的作用还要强。大规模基因组上的损伤可以通过共发生的癌症基因的共同作用而起作用,而不是通过单个独立基因发生损伤来起作用,成为癌症发生的一种可能的机制。
[0003]分析得到候选肿瘤抑制基因的过程并不复杂,目前的分析方案也较为一致。但是怎样从大量的候选基因中得到有共同作用的基因是现阶段分析的一个难点。目前的方法主要有两种,1)通过使用癌症的大鼠模型系统和体内RNAi等的实验方法,这种方法耗时较长,费用较高。2)选取已有文献报道过的肿瘤抑制基因,由于人自身存在一定的局限性,筛选出来的结果带有一定的主观性,而且可能不完整,同时也需要较多的人力和时间。
[0004]综上所述,已有的研究肿瘤抑制基因的方法在前期都会得到较多的候选基因,从这些基因中挑出真正对癌症的发生具有单一或者共同作用的基因是非常困难的。按照之前文章中报道过的方法,需要耗费大量的人力物力。因此,本领域急需从大量的候选基因中得到对癌症发生起共同作用的肿瘤抑制基因的方法。
【发明内容】
[0005]为了能快速准确的得到对癌症发生起共同作用的肿瘤抑制基因,发明人设计了一套新的方法:
[0006]首先,通过模拟随机抽样的方法对同一区域内的所有基因进行两两之间的关系寻找;
[0007]其次,挑选出有共同发生关系的基因;
[0008]然后,将这些两两共同发生的基因链接起来,形成一条链,链里的基因必须两两具有共发生关系;
[0009]最后,结合样本的临床信息及表达数据,验证一条链中的基因是否对癌症的发生起到了共同的作用,这种共同的作用是否强于单个基因。
[0010]本发明基于全基因组成对肿瘤样本的体细胞CNV(拷贝数变异)[1]检测结果及转录组表达量分析结果(FPKM)[1]进行下游分析。
[0011]因此,本发明提供了一种获得对癌症发生起共同作用的肿瘤抑制基因的方法,所述方法包括步骤:
[0012]I)对于多个肿瘤患者的肿瘤组织样本和正常组织样本,获得全基因测序数据、转录组表达量数据,以及包括患者生存时间的临床信息和基因在所述样本中的表达量;
[0013]2)将基因组划分成多个子区域(例如所述子区域长度为10K-10M,优选10K-1M,更优选100K-1M),对于所述每个子区域,用上述全基因组测序数据的CNV检测结果计算所述多个样本中的CNV显著性(例如采用Gscore值[2]进行计算);
[0014]3)对CNV显著变化(例如,对于采用Gscore值进行计算,Gscore〉= 0.1)的子区域进行延展,挑选出基因组上CNV显著变化的连续子区域,作为缺失区域;
[0015]4)对每个缺失区域内的所有基因,利用所述肿瘤组织样本和正常组织样本的转录组表达量数据,挑选出转录组表达量在正常组织样本和肿瘤组织样本之间有显著差异(例如成对秩和检验P〈0.05)并且下调的基因,这些基因为候选的肿瘤抑制基因;
[0016]5)对于每个缺失区域,判断两两基因是否同时发生缺失突变,例如按如下方式进行:假设同时发生两种基因丢失突变是一个随机过程,那么进行大量(例如I万次以上,10
万次以上,......,1000000万次以上)随机抽样,对于每一次抽样,个基因会在多个样本中发生cnv,每次抽样都会针对任意的两两基因,每次抽取的次数与该基因发生的次数相关,每次抽取都会记录这两个基因共同发生(即在同一个样本中)的次数,将这个次数与实际结果相比较,将两个基因同时出现的次数大于实际两个基因共同发生的次数的结果记录下来,将上述结果进行累加,然后除以总的抽样数,得到最终的P值,P值越小,说明两个基因同时发生突变的随机性越小,一般认为当P〈0.05时,认为两个基因是同时发生了缺失突变;
[0017]6)将每个区域内同时发生缺失突变的基因进行链接,要求在一条链中的基因必须是两两互相共发生的;
[0018]7)利用所述临床信息和表达量的信息得到在癌症的发生过程某个基因的表达差异(图2中的高表达和低表达)在癌症的生存率上有显著的差异[3],分析上述链中的基因的表达与癌症患者的生存时间的关系,如果基因共同对癌症患者的预后有显著的影响(例如利用基因表达的数据将癌症患者分为高表达和低表达两类(基因在该样本中的表达量大于基因在所有样本中的表达量的均值,则该基因在该样本中为高表达,否则为低表达),计算每类患者在某个时间节点的生存率(生存/死亡)如图2,如果该基因高表达对于癌症患者有更高的生存率,则验证了该基因有对癌症患者的预后有显著的影响),那么它们确实是有共同的作用,如此得到所有对癌症发生起共同作用的肿瘤抑制基因。
[0019]已有的研究肿瘤抑制基因的方法在前期都会得到较多的候选基因,从这些基因中挑出真正对癌症的发生具有单一或者共同作用的基因是非常困难的。按照之前文章中报道过的方法,需要耗费大量的人力物力。本研究方法,巧妙的运用数学及生物信息方法,准确快速的得到共同作用的肿瘤抑制基因,并且结合临床信息,对于肿瘤的后续治疗起到了很好的指引。
【附图说明】
[0020]附图中的两幅图示例性示出了整个研究的最终结果。
[0021]图1.以13号染色体为例,说明染色体上发生大片段丢失突变的基因,这些基因之间存在共发生的关系。该图展示了人类基因组13号染色体上发生的大规模的片段丢失,与这一丢失突变相关的基因之间形成了一个簇(cluster),它们之间的共发生关系可以通过图2展示的结果来验证。
[0022]图2.单个基因的生存曲线以及它们共同作用的生存曲线。表明本研究得到的成簇的基因之间确实具有共发生的关系,它们整体对于该种癌症发生的促进作用明显大于单个基因所起的作用。而图中的基因也都是近来发现的跟该中癌症发生高度相关的一些基因。【具体实施方式】
[0023]本具体实施例是对本发明的进一步解释,并不是对本发明的限制,本领域技术人员阅读完本说明书,可根据具体需要,对本实施例进行无创造性贡献的修改,但只要在本发明的权利要求的范围内,均受到专利法的保护。
[0024]1)样本、数据来源:65例前列腺癌患者的肿瘤组织样本和正常组织样本的全基因测序据以及转录组表达数据,例如采用华大自主研发的cnv检测流程[1]的数据产出以及 cuff links[1]软件得到的基因的FPKM(每1百万个比对上参考基因组的序列中,比对到外显子的每1K个碱基上的片段的个数)作为本实施例的数据输入;
[0025]2)将人类参考基因组(UCSC hgl9, http://hgdownload.soe.ucsc.edu/ goldenPath/hgl9/bigZips/chromFa.tar.gz)各个染色体划分为1M的窗口,计算得到每1M 窗口内的CNV显著性(用GsC〇re[2]值代表);
[0026]3)对第二步得到的窗口按照位置先后顺序进行扫描,将CNV显著变化(Gscore〉= 〇.1)的相邻的窗口进行合并,得到整个基因组上频繁发生大规模丢失的区域;
[0027]4)利用 ANNOVAR(http://www.0penb1informatics.0rg/annovar/)软件对第三步得到的cnv区域进行注释,得到这些区域内的基因列表;
[0028]5)对每个区域内的基因在正常组织和肿瘤组织中的FPKM值进行成对秩和检验, 挑选出表达量在正常组织样本和肿瘤组织样本中有显著差异(P〈〇.05)的基因列表;
[0029]6)对得到的基因列表进行过滤:首先去除发生了常见的和癌症相关的点突变(体细胞单核苷酸突变和体细胞插入缺失突变)的基因(例如,COSMIC数据库中的癌症相关的基因列表,http://cancer.sanger.ac.uk/cancergenome/projects/cosmic/download),其次挑选出表达量变化跟cnv变异一致的基因,即发生了缺失的基因,表达量在肿瘤组织当中是下调的基因;
[0030]7)经过筛选后得到的基因,按照不同的簇区域,分别对各个区域内的基因两两之间进行共发生关系的研究:模拟1000000万次随机抽样,对于每一次抽样的结果,每个基因会在多个样本中发生cnv,每次抽样都会针对任意的两两基因,每次抽取的次数与该基因发生的次数相关,每次抽取都会记录这两个基因共同发生(在同一个样本中)的次数,将这个次数与实际结果相比较,将两个基因同时出现的次数大于实际两个基因共同发生的次数的结果记录下来,将上述结果进行累加,然后除以总的抽样数,得到最终的P值,当P〈〇.05时, 认为两个基因是同时发生了缺失突变;
[0031]8)基于上一步得到的关系列表,将两两共发生的基因连接起来,得到完全互连的基因列表。
[0032]9)绘制人类13号染色体上的cnv区域,如图1所示,横坐标表示人类基因组13号染色体的位置,纵坐标表示Gscore值,红色区域代表扩增的区域,蓝色的区域代表缺失的区域,图中标注的基因为上述找到的两两互相共发生的基因列表的示例。
[0033]10)下载已发表的前列腺癌样本的对应患者临床信息(需包含患者生存时间)和基因在样本当中的表达[3],利用R软件中做生存曲线的软件包(survival),绘制出每个基因以及所有基因的生存曲线图,mfit = survfit (Surv (time, status)?group),其中,关于group的定义:对于单个基因,将基因在癌症样本中的表达量值与该基因在整体样本中的表达量的均值进行比较,大于均值的样本group = 2 (高表达),小于均值的样本group =I (低表达),对于链表中的所有基因,如果所有基因在该样本中都是低表达的,那么整个链表的 group = I,否贝Ij group = 2。
[0034]由上一步的方法绘制出图1中的基因的生存曲线,如图2所示,横坐标表示复发时间,纵坐标代表生存概率,上面的曲线代表高表达,下面的曲线代表低表达,P值代表该基因的高表达和低表达对与前列腺癌患者的生存率的影响是否存在显著差异(P〈0.05作为显著的阈值)。如图所示,本发明得到的抑癌基因在高表达的时候会有较好的预后效果,并且所有基因共同作用的显著程度大于单个基因。
[0035]参考文献
[0036][I]Chiang D Y, Getz G, Jaffe D B, et al.High-resolut1n mapping ofcopy-number alterat1ns with massively parallel sequencing[J].Naturemethods, 2008, 6 (I): 99-103.
[0037][2]Trapnell C, Roberts A, Goff L, et al.Differential gene and transcriptexpress1n analysis of RNA-seq experiments with TopHat and CuffI inks[J].Natureprotocols, 2012, 7(3):562-578.
[0038][3]Mermel C H, Schumacher S E, Hill B, et al.GISTIC2.0 facilitatessensitive and confident localizat1n of the targets of focal somaticcopy-number alterat1n in human cancers[J].Genome B1l, 2011, 12(4):R41.
[0039][4]Glinsky G V, Glinskii A B, Stephenson A J, et al.Gene express1nprofiling predicts clinical outcome of prostate cancer[J].The Journal ofclinical investigat1n, 2004, 113(6):913-923.
[0040][5] Xue W, Kitzing T, Roessler S, et al.A cluster of cooperatingtumor-suppressor gene candidates in chromosomal delet1ns[J].Proceedings of theNat1nal Academy of Sciences, 2012, 109(21):8212-8217.
[0041][6]J.Clin.1nvest.113:913 - 923(2004).do1:10.1172/JCI200420032.
【主权项】
1.一种获得对癌症发生起共同作用的肿瘤抑制基因的方法,所述方法包括步骤: 1)对于多个肿瘤患者的肿瘤组织样本和正常组织样本,获得全基因测序数据、转录组表达量数据,以及包括患者生存时间的临床信息和基因在所述样本中的表达量; 2)将基因组划分成多个子区域,对于所述每个子区域,用上述全基因组测序数据的CNV检测结果计算所述多个样本中的CNV显著性; 3)对CNV显著变化的子区域进行延展,挑选出基因组上CNV显著变化的连续子区域,作为缺失区域; 4)对每个缺失区域内的所有基因,利用所述肿瘤组织样本和正常组织样本的转录组表达量数据,挑选出转录组表达量在正常组织样本和肿瘤组织样本之间有显著差异并且下调的基因,这些基因为候选的肿瘤抑制基因; 5)对于每个缺失区域,判断两两基因是否同时发生缺失突变; 6)将每个区域内同时发生缺失突变的基因进行链接,要求在一条链中的基因必须是两两互相共发生的; 7)利用所述临床信息和表达量的信息得到在癌症的发生过程某个基因的表达差异在癌症的生存率上有显著的差异,分析上述链中的基因的表达与癌症患者的生存时间的关系,如果基因共同对癌症患者的预后有显著的影响,那么它们确实有共同的作用,如此得到所有对癌症发生起共同作用的肿瘤抑制基因。2.权利要求1的方法,所述子区域长度为10K-10M,优选10K-1M,更优选100K-1M。3.权利要求1的方法,所述CNV显著性采用Gscore值进行计算。4.权利要求3的方法,所述CNV显著变化是Gscore〉=0.1。5.权利要求1的方法,所述转录组表达量在正常组织样本和肿瘤组织样本之间有显著差异为成对秩和检验P〈0.05。6.权利要求1的方法,判断两两基因是否同时发生缺失突变按如下方式进行:假设同时发生两种基因丢失突变是一个随机过程,那么进行大量随机抽样,优选I万次以上,10万次以上,......,最优选1000000万次以上,对于每一次抽样,个基因会在多个样本中发生crw,每次抽样都会针对任意的两两基因,每次抽取的次数与该基因发生的次数相关,每次抽取都会记录这两个基因共同发生的次数,将这个次数与实际结果相比较,将两个基因同时出现的次数大于实际两个基因共同发生的次数的结果记录下来,将上述结果进行累加,然后除以总的抽样数,得到最两个基因同时发生突变的随机性P,如果P〈0.05,则两个基因是同时发生了缺失突变。7.权利要求1的方法,基因对癌症患者的预后有显著的影响通过如下方式确认:利用基因表达的数据将癌症患者分为高表达和低表达两类,计算每类患者在某个时间节点的生存率,如果该基因高表达对于癌症患者有更高的生存率,则验证了该基因对癌症患者的预后有显著的影响。8.权利要求1的方法,对于高表达和低表达两类,基因在该样本中的表达量大于基因在所有样本中的表达量的均值,则该基因在该样本中为高表达,否则为低表达。
【文档编号】C12Q1/68GK105986007SQ201410508691
【公开日】2016年10月5日
【申请日】2015年2月11日
【发明人】苏红, 刘栋兵, 彭丽花
【申请人】深圳华大基因股份有限公司