一种基于转录组的肿瘤转移基因检测系统的制作方法
【专利摘要】本发明提供了一种基于转录组的肿瘤转移基因检测系统,包括整合模块,用于整合Read计数矩阵,得到每个基因的差异表达程度的统计量文件;识别模块,用于识别差异表达基因,比较肿瘤原发和转移条件下的功能的差异程度;分析模块,用于分析基因表达模式,进行表达模式的分类及分析;标记模块,用于标记肿瘤转移基因;所述整合模块、识别模块、分析模块、标记模块依次连接。本发明用于解决从高通量的数据中挖掘肿瘤转移相关的基因,分析原发与转移癌症中转录组的异常变化以及转移过程中肿瘤转移标记基因表达模式的动态改变。
【专利说明】
-种基于转录组的肿瘤转移基因检测系统
技术领域
[0001] 本发明属于基因信息数据处理领域,特别是设及到一种基于转录组的肿瘤转移基 因检测系统。
【背景技术】
[0002] 癌症相关的死亡个体中,90%都是由于肿瘤转移造成的。运就强调了肿瘤转移对 于病人的巨大危害性,同时也说明了通过预测肿瘤转移的风险W及提早预防肿瘤转移来降 低癌症的死亡率的重要性。但是我们目前对于癌症转移的分子机制了解还是很少的。基于 忍片的研究表明通过分析标志基因的表达(gene expression signatures)可W在肿瘤的 早期诊断中预测病人的临床表型。同样利用标志基因的表达可W帮助分析病人的转移风 险。运些标志基因可W作为转移的标记(metastatic Signa化re)。但是人们对于肿瘤转移 的机制和肿瘤转移相关的基因的了解还不够深入。
[0003] 转录组测序是近些年开发的高通量测序技术的方法,用于刻画特定条件下的转录 组。通过转录组分析,可W精确地识别可变剪切、发现新的启动子、识别基因的融合、检测和 定量新颖的转录本及亚型等。因此,通过转录组分析刻画肿瘤的转录组的异常,可W帮助人 们理解肿瘤的发病机制。目前转录组分析已经广泛的应用于肿瘤相关领域的分析。所W通 过刻画原发癌症与转移癌症的转录组的差异可W帮我们寻找转移的标记基因,进而用于预 测肿瘤的转移。相比于基因忍片和EST技术用于研究基因的表达,转录组分析覆盖的基因更 多、更全面,可W发现与肿瘤转移相关的新基因,并且同时可W精确的定量肿瘤转移基因的 表达水平的改变。但是现在还没有专口的方法用于基于高通量测序技术的产生的海量数据 中来挖掘肿瘤转移相关的标记基因并且刻画运些基因在肿瘤转移过程中表达水平的改变。
【发明内容】
[0004] 有鉴于此,本发明提出一种基于转录组的肿瘤转移基因检测系统,用于解决从高 通量的数据中挖掘肿瘤转移相关的基因,分析原发与转移癌症中转录组的异常变化W及转 移过程中肿瘤转移标记基因表达模式的动态改变。
[0005] 为达到上述目的,本发明的技术方案是运样实现的:一种基于转录组的肿瘤转移 基因检测系统,包括:
[0006] 整合模块,用于整合Read计数矩阵,得到每个基因的差异表达程度的统计量文件;
[0007] 识别模块,用于识别差异表达基因,比较肿瘤原发和转移条件下的功能的差异程 度;
[000引分析模块,用于分析基因表达模式,进行表达模式的分类及分析;
[0009] 标记模块,用于标记肿瘤转移基因;
[0010] 所述整合模块、识别模块、分析模块、标记模块依次连接。
[0011 ] 进一步的,所述整合模块包括DESeq2. r单元和readcount. r单元;
[0012] 所述DESeq2 .r单元用于合并HTseq输出的每个基因在一个样本中的read计数矩 阵,并且进行基因在肿瘤与正常状态下的表达改变的程度的计算;输入读取转录组组测序 数据处理流程的结果文件,将每个样本read计数文件合并,得到read计数矩阵文件和基因 表达的差异;
[0013] 所述readcount .r单元用于W单个样本的read计数文件为输入,首先针对每个基 因合并其在所有样本中的read计数,得到样本-基因 read计数矩阵,随后对矩阵进行过滤, 最终完成数据整合,并且进行肿瘤转录组的分类统计。
[0014] 更进一步的,所述DESeq2 .r单元包括count_ma化ix子单元和DEGseq子单元,所述 countjnatrix子单元用来构建所有样本的全部基因的read计数矩阵,所述DEGseq子单元基 于上述的read计数矩阵文件进行基因表达改变程度的计算。
[0015] 进一步的,所述识别模块包括diffGene_analysis .r单元、diffEw_analysis .r单 元、diffExp_f unction, r单元;所述diffGene_analy sis .r单元用于执行基因表达差异的计 算,得到基因差异程度列表筛选差异表达的基因,并且随后对差异基因进行分类和可视化 其差异程度;所述diffEw_analysis.r单元用于得到基因在肿瘤与正常状态下的基因差异 程度列表,并且给出差异表达基因在样本中的热图;所述diffE邱_化nction.;r单元用于进 行差异表达的功能的富集分析,W及比较肿瘤原发和转移条件下的功能的差异程度。
[0016] 更进一步的,所述diffGene_analysis.;r单元包括diffExpGene子单元和 difTExpAnalysis子单元,所述diffE邱Gene子单元用于执行基因表达差异的计算,所述 difTExpAnalysis子单元用于利用上述得到的每个基因的差异表达程度的统计量文件,从 中筛选出具有统计学意义的差异表达的基因,并且基于已知的基因注释对差异表达基因进 行分类和表达改变程度的可视化。
[0017] 相对于现有技术,本发明所述的一种基于转录组的肿瘤转移基因检测系统具有W 下优势:
[0018] 本发明W常见转录组测序流程处理的输出结果(例如read计数文件)作为输入,完 成数据read计数的整合,差异基因的筛选,分析基因表达模式,比较原发与转移的转录组差 异,给出潜在肿瘤转移基因候选集。本发明基于转录组的肿瘤转移基因检测结果,承接转录 组测序流程处理,输出潜在肿瘤转移基因候选集,完成肿瘤转移标记基因挖掘工作中重要 的一环,用于解决从高通量的数据中挖掘肿瘤转移相关的基因,分析原发与转移癌症中转 录组的异常变化W及转移过程中肿瘤转移标记基因表达模式的动态改变。
【附图说明】
[0019] 构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0020] 图1为本发明的流程示意图。
[0021] 图2为本发明实施例的乳腺癌转录组基因的分类柱状图。
[0022] 图3为本发明实施例的乳腺癌不同差异表达基因的交集的韦恩图。
[0023] 图4为本发明实施例的乳腺癌不同差异表达基因的功能富集分析比较。
[0024] 图5为本发明实施例的不同类别的基因富集到的功能的共享热图。
[0025] 图6为本发明实施例的肿瘤转移的标记基因在样本中的表达值。
[0026] 图7为本发明实施例的上调的肿瘤转移的标记基因富集到的GO功能和KEGG通路。
【具体实施方式】
[0027] 需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可W相互 组合。
[0028] 下面将参考附图并结合实施例来详细说明本发明。
[0029] 图1所示为本软件系统的算法流程,本发明架构如下:
[0030] 1、Read计数矩阵的整合模块
[0031] 整合模块设有DESeq2. r单元,是用来合并HTseq输出read计数矩阵,并且进行基因 表达改变计算。主要包括两个子单元COim tjnatrix,DEGseq。
[0032] 整合模块还设有readcount.r单元用于W单个样本的read计数文件为输入,首先 针对每个基因合并其在所有样本中的read计数,得到样本-基因 read计数矩阵,随后对矩阵 进行过滤,最终完成数据整合,并且进行肿瘤转录组的分类统计。
[0033] 其中COim tjnatrix用来构建所有样本的全部基因的read计数矩阵,共有6个参数:
[0034] 参数1为测序流程处理结果的目录,即每个样本的read计数文件地址,命名格式 为.trans.readcount,该文件包含基因名称及相应的存储结构,每行记录一个基因及其在 该样本中对应的read计数。
[0035] 参数2为样本列表,一行一个样本,第一列为样本的名字。格式为:
[0036] Samplel
[0037] Sample2
[003引 Samples
[0039] ???
[0040] 参数3为结果输出目录,参数4是每个样本的read计数文件所在的子目录,参数5表 示每个样本的read计数文件的后缀名,参数6表示每个样本的read计数文件中,基因的的开 头的名字,例如ENSEM化基因为巧NSG"。
[0041 ]该函数返回来所有样本的read计数矩阵文件和Rdata文件。值得注意的是,read计 数矩阵文件中有些基因的表达在所有样本都是0,运种在后续的差异表达计算的过程中需 要过滤。
[0042] DEGseq主要是基于上述的read计数矩阵文件进行基因表达改变程度的计算。主要 包括3个参数:
[0043] 参数1是read计数矩阵文件所在的地址。文件的格式要求行为每个基因在所有样 本中的read计数;
[0044] 参数2表示样本的表形矩阵。注意,该文件每一行代表一个样本,行名需要与read 计数矩阵的列名一致;第二列为每个样本的类标签(切记类标签必须为因子类型,且第一个 因子必须为对照组,运样方便后期解释结果。
[0045] 参数3是结果文件的输出。该函数返回计算的每个基因的差异表达程度的统计量 文件,每个基因的read计数经过文库标准化W后的表达值文件W及过滤了在所有样本read 计数都是0的基因的新的read计数文件。
[0046] 2、差异表达基因的识别模块
[0047] 识别模块设有diffExp_analysis.r单元,是为了识别在肿瘤与正常状态下的差异 基因列表,并且给出差异表达基因在样本中的热图。该脚本主要是调用识别模块中的 diffGene_analysis .r单元中计算差异程度的函数diffE邱Gene子单元和diffE邱Analysis 子单元。difTExpAnalysis子单元主要是利用上述得到的每个基因的差异表达程度的统计 量文件,从中筛选出具有统计学意义的差异表达的基因,并且基于已知的基因注释对差异 表达基因进行分类和表达改变程度的可视化。其主要包括4个参数:
[004引参数1表示要求差异表达的基因在肿瘤组与对照组中fc(fold change)值改变的 最小值。
[0049] 参数2表示差异表达基因的最小WHt
[0050] 参数3表示是否进行热图的展示。
[0051 ] 参数4表示差异表达的diffResults.畑ata的所在的目录,W及结果的输出路径。 [0052]该函数返回差异表达的基因列表,不同类别的差异表达基因,差异程度的可视化 热图。
[0化3] 识别模块还设有diffEw_function.;r单元,主要是利用上述得到的差异表达基因 列表进行功能的富集分析,W及比较肿瘤原发和转移条件下的功能的差异程度,即肿瘤原 发和转移的差异基因共享和特异的GO功能和通路。
[0054] 3、基因表达模式的分析模块
[0055] 所述分析模块设有ew_pattern. r单元,主要是利用肿瘤原发和转移条件下的差 异的编码基因的并集进行表达模式的分类,并且对每一类基因进行功能富集分析。函数的 输入为上述产生的差异表达的编码基因文件,标准化W后的基因的表达值,W及基因在原 发和转移过程中的差异改变的程度。函数返回每一类别的基因在肿瘤原发与转移中fc,每 一类基因在样本中的表达水平,每一类基因富集到的功能和通路,W及功能之间的比较和 聚类图。
[0化6] 具体原理及说明:
[0057] 原发肿瘤到转移的过程中设及到复杂的基因表达的改变,但是通过比较原发肿瘤 和转移的异常的转录组可W刻画不同基因的表达模式的改变,进而分析转移过程中基因的 动态的表达。表达模式的动态性刻画可W分为W下几个步骤来完成:
[0058] 首先获原发的差异基因的fc和转移与原发的差异基因的fc。在筛选差异表达基因 的过程中要求基因在正常和肿瘤状态下的fc大于2,差异的显著性fdr小于0.05。此外,还需 要获得转移肿瘤与原发肿瘤的基因表达的改变的fc值。
[0059] 其次,合并原发和转移的差异表达基因,按照基因在原发中的fc和转移肿瘤与原 发肿瘤的基因表达的改变的f C值将基因分成9类,分别为:up_up,up_inva;r,up_down,down_ up,down_invar,down_down,invar_up,invar_down,invar_invar。每种类另。的基因的意义 如下:
[0060] up_up:表示在转移过程中呈现出持续上调的基因。运些基因在原发与转移中持续 上调,是致癌基因,并且在转移中表达更加强烈,是转移的强促癌基因。
[0061] up_invar:运种类型的基因在原发与转移中都上调,但是二者的上调幅度相当,是 中度的癌基因;
[0062] up_down:运些基因在原发中上调,在转移中下调,应该是原发中具有促进的功能, 但是转移中不需要高表达的基因;
[0063 ] down_up:类别的基因在原发中下调,转移中上调;
[0064] down_invar:运种基因在原发与转移中都呈现出下调趋势;
[0065] down_down:运些基因在原发与转移过程中持续下调,是抑制癌基因
[0066] inva;r_up:运些基因在转移中呈现上调模式。
[0067] inva;r_down:运些基因在转移中呈现下调模式。
[0068] invar_invar:是只在转移中呈现出差异,而原发中不差异的基因。
[0069] 然后,获得每一类别中所有基因的表达值,可视化运些类别的基因在肿瘤转移过 程中的表达水平的动态性改变。
[0070] 最后,对每一类基因分别进行功能的分析,主要是利用类内的基因进行GO功能和 KEGG富集分析,进而从功能层面证明每一类别的基因在肿瘤的转移过程中的功能上的改 变。
[0071] 4、肿瘤转移的基因标记模块
[0072] 所述基因标记模块设有1_31肖11日1:山"日.1'单元,主要通过标胶转移肿瘤和原发肿瘤 中,转移肿瘤独有的差异表达基因来进行筛选转移中的标记基因。函数的出入文件为原发 肿瘤和转移肿瘤的差异表达基因的列表W及基因标准化W后的表达值。
[0073] 具体原理及说明:
[0074] 为了找出肿瘤转移相关的标记基因,从而探索肿瘤转移的过程,运里借助于利用 原发肿瘤和转移肿瘤的数据进行分析。
[0075] 首先分别获得肿瘤原发和转移肿瘤相对于正常组织的差异基因的列表。
[0076] 其次,要求肿瘤转移相关的标记基因不在原发样本差异,只在转移肿瘤中呈现出 差异的基因。
[0077] 随后,根据运些候选的肿瘤转移的标记基因在转移肿瘤中的表达改变的fc分成上 调的肿瘤转移标记基因和下调的标记基因。并且获得运些基因在原发肿瘤,和转移肿瘤中 的表达值。可视化运些基因的表达的动态性改变。
[0078] 最后,分别对上下调的肿瘤转移基因进行GO功能和KEGG富集分析。
[0079] 下面通过一个乳腺癌病人的癌旁,原发,W及转移样本的转录组数据测序数据为 应用实例,展示本发明的软件系统运行结果。运里使用Normal表示病人的癌旁组织, Primary表示病人的原发肿瘤,Metastatic表示病人的转移肿瘤。该数据的测序流程处理结 果统计表4.1。
[0080] 表4.1转录组测序流程处理结果统计 [00811
[0082]在本发明的系统中,测序流程处理结果共包含4个文件,依次按照函数的参数运行 readcount.r,dif fExp_analyS i s.r,diffExp_function.r,exp_pattern.r和M-signaUire.r,,得到如下结果:
[0083] (I)将所有的样本的合在一起分析乳腺癌组织的转录组,要求基因上面至少具有 一个read。乳腺癌组织的转录组共包括31948个基因,其中,编码基因占据最大的比例57%, 其次是IncRNA 23%。值得注意的是,1415个smRNA也呈现出表达(有可能是smRNA的前体,因 为smRNA的长度较短)。对于IncRNA来说,基因间区的比例最大43%。图2展示了乳腺癌转录 组基因的分类柱状图;
[0084] (2)对于原发肿瘤与转移肿瘤分别与癌旁组织进行差异表达,运里统一要求fold change大于等于2。图3展示了不同癌症部位之间的差异因交集展示;图4不同癌症部位之间 的差异因的富集到的GO功能的展示;可W发现运些部位的差异表达基因具有很大的交集, 但是同时他们都有自己独特表达的基因。功能的分析也是类似的结论,转移肿瘤中具有独 特的功能。运暗示了转移具有自己独特的标记基因的表达。
[0085] (3)分析转移过程中基因表达的模式。使用原发与转移所有的差异基因,利用原发 的差异基因的fc和转移与原发的差异基因的fc进行分类。同一类基因在不同的样本中具有 动态的表达。图5展示不同类别的基因富集到的功能的共享热图,白色表示该类别的基因没 有富集到该功能,深色的表示富集到该功能。
[0086] (4)识别肿瘤转移的标记基因,运里共找到了47个肿瘤转移的候选标记基因。图6 展示的是找到的肿瘤转移的标记基因在样本中的表达值,左边是上调的基因,右边是下调 的基因;图7展示的是上调的肿瘤转移的标记基因富集到的GO功能和KEGG通路。
[0087] 由表达可知,运些转移相关的基因在转移的样本中呈现出高度的失调。
[0088] 对运些差异基因进行功能富集分析,上调基因富集到迁移粘附的功能和通路,下 调的基因富集到免疫等功能。运说明了运些肿瘤转移的标记基因在肿瘤转移的过程中具有 很重要的功能。也证明了他们在转移过程中的动态的表达模式W及其与转移的密切关系。
[0089] W上所述仅为本发明的较佳实施例而已,并不用W限制本发明,凡在本发明的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种基于转录组的肿瘤转移基因检测系统,其特征在于,包括: 整合模块,用于整合Read计数矩阵,得到每个基因的差异表达程度的统计量文件; 识别模块,用于识别差异表达基因,比较肿瘤原发和转移条件下的功能的差异程度; 分析模块,用于分析基因表达模式,进行表达模式的分类及分析; 标记模块,用于标记肿瘤转移基因; 所述整合模块、识别模块、分析模块、标记模块依次连接。2. 根据权利要求1所述的一种基于转录组的肿瘤转移基因检测系统,其特征在于,所述 整合模块包括DESeq2. r单元和readcount. r单元; 所述DESeq2 .r单元用于合并HTseq输出的每个基因在一个样本中的read计数矩阵,并 且进行基因在肿瘤与正常状态下的表达改变的程度的计算;输入读取转录组组测序数据处 理流程的结果文件,将每个样本read计数文件合并,得到read计数矩阵文件和基因表达的 差异; 所述readcount. r单元用于以单个样本的read计数文件为输入,首先针对每个基因合 并其在所有样本中的read计数,得到样本-基因 read计数矩阵,随后对矩阵进行过滤,最终 完成数据整合,并且进行肿瘤转录组的分类统计。3. 根据权利要求2所述的一种基于转录组的肿瘤转移基因检测系统,其特征在于,所述 DESeq2 · r单元包括count_matrix子单元和DEGseq子单元,所述count_matrix子单元用来构 建所有样本的全部基因的read计数矩阵,所述DEGseq子单元基于上述的read计数矩阵文件 进行基因表达改变程度的计算。4. 根据权利要求1所述的一种基于转录组的肿瘤转移基因检测系统,其特征在于,所述 识别模块包括 diffGene_analysi s .r单元、diffExp_analysi s .r单元、diffExp_f unction .r 单元;所述diffGene_analysis.r单元用于执行基因表达差异的计算,得到基因差异程度列 表筛选差异表达的基因,并且随后对差异基因进行分类和可视化其差异程度;所述 diffExp_analySiS.r单元用于得到基因在肿瘤与正常状态下的基因差异程度列表,并且给 出差异表达基因在样本中的热图;所述diffExp_f unction, r单元用于进行差异表达的功能 的富集分析,以及比较肿瘤原发和转移条件下的功能的差异程度。5. 根据权利要求4所述的一种基于转录组的肿瘤转移基因检测系统,其特征在于,所述 diffGene_analysis · r单元包括diffExpGene子单元和diffExpAnalysis子单元,所述 diffExpGene子单元用于执行基因表达差异的计算,所述diffExpAnalysis子单元用于利用 上述得到的每个基因的差异表达程度的统计量文件,从中筛选出具有统计学意义的差异表 达的基因,并且基于已知的基因注释对差异表达基因进行分类和表达改变程度的可视化。
【文档编号】C12Q1/68GK105861696SQ201610318603
【公开日】2016年8月17日
【申请日】2016年5月13日
【发明人】薛成海, 马熹, 俞丽佳
【申请人】万康源(天津)基因科技有限公司