一种基于代谢基因建立的胰腺癌预后风险预测方法和装置

文档序号:29748077发布日期:2022-04-21 22:55阅读:262来源:国知局
1.本发明涉及基因检测
技术领域
:,尤其是涉及一种基于代谢基因建立的胰腺癌预后风险预测方法和装置。
背景技术
::2.胰腺癌是最致命的恶性肿瘤之一,根据globocan2018的数据,在全球已造成45.9万人死亡和43.2万人死亡。当下对复杂的遗传和表观遗传改变及其与微环境的相关性的理解并没有帮助患者生存率的得到质的飞跃。还需要作出大量努力,进一步探索疾病的发病机制和进展,并确定早期检测和风险评估生物标志物,从而转化为多种治疗选择。3.细胞的代谢重编程在肿瘤发生中起着不可或缺的作用,作为致癌改变的直接和间接结果。代谢重编程使肿瘤细胞产生atp,以维持细胞生长、增殖和迁移所需的还原-氧化平衡和大分子生物合成过程。长期以来,人们认为,即使在有氧的情况下,恶性肿瘤的能量代谢也主要限于糖酵解,这种情况被称为warburg效应。然而,越来越多的研究表明癌细胞代谢表型存在异质性。例如,daemen等人通过广泛的代谢物分析成功地提出胰腺癌可分为三种高度不同的代谢亚型。尽管最近的生物信息学分析显示,胰腺癌中存在预后不同的代谢亚型,表明代谢基因表达谱与肿瘤侵袭性之间存在关系。但能量代谢相关基因的基因表达谱或其特征与预后是否存在相关性,基于这些基因表达谱是否可对胰腺癌进行分子亚型,尚未可知。更深入地了解能量代谢基因在胰腺癌中的表达特征可能对于开发新疗法和确定预后预测因素至关重要。技术实现要素:4.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种效能优良、检测基因数少基于代谢基因建立的胰腺癌预后风险预测方法和装置。5.本发明的目的可以通过以下技术方案来实现:6.一种基于代谢基因建立的胰腺癌预后风险预测方法,包括以下步骤:7.获取gjb5基因表达水平数据、met基因表达水平数据、tmem139基因表达水平数据和aff3基因表达水平数据,从而计算胰腺癌患者的预后风险评分。8.进一步地,所述胰腺癌患者的预后风险评分的计算表达式为:9.riskscore4=-0.1513*expaff3+0.0156*expgjb5+0.0045*expmet+0.0164*exptmem13910.式中,riskscore4为胰腺癌患者的预后风险评分,expaff3为以自然常数e为底的aff3基因表达水平结果,expgjb5为以自然常数e为底的gjb5基因表达水平结果,expmet为以自然常数e为底的met基因表达水平结果,exptmem139为以自然常数e为底的tmem139基因表达水平结果。11.进一步地,所述方法还包括获取年龄数据、性别数据、t分期数据、n分期数据、m分期数据、tnm分期数据和病理分级数据,并与计算出的胰腺癌患者的预后风险评分结合,综合计算胰腺癌患者的最终预后风险评分。12.进一步地,根据所述年龄数据、性别数据、t分期数据、n分期数据、m分期数据、tnm分期数据、病理分级数据和计算出的胰腺癌患者的预后风险评分,绘制列线图,从而所述胰腺癌患者的最终预后风险评分。13.本发明还提供一种基于代谢基因建立的胰腺癌预后风险预测装置,包括:14.数据获取模块,用于获取gjb5基因表达水平数据、met基因表达水平数据、tmem139基因表达水平数据和aff3基因表达水平数据;15.数据计算模块,用于根据gjb5基因表达水平数据、met基因表达水平数据、tmem139基因表达水平数据和aff3基因表达水平数据,计算胰腺癌患者的预后风险评分。16.进一步地,数据计算模块中,所述胰腺癌患者的预后风险评分的计算表达式为:17.riskscore4=-0.1513*expaff3+0.0156*expgjb5+0.0045*expmet+0.0164*exptmem13918.式中,riskscore4为胰腺癌患者的预后风险评分,expaff3为以自然常数e为底的aff3基因表达水平结果,expgjb5为以自然常数e为底的gjb5基因表达水平结果,expmet为以自然常数e为底的met基因表达水平结果,exptmem139为以自然常数e为底的tmem139基因表达水平结果。19.进一步地,所述数据获取模块还用于获取年龄数据、性别数据、t分期数据、n分期数据、m分期数据、tnm分期数据和病理分级数据;20.所述数据计算模块还用于将年龄数据、性别数据、t分期数据、n分期数据、m分期数据、tnm分期数据、病理分级数据与计算出的胰腺癌患者的预后风险评分结合,综合计算胰腺癌患者的最终预后风险评分。21.进一步地,所述数据计算模块还用于根据所述年龄数据、性别数据、t分期数据、n分期数据、m分期数据、tnm分期数据、病理分级数据和计算出的胰腺癌患者的预后风险评分,绘制列线图,从而所述胰腺癌患者的最终预后风险评分。22.与现有技术相比,本发明具有以下优点:23.(1)本发明创新地构建了一个稳健的4基因的代谢相关模型以用于胰腺癌患者的生存预测。该模型在来自癌症基因组图谱(tcga)数据集中被诊断为胰腺癌的177个样本中进行了训练和验证,并用来自geo数据库的gse57495数据集的63个肿瘤样本和icgc数据库的269个肿瘤样本进行了外部验证。最后,本模型与目前已发表的基于其他研究背景的胰腺癌转录组预后预测模型进行了对比,本模型表现了最好的预后效果。24.(2)本发明提出的4基因模型具有较强的鲁棒性,能够在不同平台的数据集中发挥稳定的预测效能;在训练集和验证集中都具有较好的auc,并且是具有独立于临床特征的模型,因此,建议使用该模型作为分子诊断测试来评估胰腺癌患者的预后风险。附图说明25.图1为本实施例提供的一种基于代谢基因建立的胰腺癌预后风险预测方法的处理流程示意图;26.图2为本实施例提供的一种通过列线图获取胰腺癌患者的最终预后风险评分的示意图;27.图3为本实施例提供的一种胰腺癌患者的最终预后风险评分第一示意图;28.图4为本实施例提供的一种胰腺癌患者的最终预后风险评分第二示意图;29.图5为本实施例提供的一种采用nmf方法聚类得到的胰腺癌代谢分子亚型的过程示意图;30.图6为本实施例提供的一种采用本实施例基因模型和已发表的四个模型对胰腺癌患者预后状态的预测效果对比图。具体实施方式31.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。32.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。33.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。34.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。35.需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。36.此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。37.实施例138.如图1所示,本实施例提供一种基于代谢基因建立的胰腺癌预后风险预测方法,包括以下步骤:39.s1:获取gjb5基因表达水平数据、met基因表达水平数据、tmem139基因表达水平数据和aff3基因表达水平数据;40.s2:根据gjb5基因表达水平数据、met基因表达水平数据、tmem139基因表达水平数据和aff3基因表达水平数据计算胰腺癌患者的预后风险评分。41.具体地,胰腺癌患者的预后风险评分的计算表达式为:42.riskscore4=-0.1513*expaff3+0.0156*expgjb5+0.0045*expmet+0.0164*exptmem13943.式中,riskscore4为胰腺癌患者的预后风险评分,expaff3为以自然常数e为底的aff3基因表达水平结果,expgjb5为以自然常数e为底的gjb5基因表达水平结果,expmet为以自然常数e为底的met基因表达水平结果,exptmem139为以自然常数e为底的tmem139基因表达水平结果。44.gjb5基因具体为基因名:gjb5,基因的ensembleid:ensg00000189280;45.met基因具体为基因名:met,基因的ensembleid:ensg00000105976;46.tmem139基因具体为基因名:tmem139,基因的ensembleid:ensg00000178826;47.aff3基因具体为基因名:aff3,基因的ensembleid:ensg00000144218。48.作为一种优选的实施方式,方法还包括:49.s3:获取年龄数据、性别数据、t分期数据、n分期数据、m分期数据、tnm分期数据和病理分级数据;50.s4:将年龄数据、性别数据、t分期数据、n分期数据、m分期数据、tnm分期数据和病理分级数据与计算出的胰腺癌患者的预后风险评分结合,综合计算胰腺癌患者的最终预后风险评分。51.进一步地,作为一种可选的实施方式,根据年龄数据、性别数据、t分期数据、n分期数据、m分期数据、tnm分期数据、病理分级数据和计算出的胰腺癌患者的预后风险评分,绘制列线图,从而获取胰腺癌患者的最终预后风险评分。52.本实施例还提供一种基于代谢基因建立的胰腺癌预后风险预测装置,包括:53.数据获取模块,用于获取gjb5基因表达水平数据、met基因表达水平数据、tmem139基因表达水平数据和aff3基因表达水平数据;54.数据计算模块,用于根据gjb5基因表达水平数据、met基因表达水平数据、tmem139基因表达水平数据和aff3基因表达水平数据,计算胰腺癌患者的预后风险评分。55.具体地,数据计算模块中,胰腺癌患者的预后风险评分的计算表达式为:56.riskscore4=-0.1513*expaff3+0.0156*expgjb5+0.0045*expmet+0.0164*exptmem13957.式中,riskscore4为胰腺癌患者的预后风险评分,expaff3为以自然常数e为底的aff3基因表达水平结果,expgjb5为以自然常数e为底的gjb5基因表达水平结果,expmet为以自然常数e为底的met基因表达水平结果,exptmem139为以自然常数e为底的tmem139基因表达水平结果。58.作为一种优选的实施方式,数据获取模块还用于获取年龄数据、性别数据、t分期数据、n分期数据、m分期数据、tnm分期数据和病理分级数据;59.数据计算模块还用于将年龄数据、性别数据、t分期数据、n分期数据、m分期数据、tnm分期数据、病理分级数据与计算出的胰腺癌患者的预后风险评分结合,综合计算胰腺癌患者的最终预后风险评分。60.进一步地,作为一种可选的实施方式,如图2-4所示,数据计算模块还用于根据年龄数据、性别数据、t分期数据、n分期数据、m分期数据、tnm分期数据、病理分级数据和计算出的胰腺癌患者的预后风险评分,绘制列线图,从而获取胰腺癌患者的最终预后风险评分。61.本实施中,对于上述四个基因的筛选过程包括基于多数据库胰腺癌患者基因表达情况,采用nmf(非负矩阵聚类算法)构建了基于胰腺癌能量代谢相关的分子亚型,基于wgcna方法筛选差异基因共表达模块,并用lassocox回归缩小基因范围,识别胰腺癌代谢分子亚型相关的特征基因。模型在内部和外部验证集中均体现了良好的鲁棒性,相比于已发表的胰腺癌相关风险模型,具有检测基因数少、预测性能好的优势。62.具体过程包括以下步骤:63.1、表达谱数据下载64.胰腺癌(paad)患者的基因表达原始数据和相应的临床信息可从癌症基因组图谱网站(tcga)、基因表达综合数据库(geo)、国际癌症基因组联盟(icgc)获得。65.使用tcgagdcapi下载paad患者组织的的最新rnaseq表达数据、rnaseqcount数据和临床随访信息,数据集中包含有171名患者的临床随访信息和182名患者的rna-seq表达谱数据,下载时间:2020年2月3日。66.geo验证数据:从geo数据库中下载一套胰腺癌基因表达谱数据集,编号为gse57495,注释平台为gpl15048,包含63例早期胰腺癌患者的表达谱数据和临床随访信息,下载时间:2020年2月3日。67.icgc验证数据:从icgc数据库中下载一套胰腺癌rnaseq表达数据,该数据集包含269名患者的rna-seq表达谱数据和461名患者的临床随访信息,下载时间:2020年2月3日。68.2、数据预处理69.2.1、tcga数据预处理70.对171个样本rna-seq数据做以下几步预处理:71.1)去掉没有临床数据和os《30天的样本;72.2)去掉正常组织样本数据;73.3)去掉在一半样本中fpkm为0的基因;74.4)保留能量代谢相关基因的表达谱。75.2.2、geo数据预处理76.对gse57495数据做以下几步预处理:77.1)去掉正常组织样本数据;78.2)将os数据为month的转成days;79.3)去掉os《30天的样本;80.4)利用bioconductor包将芯片探针map到人类基因symbol;81.5)保留能量代谢相关基因的表达谱。82.2.3、icgc数据集预处理83.对269个rna-seq样本数据做以下几步预处理:84.1)去掉没有生存状态样本数据;85.2)去掉os《30天的样本;86.3)保留能量代谢相关基因的表达谱。87.3、分子亚型的鉴定88.首先,从molecularsignaturedatabasev7.0(msigdb)下载11个与人类能量代谢相关通如table1,从table1中的11个能量代谢通路中整理出总共有594个与能量代谢有关的基因。然后从tcga表达谱数据中提取与能量代谢基因相关的表达量,结果有6个基因未找到,进一步本实施例保留一半以上样本具有表达不为0的基因,最终得到565个基因用于后续分析。只考虑与能量代谢有关的基因,便于对样本进行分子亚型的分类。89.在所有的tcga和icga胰腺癌样本中,提取565个与能量代谢相关的基因,通过非负矩阵聚类算法(nmf)对paad样本进行聚类,并根据根据cophenetic、silhouette和rss等指标确定最优聚类数量,最终得到两个分子亚型。90.其中共生相关系数(copheneticcorrelation)由brunet(pmid:15016911)等人提出的基于一致性矩阵得到的,用于反映从nmf得到的cluster的稳定性,该值在0-1之间,越大说明cluster之间越稳定;silhouette指轮廓系数(silhouettecoeffcient)。通常表示计算一个簇的紧致度,其值越大越好,最高分数为1。rss是指残差均方和(residualsumofsquares),用于反映模型的聚类性能,该值越小说明模型聚类的效果越好,理论上当每一个样本聚成一个类时,该值最小。91.图5显示了nmf方法聚类得到的胰腺癌代谢分子亚型,具有良好的预后预测模型意义,同时不同代谢分子亚型呈现了不同的免疫微环境特征92.4、分子亚型之间免疫评分分析93.使用tcga数据库中的tpm数据,从中提取出蛋白编码基因的表达谱。使用timer(tumorimmuneestimationresource)工具和r软件包estimate计算tcga胰腺癌样本中每个样本的免疫评分,然后比较了两个亚型之间样本的免疫得分差异,用于对步骤3获取的两个分子亚型进行差异验证。94.5、鉴别分子亚型之间差异共表达基因95.5.1、使用tcga数据库中rna-seqcount数据,使用r软件包deseq2计算两个亚型之间差异表达基因(degs),设定阈值为fdr《0.05和|log2fc|》1。需要注意的是,此处的差异表达基因是从所有的基因中筛选。96.5.2、使用tcga数据库中的tpm数据,从中提取出蛋白编码基因的表达谱,使用加权基因共表达网络分析(wgcna)共表达算法用于通过r包“wgcna”找到共表达的编码基因和共表达的模块,即根据这些编码基因的表达谱使用wgcna共表达算法挖掘共表达的编码基因与共表达模块,97.具体地,首先根据tcga数据库中的tpm数据,从中提取出蛋白编码基因的表达谱,并使用层次聚类对样本进行聚类分析;其次使用皮尔森相关系数计算每一个基因之间的距离,使用r软件包wgcna进行构建权重共表达网络,选择软阈值为10,筛选共表达模块。研究表明(doi:10.1126/science.1173299)共表达网络符合无尺度网络,即出现连接度为k的节点的对数log(k)与该节点出现的概率的对数log(p(k))要负相关,且相关系数要大于0.8;最后,将表达矩阵转换成邻接矩阵,然后再将邻接矩阵转换成拓扑矩阵,基于tom(topologicaloverlapmatrix),本实施例使用average-linkage层次聚类法对基因进行聚类,按照混合动态剪切树的标准,并设置每个基因网络模块最少的基因数目30。在使用动态剪切法在确定基因模块后,本实施例依次计算每个模块的特征向量值,然后对模块进行聚类分析,将距离较近的模块合并成新的模块,设置height=0.25、deepsplit=2、minmodulesize=30。98.根据得到的共表达模块,计算各共表达模块与预先设定的各患者临床指标和两分子亚型间的距离,获取距离最近的两个共表达模块,从而确定共表达基因。99.取共表达基因与差异表达基因之间的交集,作为差异共表达基因,一共选取了743个差异共表达基因。100.最后,使用r软件包webgestaltr(fdr《0.05)对差异共表达基因进行go分子功能与kegg功能富集分析,进行对差异共表达基因的验证。101.6、构建预后风险模型102.针对差异共表达基因表达谱以及训练集携带生存数据进行单变量cox比例风险回归模型;即利用r包survivalcoxphfunction进行分析,选择logrankp《0.01作为阈值,实现差异共表达基因的初步筛选。103.进一步地,需要在保持较高准确率的条件下进一步的缩小基因范围,本实施例构建了预后模型,使用r包“glmnet”进行了lassocox回归分析以识别特征基因,最终获取上述4个特征基因。104.具体地,lasso(leastabsoluteshrinkageandselectionoperator,tibshirani(1996))方法是一种压缩估计。它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计,可以在参数估计的同时实现变量的选择,较好的解决回归分析中的多重共线性问题。最后,将lasso分析得到的特征基因进行多变量cox生存分析以构建最终预后风险模型,即上述riskscore4的计算模型。105.使用r软件包timeroc对riskscore进行预后分类的roc分析,对风险评分进行评分,将风险评分大于零的样本分类为高风险组,将风险评分小于零的样本分类为低风险组。并在内部验证集与外部验证集中采用与训练集相同的模型和相同的系数,验证模型的鲁棒性。106.7、风险模型与基因功能富集分析107.使用r软件包gsva进行单样本gsea分析,计算每个样本在不同功能上的得分即得到了每个功能对应各个样本的ssgsea打分,进一步计算和验证这些功能与风险得分的相关性。108.8、风险模型与临床特征预后分析109.使用kaplan-meier曲线评估不同临床特征之间生存样本与死亡样本之间的生存时间的差异,然后进行单因素和多因素cox回归分析以评估独立的预后因素,p《0.05具有显著性。110.9、模型比较111.通过查阅查考文献,本实施例最终选择已发表的四个与胰腺癌预后相关的风险模型:15-genesignature(chen)[26247463]、7-genesignature(cheng)[30639415]、5-genesignature(raman)[30092011]和7-genesignature(li)[30428899]。使用r包rms绘制了rms曲线与本次构建的模型进行比较。[0112]通过查阅查考文献,本实施例检索到已发表的四个与胰腺癌预后相关的风险模型:15-genesignature(chen)[26247463]、7-genesignature(cheng)[30639415]、5-genesignature(raman)[30092011]和7-genesignature(li)[30428899]。使用rms曲线评估本次建立的基因模型和已发表的四个模型对胰腺癌患者预后状态的预测效果,见图6,图中riskscore表示本次训练集中构建的模型,从图中可以看出本次构建的4个基因模型的auc均比chen模型、cheng模型、raman模型和li模型的auc要高,说明本研究构建的模型对paad预后的预测能力要优于另外四种模型。figure8b表示五种模型所有样本的风险值分布情况。[0113]以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本
技术领域
:中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1