用于预测白血病预后的评估基因集、试剂盒、系统及应用的制作方法

文档序号:29628746发布日期:2022-04-13 15:17阅读:241来源:国知局
用于预测白血病预后的评估基因集、试剂盒、系统及应用的制作方法

1.本发明属于肿瘤分子生物学技术领域,具体涉及一种用于预测急性髓细胞白血病患者预后的评估基因集、试剂盒、系统及应用。


背景技术:

2.急性髓系白血病(aml)是一种发生于骨髓内的侵袭性恶性肿瘤,以髓系前体异常积聚为特征;作为一种最致命的急性白血病,aml患者的5年生存率仅为28.3%,大多数病例缓解后仍频繁复发,导致预后不良。
3.现有的研究表明aml中分子遗传异常与预后显著相关,这为aml的治疗选择以及风险分层系统提供了潜在的靶标;尽管关于aml患者生物标志物的探索方面取得了进展,但由于临床过程的多变性,属于同一组的患者也可能表现出不同的诊疗和预后效果。
4.铁死亡是一种关键的、由脂质过氧化过度积累引起的铁依赖性的细胞死亡方式;在铁死亡过程中,脂质代谢发生改变,细胞内脂质性活性氧(ros)水平随之升高并大量蓄积,最终导致细胞出现损伤甚至死亡。现有技术中铁死亡广泛涉及癌症的发生发展和治疗耐药性,特别是可以让aml细胞对化疗药物的敏感性增加。
5.基于机体内免疫反应的发生涉及多种免疫细胞的参与,单个免疫基因或少数免疫细胞对于预后的评估并不完整。因此仍需要更准确、更高效的、能够预测癌症患者预后情况的方案。


技术实现要素:

6.本发明基于tcga数据库(tcga-laml)、geo数据库(gse71014)和target数据库(target-aml)中获取aml病例的基因表达谱及相应的临床信息,基于铁死亡相关聚类的差异表达基因,将tcga队列中的患者分为两组并筛选了两组之间的差异表达基因,根据基因表达值得到预测急性髓系白血病预后的评估基因集。
7.本发明的第一目的是提供一种用于预测急性髓细胞白血病患者预后的评估基因集,其中,评估基因集为基于铁死亡相关聚类的差异表达基因集,其包括18个基因,18个基因为znf560、zscan4、lhx6、twist1、foxl1、zfpm2、hmx2、astn1、dll3、pcdhb12、prins、tmem56、hrasls、fam155b、ccl23、lgals1、efnb3和mxra5。
8.本发明的第二目的是提供一种用于预测急性髓细胞白血病患者预后的试剂盒,其包括检测前述评估基因集中18个基因表达水平的试剂,其中表达水平是指度量给定基因表达程度的参数的值。
9.具体的,试剂盒中所包含的试剂是本领域已知的任何可用于检测基因表达水平的试剂。
10.本发明的第三目的是提供一种用于预测急性髓细胞白血病患者预后的系统,其包括数据收集单元、预后风险评分单元和预测单元;
11.数据收集单元用于收集患者的样本,测定其基因表达值,其中基因为前述的评估
基因集中的18个基因;
12.预后风险评分单元用于根据18个基因的表达值数据计算风险评分,其中风险评分的计算公式如下:
[0013][0014]
其中,coefi为系数,xi为所选基因经过z-score变换后的相对表达值;
[0015]
预测单元用于根据患者的风险评分来预测患者的预后情况,患者的风险评分越低,则预后情况越好。
[0016]
作为本发明的另一种具体实施方式,若风险评分大于等于0,则预后风险为高风险,若风险评分小于0,则预后风险为低风险。
[0017]
作为本发明的另一种具体实施方式,确定18个基因的系数,将风险评分的计算公式展开为:
[0018]
risk score=expr(lgals1)
×
(1.54e-1
)+expr(dll3)
×
(-4.82e-2
)+expr(zfpm2)
×
(6.83e-2
)+expr(lhx6)
×
(2.79e-2
)+expr(mxra5)
×
(-1.11e-2
)+expr(tmem56)
×
(-1.18e-2
)+expr(ccl23)
×
(1.13e-2
)+expr(fam155b)
×
(3.08e-2
)+expr(zscan4)
×
(1.19e-2
)+expr(pcdhb12)
×
(-1.82e-2
)+expr(prins)
×
(-6.59e-2
)+expr(foxl1)
×
(-1.39e-3
)+expr(astn1)
×
(-6.39e-3
)+expr(hmx2)
×
(6.38e-2
)+expr(hrasls)
×
(4.28e-2
)。
[0019]
本发明的第四目的是检测基因表达水平的试剂在制备用于预测急性髓细胞白血病患者预后试剂盒或系统中的应用,其中,试剂盒前述的用于预测急性髓细胞白血病患者预后的试剂盒,系统为前述的用于预测急性髓细胞白血病患者预后的系统。
[0020]
本发明具备以下有益效果:
[0021]
本发明基于tcga数据库(tcga-laml)、geo数据库(gse71014)和target数据库(target-aml)中获取aml病例的基因表达谱及相应的临床信息,基于铁死亡相关聚类的差异表达基因,将tcga队列中的患者分为两组并筛选了两组之间的差异表达基因,根据基因表达值得到预测急性髓系白血病预后的评估基因集,能够更加可靠地应用于临床实践,为急性髓细胞白血病患者提供疾病诊断及预后的新方法。
[0022]
下面结合附图对本发明作进一步的详细说明。
附图说明
[0023]
图1是本发明的流程示意图;
[0024]
图2是基于铁死亡相关基因的aml分类;
[0025]
其中2a根据共识矩阵的最佳aml分类(k=2),2b两种亚型的kaplan-meier生存分析,2c两种亚型间显著表达的的铁死亡相关基因热图,2d基于铁死亡基因的样本分布的pca分析;
[0026]
图3是lasso变量筛选过程;
[0027]
图4是lasso回归选择18个预后基因建立预后模型;
[0028]
图5是aml患者的风险评分分布;
[0029]
图6是基于风险评分的患者状态;
[0030]
图7是训练集(tcga-laml数据集)中两个风险评分组的kaplan-meier生存曲线;
[0031]
图8是训练集(tcga-laml数据集)的roc曲线,其3年总生存率的auc为0.827;
[0032]
图9是验证集1(gse71014)中两个风险评分组的kaplan-meier生存曲线;
[0033]
图10是验证集1(gse71014)的roc曲线,其3年总生存率的auc为0.621;
[0034]
图11是验证集2(target-aml)中两个风险评分组的kaplan-meier生存曲线;
[0035]
图12是验证集2(target-aml)的roc曲线,其7年总生存率的auc为为0.741;
[0036]
图13显示了tcga队列中临床病理特征、风险评分和预后价值之间的相关性;
[0037]
其中13a是临床病理因素及风险评分的单因素分析,13b是临床病理因素及风险评分的多因素分析,13c是18个标记基因与临床病理特征相关性的热图,13d是roc曲线显示风险评分、年龄和1/2等级对生存率预测效果,13e是roc曲线显示风险评分、年龄、1/2类对aml风险分组的预测作用;
[0038]
图14显示了风险评分与临床特征之间的关系;
[0039]
图15是tcga-laml的列线图;
[0040]
其中15a是列线图预测aml患者3年和5年的总生存期,15b是列线图对应3年的校准曲线,15c是列线图对应5年的校准曲线;
[0041]
图16是预后模型的免疫浸润水平;
[0042]
其中16a是危险基因与不同免疫浸润细胞类型的相关性,16b是高危组和低危组lgals1表达与免疫浸润水平的相关性,16c、16d、16f分别是风险评分与b细胞、单核细胞、静息肥大细胞、cd4+t细胞的相关性;
[0043]
图17显示了预后模型的突变状态;
[0044]
其中17a显示了低高危组突变状态,17b显示了高危组突变状态;
[0045]
图18是三个风险基因的体外验证;
[0046]
其中18a是lgals1,18b是zfpm2,18c是tmem56 mrna在正常和aml样本中的表达水平。
具体实施方式
[0047]
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
[0048]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
[0049]
实施例1
[0050]
数据收集
[0051]
从tcga数据库(https://portal.gdc.cancer.gov/)中下载151例aml患者的rna测序(rna-seq)数据及相应的临床数据作为训练集。
[0052]
从geo数据库(https://www.ncbi.nlm.nih.gov/gds/)中下载104个aml样本作为验证集1。
[0053]
从target数据库(https://ocg.cancer.gov/programs/target)下载155个aml样
本作为验证集2。
[0054]
采用“limma”r包对基因表达谱进行归一化处理。
[0055]
同时从ferdb(http://www.zhounan.org/ferrdb)并结合已知数据中收集了261个与铁死亡相关的基因(frgs)。
[0056]
基于铁死亡相关基因的共识聚类分析
[0057]
首先,关于铁死亡相关基因集的aml分类如图2所示,发明人从tcga数据库中提取aml患者的rna-seq数据和相应的临床信息(n=151),基于261个frgs,发明人对所有aml样本进行了一致性聚类分析;当类别编号k=2时,aml样本可以很好地分为第一组和第二组(如图2a所示),两组患者的kaplan-meier生存曲线显示,第二组级aml患者的生存期优于第一组级aml患者(log-rank,p=0.024,图2b)。图2c是从两组之间表达差异显著的铁死亡相关基因的热图,基于铁死亡相关基因分类的样本分布主成分分析图(pca)显示出良好的聚类质量(如图2d所示)。
[0058]
本实施例中使用“consensusclusterplus”r软件包将tcga数据库中的aml患者按261个frgs分为不同的组,然后使用“survival”r软件包执行不同组间的kaplan-meier总体生存曲线。
[0059]
采用主成分分析(pca)对样本进行聚类分析。
[0060]
用“deseq2”r包筛选不同聚类间的差异表达基因(|logfc|》1.5,fdr《0.05),通过基因本体论(go)富集分析和京都基因与基因组百科全书(kegg)分析,选择和可视化显著富集的铁死亡相关go术语和kegg通路。
[0061]
构建与验证基于铁死亡相关聚类的差异表达基因的预后风险评分模型
[0062]
为了筛出预后相关基因(p<0.05),发明人对这些差异基因进行单因素cox回归分析,如图3所示,287个差异表达基因(degs)与患者生存显著相关(p<0.05),应用lasso回归去除多余冗杂的预后相关基因,最终选取权重值不为0的18个基因作为最终的评估基因集,由此建立多风险预测模型如图4所示,进行预测患者预后。
[0063]
其中18个基因具体是znf560、zscan4、lhx6、twist1、foxl1、zfpm2、hmx2、astn1、dll3、pcdhb12、prins、tmem56、hrasls、fam155b、ccl23、lgals1、efnb3和mxra5,其相应的权重系数见附图4。
[0064]
按照以下公式计算风险评分:
[0065][0066]
其中,coefi为系数,xi为所选基因经过z-score变换后的相对表达值,n为评估基因集中的基因个数,本发明中n为18。
[0067]
风险评分公式展开为:
[0068]
risk score=expr(lgals1)
×
(1.54e-1
)+expr(dll3)
×
(-4.82e-2
)+expr(zfpm2)
×
(6.83e-2
)+expr(lhx6)
×
(2.79e-2
)+expr(mxra5)
×
(-1.11e-2
)+expr(tmem56)
×
(-1.18e-2
)+expr(ccl23)
×
(1.13e-2
)+expr(fam155b)
×
(3.08e-2
)+expr(zscan4)
×
(1.19e-2
)+expr(pcdhb12)
×
(-1.82e-2
)+expr(prins)
×
(-6.59e-2
)+expr(foxl1)
×
(-1.39e-3
)+expr(astn1)
×
(-6.39e-3
)+expr(hmx2)
×
(6.38e-2
)+expr(hrasls)
×
(4.28e-2
)。
[0069]
验证模型准确性
[0070]
构建风险模型后,根据风险评分将来自tcga队列的aml样本分为高风险组、低风险组,如图5所示,其中若风险评分大于等于0,则预后风险为高风险,若风险评分小于0,则预后风险为低风险,相应的,图6示出了基于风险评分的患者状态。
[0071]
使用“survival”和“survminer”r包比较两组患者的生存差异,采用“time-roc”r软件包进行1年、3年和5年受试者特征曲线(roc)分析,采用geo数据库(gse71014)和target数据库(target-aml)中的其他aml队列进行验证,进行同样的风险评分计算、风险亚组分型、生存分析和roc曲线分析。
[0072]
本实施例中所有数据采用r软件进行分析,p≤0.05为差异有统计学意义。
[0073]
图7示出了训练集(tcga-laml数据集)中两个风险评分组的kaplan-meier生存曲线,从中可以看出,相较于高危险组,低危险组的生存情况更好;同时如图8所示,训练集第1、3、5年的生存期预后模型的roc曲线下面积(auc)分别是0.81、0.827和0.786。
[0074]
作为验证集1,图9示出了验证集1(geo数据库(gse71014))中两个风险评分组的kaplan-meier生存曲线,从中可以看出,从中可以看出,相较于高危险组,低危险组的生存情况更好;同时如图10所示,验证集1中第1、3、5年生存期的预后模型的auc值分别是0.587、0.621和0.576。
[0075]
作为验证集2,图11示出了验证集2(target数据库(target-aml))中两个风险评分组的kaplan-meier生存曲线,从中可以看出,从中可以看出,相较于高危险组,低危险组的生存情况更好;同时如图12所示,验证集2中第3、5、7年生存期的预后模型的auc值分别是0.657、0.655和0.741。
[0076]
以上结果表明,在验证集1和验证集2中,本发明的预测模型对预测患者预后均有较好的效果。
[0077]
相应的,本实施例中在构建预后模型之后,还可以进行高低评分浸润差异分析、高低风险组铁死亡因子突变分析和风险评分预测化疗反应等,如图1所示。
[0078]
进一步的,本实施例还进行有如下过程:
[0079]
预后风险评分模型的预后分析
[0080]
为了进一步探讨临床病理特征与aml患者预后之间的关系,发明人从tcga队列中提取临床数据,这些变量包括aml风险类别、年龄、性别、种族、类别和风险评分,并且进行了单因素和多因素cox回归分析以确定独立的预后因素。
[0081]
具体的,为进一步获取预后风险评分模型的临床价值,对tcga队列进行了单因素和多因素cox回归分析,在单变量cox分析中,aml风险类别、年龄、class和风险评分与aml患者预后显著相关(p值分别为p=0.00069,p=2
×
10-5,p=0.028,p=2.1
×
10-16,图13a)。多因素cox回归分析结果显示,年龄和风险评分是影响aml患者预后的独立危险因素(p值分别为p=0.011,p《0.0001,图13b)。此外,图13c为18个风险基因与临床病理特征之间的相关性热图。接下来,我们对这些因素进行roc分析,auc值的结果表明与其他因素相比(auc值均《0.7),风险评分可以显著预测总生存期和aml风险类别(auc值分别是0.824,0.768,图13d、13e);同时还确定了风险评分与病理特征之间的相关性,根据上述结果可知,本实施例中风险评分与aml风险类别、年龄、类别和状态显著相关(所有p《0.05,图14)。
[0082]
预测列线图的建立
[0083]
通过“rms”r包构建nomogram预后图来显示变量与预后模型之间的关系,用3年和5年的校准曲线来评估列线图的准度;为了更好地说明风险评分在aml发展中的作用,发明人还分析了我们的风险评分与不同临床特征(aml风险类别、年龄、类别和状态)之间的关系。
[0084]
具体的,在tcga队列中,最终选择aml风险类别、年龄、性别、种族、类别和风险评分建立准确的预测列线图(图15a),计算得到的c指数为0.789,3年和5年总生存期的校准曲线与platt校准曲线无偏差,表明列线图的预测精度较高(图15b、15c)。
[0085]
预后模型与免疫浸润的相关性
[0086]
利用cibersort算法进行免疫浸润分析,评估高风险基因表达组、低风险基因表达组之间不同类型的免疫细胞表达;采用r包“ggstatsplot”分析风险评分与免疫细胞组分(cd4+t细胞、单核细胞、m2巨噬细胞、静息肥大细胞)的线性相关性,多基因相关图以r包“pheatmap”显示。
[0087]
具体的,图16a为18个风险基因与22个免疫浸润细胞的关系热图;值得注意的是,lgals1与免疫活性的相关性最为显著。低危险组中,b细胞、嗜酸性粒细胞、静息肥大细胞、静息自然杀伤细胞、cd4+t细胞和gamma deltat细胞的lgals1表达水平显著高于高危险组,而记忆b细胞、m2巨噬细胞和单核细胞中的lgals1表达水平则相反(p《0.05,图16b)。此外,风险评分与b细胞、静息肥大细胞和naivecd4+t细胞呈负相关(r=-0.26,p=0.0155;r=-0.47,p=2
×
10-7;r=-0.38,p=6.63
×
10-5,图16c、16e、16f);随着风险评分的增加,单核细胞比例呈线性增加(r=0.59,p=2.09
×
10-12,图16d)。
[0088]
预后模型的突变分布
[0089]
从tcga数据库中获取aml的突变数据,使用r包“maftools”可视化高危险组和低危险组之间的体细胞突变。
[0090]
发明人通过比较了两个风险组之间的突变模式,发现了差异,具体为高危组kras(25%vs 12.5%)和tp53(25%vs 12.5%)的突变频率高于低风险组,并且突变类型在两个风险组中都是错义变异(图17a、17b)。
[0091]
验证风险基因
[0092]
发明人利用24份新鲜或冰冻的aml新生骨髓和外周血标本,通过qpcr检测aml原代细胞中几种危险基因的表达,并与10例正常病例进行比较,如图18a-c所示,zfpm2在两组间的表达水平无差异(p=0.3646),而lgals1和tmem56在aml样本中的表达水平明显低于正常样本(均p《0.05)。
[0093]
虽然本发明以较佳实施例揭露如上,但并非用以限定本发明实施的范围。任何本领域的普通技术人员,在不脱离本发明的发明范围内,当可作些许的改进,即凡是依照本发明所做的同等改进,应为本发明的范围所涵盖。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1