一种癌症复发风险预测模型构建方法与流程

文档序号:33473223发布日期:2023-03-15 09:13阅读:319来源:国知局
一种癌症复发风险预测模型构建方法与流程

1.本发明涉及生物技术领域,具体涉及一种癌症复发风险预测模型构建方法。


背景技术:

2.肿瘤不是单纯的肿瘤细胞,而演变为由群落中的肿瘤细胞、免疫细胞、成纤维细胞、血管内皮细胞等基质细胞组成的复杂器官样结构,它涵盖器官内的所有结构,如免疫浸润、血管、细胞外基质等,异质恶性细胞与免疫细胞和非免疫细胞相互作用,形成肿瘤微环境(tumor microenvironment, tme)的复杂细胞网络。肿瘤免疫微环境(tumor immune microenvironment, time)的成分主要有两大类,即免疫细胞和分泌因子,如细胞因子、趋化因子和生长因子。关于前者,肿瘤免疫微环境包含极其多样化的免疫细胞亚群,包括t淋巴细胞、b淋巴细胞、自然杀伤(nk)细胞、巨噬细胞、树突状细胞(dc)、粒细胞和髓源性抑制细胞(mdsc)等。通常,t细胞、b细胞、nk细胞和巨噬细胞有助于抑制肿瘤生长,而mdsc和调节性t细胞(treg)往往会抑制抗肿瘤免疫。不过鉴于免疫细胞与肿瘤细胞的复杂相互作用,免疫细胞的特定作用可能会发生动态变化,甚至完全相反。例如,cd8+

t细胞的抗肿瘤功能可能会通过t细胞的耗竭而受到抑制,而在糖酵解低的肿瘤中阻断ctla-4后,调节性t细胞对产生干扰素-γ的细胞的功能失稳可能会促进抗肿瘤免疫。
3.肿瘤内和肿瘤之间的细胞异质性是理解和治疗癌症的主要障碍,如果使用大块肿瘤组织进行分析则掩盖复杂的异质性。快速发展的单细胞测序技术的出现,包括与单细胞基因组、表观基因组、转录组和多组学测序相关的方法,单细胞测序技术已逐步成为临床肿瘤研究的有力工具,并在癌症进化领域引发了令人兴奋的新发现,包括对治疗的抵抗和肿瘤微环境。这些技术可以使科研工作者更加清晰的探索肿瘤组织中每个细胞的分子状态,从而进一步研究肿瘤异质性、微环境细胞类型组成,特别是使在免疫治疗的背景下探索影响治疗反应的细胞状态成为现实。单个细胞是生命活动的最终单元,其中遗传机制和细胞环境相互作用并形成组织和器官等复杂结构的形成和功能。在单细胞分辨率下解剖组合物和表征相互作用,动力学和功能对于在正常和患病条件下充分理解几乎所有生命现象的生物学是至关重要的。癌症是由体细胞突变引起的疾病,其赋予不受控制的增殖和侵袭性,尤其可以受益于单细胞分析的进步。


技术实现要素:

4.为此,本发明提供一种癌症复发风险预测模型构建方法,通过整合单细胞和全转录组测序数据集识别影响免疫治疗响应的预后基因,并构建预后风险模型,为肿瘤的临床诊断与治疗提供新的思路。
5.为了实现上述目的,本发明提供如下技术方案:根据本发明实施例的第一方面,提出一种癌症复发风险预测模型构建方法,所述方法包括:步骤一:从多个数据库中获得癌症患者的肿瘤组织的全转录组测序数据,以及患
者接受免疫治疗前后配对的肿瘤组织单细胞转录组测序数据;步骤二:对单细胞转录组测序数据集进行质量控制,符合标准的细胞并获取其测序数据;步骤三:对预处理后的单细胞数据进行标准化和归一化,通过rpca整合并进行降维聚类得到不同细胞群,对不同细胞群进行差异表达基因分析,获得不同细胞群的差异表达基因;步骤四:获取不同细胞类型的标志基因,根据标志基因在不同细胞群中的分布情况对不同细胞群进行细胞类型注释;步骤五:对细胞类型注释后的单细胞数据进行受体配体数据比对,构建细胞通讯网络,筛选患者免疫治疗前后细胞通讯强度发生变化的特定细胞类型;步骤六:将其中注释为所述特定细胞类型的细胞群提取出来,对治疗前后的细胞进行差异表达基因分析,获得影响免疫治疗响应的关键基因;步骤七:基于影响免疫治疗响应的关键基因,对全转录组测序数据分类,观察与治疗响应相关的基因能否将癌症患者划分为预后不同的分组;步骤八:对基于单细胞转录组测序数据集获得的影响免疫治疗响应的关键基因进行单因素cox回归分析,筛选与预后相关的关键基因;步骤九:基于全转录组测序数据集建立训练集和验证集,对免疫治疗响应关键基因进行lasso回归分析和多因素cox回归分析,筛选与预后相关的关键基因,构建预后风险模型。
6.进一步地,所述步骤一,具体包括:从cbioportal、ena和tcga数据库获得三阴性乳腺癌患者肿瘤组织全转录组测序数据集,包括metabric、fuscc和tcga-brca队列;从biokey和geo数据库中获得三阴性乳腺癌免疫治疗单细胞测序数据集,包括biokey数据集和gse169246数据集;纳入的数据集需满足以下条件:使用人类肿瘤组织样本;每个数据集至少包含预设个数的样本;纳入研究的单细胞转录组测序数据集样本为具有接受免疫治疗前后配对的肿瘤组织的患者样本。
7.进一步地,所述步骤一,具体包括:在biokey数据集中选择数例三阴性乳腺癌患者,每例患者均包含治疗期间和治疗前配对的肿瘤组织测序数据,以及t细胞克隆扩增与否的信息;在gse169246数据集中选择数例接受抗pd-l1治疗联合化疗的三阴性乳腺癌患者,以及数例接受紫杉醇单药治疗的三阴性乳腺癌患者,每例患者均包含治疗前和治疗后配对的测序数据,纳入样品的组织类型为肿瘤组织的原发灶或转移灶;对metabric和fuscc队列中的三阴性乳腺癌患者进行筛选,保留同时具有基因表达谱数据和完整生存信息,且生存时间 ≥ 15天的患者。
8.进一步地,所述步骤二,具体包括:质量控制标准如下:每个基因有100个以上的细胞表达;每个细胞表达500-6000个基因;线粒体rna含量小于10%;红细胞rna含量小于1%。
9.进一步地,所述步骤三,具体包括:使用r软件中的“seurat”包对预处理后的单细胞数据进行标准化和归一化,通过
rpca整合并进行降维聚类,降维时所采用的pc数为30,聚类时所采用的分辨率为0.8,然后对不同细胞群进行差异表达基因分析,获得不同细胞群的差异表达基因,差异表达基因的|log2fc|》0.5且adj.p《0.05。
10.进一步地,所述步骤四,具体包括:使用r软件中的“singler”包或通过文献检索获得不同细胞类型的标志基因,根据标志基因在不同细胞群中的分布情况对不同细胞群进行细胞类型注释,将细胞群中表达最高的标志基因所对应的细胞类型注释为细胞群的细胞类型;不同细胞类型的标志基因具体如下:t淋巴细胞:cd3d, cd3e, cd3g, cd2;cd4
+
t细胞:cd4, cd40lg, il7r;cd8
+
t细胞:cd8a, cd8b, gzmk);自然杀伤细胞:gnly, klrd1, nkg7;增殖型t细胞:mki67, top2a;髓系细胞:lyz, cd68, cd14, fcgr3a;b淋巴细胞:cd79a, ms4a1, cd19, cd79b;浆细胞:jchain, mzb1, cd38;浆细胞样树突状细胞:lilra4, il3ra, clec4c, tcl1a;肥大细胞:cpa3, tpsab1, tpsb2;上皮细胞:epcam, krt19, krt7, cd24;成纤维细胞:col1a1, dcn, col3a1, col1a2, pdgfrb;内皮细胞:pecam1, cd34, vwf, eng。
11.进一步地,所述步骤五,具体包括:使用r软件中的“cellchat”包内置的数据库cellchatdb 进行受体配体数据比对,构建细胞通讯网络,筛选得到的患者治疗前后细胞通讯强度发生变化的特定细胞类型为cd8
+
t细胞,将其中注释为cd8
+
t细胞的细胞群提取出来。
12.进一步地,所述步骤六,具体包括:在biokey队列中,对治疗期间有无克隆扩增患者的cd8
+
t细胞进行差异表达分析,对克隆扩增患者治疗期间与治疗前的cd8
+
t细胞进行差异表达分析,分别获得差异基因;在gse169246队列中,对治疗后临床疗效为部分缓解与疾病稳定患者间的cd8
+
t细胞进行差异表达分析,对临床疗效为部分缓解的患者治疗后和治疗前的cd8
+
t细胞进行差异表达分析,分别获得差异基因;分析方法为:提取所有患者中的cd8
+
t细胞,调用seurat中的“findallmarkers”函数,利用wilcoxon秩和检验得到不同分组的差异基因,设定阈值为|log2fc|》0.3,校正后p《0.05且基因至少在任一分组中大于50%的细胞中有表达,对所有差异基因进行整合,最终获得与cd8
+
t细胞和治疗响应相关的关键基因。
13.进一步地,所述步骤七,具体包括:使用r软件中的“consensuclusterplus”包对全转录组测序数据分类,观察与治疗响应相关的基因能否将癌症患者划分为预后不同的分组。
14.进一步地,所述步骤八,具体包括:以metabric数据集作为训练集,fuscc数据集作为验证集,使用r软件中的“survival”包、“survminer”包、“rms”包和“timeroc”包对影响治疗响应的关键基因进行lasso回归分析和多因素cox回归分析,筛选与预后相关的影响治疗响应的基因,构建预后风险模型,最终构建出一个包括8个三阴性乳腺癌免疫治疗响应基因预后风险模型,基因具体如下:fus、neu1、plp2、id2、ptger4、gbp5、prf1、cxcr6。
15.本发明具有如下优点:本发明提出的一种癌症复发风险预测模型构建方法及系统,通过整合单细胞和全
转录组测序数据集识别影响免疫治疗响应的与预后相关的基因,并构建预后风险模型,有利于不同肿瘤诊断生物标志物的应用手册制定与靶向药物的设计,为肿瘤的临床诊断与治疗提供新的思路。
附图说明
16.为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
17.图1为本发明实施例1提供的一种癌症复发风险预测模型构建方法的流程示意图。
具体实施方式
18.以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
19.为了提供一种癌症复发风险预测模型构建方法,本发明实施例通过选择肿瘤患者群体作为研究对象,应用生物信息学方法,挖掘单细胞转录组测序和全转录组测序数据并对二者进行联合分析获得影响癌症免疫治疗敏感性的基因,构建预后风险模型,有利于不同肿瘤诊断生物标志物的应用手册制定与靶向药物的设计,为肿瘤的临床诊断与治疗提供新的思路。
20.本发明实施例提出的一种基于单细胞和全转录组测序数据的三阴性乳腺癌免疫治疗响应相关基因预后风险模型构建方法,如图1所示,具体包括:从公共数据库获得2个三阴性乳腺癌免疫治疗单细胞测序数据集,包括biokey数据集和gse169246数据集。从cbioportal、ena和tcga数据库获得三阴性乳腺癌患者肿瘤组织全转录组测序数据集,包括metabric、fuscc和tcga-brca队列。在单细胞转录组测序数据集biokey中选择18例三阴性乳腺癌患者,每例患者均包含治疗期间和治疗前配对的肿瘤组织测序数据,以及t细胞克隆扩增与否的信息。在单细胞转录组测序数据集gse169246中选择6例接受抗pd-l1治疗联合化疗的三阴性乳腺癌患者,以及6例接受紫杉醇单药治疗的三阴性乳腺癌患者,每例患者均包含治疗前和治疗后配对的测序数据,纳入样品的组织类型为肿瘤组织的原发灶或转移灶。对metabric和fuscc队列中的三阴性乳腺癌患者进行筛选,保留同时具有基因表达谱数据和完整生存信息,且生存时间≥ 15天的患者,保留metabric队列中298例、fuscc队列中358例三阴性乳腺癌患者纳入本研究,全部为女性原发癌患者。
21.对单细胞转录组测序数据集进行质量控制,选择符合标准的细胞用于后续研究,质量控制标准如下:1)每个基因有100个以上的细胞表达;2)每个细胞表达500-6000个基因;3)线粒体rna含量小于10%;4)红细胞rna含量小于1%。biokey数据集中用于后续研究的细胞共90747个,gse169246数据集中用于后续研究的细胞共118339个。
22.使用r软件中的“seurat”包对预处理后的单细胞数据进行标准化和归一化,通过rpca整合并进行降维聚类,降维时所采用的pc数为30,聚类时所采用的分辨率为0.8,
biokey数据集共降维聚类得到32个细胞cluster,gse169246数据集共降维聚类得到24个细胞cluster。对不同细胞cluster进行差异表达基因分析,获得不同细胞cluster的差异表达基因,差异表达基因的|log2fc|》0.25且adj.p《0.05。通过文献检索获得不同细胞类型的marker基因,根据marker基因在不同细胞cluster中的分布情况对不同细胞cluster进行细胞类型注释,不同细胞类型的marker基因具体如下:1)t淋巴细胞:cd3d,cd3e,cd3g,cd2;2)cd4
+
t细胞:cd4,cd40lg,il7r;3)cd8
+
t细胞:cd8a,cd8b,gzmk);4)自然杀伤细胞:gnly,klrd1,nkg7;5)增殖型t细胞:mki67,top2a;6)髓系细胞:lyz,cd68,cd14,fcgr3a;7)b淋巴细胞:cd79a,ms4a1,cd19,cd79b;8)浆细胞:jchain,mzb1,cd38;9)浆细胞样树突状细胞:lilra4,il3ra,clec4c,tcl1a;10)肥大细胞:cpa3,tpsab1,tpsb2;11)上皮细胞:epcam,krt19,krt7,cd24;12)成纤维细胞:col1a1,dcn,col3a1,col1a2,pdgfrb;13)内皮细胞:pecam1,cd34,vwf,eng。
23.biokey数据集中的90747个细胞共鉴定得到12种细胞类型,gse169246数据集中的118339个cd45
+
的免疫细胞共鉴定得到9种细胞类型。
24.在gse169246数据集中,对治疗后和治疗前患者的细胞类型进行配对比较,疗效为部分缓解(pr)的患者cd8
+
t细胞在治疗后显著增加。在biokey数据集中,接受免疫治疗期间,在t细胞克隆扩增的患者中多种免疫细胞的比例显著升高,特别是cd8
+
t细胞。综合两个数据集的结果,表明了cd8
+
t细胞对治疗响应的重要作用。
25.在biokey队列中,对治疗期间有无克隆扩增患者的cd8
+
t细胞进行差异表达分析,对克隆扩增患者治疗期间与治疗前的cd8
+
t细胞进行差异表达分析,分别获得差异基因。在gse169246队列中,对治疗后临床疗效为部分缓解与疾病稳定患者间的cd8
+
t细胞进行差异表达分析,对临床疗效为部分缓解的患者治疗后和治疗前的cd8
+
t细胞进行差异表达分析,分别获得差异基因。分析方法为:提取所有患者中的cd8
+
t细胞,调用seurat中的“findallmarkers”函数,利用wilcoxon秩和检验得到不同分组的差异基因,设定阈值为|log2fc|》0.3,校正后p《0.05且基因至少在任一分组中大于50%的细胞中有表达。对所有差异基因进行整合,最终获得与cd8
+
t细胞和治疗响应相关的关键基因。
26.基于影响免疫治疗响应的关键基因,使用r软件中的“consensuclusterplus”包对全转录组测序数据分类,根据与治疗响应相关的基因将癌症患者划分为预后不同的分组。
27.以metabric数据集作为训练集,fuscc数据集作为验证集,使用r软件中的“survival”包、“survminer”包、“rms”包和“timeroc”包对影响治疗响应的基因进行单因素cox回归分析、lasso回归分析和多因素cox回归分析,筛选与预后相关的影响治疗响应的基因,构建预后风险模型,最终构建出一个包括8个三阴性乳腺癌免疫治疗响应基因预后风险模型,基因具体如下:fus、neu1、plp2、id2、ptger4、gbp5、prf1、cxcr6,所构建的预后风险模型在训练集与验证集的预测能力评价标准roc均大于0.5,模型性能良好。
28.虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1