一种头颈部鳞癌的预后预测系统和预后预测芯片

文档序号:32049933发布日期:2022-11-03 08:35阅读:204来源:国知局
一种头颈部鳞癌的预后预测系统和预后预测芯片

1.本发明涉及生物技术领域,特别是涉及一种头颈部鳞癌的预后预测系统。


背景技术:

2.头颈部肿瘤主要由颈部肿瘤、耳鼻喉和口腔颌面三大肿瘤组成。权威机构发布的数据表明,在全球范围内每年约有64.5万例的新发头颈部癌症。由于头颈部癌症在早期,其症状并没有特异性,在临床上容易与鼻炎、口腔溃疡等常见头颈部疾病相混淆。这给头颈部癌症的早期诊断和预后带来一定的困难性。
3.目前头颈部肿瘤由于其特殊的解剖位置。其治疗方法以手术治疗为主,同时放化疗为辅的治疗方法,但是其疗效仍然不佳。随着免疫及靶向治疗的兴起,在一定程度上改变了头颈部鳞癌的治疗策略,提高了起生存率。但是在头颈部鳞癌的预后上仍然存在挑战,急需一种先进的方法来进行精准预测。
4.染色质调节因子(crs)是一类具有特殊功能结构域的蛋白酶。目前被认为是肿瘤的最重要调节因子之一。研究表明:crs的异常表达与多种生物学过程有关,譬如:炎症、细胞凋亡、自噬和增殖等。因此,crs的失调极有可能影响肿瘤的发展。所以,crs有望成为头颈部肿瘤治疗的新靶点。


技术实现要素:

5.为解决上述技术问题,本发明提出了一种头颈部鳞癌的预后预测系统。
6.本发明的目的通过以下技术方案实现:
7.一种头颈部鳞癌的预后预测芯片,所述预后预测芯片为用于检测人的ahctf1、aicda、brd8、brwd3、foxp3、hnf1a、ikzf3、kdm5a、dc1九个基因表达量的基因表达谱芯片。
8.进一步的改进,所述预后预测芯片为用于检测人的actr2、ahctf1、aicda、arid4b、brca1、brd8、brwd3、cbx1、cbx7、cdk3、dpf1、elp6、exosc4、exosc5、eya1、foxp3、hdac1、hif1an、hnf1a、ikzf1、ikzf3、kdm5a、mbd4、mdc1、morf4l2、nfrkb、pcgf1、prdm16、prkag1、prkcb、prr12、rnf2、setd1b、taf5、tssk6、uhrf2、wsb2、ywhaz、znf532三十九个基因表达量的基因表达谱芯片。
9.进一步的改进,所述数据输入单元、预后预测单元和数据输出单元;所述数据输入单元用于输入待预测人员的ahctf1、aicda、brd8、brwd3、foxp3、hnf1a、ikzf3、kdm5a、dc1九个基因的表达量数据;所述预后预测单元用于将数据输入单元输入的数据属于预测模型得到待预测人员的每一年的生存率;数据输出单元用于将待预测人员的每一年的生存率输出。
10.进一步的改进,所述预测模型的得到方法如下:
11.采集正常样本和病变样本,并检测正常样本和病变样本的ahctf1、aicda、brd8、brwd3、foxp3、hnf1a、ikzf3、kdm5a、dc1九个基因表达量后输入r软件“timeroc”包进行训练,即得到预测模型。
12.进一步的改进,所述ahctf1、aicda、brd8、brwd3、foxp3、hnf1a、ikzf3、kdm5a、dc1九个基因通过以下筛选方法筛选得到:
13.1.1)从网站:https://portal.gdc.cancer.gov,下载公共数据库the cancer genomeatlas里的头颈部鳞癌的病例样本,病例样本含有个正常样本与个病变样本;并得到与染色子调节因子相关的基因;
14.1.2)提取病例样本中各染色子调节因子相关基因的表达矩阵;
15.1.3)使用r语言“limma”包,对染色子调节因子相关基因的表达矩阵进行表达差异分析;其筛选标准为:|logfc|》1且adj.p-value《0.05,用benjamini-hochberg方法对p值进行校正;最后对最显著的50个差异基因用热图进行展示;
16.1.4)使用r语言“survival”包对最显著的50个差异基因,进行单因素回归分析;
17.1.5)使用r语言“glmnet"”包对单因素回归分析的结果进行lasso分析,挑选出影响头颈部鳞癌发生的大于预设阈值的最显著基因,即ahctf1、aicda、brd8、brwd3、foxp3、hnf1a、ikzf3、kdm5a、dc1九个基因。
18.本发明的有益效果在于:
19.通过对头颈部肿瘤患者的病变组织与正常组织进行基因表达的比较。通过生物信息学方法,筛选出头颈部病变的关键基因。在此基础上通过构建signature来预测头颈部肿瘤的总生存率的模型。研究发现,该系统具有较强的鲁棒性并可大大提高头颈部鳞癌的总生存率的预测精度。
附图说明
20.利用附图对本发明做进一步说明,但附图中的内容不构成对本发明的任何限制。
21.图1为差异表达基因中前50个最显著基因的表达热图,其中n代表正常样本,t代表治疗组为病变样本;
22.图2为单因素回归森林图;
23.图3为lasso路径图;
24.图4为lasso模型的置信图;
25.图5为模型对头颈部鳞癌患者的1年,3年,5年的生存预测图;
26.图6为k-m生存分析曲线图;
27.图7为基于最佳截断值,生存状态曲线图
28.图8为基于最佳截断值,生存状态点状图
29.图9为核心建模基因的表达热图;
30.图10为临床因素的单因素回归森林图;
31.图11为临床因素的多因素回归森林图;
32.图12为预测模型的列线图
33.图13为预测模型的1,3,5年的校正曲线图;
34.图14为差异基因的go与kegg富集图
35.图15为不同算法的免疫浸润分析图。
具体实施方式
36.为了使发明的目的、技术方案及优点更加清楚明白,以下结合附图及实例,对本发明进行进一步的详细说明。
37.实施例1
38.如图1所示的一种基于染色子调节因子的头颈部鳞癌预后预测系统的建立方法,包括以下步骤:
39.步骤(1):从网站:https://portal.gdc.cancer.gov,下载公共数据库the cancer genomeatlas(tcga),里的头颈部鳞癌的病例样本。含有44个正常样本与502个病变样本。从相关文献中总结出870个与染色子调节因子相关的基因。
40.步骤(2):基于r语言环境提取染色子调节因子相关基因的表达矩阵。
41.步骤(3):使用r语言“limma”包,对染色子调节因子相关基因的表达矩阵进行表达差异分析。其筛选标准为:|logfc|》1且adj.p-value《0.05,采用benjamini-hochberg方法p值进行校正(fc:倍数变化,adj.p-value:调整后的p值),筛选差异基因,共有470个差异染色子调节基因。最显著的50个差异染色子调节基因用热图进行展示如图1所示。
42.步骤(4):使用r语言“survival”包对对差异染色子调节基因进行单因素的回归分析,其操作主要步骤,剔除正常样本对病变样本分析,发现:actr2、ahctf1、aicda、arid4b、brca1、brd8、brwd3、cbx1、cbx7、cdk3、dpf1、elp6、exosc4、exosc5、eya1、foxp3、hdac1、hif1an、hnf1a、ikzf1、ikzf3、kdm5a、mbd4、mdc1、morf4l2、nfrkb、pcgf1、prdm16、prkag1、prkcb、prr12、rnf2、setd1b、taf5、tssk6、uhrf2、wsb2、ywhaz、znf532共39个基因在体现出统计学意义(p《0.05),如图2所示
43.步骤(5):使用r语言“glmnet"”包对单因素回归分析的结果进行lasso分析,使用r语言“glmnet"”包对单因素回归分析的结果进行lasso分析,挑选出影响头颈部鳞癌发生的最显著基因。其关键处理方法如下:当λ=0.014时,ahctf1、aicda、brd8、brwd3、foxp3、hnf1a、ikzf3、kdm5a、dc1九个基因与头颈部鳞癌患者的预后最相关。表现结果如图3,4所示。表1显示了特征基因的lasso的回归系数。
44.表1lasso回归系数
45.基因名回归系数ahctf10.033180392aicda-0.10339806brd80.300394481brwd3-0.015603402foxp3-0.073921435hnf1a-0.040985406ikzf3-0.023265253kdm5a0.008804684mdc13.57e-05
46.步骤(6):通过r软件“timeroc”包,对预后模型进行1,3,5年生存率的预测。如图5所示,一年的生存率为0.637;三年生存率为0.638;五年生存率为0.626。在此步骤中,关键处理步骤利用x-tile软件,得到危险评分的最佳截断值为:2.4。基于2.4将患者分为高,低
危险组。并且高低风险组的生存状态,高风险组较差,如图6所示。高,低危险组生存状态如图7,8所示。建模基因的热图在图9显示出来
47.步骤(7):为了进一步说明signature的正确性,本研究对临床因素进行单、多因素的回归分析,如图10,11所示。发现危险评分在单多因素分析中,均为有统计学意义(p《0.05)。
48.步骤(8):最后,我们构建了预测的列线图模型。预测的列线图模型,基于r语言“rms”包绘制,图12所示。
49.步骤(9):为了进一步验证模型的准确度,我们对该模型绘制了校准曲线图,发现其有高的稳定性,图13所示。
50.步骤(10):为了解释模型的生理功能,我们对差异染色子调节因子相关的基因做了基因本体(gene ontology,go)通路与京都基因和基因组百科全书(kyoto encyclopedia of genes and genomes,kegg)富集分析。go与kegg富集分析其关键步骤是基于r语言“org.hs.eg.db”进行。发现在covalent chromatin modification,histone modification,peptidyl-lysine modification,nuclear chromatin,histone acetyltransferase complex,histone binding,transcription corepressor activity,histoneacetyltransferase activity,cell cycle,basal transcription factors,lysine degradation上得到富集。这一些都与肿瘤相关,如图14所示
51.步骤(11):为了进一步解释模型的免疫功能,我们进行了免疫浸润分析,发现t细胞其具有较高的免疫浸润,如图15所示。
52.最后应当说明的是,以上实施例仅用于说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当了解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1