一种肺癌复发风险评估方法与流程

文档序号:28492583发布日期:2022-01-15 03:07阅读:266来源:国知局
一种肺癌复发风险评估方法与流程

1.本发明属于一种肺癌预测方法技术领域,具体地,涉及一种肺癌复发风险评估方法。


背景技术:

2.肺癌发病率高、死亡率高,是危害人类生命健康的第一大肿瘤。在治疗方面,领域内一直认可肺癌早筛早诊早治对患者预后的重要性,但目前以局部手术为主的肺癌早期治疗并不能为所有患者带来根治,术后发生复发转移的患者比例仍然不能忽视,同时进入到晚期治疗模式的患者将与瘤共存。因此,将肿瘤治疗节点前移对患者实现高质量的长期生存至关重要。
3.据调查数据显示,ⅰb期到ⅲa期肺癌患者的术后复发比例超50%,即便是处于极早期的ⅰb期患者,其术后复发比例仍有32%左右,这其中有相当一部分为远处复发。我们虽能达到局部根治,却很难控制远处转移,事实上,局部复发与远处转移等均是衡量患者最终预后的重要指标。这一残酷数据提示着,我们必须通过精准诊断与术后辅助治疗来降低以上患者的术后复发率,从而达到根治性切除的目的。
4.现市面有基于多基因表达模式,通过肿瘤组织rna检测,i-iia期非鳞状nsclc患者复发风险评估产品,其对中,低,高风险区分人群差异小于本发明中基于蛋白水平模型结果。通过质谱技术进行肺癌一期复发风险模型构建,现无此方面产品,类似的技术有通过基因检测技术,进行疾病风险模型构建等。通过基因检测,转录检测等技术方法,均为中心法则中环节。


技术实现要素:

5.发明目的:为解决现有技术问题,本发明提供了一种肺癌复发风险评估方法,能够减少通过基因,转录间接预测的缺陷。
6.技术方案:为达到上述发明目的,本发明采用如下技术方案:
7.一种肺癌复发风险评估方法,包括以下步骤:
8.(1)数据预处理;将参考标品数据文件和质谱生成的数据文件导入软件,进行数据抽提;
9.(2)数据质控:判断检测误差是否符合范围、判断样本进样量是否达标和判断样本是否存在血污染;
10.(3)数据再次质控:对通过步骤(2)质控的数据,通过软件获得的离子信息强度数据再次进行数据质控;
11.(4)样品数据修正:对通过步骤(3)质控的数据,对通过的离子强度进行修正,构建修正后样品数据;
12.(5)蛋白数据矩阵构建:通过上述质控和修正得到样品离子信息,构建蛋白数据,通过复发与非复发分组信息,构建蛋白表达矩阵;
13.(6)模型构建:根据现有数据,随机抽取部分样品数据,进行各算法的分类模型训练构建,成功构建模型后,通过剩下的数据进行模型验证,评价模型效果,筛选最佳预测模型;
14.(7)阳性判断标准:通过构建的最佳预测模型,通过最佳roc条件,选取最佳区分阈值,对复发样品数据模型值进行映射在-1-0,对非复发样品数据值映射进0-1之间;对符合质控标准的检测样品进行检测分析后,如果检测值最终落入-1-0,则判断为阳性,反之则判断为阴性。
15.作为优选:
16.步骤(1)中,将参考标品数据文件和质谱生成的数据文件导入spectronaut软件,选取内部预置的swissprot_homo的fasta文件,选取预置数据库lungcancer_lib数据库,在settingscheama中使用名为umbrella的预置方法,开始数据抽提。
17.步骤(2)中,依据样本irt数据判断液相检测误差是否符合范围;依据ms1/ms2massaccuracy数据判断质谱检测误差是否符合范围;依据总tic强度、蛋白、肽段鉴定数判断样本进样量是否达标;依据蛋白、肽段鉴定数判断样本是否存在血污染。
18.步骤(3)中,通过spectronaut软件获得的离子信息强度数据再次进行数据质控:使用数据质控模块,过滤f.frglosstype类型不符合结果,去除f.massaccuracyppm》=10,或者f.massaccuracyppm《=-10,离子强度》=1500,通过上述条件的离子通过质控标准,否则该样品此离子信息去除。
19.步骤(4)中,对通过步骤(3)质控的数据,通过自有算法umbrella软件数据修正方法,对通过的离子强度进行修正,构建修正后样品数据。
20.步骤(5)中,通过质控和修正得到样品离子信息,保留一个肽下多于3条离子的肽段,并通过top3离子median强度代替肽段强度值,对一个蛋白下多于》=1条肽段信息,并通过top3肽段median强度做为最终代表该样品该蛋白的强度信息;以此方法构建的蛋白数据,通过复发与非复发分组信息,构建蛋白表达矩阵。
21.步骤(6)中,根据现有数据,随机抽取70%样品数据,复发与非复发根据比例都进行7:3分两组,70%样品数据进行各算法的分类模型训练构建,成功构建模型后,通过剩下30%的数据进行模型验证,评价模型效果,筛选最佳预测模型。
22.步骤(6)中,最佳预测模型为logistics回归算法构建的分类模型。
23.优选的,本发明提供的方法为肺癌一期复发风险评估方法。
24.虽然基因检测在临床已得到广泛应用,然而与人们的期望还有巨大的差距,究其原因可能是基因和疾病依然属于间接关系。我们知道细胞内蛋白质是生命的基础和功能执行者,蛋白质翻译后修饰使蛋白活性改变,才能发挥功能。基因要通过转录生成mrna、翻译(translation)成蛋白,再经过翻译后修饰、通过蛋白相互作用,形成复合体,才具有生物活性,调控和执行特定功能。因此,与蛋白相比,基因与疾病是一种间接的关系,蛋白与疾病的关系更直接。而肺癌领域也在近期迎来首个基于蛋白质组用于预测患者术后复发风险分层与术后辅助化疗获益的检测产品,其通过对早期肺癌患者术后组织中蛋白质组进行检测分析,实现患者的精准风险分层。有研究证实tnm(tnm分期系统是国际上最为通用的肿瘤分期系统。tnm分期系统中:1,t(“t”是肿瘤一词英文“tumor”的首字母)指肿瘤原发灶的情况,随着肿瘤体积的增加和邻近组织受累范围的增加,依次用t1~t4来表示;2,n(“n”是淋巴结一
词英文“node”的首字母)指区域淋巴结(regional lymph node)受累情况。淋巴结未受累时,用n0表示。随着淋巴结受累程度和范围的增加,依次用n1~n3表示;3,m(“m”是转移一词英文“metastasis”的首字母)指远处转移(通常是血道转移),没有远处转移者用m0表示,有远处转移者用m1表示。在此基础上,用tnm三个指标的组合(grouping)划出特定的分期(stage)。)评估为低复发风险的肺癌患者,经谱肺清分层,仍有约1/3的患者被定义为高风险。换言之,将肺癌tnm分期与分子生物学检测相结合,形成肿瘤tnmb(tnmb是在tnm分型的基础上增加了一些其它生物学手段进行联合分型,“b”指biology)分期极为必要。
25.有益效果:与现有技术相比,本发明方法检出率高,这是对早期肺癌患者进行术后风险分层的基础,现有研究数据显示,本发明能够对i期肺癌患者有较好的预后预测作用,相对于单独用nccn(美国国立综合癌症网络(national comprehensive cancer network),)分层或传统tnm分期,联合运用本模型风险分层能更准确地识别预后风险,够帮助临床医生更早地认识肿瘤状态,更早地进行临床干预,为患者带来更佳预后。
附图说明
26.图1为本发明肺癌复发风险评估方法流程图。
27.图2为本发明肺癌复发风险评估方法中的质控模块。
28.图3为本发明肺癌复发风险评估方法中的蛋白矩阵构建模块。
29.图4为本发明肺癌复发风险评估方法中的模型构建模块。
30.图5为本发明实施例中质谱raw文件数据的峰图信息。
31.图6为本发明实施例中irt数据判断。
32.图7为本发明实施例中ms1massaccuracy数据判断。
33.图8为本发明实施例中ms2 massaccuracy数据判断。
34.图9为本发明实施例中通过spectronaut软件获得的离子信息强度数据再次进行数据质控。
35.图10为本发明实施例中样品数据修正后的数据格式示意。
36.图11为本发明实施例中蛋白表达矩阵示意。
37.图12为350例肺癌一期样品构建的复发风险模型roc曲线图。
38.图13为150例肺癌一期样品构建的复发风险模型roc曲线图。
39.图14为通过本发明方法构建的模型,结合dfs(无病生存期)数据的生存曲线图。
具体实施方式
40.以下对本发明方案进行全面的描述,所述的实施案例是本发明中最优选实施方式,但本发明并不限于以下实施例。
41.实施例
42.1、数据预处理:将预置的10个参考标品.raw文件导入spectronaut软件,再将高效液相质谱生成的.raw文件导入spectronaut软件;选取内部预置的swissprot_homo的fasta文件,选取预置数据库lungcancer_lib数据库,在settingscheama中使用名为umbrella的预置方法,开始数据抽提;质谱raw文件采用特定软件打开后,数据如图5所示,为峰图信息。
43.2、数据质控:依据qcspreadlist进行数据质量分析;依据样本irt数据判断液相检
测误差是否符合范围;依据ms1/ms2 massaccuracy数据判断质谱检测误差是否符合范围;依据总tic强度、蛋白、肽段鉴定数判断样本进样量是否达标;依据蛋白、肽段鉴定数判断样本是否存在血污染;irt数据判断如图6所示;ms1massaccuracy数据判断如图7所示,ms2massaccuracy数据判断如图8所示。
44.3、通过spectronaut软件获得的离子信息强度数据再次进行数据质控:使用数据质控模块,过滤f.frglosstype类型不符合结果,去除f.massaccuracyppm》=10,或者f.massaccuracyppm《=-10,离子强度》=1500,通过上述条件的离子通过质控标准,否则该样品此离子信息去除。通过前面1,2处理后的数据格式示意如下进行过滤,如图9所示。
45.4、样品数据修正:通过自有算法umbrella软件数据修正方法,对通过的3种离子强度进行修正,构建修正后样品数据。修正后的数据格式示意如图10所示。
46.5、蛋白数据矩阵构建:通过上述质控得到样品离子信息,保留一个肽下多于3条离子的肽段,并通过top3离子median强度代替肽段强度值,对一个蛋白下多于》=1条肽段信息,并通过top3肽段median强度做为最终代表该样品该蛋白的强度信息。以此方法构建的蛋白数据,通过复发与非复发分组信息,构建蛋白表达矩阵。蛋白表达矩阵示意如图11所示。
47.6、模型构建:根据现有数据(500例肺癌一期样品复发与非复发蛋白表达矩阵),随机抽取70%样品数据(复发与非复发根据比例都进行7:3分两组),70%样品数据进行各算法的分类模型训练构建,成功构建模型后(roc曲线auc值》0.94),通过剩下30%的数据进行模型验证,评价模型效果(roc曲线auc值》0.90),经过各算法测试,其中logistics回归算法构建的分类模型效果最佳,为最后采用算法分析模型。
48.7、阳性判断标准:通过6构建的模型,通过最佳auc值条件,对复发样品数据模型值进行映射在-1-0,对非复发样品数据值映射进0-1之间。对符合质控标准的检测样品进行检测分析后,如果检测值最终落入-1-0,则判断为阳性,反之则判断为阴性。
49.【检验结果的解释】
50.检测结果分析判定方法如下:
51.1.阴性质控品(nc)的检测结果应为阴性,若其中有阳性检出,可能存在污染等问题。
52.2.阳性质控品(pc)的检测结果应为复发,对应阳性,如果未检出阳性结果,说明试剂盒性能不理想或操作过程有误,此次检测结果无效。
53.通过对肺癌一期质谱数据,按上述方法进行分析建模型,(具体实施方式中1-7步)。其中构建复发风险模型(350例),模型roc曲线下面积值(auc)为0.94,如图12所示,模型区分效果优秀,构建模型成功。
54.通过剩下150例肺癌一期样品进行模型验证,模型roc曲线下面积值(auc)为0.90,如图13所示,验证模型区分效果优秀,验证模型成功。
55.通过此模型进行肺癌一期复发风险评估,结合dfs(无病生存期)数据进行生存曲线分析。如图14所示,经模型预测的,上方曲线为低风险,下方曲线为高风险,通过预测分型的低风险与高风险在dfs上存在显著差异,区分效果明显,对于肺癌一期复发与否及时指导临床治疗具体显著获益价值。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1