1.本发明涉及医疗诊断领域,并具体涉及蛋白质组学和机器学习,专注于对未成年人甲状腺癌的预后风险进行预测和分层。
背景技术:2.在儿童人群中,甲状腺乳头状癌是内分泌系统中最为常见的恶性肿瘤,发病率平均每年增长约4.4%。大约有1.8%的甲状腺癌发生在儿童和青少年,其中甲状腺乳头状甲状腺癌占全部甲状腺癌的90%以上。
3.从临床实践中发现,儿童与青少年甲状腺癌与成人甲状腺癌的发病特点不尽相同。从发病率来看,约5%的成人甲状腺结节为恶性肿瘤。然而,在儿童与青少年人群中,虽然甲状腺结节的发生率不高,但其恶性率高达26%,同时疾病表现也更严重。从临床表现来看,约78%的儿童与青少年甲状腺癌患者在诊断时即出现了淋巴结转移,该数字远多于成人的淋巴结转移比例(约40%),远处转移率更是将近6%,临床治疗难度很大。
4.目前已有的儿童分化型甲状腺癌指南中,对于个体化的诊断、治疗及预后评估方式尚存在许多争议,比如并未像成人指南那样将患者按不同的年龄进行危险分层并给出个体化的治疗方案,而是所有患者采取同样的治疗策略。儿童甲状腺乳头状癌高复发率的危险因素尚未明确,目前缺少有效的方法来准确地判断预后,来对这部分患者进行高低风险分层。这会使一些复发风险较低的儿童患者得到过于激进的手术切除范围,增加并发症风险,另一方面,使复发风险高危的患者不能够获得足够的重视,容易造成术前的评估以及术后的监测不足。
5.目前仅有的对于儿童甲状腺乳头状癌在分子水平的研究大多局限在基因水平,且基本上是对于病因以及良恶性诊断方面的发现,缺少对于预后情况个性化评估的研究。与成人甲状腺乳头状癌相比,儿童甲状腺乳头状癌的特点是基因重排发生率较高,与甲状腺乳头状癌有关的原癌基因点突变频率较低。braf突变在儿童甲状腺乳头状癌中很少见,相反,ret/ptc基因重排以及基因融合在儿童甲状腺乳头状癌中更常见。这些差异可能会影响基因检测在儿童甲状腺恶性肿瘤诊断中的效能。并且由于甲状腺癌基因固有的局限——突变少,因此通过基因对预后评估具有局限性。相比于基因,蛋白直接组成了表型,是生命活动的直接体现者,对于疾病的预后评估更具价值。然而,关于儿童甲状腺结节蛋白分子层面改变的研究目前仍处空白。
6.标记定量蛋白质组学方法,如tmt(tandem mass tag)标记可以深度定量检测样本中的蛋白表达,同时,可以高通量地一次性处理6-16个样本,对于从大量样本中定量数千至上万个蛋白具有显著优势。
技术实现要素:7.本发明通过分析18岁及以下儿童甲状腺乳头状癌蛋白质组表达特点,结合随机生
存森林模型,找到一种新的19个蛋白质的组合,可以对儿童甲状腺癌进行预后风险分层,能够辅助临床医生对治疗及预后随访方案进行个性化的指导,从而一定程度上缓解了临床上对儿童乳头状甲状腺癌缺乏个性化诊断与治疗的问题。
8.本发明通过如下方式获得:1. 数据产生方法首先获取儿童良性甲状腺结节和儿童乳头状甲状腺癌的样本队列,同时获取甲状腺癌的预后随访数据及组织样本,将样本用压力循环系统处理后,通过tmt标记定量方法进行高通量样本制备,随后通过数据依赖性质谱采集技术获取质谱数据,最后通过proteome discoverer软件对获取到的原始质谱数据进行解谱分析,得到样本中蛋白质组定量信息结果。
9.2.数据预处理方法对于搜库软件产生的蛋白质矩阵,首先移除缺失率超过85%蛋白,然后使用r软件程序包naguider中的鲁棒序列填充法进行缺失值填充,最后采用r软件程序包sva中的combat算法进行批次效应的校正。
10.3.预后预测模型构建及特征选择方法首先,将儿童乳头状甲状腺癌的样本随机分为训练集和测试集,然后,基于儿童良性结节和儿童乳头状甲状腺癌的差异蛋白,构建随机生存森林模型,在训练集上通过三折交叉验证和网格搜索进行参数调优,并进行特征选择和模型训练,然后计算模型的在训练集和测试集上的一致性指数及其在训练集上三折交叉验证的一致性指数,来确保模型具有好的预测效果。其中,特征选择方法以儿童良性甲状腺结节和儿童乳头状甲状腺癌样本的差异蛋白为候选蛋白,以100种不同的随机初始状态,每次用训练集对模型进行训练,并根据置换方法对特征进行排序,选出排名前50的特征,统计这100次运行中每种特征出现的次数,最后只留下出现次数大于等于50次的蛋白。
11.4.儿童乳头状甲状腺癌预后分层方法首先,基于最终的随机生存森林模型,可以个性化地预测每个患者的预后生存曲线;然后,根据每个患者的预后生存曲线,可以计算出连续风险排序得分,该风险得分越高,风险越大;接着根据训练集中复发和不复发两组的风险得分,可以通过费舍尔判别分析确定决策边界,将训练集的样本分为高风险和低风险两层;最后,对于新的患者样本,就可以根据该模型对该患者的打分及决策边界来确定其属于高风险组还是低风险组,从而优化个体化的治疗方案以及预后的评估。
12.因此,在一个方面,本发明提供一种蛋白组合在制备用于对儿童甲状腺癌进行预后分层的试剂盒中的用途,所述蛋白组合由以下组成:"q8tbf5_pigx"、"p10645_chga"、"p12111_col6a3"、"q08495_dmtn"、"q99972_myoc"、"l0r819_asdurf"、"o00584_rnaset2"、"q86y22_col23a1"、"p13612_itga4"、"q96rp7_gal3st4"、"q4g0x9_ccdc40"、"q96jy6_pdlim2"、"p23378_gldc"、"q9bxj5_c1qtnf2"、"p17931_lgals3"、"q96f24_nrbf2"、"q9y4z0_lsm4"、"q9nq79_crtac1"和"q96an5_tmem143",其中所述试剂盒含有检测所述蛋白组合的相对表达量的试剂。
13.在一个实施方案中,所述蛋白组合的相对表达量通过质谱进行检测。
14.在另一个实施方案中,所述蛋白组合的相对表达量通过串联质谱标签标记定量技
术进行检测。
15.在又一个实施方案中,所述评估包括将所述蛋白组合的相对表达量通过串联质谱标签标记定量技术标记定量检测而获得的数据输入随机生存森林模型,输出生存曲线和/或儿童甲状腺癌的预后分层结果,即属于高风险组或低风险组。
16.在另一方面,本发明提供一种试剂盒,其包含蛋白组合,所述蛋白组合由以下组成:"q8tbf5_pigx"、"p10645_chga"、"p12111_col6a3"、"q08495_dmtn"、"q99972_myoc"、"l0r819_asdurf"、"o00584_rnaset2"、"q86y22_col23a1"、"p13612_itga4"、"q96rp7_gal3st4"、"q4g0x9_ccdc40"、"q96jy6_pdlim2"、"p23378_gldc"、"q9bxj5_c1qtnf2"、"p17931_lgals3"、"q96f24_nrbf2"、"q9y4z0_lsm4"、"q9nq79_crtac1"和"q96an5_tmem143"。本发明的试剂盒可包含但不限于检测上述蛋白组合中蛋白质含量的重标同位素肽段(质控肽和/或校准肽)。
17.在又一个方面,本发明提供一种对儿童甲状腺癌进行预后分层的模型的构建方法,包括:以儿童良性甲状腺结节和儿童乳头状甲状腺癌中的蛋白组合的相对表达量以及甲状腺癌的预后随访数据作为训练样本训练机器学习模型获得所述模型,其中所述蛋白组合由以下组成:"q8tbf5_pigx"、"p10645_chga"、"p12111_col6a3"、"q08495_dmtn"、"q99972_myoc"、"l0r819_asdurf"、"o00584_rnaset2"、"q86y22_col23a1"、"p13612_itga4"、"q96rp7_gal3st4"、"q4g0x9_ccdc40"、"q96jy6_pdlim2"、"p23378_gldc"、"q9bxj5_c1qtnf2"、"p17931_lgals3"、"q96f24_nrbf2"、"q9y4z0_lsm4"、"q9nq79_crtac1"和"q96an5_tmem143"。
18.在一个实施方案中,所述模型以随机生存森林算法构建获得。
19.在另一个方面,本发明提供一种对儿童甲状腺癌进行预后分层的系统,其包括检测蛋白组合的相对表达量的物质,以及数据处理装置和输出装置,其中所述蛋白组合由以下组成:"q8tbf5_pigx"、"p10645_chga"、"p12111_col6a3"、"q08495_dmtn"、"q99972_myoc"、"l0r819_asdurf"、"o00584_rnaset2"、"q86y22_col23a1"、"p13612_itga4"、"q96rp7_gal3st4"、"q4g0x9_ccdc40"、"q96jy6_pdlim2"、"p23378_gldc"、"q9bxj5_c1qtnf2"、"p17931_lgals3"、"q96f24_nrbf2"、"q9y4z0_lsm4"、"q9nq79_crtac1"和"q96an5_tmem143"。
20.在一个实施方案中,所述数据处理装置包括评估模块,所述评估模块包括随机生存森林模型。
21.在又一个实施方案中,将所述蛋白组合的相对表达量数据输入随机生存森林模型进行处理,所述输出装置输出生存曲线和/或儿童甲状腺癌的预后分层结果属于高风险组或低风险组。
22.本发明以基于随机生存森林和差异蛋白的独特的特征选择方式,选出了新的19个特定蛋白的组合("q8tbf5_pigx"、"p10645_chga"、"p12111_col6a3"、"q08495_dmtn"、"q99972_myoc"、"l0r819_asdurf"、"o00584_rnaset2"、"q86y22_col23a1"、"p13612_itga4"、"q96rp7_gal3st4"、"q4g0x9_ccdc40"、"q96jy6_pdlim2"、"p23378_gldc"、"q9bxj5_c1qtnf2"、"p17931_lgals3"、"q96f24_nrbf2"、"q9y4z0_lsm4"、"q9nq79_crtac1"和"q96an5_tmem143",其中“_”前的字符为蛋白的uniprot accession id,“_”后的字符为蛋白的基因名),其中仅有6个被相关文献报道与甲状腺癌或甲状腺功能有关,另外13个则
是本技术新发现的与甲状腺癌相关的蛋白(如表1所示),根据这些蛋白的蛋白质组数据,结合随机生存森林模型,可以对儿童(≤18岁)甲状腺乳头状甲状腺癌预后情况进行预测和分层,从而在临床上对治疗及预后随访策略进行个性化辅助与指导。
23.本发明可以根据儿童青少年手术切除后的甲状腺乳头状甲状腺癌组织样本的tmt蛋白质组数据,结合随机生存森林模型,仅需19个蛋白,可以以0.85的一致性指数,对患者术后的复发情况进行预测,不但可以给出每个患者个性化的生存曲线,还可以根据模型对患者预后复发风险进行分层,分为高风险和低风险两组,从而个性化地辅助临床术后治疗方案的制定。
附图说明
24.图1是随机生存森林模型预测的某一儿童甲状腺乳头状甲状腺癌患者的生存曲线。
25.图2是决策边界确定。
26.图3是模型在训练集上分层的效果。
27.图4是模型在测试集上分层的效果。
28.图5是本发明的流程图。
具体实施方式
29.以下实施方案仅用于示例性说明本发明的技术方案,其不应用来限制本发明的保护范围。
30.除非另外明确指明或限制,否则本技术的实施方案中所用的技术手段均为本领域技术人员所熟知的常规技术手段,本技术的实施方案中所使用的材料和/或装置、设备、仪器、试剂、耗材等均为市售可得。
31.1.数据产生方法首先将手术切除后的甲状腺结节组织样本,将样本用压力循环系统处理后,通过tmt标记定量方法进行高通量样本制备,随后通过数据依赖性质谱采集技术获取质谱数据,最后通过proteome discoverer软件对获取到的原始质谱数据进行解谱分析,得到样本中蛋白质组定量信息结果。
32.2.数据预处理方法对于搜库后产生的蛋白质矩阵,首先对蛋白进行缺失值评估,即通过蛋白的缺失率,对不同蛋白缺失率阈值进行分析,确定缺失率阈值并移除高缺失率蛋白,使得矩阵总体缺失率小于20%。然后进行缺失值填充,使用r包naguider中的鲁棒序列填充法进行填充,最后进行批次效应的校正,采用r包sva中的combat算法进行校正,完成缺失值填充后,蛋白质矩阵中出现了一些非正值,把这些值用其对应蛋白正表达值的0.5倍最小值的进行了替换,对完成校正后的矩阵也进行同样的操作。
33.3.预后预测模型构建及蛋白特征选择方法首先将儿童乳头状甲状腺癌的样本随机分为训练集和测试集,训练集将用来构建模型,包括模型参数调优、特征选择与模型训练,测试集将用来评估模型的泛化能力。构建的模型是基于蛋白特征的随机生存森林模型,通过三折交叉验证和网格搜索进行参数调
优,并用训练集进行特征选择和模型训练,然后计算模型的在训练集和测试集上的一致性指数及其在训练集上三折交叉验证一致性指数。特征选择方法具体如下所述:基于调好参数的模型,以儿童良性甲状腺结节和儿童乳头状甲状腺癌样本的差异蛋白(以1.2倍差异倍数及t检验bh法校正p值0.05为阈值)为候选蛋白,以100种不同的随机初始状态,每次用训练集对模型进行训练,并根据置换方法对特征进行排序,选出排名前50的特征,统计这100次运行中每种特征出现的次数,最后只留下出现次数大于等于50次的蛋白,并更新随机生存森林相关参数,即将每个决策树的随机选择的特征数目更新为根号下当前变量数向下取整得到的数值。
34.4.儿童乳头状甲状腺癌预后分层方法首先,基于最终的随机生存森林模型,可以个性化地预测每个患者的预后生存曲线;然后,根据每个患者的预后生存曲线,可以计算出其对应的数学期望,作为对预后风险的打分,称为连续风险排序得分,该风险得分越高风险越大,接着根据训练集中复发和不复发两组的风险得分,可以通过费舍尔判别分析确定决策边界,将训练集的样本分为高风险和低风险两层;最后,对于新的患者样本,就可以根据该模型对该患者的打分及决策边界来确定其属于高风险组还是低风险组,从而优化个体化的治疗方案以及预后的评估。
实施例
35.实施例1——样本纳入。
36.纳入2007年11月至2021年4月在中国医科大学附属第一医院甲状腺外科接受手术的儿童(年龄≤18岁) 儿童乳头状甲状腺癌和儿童良性甲状腺结节患者。排除标准如下:(1)有辐射暴露史或家族史;(2)高侵袭性病亚型,如高细胞、柱状和低分化儿童乳头状甲状腺癌;(3)失访或临床资料不全者;(4)非初次手术。最终共纳入85例儿童乳头状甲状腺癌患者和83例儿童良性甲状腺结节患者。
37.单侧ptc行甲状腺腺叶切除术和同侧中央淋巴结清扫术。甲状腺外侵犯者,如侵及神经、血管和气管等,则行全甲状腺切除术。双侧ptc患者行全甲状腺切除术及双侧中央淋巴结清扫术。术后治疗包括促甲状腺激素抑制治疗和放射性碘治疗。这项研究得到了中国医科大学附属第一医院以及本研究单位的伦理委员会的批准。
38.术后每3到6个月随访一次,包括复查颈部超声及甲状腺功能检查。对于超声或ct阴性、血清甲状腺球蛋白水平低或术后未见疾病持续的患者,复查的间隔时间可适当延长。疾病缓解定义为连续两次全身扫描和超声检查均为阴性,且甲状腺球蛋白及抗甲状腺球蛋白抗体达到理想范围。当超声或ct扫描发现复发迹象,或甲状腺球蛋白水平和/或全身扫描呈阳性时考虑复发。如复发,预后时间记录为术后到复发的时间间隔,若未复发,预后时间记录为术后到最后一次随访的时间间隔,作为右删失数据。
39.实施例2——蛋白质组学数据获取及预处理。
40.对83个儿童良性样本和85个儿童恶性样本进行石蜡切片,每个患者取1张切片进行蛋白质组学样本制备。石蜡切片利用100%庚烷、100%乙醇、90%乙醇、75%乙醇依次洗涤,每次5分钟,进行脱蜡和水化过程。脱蜡后的样本加入ph=10的tris碱溶液,在95℃下反应30分钟。而后,加入尿素、硫脲、还原剂、烷基化试剂,通过压力循环系统,以高压-低压交替循环,即45000 p.s.i.压力下,反应50秒,常压下,反应10秒,循环操作90次。裂解完成后,通过胰
蛋白酶和lysc酶进行蛋白酶切,获取的酶切肽段通过c18进行除盐,随后通过tmt试剂进行标记。标记后的样本,采用反向高效液相色谱法进行分馏,在60 min梯度下,分馏获取30个馏分,每个馏分通过高分辨质谱进行数据依赖采集。采集获取的质谱数据,使用proteome discoverer进行蛋白鉴定与定量,本部分样本共计鉴定和定量到10426个蛋白质。
41.随后删除了1272个(占12.2%)缺失率大于85%的蛋白质,从而使得整个蛋白质矩阵的总体缺失率小于20%,共剩余9154个蛋白质,然后通过r包naguider中的鲁棒序列填充法进行缺失值填充及r包sva中的combat方法进行批次校正,完成缺失值填充后,蛋白质矩阵中出现了一些非正值,把这些值用其对应蛋白正表达值的0.5倍最小值的进行了替换,对完成校正后的矩阵也进行同样的操作。
42.实施例3——蛋白质表达差异分析。
43.为了进一步缩小候选蛋白池,在儿童良性样本和恶性样本两组之间进行了差异分析。在benjamini-hochberg(bh)校正t检验p值<0.05与差异倍数大于1.2倍作为筛选条件下,共获得1548个差异蛋白。
44.实施例4——预后预测模型构建。
45.首先将儿童乳头状甲状腺癌的样本随机分为训练集(50个样本,约占60%)和测试集(35个样本,约占40%),训练集将用来构建模型,包括模型参数调优、特征选择与模型训练,测试集将用来评估模型的泛化能力。构建的模型是基于蛋白特征的随机生存森林模型,通过三折交叉验证和网格搜索进行参数调优,并用训练集进行特征选择和模型训练,然后计算模型的在训练集和测试集上的一致性指数及其在训练集上三折交叉验证一致性指数,其中训练一致性指数达到0.996,三折交叉验证一致性指数达到0.969,测试一致性指数达到0.849。特征选择方法具体如下所述:基于调好参数的模型,以儿童良性甲状腺结节和儿童乳头状甲状腺癌样本的1548个差异蛋白为候选蛋白,以100种不同的随机初始状态,每次用训练集对模型进行训练,并根据置换方法对特征进行排序,选出排名前50的特征,统计这100次运行中每种特征出现的次数,最后只留下出现次数大于等于50次的蛋白,最后共19个蛋白,分别为"q8tbf5_pigx"、"p10645_chga"、"p12111_col6a3"、"q08495_dmtn"、"q99972_myoc"、"l0r819_asdurf"、"o00584_rnaset2"、"q86y22_col23a1"、"p13612_itga4"、"q96rp7_gal3st4"、"q4g0x9_ccdc40"、"q96jy6_pdlim2"、"p23378_gldc"、"q9bxj5_c1qtnf2"、"p17931_lgals3"、"q96f24_nrbf2"、"q9y4z0_lsm4"、"q9nq79_crtac1"和"q96an5_tmem143",并更新随机生存森林相关参数,将每个决策树的随机选择的特征数目更新为根号下当前变量数向下取整得到的数值,即为4。
46.表1:19个蛋白的文献总结表蛋白名
ꢀꢀꢀꢀꢀꢀꢀ
基因名
ꢀꢀꢀꢀꢀꢀ
甲状腺癌相关蛋白
ꢀꢀꢀꢀ
甲状腺功能相关蛋白p10654
ꢀꢀꢀꢀꢀꢀꢀ
chga
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
是
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
q86y22
ꢀꢀꢀꢀꢀꢀꢀ
col23a1
ꢀꢀꢀꢀꢀꢀ
是
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
p12111
ꢀꢀꢀꢀꢀꢀꢀ
col6a3
ꢀꢀꢀꢀꢀꢀꢀ
是
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
p13612
ꢀꢀꢀꢀꢀꢀꢀ
itga4
ꢀꢀꢀꢀꢀꢀꢀꢀ
是
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
p17931
ꢀꢀꢀꢀꢀꢀꢀ
lgals3
ꢀꢀꢀꢀꢀꢀꢀ
是
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
q99972
ꢀꢀꢀꢀꢀꢀꢀ
myoc
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
是q08495
ꢀꢀꢀꢀꢀꢀꢀ
dmtn
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
q8tbf5
ꢀꢀꢀꢀꢀꢀꢀ
pigx
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
o00584
ꢀꢀꢀꢀꢀꢀꢀ
rnaset2
ꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
q96rp7
ꢀꢀꢀꢀꢀꢀꢀ
gal3st4
ꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
q4g0x9
ꢀꢀꢀꢀꢀꢀꢀ
ccdc40
ꢀꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
q96jy6
ꢀꢀꢀꢀꢀꢀꢀ
pdlim2
ꢀꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
p23378
ꢀꢀꢀꢀꢀꢀꢀ
gldc
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
q9bxj5
ꢀꢀꢀꢀꢀꢀꢀ
c1qtnf2
ꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
q96f24
ꢀꢀꢀꢀꢀꢀꢀ
nrbf2
ꢀꢀꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
q9y4z0
ꢀꢀꢀꢀꢀꢀꢀ
lsm4
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
l0r819
ꢀꢀꢀꢀꢀꢀꢀ
asdurf
ꢀꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
q9nq79
ꢀꢀꢀꢀꢀꢀꢀ
crtac1
ꢀꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
q96an5
ꢀꢀꢀꢀꢀꢀꢀ
tmem143
ꢀꢀꢀꢀꢀꢀ‑ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑
47.实施例5——儿童乳头状甲状腺癌的预后分层。
48.首先,基于最终的随机生存森林模型,可以个性化地预测每个患者的预后生存曲线,如图1为例;然后,根据每个患者的预后生存曲线,可以计算出其对应的数学期望,作为对预后风险的打分,称为连续风险排序得分,该风险得分越高风险越大,接着根据训练集中复发和不复发两组的风险得分,可以通过费舍尔判别分析确定决策边界,将训练集的样本分为高低风险两层,如图2,其中费舍尔决策边界:-92.36,并比较其生存曲线的差异,如图3;最后,对于新的患者样本,就可以根据该模型对该患者的打分及决策边界来确定其属于高风险组还是低风险组,从而优化个体化的治疗方案以及预后的评估,在测试集上的效果如图4所示。
49.在构建完模型后,对一批新的队列(共85例)进行了测试,其中有67个人被预测为了低风险,这些人之中只有2例出现复发,且复发时间分别为104和116,远超正常的复发时间;有18个人被预测为高风险,其中有10例出现了复发,有8例未复发,主要是由于这8例患者随访时间较短,还未出现复发现象,这八例样本的预后情况非常值得继续关注,总之,这些数据反映了模型打分的准确性。
50.虽然本技术在上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本技术公开内容的基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明保护的范围。