一种生物标志物组合及其在预测子宫内膜癌患者预后方面的应用的制作方法

文档序号:28060962发布日期:2021-12-17 23:06阅读:265来源:国知局
一种生物标志物组合及其在预测子宫内膜癌患者预后方面的应用的制作方法

1.本发明涉及基因技术和生物医学领域,具体涉及一种生物标志物组合、检测其的试剂、包含所述生物标志物组合和/或所述试剂的试剂盒、所述试剂和/或试剂盒在制备评估子宫内膜癌患者预后的诊断产品中的应用,还涉及建立评估子宫内膜癌患者预后风险模型的方法和装置,用于评估子宫内膜癌患者预后风险的系统和方法、包含其的计算机可读存储介质和电子设备,以及lncrp1

63m2.7和/或lncctb

186g2.1在制备用于评估子宫内膜癌患者预后的制剂中的应用。


背景技术:

2.子宫内膜癌(endometrial carcinoma,ec)是女性生殖系统最常见的三大恶性肿瘤之一,约占女性生殖系统恶性肿瘤的20%~30%,占女性全身恶性肿瘤的7%。子宫内膜癌常发生于围绝经期和绝经后妇女,其发病率随着时间的推移而增加。目前,它在发展中社会妇科癌症中发病率排名第二,紧随宫颈癌。尽管大多数子宫内膜癌患者的预后良好,但晚期或转移性疾病因其病情扩散、分化差,预后较差。因此,新型生物标志物和治疗靶标的出现,对于提高子宫内膜癌患者生存率至关重要。对ec相关疾病数据进行系统的生物信息学手段分析,可以快速发现肿瘤差异表达基因并通过进一步分析寻找到疾病发生可能的分子靶标。
3.长链非编码rna(long non

coding rna,lncrna)是一类长度大于200个核苷酸的非编码rna,作为最广泛和最异质的不编码蛋白质的rna类型,lncrna广泛参与了细胞增殖、周期调控、凋亡分化及表观遗传等生物学过程,可在转录、转录后与表观遗传学等水平调节靶基因表达。近年研究发现在多种类型恶性肿瘤中lncrna的表达存在失调现象,提示lncrna在其中发挥致癌或抑癌作用。诸多证据表明lncrna在子宫内膜癌的病理过程中发挥着重要的调控作用,并与生存率以及患者的预后密切相关。目前多数研究注重于单一分子在子宫内膜癌恶性转化中的作用机制及其作为肿瘤标志物的临床价值。然而,子宫内膜癌的演进是由多基因经多种方式调控,单个分子对患者预后的预测能力较为有限,如何发现并整合与子宫内膜癌预后密切相关的多个lncrnas,对子宫内膜癌患者预后进行精准判定,以便选择最佳治疗方案,显著提高患者生存率,现已成为临床亟待解决的难题。
4.应用生物信息学对lncrna和疾病关联数据进行大规模系统分析,可更为宏观、立体化地探索lncrna和疾病的规律,阐明疾病相关lncrna生物学特性,发现新的疾病生物标记物和药物靶标。癌症基因组图谱(the cancer genome atlas,tcga)是通过大规模高通量基因组测序和芯片技术绘制人类肿瘤的基因组图谱,旨在探索肿瘤发生发展的潜在分子机制,提高人类诊断、治疗和预防肿瘤的能力。目前,数据库包括详细的临床数据、基因组突变数据、转录组数据、lncrnas测序数据等。随着人类基因组计划的完成和生物信息学的迅速发展,对这些数据库资源中相关的肿瘤数据进行搜索、处理和分析,有助于为筛选肿瘤相关lncrna提供一个方便、快捷的途径,为寻找肿瘤新型标志物提供了新的思路,为后续实验奠
定基础。
5.有报道(胡云双,张颖,曾海平.基于生物信息学筛选子宫内膜癌预后相关的lncrnas分子标签[j].温州医科大学学报,2021,51(05):381

388.)公开了纳入13条与子宫内膜癌预后显著相关的差异lncrnas并以它们作为分子标签构建lncrnas风险评分模型,其训练集子宫内膜癌患者3、5年总生存率auc分别为0.868、0.864;测试集子宫内膜癌患者3、5年总生存率auc分别为0.757、0.730。专利cn112831567a保护了3条lncrnas组合,但未有该3条lncrnas组合的auc,实施例中使用了8条lncrnas,其auc才达到0.706;且该专利在第一步“明确tcga数据库中所有子宫内膜癌患者差异表达的lncrnas”中,是将数据库中所有子宫内膜癌肿瘤样本(548例)与35例正常/癌旁样本进行比较而得出的差异基因,存在两个潜在问题:(1)没有样本入组及剔除标准;(2)癌与癌旁不是一一对应的,不同病人样本间本身可能存在差异,进而影响结果准确性。


技术实现要素:

[0006]
针对现有技术中,子宫内膜癌相关的lncrnas风险评估模型所涉及的lncrnas数量过多,且auc不高,难以较为便捷地准确评估子宫内膜癌风险的缺陷,本发明提供了一种生物标志物组合、检测其的试剂、包含所述生物标志物组合和/或所述试剂的试剂盒、所述试剂和/或试剂盒在制备评估子宫内膜癌患者预后的诊断产品中的应用,还提供了建立评估子宫内膜癌患者预后风险模型的方法和装置、用于评估子宫内膜癌患者预后风险的系统和方法、包含其的计算机可读存储介质和电子设备,以及lncrp1

63m2.7和/或lncctb

186g2.1在制备用于评估子宫内膜癌患者预后的制剂中的应用。本发明所述生物标志物组合最少仅需包括3中lncrnas便可达到较高的auc,具有较高的预测准确性。
[0007]
为解决上述技术问题,本发明提供的技术方案之一为:一种生物标志物组合,所述生物标志物组合包括以下3种lncrnas标志物:lncrp1

63m2.7、lnccdkn2a

as1和lncctb

186g2.1。
[0008]
较佳地,所述生物标志物组合由lncrp1

63m2.7、lnccdkn2a

as1和lncctb

186g2.1组成。
[0009]
在本发明一具体实施方案中,所述生物标志物组合来源于子宫内膜癌患者的癌组织样本。
[0010]
为解决上述技术问题,本发明提供的技术方案之二为:一种用于检测如技术方案之一所述的生物标志物组合的表达水平的试剂,所述试剂包括分别或同时与lncrp1

63m2.7、lnccdkn2a

as1和lncctb

186g2.1特异性杂交的生物分子,所述生物分子例如引物、探针和/或抗体等。
[0011]
为解决上述技术问题,本发明提供的技术方案之三为:一种试剂盒,包括如技术方案之一所述的生物标志物组合和/或如技术方案之二所述的试剂。
[0012]
为解决上述技术问题,本发明提供的技术方案之四为:如技术方案之二所述的试剂和/或如技术方案之三所述的试剂盒在制备评估子宫内膜癌患者预后的诊断产品中的应用。
[0013]
为解决上述技术问题,本发明提供的技术方案之五为:一种建立评估子宫内膜癌患者预后风险模型的方法,所述方法包括如下步骤:
[0014]
s1数据分割步骤:在r软件survival包中输入子宫内膜癌患者的数据,所述数据包括如技术方案之一所述的生物标志物组合的表达量数据,任选一部分子宫内膜癌患者的数据作为训练集;
[0015]
s2构建模型步骤:对训练集采用所述r软件survival包运行多因素cox风险回归分析,进行lncrnas的预后风险评分,设定risk score=(β1
×
表达量
lncrp1

63m2.7
)+(β2
×
表达量
lnccdkn2a

as1
)+(β3
×
表达量
lncctb

186g2.1
);其中,所述lncrp1

63m2.7、lnccdkn2a

as1和lncctb

186g2.1的表达量分别用表达量
lncrp1

63m2.7
、表达量
lnccdkn2a

as1
和表达量
lncctb

186g2.1
表示,β1、β2和β3分别是指lncrp1

63m2.7、lnccdkn2a

as1和lncctb

186g2.1在上述r软件survival包中的回归系数。
[0016]
在本发明一较佳实施方案中,所述子宫内膜癌患者的入选标准为:(1)患者临床信息完整;(2)患者总生存时间或随访时间大于30天。临床信息不完整例如缺少临床分期、病理分级、年龄、生存时间、随访时间和生存状态等信息。
[0017]
更佳地,所述方法还包括s3优化模型步骤:重复步骤s1

s2,根据所述risk score公式,计算所述训练集每个患者的risk score值,以所有训练集患者risk score值的中位值为分割点,将训练集患者分为高risk score值组和低risk score值组,绘制roc曲线,并计算roc曲线下面积(auc值),例如3年和/或5年生存时间的auc值;选择auc>0.7、优选auc>0.8对应的risk score公式作为评估子宫内膜癌患者预后风险模型。
[0018]
在本发明一具体实施方案中,所述方法还包括s4模型验证步骤:在得到s2或s3所述risk score公式后,利用剩余不同于训练集的子宫内膜癌患者数据作为测试集来计算各患者的所述risk score值,以所述测试集中患者risk score的中位值为阈值将测试集内子宫内膜癌患者分为两组,risk score高于阈值的子宫内膜癌患者为高风险组,risk score小于等于阈值的子宫内膜癌患者为低风险组,采用所述r软件中kaplan

meier生存曲线分析对比两组间患者的生存时间和生存状态是否具有统计学显著性差异。
[0019]
根据验证结果,还可以进行上述s3优化模型步骤;换言之,s3优化模型步骤可以在s4模型验证步骤之前和/或之后。
[0020]
为解决上述技术问题,本发明提供的技术方案之六为:一种用于建立评估子宫内膜癌患者预后风险模型的装置,所述装置包括:
[0021]
数据分割模块,用于在r软件survival包中输入子宫内膜癌患者的数据,所述数据包括如技术方案之一所述的生物标志物组合的表达量数据,任选一部分子宫内膜癌患者数据作为训练集;及
[0022]
构建模型模块,用于对所述训练集采用所述r软件survival包运行多因素cox风险回归分析,进行lncrnas的预后风险评分,设定risk score=(β1
×
表达量
lncrp1

63m2.7
)+(β2
×
表达量
lnccdkn2a

as1
)+(β3
×
表达量
lncctb

186g2.1
);其中,所述lncrp1

63m2.7、lnccdkn2a

as1和lncctb

186g2.1的表达量分别用表达量
lncrp1

63m2.7
、表达量
lnccdkn2a

as1
和表达量
lncctb

186g2.1
表示;β1、β2和β3分别是指lncrp1

63m2.7、lnccdkn2a

as1和lncctb

186g2.1在上述r软件survival包中的回归系数;
[0023]
在本发明一较佳实施方案中,所述子宫内膜癌患者的入选标准为:(1)患者临床信息完整;(2)患者总生存时间或随访时间大于30天。临床信息不完整例如缺少临床分期、病理分级、年龄、生存时间、随访时间和生存状态等信息。
[0024]
更佳地,所述装置还包括优化模型模块:用于所述数据分割模块中任选另一部分子宫内膜癌患者作为另一训练集,根据对应的构建模型模块中所述risk score公式,计算所述另一训练集每个患者的risk score值,以所有另一训练集患者risk score值的中位值为分割点,将另一训练集患者分为高risk score值组和低risk score值组,绘制roc曲线,并计算roc曲线下面积(auc值),例如3年和/或5年生存时间的auc值;选择auc>0.7、优选auc>0.8对应的risk score公式作为评估子宫内膜癌患者预后风险模型。
[0025]
在本发明一具体实施方案中,所述系统还包括模型验证模块:用于根据所述构建模型模块或优化模型模块中的所述risk score公式,利用剩余不同于训练集的子宫内膜癌患者的数据作为测试集来计算各患者的所述risk score值,以所述测试集中患者risk score的中位值为阈值将测试集内子宫内膜癌患者分为两组,risk score高于阈值的子宫内膜癌患者为高风险组,risk score小于等于阈值的子宫内膜癌患者为低风险组,采用所述r软件中kaplan

meier生存曲线分析对比两组间患者的生存时间和生存状态是否具有统计学显著性差异。
[0026]
为解决上述技术问题,本发明提供的技术方案之七为:一种用于评估子宫内膜癌患者预后风险的系统,所述系统包括:
[0027]
数据处理模块,用于将接收或输入所述子宫内膜癌患者的技术方案之一所述的生物标志物组合的表达量数据,代入如技术方案之六所述的装置确定的评估子宫内膜癌患者预后风险模型,即risk score公式进行计算,得到计算结果;以及
[0028]
判断并输出模块,用于判断所述的计算结果是否符合预设的判断条件,以预测子宫内膜癌预后风险,并输出预测结果;
[0029]
其中,在所述判断并输出模块中,当所述计算结果满足所述判断条件时,输出预测结果为“子宫内膜癌预后高风险”,当所述计算结果不满足所述判断条件时,输出预测结果为“子宫内膜癌预后低风险”;所述判断条件为计算结果值是否大于训练集中所有患者risk score的中位值。
[0030]
较佳地,所述β1的值为0.012、β2的值为0.057、β3的值为

0.036,所述risk score公式为:risk score=(0.012
×
表达量
lncrp1

63m2.7
)+(0.057
×
表达量
lnccdkn2a

as1
)+(

0.036
×
表达量
lncctb

186g2.1
)。
[0031]
在本发明一具体实施方案中,所述的判断条件为所述risk score值是否大于0.91。
[0032]
在本发明一较佳实施方案中,所述系统还包括数据收集模块,用于收集患者子宫内膜癌组织样本中所述生物标志物组合的表达量数据,并将其传输给所述数据处理模块。
[0033]
为解决上述技术问题,本发明提供的技术方案之八为:一种计算机辅助的评估子宫内膜癌患者预后风险的方法,其包括以下步骤:
[0034]
(1)将接收或输入所述子宫内膜癌患者的如技术方案之一所述的生物标志物组合的表达量数据,代入使用如技术方案之五所述的方法得到的评估子宫内膜癌患者预后风险模型,即risk score公式进行计算,得到计算结果;
[0035]
(2)判断所述的计算结果是否符合预设的判断条件,以预测子宫内膜癌预后风险,并输出预测结果;所述判断条件为计算结果是否大于训练集中所有患者risk score值的中位值;
[0036]
其中,在步骤(2)中,当所述计算结果满足所述判断条件时,输出预测结果为“子宫内膜癌预后高风险”;当所述计算结果不满足所述判断条件时,输出预测结果为“子宫内膜癌预后低风险”。
[0037]
在本发明一较佳实施方案中,所述计算的公式为:所述β1的值为0.012、β2的值为0.057、β3的值为

0.036,所述risk score公式为:risk score=(0.012
×
表达量
lncrp1

63m2.7
)+(0.057
×
表达量
lnccdkn2a

as1
)+(

0.036
×
表达量
lncctb

186g2.1
)。
[0038]
在本发明一较佳实施方案中,所述的判断条件为所述risk score是否大于0.91。
[0039]
在本发明一具体实施方案中,所述方法还包括数据收集的步骤,所述数据收集的步骤:收集患者子宫内膜癌组织样本中所述生物标志物组合的表达量数据,并将其用于步骤(1)。
[0040]
为解决上述技术问题,本发明提供的技术方案之九为:一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,可实现如技术方案之六所述的装置、如技术方案之七所述的系统的功能,或实现如技术方案之五或技术方案之八所述的方法的步骤。
[0041]
为解决上述技术问题,本发明提供的技术方案之十为:一种电子设备,其包括存储器和处理器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实现如技术方案之六所述的装置、如技术方案之七所述的系统的功能,或实现如技术方案之五或技术方案之八所述的方法的步骤。
[0042]
为解决上述技术问题,本发明提供的技术方案之十一为:lncrp1

63m2.7和/或lncctb

186g2.1在制备用于评估子宫内膜癌患者预后的制剂中的应用。
[0043]
本发明中所有lncrna可以以“lnc+编号”形式表述,亦可以单独的“编号”形式表述,两种形式可以互相替换。
[0044]
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
[0045]
本发明所用试剂和原料均市售可得。
[0046]
本发明的积极进步效果在于:
[0047]
本发明基于tcga数据库,通过单因素cox回归分析系统筛选出了子宫内膜癌预后相关的本发明所述的生物标志物组合,进一步通过循环运行lasso回归、多因素cox逐步回归分析筛选了包含3个lncrnas的预测子宫内膜癌患者预后的模型。kaplan

meier生存分析、时间依赖性roc曲线及患者的生存时间和生存状态都验证了所述标志物组合构建的评估子宫内膜癌患者预后风险的系统和方法的准确性和特异性,同时兼顾了较低的检测复杂度低和成本。因此,所述生物标志物组合及所述系统对于子宫内膜癌的患者的预后及靶向治疗具有重要的意义,具有很强的实用性和指导性。另外,基于本发明提供的建立模型的方法,在此三个lncrnas的基础上,可随数据库的更新而自主学习更新本发明所述的模型,使模型更为精准。
附图说明
[0048]
图1示出本发明配对子宫内膜癌组织和正常对照组织中差异lncrnas筛选结果;
[0049]
图2示出本发明训练集时间依赖性roc曲线;
[0050]
图3的a和b示出本发明验证集高、低风险组患者kaplan

meier生存分析比较;
[0051]
图4示出本发明验证集时间依赖性roc曲线;
[0052]
图5的a和b的分别示出本发明验证集患者的风险评分分布和生存状态;
[0053]
图6为本发明一实施例的评估子宫内膜癌患者预后风险的系统的结构示意图;
[0054]
图7为本发明实施例3的电子设备的结构示意图。
具体实施方式
[0055]
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。下列实施例中未注明具体条件的实验方法,按照常规方法和条件,或按照商品说明书选择。
[0056]
实施例1建立评估子宫内膜癌患者预后风险模型和评估子宫内膜癌患者预后风险的方法
[0057]
一、数据筛选
[0058]
从tcga公共数据库中(the cancer genome atlas,https://portal.gdc.cancer.gov/)确认并下载541例ucec患者的组织样本rna

seq数据和相应的临床信息,以下述原则为样本剔除标准:(1)患者临床信息不全,例如缺少临床分期、病理分级、年龄、生存时间、随访时间和生存状态等信息;(2)患者总生存时间或随访时间少于30天。若无此剔除标准,如纳入总生存时间或随访时间少于30天的患者,这些患者不能排除意外死亡等原因,可能会影响结果。
[0059]
最终纳入510例ucec患者肿瘤,其中有23例患者同时具有肿瘤样本及其自身可配对的正常/癌旁样本数据。
[0060]
二、lncrna的筛选、评估子宫内膜癌患者预后风险模型的建立和验证
[0061]
以上述23例患者肿瘤样本及其自身可配对的正常组织样本数据为数据来源,利用rstudio software(版本号:3.6.3),edger包(版本号:3.32.1)筛选在23例子宫内膜癌组织和同一患者癌旁对照组织中差异表达的lncrnas(delncrnas),以|log2fc|>1.5、p<0.05筛选阈值。以患者肿瘤样本及其自身可配对的正常/癌旁样本数据为数据来源;若不以配对组织进行筛选,不同患者间本身便可能存在差异。
[0062]
共获得2516个差异基因,与癌旁对照组织相比,癌组织中有1492个lncrnas显著上调,1024个lncrnas显著下调(如图1所示)。
[0063]
1.数据分割
[0064]
利用r软件caret包(版本号:6.0

88),以患者生存状态为因子向量,进行随机抽样,将510例子宫内膜癌患者数据分为两个互斥的子集(2:3),即训练集(training set,n=204)和测试集(testing set,n=306)两个队列,需说明的是,训练集和测试集可在符合本领域分集常规规则的基础上,随机划分出多个包含不同数据的训练集和测试集组合。训练集用于学习特征的选择和模型的估计,测试集作为验证队列来评估模型的预测性能。样本基本特征:训练集中位年龄为64(57~71)岁,肿瘤分期i期131例,ii期20例,iii期45例,iv期8例;测试集中位年龄为64(56~71)岁,肿瘤分期i期191例,ii期31例,iii期68例,iv期16例。
[0065]
2.模型构建与优化
[0066]
以训练集为数据来源,进行模型建立与优化,步骤如下:
[0067]
(1)单因素cox比例风险回归与kaplan

meier生存分析
[0068]
利用r软件survival包(版本号:3.2

10)和survminer包(版本号:0.4.9)联合单因素cox比例风险回归与kaplan

meier生存分析,以p<0.05为筛选阈值,共获得152个与患者总生存期具有显著关联性的差异lncrnas。
[0069]
(2)循环运行lasso回归与多因素cox风险回归,以auc作为评价进行模型筛选与优化:
[0070]

利用r软件glmnet包(版本号:4.1

2)进行lasso回归分析,对上述152个delncrnas进行复杂度调整与变量选择,决定最优调整参数λ及lasso入选变量;
[0071]

利用r软件survival包(版本号:3.2

10)和survminer包(版本号:0.4.9),将lasso入选变量纳入多因素cox风险逐步回归分析,进行lncrnas的预后风险评分,设置seed值为6,risk score=β1
×
表达量
lncrna1
+β2
×
表达量
lncrna2
+...+βn
×
表达量
lncrnan
;其中,表达量
lncrna1
、表达量
lncrna2
及表达量
lncrnan
代表不同入选lncrna对应的表达量,β1、β2、βn表示相应的lncrna在软件中自动计算出的回归系数;
[0072]

以auc作为评价,根据步骤

中的risk score公式,计算每个患者的risk score值,以所有患者risk score值的中位值为分割点,将患者分为高risk score值组和低risk score值组,绘制roc曲线,并计算3年和5年的roc曲线下面积(auc
3年
,auc
5年
)。
[0073]

循环计算步骤





,以优化lncrnas组合,确保在获得较高准确性前提下使用较少数目lncrna以降低后续实际应用过程中的复杂度与成本。当auc
3年
及auc
5年
均大于0.8,循环截止。最终比较下来,最佳的预测基因集为lncrp1

63m2.7、lncctb

186g2.1和lnccdkn2a

as1(如表1所示)。子宫内膜癌患者的预后情况是由上述3个入选delncrnas表达量与对应系数的乘积之和构成的风险得分(risk score)来表征,计算公式为:risk score=(0.012
×
表达量
lncrp1

63m2.7
)+(0.057
×
表达量
lnccdkn2a

as1
)+(

0.036
×
表达量
lncctb

186g2.1
)。
[0074]
三条lncrnas的序列信息:
[0075]
lncrp1

63m2.7(ensembl gene id:ensg00000275223):ggcctctgaggtgctacatcccaaggaggccatgggaggctttaattcggggtgagggggtggccggtgggttgagtgccctttccatgttcctgaacgccctggtgttgccaggtccttactgggctgaggcctggctacaaggcaactcagatggcaccagttcagggtgggcattcccatctgggactccaggcagggtcttccctgcggtttctccctggcagcccctgtgggagacagtttcttccaccagcctggctccctgggccacctgcacagaggtccctgctggcaccctggccagtccagtgccaggccgtcctcccgccaccccgcttcccagatctctgggagctcctagaaagtgctgccaccatctgaaccacatggggctctgagcaggcttgaggcttgttcgggtgtagttgtgtgtgcctgtaattccagctacttgggaggctgaggcaggagaatcgcttgagcccaggaggcggaggttgcagtgagccaaggactacaggcgcacactaccacgcccagctaatttttgtagagatgggggtttcgccatgttgcccaggctgggcagtgtgtcttgttagagaagacagctgaggaggacatcgccctgctttacgtcctgtgttgtaaaggcttcttttgtcctccacaaaaactgtagcaacaaatcctcaaaactaaaaaaacttccctctgcca(seq id no:1)
[0076]
lncctb

186g2.1(ensembl gene id:ensg00000267291):ccaaagcgcaccgtgtggaagagcaccgacttccccggccgcccggggctcacgccgatgcacacagcgggcagctcagagcctggcccggtggatgcagttcaagcccctcctctggcctggccccgcccactctctgcacacccgtgaagctctctctcacccacacagc
acgcccggcagcctttggtgtcctggatcttggtggaaaccatgttcttcctggagaataggatctccttgaccctccagaatgcccacccttggtggagggatgtgtccaggcggccgtgctgtggatccggagggggcagccattgaacaactttacgagaagggcacatccctgggcaggtcgccgcggggccaggcagcagatccggcaaagagagcagggaacaggaaggggcagtggttacgactttggagcgagagtgccaaggttcaaatcctgcctcttaccttggtgcaatttcccataatctatccctgtaatacactttttcatacattgaaaaaaaaaaaaaaaaaa(seq id no:2)
[0077]
lnccdkn2a

as1(ensembl gene id:ensg00000224854):ttttatgttatgtggcgtgtaccctaaaaaaaaaaatagaggtgcagtgctccagcacgggatgaggcagcgtggacaggagcatctcccaacctcagtgaagtctgagccgcgtgcctgcaacaatcccactgtggcagagaaccgcagagttccttccggtttggcagcagtcattcgcaacctcacagccctctggaaccccagcctgggggtctcagaacgccgaggcggggactgggagccgagtcggattccgagactatgggccagggttggctggattcagttacctggctgaggcctggtgagcaaaatatcccaaacctcgcgtgatctggaaggggaagccggataaatacggatctccagatgtgccagtctcgagtctatcgatatgaggtccccctagagtttctattcatcattttaaccgcatttcatcgatcttgagacacggcttttgatattttatcacctcaagataaatagtgttagatgtctaatagcagcgtttttctaagagatacatgaaacaacagtgtcagaaacgatgctgtcttccatgcgatgaaattgttgtaataggtgctcaataaatgttgacaataaatga(seq id no:3)
[0078]
以风险得分的中位值(0.91)为阈值,将训练集中的204例患者分为子宫内膜癌预后不良高风险(>0.91,n=102)组和低风险(≤0.91,n=102)组。绘制roc曲线,并求得auc
3年
及auc
5年
分别为0.804和0.817(如图2所示)。
[0079]
表1.最终纳入3条lncrnas详细信息
[0080]
lncrnacoefexp(coef)95%置信区间p值rp1

63m2.70.1031.1081.010

1.2170.030cdkn2a

as10.2231.2501.058

1.4750.008ctb

186g2.10.0211.0211.004

1.0380.013
[0081]
3.效果验证
[0082]
以测试集(testing set,n=306)为数据来源,评估模型的预测性能。
[0083]
(1)根据上述步骤

中的risk score公式,计算测试集中每个患者的risk score值,以风险得分0.91为阈值,将训练集中的306例患者分为高风险(>0.91,n=133)组和低风险(≤0.91,n=173)组。
[0084]
(2)kaplan

meier生存曲线分析结果显示高风险组和低风险组患者之间生存率存在显著差异(p<0.0001)(如图3所示)。
[0085]
(3)利用时间依赖性roc曲线验证所构建的预后模型的特异度和灵敏度,绘制roc曲线,并求得auc
3年
及auc
5年
分别为0.762和0.740(如图4所示)。
[0086]
(4)对比不同分组患者的生存时间与生存状态验证所构建的预后模型的准确性,以患者的风险得分值为横坐标,以患者的生存时间为纵坐标绘制患者的生存时间和生存状态的散点图,对比高风险组和低风险组间患者的生存时间和生存状态以验证所构建的预后模型的准确性。如图5所示,高风险组患者的生存时间明显低于低风险组,而且,高风险组死亡患者的人数也明显多于低风险组,这些结果进一步验证了该模型预测患者预后的作用的准确性。
[0087]
三、评估子宫内膜癌患者预后风险模型的更新
[0088]
另外,当收集到新的子宫内膜癌患者数据后,优选按照前述步骤中剔除标准筛选
数据后,可将剩余新数据组成新数据库或并入已有的数据库得到新的数据库,以lncrp1

63m2.7、lncctb

186g2.1和lnccdkn2a

as1作为标志物,在新数据库中自主训练更新前述risk score的计算公式。具体为:
[0089]
i)将新数据库随机划分为训练集和测试集,利用r软件survival包,对训练集运行多因素cox风险回归,设定risk score=(β1
×
表达量
lncrp1

63m2.7
)+(β2
×
表达量
lnccdkn2a

as1
)+(β3
×
表达量
lncctb

186g2.1
);
[0090]
ii)根据i)中risk score公式,计算每个患者的risk score值,以所有患者risk score值的中位值为分割点,将患者分为高risk score值组和低risk score值组,绘制roc曲线,并计算3年和5年的roc曲线下面积(auc3年,auc5年);
[0091]
iii)以auc3年及auc5年均大于0.7为目标条件,例如分别或均大于0.75、分别或均大于0.8、分别或均大于0.85、分别或均大于0.9和分别或均大于0.95等,循环计算步骤ii),确定对应的β1、β2和β3的值及相应的risk score的计算公式。
[0092]
随着样本量的增加,按照本发明上述建立模型的方法可以得到更精准的评估子宫内膜癌患者预后风险模型、即risk score的计算公式;从而使本发明评估子宫内膜癌患者预后风险的方法和系统更准确。
[0093]
实施例2建立评估子宫内膜癌患者预后风险模型的装置及评估子宫内膜癌患者预后风险的系统
[0094]
一、建立评估子宫内膜癌患者预后风险模型的装置
[0095]
本实施例提供了一种用于建立评估子宫内膜癌患者预后风险模型的装置51,如图6所示,其包括:数据分割模块41和构建模型模块42,优选还包括优化模型模块43和/或模型验证模块44。
[0096]
其中,数据分割模块41用于在r软件survival包中输入子宫内膜癌患者的数据,所述数据包括lncrp1

63m2.7、lnccdkn2a

as1和lncctb

186g2.1的表达量数据,任选一部分子宫内膜癌患者数据作为训练集;其中,所述子宫内膜癌患者的入选标准同实施例1。
[0097]
构建模型模块42用于对所述训练集在上述软件中运行多因素cox风险回归分析,进行lncrnas的预后风险评分,设定risk score=(β1
×
表达量
lncrp1

63m2.7
)+(β2
×
表达量
lnccdkn2a

as1
)+(β3
×
表达量
lncctb

186g2.1
);其中,所述lncrp1

63m2.7、lnccdkn2a

as1和lncctb

186g2.1的表达量分别用表达量
lncrp1

63m2.7
、表达量
lnccdkn2a

as1
和表达量
lncctb

186g2.1
表示;β1、β2和β3分别是指lncrp1

63m2.7、lnccdkn2a

as1和lncctb

186g2.1在上述r软件survival包中的回归系数。
[0098]
优化模型模块43用于所述数据分割模块中任选另一部分子宫内膜癌患者作为另一训练集,根据对应的构建模型模块中所述risk score公式,计算所述另一训练集每个患者的risk score值,以所有另一训练集患者risk score值的中位值为分割点,将另一训练集患者分为高risk score值组和低risk score值组,绘制roc曲线,并计算roc曲线下面积(auc值)、例如3年和/或5年生存时间的auc值;选择auc>0.7、优选auc>0.8对应的risk score公式作为评估子宫内膜癌患者预后风险模型。
[0099]
模型验证模块44用于根据所述构建模型模块或优化模型模块中的所述risk score公式,利用剩余不同于训练集的子宫内膜癌患者的数据作为测试集来计算各患者的所述risk score值,以所述测试集中患者risk score的中位值为阈值将测试集内子宫内膜
癌患者分为两组,risk score值高于阈值的子宫内膜癌患者为高风险组,risk score值小于等于阈值的子宫内膜癌患者为低风险组,采用所述r软件中kaplan

meier生存曲线分析对比两组间患者的生存率是否具有统计学显著性差异,p值越小说明差异越具有统计学上的意义。
[0100]
二、评估子宫内膜癌患者预后风险的系统
[0101]
评估子宫内膜癌患者预后风险的系统61:建立评估子宫内膜癌患者预后风险模型的装置51、数据处理模块53和判断并输出模块54,还包括数据收集模块52(图6)。
[0102]
建立评估子宫内膜癌患者预后风险模型的装置51的信息见第一部分,显然装置51也可以独立存在,不含在本系统61中;只需要将得到的模型置入数据处理模块中,或者本系统61与装置51有数据交互就可以。数据收集模块52亦是。
[0103]
数据处理模块53用于将接收或输入所述子宫内膜癌患者的如技术方案之一所述的生物标志物组合的表达量数据代入如实施例1确定的risk score公式进行计算,得到计算结果。
[0104]
判断并输出模块54用于判断所述的计算结果是否符合预设的判断条件,以预测子宫内膜癌预后风险,并输出预测结果;其中,在所述判断并输出模块中,当所述计算结果满足所述判断条件时,输出预测结果为“子宫内膜癌预后高风险”,当所述计算结果不满足所述判断条件时,输出预测结果为“子宫内膜癌预后低风险”;所述判断条件为计算结果值是否大于训练集中所有患者risk score的中位值。
[0105]
数据收集模块52用于收集患者子宫内膜癌组织样本中所述生物标志物组合的表达量数据,并将其传输给数据处理模块。
[0106]
实施例3电子设备
[0107]
本实施例提供了一种电子设备,电子设备可以通过计算设备的形式表现(例如可以为服务器设备),包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中处理器执行计算机程序时可以实现本发明实施例1中建立评估子宫内膜癌患者预后风险模型的方法和评估子宫内膜癌患者预后风险的方法。
[0108]
图7示出了本实施例的硬件结构示意图,电子设备9具体包括:
[0109]
至少一个处理器91、至少一个存储器92以及用于连接不同系统组件(包括处理器91和存储器92)的总线93,其中:
[0110]
总线93包括数据总线、地址总线和控制总线。
[0111]
存储器92包括易失性存储器,例如随机存取存储器(ram)921和/或高速缓存存储器922,还可以进一步包括只读存储器(rom)923。
[0112]
存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0113]
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1中的预测模型和实施例3的个性化肿瘤治疗的决策方法。
[0114]
电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口95进行。并且,电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网
络适配器96通过总线93与电子设备9的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备9使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
[0115]
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0116]
实施例4计算机可读存储介质
[0117]
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现本发明实施例1中的建立评估子宫内膜癌患者预后风险模型的方法和评估子宫内膜癌患者预后风险的方法的步骤。
[0118]
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
[0119]
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现本发明实施例1中的建立评估子宫内膜癌患者预后风险模型的方法和评估子宫内膜癌患者预后风险的方法的步骤。
[0120]
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
[0121]
对比例1不同数量和种类的lncrnas组合构建的模型
[0122]
以同实施例1和2相同的方法,对不同的lncrnas组合构建的模型进行测试。
[0123]
对比例中出现的lncrnas基因库编号(去重后)
[0124][0125][0126]
结果如表2和表3所示:
[0127]
表2其他不同标记物的组合
[0128][0129]
上表2中其他不同标记物组合的risk score公式
[0130]
risk score1=(0.01
×
表达量
lncctb

186g2.1
)+(0.06
×
表达量
lncrp11

219b4.5
)
[0131]
risk score2=(0.03
×
表达量
lncthrb

as1
)+(0.04
×
表达量
lnccdkn2a

as1
)
[0132]
risk score3=(0.004
×
表达量
lnclinc00957
)+(0.01
×
表达量
lncu91319.1
)+(0.01
×
表达量
lncmgc16275
)
[0133]
risk score4=(0.04
×
表达量
lncdkfzp434a062
)+(

0.02
×
表达量
lncctb

186g2.1
)+(0.01
×
表达量
lncrp11

440d17.4
)
[0134]
risk score5=(0.04
×
表达量
lnccdkn2a

as1
)+(0.01
×
表达量
lncac012354.6
)+(0.02
×
表达量
lncthrb

as1
)
[0135]
risk score6=(0.01
×
表达量
lncrp11

657o9.1
)+(

0.13
×
表达量
lncpdx1

as1
)+(0.05
×
表达量
lnclinc01574
)
[0136]
risk score7=(0.01
×
表达量
lnclinc00466
)+(0.04
×
表达量
lnccdkn2a

as1
)+(0.17
×
表达量
lncac017002.4
)
[0137]
risk score8=(

0.04
×
表达量
lncctb

186g2.1
)+(0.01
×
表达量
lnclinc01224
)+(0.01
×
表达量
lncrp1

63m2.7
)
[0138]
risk score9=(0.04
×
表达量
lnccdkn2a

as1
)+(0.02
×
表达量
lncthrb

as1
)+(0.01
×
表达量
lncrp1

63m2.7
)
[0139]
risk score10=(0.03
×
表达量
lncrp11

219b4.5
)+(0.01
×
表达量
lnckb

1460a1.5
)+(0.01
×
表达量
lncu91319.1
)
[0140]
risk score11=(0.11
×
表达量
lnclinc00629
)+(0.01
×
表达量
lncfoxd3

as1
)+(

0.01
×
表达量
lnclef1

as1
)
[0141]
表3其他不同数量的标记物组合
[0142][0143][0144]
上表3中其他不同数量组合的risk score公式
[0145]
risk score1’=(0.03
×
表达量
lnccdkn2a

as1
)+(0.01
×
表达量
lncctb

186g2.1
)+(0.01
×
表达量
lnclinc01224
)+(0.01
×
表达量
lncrp1_63m2.7
)
[0146]
risk score2’=(0.03
×
表达量
lnccdkn2a

as1
)+(0.01
×
表达量
lncrp11

867g23.10
)+(0.01
×
表达量
lncctb

186g2.1
)+(0.001
×
表达量
lnclinc01224
)+(0.005
×
表达量
lncrp1_63m2.7
)
[0147]
risk score3’=(0.001
×
表达量
lncac012354.6
)+(0.004
×
表达量
lncrp11

867g23.10
)+
(0.004
×
表达量
lncctd

3224i3.3
)+(0.013
×
表达量
lncctd

2008p7.1
)+(0.015
×
表达量
lncctb

186g2.1
)+(0.007
×
表达量
lncrp1

63m2.7
)
[0148]
risk score4’=(0.03
×
表达量
lnccdkn2a

as1
)+(0.001
×
表达量
lncac012354.6
)+(0.009
×
表达量
lnctd

3224i3.3
)+(0.013
×
表达量
lncctd

2008p7.1
)+(0.01
×
表达量
lnctb

186g2.1
)+(0.001
×
表达量
lnclinc01224
)+(0.006
×
表达量
lncrp1

63m2.7
)
[0149]
risk score5’=(0.002
×
表达量
lncac012354.6
)+(

0.06
×
表达量
lncrp11

156k13.3
)+(0.004
×
表达量
lnrp11

867g23.10
)+(0.04
×
表达量
lncctd

3224i3.3
)+(0.01
×
表达量
lnctd

2008p7.1
)+(0.01
×
表达量
lncctb

186g2.1
)+(0.001
×
表达量
lnclinc01224
)+(0.006
×
表达量
lncrp1

63m2.7
)
[0150]
risk score6’=(0.02
×
表达量
lnccdkn2a

as1
)+(0.002
×
表达量
lncac012354.6
)+(

0.06
×
表达量
lnrp11

156k13.3
)+(0.003
×
表达量
lncrp11

867g23.10
)+(0.04
×
表达量
lnctd

3224i3.3
)+(0.01
×
表达量
lncctd

2008p7.1
)+(0.01
×
表达量
lncctb

186g2.1
)+(0.001
×
表达量
lnclinc01224
)+(0.005
×
表达量
lncrp1

63m2.7
)
[0151]
risk score7’=(0.02
×
表达量
lnccdkn2a

as1
)+(0.002
×
表达量
lncac012354.6
)+(0.01
×
表达量
lncthrb

as1
)+(

0.05
×
表达量
lncrp11

156k13.3
)+(0.004
×
表达量
lnrp11

867g23.10
)+(0.05
×
表达量
lncctd

3224i3.3
)+(0.01
×
表达量
lncctd

2008p7.1
)+(0.003
×
表达量
lncctb

186g2.1
)+(0.001
×
表达量
lnclinc01224
)+(0.004
×
表达量
lncrp1

63m2.7
)
[0152]
总结:根据上述对比可知:若采用数目不大于3的其他lncrnas组合,评估效能auc不及本发明筛选得到的组合;若评估效能auc不低于本发明筛选得到的组合,则纳入lncrna数目将大于3。因此,本发明筛选得到的3条lncrnas,兼顾了较高的评估效能auc与较低的检测成本、复杂度。
[0153]
对比例2与癌症治疗领域常见风险评估方法进行对比
[0154]
依据《子宫内膜癌诊断与治疗指南(2021年版)》,子宫内膜癌的预后与发病年龄、分期、肿瘤的分化程度、病理学类型有关,高龄、分期晚、低分化的患者预后更差。据此,我们比较了年龄、分期、分化程度与本专利所述生物标志物组合的评估性能(表3)。
[0155]
表3年龄、分期、分化程度与本专利所述生物标志物组合的评估性能比较
[0156][0157]
可见,本发明的生物标志物组合的评估性能远好于现有的常规评估方法。
[0158]
对比例3与现有报道中的lncrnas模型的对比
[0159]
背景技术提及的文献《基于生物信息学筛选子宫内膜癌预后相关的lncrnas分子标签》报道了13条与子宫内膜癌预后显著相关的差异lncrnas并以它们作为分子标签构建lncrnas风险评分模型,其训练集子宫内膜癌患者3、5年总生存率auc分别为0.868、0.864;测试集子宫内膜癌患者3、5年总生存率auc分别为0.757、0.730。
[0160]
以本发明的训练集与测试集进行检测,该文章13条lncrnas组合预测能力稍弱于本发明,其在本发明训练集中子宫内膜癌患者3、5年总生存率auc分别为0.833、0.716,测试
集中分别为0.685、0.665。故从多方面比较,本发明3条lncrnas组合优于该文章13条lncrnas组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1