一种无创预测egfr/tp53共突变肺癌患者的人工智能系统
技术领域
1.本发明属于肺癌预测系统领域,特别是涉及一种无创预测egfr/tp53共突变肺癌患者的人工智能系统。
背景技术:2.随着经济、科技的发展,叠加环境暴露、不健康的生活方式等,癌症的发生率在全球仍然较高,其中肺癌是最常见的癌症之一。根据国际癌症研究机构(international agency for research on cancer,iarc)的globocan(global cancer observatory)数据,2020年全球有约1930万新发癌症病例和约1000万患者因癌症而死亡,其中肺癌的新发病例约占11.1%,死亡病例约占18.0%。
3.原发性肺癌根据病理特征分为非小细胞肺癌(non-small cell lung cancer,nsclc)以及小细胞肺癌(small cell lung cancer,sclc),其中nsclc约85%,sclc约15%。对于nsclc的研究是肺癌管理中的重心。
4.传统的nsclc化疗药物治疗效果有限,而目标区域高通量测序(trs)技术的发展为不同基因突变的nsclc患者实施精准治疗带来了曙光。研究发现,nsclc的发生发展中有多个相关的基因突变位点,其中表皮生长因子受体(epidermal growth factor receptor,egfr)基因是亚裔nsclc患者中最常见的驱动基因之一。egfr是原癌基因erbb-1的表达产物。在正常生理情况下,egfr可调节上皮组织和维持机体体内稳态。当egfr基因有突变或损伤时,将驱动细胞异常生长,造成癌症的发生发展。目前针对egfr酪氨酸激酶区域激活突变的相应靶向药物已广泛应用于肺癌治疗,针对不同egfr突变位点包括19外显子缺失、21外显子p.l858r点突变和其它不典型突变,多种酪氨酸激酶抑制剂(tyrosine kinase inhibitor,tki)已广泛运用于临床实践,改善了nsclc患者的生存预后。
5.但是,临床对于egfr突变的患者使用tki治疗发现相同tnm分期的患者有不同的治疗效果,部分患者的疗效较差,更容易出现tki耐药,针对这部分患者,如何早期识别并进一步干预是临床上面临的挑战。
6.tp53是癌症中最常见的易突变基因之一。donehower等人分析了tcga肿瘤基因组图谱数据库中来自32种癌症的10 225名患者的全外显子序列中的tp53突变情况,其中有3786名患者具有tp53突变,同时不同的癌症类型的tp53突变频率不相同,其中,对nsclc患者的检测结果显示tp53是nsclc的高频突变基因之一。已有多项研究发现,针对egfr突变的患者使用tki治疗后,若患者同时存在tp53基因突变,该类患者的预后较差,更易出现耐药。因此,快速准确的检测出egfr/tp53共突变的nsclc患者,对nsclc的临床精准治疗具有重要的意义。
技术实现要素:7.针对上述问题,本发明的目的在于提供一种无创预测egfr/tp53共突变肺癌患者的人工智能系统。
8.本发明提供了一种预测肺癌患者的基因突变情况的人工智能系统,所述人工智能系统包括以下五个部分:
9.第一部分:数据输入部分;输入肺癌患者的影像学特征和临床特征;
10.第二部分:特征选择部分;对第一部分输入的影像学特征和临床特征进行选择,得到选择后的特征;
11.第三部分:模型构建部分;将第二部分选择后的特征分为训练集数据和测试集数据,用训练集数据训练随机森林分类器构建预测模型;
12.第四部分:预测部分;利用第三部分构建的预测模型处理测试集数据,判断出肺癌患者的基因突变情况为egfr/tp53共突变或非egfr/tp53共突变。
13.进一步地,第一部分中,所述影像学特征是通过以下方法提取得到的:
14.(1)将肺癌患者的平扫ct影像进行感兴趣区域分割,得到病灶的图像感兴趣区域;
15.(2)将图像感兴趣区域分别经14类滤波器预处理,得到预处理后的图像;所述14类滤波器为:加性高斯噪声滤波器、二项式图像模糊滤波器、盒子均值滤波器、盒子西格玛图像滤波器、曲率流滤波器、离散高斯滤波器、拉普拉斯锐化滤波器、均值滤波器、归一滤波器、递归高斯滤波器、散粒噪声滤波器、斑点噪声滤波器、高斯拉普拉斯滤波器、小波滤波器;
16.(3)分别对未经预处理的图像感兴趣区域、预处理后的图像进行影像学特征提取,得到7类影像学特征:一阶特征、形状特征、灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵、灰度依赖矩阵、临近灰度差矩阵。
17.进一步地,第一部分中,所述临床特征为以下21维临床特征:性别;年龄,单位:岁;吸烟史;肺癌家族史;非肺癌家族史;日吸烟量,单位:支;吸烟年数;戒烟与否;戒烟年数;嗜酒与否;嗜酒时间,单位:年;嗜酒量,单位:克/天;咳嗽与否;胸痛与否;咯血与否;咳痰与否;癌胚抗原,单位ng/ml;癌抗原125,单位u/ml;糖类抗原199,单位u/ml;细胞角蛋白19片段,单位ng/ml;神经元特异性烯醇化酶,单位ng/ml。
18.进一步地,第二部分中,所述选择的方法为采用套索算法,设置alpha值为0.0152,选出影像学特征和临床特征中特征系数最高的前108维特征。
19.进一步地,第三部分中,所述随机森林分类器的参数设置为:类别权重使用balance,指标选用entroy,最大深度6,叶子节点最小样本数3,最小切分样本数2,弱分类器个数2000,分类阈值0.5。
20.进一步地,所述肺癌为非小细胞肺癌。
21.进一步地,所述非小细胞肺癌为egfr突变的非小细胞肺癌。
22.进一步地,所述egfr突变的非小细胞肺癌对酪氨酸激酶抑制剂耐药。
23.本发明还提供了一种预测肺癌患者的基因突变情况的设备,所述设备上存储有上述的人工智能系统。
24.本发明还提供了上述的人工智能系统在制备预测肺癌患者的基因突变情况的设备中的用途,所述设备能够预测出肺癌患者的基因突变情况为egfr/tp53共突变或非egfr/tp53共突变。
25.本发明中,egfr/tp53共突变指egfr基因突变合并tp53基因突变,表示为egfr+/tp53+。
26.非egfr/tp53共突变指除egfr/tp53共突变以外的情况,包括egfr+/tp53-、egfr-/tp53+、egfr-/tp53-。
27.其中,egfr+/tp53-表示egfr基因突变,tp53基因未突变;egfr-/tp53+表示tp53基因突变,egfr基因未突变;egfr-/tp53-表示tp53基因未突变,egfr基因未突变。
28.alpha值是lasso回归中的一个正则化参数,用来调整lasso的惩罚项。
29.特征系数指特征的权重。
30.本发明通过对四川大学华西医院病理首次诊断为原发性nsclc的2171名患者进行临床、影像、病理、基因、预后信息采集后发现,2171名原发性nsclc患者中,24.6%的患者出现egfr+/tp53+共突变。而且,这些原发性nsclc患者中,egfr+/tp53+共突变患者与其它基因突变状态下患者的生存预后有显著差异:早期(i+ii期)egfr+/tp53+患者较egrf+/tp53-患者1年生存率显著降低(97.5%vs.100%,p=0.032);晚期(iii+iv期)egfr+/tp53+患者较egrf+/tp53-患者1年生存率显著降低(81.7%vs.90.2%,p=0.033)。本发明还发现,使用一线egfr-tki治疗时,egfr+/tp53+患者较egfr+/tp53-患者更容易出现耐药,无进展生存期(pfs)更短。因此,准确预测nsclc患者中的egfr+/tp53+共突变患者,对egfr/tp53共突变肺癌患者的临床精准治疗具有重要的指导意义。
31.本发明通过采集患者的临床特征和影像特征,经过lasso特征选择和随机森林分类器建立模型,获得了一种能够准确、无创的预测肺癌患者的egfr/tp53基因共突变情况的人工智能预测系统。
32.与现有的预测系统相比,本发明的人工智能预测系统具有以下优势:
33.1、本发明采用lasso的特征选择方法可以滤出掉多余的特征向量种类,从而选出具有重要性的特征向量并提供相应的临床指导;
34.2、在本发明中,对特征进行lasso选择,并对重要的特征进行系数排列,使非重要的特征向量的系数为0,结果显示在lasso特征选择后,可以提高机器学习的随机森林分类器的表现;
35.3、本发明纳入的临床特征和影像特征均为实际临床操作中容易获取的信息;
36.4、实验表明与临床预测模型和影像预测模型相比,本发明建立的无创预测egfr/tp53共突变肺癌患者的模型(临床+影像预测模型)对肺癌患者的egfr/tp53基因共突变情况的预测效果更优异,测试集的auc值高达0.746。
37.本发明为临床上筛查肺癌患者中egfr+/tp53+共突变的患者,以及筛查egfr突变肺癌患者中对tki耐药的患者提供了一种无创预测系统,对egfr/tp53共突变肺癌患者的临床精准治疗具有重要的指导意义。
38.显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
39.以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
40.图1.实施例1中的lasso-alpha参数特征。
41.图2.特征系数变化轨迹。
42.图3.本发明临床+影像预测模型的五折交叉验中每一折的训练集、验证集的roc曲线。
43.图4.本发明临床+影像预测模型的训练集和测试集roc曲线。
44.图5.nsclc患者总体生存率曲线。
45.图6.不同egfr/tp53突变情况的nsclc患者的生存曲线;其中:红色代表egfr-/tp53-组,蓝色代表egfr+/tp53-组,绿色代表egfr-/tp53+组,黄色代表egfr+/tp53+组。
46.图7.egfr+/tp53-与egfr+/tp53+的i、ii期nsclc患者os曲线;其中:基因分组1(蓝曲线)为egfr+/tp53+组;基因分组2(绿曲线)为egfr+/tp53-组。
47.图8.egfr+/tp53-与egfr+/tp53+的iii、iv期nsclc患者os曲线;其中:基因分组1(蓝曲线)为egfr+/tp53+组;基因分组2(绿曲线)为egfr+/tp53-组。
48.图9.egfr+/tp53-、egfr+/tp53+使用tki治疗的患者生存曲线;其中:基因分组1(蓝曲线)为egfr+/tp53+组;基因分组2(绿曲线)为egfr+/tp53-组。
49.图10.egfr+/tp53-、egfr+/tp53+未使用tki治疗的患者生存曲线;其中:基因分组1(蓝曲线)为egfr+/tp53+组;基因分组2(绿曲线)为egfr+/tp53-组。
50.图11.仅使用egfr-tki治疗的患者pfs曲线;其中:基因分组1(蓝曲线)为egfr+/tp53+组;基因分组2(绿曲线)为egfr+/tp53-组。
51.图12.实验例2中的lasso-alpha参数特征。
52.图13.系数最高的前十位特征;注:左侧为特征名称,右侧显示为lasso算法后得到的系数。
53.图14.前十位高系数特征系数变化轨迹。
54.图15.影像预测模型、临床预测模型、临床+影像模型的训练集、测试集roc曲线;其中:红色为临床+影像预测模型;绿色为影像预测模型;蓝色为临床预测模型。
具体实施方式
55.本发明所用原料与设备均为已知产品,通过购买市售产品所得。
56.实施例1:本发明建立无创预测egfr/tp53共突变肺癌患者的模型(临床+影像预测模型)的方法
57.本实施例所用的患者数据均为2013年1月至2019年12月于四川大学华西医院首次诊断为原发性nsclc的2171名患者中,病理诊断前60天内有层厚1mm的平扫ct影像的1055名患者。
58.所有患者使用的胸部ct检测设备为:西门子,飞利浦brilliance big bore和ge discovery ct750 hd。ct扫描均在最大吸气状态下从肺尖到肺底对患者上半身进行螺旋ct扫描,仪器参数为管电压:120v,管电流:200~500ma,旋转时间:0.4-0.7s,像素矩阵:512
×
512。西门子扫描仪采用软卷积核(b31f、b30f);ge扫描仪采用standard内核。
59.本实施例使用的患者数据中,所有的基因突变状态都经过了检测。检测结果显示,1055名患者中包括egfr+/tp53+组339名,egfr+/tp53-组409名,egfr-/tp53-组307名。
60.第一步:影像学和临床特征提取
61.1、影像学特征提取
62.(1)图像获取
63.所有的1mm薄层ct图像以dicom格式通过iqqa软件(iqqa-chest,edda technology,princeton junction,nj,usa)从图像存储与传输系统(picture archiving and communication system,pacs)站中导出。
64.(2)图像分割
65.由于原始图像所包含的混杂因素过多,需要对其进行感兴趣区域分割。本实施例使用深度学习进行病灶roi分割:使用b
é
zier curve改进的vb-net模型进行病灶分割,得到病灶的图像感兴趣区域(roi)。
66.(3)图像滤波处理和特征提取
67.将图像感兴趣区域(roi)经14类滤波器进行预处理,14类滤波器中包含simpleitk库中的滤波器12种,pyradiomics滤波器2种。本实施例使用的滤波方法如下所示:
68.(3.1)additive gaussian noise filter(加性高斯噪声滤波器):
69.此滤波器可以改变具有加强高斯白噪声的图像。加强高斯白噪声可以建模为:
70.i=i0+n;
71.其中i是观测图像,i0是无噪声图像,n代表均值μ和方差σ2的正态分布随机变量:
72.n~n(μ,σ2)。
73.在处理的过程中,噪声和像素灰度值无关,因而图像的重要信息不会改变。
74.(3.2)binomial blur image filter(二项式图像模糊滤波器):
75.此滤波器在图像的每个维度上执行可分离的模糊处理。二项式模糊包括计算每个图像维度的最近邻平均值。在处理n次迭代后的最终结果接近于高斯的卷积处理。
76.(3.3)box mean filter(盒子均值滤波器):
77.使用累加器方法实现快速矩形均值滤波。
78.(3.4)box sigma image filter(盒子西格玛图像滤波器):
79.使用累加器方法实现快速矩形sigma滤波。
80.(3.5)curvature flow filter(曲率流滤波器):
81.使用曲率驱动流对图像进行消噪,不影响图像的边界信息,仅在区域内发生平滑。输入的ct灰度图像中的等亮度轮廓算作一个水平集,并将水平级采用基于曲率的速度函数来进行演化:
82.i
t
=κ|
▽
i|;
83.其中k是曲率。
84.连续使用这个滤波器将导致每个轮廓缩小到零并最终消失,使所有边缘信息被删除。由于本发明中需要去噪的图像已经是水平集,区别于水平集的分割算法,将使用set input()的方法直接将其设置为输入。本发明中需要手动调整设置过滤器的两个参数:需要执行的更新迭代次数以及每次执行更新之间的时间步长。为了保证数值的稳定性,时间步长需达到cfl(courant-friedrichs-levy)条件,使步长足够小。cfl可以有效的限制每个水平集的轮廓移动小于一个网格位置/一个时间步长。
85.本发明中使用此过滤器,利用了多线程有限差分求解器的层次结构,采用curvature flow function计算图像数据边界附近的导数的零通量neumann边界条件,对对象计算更新。为了支持该滤波器的流传输,本发明将产生考虑边缘效应的填充输出。填充的
大小在每个边上都是m_numberofiterations,使用有效的中心区域。
86.(3.6)discrete gaussian filter(离散高斯滤波器):
87.通过与离散高斯核的可分离卷积模糊图像。该滤波器通过图像和离散高斯算子(内核)的可分卷积执行高斯模糊处理。根据tony lindeberg设计高斯算子,设计此处使用的高斯核,以便进行平滑处理和离散化之后,代偿平滑和衍生操作。
88.(3.7)laplacian sharpening filter(拉普拉斯锐化滤波器):
89.该滤波器使用拉普拉斯算子锐化图像。拉普拉斯锐化突出显示强度快速变化的区域,因此突出显示或增强了边缘。结果是处理后的图像视觉效果将更清晰。
90.(3.8)mean filter(均值滤波器):
91.将平均值滤波器应用于图像预处理中。对图像进行计算,其中给定像素是对应输入像素周围附近像素的平均值。均值滤波器是线性滤波器系列之一。
92.(3.9)normalize filter(归一滤波器):
93.本发明使用此滤波器,通过将图像的均值设置为零并将方差设置为1来归一化图像。normalize image filter可以对图像进行移动和缩放,以使图像中的像素的均值和单位方差为零。本发明中使用statistics image filter计算输入的均值和方差,然后应用shift scale image filter来移动和缩放像素。但是由于此过滤器将数据归一化为介于-1到1之间,因此整数类型将生成没有单位方差的图像。
94.(3.10)recursive gaussian filter(递归高斯滤波器)
95.本滤波器用于计算具有高斯核近似值的iir卷积的基类:
[0096][0097]
recursive gaussian image filter是与高斯内核近似卷积的递归过滤器的基类。对于多分量图像,滤镜会独立作用于每个分量。
[0098]
(3.11)shot noise filter(散粒噪声滤波器)
[0099]
此滤波器处理更改带有散粒噪声的图像。散粒噪声遵循泊松分布:
[0100]
i=n(i0);
[0101]
其中n(i0)是均值i0的泊松分布随机变量。因此,噪声取决于图像中的像素强度。图像中的强度可以由用户提供的值缩放,以将像素值映射到实际的粒子数。缩放比例可以看作是采集期间使用的增益的倒数。然后将噪声信号缩放回其输入强度范围:
[0102][0103]
其中s是比例因子。
[0104]
泊松分布变量λ使用以下算法计算:
[0105]k←0[0106]
p
←1[0107]
repeat
[0108]
[0109]
until p>e
λ
[0110]
return(k);
[0111]
其中u()提供间隔[0,1]中的均匀分布的随机变量。对于λ的较大值,该算法效率很低。而当λ足够大时,泊松分布可以通过均值和方差λ的高斯分布来精确近似,本发明中使用数值50,使算法运行更快。
[0112][0113]
其中n()是均值0和方差1的正态分布随机变量。
[0114]
(3.12)speckle noise filter(斑点噪声滤波器)
[0115]
迭代带有散斑(可乘的)噪声的图像。斑点噪声遵循用户提供的平均值1的伽马分布和标准偏差。噪声与像素强度成正比。算法建模为:
[0116]
i=i0*g;
[0117]
其中g是均值为1且与噪声水平成比例的方差的伽玛分布随机变量:
[0118][0119]
(3.13)log filter(高斯拉普拉斯滤波器)
[0120]
此滤波器需要计算图像的高斯拉普拉斯算子(log)。通过与高斯的二阶导数卷积来计算图像的log,使用递归高斯滤波器实现。
[0121]
(3.14)wavelet filter(小波滤波器)
[0122]
此滤波器采用小波,是一种波状的简短振荡,其振幅从零开始,先增大然后减小,最后回归至零。小波滤过器可以用来处于信号特征,采用卷积的“反向,移位,乘法和积分”技术,使用小波与损坏信号的已知部分合并,以从未知的部分得到信息。小波可以运用于多种不同类型的数据,并从中提取出本发明所需要的未知信息,其中包括有音频信号和本本发明使用的图像信息。首先有一组小波对输入的已知数据进行处理、分析信息;另一组互补的子小波则可逆地分解数据,并保证数据间无间隙或重叠。在基于小波的压缩/解压缩算法下,互补小波在最小损失的条件下恢复原始的未知信息。
[0123]
原图与上述滤波器处理后得到25种图像。分别对图像进行特征提取,共提取7大类,104个影像学特征。也就是说,对每种图像提取104个影像学特征,最终组合后共提取2600维(2600=104
×
25)影像学特征。
[0124]
7大类影像学特征分别为一阶特征(first order)、形状特征(shape)、灰度共生矩阵(gray level co-occurrence matrix,glcm)、灰度游程矩阵(gray level run length matrix,glrlm)、灰度区域大小矩阵(gray level size zone matrix,glszm)、灰度依赖矩阵(gray level dependence matrix,gldm)、临近灰度差矩阵(neigbouring gray tone difference matrix,ngtdm)。104个影像学特征如表1所示。
[0125]
表1 104个影像学特征
[0126]
[0127]
[0128][0129]
2、临床特征提取
[0130]
分别提取三组不同基因突变状态患者的表2所示21维临床特征:性别、年龄(单位:岁)、吸烟史、肺癌家族史、非肺癌家族史、日吸烟量(单位:支)、吸烟年数、戒烟与否、戒烟年数、嗜酒与否、嗜酒时间(单位:年)、嗜酒量(单位:克/天)、咳嗽与否、胸痛与否、咯血与否、咳痰与否、癌胚抗原(carcinoembryonic antigen,cea,单位:ng/ml)、癌抗原125(cancer antigen 125,ca125,单位:u/ml)、糖类抗原199(carbohydrate antigen 199,ca199,单位:u/ml)、细胞角蛋白19片段(cytokeratin 19 fragment,cyfra21-1,单位:ng/ml)、神经元特异性烯醇化酶(neuron-specific enolase,nse,单位:ng/ml)。
[0131]
表2基因三分组患者21维临床特征汇总
[0132]
[0133][0134]
第二步:特征选择
[0135]
采用套索算法(least absolute shrinkage and selection operator,lasso)对2600维影像学特征和21维临床特征(共计2621维特征)进行选择。具体操作如下:
[0136]
采用五折交叉的方式进行数据的训练和测试,根据曲线下面积(auc)值调整alpha参数(图1),对于每一个alpha值,紫色点显示所选择的特征后得到auc的值。各特征的系数由alpha选择。当alpha(0,1)达到一定值后,继续增加模型纳入特征,即缩小alpha值,并不能显著提高模型性能。对于2621维影像学和临床特征,最终调整alpha值为0.0152,并选择特征系数最高的前108维特征,图2示例不同特征的系数生成路径,图中的每条曲线代表了特征系数的变化轨迹,纵坐标是系数的值,下横坐标是log(alpha),当指定了alpha值,即可确定特征的具体系数大小,表3列出了非负系数前十位的具体特征以及相应系数值。
[0137]
表3lasso选择出的非负系数前十位的具体特征以及相应系数值
[0138]
特征系数cea0.055265酒量0.05185discretegaussian_glrlm_runvariance0.049149
戒烟0.045633性别0.043102wavelet_glcm_wavelet-hlh-correlation0.042925log_glszm_log-sigma-0-5-mm-3d-sizezonenonuniformitynormalized0.037892discretegaussian_glszm_largearealowgraylevelemphasis0.03499wavelet_glcm_wavelet-hlh-idn0.034847wavelet_glszm_wavelet-lhh-graylevelvariance0.031228
[0139]
第三步:采用随机森林分类器建立模型,并进行五折交叉验证
[0140]
首先将数据序列随机打乱(shuffle),然后采用五折交叉的方式进行数据的训练和测试:将三组不同基因突变状态患者的数据按照各标签数目的情况分成互斥(两两之间没有交集)的五份,每次选取其中一份作为测试集,另外四份作为训练集,每次可以得到训练集和测试集结果,最后将5次训练/测试结果进行平均处理。
[0141]
随机森林分类器(random forest)是一种基于决策树的监督学习算法。随机森林算法结合了多个随机创建的决策树形成“森林”。将训练集中上述lasso选择出的108维特征采用随机森林分类器进行模型建立,得到本发明无创预测egfr/tp53共突变肺癌患者的模型。
[0142]
建模时,随机森林分类器的模型参数为:类别权重使用balance,指标选用entroy,最大深度6,叶子节点最小样本数3,最小切分样本数2,弱分类器个数2000,分类阈值0.5。
[0143]
利用上述建立的无创预测egfr/tp53共突变肺癌患者的模型对测试集数据进行测试,输出结果。
[0144]
以特征曲线(roc)的曲线下面积(auc)来评估本发明建立的无创预测egfr/tp53共突变肺癌患者的模型的效能。图3表示五折交叉验中每一折的训练集、验证集的roc曲线。结果显示,训练集和测试集的auc值分别为0.807,0.746(图4),训练集和测试集的准确率(accuracy)分别为0.602,0.544;精确率(precision)分别为0.604,0.561;召回率(recall)分别为0.599,0.549;f1值(h-mean值)分别为0.6,0.547。
[0145]
上述结果表明,本发明建立的模型能够准确地无创预测肺癌患者的egfr/tp53基因共突变情况,该模型对测试集的auc值高达0.746,本发明建立的模型对egfr/tp53共突变肺癌患者的临床精准治疗具有重要的指导意义。
[0146]
实施例2:本发明无创预测egfr/tp53共突变肺癌患者的人工智能系统
[0147]
本实施例所用的患者数据均为2013年1月至2019年12月于四川大学华西医院首次诊断为原发性nsclc的2171名患者中,病理诊断前60天内有层厚1mm的平扫ct影像的1055名患者(同实施例1)。
[0148]
所有患者的基因突变状态都经过了检测。检测结果显示,1055名患者中包括egfr+/tp53+组339名,egfr+/tp53-组409名,egfr-/tp53-组307名。
[0149]
第一部分:数据输入部分
[0150]
按照实施例1第一步的方法提取2600维影像学特征和21维临床特征,并输入系统。
[0151]
第二部分:特征选择部分
[0152]
按照实施例1第二步的方法采用lasso对2600维影像学特征和21维临床特征(共计2621维特征)进行选择,选出108维特征。
[0153]
第三部分:模型构建部分
[0154]
将三组不同基因突变状态患者的数据按照各标签数目的情况分成互斥(两两之间没有交集)的五份,每次选取其中一份作为测试集,另外四份作为训练集。
[0155]
按照实施例1第三步的方法将训练集中上述lasso选择出的108维特征采用随机森林分类器进行模型建立,得到无创预测egfr/tp53共突变肺癌患者的模型。
[0156]
第四部分:egfr/tp53共突变肺癌患者预测部分
[0157]
利用训练后的模型对测试集中的患者的基因突变状态进行预测,判断出该患者是否为egfr/tp53共突变肺癌患者。
[0158]
以下通过实验例证明本发明的有益效果。
[0159]
实验例1:非小细胞肺癌egfr/tp53共突变患者的临床病理特征与预后情况
[0160]
1、研究对象
[0161]
本实验例纳入2013年1月至2019年12月在四川大学华西医院门诊或住院就诊,病理首次诊断为原发性nsclc的2171名患者。本发明先和患者沟通使其知情同意,在四川大学华西医院伦理委员会批准后,收集患者肺癌原发病灶或转移灶的组织,进行56目标基因panel高通量测序。
[0162]
纳入标准:1.经病理确诊核实为原发性nsclc;2.患者已知情同意;3.患者为初诊,未经过肺癌相关治疗。
[0163]
排除标准:肿瘤组织无法获得或无法行高通量测序(肿瘤细胞含量<20%)。
[0164]
2、临床、影像、病理、基因、预后信息采集
[0165]
2.1临床特征
[0166]
通过四川大学华西医院电子病理系统收集核实患者的资本临床信息,临床特征包括:首次病理确诊时的年龄、吸烟史、肺癌家族史、非肺癌恶性肿瘤家族史、初诊时肺癌tnm分期、远处转移灶情况、双肺内病灶情况。
[0167]
2.2影像特征
[0168]
通过四川大学华西医院图像存储与传输系统(picture archiving and communication system,pacs)读取患者首次病理确诊前30天内的ct图像,测量病灶最大层面直径(mm)以及肉眼影像学特征。纳入的ct检查包括5mm层厚平扫、增强扫描、0.625mm和1mm薄层ct扫描。
[0169]
2.3病理特征
[0170]
病理组织参照nccn指南进行免疫组化染色:ttf1、napsin a、ck7、p63、p40,对肺癌组织分型,包括肺腺癌、肺鳞癌以及其他类型nsclc。针对于肺腺癌进一步进行亚型分型,主要成分包括乳头状、腺泡状、贴壁状、微乳头状等,并评估组织学分化程度。
[0171]
2.4基因测序
[0172]
目标基因panel的设计包含了与现有研究证明与非小细胞肺癌发生发展相关的56项基因:akt1、alk、araf、atm、bim、braf、brca1、brca2、ccnd1、cdk4、cdk6、cdkn2a、ctnnb1、cyp2d6、ddr2、dpyd、egfr、erbb2、erbb3、erbb4、fgf19、fgf3、fgf4、fgfr1、fgfr2、fgfr3、flt3、hras、jak1、jak2、kdr、kit、kras、map2k1、met、mtor、myc、nras、nrg1、ntrk1、ntrk2、ntrk3、pdgfra、pik3ca、ptch1、pten、raf1、rb1、ret、ros1、smo、stk11、tp53、tsc1、tsc2、ugt1a1。分别检测患者的上述56项基因情况。
[0173]
2.5生存预后
[0174]
通过四川大学华西医院电子病历系统对患者的历次就诊记录查询核实,电话随访截止时间为2020年12月31日。所有纳入患者的主要终点指标为总生存期(overall survival,os),os定义为患者从确诊为原发性肺癌直至因任何原因导致死亡的时间间隔。os为本发明的主要结局指标。
[0175]
对在四川大学华西医院接受egfr-tki为一线治疗,并且未同时接受免疫治疗、放化疗及手术,有规律随访(有全身影像学ct)的患者,根据实体瘤疗效反应的评价标准1.1(response evaluation criteria in solid tumor,recist),评价患者是否出现疾病进展,计算患者的疾病无进展生存期(progression-free survival,pfs),pfs为从使用tki治疗开始至疾病出现进展或死亡或至随访截止日期的时间。pfs为本发明的次终点指标。
[0176]
3、统计学分析
[0177]
采用spss 23.0(spss公司,芝加哥,美国)进行数据统计分析,使用卡方(χ2)检验或fisher确切概率法进行组间比较。双侧检验,p<0.05代表具有统计学差异。
[0178]
4、实验结果
[0179]
4.1总体人群特征及生存预后分析
[0180]
2171名患者的年龄为59.1
±
11.3岁,性别分布:男性1153名(53.1%),女性1018名(46.9%)。吸烟史分布:曾经或正在吸烟的患者有703名(3.4%),未曾吸烟的患者有1235名(56.9%),吸烟史不详的患者共计233名(10.7%)。总人群的直系亲属中患有癌症的患者307人(14.1%),无癌症家族史的患者共计1864名(85.9%);其中,直系亲属患有肺癌的患者共111名(5.1%),直系亲属患有其他部位恶性肿瘤的患者共计205名(9.4%)。根据tnm分期,i期患者共754名(34.7%),ii期患者117名(5.4%),iii期患者336名(15.5%),iv期患者775名(35.7%),有189名患者无法进行tnm分期评价(8.7%)。
[0181]
所有患者中,腺癌共计1789名(82.4%);鳞状细胞癌共244名(11.2%);其他类型nsclc共有138名(6.4%)。
[0182]
2171名nsclc患者的56基因检测结果显示,患者共涉及13种基因变异形式:非移码缺失(non_frameshifting_del)、非移码插入(non_frameshifting_ins)、无义突变(nonsense_mutation)、错义突变(missense_mutation)、框内插入(in_frame_ins)、框内缺失(in_frame_del)、剪切位点突变(splice_site)、移码突变(frame_shift_mutation)、起始密码子缺失(start_loss)、终止密码子(nonstop_mutation)、基因融合(fusion)/重排(re-arrangement)、拷贝数扩增(copy_number_gain)、拷贝数缺失(copy_number_loss)。结果显示:egfr是nsclc患者突变频率最高的基因,有1128名患者出现egfr突变(52.0%,1128/2171),tp53基因次之,共1103名患者出现tp53基因突变(50.8%,1103/2171)。前十位高频突变基因的其余八个基因分别是:kras(12%)、pik3ca(10%)、erbb2(7%)、met(7%)、atm(6%)、cdkn2a(5%)、cdk4(5%)、ros1(5%)。在选择的56基因panel测序中,共有8个基因:nrg1、bim、cyp2c19、cyp2d6、cyp3a4、dpyd、nf1、ugt1a1未检测到明显变异。egfr和tp53变异形式以错义突变为主。前两位突变基因中,egfr突变合并tp53突变型的患者共535名(24.6%)。
[0183]
汇总患者的肺癌治疗方式,共有1133名(52.5%)患者接受外科手术治疗,234名(10.8%)患者接受肺部病灶立体定向放疗,635名(29.2%)患者接受化疗,579名(26.7%)
接受靶向药物治疗,105名(4.8%)患者接受抗血管生成药物治疗,88名(4.1%)接受免疫治疗。
[0184]
根据患者门诊随访以及电话随访信息,收集靶向检测前未进行抗肿瘤治疗的患者的相关信息,并进行随访,纳入随访超过1年或发生结局事件(死亡),随访超过一年或在此期间发生结局事件的患者共1447例。总体生存率结果如图5所示,患者1年的生存率为78.93%。
[0185]
4.2 egfr/tp53基因突变与患者生存预后的关系
[0186]
应用单因素/多因素cox回归模型分析临床、病理、基因等因素对于患者一年os的影响。结果如表4,表5示:年龄大于65岁、tnm分期为iii-iv期、kars突变、tp53突变与nsclc患者的os缩短有关;而egfr突变、靶向治疗、手术切除则与患者的os延长有关。
[0187]
表4 nsclc患者os的单因素/多因素分析
[0188][0189][0190]
表5 cox回归赋值表
[0191]
[0192]
egfr-/tp53-组、egfr+/tp53-组、egfr-/tp53+组、egfr+/tp53+分组的患者os如图6所示,不同基因分组间的患者os不同(p《0.001)。egfr-/tp53-患者的1年生存率为80.24%;egfr+/tp53-患者的1年生存率为96.30%;egfr-/tp53+患者的1年生存率为57.81%;egfr+/tp53+患者的1年生存率为84.03%。
[0193]
根据tnm分期进行亚组分析,比较临床分期为早期(i、ii)和晚期(iii、iv)的egfr+/tp53-与egfr+/tp53+患者的1年os。
[0194]
图7示tnm为i、ii期的egfr+/tp53+与egrf+/tp53-患者生存曲线。截止随访时间,egfr+/tp53+组仅有两名患者出现死亡,1年生存率为97.5%,egrf+/tp53-组1年生存率为100%,两组间的差异具有统计学意义(p=0.032)。
[0195]
图8示tnm为iii、iv期的egfr+/tp53+与egrf+/tp53-患者生存曲线。egfr+/tp53+组1年生存率为81.7%,低于egfr+/tp53-组(90.2%),差异具有统计。学意义(p=0.033)。
[0196]
分析iii、iv期使用tki治疗的egfr突变患者的os,结果显示egfr+/tp53+患者1年生存率为85.9%,egfr+/tp53-患者1年生存率为95.9%,差异具有统计学意义(p=0.010)(图9)。
[0197]
分析iii、iv期未使用tki治疗的egfr突变患者的os,其中egfr+/tp53-患者的1年生存率为63.6%,egfr+/tp53+患者的1年生存率为69.2%,两组的差异不具有统计学意义(p=0.660)(图10)。
[0198]
分析在华西医院接受egfr-tki一线治疗并且每4-6w规律随访(有全身影像学ct)的患者共79名,截止至随访时间,4名患者尚未出现疾病进展。结果显示:egfr+/tp53+患者中位pfs为8.4个月(7.3-9.5);egfr+/tp53-患者中位pfs为10.5个月(8.3-12.7),egfr+/tp53+患者相较于egfr+/tp53-患者更容易出现进展,两组的pfs差异具有统计学意义(p=0.015)(图11)。
[0199]
上述结果表明,本实验例纳入的2171名原发性nsclc患者中,24.6%的患者出现egfr+/tp53+共突变(535/2171)。不同基因突变状态的患者的生存预后有显著性差异:(1)egfr+/tp53+组、egfr-/tp53-组、egfr+/tp53-组、egfr-/tp53+组的1年生存率分别为84.03%、80.24%、96.30%、57.81%,差异具有统计学意义(p《0.001);(2)早期(i+ii期):egfr+/tp53+患者较egrf+/tp53-患者1年生存率降低(97.5%vs.100%,p=0.032);(3)晚期(iii+iv期):egfr+/tp53+患者较egrf+/tp53-患者1年生存率降低(81.7%vs.90.2%,p=0.033);(4)egfr突变阳性且一线使用egfr-tki治疗亚组分析:egfr+/tp53+患者中位pfs较egfr+/tp53-患者的中位pfs(月,中位数)显著缩短[8.4(7.3-9.5)vs.10.5(8.3-12.7),p=0.015]。
[0200]
因此,准确预测出nsclc患者中的egfr+/tp53+共突变患者,对egfr/tp53共突变肺癌患者的临床精准治疗具有重要的指导意义。
[0201]
实验例2:建立预测egfr/tp53共突变肺癌患者的影像预测模型(对照模型1)
[0202]
本实验例所用的患者数据均为2013年1月至2019年12月于四川大学华西医院首次诊断为原发性nsclc的2171名患者中,病理诊断前60天内有层厚1mm的平扫ct影像的1055名患者(同实施例1)。
[0203]
第一步:图像特征提取
[0204]
采用与实施例1第一步的步骤1相同的方法,提取2600维影像学特征。
[0205]
第二步:特征选择
[0206]
采用lasso对2600维影像学特征和21维临床特征(共计2621维特征)进行选择。具体操作如下:
[0207]
采用五折交叉的方式进行数据的训练和测试,根据auc值调整alpha参数(图12),因为交叉验证,对于每一个alpha值,紫色点显示所选择的特征后得到由radscore公式计算所得简易auc的均值,可见当alpha(0,1)达到一定值后,继续增加模型纳入特征,即缩小alpha值,并不能显著提高模型性能。对于2600维影像学特征,调整alpha值为0.005,并选择特征系数最高的前253维特征。图13表示系数最高的前十位特征,表6为系数绝对值排列前十位特征的具体名称以及系数大小,在后续模型建立中,系数较大的特征对于模型的结果影响更大。图14针对系数绝对值排列前十位的特征进行系数确定示例,图中的每条曲线代表了特征系数的变化轨迹,纵坐标是系数的值,下横坐标是log(alpha),当指定了alpha值,即可确定特征的具体系数大小。
[0208]
表6 lasso特征选择前十高系数的影像特征
[0209]
特征系数laplaciansharpening_ngtdm_busyness-0.101054326boxsigmaimage_firstorder_uniformity-0.074092664discretegaussian_glrlm_runlengthnonuniformity-0.058647547discretegaussian_glszm_graylevelvariance-0.055099413wavelet_glrlm_wavelet-hhl-runvariance0.053083416wavelet_glcm_wavelet-hlh-idn0.049407207normalize_glszm_graylevelnonuniformitynormalized0.037800465boxsigmaimage_gldm_largedependencehighgraylevelemphasis-0.036993694wavelet_glrlm_wavelet-lhl-runentropy0.03462181log_gldm_log-sigma-1-5-mm-3d-largedependencehighgraylevelemphasis-0.033199564
[0210]
第三步:采用随机森林分类器建立模型,并进行五折交叉验证
[0211]
将上述lasso选择出的253维特征采用随机森林分类器进行模型建立,得到无创预测egfr/tp53共突变肺癌患者的影像预测模型。
[0212]
参照实施例1的方法,以特征曲线(roc)的曲线下面积(auc)来评估无创预测egfr/tp53共突变肺癌患者的影像预测模型的效能。
[0213]
结果显示(图15),影像预测模型训练集和测试集的auc值分别为0.993,0.719。
[0214]
与本实验例建立的影像预测模型相比,本发明实施例1建立的无创预测egfr/tp53共突变肺癌患者的模型(临床+影像预测模型)测试集的auc值明显提高(auc值=0.746),说明本发明实施例1建立的无创预测egfr/tp53共突变肺癌患者的模型对肺癌患者的egfr/tp53基因共突变情况的预测效果更优异。
[0215]
实验例3:建立预测egfr/tp53共突变肺癌患者的临床预测模型(对照模型2)
[0216]
本实验例所用的患者数据均为2013年1月至2019年12月于四川大学华西医院首次诊断为原发性nsclc的2171名患者中,病理诊断前60天内有层厚1mm的平扫ct影像的1055名患者(同实施例1)。
[0217]
第一步:图像特征提取
[0218]
采用与实施例1第一步的步骤2相同的方法,提取21维临床特征。
[0219]
第二步:特征预处理
[0220]
采用除l1/l2法对特征进行预处理。
[0221]
第三步:采用随机森林分类器建立模型,并进行五折交叉验证
[0222]
将上述预处理后的21维临床特征随机森林分类器进行模型建立,得到无创预测egfr/tp53共突变肺癌患者的临床预测模型。
[0223]
参照实施例1的方法,以特征曲线(roc)的曲线下面积(auc)来评估无创预测egfr/tp53共突变肺癌患者的临床预测模型的效能。
[0224]
结果显示(图15),临床预测模型训练集和测试集的auc值分别为0.761,0.714。
[0225]
与本实验例建立的临床预测模型相比,本发明实施例1建立的无创预测egfr/tp53共突变肺癌患者的模型(临床+影像预测模型)测试集的auc值明显提高(auc值=0.746),说明本发明实施例1建立的无创预测egfr/tp53共突变肺癌患者的模型对肺癌患者的egfr/tp53基因共突变情况的预测效果更优异。
[0226]
综上,本发明通过采集患者的临床特征和影像特征,经过lasso特征选择和随机森林分类器建立模型,获得了一种能够准确、无创的预测肺癌患者的egfr/tp53基因共突变情况的人工智能预测系统。实验表明与临床预测模型和影像预测模型相比,本发明建立的人工智能预测系统对肺癌患者的egfr/tp53基因共突变情况的预测效果更优异,测试集的auc值高达0.746。本发明的人工智能预测系统为临床上筛查肺癌患者中egfr+/tp53+共突变的患者,以及筛查egfr突变肺癌患者中对tki耐药的患者提供了一种新的选择,对egfr/tp53共突变肺癌患者的临床精准治疗具有重要的指导意义。