1.一种基于机器学习的软组织肉瘤复发概率预测方法,其特征在于,包括如下步骤:
s1:基于样本数据的复发概率计算:通过收集软组织肉瘤患者的信息并进行换算,以获知单个患者的复发概率,包括如下小步:
s11:收集软组织肉瘤病人的样本{d1,d2,d3,...,dn},建议样本数量n≥100;
s12:针对每个样本计算其复发概率,包括如下具体小步:
s121:针对样本i,划分包含样本i的全部子样本
s122:针对子样本
式中:n3-r、n5-r分别为子样本
s123:计算样本i的复发概率,即:
s124:则获知全部样本的{d1,d2,d3,...,dn}的三年期复发概率
s125:利用复发时间t,分别对三年期复发概率和五年期复发概率进行换算,即:
式中:复发时间t代表术后第几个月复发,t取值范围[1,60];
s2:面向软组织肉瘤复发的特征筛选:针对样本数据集,筛选其中的常规特征和图像特征;
s3:基于特征的样本数据处理:根据步骤s1和步骤s2,获得采集样本{d1,d2,d3,...,dn}中所有样本对应的常规特征、影像特征、3年期复发概率和5年期复发概率,对其常规特征及影像特征进行处理,包括如下小步:
s31:常规特征处理;
s32:影像特征处理:针对样本{d1,d2,d3,...,dn}的所有影像特征
s32:数据集划分:分为测试集与训练集划分,其中:训练集用于机器学习算法的训练,而测试集用于检验机器学习算法的优劣,将数据集按照3年期复发概率或5年期复发概率从大到小排序,按照序号选取一定规律的样本作为测试集,剩余数据作为训练集;
s4:基于机器学习模型的复发概率预测:根据步骤s1、步骤s1和步骤s2,获得全部样本的完整数据集,采用bp神经网络和随机森林实现样本特征与复发概率的映射,包括如下小步:
s41:模型训练:包括bp神经网络和随机森林,其中:
s411:bp神经网络;
s412:随机森林;
s42:模型评价及确定:将对应三年期复发概率
则对三年期和五年期预测值和真实值之间的差异v3和v5进行计算,即:
参数v3,v5值越大,代表预测值与真值的差距越大,即对应的模型的误差越大,效果越不好;
针对全部模型的参数vann、vrf,选择其中的最小值min{vann,vrf}对应的模型即为软组织肉瘤复发概率预测模型。
2.根据权利要求1所述的基于机器学习的软组织肉瘤复发概率预测方法,其特征在于,所述步骤s11中,收集软组织肉瘤病人的样本信息包含:病人个人信息、病理学特征、影像特征、术后3年是否复发、术后5年是否复发。
3.根据权利要求1所述的基于机器学习的软组织肉瘤复发概率预测方法,其特征在于,所述步骤s2中,软组织肉瘤复发的特征包括:
s21:常规特征包括性别、年龄和术后时间;
s22:图像特征,利用核磁共振设备获得的mri影像提取图像特征。
4.根据权利要求3所述的基于机器学习的软组织肉瘤复发概率预测方法,其特征在于,所述步骤s22中,核磁共振设备获得的mri影像按照成像方式不同,分为t1加权成像和t2加权成像。
5.根据权利要求3所述的基于机器学习的软组织肉瘤复发概率预测方法,其特征在于,所述步骤s22中,t1加权成像,包括如下情况:
情况一:小波-低低低频子带成像模式下:
(a)灰度级区域矩阵的大面积高灰度水平因子特征;
(b)灰度级区域矩阵的小面积高灰度水平因子特征;
情况二:小波-低低高频子带成像模式下:
(a)相邻灰度差矩阵的粗糙度特征;
(b)一阶统计量的总能量特征;
情况三:小波-高低低频子带成像模式下:
(a)灰度级相关矩阵的小依赖低灰度水平因子特征;
情况四:小波-高低高频子带成像模式下:
(b)灰度级区域矩阵的大面积高灰度水平因子特征;
(c)灰度级区域矩阵的小面积高灰度水平因子特征;
情况五:5mm拉普拉斯算子三维成像模式下:
(a)灰度差异矩阵的依赖不均匀规范化特征;
(b)灰度共生矩阵的马修斯相关系数特征;
(c)一阶统计量的峰态特征;
情况六:15mm拉普拉斯算子三维成像模式下:
(a)灰度差异矩阵的依赖不均匀规范化特征;
(b)一阶统计量的峰态特征;
情况七:原始成像模式下:
(a)灰度共生矩阵的逆方差特征;
(b)灰度差异矩阵的大依赖高灰度水平因子特征;
(c)灰度区域矩阵的大面积高灰度水平因子特征。
6.根据权利要求3所述的基于机器学习的软组织肉瘤复发概率预测方法,其特征在于,所述步骤s22中,t2加权成像,包括如下情况:
情况一:原始成像模式下:
(a)形状的延伸率特征;
(b)灰度共生矩阵的逆方差特征;
(c)灰度差异矩阵的大依赖高灰度水平因子特征;
情况二:小波-高高高频子带成像模式下:
(a)相邻灰度差矩阵的对比度特征;
(b)灰度级区域矩阵的灰度级非均匀归一化特征;
(c)灰度游程矩阵的长游程高灰度因子特征;
(d)一阶统计量的均值特征
情况三:15mm拉普拉斯算子三维成像模式下:
(a)一阶统计量的90分位值特征;
(b)一阶统计量的峰态特征;
情况四:5mm拉普拉斯算子三维成像模式下:
(a)灰度差异矩阵的依赖不均匀规范化特征;
(b)灰度共生矩阵的马修斯相关系数特征;
情况五:小波-高低高频子带成像模式下:
(a)灰度共生矩阵的逆方差特征;
(b)灰度共生矩阵的聚类阴影特征;
情况六:小波-低低低频子带成像模式下:
(a)灰度共生矩阵的逆方差特征;
(b)灰度级区域矩阵的小面积高灰度水平因子特征。
7.根据权利要求1所述的基于机器学习的软组织肉瘤复发概率预测方法,其特征在于,所述步骤s31中,常规特征处理,包括如下内容:
a)性别:男取1女取0;
b)年龄:0~10岁取0.1,10~20岁取0.2,20~30岁取0.3,30~40岁取0.4,40~50岁取0.5,50~60岁取0.6,60~70岁取0.7,70~80岁取0.8,80~90岁取0.9,90岁以上取1;
c)术后时间:实际月数m除以60。
8.根据权利要求7所述的基于机器学习的软组织肉瘤复发概率预测方法,其特征在于,所述步骤s32中,数据集划分按照序号选取等差数列,即第3、6、9、12、15、18、21、24、27、30…的样本作为测试集,剩余数据作为训练集。
9.根据权利要求1所述的基于机器学习的软组织肉瘤复发概率预测方法,其特征在于,所述步骤s411中,bp神经网络包括如下内容:
a)选用5层网络结构:即输入层、隐藏层1、隐藏层2、隐藏层3和输出层lin,ly1,ly2,ly3,lout;
b)5层神经元个数:分别为:sin,sy1,sy2,sy3,sout,其中:sy1的取值范围[16,30],sy2取值范围[8,12],sy3取值范围[3,5];
c)网络初始权重:取随机值;
d)激活函数:激活函数采用sigmoid函数,计算公式为
e)误差函数:采用和方差sse;
f)学习速率:取值范围[0.1,0.5]。
10.根据权利要求1所述的基于机器学习的软组织肉瘤复发概率预测方法,其特征在于,所述步骤s412中,随机森林中涉及的关键参数设置如下:
每次迭代的变量抽样数值,设为10;
随机森林包含的决策树数目,设为3000。