一种基于影像组学的癌患者肿瘤图像勾画方法

文档序号：29463559发布日期：2022-04-02 02:29阅读：299来源：国知局

1.本发明属于医学图像处理识别技术领域，具体地说，涉及一种基于影像组学的癌患者肿瘤图像勾画方法。

背景技术：

2.图像处理领域将具有类似特征的像素点进行聚合的过程称为图像勾画。类似的特征体现在像素点像素值接近、纹理接近或处于相同边界内。如此可实现相似像素的区域识别或轮廓的识别。这些区域在医学领域可能意味着属于同一器官组织、肿瘤区域。准确的肿瘤区域勾画是正确完成放射治疗的必要一环。一般需要临床医生在ct影像上逐层勾画感兴趣区域。但是形态各异的肿瘤组织给勾画工作带来了困难。一名合格的临床医生需要系统性的学习与不断练习才能胜任勾画工作，学习曲线较为陡峭。自动勾画技术的出现为结束人工勾画工作带来了曙光。按照使用方法的不同，自动勾画方法可以分成经典处理方法、基于配准与图谱库的方法以及基于深度学习的方法。传统的自动勾画方法仅依靠图像的像素值，依赖参数较少，较难准确找到肿瘤区域。基于配准与图谱库的方法精度严重依赖于图像配准的精度，当使用的图谱与待勾画影像差异巨大时，配准算法难以实现良好结果，导致勾画精准度明显降低。基于深度学习的自动勾画技术可以从图像中提取更加复杂的层次特征，具有自我学习能力，其通用性也较传统算法高。深度学习方法的基本思想是通过多种高层次特征来表示数据的抽象信息，用于医学图像勾画的深度学习方法主要包括基于卷积神经网络的方法、基于全卷积神经网络的方法、基于u-net的方法等，但是基于深度学习的自动勾画技术训练集的肿瘤区域是由人工勾画而成，因此其勾画准确度仍高度依赖勾画人员的经验。

技术实现要素：

3.本发明针对现有技术的上述缺陷和需求，提出了一种基于影像组学的癌患者肿瘤图像勾画方法，通过从ct图像中高通量地提取大量影像信息，实现肿瘤特征提取与模型建立，凭借对海量影像数据信息进行更深层次的挖掘分析来辅助医师做出最准确的诊断。本发明将其应用在放疗肿瘤区域勾画中，不需要进行图像配准，可解决传统的自动勾画方法仅依靠图像的像素值，依赖参数较少的问题。也可解决深度学习方法勾画准确度仍高度依赖勾画人员经验的问题。
4.本发明具体实现内容如下：
5.本发明提出了本发明提出了一种基于影像组学的癌患者肿瘤图像勾画方法，用于对患者的器官成像图像进行辅助识别，帮助筛选勾画出用户需要的图像；所述方法包括以下步骤：
6.步骤1：选取经病理确认的癌患者作为样本集，所述样本集包括随机划分出的训练集和测试集；
7.步骤2：对样本集中的癌患者，获取对应的ct图像，以影像组学的组合参数来替代
ct图像的ct值；对于融合后的图像，由同一医师勾画出肿瘤区域和非肿瘤区域；最后将勾画出的肿瘤区域和非肿瘤区域进行处理，提取得到关于肿瘤区域的影像组学特征和非肿瘤区域的影像组学特征；
8.步骤3：对肿瘤区域的影像组学特征和非肿瘤区域的影像组学特征进行单变量筛选，获得单变量筛选后的影像组学特征；
9.步骤4：使用单变量筛选后的影像组学特征进行用于建立二元逻辑回归模型的影像组学特征的筛选，并采用交叉验证的方法进行lasso逻辑回归；且在逻辑回归的过程中，将lasso回归模型中的线性回归替代为逻辑回归来挑选二元分类的特征；
10.步骤5：建立最终的二元逻辑回归模型，并绘制出二元逻辑回归模型的roc曲线，同时计算出二元逻辑回归模型的auc值，利用roc曲线各个点对应的敏感性sens、特异性spec，计算使敏感性sens与特异性spec相加值最大的一个点作为cutoff值，将cutoff值作为判断肿瘤区域的影像组学标记物，并应用在后续实际对肿瘤区域和非肿瘤区域的标记与勾画中；所述auc值为roc曲线下的面积；所述roc曲线为根据一系列不同的二分类方式，以敏感性sens为纵坐标，特异性spec为横坐标绘制的曲线；所述敏感性sens代表真阳性率，所述特异性spec代表假阳性率。
11.为了更好地实现本发明，进一步地，在所述步骤4中：
12.将简单线性回归的响应归一化到0和1，并将lasso回归模型中的线性回归替代为逻辑回归来挑选二元分类的特征，在进行用于建立二元逻辑回归模型的影像组学特征的筛选过程中使用lasso逻辑回归优化的目标函数，具体公式如下：
[0013][0014]
其中，n是样本的个数，xi是一个m
×
n大小的原始数据，即每个样本有m个特征，yi是每个样本对应的响应值，ω是线性回归系数，b是线性回归的截断值，λ是用来控制回归系数稀疏度的非负正则化参数；t为向量矩阵的转置标识；
[0015]
将单变量筛选的影像组学特征输入到步骤4初步的lasso逻辑回归模型中，计算出模型偏差最小时的lambda值即λ值，从而进行最终自变量x的筛选，所述最终自变量x即为用于建立二元逻辑回归模型的影像组学特征。
[0016]
为了更好地实现本发明，进一步地，所述步骤5的具体操作为：
[0017]
步骤5.1：根据步骤4筛选出的最终自变量x，建立最终的二元逻辑回归模型，最终的二元逻辑回归模型具体如下：
[0018]
logitp＝y(x)；
[0019]
其中p为gtv为阳性的概率，logitp＝log(p/(1-p)；p＝1/(1+exp(-logitp)；
[0020]
步骤5.2：绘制出最终的二元逻辑回归模型的roc曲线，并计算出最终的二元逻辑回归模型对应的auc值；
[0021]
步骤5.3：利用roc曲线各个点对应的敏感性sens、特异性spec，计算使敏感性sens与特异性spec相加值最大的一个点作为cutoff值；
[0022]
步骤5.4：将cutoff值作为判断肿瘤区域的影像组学标记物，并应用在后续实际对肿瘤区域和非肿瘤区域的标记与勾画中，具体为：将p值大于cutoff值的区域判定为需要勾画的区域，将p值大于cutoff值的区域判定为不需要勾画的正常区域。
[0023]
为了更好地实现本发明，进一步地，所述步骤3的单变量筛选的具体操作为：
[0024]
步骤3.1：将肿瘤区域的影像组学特征和非肿瘤区域的影像组学特征作为自变量，将肿瘤区域和肺肿瘤区域作为二分类变量；
[0025]
步骤3.2：构建roc曲线，计算每个影像组学特征对应的auc值；
[0026]
步骤3.3：将auc值小于0.7的特征进行排除，得到单变量筛选后的影像组学特征。
[0027]
为了更好地实现本发明，进一步地，在进行了步骤4且进行步骤5之前，还要对步骤4筛选出的用于建立二元逻辑回归模型的影像组学特征进行模型共线性检测，通过模型共线性检测，将被认定为存在多重共线性的影像组学特征进行删除，然后将剩余的影像组学特征送入到步骤5中进行处理。
[0028]
为了更好地实现本发明，进一步地，进行所述模型共线性检测的具体操作为：
[0029]
计算lasso逻辑回归筛选变量后的逻辑回归模型自变量的方差膨胀因子vif，具体计算公式如下：
[0030][0031]
其中，ri为自变量对其余自变量作回归分析的负相关系数；方差膨胀因子vif越大，说明自变量之间存在共线性的可能性越大；
[0032]
设定方差膨胀因子阈值，将方差膨胀因子vif大于方差膨胀因子阈值的影像组学特征进行删除。
[0033]
为了更好地实现本发明，进一步地，所述方差膨胀因子阈值的取值为5。
[0034]
为了更好地实现本发明，进一步地，使用测试集对步骤5建立的最终的二元逻辑回归模型进行准确性判断测试。
[0035]
为了更好地实现本发明，进一步地，所述步骤2中，还要对提取得到关于肿瘤区域的影像组学特征和非肿瘤区域的影像组学特征均进行z-score标准化处理。
[0036]
为了更好地实现本发明，进一步地，所述影像组学特征包括形状特征、一阶特征、灰度共生矩阵特征、灰度相关矩阵特征、灰度游程矩阵特征、灰度大小区域矩阵特征和相邻灰度差分矩阵特征。
[0037]
本发明与现有技术相比具有以下优点及有益效果：
[0038]
(1)本发明提出了一种基于影像组学的癌患者肿瘤图像勾画方法，将其应用在放疗肿瘤区域勾画中，不需要进行图像配准，可解决传统的自动勾画方法仅依靠图像的像素值，依赖参数较少的问题。也可解决深度学习方法勾画准确度仍高度依赖勾画人员经验的问题；
[0039]
(2)肿瘤区域勾画作为放疗最核心的模块，一直以来都是放疗领域研究热点。在实际应用中的自动勾画通常需要单独付费购买国外的软件，例如美国瓦里安公司与飞利浦公司售价约100万元人民币的软件，且没有自主知识产权。本研究建立的基于影像组学的自动勾画方法并不需要购买其他公司软件模块，其不仅具有较高的科研价值也具有较大的社会与经济价值，可以实现很好的产研学转化。
附图说明
[0040]
图1为本发明大体流程示意图；
[0041]
图2为模型偏差与lambda值的关系示意图；
[0042]
图3为训练集最终模型的roc曲线示意图；
[0043]
图4为测试集模型的roc曲线示意图。
具体实施方式
[0044]
为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0045]
在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；也可以是直接相连，也可以是通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。
[0046]
实施例1：
[0047]
本实施例提出了一种基于影像组学的癌患者肿瘤图像勾画方法，用于对患者的器官成像图像进行辅助识别，帮助筛选勾画出用户需要的图像；如图1所示，所述方法包括以下步骤：
[0048]
步骤1：选取经病理确认的癌患者作为样本集，所述样本集包括随机划分出的训练集和测试集；
[0049]
步骤2：对样本集中的癌患者，获取对应的ct图像，以影像组学的组合参数来替代ct图像的ct值；对于融合后的图像，由同一医师勾画出肿瘤区域和非肿瘤区域；最后将勾画出的肿瘤区域和非肿瘤区域进行处理，提取得到关于肿瘤区域的影像组学特征和非肿瘤区域的影像组学特征；
[0050]
步骤3：对肿瘤区域的影像组学特征和非肿瘤区域的影像组学特征进行单变量筛选，获得单变量筛选后的影像组学特征；
[0051]
步骤4：使用单变量筛选后的影像组学特征进行用于建立二元逻辑回归模型的影像组学特征的筛选，并采用交叉验证的方法进行lasso逻辑回归；且在逻辑回归的过程中，将lasso回归模型中的线性回归替代为逻辑回归来挑选二元分类的特征；
[0052]
步骤5：建立最终的二元逻辑回归模型，并绘制出二元逻辑回归模型的roc曲线，同时计算出二元逻辑回归模型的auc值，利用roc曲线各个点对应的敏感性sens、特异性spec，计算使敏感性sens与特异性spec相加值最大的一个点作为cutoff值，将cutoff值作为判断肿瘤区域的影像组学标记物，并应用在后续实际对肿瘤区域和非肿瘤区域的标记与勾画中；所述auc值为roc曲线下的面积；所述roc曲线为根据一系列不同的二分类方式，以敏感性sens为纵坐标，特异性spec为横坐标绘制的曲线；所述敏感性sens代表真阳性率，所述特异性spec代表假阳性率。
[0053]
实施例2：
[0054]
本实施例在上述实施例1的基础上，以肝癌肿瘤为例，进行具体的举例说明如下：
[0055]
步骤1：选取经病理确认的肝癌患者，随机分为训练集(70％)与测试集(30％)。
[0056]
步骤2：训练集由同一医师将ct与mri图像融合后勾画出肝脏肿瘤区域(gtv)与正常肝脏区域(normal liver)作为感兴趣区域。通过pyradiomics软件包提取gtv与normal liver的影像组学特征(共1395个，去除形状特征)。
[0057]
步骤3：将gtv与normal liver的影像组学特征作为自变量,将gtv与normal liver作为二分类变量。计算每个特征对应的auc值，auc(area under curve)被定义为roc曲线下的面积。roc曲线全称为受试者工作特征曲线(receiver operating characteristic curve)，它是根据一系列不同的二分类方式(分界值或决定阈)，以真阳性率(敏感性)为纵坐标，假阳性率(1-特异性)为横坐标绘制的曲线。排除auc小于0.7的特征，得到单变量筛选后的影像组学特征。
[0058]
步骤4：将单变量筛选后的特征建立二元逻辑回归模型，并采用交叉验证(5折)的方法进行lasso逻辑回归。lasso回归是在最小二乘拟合的基础上加入l1正则化项来提高线性回归模型的精度，它的惩罚函数是回归系数的绝对值，这可使一些参数估计结果等于零，因此有助于特征选择。组织病理学分级是一个二元的分类问题，逻辑回归分析是二元分类或者一对多分类常用的广义线性模型，它将简单线性回归的响应归一化到0和1，因此可将lasso回归模型中的线性回归替代为逻辑回归来挑选二元分类的特征。lasso逻辑回归优化的目标函数如下：
[0059][0060]
其中，n是样本的个数，xi是一个m
×
n大小的原始数据，即每个样本有m个特征，yi是每个样本对应的响应值，ω是线性回归系数，b是线性回归的截断值，λ是用来控制回归系数稀疏度的非负正则化参数。将提取的影像组学特征输入lasso逻辑回归模型，计算出模型偏差最小时的lambda(λ)值，可以进行影像组学特征筛选。
[0061]
计算lasso逻辑回归筛选变量后的逻辑回归模型自变量方差膨胀因子(vif)，vif是衡量多元线性回归模型中多重共线性严重程度的一种度量。它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。一般认为vif大于5时即存在多重共线性，删除vif大于5的特征。
[0062]
步骤5：根据筛选出的最终自变量x，建立最终的二元逻辑回归模型(model2)：
[0063]
logitp＝y(x)；
[0064]
其中p为gtv为阳性的概率：
[0065]
logitp＝log(p/(1-p)；
[0066]
p＝1/(1+exp(-logitp)；
[0067]
绘制出模型的roc曲线并计算出该模型的auc值。利用roc曲线各个点对应的敏感性(sensitivity，sens)、特异性(specificity，spec)，计算使sens+spec最大的一个点作为p的cutoff值，将cutoff值作为判断肿瘤区域的影像组学标记物。模型效能使用模型的敏感性(sensitivity，sens)、特异性(specificity，spec)、准确性(accuracy，acc)和约登指数(youden index)等参数进行判别。
[0068]
本实施例的其他部分与上述实施例1相同，故不再赘述。
[0069]
实施例3：
[0070]
本实施例在上述实施例1-2任一项的基础上，为了更好地实现本发明，进一步地，所述步骤5的具体操作为：
[0071]
步骤5.1：根据步骤4筛选出的最终自变量x，建立最终的二元逻辑回归模型，最终的二元逻辑回归模型具体如下：
[0072]
logitp＝y(x)；
[0073]
其中p为gtv为阳性的概率，logitp＝log(p/(1-p)；p＝1/(1+exp(-logitp)；
[0074]
步骤5.2：绘制出最终的二元逻辑回归模型的roc曲线，并计算出最终的二元逻辑回归模型对应的auc值；
[0075]
步骤5.3：利用roc曲线各个点对应的敏感性sens、特异性spec，计算使敏感性sens与特异性spec相加值最大的一个点作为cutoff值；
[0076]
步骤5.4：将cutoff值作为判断肿瘤区域的影像组学标记物，并应用在后续实际对肿瘤区域和非肿瘤区域的标记与勾画中，具体为：将p值大于cutoff值的区域判定为需要勾画的区域，将p值大于cutoff值的区域判定为不需要勾画的正常区域。
[0077]
工作原理：在具体实施自动勾画时，我们首先将感兴趣区域限定于整个肝脏区域，然后将其网格化，只需提取感兴趣区域内网格通过训练集筛选出的影像组学特征以提高效率。根据训练集提取的最终影像组学特征建立二元逻辑回归模型，将训练集计算的cutoff值作为分类肿瘤区域的影像组学标记物。p值大于cutoff值时认为该网格是肿瘤区域；小于cutoff值时认为该网格是正常器官。将肿瘤区域网格聚类后，即可以自动勾画出该肿瘤区域。
[0078]
本实施例的其他部分与上述实施例1-2任一项相同，故不再赘述。
[0079]
实施例4：
[0080]
本实施例在上述实施例2的基础上，给出具体的实例数据分析：
[0081]
通过单变量对训练集影像组学参数进行筛选，排除auc小于0.7的特征，最终剩余247个影像组学特征。
[0082]
对于lasso逻辑回归变量筛选，lambda为0.0108(lambda.min)时，模型偏差(deviance)最小，模型偏差与lambda见图2，对应15个影像组学特征，表1为15个影像组学特征自变量的方差膨胀因子vif。
[0083]
表1 15个影像组学特征的共线性分析
[0084][0085]
lambda较lambda.min大一个标准差时，对应6个特征。表2为6个影像组学特征自变量方差膨胀因子(vif)。
[0086]
表2 6个影像组学特征的共线性分析
[0087][0088]
一般认为vif大于5或者10时即存在多重共线性，由表1可知，该15个存在严重的多重共线性，将影像组学特征降至6个后共线性有很大程度的改善，但仍不能避免由于exponential_glrlm_shortrunhighgraylevelemphasis的存在而可能引起的共线性，故删除这个特征，最终确定的5个影像组学特征为逻辑回归模型的自变量。
[0089]
表3模型共线性分析
[0090][0091]
由表3可知，各个影像组学的vif均小于5，故可认为该逻辑回归模型自变量不存在共线性，最终逻辑回归模型表达式如下：
[0092]
logitp＝0.662+0.401
×
(feature1)+2.961
×
(feature2)+0.789
×
(feature3)-0.009
×
(feature4)+1.682
×
(feature5)
[0093]
其中p为gtv阳性的概率，logitp＝log(p/(1-p)；p＝1/(1+exp(-logitp)利用roc曲线计算出p的cutoff值作为为0.441，作为判断肿瘤区域的影像组学标记物。模型的诊断
参数见表4，模型的roc曲线见图3。
[0094]
表4模型诊断参数
[0095][0096]
由表4可知，模型的acc、sens、spe、auc、youden均大于0.92，具有极高的分类能力。
[0097]
本实施例的其他部分与上述实施例2相同，故不再赘述。
[0098]
以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：庞皓文姜伟周平陈仁金
技术所有人：西南医科大学附属医院
我是此专利的发明人

上一篇：用于体育项目的光场显示系统的制作方法
上一篇：基于iOS系统的按钮构建及响应方法、装置及终端与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。