本发明涉及图像分析领域,具体涉及一种基于图像深度特征的亚实性肺结节定量分析方法及系统。
背景技术:
肺癌是全球肿瘤致死的首要病因。虽然肺癌的5年生存率较低,但早期肺癌的诊断和治疗可显著提高术后5年生存率。研究发现亚实性肺结节与早期肺癌密切相关。随着肺部常规ct检查和低剂量ct筛查的日益增多,亚实性肺结节的检出率日益增高。亚实性肺结节的传统诊断方式主要依赖于放射医生的经验,存在定量分析困难的问题,如何利用前沿的图像处理技术定量提取亚实性肺结节的图像特征,并对亚实性肺结节的病理侵蚀性(浸润前、浸润、微浸润)进行预测具有重要的临床意义。
传统肺结节图像的特征提取主要关注病灶区的纹理特征、形状特征等。纹理特征提取通常采用灰度共生矩阵方法,来获取病灶区图像的局部灰度值变化规律。此外,小波变换能够有效去除噪声对图像的干扰,利用小波变换对病灶区图像进行增强,并结合灰度共生矩阵方法提取纹理特征,能够有效地对边缘规则的肺结节图像进行定量分析。然而亚实性肺结节由于边缘模糊、形状不规则、实性成分变化随机性大,因而很难确保所提取特征的稳定性,为定量分析带来了困难。
传统肺结节特征提取常常定义海量特征,并从中选择与病理侵蚀性最相关的特征来进行侵蚀性预测,传统特征选择采用lasso方法,缺点是1针对亚实性肺结节中实性成分在空间上表现出结构化“团块(cluster)”先验特点,lasso仅考虑稀疏性而忽略了此结构化先验,导致所选特征稳定性差;2超参数确定时需要采用交叉验证的方法,计算量大;3,lasso方法基于线性模型,并没有考虑非线性因素。
近年来,以卷积神经网络(cnn)为代表的深度学习算法受到广泛关注并在图像处理领域取得了良好的应用效果。通过深度学习过程,原始输入数据中所隐藏的数据信息可以逐层提取抽象出来,层数越深,提取出来的特征也越加稳定,这是浅层结构和传统特征提取方式所无法表达和得到的。
技术实现要素:
为解决上述问题,本发明提供了一种基于图像深度特征的亚实性肺结节定量分析方法及系统,利用亚实性肺结节ct影像特征来对其病理侵蚀性(浸润前、微浸润、浸润)进行预测,通过提取亚实性肺结节的图像深度特征,可以完成对其病理侵蚀性的定量分析。
为实现上述目的,本发明采取的技术方案为:
一种基于图像深度特征的亚实性肺结节定量分析方法,包括如下步骤:
s1、肺部ct图像的采集及预处理;
采用高分辨率计算机断层摄影(computedtomography,ct)技术获取肺部数据,并上传给计算机辅助检测(computedaidededetection,cad)系统进行图像数据的预处理;其中,在二值化处理中使用最大熵阈值法,以最大熵为原则,用一个阈值将原始图像分割为感兴趣区和背景区,然后将二值化的图像分割为若干个8连通区域,保留最大连通区域并把其余区域移除,之后在对应最大连通区域的位置对原图像进行重构;
s2、候选肺结节roi分割与提取;
采用图像增强技术突出候选肺结节roi,最后经过图像重建,得到的roi区域内图像与原图像灰度相同,而roi外区域灰度置为0的图像,即相当于涂黑,通过以上增强技术,可以将孤立型的候选结节提取出来;
s3、采用卷积神经网络提取亚实性肺结节图像深度特征;
将提取出来的肺结节作为样本输入到输入层,经过卷积,得到隐含层c1(卷积层)的特征提取层,每个c层后都跟着一个下采样层(池化层)s,也叫作特征映射层;s层将特征切成几个区域,取其平均值,得到新的、维度较小的特征;s层可以降低特征图的分辨率,还可以降低输出对于位移的敏感度。特征提取后的单层特征向量由x表示。
s4、构建基于组稀疏约束的elm预测模型,引入l1范数防止提高特征选择稳定性防止过拟合,加入组稀疏约束来提升模型鲁棒性和泛化能力。
优选地,所述步骤s3具体包括如下步骤:
步骤3.1、特征提取;
c层为特征提取层,每个神经元通过与前一层的局部感受野相连,经过卷积运算提取局部特征,根据局部特征来确定它与其他特征空间的位置关系;cnn中的卷积操作是原图像先与卷积核进行卷积,然后加上一个偏置,再经过激活函数后得到一个特征,假设第l层是卷积层,那么l层的第j个特征输出a(l)是:
其中,f(·)是激活函数,
步骤3.2、特征映射;
s层是特征映射层,通过局部平均运算,使样本上所有单元的具有相等的权值,因而减少了cnn中自由参数的个数,降低了网络参数选择的复杂性;cnn下采样层只是对卷积层输出进行规模缩小,因此下采样层不会改变输出图的数量,第l层的第j个图的输出计算方式为:
其中,
在最后一次降采样后,通过激活函数f(·)得到最后输出
y=f(a(l)·ω+b(l))(3)
经过多次卷积和降采样后,将最后一层特征图进行全连接得到单层特征向量x;
步骤3.3、卷积核k偏置b与下采样的滤波器c偏置b的计算;
首先定义一个代价函数,假设输入x,输出y,标签t,那么在m个样本输入条件下,产生的平均误差:
为了防止出现过拟合,对训练的权值参数进行惩罚(化称权重衰减),λ是惩罚系数,用来调整权值惩罚所占的比重,代价函数为:
其中,
代价函数c对权值和偏置的偏导数如下:
对于每个样本产生的误差,利用链式求导法则,有
其中
δ表示残差,表示一个节点对最终输出值的残差产生的影响
当l是输出层时
δ(l)=-(t-a(l))·f′(z(l))(14)
当l是其它层时
δ(l)=(ω(l))t·δ(l+1)·f′(z(l))(15)
则公式(8)(9)可写成
优选地,所述步骤s4具体包括如下步骤:
构建elm数学模型;其中,elm的数学模型为:
式中,只有输出权重ωj是未知的,对式(12)中的n个方程进行整理,可得:
φω=t(18)
其中,
ω=[ω1t…ωlt]1×ltandt=[t1t…tnt]1×nt(20)
可以得到目标函数:
通过贝叶斯方法迭代估计目标函数中待求的参数;
ω是结合不同特征的输出权向量,假设偏置b是方差的倒数β的零均值高斯随机变量;类标签t被建模为具有加性高斯噪声的特征的线性组合;给定训练数据集(x,t),其中
p(t丨x,ω,β)=ν(t丨xtω,β-1)(22)
引入ω的先验分布来获得ω的贝叶斯map解,稀疏贝叶斯线性判别分析(sblda)关于ω的先验分布使用的是具有零均值向量和方差矩阵对角元素的多变量高斯分布;具体而言,为每个权重向量ωi设置单独的超参数αi,从而产生超参数向量α=(α1,…,αp)t,这个向量给出了方差矩阵的对角元素;这个关于ω的稀疏先验如下
根据肺结节有团结块的特点,提出组稀疏先验;为每组输出权重ωg设置一个超参数αg,即一个组内输出权重参数ωi,i∈ig(ig是包含第g组的向量)共享一个超参数αg,而不是为每个输入权重ωi设置一个单独的超参数;组稀疏先验分布如下:
其中αg代表对应组输出权重ωg的精度,并且
α=(α1,…,α1,α2,…,α2,αg,…,αg)(25)
由于高斯似然性(相对于平均值)在高斯先验的共轭性,后验也将是高斯并且可以获得一个封闭形式的解;后验可以表示为
p(ω丨t,x,α,β)=ν(ω丨m,∑)(26)
通过最大化后验概率(maximumposterior,map)的方法可以求得对于给定训练集的最有可能的ω值;ω后验概率分布均值m和方差∑由下式给出
m=β∑xtt(27)
∑-1=a+βxtx(28)
式中a=diag(α);
使用最大边际似然估计从训练集中估计超参数α和β,通过对输出权重ω进行积分得到边际似然度p(t丨α,β),即
p(t丨α,β)=∫p(t丨ω,β)p(ω丨α)dω(29)
通过完成指数的平方,并利用高斯归一化系数的标准形式,可以写出对数似然的形式
将对应于超参数αg和β的对数似然的偏导数设置为零,可以获得超参数的最大似然估计;因为后验分布的均值m和方差∑取决于α和β,所以这些超参数的解是以一个独立的形式给出的,如下
其中,mg是后验分布均值m的第g组分量;γi的定义是
γi=1-αi∑ii,i∈{1,2,…,p}(33)
其中,∑ii是后验分布方差的对角线分量。
本发明还提供了一种基于图像深度特征的亚实性肺结节定量分析系统,包括如下步骤:
肺部ct图像数据采集模块,采用高分辨率计算机断层摄影技术获取肺部数据,并上传给计算机辅助检测系统进行图像数据的预处理;
计算机辅助检测系统,用于完成图像的预处理,其中,在二值化处理中使用最大熵阈值法,以最大熵为原则,用一个阈值将原始图像分割为感兴趣区和背景区,然后将二值化的图像分割为若干个8连通区域,保留最大连通区域并把其余区域移除,之后在对应最大连通区域的位置对原图像进行重构;
候选肺结节roi分割与提取模块,采用图像增强技术突出候选肺结节roi,最后经过图像重建,得到的roi区域内图像与原图像灰度相同,而roi外区域灰度置为0的图像;
图像深度特征提取模块,采用卷积神经网络进行亚实性肺结节图像深度特征的提取,具体的,将提取出来的肺结节作为样本输入到输入层,经过卷积,得到隐含层c1(卷积层)的特征提取层,每个c层后都跟着一个下采样层s,;s层将特征切成几个区域,取其平均值,得到新的、维度较小的特征;
elm预测模型构建模块,用于构建基于组稀疏约束的elm预测模型;
肺结节识别模块,用于将卷积神经网络提取特征作为输入数据在所构建的elm预测模型中进行识别。
优选地,所述图像深度特征提取模块具体通过以下步骤进行亚实性肺结节图像深度特征的提取:
步骤3.1、特征提取;
c层为特征提取层,每个神经元通过与前一层的局部感受野相连,经过卷积运算提取局部特征,根据局部特征来确定它与其他特征空间的位置关系;cnn中的卷积操作是原图像先与卷积核进行卷积,然后加上一个偏置,再经过激活函数后得到一个特征,假设第l层是卷积层,那么l层的第j个特征输出a(l)是:
其中,f(·)是激活函数,
步骤3.2、特征映射;
s层是特征映射层,通过局部平均运算,使样本上所有单元的具有相等的权值,因而减少了cnn中自由参数的个数,降低了网络参数选择的复杂性;cnn下采样层只是对卷积层输出进行规模缩小,因此下采样层不会改变输出图的数量,第l层的第j个图的输出计算方式为:
其中,
在最后一次降采样后,通过激活函数f(·)得到最后输出
y=f(a(l)·ω+b(l))(3)
经过多次卷积和降采样后,将最后一层特征图进行全连接得到单层特征向量x;
步骤3.3、卷积核k偏置b与下采样的滤波器c偏置b的计算;
首先定义一个代价函数,假设输入x,输出y,标签t,那么在m个样本输入条件下,产生的平均误差:
为了防止出现过拟合,对训练的权值参数进行惩罚(化称权重衰减),λ是惩罚系数,用来调整权值惩罚所占的比重,代价函数为:
其中,
代价函数c对权值和偏置的偏导数如下:
对于每个样本产生的误差,利用链式求导法则,有
其中
δ表示残差,表示一个节点对最终输出值的残差产生的影响
当l是输出层时
δ(l)=-(t-a(l))·f′(z(l))(14)
当l是其它层时
δ(l)=(ω(l))t·δ(l+1)·f′(z(l))(15)
则公式(8)(9)可写成
优选地,所述elm预测模型构建模块通过以下步骤进行基于组稀疏约束的elm预测模型的构建:
elm的数学模型为:
式中,只有输出权重ωj是未知的,对式(12)中的n个方程进行整理,可得:
φω=t(18)
其中,
ω=[ω1t…ωlt]1×ltandt=[t1t…tnt]1×nt(20)
可以得到目标函数:
通过贝叶斯方法迭代估计目标函数中待求的参数;
ω是结合不同特征的输出权向量,假设偏置b是方差的倒数β的零均值高斯随机变量;类标签t被建模为具有加性高斯噪声的特征的线性组合;给定训练数据集(x,t),其中
p(t丨x,ω,β)=ν(t丨xtω,β-1)(22)
引入ω的先验分布来获得ω的贝叶斯map解,稀疏贝叶斯线性判别分析(sblda)关于ω的先验分布使用的是具有零均值向量和方差矩阵对角元素的多变量高斯分布;具体而言,为每个权重向量ωi设置单独的超参数αi,从而产生超参数向量α=(α1,…,αp)t,这个向量给出了方差矩阵的对角元素;这个关于ω的稀疏先验如下
根据肺结节有团结块的特点,提出组稀疏先验;为每组输出权重ωg设置一个超参数αg,即一个组内输出权重参数ωi,i∈ig(ig是包含第g组的向量)共享一个超参数αg,而不是为每个输入权重ωi设置一个单独的超参数;组稀疏先验分布如下:
其中αg代表对应组输出权重ωg的精度,并且
α=(α1,…,α1,α2,…,α2,αg,…,αg)(25)
由于高斯似然性(相对于平均值)在高斯先验的共轭性,后验也将是高斯并且可以获得一个封闭形式的解;后验可以表示为
p(ω丨t,x,α,β)=ν(ω丨m,∑)(26)
通过最大化后验概率(maximumposterior,map)的方法可以求得对于给定训练集的最有可能的ω值;ω后验概率分布均值m和方差∑由下式给出
m=β∑xtt(27)
∑-1=a+βxtx(28)
式中a=diag(α);
使用最大边际似然估计从训练集中估计超参数α和β,通过对输出权重ω进行积分得到边际似然度p(t丨α,β),即
p(t丨α,β)=∫p(t丨ω,β)p(ω丨α)dω(29)
通过完成指数的平方,并利用高斯归一化系数的标准形式,可以写出对数似然的形式
将对应于超参数αg和β的对数似然的偏导数设置为零,可以获得超参数的最大似然估计;因为后验分布的均值m和方差∑取决于α和β,所以这些超参数的解是以一个独立的形式给出的,如下
其中,mg是后验分布均值m的第g组分量;γi的定义是
γi=1-αi∑ii,i∈{1,2,…,p}(33)
其中,∑ii是后验分布方差的对角线分量。
本发明具有以下有益效果:
1、针对亚实性结节实性成分复杂性和边界模糊的特点,利用cnn提取图像深度特征,有利于全面获取描述亚实性肺结节病理侵蚀性的图像特征。
2、利用elm框架来进行特征自动选择和预测模型构建,为了防止过拟合,在elm基础上加入l1范数约束,以提高特征选择的稳定性;为了获取预测模型的鲁棒性,针对elm输出权重施加组稀疏约束,提高了模型的泛化能力。
3、采用贝叶斯框架来对elm模型中的正则化进行求解,一方面避免了交叉验证带来的计算量过大的问题;另一方面,通过最大化目标似然函数实现模型正则化参数的自适应估计,提高了模型的准确性。
附图说明
图1为亚实性肺结节病理类型预测流程图。
图2为肺结节roi区域特征提取和分类算法图。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于图像深度特征的亚实性肺结节定量分析方法,包括如下步骤:
s1、肺部ct图像的采集及预处理;
采用高分辨率计算机断层摄影(computedtomography,ct)技术获取肺部数据,并上传给计算机辅助检测(computedaidededetection,cad)系统进行图像数据的预处理;其中,在二值化处理中使用最大熵阈值法,以最大熵为原则,用一个阈值将原始图像分割为感兴趣区和背景区,然后将二值化的图像分割为若干个8连通区域,保留最大连通区域并把其余区域移除,之后在对应最大连通区域的位置对原图像进行重构;
s2、候选肺结节roi分割与提取;
采用图像增强技术突出候选肺结节roi,最后经过图像重建,得到的roi区域内图像与原图像灰度相同,而roi外区域灰度置为0的图像,即相当于涂黑,通过以上增强技术,可以将孤立型的候选结节提取出来;
s3、采用卷积神经网络提取亚实性肺结节图像深度特征;
将提取出来的肺结节作为样本输入到输入层,经过卷积,得到隐含层c1(卷积层)的特征提取层,每个c层后都跟着一个下采样层(池化层)s,也叫作特征映射层;s层将特征切成几个区域,取其平均值,得到新的、维度较小的特征;s层可以降低特征图的分辨率,还可以降低输出对于位移的敏感度。特征提取后的单层特征向量由x表示。
s4、构建基于组稀疏约束的elm预测模型,引入l1范数防止提高特征选择稳定性防止过拟合,加入组稀疏约束来提升模型鲁棒性和泛化能力。
所述步骤s3具体包括如下步骤:
步骤3.1、特征提取;
c层为特征提取层,每个神经元通过与前一层的局部感受野相连,经过卷积运算提取局部特征,根据局部特征来确定它与其他特征空间的位置关系;cnn中的卷积操作是原图像先与卷积核进行卷积,然后加上一个偏置,再经过激活函数后得到一个特征,假设第l层是卷积层,那么l层的第j个特征输出a(l)是:
其中,f(·)是激活函数,
步骤3.2、特征映射;
s层是特征映射层,通过局部平均运算,使样本上所有单元的具有相等的权值,因而减少了cnn中自由参数的个数,降低了网络参数选择的复杂性;cnn下采样层只是对卷积层输出进行规模缩小,因此下采样层不会改变输出图的数量,第l层的第j个图的输出计算方式为:
其中,
在最后一次降采样后,通过激活函数f(·)得到最后输出
y=f(a(l)·ω+b(l))(3)
经过多次卷积和降采样后,将最后一层特征图进行全连接得到单层特征向量x;
步骤3.3、卷积核k偏置b与下采样的滤波器c偏置b的计算;
首先定义一个代价函数,假设输入x,输出y,标签t,那么在m个样本输入条件下,产生的平均误差:
为了防止出现过拟合,对训练的权值参数进行惩罚(化称权重衰减),λ是惩罚系数,用来调整权值惩罚所占的比重,代价函数为:
其中,
代价函数c对权值和偏置的偏导数如下:
对于每个样本产生的误差,利用链式求导法则,有
其中
δ表示残差,表示一个节点对最终输出值的残差产生的影响
当l是输出层时
δ(l)=-(t-a(l))·f′(z(l))(14)
当l是其它层时
δ(l)=(ω(l))t·δ(l+1)·f′(z(l))(15)
则公式(8)(9)可写成
所述步骤s4具体包括如下步骤:
构建elm数学模型;其中,elm的数学模型为:
式中,只有输出权重ωj是未知的,对式(12)中的n个方程进行整理,可得:
φω=t(18)
其中,
可以得到目标函数:
通过贝叶斯方法迭代估计目标函数中待求的参数;
ω是结合不同特征的输出权向量,假设偏置b是方差的倒数β的零均值高斯随机变量;类标签t被建模为具有加性高斯噪声的特征的线性组合;给定训练数据集(x,t),其中
p(t丨x,ω,β)=ν(t丨xtω,β-1)(22)
引入ω的先验分布来获得ω的贝叶斯map解,稀疏贝叶斯线性判别分析(sblda)关于ω的先验分布使用的是具有零均值向量和方差矩阵对角元素的多变量高斯分布;具体而言,为每个权重向量ωi设置单独的超参数αi,从而产生超参数向量α=(α1,…,αp)t,这个向量给出了方差矩阵的对角元素;这个关于ω的稀疏先验如下
根据肺结节有团结块的特点,相对于sblda为了获得输出权重的组稀疏结构,需提出组稀疏先验;为每组输出权重ωg设置一个超参数αg,即一个组内输出权重参数ωi,i∈ig(ig是包含第g组的向量)共享一个超参数αg,而不是为每个输入权重ωi设置一个单独的超参数;组稀疏先验分布如下:
其中αg代表对应组输出权重ωg的精度,并且
α=(α1,…,α1,α2,…,α2,αg,…,αg)(25)
由于高斯似然性(相对于平均值)在高斯先验的共轭性,后验也将是高斯并且可以获得一个封闭形式的解;后验可以表示为
p(ω丨t,x,α,β)=ν(ω丨m,∑)(26)
通过最大化后验概率(maximumposterior,map)的方法可以求得对于给定训练集的最有可能的ω值;ω后验概率分布均值m和方差∑由下式给出
m=β∑xtt(27)
∑-1=a+βxtx(28)
式中a=diag(α);
使用最大边际似然估计从训练集中估计超参数α和β,通过对输出权重ω进行积分得到边际似然度p(t丨α,β),即
p(t丨α,β)=∫p(t丨ω,β)p(ω丨α)dω(29)
和在自动相关性确定中一样,当我们相对于α最大化边缘似然性时,多个元素αg变为无穷大,并且相应的权重具有集中在零的后验分布;因此,与这些权重相关的组内基础函数在模型所做的预测中不起作用,并且被有效地修剪从而导致组稀疏模型;
具体来说,通过完成指数的平方,并利用高斯归一化系数的标准形式,可以写出对数似然的形式
将对应于超参数αg和β的对数似然的偏导数设置为零,可以获得超参数的最大似然估计;因为后验分布的均值m和方差∑取决于α和β,所以这些超参数的解是以一个独立的形式给出的,如下
其中,mg是后验分布均值m的第g组分量;γi的定义是
γi=1-αi∑ii,i∈{1,2,…,p}(33)
其中,∑ii是后验分布方差的对角线分量。
步骤s4可总结如下:
1、构建elm数学模型;
2、对输入权重和偏置随机赋值;
3、初始化超参数α和β;
4、根据(27)和(28)计算后验概率p(ω丨t,x,α,β)的参数;
5、根据(31)、(32)和(33)更新α和β;
6、检查式(30)或ω的收敛性,如果不满足收敛条件,让α←αnew,β←βnew;并返回步骤2;如果满足收敛条件,则以
至此可把计算出的ω代入式(17)即完成对elm的训练,可进行肺结节的识别。
本具体实施针对亚实性结节实性成分区域的复杂性和结节边界的模糊性,利用cnn技术提取图像特征有利于挖掘图像中的实性结节团块特征,cnn技术中的卷积和池化操作能够有效提高亚实性结节的特征提取稳定性和鲁棒性。在利用深度图像特征进行特征选择和模型构建时,采用极限学习机(elm)理论框架。elm框架训练速度快,且能够获得全局最优解,有利于选择出与病理侵蚀性关联最强的稳定特征。同时为了提高预测模型的鲁棒性,利用l1范数约束抑制elm输出权重中的异常值来防止过拟合,利用组稀疏约束来平滑elm输出权重以改善elm算法的泛化能力,提高模型对亚实性结节侵蚀性诊断的预测准确率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。