一种融合注意力机制的三维卷积神经网络肺部结节图像自动检测方法与流程

文档序号：21467498发布日期：2020-07-14 16:52阅读：4172来源：国知局

本发明涉及医学图像处理领域，具体涉及实现一种肺部结节自动检测方法，尤其涉及一种融合注意力机制的三维卷积神经网络肺部结节图像自动检测方法。

背景技术：

肺癌是对人类健康威胁最大的恶性肿瘤之一，近几年其发病率明显增高，而肺结节与肺癌密切相关，尤其是一些恶性结节。肺结节一般分为三种，磨玻璃结节、实性结节、部分实性结节。其中部分实性结节恶性概率最大，磨玻璃结节紧随其次。为了防止结节的进一步恶性发展，提早发现、及时治疗显的尤为重要。一般结节检测，都是专家依据个人经验，通过观测肺部ct图像给出结论，这样会给检测结果带来一定的差异性，尤其是有一些结节，边界不清、形状不规则、不同扫描层的变化很大，比较难判定，这样容易出现误判，导致患者错过最佳的治疗时期。

随着深度学习的不断发展，人工智能越来越成熟，在各个领域都有广泛的应用，从手写字识别的探究，到分类网络和检测网络的拓展，根据不同的任务需求，各种网络应运而生。将卷积神经网络cnn应用到医学图像当中，使其自动提取特征，实现对病灶的精准检测，辅助医生诊断，也成为一种备受关注的研究趋势。

注意力机制的主要思想指的是忽略无关信息、关注重点信息。若将注意力机制分类，则又可分为硬注意力机制和软注意力机制，硬注意力机制指的是区分关注区域和非关注区域，分别用1和0表示，主要用于强化学习；软注意力机制指的是每个区域被关注程度的高低，用0到1间连续的值表示。采用软注意力机制，在三维卷积神经网络中通过融入通道注意力(channelattention)和空间注意力(spatialattention)，可以实现重要信息的筛选，增强网络的特征表达，提高病灶的检测精度，实现对结节的高概率、精准检测。

计算机辅助诊断系统大幅度减少了误诊率，确保患者及时发现病灶，及早治疗。近几年，深度学习在医学图像病灶分割、分类、检测中取得了很大成功。由于数据集比较难获得，数量比较少，有一些研究人员直接采用迁移学习的方法，运用现有的、成熟的二维卷积神经网络来进行肺部结节检测，但是这种方法对结节的检测精度不高。考虑到，数据集是由2d图像序列组成的三维数据，为了充分考虑切片间的关系，抓住第三维度的特征，可以采用将三维卷积神经网络代替二维卷积神经网络。三维卷积神经网络指的是利用三维卷积核来提取图像序列的特征，与二维卷积神经网络不同，三维卷积神经网络多了一个维度，这样充分考虑了多幅图像间的关系，能够有效利用图像序列在空间维度上的特征，抓住病灶在空间上的内部联系，提高对结节的检测能力。作为本领域技术人员应该熟知的是，本发明方法主要的技术方案在于对采集的肺部ct图像数据进行的计算机处理，整个方案的技术目的在于实现图像自动检测识别目标，而并非进行治疗方案或者诊断技术的检测；对于检测识别后的结果能够在临床医学上的具体应用，这属于技术应用的方向，而并非本发明方法的基本目的。而且，本发明的主要的技术对象是ct图像，这些图像本身并非活体，在医学图像技术领域中，主要是为了判断和识别图像中的特征对象，这是图像技术的基本技术目的。

发明目的

针对目前肺部ct图像中的结节识别精度不高、识别速度慢的问题，本发明通过将三维卷积神经网络(3d-cnn)和注意力机制相结合，搭建针对肺部结节图像检测的一阶检测器，实现对肺部ct图像的自动、精准检测，从而有效的提升检测精度和速度。本发明的主要目的是计算图像中特征对象是肺部节的概率，整个方法是基于特征对象(即医学图像本身)进行的计算。

为了实现上述目的，本发明采用的技术方案为一种融合注意力机制的三维卷积神经网络肺部ct图像自动检测方法，首先，通过定裁和不定裁的方案对采集到的肺部ct图像进行裁剪，把剪裁得到的肺部ct图像送入到由3d注意力残差网络作为基础模块搭建的网络模型中，让网络模型自动提取肺部ct图像中的特征，并采用二分类交叉熵作为分类损失，用smoothl1作为位置回归损失。

然后，通过sgd优化器来指导网络不断训练，使得网络模型学习到合适的参数，输出肺部结节在图像中的位置信息和概率预测。

最后，通过检测方法输出的位置信息和概率预测值，找到肺部ct图像中的结节位置并标注出是结节的概率值，从而实现对肺部ct图像中的结节特征检测和预测。

注意力模块搭建

1)通道注意力机制(channelattention)

压缩立体特征图，分别采用全局最大池化和全局平均池化的方法压缩立体特征图，并将所得的特征图，按通道进行像素级的相加。

通过sigmoid激活函数将特征输出映射到(0，1)区间，得到对每个通道的关注度(即通道权重)。

将输入的立体特征图与通道权重相乘，从而加强对重点特征的关注。

2)空间注意力机制(spatialattention)

在通道维度上，对输入的立体特征图，分别进行max和mean操作，得到两个立体特征图，并将所得到的两个立体特征图在通道维度上拼接。

通过卷积操作压缩通道，并用sigmoid激活函数，将特征输出映射到(0，1)区间，求得对每个像素的关注度(即像素权重)。将输入的立体特征图与像素权重相乘，从而实现对前景信息的加强。

3)注意力模块(attentionblock)

输入的立体特征图，经过通道注意力(channelattention)，获得通道权重，实现对特征的选取功能，加强对有用特征的表达。

将获得的立体特征图，经过空间注意力(spatialattention)，获取每个图像像素的权重，实现对有效像素信息的选取，削弱图像背景像素的影响。

将获得的立体特征图与原输入的立体特征图相加。

注意力残差网络模块的搭建

将残差机制和注意力模块相融合，使用残差机制来自动选择合适的网络深度，有效的避免网络的退化现象。并将attentionblock模块加入，对特征进行筛选，加强对有用特征的关注，增强网络的表达能力。

本发明通过将通道注意力(channelattention)和空间注意力(spatialattention)与3dcnn相结合，增强有用信息，削弱无用信息，提高网络的表达能力，实现对结节的高效、精准检测。

附图说明

图1通道注意力(channelattention)。

图1.1输入特征图xcdhw。

图2空间注意力(spatialattention)。

图2.1输入特征图ycdhw。

图3注意力模块(attentionblock)。

图43d注意力残差网络模块(3dattentionresnetblock)。

图5网络模型。

图6肺结节检测结果。

具体实施方式

下面将对本发明的一些技术细节进一步详细说明。

本实施例采用luna16和datasciencebowl2017两个数据集，共用到1878个低剂量肺部ct影像，1397个ct影像来自datasciencebowl2017数据集，481个ct影像来自luna16数据集。

图1-图3分别为通道注意力(channelattention)、空间注意力(spatialattention)、由通道注意力和空间注意力组成的注意力模块(attentionblock)，图4为3dattentionresnetblock模块，图5为整个网络模型并且每个3d注意力残差网络模块的维数可根据输入图像的大小和维数进行调整，图6为肺结节检测结果示例。

1)通道注意力(channelattention)

将输入的立体特征图(如图1.1，c代表通道数，d代表单通道立体特征图的深度，w代表单通道特征图的宽度，h代表单通道特征图的高度)，分别进行全局最大池化和全局平均池化，相当于分别选取每个通道上的立体特征图中最大的像素值和每个通道上的立体特征图中像素的平均值。

假设输入的立体特征图为xcdhw(如公式1.1.1所示)，通过全局最大池化和全局平均池化后,得到两个一维特征图，分别为xmax(如公式1.1.2所示)和xaverage(如公式1.1.3所示)，特征图xmax,xaverage∈r^c×1×1×1。

将xmax和xaverage两个立体特征图，分别经过由两层三维卷积神经网络组成的卷积模块(用conv0表示卷积模块)，得到两个新的一维特征图x'max(如公式1.2.1所示)和x'average(如公式1.2.2所示)，然后，将特征图x'max和x'average进行像素级相加，得到输出特征图xsum(如公式1.2.3所示)，特征图xsum∈r^c×1×1×1

通过sigmoid激活函数将特征输出映射到(0，1)区间，求得对每个通道的关注度(即通道权重)，用wchannel表示。

2)空间注意力(spatialattention)

在通道维度上，对输入的立体特征图(如图2.1所示，c代表通道数，d代表单通道特征图的深度，w代表单通道特征图的宽度，h代表单通道特征图的高度)，分别进行max和mean操作，假设输入的立体特征图为ycdhw(如公式2.1.1所示)。max操作相当于将各个通道上的立体特征图的像素值进行比较，选取像素值最大的通道的立体特征图。用yk表示第k(k∈[0,c])层通道的特征图,分别比较y1…yc的大小，取出最大矩阵，设此时通道为m，最大矩阵则可以表示为ym。mean操作相当于将各个通道上的立体特征图的相应位置上的像素相加求和，然后除以通道数，求平均值。

通过max和mean操作，得到两个三维的特征图ymax(即ym，如公式2.1.2所示)和ymean(如公式2.1.3所示)，特征图ymax，ymean∈r^1×d×h×w。

2.将ymax和ymean两个立体特征图在通道维度上进行拼接，得到输出特征

yconcat如公式2.2.1所示。

通过一层三维卷积神经网络(用conv1表示)，将yconcat进行通道压缩，原特征图的大小为2×d×h×w，压缩后特征图大小变为1×d×h×w。然后，通过sigmoid激活函数，将特征输出映射到(0，1)区间，求得对每个像素的关注度(即像素权重)，用wspatial表示。

3)注意力模块(attentionblock)

假设输入特征图为xcdhw，首先将输入特征图输入到通道注意力模块(channelattention)，计算得到通道权重系数wchannel,并将输入特征图xcdhw与wchannel相乘，得到新的特征图ycdhw(如公式3.1所示)；然后将新的特征图ycdhw输入到空间注意力模块(spatialattention)，计算得到像素权重系数wspatial，并将特征图ycdhw与wspatial相乘，输出新特征图zcdhw(如公式3.2所示)；最后将输入特征图xcdhw与输出特征图zcdhw相加，得到注意力模块的输出x'cdhw(如公式3.3所示)。

ycdhw＝xcdhw×wchannel(公式3.1)

zcdhw＝ycdhw×wspatial(公式3.2)

x'cdhw＝xcdhw+zcdhw(公式3.3)

4)3d注意力残差网络模块

假设残差块的输入层特征图为x,x∈r^c1×d×h×w,求和前的网络映射由f(·)函数表示，f(·)函数由两层三维卷积神经网络、两层bn和一层relu激活函数构成。从输入到求和后的网络映射用为h(·)函数表示。首先，将特征图x经过映射函数f(·)，得到输出特征图f(x)，f(x)∈r^c2×d×h×w；然后，将f(x)送入attentionblock模块，得到经过筛选的特征图f'(x)(如公式4.1所示)，则h(x)＝f'(x)+x(如果c1≠c2，则x会经过一层三维卷积神经网络，并通过bn进行归一化，确保c1＝c2)，而网络的输入、输出关系可以转换为f'(x)＝h(x)-x,当网络深度最优时，f'(x)等于0，相当于只有恒等映射。

f'(x)＝f(x)+f(x)×wchannel×wspatial(公式4.1)。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵德群;金亚荣;李煜
技术所有人：北京工业大学
我是此专利的发明人

上一篇：一种能吹风的汽车头枕的制作方法
上一篇：一种建筑施工用的可调节新型建筑模块支撑的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。