基于边缘辅助计算和掩模注意力的图像分割方法及系统

文档序号：30250073发布日期：2022-06-02 01:21阅读：194来源：国知局

1.本发明属于计算机视觉领域，涉及一种基于边缘辅助计算和掩模注意力的图像分割方法及系统。

背景技术：

2.目前基于深度学习的图像分割技术是计算机视觉领域中一个重要的研究方向，已经获得了广泛的应用，现有的图像分割方法是使用深度学习模型对图像中的每个像素进行分类，最后得到每个像素的语义类别。然而现有的方法依然存在以下几个问题，模型对图像中目标的边缘分割不准确，无法充分利用多尺度的上下文信息，在预测过程中存在过多的信息损耗，模型优化的目标损失函数过于单一，无法有效进行建模，以上问题最终影响模型的分割效果。
3.名词解释：
4.batchnorm层：深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的方法。首先计算输入数据的整体均值和方差，然后进行归一化操作，最后根据设定的缩放因子和平移因子进行缩放和平移。
5.relu层：起到线性整流的作用，作为神经网络中的激活函数，对于输入向量x，使用relu层后输出为0和x的较大值。
6.maxpool层：将整个特征图不重叠的分割为多个相同大小的块，每个块中只保留最大的参数，舍弃其他参数。在本专利中提及的maxpool层大小为2*2，步长为2，输出特征图对应的宽、高均为输入特征图的一半。
7.conv block：为简化说明，接下来的描述不包含batchnorm层和relu层。输入有以下两条分支：(1)依次经过1*1卷积层、3*3卷积层和1*1卷积层；(2)经过1*1卷积层改变特征图通道数。接下来，两条分支输出的特征图通过相加操作进行融合得到输出。
8.identity block：为简化说明，接下来的描述不包含batchnorm层和relu层。输入有以下两条分支：(1)依次经过1*1卷积层、3*3卷积层和1*1卷积层；(2)跳跃连接，输出等于输入。接下来，两条分支输出的特征图通过相加操作进行融合得到输出。

技术实现要素：

9.为解决上述技术问题，本发明公开了一种基于边缘辅助计算和掩模注意力的图像分割方法及系统，本发明提高了图像的分割效果以及分割准确性。
10.本发明解决其技术问题所采用的技术方案是：
11.一种基于边界感知注意的图像分割系统，包括n级级联的残差模块conv构建的特征编码器，对应每一级残差模块设置有特征解码器decoder block，对应每一级特征解码器decoder block设置有掩模注意力模块；其中第a级的残差模块输出的特征图为第a+1级残差模块的输入；第a级残差模块输出的特征图输入第a级的的特征解码器decoder block，第a级特征解码器decoder block输出的输出特征图输入第a级的掩模注意力模块mask_
attention block；第a级掩模注意力模块mask_attention block输出的增强的特征图输入第a-1级特征解码器decoder；
12.对前3级残差模块的输出分别进行降维和上采样得到三个浅层特征图，融合三个浅层特征图得到最终的边缘特征图efeature，最终的边缘特征图efeature特征降维获得边缘预测图像edge_predic；最终的边缘特征图efeature与第一级掩模注意力模块输出的最后一个增强的特征图last_feature拼接融合得到最终预测分割图像predict_512；n≥3。
13.进一步的改进，n＝5；其中，第一级残差模块conv1包含卷积核为7*7的卷积层、batchnorm层、relu层以及maxpool层；其余的残差模块包含conv block和identity block；conv block输入和输出的维度不同，用于改变网络的维度；identity bloc的k输入维度和输出维度相同，用于加深网络；输入图像经过五个残差模块分别得到特征图feature_1、特征图feature_3、特征图feature_3、特征图feature_4、特征图feature_5，取特征图feature_1、feature_2和feature_3，分别经过卷积核为1*1的卷积层进行通道降维，再经过卷积核为3*3的卷积层进行特征提取，再分别进行因子为2、4、8的线性插值上采样操作，得到尺度相同的三个边缘特征图efeature_1、efeature_2和efeature_3；将三个边缘特征图efeature_1、efeature_2和efeature_3以拼接的方式进行特征融合，获得最终的边缘特征图efeature，采用卷积核为1*1的卷积层对边缘特征图efeature进行通道降维，得到边缘预测图像edge_predict。
14.进一步的改进，所述第a级残差模块输出的特征图和第a+1级掩模注意力模块mask_attention block输出的增强的特征图输入第a级特征解码器decoder block；在第a级特征解码器decoder block中，增强的特征图首先经过因子为2的线性插值上采样，然后与特征图通过拼接操作完成特征融合，再经过两个卷积核为3*3的卷积层输出得到输出特征图；
15.第a级特征解码器decoder block的输出特征图输入第a级掩模注意力模块mask_attention block；输出特征图首先经过卷积核为3*3以及卷积核为1*1的卷积层得到对应尺度的预测分割图像，预测分割图像作为掩模注意力图谱mask_attention与输出特征图进行相乘得到注意力特征图att_feature，注意力特征图att_feature与输出特征图直接进行相加，得到增强的特征图；第五级至第二级的掩模注意力模块分别输出尺度大小分别为32*32、64*64、128*128、256*256的预测分割图像predict_x，x＝2、3、4、5。
16.进一步的改进，第一级掩模注意力模块输出的最后一个增强的特征图last_feature与最终的边缘特征图efeature进行拼接操作，然后经过卷积核为1*1的卷积层，将卷积操作的结果输入sigmoid激活函数，获得最终预测分割图像predict_512；
17.对边缘预测图像edge_predict、多尺度预测分割图像predict_x以及最终预测分割图像predict_512分别计算聚合损失函数loss：
18.loss＝bceloss+diceloss+jaccardloss
19.其中，bceloss是在单标签二分类场景下计算二分类交叉熵损失，一个输入样本图片对应于一个输出分割图片，对于包含n个样本图片的batch数据集d(p,y)，其中p为预测结果，取值范围在0～1，y为标签信息，取值为0或1；bceloss计算公式如下:
20.21.其中，pi表示第i个样本图片的预测结果，yi表示第i个样本图片的标签信息；
[0022][0023]
其中diceloss＝1-dice(p，y)
[0024]
其中，dice(p，y)表示dice系数，p为预测结果，取值范围在0～1，y为标签信息，取值为0或1；
[0025][0026]
jaccardloss＝1-jaccard(p，y)；
[0027]
其中，jaccard(p，y)表示jaccard系数；
[0028]
获得边缘预测图像edge_predict、多尺度预测分割图像predict_x以及最终预测分割图像predict_512的总聚合损失函数loss_sum：
[0029]
loss_sum＝loss(32)+loss(64)+loss(128)+loss(256)+loss(512)+loss(edge)其
[0030]
中，loss(32)、loss(64)、loss(128)、loss(256)分别为第五级至第二级的掩模注意力模块输出的预测分割图像的聚合损失函数；loss(512)为最终预测分割图像predict_512的聚合损失函数；loss(edge)为边缘预测图像edge_predict的聚合损失函数；
[0031]
优化总聚合损失函数loss-sum，是的loss-sum最小，得到优化后的图像分割系统。
[0032]
进一步的改进，采用adam梯度下降算法优化总聚合损失函数loss-sum。
[0033]
一种基于边界感知注意的图像分割方法，将初始图像输入上述基于边界感知注意的图像分割系统，得到最终的边缘特征图efeature和最终预测分割图像predict_512。
[0034]
本发明的优点：
[0035]
1.针对现有技术中存在的模型对图像中目标的边缘分割不准确的问题，本发明提出边缘辅助计算，该结构以深度残差模块的级联作为特征编码路径，逐层传递语义信息，通过融合浅层低维高细粒度的细节特征，增强前三层特征编码器的表征能力以及特征提取能力，通过边缘损失函数辅助模型参数的优化过程，并且在特征解码路径中为图像分割提供指导，使得分割目标的边缘更准确清晰。
[0036]
2.针对现有技术中存在的无法充分利用多尺度的上下文信息以及模型优化的目标损失函数过于单一的问题，本发明提出掩模注意力结构以及多尺度聚合损失函数，该结构以双卷积层加掩模注意力模块作为特征解码路径，关注特征空间中蕴含重要信息的位置，逐层补充细节局部特征。针对多尺度的分割预测图像进行强监督学习，各尺度之间逐层融合，不断丰富和完善分割所需的全局以及细节局部特征，提高特征图的空间分辨率，进而提高图像中目标分割的准确性以及效果。
附图说明
[0037]
图1为本发明实施例图像分割算法的网络模型结构框图；(专利体不能有颜色和灰度，里面的图请将背景颜色去除并用黑色的边框，里面的英文最好给出中文注释)
[0038]
图2为本发明实施例编码器路径结构框图；
[0039]
图3为本发明实施例掩模注意力模块结构框图。
具体实施方式
[0040]
以下结合实施例对本发明作进一步说明。
[0041]
实施例1
[0042]
一种基于边缘辅助计算和掩模注意力的图像分割方法，该方法的框架图如附图1所示，包括以下步骤：
[0043]
s1、建立由多阶级联的残差模块构建的特征编码器，对前三阶残差模块的输出分别进行降维和上采样，融合三个浅层特征图得到边缘特征图，特征降维后获得边缘预测图像，增强前三层特征编码器的表征能力，具体实施方法为：
[0044]
特征编码器由conv1、conv2_x、conv3_x、conv4_x和conv5_x共五个层级构成，conv1层包含卷积核为7*7的卷积层、batchnorm层、relu层以及maxpool层，除conv1层之外的所有层级为级联残差块，残差块主要包含conv block和identity block，其中conv block输入和输出的维度是不一样的，它的作用是改变网络的维度，identity block输入维度和输出维度相同，可以串联，用于加深网络的。输入图像经过特征编码器的五个层级分别得到特征图feature_1、特征图feature_3、特征图feature_3、特征图feature_4、特征图feature_5，取出前三个层级对应的特征图feature_1、feature_2和feature_3，分别经过卷积核为1*1的卷积层进行通道降维，再经过卷积核为3*3的卷积层进行特征提取，再分别进行因子为2、4、8的线性插值上采样操作，得到尺度相同的三个边缘特征图efeature_1、efeature_2和efeature_3。将三个边缘特征图以拼接的方式进行特征融合，获得最终的边缘特征图efeature，采用卷积核为1*1的卷积层对边缘特征图efeature进行通道降维，得到边缘预测图像edge_predict。该步骤可以融合浅层低维高细粒度的细节特征，增强前三层特征编码器的表征能力以及特征提取能力，通过边缘损失函数辅助模型参数的优化过程，并且在特征解码路径中为图像分割提供指导，使得分割目标的边缘更准确清晰。
[0045]
s2、最后一阶残差模块依次经过多个负责上采样和跳跃连接的特征解码器与掩模注意力模块，利用掩模注意力模块提高每个层级特征解码器对局部区域的重点关注力度，并在每个层级输出对应尺度预测的分割结果图像，具体实施方法为：
[0046]
掩模注意力模块的输入首先经过卷积核为3*3以及卷积核为1*1的卷积层得到对应尺度的预测分割图像，该预测分割图像作为掩模注意力图谱mask_attention与输入进行相乘得到注意力特征图att_feature，通过跳跃连接与输入直接进行相加，得到增强的特征图。特征解码器由两个卷积核为3*3的卷积层构成，输入为对应层级特征编码器的特征图与上一级掩模注意力模块的特征图，其中上一级掩模注意力模块的特征图需要进行因子为2的线性插值上采样，在特征图尺度相同的条件下利用拼接操作完成这两种特征图的特征融合。在此过程中产生四种不同尺度的预测分割图像predict_x，尺度大小分别为32*32、64*64、128*128、256*256。该步骤可以根据图像上空间位置信息的重要性不同训练得到掩模注意力图谱，也就是在多尺度解码器模块的信息路径上提取掩模注意力矩阵指导目标语义信息的分割，明确需要重点关注的空间位置，最终提升目标的整体分割效果。
[0047]
s3、融合特征解码器的输出特征图与前三阶残差模块的边缘特征图，旨在引入边缘的高细粒度信息，提高分割结果中的边缘预测准确性，经过特征降维预测最终的分割结
果图像，对模型输出的6种预测结果图计算聚合损失函数用于模型参数优化，具体实施方法为：
[0048]
利用拼接操作融合最后一个特征解码器的输出特征图last_feature与前三阶残差模块计算的边缘特征图efeature，再经过卷积核为1*1的卷积层，将卷积操作的结果输入sigmoid激活函数，获得最终预测分割图像predict_512。根据边缘预测图像edge_predict、多尺度预测分割图像predict_x以及最终预测分割图像predict_512，对各个预测结果计算聚合损失函数，聚合损失函数为bceloss、diceloss和jaccardloss相加，模型训练时总的损失函数为边缘预测图像edge_predict、多尺度预测分割图像predict_x和最终预测分割图像predict_512的聚合损失函数相加。adam梯度下降算法通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率，在非稳态和在线问题上有很有优秀的性能，利用adam梯度下降算法进行模型参数优化。该步骤可以对解码器路径的多尺度输出结果进行强监督学习，在多个优化目标的约束下对模型参数更快更好的优化，在分割问题中表现出优秀的性能，并且在此过程中能够更有效的聚合多尺度信息，为最终的图像分割提供帮助。
[0049]
本发明实施例还提供了一种基于边缘辅助计算和掩模注意力的图像分割系统，其包括计算机设备；所述计算机设备被配置或编程为用于执行上述实施例方法的步骤。
[0050]
本发明中，计算机设备可以是微处理器、上位机等设备。
[0051]
我们的方法在montgomery公开cxr数据集上进行了测试，并且对比了近5年发表论文中使用了该数据集的实验结果(由于论文中采用的评价指标不同，存在部分评价指标结果缺失的情况)，经过对比后发现，我们所提出的方法在acc、dice和jaccard这三个指标上都具备明显优势。
[0052][0053]
最后应当说明的是，以上实施例仅用于说明本发明的技术方案而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细说明，本领域的普通技术人员应当了解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王勇钟立科黄伟红胡建中
技术所有人：中南大学湘雅医院
我是此专利的发明人

上一篇：一种系统掉电检测和保护电路的制作方法
上一篇：一种抗腐蚀室外运动地板的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。