一种使用门控和自适应注意力的图像分割方法和装置与流程

文档序号:22881705发布日期:2020-11-10 17:45阅读:192来源:国知局
一种使用门控和自适应注意力的图像分割方法和装置与流程

本发明涉及图像处理领域,特别涉及一种使用门控和自适应注意力的图像分割方法和装置。



背景技术:

随着科技的进步,计算机的性能得到了巨大的提升,得益于现代互联网的海量数据以及图形处理器并行处理的强大计算力,计算机视觉得到了飞速的发展。计算机视觉中最重要的基本问题之一就是对图像进行语义级别的分割,其实质是对图像的每个像素点进行分类。图像语义分割方法分为传统的图像自动分割算法和基于深度学习的分割方法。

传统的图像自动分割算法,需要人为干预,并且分割结果对噪声敏感,使得分割结果存在较大的误差。基于深度学习的分割方法克服了传统算法的缺点,但是深度学习分割方法仍然不能完全精准的分割,它的性能具有很大的提升空间。

视觉注意力机制是人类脑部视觉神经网络特有的一种机制,这种机制可以在人类通过视觉快速扫描全局图像的时候,分辨出需要关注的重点区域,从而对重点区域分配更多的资源,提高视觉处理的速度和效率。

深度学习分割方法严重依赖于深度神经网络提取的图像特征,如果深度神经网络能够使用注意力机制,分辨出需要关注的图像特征的重点区域,从而对重点区域分配更多的资源,无疑会对深度学习分割方法的性能产生很大的提升。



技术实现要素:

深度学习分割方法严重依赖于深度神经网络提取的图像特征,如果深度神经网络能够使用注意力机制,分辨出需要关注的图像特征的重点区域,从而对重点区域分配更多的资源,无疑会对深度学习分割方法的性能产生很大的提升。针对这一问题,本发明提出了一种使用门控和自适应注意力的图像分割方法、系统和电子设备。

本发明采用的技术方案如下所示:

一种使用门控和自适应注意力的图像分割方法,将图像的roi区域从整幅图像中分割出来,所述方法包括训练阶段和推理阶段;

(一)训练阶段包括:

(1)获取图像:获取待处理的图像,包括互联网下载或者线下采集;

(2)图像预处理:对图像进行归一化处理,将多模态数据拼接成多通道数据,对数据进行清洗,去除无效数据;

(3)构建分割模型:使用门控注意力机制和自适应注意力机制构建分割模型,具体步骤包括:

(3-1)将经过预处理的图像数据送入残差单元,提取出图像的特征,输出的数据进行两倍下采样处理,降低数据量,提高数据的信噪比,该过程重复进行多次;

(3-2)将经过步骤(3-1)处理的数据送入残差单元,输出的数据送入自适应注意单元,该单元能够利用提取的图像特征之间的差异,进行自适应的注意力操作,自动寻找出每个特征通道的度量值,该度量值表征了每个特征通道对图像分割起作用的重要程度,故可以将该度量值作为每个特征通道的权重,从而对在图像分割中起重要作用的特征赋予更大的权重,而对在图像分割中不起作用的特征,赋予更小的权重,过程如下所示:

yi(t)=f(xi(t)·wi+yi(t-1)·vi+bi)

o(xi)=si·xi+xi

xi表示第i个特征通道的值,yi表示自动学习的第i个特征通道的度量值,si表示第i个特征通道的权重值,oi表示加权后的第i个特征通道的值,wi和bi表示t时刻的网络学习到的参数值,vi表示t-1时刻的值对当前时刻的影响因子;

(3-3)将经过步骤(3-2)处理的数据进行两倍的上采样操作,恢复图像的分辨率,将经过上采样操作的数据送入门控残差单元,该单元使用门控注意力机制,将经过上采样操作的数据作为门控信号,控制步骤(3-1)对应的位置传送过来的信息,该信息包含了图像roi区域的位置信息,同时包含了大量的冗余信息,使用门控注意力机制可以分辨出需要关注的图像特征的重点区域,从而对该区域赋予更大的权重,使其有利于图像的分割,该过程重复进行多次,具体过程如下所示:

oi=ci·si+si

其中ci表示上采样得到的门控信号,si表示跨层连接信息;

(3-4)将经过步骤(3-3)处理的数据进行上采样处理,恢复到图像的原始分辨率,同时降低特征通道数量,该系列操作重复进行多次,最后将获得的数据进行加法运算,这样可以同时获得图像的语义信息和位置信息,最后进行softmax操作,输出分割结果;

(4)训练分割模型:将清洗后的数据放入分割模型中进行训练,动态更新模型的参数,到达设定的训练次数后保存模型和参数;

(二)推理阶段包括:

(1)获取图像:获取待处理的图像,包括互联网下载或者线下采集;

(2)图像预处理:对图像进行归一化处理,将多模态数据拼接成多通道数据;

(3)分割图像:将经过预处理的数据送入训练后的分割模型中进行分割处理;

(4)图像后处理:将分割后的数据进行格式对准操作,使输出图像符合要求的格式。

本发明提出了一种使用门控和自适应注意力的图像分割方法、系统和电子设备。通过使用自适应注意力机制和门控注意力机制,实现了对图像特征重点区域的关注,可以对图像特征的重点区域分配更多的资源,对深度学习分割方法的性能产生了很大的提升。

附图说明

图1是本发明一种使用门控和自适应注意力的图像分割方法的流程图;

图2是本发明一种使用门控和自适应注意力的图像分割模型的总体示意框图;

图3是本发明一种使用门控和自适应注意力的图像分割模型的部分示意框图;

图4是本发明一种使用门控和自适应注意力的图像分割系统的示意框图;

图5是本发明一种使用门控和自适应注意力的图像分割的电子设备整体结构示意图。

具体实施方式

为了能够更加详细的了解本发明的特点与技术内容,下面结合附图和实例对本发明作进一步说明,所附附图仅供参考说明使用。

如图1所示,本发明提出的一种使用门控和自适应注意力的图像分割方法的流程图如下文所示:

(一)训练阶段:获取图像,获取待处理的图像,包括互联网下载或者线下采集。图像预处理,对图像进行归一化处理,将多模态数据拼接成多通道数据,对数据进行清洗,去除无效数据。构建分割模型,使用门控注意力机制和自适应注意力机制构建分割模型。训练分割模型,将清洗后的数据放入分割模型中进行训练,动态更新模型的参数,到达设定的训练次数后保存模型和参数。

(二)推理阶段:获取图像,获取待处理的图像,包括互联网下载或者线下采集。图像预处理,对图像进行归一化处理,将多模态数据拼接成多通道数据。分割图像,将经过预处理的数据送入训练后的分割模型中进行分割处理。图像后处理,将分割后的数据进行格式对准操作,使输出图像符合要求的格式。

如图2、图3所示,一种使用门控和自适应注意力的图像分割方法的具体步骤如下文所示:

(1)对数据集进行预处理:对数据集进行归一化处理,即将数据集处理成均值为0,方差为1的标准数据集,避免图像像素亮度分布不平衡从而对后续处理带来干扰;将多模态数据拼接成多通道数据,使数据的格式符合分割方法的输入格式;进行数据清洗,将数据集中没有标签的图像去除;将图像的标签转换成独热码,得到最终的数据,此时数据格式为n×h×w×c;

(2)将步骤(1)处理的数据送入残差单元提取特征。残差单元由两个串联的具有3×3卷积核的卷积操作并联一个具有1×1卷积核的卷积操作组成,该单元不仅可以提取出图像的特征向量,而且其采用的并联卷积操作类似于残差网络中的跳跃连接,可以在一定程度上解决网络的梯度消失问题,提高网络的深度。卷积操作的步长均为1×1,每个卷积操作后面都跟着一个批归一化层,然后使用relu激活函数进行激活。残差单元输出的数据进行两倍的下采样处理,降低数据量,提高数据的信噪比,提升系统的鲁棒性。残差单元和下采样操作过程重复进行四次,提取的特征通道数量依次为32,64,128,256;

(3)将步骤(2)处理的数据送入一个残差单元,提取的特征通道数量为512,此时的数据格式为b×h×w×512。将残差单元输出的数据送入自适应注意单元,该单元首先将输入数据的格式变为bhw×512,然后使用矩阵转置将该数据变为512×bhw,即512个特征向量,这512个特征向量包括了每一个特征通道的全部信息,将处理后的信息送入长短时记忆网络,输出512个描述特征通道重要程度的度量数据,然后使用softmax操作将其转变为每一个特征通道的权重,使用乘法运算将权重与对应的特征通道相乘,得到加权特征通道,因为该操作较于复杂,有可能导致网络的梯度消失问题,故将加权特征通道与原始特征通道进行加法运算,过程如下所示:

yi(t)=f(xi(t)·wi+yi(t-1)·vi+bi)

o(xi)=si·xi+xi

xi表示第i个特征通道的值,yi表示自动学习的第i个特征通道的度量值,si表示第i个特征通道的权重值,oi表示加权后的第i个特征通道的值,wi和bi表示t时刻的网络学习到的参数值,vi表示t-1时刻的值对当前时刻的影响因子;

(4)将步骤(3)处理的数据进行两倍的上采样操作,恢复图像的分辨率,然后将数据送入门控残差单元。门控残差单元首先将经过上采样操作的数据进行卷积操作,卷积核和步长均为为1×1,该操作用于对齐步骤(2)对应的位置传送过来的数据的特征通道数量。然后,将经过对齐操作的数据作为门控信号(权重信号),控制步骤(2)对应的位置传送过来的信息(跨层连接信息),其主要过程为:门控信号乘上跨层连接信息,为了防止信息的不当丢失,最后需要再加上跨层连接信息。跨层连接信息包含了图像roi区域的位置信息,同时包含了大量的冗余信息,使用门控注意力机制可以分辨出需要关注的图像特征的重点区域,从而对该区域赋予更大的权重,使其有利于图像的分割。接着,将经过上述过程处理的信息送入残差单元提取更加丰富的图像语义信息。上采样操作和门控残差单元共重复进行四次,提取的特征通道的数量依次为256,128,64,32,具体过程如下所示:

oi=ci·si+si

其中ci表示上采样得到的门控信号,si表示跨层连接信息;

(5)为了有效的利用特征的多尺度信息,需要将图像的低维信息和高维信息联合起来。在传统的神经网络结构中,低维特征反应了图像的位置信息,高维特征反应了图像的语义信息。传统的图像分割网络忽视了低维信息的影响,导致图像的分割效果不够好。我们将图像的高维信息和低维信息结合起来,有利于图像的精确分割。其主要过程为,首先,将不同的维度信息上采样到原始图像大小,然后使用卷积核为1×1的卷积调整他们,将特征的数量减少到32,在每一个卷积层之后加入了一个批归一化层,再经过线性整流函数激活。最后,我们将这些信息相加,这样既得到了高维信息,又得到了低维信息。

(6)融合后的特征经过一个具有1×1卷积核的卷积层,通过归一化指数函数激活,完成每一个像素的分类,根据分类结果即可获得最终的分割图。

本发明还提出了一种使用门控和自适应注意力的图像分割系统,其结构如图4所示,包括数据采集器、数据存储器、数据处理器。

其中,数据采集器可以采集图像数据;所述数据存储器中包括一种使用门控和自适应注意力的图像分割方法程序;所述使用门控和自适应注意力的图像分割方法程序被所述数据处理器执行时实现如下步骤:获取图像,获取由系统用户提供的图像数据;图像预处理,对图像进行归一化处理,将多模态数据拼接成多通道数据;分割图像,加载训练好的分割模型以及参数,自动分割预处理后的图像;显示分割结果,将分割后的结果使用不同的颜色在原始的图像上面标注出来,进行显示。

本发明还包括一种使用门控和自适应注意力的图像分割的电子设备,如图5所示,具体包括程序存储器、数据存储器、嵌入式神经网络处理器(npu)、显示终端、输入设备、电源设备和总线,各设备通过总线完成相互间的通信。

所述程序存储器存储有可被一个或多个嵌入式神经网络处理器执行的指令;所述数据存储器存储有被嵌入式神经网络处理器处理前的数据以及处理后的数据;所述嵌入式神经网络处理器执行程序存储器中保存的指令,指令被嵌入式神经网络处理器执行时,使嵌入式神经网络处理器执行如上所述的数据处理方法;所述显示终端显示用于对数据的可视化展示与操作;所述输入设备用于对设备的操作与控制;所述电源设备用于对以上设备进行供电。

本发明的效果可以通过实验结果进一步说明。

将brats2017数据集经过步骤(1)所示方法处理,随机打乱后分成5份,每次取4份作为训练集,剩下的1份作为验证集,共做5次交叉验证,将5次验证之后的结果取均值,作为最终的实验结果。在多个性能指标上面与传统的分割方法相比(采用同一个brats2017数据集),本发明提出的方法分割精度有明显提升,而且泛化性能更好。从表1可以看到,采用本发明(表1中加粗区域)后,算法分割的dice系数得到了有效提升,说明使用门控和自适应注意力的图像分割方法,可以有效的区分图像特征的重点区域,从而提高图像分割的精度。

表1

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1