用于街景理解的基于像素重排重建的语义分割方法及系统与流程

文档序号：18269777发布日期：2019-07-27 09:33阅读：246来源：国知局

本发明涉及计算机视觉技术领域，具体涉及一种用于街景理解的基于像素重排重建的语义分割方法及系统。

背景技术：

图像语义分割是人工智能领域中计算机视觉的一个重要分支，是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别，使其与图像本身的视觉表示内容一致，所以图像语义分割任务也被称为像素级的图像分类任务。

由于图像语义分割与图像分类有一定的相似性，所以各式各样的图像分类网络常常在剔除最后的全连接层后，作为图像语义分割网络的主干网，并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征，最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下，图像语义分割的难度要更高，因为它不仅需要全局的上下文信息，还需要结合精细的局部信息来确定每个像素点的类别，所以常常利用主干网来提取较为全局的特征，然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征，所以常常把前者称为编码网络，后者称为解码网络。同时在编码过程中，为了能更好捕获不同大小物体的特征，常常结合不同感受野和尺度信息，比如带孔空间金字塔池化技术，不能有效地对点本身特征进行表示，而且在计算不同尺度特征特征时没有重用较小的尺度特征。同时，在现有的语义分割方法中，解码过程中一般都使用转置卷积或者双线性插值等方法将特征逐级扩大，因此特征尺寸是逐级递增的，无法有效地对重建特征进行特征重用。而且在这过程中常常会加入浅层特征来优化解码过程，但没有对浅层特征设计一个明确的优化目标，因此在重建过程中修复细节的能力稍显不足。

技术实现要素：

本发明的目的在于提供一种用于街景理解的基于像素重排重建的语义分割方法及系统，该方法及系统有利于提高图像语义分割的准确性和鲁棒性。

为实现上述目的，本发明的技术方案是：一种用于街景理解的基于像素重排重建的语义分割方法，包括以下步骤：

步骤a：对训练集输入图像进行预处理，首先让图像减去其图像均值使其标准化，然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像；

步骤b：用卷积网络提取通用特征fbackbone，再基于通用特征fbackbone获取稠密带孔空间金字塔融合特征fdaspp，用于捕获多尺度上下文信息，然后以这两部分级联作为编码网络提取编码特征fencoder；

步骤c：从所述卷积网络中选取中间层特征结合编码特征fencoder计算边缘特征以基于像素重排技术的稠密网为解码网络，进行图像分辨率重建，计算解码特征fdecoder；

步骤d：用解码特征fdecoder和边缘特征分别获取语义分割概率图和边缘概率图，以训练集中的语义图像标注计算边缘图像标注，利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标来对整个深度神经网络进行训练；

步骤e：利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果。

进一步地，所述步骤b中，用卷积网络提取通用特征fbackbone，再基于通用特征fbackbone获取稠密带孔空间金字塔融合特征fdaspp，然后以这两部分级联作为编码网络提取编码特征fencoder，包括以下步骤：

步骤b1：使用卷积网络对预处理图像提取通用特征fbackbone；

步骤b2：使用1×1卷积对特征fbackbone进行特征降维，得到特征将与fbackbone拼接得到

步骤b3：使用1×1卷积对特征进行降维，然后用孔率为ras的卷积核进行带孔卷积得到特征并将和拼接结果作为新的卷积过程中使用批标准化来保持输入的同分布，用线性整流函数作为激活函数；其中，带孔卷积计算公式如下：

其中，表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果，xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素，was[kas]表示在带孔卷积核作为kas位置的权重；

步骤b4：使用多个不同的孔率重复上一步骤，直至获得ndaspp个特征；

步骤b5：对fbackbone整张图像进行平均池化，然后再使用最近邻插值恢复到原尺寸，再经过1×1卷积得到图像级特征fimage，然后将和fimage拼接结果作为新的再用一个不同孔率执行步骤b3；

步骤b6：使用1×1卷积对进行降维，然后再用深度学习中的dropout进行正则化，得到最后的编码特征fencoder。

进一步地，所述步骤c中，从所述卷积网络中选取中间层特征结合编码特征fencoder计算边缘特征以基于像素重排技术的稠密网为解码网络，进行图像分辨率重建，计算特征图fdecoder，包括以下步骤：

步骤c1：将fencoder作为当前的解码特征fdecoder；

步骤c2：定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅，使用像素重排技术处理fdecoder，得到输出步幅为os的像素重排计算公式如下：

其中，rhs和rws分别表示和fdecoder尺寸的上取整高度比和上取整宽度比，表示在坐标位置通道处的像素值，表示在坐标位置通道处的像素值；

步骤c3：使用最近邻插值处理编码特征fencoder，得到与尺寸相同的特征图

步骤c4：从提取通用特征的卷积网络中选取输出步幅为os的中间层特征双线性插值到与相同尺寸后再与拼接，然后使用1×1卷积进行降维后，再使用3×3卷积提取特征得到边缘特征

步骤c5：拼接和使用1×1卷积进行降维后，再使用3×3卷积提取特征得到解码特征fdecoder，然后拼接作为新的解码特征fdecoder；

步骤c6：选取比步骤c2中更小的输出步幅os，如果全部输出步幅处理完成，则解码特征提取完成，否则重复步骤c2至c5。

进一步地，所述步骤d中，用解码特征fdecoder和边缘特征分别获取语义分割概率图和边缘概率图，以训练集中的语义图像标注计算边缘图像标注，利用语义分割概率图和边缘概率图以及它们各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标来对整个深度神经网络进行训练，包括以下步骤：

步骤d1：用双线性插值将fdecoder缩放到与输入图像的尺寸相同，并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率，softmax计算公式如下：

其中，σc为c类别的概率，e为自然指数，γc和γk分别表示类别为c和k的未激活特征值，c为总类别数；

步骤d2：用双线性插值将所有的缩放到与输入图像的尺寸相同，并将所有拼接使用不带激活函数的1×1卷积计算得到合并边缘特征fedge，然后对fedge使用sigmoid激活得到边缘概率图，sigmoid计算公式如下：

其中，s(ε)表示fedge中的特征值ε经过sigmoid处理后的概率，e为自然指数；

步骤d3：利用训练集的语义分割标注计算边缘标注，计算公式如下：

其中，yedge(i,j)和为坐标(i,j)位置的边缘标注和语义标注，(iu,ju)表示(i,j)坐标下的8邻域u8中的一组坐标，sgn()为符号函数；

步骤d4：利用语义分割和边缘两者的概率图与其对应标注，分别计算像素级的交叉熵，得到对应语义分割损失ls和辅助监督的边缘损失ledge，然后计算加权和损失l：

l＝ls+αledge

其中，ledge为合并边缘特征fedge对应的损失值，α为ledge在最终损失中所占的权重；

最后通过随机梯度下降优化方法，利用反向传播迭代更新模型参数，以最小化加权和损失l来训练整个深度神经网络，得到最后的深度神经网络模型。

本发明还提供了一种用于街景理解的基于像素重排重建的语义分割系统，包括：

预处理模块，用于对训练集输入图像进行预处理，包括让图像减去其图像均值使其标准化，以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像；

编码特征提取模块，用于用卷积网络提取通用特征fbackbone，再基于通用特征fbackbone获取稠密带孔空间金字塔融合特征fdaspp，用于捕获多尺度上下文信息，然后以这两部分级联作为编码网络提取编码特征fencoder；

解码特征提取模块，用于从所述卷积网络中选取中间层特征结合编码特征fencoder计算边缘特征以基于像素重排技术的稠密网为解码网络，进行图像分辨率重建，提取解码特征fdecoder；

神经网络训练模块，用于用解码特征fdecoder和边缘特征分别获取语义分割概率图和边缘概率图，以训练集中的语义图像标注计算边缘图像标注，利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标来对整个深度神经网络进行训练，得到深度神经网络模型；以及

语义分割模块，用于利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果。

相较于现有技术，本发明的有益效果是：首先在编码网络中的主干网过后的多尺度特征捕获中使用了稠密带孔空间金字塔池化，针对性地在带孔空间金字塔池化中对感受野从小到大的特征进行重用，使用编码特征得到更好的学习。然后在解码网络结合受辅助边缘监督的浅层特征，巧妙地利用像素重排的方式自然地让各级重建特征的尺寸统一起来，从而满足稠密网的基本要求，利用稠密网的方式针对性地对分辨率重建过程中的特征进行更有效地重用。与现有方法相比，本发明能在编码过程中有效地重用小尺度特征获取更强大的大尺度特征，同时获取更有点性质代表的编码特征，解码过程中利用像素重排的方式自然而巧妙地满足了稠密网的要求，从而使得重建特征可以进行重用，更便于解码网络的学习，同时对浅层特征进行边缘监督，明确其优化目标，能从边缘优化的角度更好地提高不同物体间的分割能力，使得最后的语义分割结果更准确且鲁棒。

附图说明

图1是本发明实施例的方法实现流程图。

图2是本发明实施例的系统结构示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种用于街景理解的基于像素重排重建的语义分割方法，如图1所示，包括以下步骤：

步骤a：对训练集输入图像进行预处理，首先让图像减去其图像均值使其标准化，然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像。

步骤b：用通用的卷积网络提取通用特征fbackbone，再基于通用特征fbackbone获取稠密带孔空间金字塔融合特征fdaspp，用于捕获多尺度上下文信息，然后以步骤b中所述这两部分级联作为编码网络提取编码特征fencoder；具体包括以下步骤：

步骤b1：使用通用的卷积网络(本实施例采用deeplabv3+网络中提供的xception)对预处理图像提取通用特征fbackbone；

步骤b2：使用1×1卷积对特征fbackbone进行特征降维，得到特征将与fbackbone拼接得到

步骤b4：使用多个不同的孔率重复上一步骤，直至获得ndaspp个特征(本实施例为3个特征，孔率分别为6，12，18)；

步骤b5：对fbackbone整张图像进行平均池化，然后再使用最近邻插值恢复到原尺寸，再经过1×1卷积得到图像级特征fimage，然后将和fimage拼接结果作为新的再用一个不同孔率(本实施例中为24)执行步骤b3；

步骤b6：使用1×1卷积对进行降维，然后再用深度学习中的dropout进行正则化，得到最后的编码特征fencoder。

步骤c：从所述卷积网络中选取中间层特征结合编码特征fencoder计算边缘特征以基于像素重排技术的稠密网为解码网络，进行图像分辨率重建，计算解码特征fdecoder；具体包括以下步骤：