图像语义分割方法、装置、电子设备和计算机可读介质与流程

文档序号：17070636发布日期：2019-03-08 23:17阅读：128来源：国知局

本发明涉及图像处理的
技术领域：
，尤其是涉及一种图像语义分割方法、装置、电子设备和计算机可读介质。
背景技术：
：近年来，基于深度学习的图像语义分割模型已经取得了非常出色的成功。针对语义分割任务，通常有三种方式：(1)、将训练好的卷积神经网络的全连接层转化成卷积层后在语义分割数据集上进行微调；(2)在卷积神经网络中引入扩张卷积操作以增加其感受野，这样能够使网络更全面地理解图像中的内容；(3)、利用神经网络提取图像的全局特征，之后和图像的卷积神经网络特征融合后得到图像的语义分割结果，引入全局信息的目的是为了缩小网络对输入图像中语义物体的预测范围。针对不同的内容的输入图像，上述三种方式均没有考虑到神经网络中不同层次特征的特点：神经网络中低层次特征空间位置信息丰富但语义信息缺乏，高层次特征空间位置信息缺乏但语义信息丰富。因此，采用上述三种方式得到的语义分割结果精确度较低，且效果较差。技术实现要素：有鉴于此，本发明的目的在于提供一种图像语义分割方法、装置、电子设备和计算机可读介质，以缓解现有的语义分割方式得到的语义分割结果精确度较低，且效果较差的技术问题。第一方面，本发明实施例提供了一种图像语义分割方法，包括：获取待处理图像，并通过特征提取网络从所述待处理图像中提取多尺度特征信息；按照特征信息的通道维度对所述多尺度特征信息进行叠加，得到叠加特征信息；利用语义分割模型对所述叠加特征信息进行处理，以处理得到所述待处理图像的语义分割结果，其中，所述语义分割结果用于表征所述待处理图像中每个像素所属的类别信息。进一步地，所述特征提取网络包括特征提取子网络，所述特征提取子网络的数量为多个，多个所述特征提取子网络依次级联连接，且所述特征提取子网络输出的特征信息的分辨率依次降低。进一步地，通过特征提取网络从所述待处理图像中提取多尺度特征信息包括：利用所述多个特征提取子网络依次提取所述待处理图像的特征信息，得到多尺度的特征信息；通过上采样的方式将所述多尺度的特征信息调整到相同的分辨率。进一步地，所述特征提取子网络包括：第一组特征提取子网络和第二组特征提取子网络，所述第一组特征提取子网络的输出端与所述第二组特征提取子网络的输入端相连接，所述第一组特征提取子网络包括多个级联连接的第一特征提取子网络，所述第二组特征提取子网络包括多个级联连接的第二特征提取子网络。进一步地，通过特征提取网络从所述待处理图像中提取多尺度特征信息包括：通过所述多个第一特征提取子网络依次对所述待处理图像进行特征提取，得到第一组多尺度特征信息；通过所述多个第二特征提取子网络对所述第一组多尺度特征信息中的目标特征信息依次进行特征提取，得到第二组多尺度特征信息，其中，所述目标特征信息为所述第一组特征提取子网络中与所述第二组特征提取子网络相连接的第一特征提取子网络输出的特征信息。进一步地，所述第二特征提取子网络包括：带参数的池化操作模块和第一残差模块；通过所述多个第二特征提取子网络对所述第一组多尺度特征信息中的目标特征信息依次进行特征提取包括：通过第二特征提取子网络ai中带参数的池化操作模块对输入特征信息进行池化操作，得到特征信息bi；其中，所述输入特征信息为所述第二特征提取子网络ai的上一连接模块输出的特征信息，i依次取1至i，i为所述第二特征提取子网络的数量；利用所述第二特征提取子网络ai中的第一残差模块对所述特征信息bi进行整合处理，得到整合之后的特征信息，并将所述整合之后的特征信息作为所述第二组多尺度特征信息中的特征信息。进一步地，所述带参数的池化操作模块包括：第一分支和第二分支，其中，所述第一分支包括第一平均池化操作模块，所述第二分支包括：第一卷积层和第二平均池化操作模块；通过第二特征提取子网络ai中带参数的池化操作模块对输入特征信息进行池化操作，得到特征信息bi包括：通过所述第一平均池化操作模块对所述输入特征信息进行池化处理，得到第一池化结果；通过所述第一卷积层对所述输入特征信息进行卷积计算，得到第一卷积计算结果，并通过所述第二平均池化操作模块对所述第一卷积计算结果进行池化处理，得到第二池化结果；将所述第一池化结果和所述第二池化结果进行融合，得到所述特征信息bi。进一步地，利用所述第二特征提取子网络ai中的第一残差模块对所述特征信息bi进行整合处理，得到整合之后的特征信息包括：通过所述第一残差模块中的至少一个卷积层对所述特征信息bi进行卷积处理，得到第二卷积计算结果；对所述第二卷积计算结果和所述特征信息bi进行元素加和操作，得到所述整合之后的特征信息。进一步地，按照特征信息的通道维度对所述多尺度特征信息进行叠加，得到叠加特征信息包括：对所述多尺度特征信息进行调整至预设分辨率；按照特征信息的通道维度对调整至预设分辨率的所述多尺度特征信息进行叠加，得到叠加特征信息。进一步地，获取待处理图像包括：获取待处理原始rgb图像；将所述待处理原始rgb图像的分辨率调整到预设分辨率，并计算调整到预设分辨率的所述待处理原始rgb图像的像素值与图像均值之间的差值，得到所述待处理图像。进一步地，所述语义分割模型包括：第二卷积层，第二残差模块，第三卷积层，反卷积层和分类输出模块softmax；利用语义分割模型对所述叠加特征信息进行处理，以处理得到所述待处理图像的语义分割结果包括：通过所述第二卷积层对所述叠加特征信息卷积处理，得到第三卷积计算结果；通过所述第二残差模块对所述第三卷积计算结果进行整理，得到整理数据；通过所述第三卷积层和所述反卷积层对所述整理数据进行计算，得到目标特征图，其中，所述目标特征图的分辨率与所述原始图像的分辨率相同；通过所述分类输出模块softmax对所述目标特征图进行处理，得到所述语义分割结果的特征图。进一步地，所述方法还包括：获取训练样本，其中，每个训练样本包括：训练图像和所述训练图像的基准图像，所述基准图像为所述训练图像的基准语义分割图像；通过所述训练样本对原始特征提取网络和原始语义分割模块进行训练，得到所述特征提取网络和所述语义分割模块。进一步地，所述方法还包括：获取所述原始特征提取网络和所述原始语义分割模块的训练结果；基于所述训练结果构建损失函数；基于所述损失函数的取值对所述原始特征提取网络和所述原始语义分割模块的参数进行调整。进一步地，在训练得到所述特征提取网络和所述语义分割模块之后，所述方法还包括：通过测试样本对训练之后的所述原始特征提取网络和所述原始语义分割模块进行测试，并基于测试结果计算平均重叠度值和/或平均像素精确度值，其中，所述平均重叠度值表示各个所述训练图像的预测语义分割结果与所述训练图像的基准图像之间交并比的均值，所述平均像素精确度值表示所述训练图像的预测语义分割结果中全部分类正确的像素点与真实类别像素点的比值的平均值；利用所述平均重叠度值和/或所述平均像素精确度值对训练之后的所述原始特征提取网络和所述原始语义分割模块进行性能评价。第二方面，本发明实施例还提供了一种图像语义分割装置，包括：获取和特征提取单元，用于获取待处理图像，并通过特征提取网络从所述待处理图像中提取多尺度特征信息；叠加单元，用于按照特征信息的通道维度对所述多尺度特征信息进行叠加，得到叠加特征信息；信息处理单元，用于利用语义分割模型对所述叠加特征信息进行处理，以处理得到所述待处理图像的语义分割结果，其中，所述语义分割结果用于表征所述待处理图像中每个像素所属的类别信息。第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤。第四方面，本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述第一方面中任一项所述的方法的步骤。在本发明实施例中，首先，获取待处理图像，并通过特征提取网络提取待处理图像中提取多尺度特征信息；然后，按照特征信息的通道维度对多尺度特征信息进行叠加，得到叠加特征信息；最后，利用语义分割模型对叠加特征信息进行处理，得到待处理图像的语义分割结果。通过上述描述可知，在本实施例中，本发明有效考虑到神经网络中低层次特征空间位置信息丰富而语义信息缺乏、高层次特征空间位置信息缺乏而语义信息丰富的特点，利用特征提取网络自适应地提取待处理图像的多尺度特征信息，多尺度特征信息中既包含空间信息丰富的低层次特征，有包含语义信息丰富的高层次特征信息，进而缓解了现有的语义分割方式得到的语义分割结果精确度较低，且效果较差的技术问题。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。附图说明为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1是根据本发明实施例的一种电子设备的示意图；图2是根据本发明实施例的一种图像语义分割方法的流程图；图3是根据本发明实施例的一种图像语义分割方法的流程图示意图；图4是根据本发明实施例的一种语义分割网络的结构示意图；图5是根据本发明实施例的一种带参数的池化操作模块的结构示意图；图6是根据本发明实施例的一种残差bottleneck模块的结构示意图；图7是根据本发明实施例的一种双线性插值方法示意图；图8是根据本发明实施例的一种图像语义分割方法和不同语义分割方法结果对比图；图9是根据本发明实施例的一种图像语义分割装置的示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。实施例1：首先，参照图1来描述用于实现本发明实施例的电子设备100，该电子设备可以用于运行本发明各实施例的图像处理。如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及摄像机110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。所述处理器102可以采用数字信号处理器(dsp，digitalsignalprocessing)、现场可编程门阵列(fpga，field－programmablegatearray)、可编程逻辑阵列(pla，programmablelogicarray)和asic(applicationspecificintegratedcircuit)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(cpu，centralprocessingunit)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。所述摄像机110用于进行采集图像数据，其中，摄像机所采集的数据经过所述图像处理进行处理之后得到终端设备的语义分割结果。示例性地，用于实现根据本发明实施例的图像处理的电子设备可以被实现为诸如智能手机、平板电脑等智能移动终端。实施例2：根据本发明实施例，提供了一种图像语义分割方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。图2是根据本发明实施例的一种图像语义分割方法的流程图，如图2所示，该方法包括如下步骤：步骤s202，获取待处理图像，并通过特征提取网络从所述待处理图像中提取多尺度特征信息；可选地，获取待处理图像包括：首先获取待处理原始rgb图像；然后，将所述待处理原始rgb图像的分辨率调整到预设分辨率，并计算调整到预设分辨率的所述待处理原始rgb图像的像素值与图像均值之间的差值，得到所述待处理图像。其中，图像均值来源于imagenet图像数据集上的均值统计。步骤s204，按照特征信息的通道维度对所述多尺度特征信息进行叠加，得到叠加特征信息；步骤s206，利用语义分割模型对所述叠加特征信息进行处理，以处理得到所述待处理图像的语义分割结果，其中，所述语义分割结果用于表征所述待处理图像中每个像素所属的类别信息。在本发明实施例中，首先，获取待处理图像，并通过特征提取网络提取待处理图像中提取多尺度特征信息；然后，按照特征信息的通道维度对多尺度特征信息进行叠加，得到叠加特征信息；最后，利用语义分割模型对叠加特征信息进行处理，得到待处理图像的语义分割结果。通过上述描述可知，在本实施例中，本发明有效考虑到神经网络中低层次特征空间位置信息丰富而语义信息缺乏、高层次特征空间位置信息缺乏而语义信息丰富的特点，利用特征提取网络自适应地提取待处理图像的多尺度特征信息，多尺度特征信息中既包含空间信息丰富的低层次特征，有包含语义信息丰富的高层次特征信息，进而缓解了现有的语义分割方式得到的语义分割结果精确度较低，且效果较差的技术问题。在本实施例的一个可选实施方式中，特征提取网络包括特征提取子网络，所述特征提取子网络的数量为多个，多个所述特征提取子网络依次级联连接，且所述特征提取子网络输出的特征信息的分辨率依次降低。如图3所示，在本实施例中，特征提取网络包括8个特征提取子网络，分别为block1-block8。从图3中可以看出，特征提取子网络block1-block8依次级联连接，且特征提取子网络block1-block8输出的特征信息的分辨率依次降低。基于图3，在本实施例中，步骤s202，通过特征提取网络从所述待处理图像中提取多尺度特征信息包括如下步骤：步骤s2021，利用所述多个特征提取子网络依次提取所述待处理图像的特征信息，得到多尺度的特征信息；步骤s2022，通过上采样的方式将所述多尺度的特征信息调整到相同的分辨率。具体地，在本实施例中，利用如图3所示的特征提取子网络block1-block8依次提取待处理图像的特征信息，得到多尺度特征信息。在得到多尺度特征信息之后，就可以多尺度特征信息中分辨率为预设分辨率的特征信息确定为待处理图像的多尺度特征信息。假设，预设分辨率为[h/8，w/8]，其中，待处理图像的分辨率为[h，w]。且假设在如图3所示的示意图中，block3输出的特征信息f1的分辨率为[h/8，w/8]，且block4输出的特征信息f2和block5输出的特征信息f3的分辨率依次为[h/16，w/16]和[h/32，w/32]。block6至block8输出的特征信息的分辨率依次为：f4[h/64，w/64]、f5[h/128，w/128]和f6[h/256，w/256]。在本实施例中，可以将block3至block8输出的特征信息调整到相同的分辨率。在得到上述多尺度的特征信息之后，就可以按照特征信息的通道维度对所述多尺度特征信息进行叠加，得到叠加特征信息。在一个可选的实施方式中，步骤s204，按照特征信息的通道维度对所述多尺度特征信息进行叠加，得到叠加特征信息包括如下步骤：步骤s2041，对所述多尺度特征信息进行调整至预设分辨率；步骤s2042，按照特征信息的通道维度对调整至预设分辨率的所述多尺度特征信息进行叠加，得到叠加特征信息。在本实施例中，如图3所示，可以通过上采样模块对block4至block8输出的特征信息进行上采样处理，以将block4至block8输出的特征信息调整至预设分辨率，即[h/8，w/8]。通过上述描述可知，在本实施例中，该上采样模块与多个特征子模块中的目标特征子模块相连接，目标特征子模块输出的特征信息的分辨率小于预设分辨率。在按照上述得到待处理图像的多尺度特征信息之后，就可以按照特征信息的通道维度对调整至预设分辨率的所述多尺度特征信息进行叠加，得到叠加特征信息。在本实施例中，特征提取子网络包括：第一组特征提取子网络和第二组特征提取子网络，所述第一组特征提取子网络的输出端与所述第二组特征提取子网络的输入端相连接，所述第一组特征提取子网络包括多个级联连接的第一特征提取子网络，所述第二组特征提取子网络包括多个级联连接的第二特征提取子网络。如图4所示，第一组特征提取子网络包括的多个级联连接的第一特征提取子网络依次为：block1至block5，第二组特征提取子网络包括的多个级联连接的第二特征提取子网络依次为：block6至block8。可选地，第二特征提取子网络包括：带参数的池化操作模块和第一残差模块。基于图4，步骤s202，通过特征提取网络从所述待处理图像中提取多尺度特征信息包括如下步骤：步骤s11，通过所述多个第一特征提取子网络依次对所述待处理图像进行特征提取，得到第一组多尺度特征信息；步骤s12，通过所述多个第二特征提取子网络对所述第一组多尺度特征信息中的目标特征信息依次进行特征提取，得到第二组多尺度特征信息，其中，所述目标特征信息为所述第一组特征提取子网络中与所述第二组特征提取子网络相连接的第一特征提取子网络输出的特征信息。可选地，若第二特征提取子网络包括：带参数的池化操作模块和第一残差模块；那么步骤s12，通过所述多个第二特征提取子网络对所述第一组多尺度特征信息中的目标特征信息依次进行特征提取包括如下步骤：步骤s121，通过第二特征提取子网络ai中带参数的池化操作模块对输入特征信息进行池化操作，得到特征信息bi；其中，所述输入特征信息为所述第二特征提取子网络ai的上一连接模块输出的特征信息，i依次取1至i，i为所述第二特征提取子网络的数量；步骤s122，利用所述第二特征提取子网络ai中的第一残差模块对所述特征信息bi进行整合处理，得到整合之后的特征信息，并将所述整合之后的特征信息作为所述第二组多尺度特征信息中的特征信息。具体地，在本实施例中，对于输入分辨率大小为[h，w]的待处理图像，首先，通过多个第一特征提取子网络(例如，图4中所示的block1至block5对待处理图像进行特征提取，以提取其不同分辨率大小的特征信息f1、f2和f3，其特征分辨率分别是[h/8，w/8]、[h/16，w/16]和[h/32，w/32]。对于分辨率大小为[h/32，w/32]的特征信息f3(即，目标特征信息)，使用多个第二特征提取子网络对特征信息f3进行处理，可以得到分辨率大小分别是[h/64，w/64]、f5[h/128，w/128]和f6[h/256，w/256]的特征信息f4、f5和f6。例如，如图4中的第二特征提取子网络a1中带参数的池化操作模块对输入特征信息进行池化操作，得到特征信息b1，并利用第二特征提取子网络a1中的第一残差模块对特征信息b1进行整合处理，得到整合之后的特征信息f4，此时，输入特征信息为特征信息f3。如图4中的第二特征提取子网络a2中带参数的池化操作模块对输入特征信息进行池化操作，得到特征信息b2，并利用第二特征提取子网络a2中的第一残差模块对特征信息b2进行整合处理，得到整合之后的特征信息f5，此时，输入特征信息为特征信息f4。如图4中的第二特征提取子网络a3中带参数的池化操作模块对输入特征信息进行池化操作，得到特征信息b3，并利用第二特征提取子网络a3中的第一残差模块对特征信息b3进行整合处理，得到整合之后的特征信息f6，此时，输入特征信息为特征信息f5。如图5所示，带参数的池化操作模块包括：第一分支和第二分支，其中，所述第一分支包括第一平均池化操作模块，所述第二分支包括：第一卷积层和第二平均池化操作模块。基于此，步骤s121，通过第二特征提取子网络ai中带参数的池化操作模块对输入特征信息进行池化操作，得到特征信息bi包括如下步骤：首先，通过所述第一平均池化操作模块对所述输入特征信息进行池化处理，得到第一池化结果；然后，通过所述第一卷积层对所述输入特征信息进行卷积计算，得到第一卷积计算结果，并通过所述第二平均池化操作模块对所述第一卷积计算结果进行池化处理，得到第二池化结果；最后，将所述第一池化结果和所述第二池化结果进行融合，得到所述特征信息bi。基于此，步骤s122，利用所述第二特征提取子网络ai中的第一残差模块对所述特征信息bi进行整合处理，得到整合之后的特征信息包括如下步骤：通过所述第一残差模块中的至少一个卷积层对所述特征信息bi进行卷积处理，得到第二卷积计算结果；对所述第二卷积计算结果和所述特征信息bi进行元素加和操作，得到所述整合之后的特征信息。具体地，如图5所示，输入至第二组特征提取网络中的特征信息x(也即，f3)分成两路，一路直接通过第一分支中的第一平均池化操作模块进行均值池化操作处理，另一路则通过两路层级联的第一卷积层进行卷积操作后再通过第二分支中的第二平均池化操作模块进行池化操作，两路分别经过不同池化操作处理的信息流通过元素加和的方式融合，得到特征信息bi。之后，融合后的特征信息bi经过如图6所示的第一残差bottleneck模块进行整合，得到分辨率大小分别为[h/64，w/64]、f5[h/128，w/128]和f6[h/256，w/256]的特征信息f4、f5和f6(即，整合之后的特征信息)。值得注意的是，带参数的残差均值池化操作模块中的卷积操作后面不存在任何激活响应函数。而在残差网络bottleneck模块中，经过卷积操作的信息流会流过relu激活响应函数进行非线性处理。在得到不同层次的特征信息之后，就可以利用双线性插值的方法将特征流f2、f3、f4、f5和f6的分辨率分别上采样至[h/8，w/8]。图7是本发明使用的双线性插值的示意图，对于特征信息中的p点，假设其坐标为，其周围四邻域q11、q21、q12、q22的坐标分别是(x1,y1)、(x2,y1)、(x1,y2)、(x2,y2)，且其对应的值分别是f(q11)、f(q21)、f(q12)、f(q22)，则可以利用公式(1)得到p的对应的值。同时，在反向传播过程中，利用公式(2)可以完成梯度信息的反向传播。其中，公式(1)为：其中，公式(2)为：在本实施例中，在按照上述处理方式得到多尺度特征信息之后，就可以按照特征信息的通道维度对所述多尺度特征信息进行叠加，得到叠加特征信息。并利用语义分割模型对所述叠加特征信息进行处理，以处理得到所述待处理图像的语义分割结果。如图4所示，语义分割模型包括：第二卷积层，第二残差模块，第三卷积层，反卷积层和分类输出模块softmax。基于此，步骤s206利用语义分割模型对所述叠加特征信息进行处理，以处理得到所述待处理图像的语义分割结果包括如下步骤：步骤s2061，通过所述第二卷积层对所述叠加特征信息卷积处理，得到第三卷积计算结果；步骤s2062，通过所述第二残差模块对所述第三卷积计算结果进行整理，得到整理数据；步骤s2063，通过所述第三卷积层和所述反卷积层对所述整理数据进行计算，得到目标特征图，其中，所述目标特征图的分辨率与所述原始图像的分辨率相同；步骤s2064，通过所述分类输出模块softmax对所述目标特征图进行处理，得到所述语义分割结果的特征图。具体地，在本实施例中，语义分割模块利用1层卷积核大小为1×1、步长为1的卷积层(第二卷积层)对输入的叠加特征信息流在特征通道维度进行降维，之后利用两个级联的bottleneck模块(第二残差模块)对第二卷积层输出的数据进行整合，整个后的特征信息通过2层级联的卷积操作和1层卷积核大小为16×16、步长为8的反卷积层(即第三卷积层和反卷积层)操作处理后，得到和待处理图像的原始图像相同分辨率的特征图，将其通过softmax响应函数能够获得相对于待处理图像相同分辨率的语义分割结果。在本实施例中，还需要对原始特征提取网络和原始语义分割模块进行训练，得到步骤s202至步骤s206中的特征提取网络和语义分割模块，具体包括：首先，获取训练样本，其中，每个训练样本包括：训练图像和所述训练图像的基准图像，所述基准图像为所述训练图像的基准语义分割图像；然后，通过所述训练样本对原始特征提取网络和原始语义分割模块进行训练，得到所述特征提取网络和所述语义分割模块。具体地，在本实施例中，首先需要训练原始特征提取网络和原始语义分割模块。本发明利用语义分割数据pascalvoc2012和额外的标注数据集sbd来训练并测试图像语义分割。混合的数据样本包含原始图像和基准图像各12031张，其中，训练样本中rgb图像和基准图像各10582张，测试样本中rgb图像和基准图像各1449张。对于训练样本中的图像，使用水平翻转rgb图像和基准图像的方法增加训练数样本数量。最终得到21064张训练图像，其中，训练样本中rgb图像的分辨率是480x480，基准图像的分辨率是480x480。在完成训练图像的预处理之后，利用现有的用于图像分类的网络senet-101的权重初始化本发明中特征提取网络的网络参数。具体的说，为了在初始化过程中保持网络参数的一致性，移除了senet-101网络中的全连接层。对于本发明提出的网络模型中新添加的池化模块中的参数和之后的一系列卷积和反卷积操作中的参数，使用随机方法xavier初始化其中的参数。在对原始特征提取网络和原始语义分割模块训练的过程中，在本实施例中，还可以获取所述原始特征提取网络和所述原始语义分割模块的训练结果；并基于所述训练结果构建损失函数；以及，基于所述损失函数的取值对所述原始特征提取网络和所述原始语义分割模块的参数进行调整。具体地，在本实施例中，可以利用前向和反向传播以及随机梯度下降方法来优化原始特征提取网络和原始语义分割模的网络参数。具体的说，利用对数似然损失函数作为网络的损失函数，其公式为：l＝-∑iyilogpi，其中，其中表示基准图像或预测语义分割结果中的位置索引，表示位置索引处对应的语义标签，表示位置索引处的预测概率，和分别表示位置索引处和处的激活响应值。需要说明的是，在本实施例中，首先将训练图像与基准图像分别调整至480×480，同时进行水平翻转以加倍训练样本数量。之后对训练图像减去senet-101的均值进行归一化处理，这一均值从训练该原始特征提取网络和原始语义分割模块的图像数据集上统计得到。在原始特征提取网络和原始语义分割模块的训练过程中，本发明法设置网络中语义分割模块的学习率是特征信息提取模块的10倍，这种设置方式：1)可以保留原始网络中的语义信息；2)能够让新添加的网络参数得到合理的优化；3)有利于不同层次网络特征的信息整合。在本实施例中，在训练得到所述特征提取网络和所述语义分割模块之后，所述方法还包括：首先，通过测试样本对训练之后的所述原始特征提取网络和所述原始语义分割模块进行测试，并基于测试结果计算平均重叠度值和/或平均像素精确度值，其中，所述平均重叠度值表示各个所述训练图像的预测语义分割结果与所述训练图像的基准图像之间交并比的均值，所述平均像素精确度值表示所述训练图像的预测语义分割结果中全部分类正确的像素点与真实类别像素点的比值的平均值；然后，利用所述平均重叠度值和/或所述平均像素精确度值对训练之后的所述原始特征提取网络和所述原始语义分割模块进行性能评价。在本实施例中，在完成原始特征提取网络和原始语义分割模块的训练之后，可以利用该训练之后的原始特征提取网络和原始语义分割模块来预测测试样本的语义分割结果，其中，测试样本包括测试图像和测试图像的基准图像。具体的说，对于一张输入的测试图像，首先对图像进行预处理：把输入的测试图像的尺寸调整到480x480，然后减去图像均值(图像均值是从训练原始特征提取网络和原始语义分割模块的图像样本集上统计得到的均值)。之后把经过预处理的图像输入训练好的语义分割网络(即，训练之后的原始特征提取网络和原始语义分割模块)中，能够得到分辨率为480x480的语义分割结果，最后利用双线性上采样的方式将分割结果调整到输入图像的原始尺寸，得到最终的语义分割结果。在本实施例中，利用平均重叠度(miou)和/或平均像素精确度(pixel-wiseaccuracy)作为语义分割模型即，训练之后的原始特征提取网络和原始语义分割模块)的评测指标。假设两块区域a和b重叠在一起，则重叠度的定义公式为其中|a∩b|表示a和b重叠区域的面积，|a∪b|表示a和b重叠后的总面积。在语义分割任务中，|a∩b|和|a∪b|的面积分别用其中的像素点的数量表示。在得到所有图像的重叠度数值后，利用公式计算其平均值，并用平均重叠度(miou)作为语义分割方法的性能评测标中，平均重叠度(miou)的数值越大则说明语义分割算法的性能越好。平均像素精确度的定义如公式所示，其中，nc表示图像分割数据集中的类别数量，nij表示类别为i^的像素点被预测为类别j的数量，∑jnij表示类别为j的像素点的总数量。平均像素点精确度表示在语义分割结果中所有实际分类正确的像素点与真实类别像素点的比值的平均值，平均像素精确度的值越大说明语义分割方法的性能越好。发明人分别评测了4种不同的语义分割方法。这4种语义分割方法分别是deeplab、parsenet、dcn和本发明所提出的场景自适应语义分割方法。表1是这4种方法的评测结果对比。其中，ours表示本发明提出的语义分割方法。通过对比实验可以发现：1)相对于其他3种深度学习方法，通道自适应匹配的语义分割方法的平均类别重合度(miou)的最大相对提升量和最小相对提升量分别是15.22％和7.24％，平均像素点准确度的最大相对提升量和最小相对提升量分别是2.04％和1.17％。这充分说明了本发明的有效性。表2展示了不同语义分割结果中各类别语义物体的平均重合度和平均类别重合度。表中黑体加粗的数值表示对应的方法在该类别物体上得到的平均重合度的数值是最大的，miu表示所有类别的平均重合度。同时，图8直观展示了通道自适应的语义分割方法和deeplab、parsenet、dcn三种方法分割结果之间的差别。表1方法deeplabparsenetdcnours平均重叠度0.6900.7000.7320.785平均像素点精确度0.9310.9270.9390.950表2通过上述描述可知，在本实施例中，在现有的深度卷积神经网络模型的基础上，利用神经网络提取图像的内容特征具有这样的特点：低层次的神经网络特征空间位置信息丰富但缺乏语义信息，高层次的神经网络特征空间位置信息基本丢失但语义信息丰富，同时，卷积神经网络需要具有针对输入不同内容的图像自适应地调节特征信息的能力。基于此，本发明提出了一种场景自适应匹配的图像语义分割方法。具体的说，本发明利用神经网络自适应地提取输入图像的神经网络特征信息，这些信息中既包含空间信息丰富的低层次特征，有包含语义信息丰富的高层次特征。针对不同分辨率的特征信息，本方法利用双线性插值的方法将这些特征调整到相同的分辨率并按通道维度叠加，之后将其输入到级联的卷积层和反卷积层中以得到图像的语义分割结果。取得的有益效果：发明人分别评测了4种不同的语义分割方法，分别是deeplab、parsenet、dcn和场景自适应语义分割方法。在pascalvoc的验证集上进行评测，通过对比实验发现：1)相对于前3种深度学习方法，本发明提出的语义分割方法的平均类别重合度的最大相对提升量和最小相对提升量分别是15.22％和7.24％，平均像素点准确度的最大相对提升量和最小相对提升量分别是2.04％和1.17％。实施例3：本发明实施例还提供了一种图像语义分割装置，该图像语义分割装置主要用于执行本发明实施例上述内容所提供的图像语义分割方法，以下对本发明实施例提供的图像语义分割装置做具体介绍。图9是根据本发明实施例的一种图像语义分割装置的示意图，如图9所示，该图像语义分割装置主要包括获取和特征提取单元10，叠加单元20和信息处理单元30，其中：获取和特征提取单元10，用于获取待处理图像，并通过特征提取网络从所述待处理图像中提取多尺度特征信息；叠加单元20，用于按照特征信息的通道维度对所述多尺度特征信息进行叠加，得到叠加特征信息；信息处理单元30，用于利用语义分割模型对所述叠加特征信息进行处理，以处理得到所述待处理图像的语义分割结果，其中，所述语义分割结果用于表征所述待处理图像中每个像素所属的类别信息。在本发明实施例中，首先，获取待处理图像，并通过特征提取网络提取待处理图像中提取多尺度特征信息；然后，按照特征信息的通道维度对多尺度特征信息进行叠加，得到叠加特征信息；最后，利用语义分割模型对叠加特征信息进行处理，得到待处理图像的语义分割结果。通过上述描述可知，在本实施例中，本发明有效考虑到神经网络中低层次特征空间位置信息丰富而语义信息缺乏、高层次特征空间位置信息缺乏而语义信息丰富的特点，利用特征提取网络自适应地提取待处理图像的多尺度特征信息，多尺度特征信息中既包含空间信息丰富的低层次特征，有包含语义信息丰富的高层次特征信息，进而缓解了现有的语义分割方式得到的语义分割结果精确度较低，且效果较差的技术问题。可选地，所述特征提取网络包括特征提取子网络，所述特征提取子网络的数量为多个，多个所述特征提取子网络依次级联连接，且所述特征提取子网络输出的特征信息的分辨率依次降低。可选地，获取和特征提取单元10包括：第一特征提取单元模块，用于利用所述多个特征提取子网络依次提取所述待处理图像的特征信息，得到多尺度的特征信息；确定单元，用于通过上采样的方式将所述多尺度的特征信息调整到相同的分辨率。可选地，所述特征提取子网络包括：第一组特征提取子网络和第二组特征提取子网络，所述第一组特征提取子网络的输出端与所述第二组特征提取子网络的输入端相连接，所述第一组特征提取子网络包括多个级联连接的第一特征提取子网络，所述第二组特征提取子网络包括多个级联连接的第二特征提取子网络。可选地，获取和特征提取单元10还包括：第二特征提取单元模块，用于通过所述多个第一特征提取子网络依次对所述待处理图像进行特征提取，得到第一组多尺度特征信息；第三特征提取单元模块，用于通过所述多个第二特征提取子网络对所述第一组多尺度特征信息中的目标特征信息依次进行特征提取，得到第二组多尺度特征信息，其中，所述目标特征信息为所述第一组特征提取子网络中与所述第二组特征提取子网络相连接的第一特征提取子网络输出的特征信息。可选地，所述第二特征提取子网络包括：带参数的池化操作模块和第一残差模块；第三特征提取单元模块用于：通过第二特征提取子网络ai中带参数的池化操作模块对输入特征信息进行池化操作，得到特征信息bi；其中，所述输入特征信息为所述第二特征提取子网络ai的上一连接模块输出的特征信息，i依次取1至i，i为所述第二特征提取子网络的数量；利用所述第二特征提取子网络ai中的第一残差模块对所述特征信息bi进行整合处理，得到整合之后的特征信息，并将所述整合之后的特征信息作为所述第二组多尺度特征信息中的特征信息。可选地，所述带参数的池化操作模块包括：第一分支和第二分支，其中，所述第一分支包括第一平均池化操作模块，所述第二分支包括：第一卷积层和第二平均池化操作模块；第三特征提取单元模块还用于：通过所述第一平均池化操作模块对所述输入特征信息进行池化处理，得到第一池化结果；通过所述第一卷积层对所述输入特征信息进行卷积计算，得到第一卷积计算结果，并通过所述第二平均池化操作模块对所述第一卷积计算结果进行池化处理，得到第二池化结果；将所述第一池化结果和所述第二池化结果进行融合，得到所述特征信息bi。可选地，第三特征提取单元模块还用于：通过所述第一残差模块中的至少一个卷积层对所述特征信息bi进行卷积处理，得到第二卷积计算结果；对所述第二卷积计算结果和所述特征信息bi进行元素加和操作，得到所述整合之后的特征信息。可选地，叠加单元用于：对所述多尺度特征信息进行调整至预设分辨率；按照特征信息的通道维度对调整至预设分辨率的所述多尺度特征信息进行叠加，得到叠加特征信息。可选地，获取和特征提取单元还用于：获取待处理原始rgb图像；将所述待处理原始rgb图像的分辨率调整到预设分辨率，并计算调整到预设分辨率的所述待处理原始rgb图像的像素值与图像均值之间的差值，得到所述待处理图像。可选地，所述语义分割模型包括：第二卷积层，第二残差模块，第三卷积层，反卷积层和分类输出模块softmax；信息处理单元用于：通过所述第二卷积层对所述叠加特征信息卷积处理，得到第三卷积计算结果；通过所述第二残差模块对所述第三卷积计算结果进行整理，得到整理数据；通过所述第三卷积层和所述反卷积层对所述整理数据进行计算，得到目标特征图，其中，所述目标特征图的分辨率与所述原始图像的分辨率相同；通过所述分类输出模块softmax对所述目标特征图进行处理，得到所述语义分割结果的特征图。可选地，该装置还用于：获取训练样本，其中，每个训练样本包括：训练图像和所述训练图像的基准图像，所述基准图像为所述训练图像的基准语义分割图像；通过所述训练样本对原始特征提取网络和原始语义分割模块进行训练，得到所述特征提取网络和所述语义分割模块。可选地，该装置还用于：获取所述原始特征提取网络和所述原始语义分割模块的训练结果；基于所述训练结果构建损失函数；基于所述损失函数的取值对所述原始特征提取网络和所述原始语义分割模块的参数进行调整。可选地，该装置还用于：在训练得到所述特征提取网络和所述语义分割模块之后，通过测试样本对训练之后的所述原始特征提取网络和所述原始语义分割模块进行测试，并基于测试结果计算平均重叠度值和/或平均像素精确度值，其中，所述平均重叠度值表示各个所述训练图像的预测语义分割结果与所述训练图像的基准图像之间交并比的均值，所述平均像素精确度值表示所述训练图像的预测语义分割结果中全部分类正确的像素点与真实类别像素点的比值的平均值；利用所述平均重叠度值和/或所述平均像素精确度值对训练之后的所述原始特征提取网络和所述原始语义分割模块进行性能评价。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本
技术领域：
的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑安林
技术所有人：北京旷视科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。