一种基于边界注意力的rgbd图像语义分割方法
【技术领域】
1.本发明涉及一种基于边界注意力的rgbd图像语义分割方法,属于计算机视觉领域。
背景技术:2.语义分割是计算机视觉研究的一个重要领域,主要任务预测图像中每一个像素所属的物体种类,即让计算机知道每个像素“是什么”,这项技术被广泛应用于机器人规划、无人驾驶、物体姿态估计等场景中。近年来,廉价的消费级深度传感器大量出现,如kinect、realsence、xtion等,使得深度图像的获取成本进一步降低,深度图像引入了场景的几何信息,使得语义分割算法的精度得到了提升。
3.但是,现有的基于rgbd图像的语义分割方法在彩色图和深度图的数据融合上多是简单地层叠卷积网络的特征,这种方法往往不能很好地融合彩色图和深度图的特征。此外,由于深度图像噪声较大,场景图像中物体被遮挡、物体形状外观变化大、物体分布密集以及环境嘈杂等因素,造成物体边界的分割结果准确度往往较低。
技术实现要素:4.有鉴于此,本发明提供了一种基于边界注意力的rgbd图像语义分割方法,以实现在更好融合rgbd图像信息的基础上提升模型对图像中物体边界的关注程度,从而提升整体的语义分割精度。
5.用一基于边界注意力的rgbd图像语义分割模型,该语义分割模型包括一rgbd双路编码器子模型、一语义
‑
边界双路解码器子模型以及一特征融合单元,进行以下步骤:
6.s1、获取训练数据集,所述数据集需包含rgbd图像和预先标注的语义分割信息;对所述训练数据集进行预处理,依据预先标注的语义分割信息,利用canny边缘检测算法,计算得到各训练图像的边界信息;
7.s2、使用训练数据集中的训练图像,对所述语义分割模型进行训练,包括以下步骤s21至s25:
8.s21、将所述rgbd训练图像中的彩色图像和深度图像分别输入rgbd双路编码器子模型的对应通道,得到训练图像的颜色特征图和深度特征图;
9.s22、将s21中得到的颜色特征图和深度特征图输入特征融合模块,经计算得到全局特征图;
10.s23、将s22中得到的全局特征图输入语义
‑
边界双路解码器子模型,分别得到训练图像的语义分割预测结果和边界预测结果;
11.s24、依据s23中得到的训练图像的语义分割预测结果和预先标注的语义分割信息,利用多阶段混合损失函数计算所述预测语义分割结果与所述预先标注的语义分割信息之间的误差;依据s23中得到的训练图像的边界预测结果和s1中得到的训练图像的边界信息,利用二元交叉熵函数计算边界预测结果与边界信息之间的误差;依据所述两种误差计
算总误差,即总损失函数:
12.l=a
·
l1+b
·
l213.其中l表示总误差大小,l1、l2分别表示所述预测语义分割结果与所述预先标注的语义分割信息之间的误差和边界预测结果与边界信息之间的误差,a、b为权重系数,数值大小按照实际需求进行设置;其中多阶段混合损失函数采用以下方法求得:在语义
‑
边界双路解码器的语义分支中,对其中每一个解码器模块上采样后的输出进行卷积核尺寸为1
×
1的卷积后,分别得到尺寸为原始图像1/16、1/8、1/4的不同阶段语义分割预测结果,同时对预先标注的语义分割信息进行采样得到对应尺寸的语义分割信息,依据含最终语义分割预测结果在内的4个不同阶段语义分割预测结果和对应预先标注的语义分割信息,可计算语义分支中各阶段的混合损失函数;所述混合损失函数为交叉熵函数与图像结构相似度函数的和:
14.l
i
=p
·
l
ce
+q
·
l
ssim
15.其中l
i
表示i阶段的混合损失函数,l
ce
表示交叉熵函数,l
ssim
表示图像结构相似度函数,p、q为权重系数,数值大小按照实际需求进行设置。依据4个阶段的混合损失函数,可计算多阶段混合损失函数:
[0016][0017]
其中l1表示多阶段混合损失函数,也即语义分支的损失函数,l
i
表示i阶段的混合损失函数。利用反向传播算法,依据所述总误差更新对所述两个子模型和所述特征融合模块的参数进行修正;
[0018]
s25、利用若干训练图像不断迭代执行步骤s21至s24,直至所述两个子模型和所述特征融合模块的训练结果满足预设的收敛条件;
[0019]
s3、将需要进行语义分割的rgbd目标图像,输入经s2训练得到的rgbd语义分割模型中,以执行以下分割步骤s31至s33:
[0020]
s31、分别将所述rgbd目标图像中的彩色图像和深度图像输入rgbd双路编码器子模型的对应通道,得到目标图像的颜色特征图和深度特征图;
[0021]
s32、将s31中得到的颜色特征图和深度特征图输入特征融合模块,经计算得到全局特征图;
[0022]
s33、将s32中得到的全局特征图输入语义
‑
边界双路解码器子模型,得到训练图像的语义分割预测结果。
[0023]
具体地,rgbd双路编码器子模型由两个完全相同的resnet网络模型为基础构成,分为颜色分支和深度分支,颜色分支用于处理rgbd图像中的彩色图像,深度分支用于处理rgbd图像中的深度图像;所述两个分支网络每一对同级的池化层输出特征图进行逐元素相加,得到的特征图作为两分支网络下一个卷积层的输入。
[0024]
具体地,语义
‑
边界双路解码器子模型由语义分支和边界分支两个分支构成,语义分支用于输出rgbd图像的语义测结果,边界分支用于提供边界注意力机制;每个分支由三个串联的swiftnet网络模型的解码器模块和一个上采样模块构成;对所述两个分支每一对同级的解码器输出特征图进行逐元素相加,得到的特征图输入语义分支中的下一解码器或上采样模块;所述的上采样模块包括两次最近邻上采样和一个3
×
3深度卷积。
[0025]
具体地,特征融合模块对输入的颜色特征图和深度特征图进行逐元素相加得到一张中间特征图,而后对所述中间特征图依次进行平均池化、卷积、批标准化和relu函数激活后与原中间特征图再次进行逐元素相加,得到全局特征图。
[0026]
由以上技术方案可以看出,本发明实施例具有以下有益效果:
[0027]
本发明用一个模型实现了彩色图像和深度图像数据的融合,通过rgbd双路编码器子模型分别提取彩色图像和深度图像不同类型特征,通过特征融合单元充分利用彩色特征和深度特征融合后得到的全局特征,在模型中引入对图像物体边界的注意力机制,具体表现为用于引入边界特征的边界分支和用于引导分割结果的多阶段混合损失函数,且用于监督边界特征的边界信息采用canny边缘检测算法从预先标注的语义分割信息自动获取,无需人工标注,显著提高了语义分割算法的准确性。
【附图说明】
[0028]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单介绍,显而易见,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性和劳动性的前提下,还可以根据这些附图获得其它附图。
[0029]
图1是本发明实施例所提供的基于边界注意力的rgbd图像语义分割方法的流程示意图;
[0030]
图2是本发明实施例中基于边界注意力的rgbd图像语义分割模型的示意图;
【具体实施例】
[0031]
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
[0032]
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0033]
本发明实施例给出一种基于边界注意力的rgbd图像语义分割方法,请参考图1,其为本发明实施例所提供的基于边界注意力的rgbd图像语义分割方法的流程示意图,如图1所示,该方法包括以下步骤:
[0034]
s1、获取训练数据集,所述数据集需包含rgbd图像和预先标注的语义分割信息。该数据集可以为满足要求的公开数据集,也可为使用者自行采集、建立的满足要求的数据集,本发明不作限制。对获取的训练数据集进行预处理:依据预先标注的语义分割信息,利用canny边缘检测算法,计算得到各训练图像的边界信息。
[0035]
s2、使用训练数据集中的训练图像,对基于边界注意力的rgbd图像语义分割模型进行训练,请参考图2,其为本发明实施例中的基于边界注意力的rgbd图像语义分割模型的示意图,如图2所示,该语义分割模型包括一rgbd双路编码器子模型、一语义
‑
边界双路解码器子模型以及一特征融合单元:将所述rgbd训练图像中的彩色图像和深度图像分别输入rgbd双路编码器子模型的对应通道,得到训练图像的颜色特征图和深度特征图;将颜色特征图和深度特征图输入特征融合模块,经计算得到全局特征图;将全局特征图输入语义
‑
边界双路解码器子模型,分别得到训练图像的语义分割预测结果和边界预测结果;依据训练
图像的语义分割预测结果和预先标注的语义分割信息,利用多阶段混合损失函数计算所述预测语义分割结果与所述预先标注的语义分割信息之间的误差;依据训练图像的边界预测结果和训练图像的边界信息,利用二元交叉熵函数计算边界预测结果与边界信息之间的误差;依据所述两种误差计算总误差,即总损失函数:
[0036]
l=a
·
l1+b
·
l2[0037]
其中l表示总误差大小,l1、l2分别表示所述预测语义分割结果与所述预先标注的语义分割信息之间的误差和边界预测结果与边界信息之间的误差,a、b为权重系数,数值大小按照实际需求进行设置;其中多阶段混合损失函数采用以下方法求得:在语义
‑
边界双路解码器的语义分支中,对其中每一个解码器模块上采样后的输出进行卷积核尺寸为1
×
1的卷积后,分别得到尺寸为原始图像1/16、1/8、1/4的不同阶段语义分割预测结果,同时对预先标注的语义分割信息进行采样得到对应尺寸的语义分割信息,依据含最终语义分割预测结果在内的4个不同阶段语义分割预测结果和对应预先标注的语义分割信息,可计算语义分支中各阶段的混合损失函数;所述混合损失函数为交叉熵函数与图像结构相似度函数的和:
[0038]
l
i
=p
·
l
ce
+q
·
l
ssim
[0039]
其中l
i
表示i阶段的混合损失函数,l
ce
表示交叉熵函数,l
ssim
表示图像结构相似度函数,p、q为权重系数,数值大小按照实际需求进行设置。依据4个阶段的混合损失函数,可计算多阶段混合损失函数:
[0040][0041]
其中l1表示多阶段混合损失函数,也即语义分支的损失函数,l
i
表示i阶段的混合损失函数。利用反向传播算法,依据所述总误差更新对所述两个子模型和所述特征融合模块的参数进行修正。
[0042]
利用训练数据集中的不同训练图像来不断地迭代训练所述图像语义分割模型,当所述总损失函数计算的所述误差的值小于一预设阈值,或者迭代次数达到预定值时,可认为训练结果收敛,训练结束,得到完成训练的所述图像语义分割模型,可直接用于对待处理rgbd图像进行语义分割。
[0043]
s3、将需要进行语义分割的rgbd目标图像,输入完成训练的所述语义分割模型中,经所述语义分割模型计算:将所述rgbd目标图像中的彩色图像和深度图像输入rgbd双路编码器子模型的对应通道,得到目标图像的颜色特征图和深度特征图;将颜色特征图和深度特征图输入特征融合模块,经计算得到全局特征图;将全局特征图输入语义
‑
边界双路解码器子模型,得到训练图像的语义分割预测结果。
[0044]
依据本发明实施例提供的上述方法,使用nyuv2数据集的训练集部分作为训练数据集进行训练,并使用nyuv2数据集的测试集部分对模型语义分割准确率进行测试并与现有方法进行对比,评价方法采用广泛使用的平均交并比(mean iou)和总体像素准确率(pixel accuracy),平均交并比表示先对每个分割类别计算预先标注的语义分割信息与预测语义分割结果的交并比,再按类别取平均值。预先标注的语义分割信息与预测语义分割结果的交并比则指二者的交集与二者的并集之比,亦即正确预测的像素数量除以预测或标注为该类别的像素数量。总体像素准确率则指所有正确预测的像素数量除以所有像素数
量。所得结果如下表1所示:
[0045]
表1本发明与现有方法对比情况
[0046][0047]
其中,在本测试实验中p=1,q=1,a=1,b=1.2。从表1中可以看出本发明提出的算法比现有rgbd语义分割模型(sa
‑
gate和esanet)的预测效果要好,语义分割准确率更高。
[0048]
本发明实施例的技术方案具有以下有益效果:
[0049]
本发明实施例的技术方案中,用一个模型实现了彩色图像和深度图像数据的融合,通过rgbd双路编码器子模型分别提取彩色图像和深度图像不同类型特征,通过特征融合单元充分利用彩色特征和深度特征融合后得到的全局特征,在模型中引入对图像物体边界的注意力机制,具体表现为用于引入边界特征的边界分支和用于引导分割结果的多阶段混合损失函数,且用于监督边界特征的边界信息采用canny边缘检测算法从预先标注的语义分割信息自动获取,无需人工标注,显著提高了语义分割算法的准确性。
[0050]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
[0051]
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。