一种基于孪生网络的视频人像分割算法

文档序号:31630253发布日期:2022-09-24 01:46阅读:132来源:国知局
一种基于孪生网络的视频人像分割算法

1.本发明涉及图像处理技术领域,具体涉及一种基于孪生网络的视频人像分割算法及其输送方法。


背景技术:

2.在计算机视觉中,图像语义分割是计算机视觉的重要研究课题,可被广泛的应用到各个领域,比如图像的前景分割,可以针对视频换背景,将前景人物融入到不同场景中,产生有创意的算法应用。
3.人像分割的目的是通过预测一个精准的alpha蒙版,可以用来从给定的图像或者视频中提取人物。它有广泛的应用,如照片编辑和电影创作。视频人像分割算法的目的是通过视频人像分割算法预测出复杂场景中视频帧alpha蒙版图进行前背景分割。目前已经落地的实时高分辨率视频人像分割算法需要借助绿布才能获得高质量的预测,而不借助绿布的算法也存在一些问题,如数据集需要三分图,而获得三分图代价也比较大等。
4.因此,急需对一种基于孪生网络的视频人像分割算法解决上述问题。


技术实现要素:

5.针对现有技术存在的不足,本发明专利的提供一种基于孪生网络的视频人像分割算法,该算法能够在背景复杂、主体形状复杂等各种环境下,保证视频人像高精度分割。
6.为实现上述目的,本发明设计实现一种基于孪生网络的视频人像分割算法,通过孪生网络共享权重、循环神经网络捕获时序与空间特征以及联合上采样获得高分辨率alpha蒙版图。具体提供如下技术方案:一种基于孪生网络的视频人像分割算法,采用孪生网络结构,其基本结构包括视频帧图像获取模块、rgb分离模块、encoder网络模块、se模块、decoder网络模块和jpu模块,包括以下步骤:
7.步骤s1:通过所述视频帧获取模块从待分割视频获取当前视频帧图像并进行预处理,得到预处理的当前频帧图像;
8.步骤s2:通过所述rgb分离模块通过将所述得到的预处理视频帧图像分离为rgb颜色模式下的三通道rgb视频帧图像;
9.步骤s3:将三通道rgb视频帧图像输入通过所述encoder网络模块,采用mobilenet v3网络,提取五个三通道rgb视频帧图像的多尺度粗粒度特征;
10.步骤s4:通过所述se模块连接所述encoder网络模块和所述decoder网络模块,通过学习到每个通道重要程度,重新标定特征;
11.步骤s5:通过所述decoder网络模块从所述encoder网络模块、当前视频帧图像下采样以及convgru循环神经网络得到不同尺度特征,并进行特征融合,捕获下采样中损失的边缘特征、浅层的文理特征以及时序与空间特征,获得高分辨率的特征图;
12.步骤s6:通过所述jpu模块将从当前视频帧、当前视频帧下采样、decoder网络模块获得三个不同尺度的特征,在给定相应低分辨率输出和高分辨率图像的情况下有效地生成
高分辨率特征图。
13.进一步地,所述通过所述视频帧获取模块从待分割视频获取当前视频帧图像并进行预处理,得到预处理的当前频帧图像包括:步骤s11:获取待分割视频的当前视频帧图像;步骤s12:对获取的当前视频帧图像进行预处理。
14.更进一步地,通过所述视频帧获取模块从待分割视频获取当前视频帧图像并进行预处理,得到预处理的当前频帧图像。
15.进一步地,所述将三通道rgb视频帧图像输入通过所述encoder网络模块,采用mobilenet v3网络,提取五个三通道rgb视频帧图像的多尺度粗粒度特征,包括采用轻量级网络mobilenet v3 large作为backbone,基于孪生网络构建四级编码器,通过下采样层和四级编码器获得三通道rgb视频帧分辨率的1/4、1/8、1/16、1/32和1/64的粗粒度特征图。
16.更进一步地,所述encoder网络模块包括下采样层和四级编码器,所述下采样层采用用双线性插值进行4倍下采样,得到原图分辨率1/4的特征图;所述四级编码器包括第一编码器、第二级编码器、第三级编码器和第四级编码器,每级编码器采用多个权重共享的bottleneck结构,每级编码器首先使用逐点卷积组,其次使用深度卷积组,并连接se模块学习权重,最后通过短链接将包含结构化信息的浅层特征传递至深层特征。
17.进一步地,所述通过所述se模块连接所述encoder网络模块和所述decoder网络模块,将粗粒度特征输入到se模块中,通过学习到每个通道重要程度,进行特征通道级的特征重标定,包括:用于将获得的粗粒度特征通过squeeze操作转化为一个全局特征,采用全局平均化实现,得到全局特征;对squeeze操作得到的全局特征进行excitation操作,学习各个通道之间的非线性关系,得到不同通道的权重,重新标定特征。
18.进一步地,所述通过所述decoder网络模块从所述encoder网络模块、当前视频帧图像下采样以及convgru循环神经网络得到不同尺度特征,并进行特征融合,捕获下采样中损失的边缘特征、浅层的文理特征以及时序与空间特征,包括通过与所述encoder模块相对应的四级解码器,将高层语义信息逐步还原放大,获得高分辨率的特征图。
19.更进一步地,所述四级解码器用于多层特征融合、降低通道数及获得高分辨率特征图,分别得到当前视频帧分辨率1/32、1/16、1/8、1/4的特征图;每级解码器的输入利用下采样过程的输出进行合并,经卷积归一化后,再通过convgru循环网络利用前一帧及当前帧信息计算与输出。
20.进一步地,所述通过所述jpu模块将从当前视频帧、当前视频帧下采样、decoder网络模块获得三个不同尺度的特征,在给定相应低分辨率输出和高分辨率图像的情况下有效地生成高分辨率特征图包括以下步骤:步骤s41:将从当前视频帧、当前视频帧下采样所得和decoder网络模块得到的三个不同尺度的特征进行特征融合,输出特征图;步骤s42:使用不同空洞率可分离卷积组来增大视野、捕获上下文信息,输出四组分辨率不变的特征图,并通过合并融合多尺度上下文信息;步骤s43:对融合的多尺度上下文信息使用3
×
3的2d卷积生成通道数为1的alpha蒙版图。
21.更进一步地,所述将从当前视频帧、当前视频帧下采样所得和decoder网络模块得到的三个不同尺度的特征进行特征融合,输出特征图包括以下步骤:首先进行3
×
3的2d卷积操作将输入的三个特征统一通道数,其次进行上采样操作,统一恢复到高分辨率特征尺度,最后输出分辨率与当前视频帧一致的特征图。
22.从上述的技术方案可以看出,本发明的优点是:
23.与现有技术相比,本发明能够捕获边缘特征、浅层的纹理特征以及时序与空间特征等多级特征,可对于视频当前帧alpha蒙版图时序、空间以及边缘结构化信息进行补充,实现对alpha蒙版的准确预测,进而将人像与背景分割。本发明在前景和背景对比度低、背景复杂、主体形状复杂等各种复杂环境下,得到人像边缘的精确分割,具有较强的鲁棒性。
24.本发明可对多目标、目标遮挡、微小目标、目标移动较快等复杂场景下的目标进行高精度的视频人像分割,采用深度学习pytorch框架构建各模型学习视频处理方法。在测试数据集上的指标结果以及视觉效果,所提出一种基于孪生网络的视频人像分割算法预训练模型已超过当前其他算法。
附图说明
25.构成本技术的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
26.图1为本发明的一种基于孪生网络的视频人像分割算法的流程图。
27.图2为本发明的一种基基于孪生网络的视频人像分割算法的总体网络结构示意图。
28.图3为本发明的一种获得视频帧图像的步骤图。
29.图4为本发明的一种对当前视频帧预处理的步骤图。
30.图5为本发明的一种encoder网络模块bottleneck结构示意图。
31.图6为本发明的一种encoder网络模块详细网络结构示意图。
32.图7为本发明的一种decoder模块结构示意图。
33.图8为本发明的一种jpu模块结构示意图。
34.图9为本发明的一种jpu模块的步骤图。
35.图10为本发明的基于孪生网络的视频人像分割算法在不同场景下视频人像分割的效果图。
具体实施方式
36.为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
37.本发明设计实现一种基于孪生网络的视频人像分割算法,基于孪生网络,进行多尺度特征融合,指导算法网络捕获边缘特征、浅层的纹理特征以及时序与空间特征,能够快速准确进行视频人像分割。
38.图1和图2示出了一种基于孪生网络的视频人像分割算法的流程图和总体网络结构示意图。
39.根据图1和图2所示的一种基于孪生网络的视频人像分割算法,该基于孪生网络的视频人像分割算法,目的是通过构建视频人像分割算法,结合视频人像的语义信息、时序与空间信息和结构化细节信息,得到更加精确的alpha蒙版图。该基于孪生网络的视频人像分割算法采用孪生网络结构,其基本结构包括视频帧获取图像、rgb分离模块、encoder网络模
块、se(squeeze and excitation)模块、decoder网络模块和jpu(joint pyramid upsampling)模块,具体包括以下步骤:
40.步骤s1:通过所述视频帧获取模块从待分割视频获取当前视频帧图像并进行预处理,得到预处理的当前频帧图像;
41.步骤s2:通过所述rgb分离模块通过将所述得到的预处理视频帧图像分离为rgb颜色模式下的三通道rgb视频帧图像;
42.步骤s3:将三通道rgb视频帧图像输入通过所述encoder网络模块,采用mobilenet v3网络,提取五个三通道rgb视频帧图像的多尺度粗粒度特征;
43.步骤s4:通过所述se模块连接所述encoder网络模块和所述decoder网络模块,通过学习到每个通道重要程度,重新标定特征;
44.步骤s5:通过所述decoder网络模块从所述encoder网络模块、当前视频帧图像下采样以及convgru循环神经网络得到不同尺度特征,并进行特征融合,捕获下采样中损失的边缘特征、浅层的文理特征以及时序与空间特征;
45.步骤s6:通过所述jpu模块将从当前视频帧、当前视频帧下采样、decoder网络模块获得三个不同尺度的特征,在给定相应低分辨率输出和高分辨率图像的情况下有效地生成高分辨率特征图。
46.图3和图4示出了获得视频帧图像的步骤图。
47.根据图3示出的获得视频帧图像,该获取待分割视频的当前视频帧图像并进行预处理包括:
48.步骤s11:获取待分割视频的当前视频帧图像;
49.步骤s12:对获取的当前视频帧图像进行预处理。
50.根据图4示出的对获得当前视频帧进行预处理,对获得当前视频帧进行预处理,包括:
51.步骤s121:将所述待分割视频的尺寸调整为预设尺寸,所述预设尺寸为孪生网络要求的输入图像的尺寸;
52.步骤s122:将调整尺寸后图像的像素进行归一化;
53.步骤s123:按预设顺序调整归一化的图像的颜色通道的顺序。
54.通过对当前视频帧进行预处理,将当前视频帧处理为适用于孪生网络结构的图像形式,便于图像输入,精准分割。
55.图5和图6示出了encoder网络模块bottleneck结构示意图和详细网络示意图。
56.根据图5和图6示出的encoder网络模块,所述encoder网络模块为孪生网络结构,选取专为语义分割设计的轻量级网络mobilenet v3large作为backbone,基于孪生网络构建四级编码器。
57.所述将三通道rgb视频帧图像输入通过所述encoder网络模块,采用mobilenet v3网络,提取五个三通道rgb视频帧图像的多尺度粗粒度特征,采用轻量级网络mobilenet v3 large作为backbone,基于孪生网络构建四级编码器,通过下采样层和四级编码器获得三通道rgb视频帧分辨率的1/4、1/8、1/16、1/32和1/64的粗粒度特征图。
58.所述下采样层采用用双线性插值进行4倍下采样,得当前视频帧原图分辨率1/4的特征图;所述四级编码器包括第一级编码器、第二级编码器、第三级编码器和第四级编码
器,每级编码器采用多个权重共享的bottleneck结构,每级编码器首先使用逐点卷积组,其次使用深度卷积组,并连接se模块学习权重,最后通过短链接将包含结构化信息的浅层特征传递至深层特征。
59.所述四级编码器包括第一级编码器encoder_blk1,第二级编码器encoder_blk2,第三级编码器encoder_blk3和第四级编码器encoder_blk4,第一级编码器encoder_blk1,第二级编码器encoder_blk2,第三级编码器encoder_blk3和第四级编码器encoder_blk4使用多个权重共享的bottleneck结构,所述bottleneck为倒残差结构,首先使用逐点卷积组(1
×
1的2d卷积+批处理化+激活层),其次使用深度卷积组(3
×
3的2d卷积+批处理化+激活层),并连接se模块学习权重,最后通过shortcut短链接将包含结构化细节信息的浅层特征传递至深层特征。
60.具体地,第一级编码器encoder_blk1包含两个bottleneck块,得到原图分辨率1/8的特征图,第二级编码器encoder_blk2包含两个bottleneck块,得到原图分辨率1/16的特征图,第三级编码器encoder_blk3包含三个bottleneck块,得到原图分辨率1/32的特征图,第四级编码器encoder_blk4包含六个bottleneck块,得到原图分辨率1/64的特征图,获得五个三通道rgb视频帧分辨率的多尺度粗粒度特征。
61.所述通过所述se模块连接所述encoder网络模块和所述decoder网络模块,将粗粒度特征输入到se模块中,通过学习到每个通道重要程度,进行特征通道级的特征重标定,包括:用于将获得的粗粒度特征通过squeeze操作转化为一个全局特征,采用全局平均化实现,得到全局特征;对squeeze操作得到的全局特征进行excitation操作,学习各个通道之间的非线性关系,得到不同通道的权重,重新标定特征。所述se模块用于获得各个通道的权重系数,使得模型对各个通道特征更有辨别能力。
62.图7示出了一种decoder网络模块详细网络结构示意图。
63.根据图7示出的一种decoder网络模块,所述decoder网络模块,为孪生网络,多个decoder block之间权重共享,并且与所述encoder网络模块构成伪孪生网络。所述decoder网络模块用于从当前视频帧、所述encoder模块、当前视频帧下采样所得(image lr)和convgru循环神经网络获得四个不同尺度特征并进行特征融合,得到下采样中损失的边缘特征、浅层的文理特征以及基于时序与空间的特征,包括通过与所述encoder模块相对应的四级解码器,将高层语义信息逐步还原放大,获得高分辨率的特征图将高层语义信息逐步还原放大,获得高分辨率的特征图。
64.所述与所述encoder模块相对应的四级解码器,为了减少参数量和计算,在通道维度上对输入进行拆分,所有模块中的convgru循环神经网络利用拆分后的特征进行计算,剩下的通过短链接与结果合并。所述四级解码器用于多层特征融合、降低通道数及获得高分辨率特征图,分别得到当前视频帧分辨率1/32、1/16、1/8、1/4的特征图;每级解码器的输入利用下采样过程的输出进行合并,经卷积归一化后,再通过convgru循环网络利用前一帧及当前帧信息计算与输出。
65.具体地,所述四级解码器包括3
×
3的2d卷积+批归一化+relu激活组合、convgru循环网络以及2倍双线性插值上采样,该解码器的输入与传统的u-net结构上采样有相似之处,都是利用下采样过程的输出进行合并,经过3
×
3的2d卷积+批归一化+relu激活组合后,convgru循环网络利用前一帧及当前帧信息计算与输出。
66.图8和图9示出了一种jpu模块结构示意图和步骤图。
67.根据图8和图9示出的jpu模块,所述jpu模块用于将提取的高分辨率特征图转换为联合上采样,用于将当前视频帧(image hr)、当前视频帧下采样所得(image lr)和所述decoder网络模块得到的三个不同尺度的特征,在给定相应的低分辨率输出(image lr、decoder网络模块输出)和高分辨率图像(image hr)指导的情况下有效地生成高分辨率图像。所述jpu模块包括以下步骤:
68.步骤s41:将从当前视频帧(image hr)、当前视频帧下采样所得(image lr)和decoder网络模块得到的三个不同尺度的特征进行特征融合,输出特征图;
69.步骤s42:使用不同空洞率可分离卷积组来增大视野、捕获上下文信息,输出四组分辨率不变的特征图,通过合并(concatenate)融合多尺度上下文信息;
70.步骤s43:使用3
×
3的2d卷积生成通道数为1的alpha蒙版图。
71.为了降低卷积操作的计算复杂度和参数量,利用不同空洞率的空洞卷积与逐点卷积构成的可分离卷积组替换普通标准卷积。通过通道相关性和空间相关性的去耦合操作,将标准卷积替换为3
×
3深度卷积和1
×
1的逐点卷积。
72.具体地,所述将从当前视频帧、当前视频帧下采样所得和decoder网络模块得到的三个不同尺度的特征进行特征融合,输出特征图包括以下步骤:首先进行3
×
3的2d卷积操作将输入的三个特征统一通道数,其次进行上采样操作,统一恢复到高分辨率特征尺度,最后输出分辨率与当前视频帧一致的特征图。
73.图10示出了一种基于孪生网络的视频人像分割算法在不同场景下人像分割效果图。
74.根据图10示出的在不同场景下人像分割效果图,可以看出本发明在前景和背景对比度低、背景复杂、主体形状复杂等各种复杂环境下,能够精准的分割出人像边缘,进而分割出人像,具有较强的鲁棒性。本发明可捕获边缘特征、浅层的文理特征以及时序与空间特征等多级特征,能够对视频当前帧alpha蒙版图时序、空间以及边缘结构化信息进行补充,实现对alpha蒙版图的准确预测,进而将人像与背景分割。
75.本发明可对多目标、目标遮挡、微小目标、目标移动较快等复杂场景下的目标进行高精度的视频人像分割,采用深度学习pytorch框架构建各模型学习视频处理方法。在测试数据集上的指标结果以及视觉效果,所提出一种基于孪生网络的视频人像分割算法预训练模型已超过当前其他算法。
76.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1