视频目标分割方法及装置、电子设备与流程

文档序号:32412884发布日期:2022-12-02 21:44阅读:85来源:国知局
视频目标分割方法及装置、电子设备与流程

1.本公开涉及视频处理领域,尤其涉及一种视频目标分割方法及装置、电子设备。


背景技术:

2.视频目标分割(video object segmentation,vos)是视频场景理解和视频编辑的基础能力,该技术在短视频智能编辑、特效制作和短视频创作等领域具有广阔应用前景。vos技术是指给定某视频序列初始图像帧中的目标物体掩膜mask,在后续图像帧中预测出该目标物体的像素级别的分割掩膜mask结果。随着深度学习错的发展,深度神经网络被应用于vos中,基于深度网络提取的高层语义特征能够从复杂场景中更准确辨别目标物体和背景,从而极大的提升了目标分割的效果,基于深度学习的vos分割技术也因此成为主流的技术之一。
3.目前的视频目标分割模型,一般是将模型所包含的时空记忆网络(space-time memory network)的输出,直接送入了模型中后续的解码(decoder)网络中进行最终的mask预测;这种方式,常常导致模型在多种多样的场景下,鲁棒性和泛化性较差,因而阻碍了模型性能的进一步提升。


技术实现要素:

4.本公开提供一种视频目标分割方法及装置、电子设备,以至少解决相关技术中视频目标分割模型的鲁棒性和泛化性较差的问题。
5.根据本公开实施例的第一方面,提供一种视频目标分割方法,包括:获取待处理视频的当前图像帧、当前图像帧对应的至少一个图像帧以及至少一个图像帧的目标掩膜,其中,至少一个图像帧在待处理视频中的位置位于当前图像帧之前;对至少一个图像帧、至少一个图像帧的目标掩膜和当前图像帧进行编码处理,得到至少一个图像帧的第一编码特征和当前图像帧的第二编码特征;将第一编码特征和第二编码特征输入时空记忆网络,得到用于预测当前图像帧的目标掩膜的第三特征信息;提取第三特征信息中的冗余特征信息,其中,冗余特征信息是第三特征信息的不同信道间相似程度超过预设值的特征信息;将第三特征信息和冗余特征信息融合后输入解码网络,得到当前图像帧的目标掩膜,其中,目标掩膜用于对当前图像帧进行目标分割。
6.可选地,提取第三特征信息中的冗余特征信息,包括:将第三特征信息输入冗余特征获取网络,得到第一冗余特征信息;对第一冗余特征信息进行归一化处理,得到第二冗余特征信息;将第二冗余特征信息经激活函数处理,得到冗余特征信息。
7.可选地,在将第三特征信息输入冗余特征获取网络,得到第一冗余特征信息之前,还包括:对第三特征信息进行降维处理。
8.可选地,对至少一个图像帧、至少一个图像帧的目标掩膜和当前图像帧进行编码处理,得到至少一个图像帧的第一编码特征和当前图像帧的第二编码特征,包括:将至少一个图像帧和至少一个图像帧的目标掩膜输入记忆编码网络,得到第一键值对,作为第一编
码特征,其中,第一键值对包括第一特征信息和第一键信息,第一特征信息包括至少一个图像帧的编码信息和目标掩膜的编码信息,第一键信息包括用于查询第一特征信息的寻址信息;将当前图像帧输入查询编码网络,得到第二键值对,作为第二编码特征,其中,第二键值对包括第二特征信息和第二键信息,第二特征信息包括当前图像帧的编码信息,第二键信息包括用于查询第二特征信息的寻址信息。
9.可选地,记忆编码网络包括n个阶段模块,第n个阶段模块中一个卷积层为空洞卷积,其中,n为大于2的正整数,在将至少一个图像帧和至少一个图像帧的目标掩膜输入记忆编码网络,得到第一键值对之前,还包括:调整记忆编码网络的第n个阶段模块中空洞卷积的参数,得到调整后记忆编码网络,调整后记忆编码网络的第n个阶段模块输出结果的分辨率与第n-1个阶段模块输出结果的第一分辨率一致;将至少一个图像帧和至少一个图像帧的目标掩膜输入记忆编码网络,得到第一键值对,包括:将至少一个图像帧和至少一个图像帧的目标掩膜输入调整后记忆编码网络,得到第一分辨率的第一键值对。
10.可选地,查询编码网络包括n个阶段模块,第n个阶段模块中一个卷积层为空洞卷积,其中,n为大于2的正整数,在将当前图像帧输入查询编码网络,得到第二键值对之前,还包括:调整查询编码网络的第n个阶段模块中空洞卷积的参数,得到调整后查询编码网络,调整后查询编码网络的第n个阶段模块输出结果的分辨率与第n-1个阶段模块输出结果的第一分辨率一致;将当前图像帧输入查询编码网络,得到的第二键值对,包括:将当前图像帧输入调整后查询编码网络,得到第一分辨率的第二键值对。
11.可选地,调整记忆编码网络和/或查询编码网络的第n个阶段模块中空洞卷积的参数,包括:在第n个阶段模块中卷积核的尺寸参数不变的情况下,调整记忆编码网络和/或查询编码网络的第n个阶段模块中空洞卷积的参数,以使调整后的第n个阶段模块输出结果的分辨率与第一分辨率一致。
12.根据本公开实施例的第二方面,提供一种视频目标分割装置,包括:图像帧获取单元,被配置为获取待处理视频的当前图像帧、当前图像帧对应的至少一个图像帧以及至少一个图像帧的目标掩膜,其中,至少一个图像帧在待处理视频中的位置位于当前图像帧之前;编码单元,被配置为对至少一个图像帧、至少一个图像帧的目标掩膜和当前图像帧进行编码处理,得到至少一个图像帧的第一编码特征和当前图像帧的第二编码特征;第三特征信息获取单元,被配置为将第一编码特征和第二编码特征输入时空记忆网络,得到用于预测当前图像帧的目标掩膜的第三特征信息;冗余特征信息获取单元,被配置为提取第三特征信息中的冗余特征信息,其中,冗余特征信息是第三特征信息的不同信道间相似程度超过预设值的特征信息;目标掩膜获取单元,被配置为将第三特征信息和冗余特征信息融合后输入解码网络,得到当前图像帧的目标掩膜,其中,目标掩膜用于对当前图像帧进行目标分割。
13.可选地,所冗余特征信息获取单元,还被配置为将第三特征信息输入冗余特征获取网络,得到第一冗余特征信息;对第一冗余特征信息进行归一化处理,得到第二冗余特征信息;将第二冗余特征信息经激活函数处理,得到冗余特征信息。
14.可选的,冗余特征信息获取单元,还被配置为在将第三特征信息输入冗余特征获取网络,得到第一冗余特征信息之前,对第三特征信息进行降维处理。
15.可选地,编码单元,还被配置为将至少一个图像帧和至少一个图像帧的目标掩膜
输入记忆编码网络,得到第一键值对,作为第一编码特征,其中,第一键值对包括第一特征信息和第一键信息,第一特征信息包括至少一个图像帧的编码信息和目标掩膜的编码信息,第一键信息包括用于查询第一特征信息的寻址信息;将当前图像帧输入查询编码网络,得到第二键值对,作为第二编码特征,其中,第二键值对包括第二特征信息和第二键信息,第二特征信息包括当前图像帧的编码信息,第二键信息包括用于查询第二特征信息的寻址信息。
16.可选的,记忆编码网络括n个阶段模块,第n个阶段模块中一个卷积层为空洞卷积,其中,n为大于2的正整数,编码单元,还被配置为调整记忆编码网络的第n个阶段模块中空洞卷积的参数,得到调整后记忆编码网络,调整后记忆编码网络的第n个阶段模块输出结果的分辨率与第n-1个阶段模块输出结果的第一分辨率一致;将至少一个图像帧和至少一个图像帧的目标掩膜输入调整后记忆编码网络,得到第一分辨率的第一键值对。
17.可选的,查询编码网络包括n个阶段模块,第n个阶段模块中一个卷积层为空洞卷积,其中,n为大于2的正整数,编码单元,还被配置为调整查询编码网络的第n个阶段模块中空洞卷积的参数,得到调整后查询编码网络,调整后查询编码网络的第n个阶段模块输出结果的分辨率与第n-1个阶段模块输出结果的第一分辨率一致;将当前图像帧输入调整后查询编码网络,得到第一分辨率的第二键值对。
18.可选的,编码单元,被配置为在第n个阶段模块中卷积核的尺寸参数不变的情况下,调整记忆编码网络和/或查询编码网络的第n个阶段模块中空洞卷积的参数,以使调整后的第n个阶段模块输出结果的分辨率与第一分辨率一致。
19.根据本公开实施例的第三方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现根据本公开的视频目标分割方法。
20.根据本公开实施例的第四方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行如上根据本公开的视频目标分割方法。
21.根据本公开实施例的第五方面,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现根据本公开的视频目标分割方法。
22.本公开的实施例提供的技术方案至少带来以下有益效果:
23.根据本公开的视频目标分割方法及装置、电子设备,获取时空记忆网络输出的第三特征信息中的冗余特征信息,其中,冗余特征信息是第三特征信息的不同信道间相似程度超过预设值的特征信息,基于该冗余特征信息和时空记忆网络输出的第三特征信息共同预测当前图像帧的目标掩膜,也即,放大了时空记忆网络输出的第三特征信息中相似特征的比重,使得可以更好地融合第三特征信息的内在信息,增强了视频目标分割模型的表征能力,提升视频目标分割模型的鲁棒性和泛化性。因此,本公开解决了相关技术中的视频目标分割模型的鲁棒性和泛化性较差的问题。
24.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
25.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
26.图1是示出根据本公开的示例性实施例的视频目标分割模型的结构示意图;
27.图2是根据一示例性实施例示出的一种编码网络的结构图;
28.图3是根据一示例性实施例示出的一种时空记忆网络的结构图;
29.图4是示出根据本公开的示例性实施例的视频目标分割方法的实施场景示意图;
30.图5是根据一示例性实施例示出的一种视频目标分割方法的流程图;
31.图6是根据一示例性实施例示出的一种调整后的记忆编码网络的结构图;
32.图7是根据一示例性实施例示出的一种调整后的查询编码网络的结构图;
33.图8是根据一示例性实施例示出的一种获取冗余特征信息的示意图;
34.图9是根据一示例性实施例示出的一种包含了降维处理来获取冗余特征信息的示意图;
35.图10是根据一示例性实施例示出的一种改进的时空记忆网络的结构图;
36.图11是根据一示例性实施例示出的一种视频目标分割装置的框图;
37.图12是根据本公开实施例的一种电子设备1200的框图。
具体实施方式
38.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
39.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
40.在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况:(1)包括a;(2)包括b;(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
41.目前的视频目标分割模型对视频进行目标分割的大致流程如图1所示,将视频流中当前图像帧前面的图像帧和其对应的目标掩膜(mask)保存在一个外部内存库(external memory bank)中。预测当前图像帧的目标掩膜(mask)时,首先,从上述external memory bank中选出若干个图像帧(记为记忆图像帧)及其mask输入到记忆编码网络(memory encoder)中,得到对应的key和value(key和value构成了一个键值对,key的作用是用来寻址,而value保存了一些用来生成mask的更加细节的信息);并将当前图像帧输入到查询编码网络(query encoder)中得到当前图像帧的key和value。其次,将memory encoder输出的若干个key与query encoder输出的key输入时空记忆网络(space-time memory,有时也称
为space-time memory read),得到用于预测当前图像帧的目标掩膜的特征信息,将该特征信息送入最后的decoder网络中进行目标掩膜的预测。需要说明的是,模型的训练过程也是如此,基于预测的mask和实际mask计算损失函数,通过该损失函数调整模型的参数。
42.其中,记忆编码网络(memory encoder)和查询编码网络(query encoder)的处理过程如图2所示,memory encoder和query encoder先经过任意深度学习backbone网络(图中以resnet50为例)提取深度特征,然后分开两个并行的分支,各自通过一个3x3的卷积层生成各自对应的key和value。
43.其中,时空记忆网络(space-time memory,有时也称为space-time memory read)处理过程如图3所示,在得到memory encoder输出的key和value、query encoder输出的key和value之后,通过space-time memory read模块对这些信息进行处理,来辅助进行精准的像素级(pixel-wise)的掩膜mask预测。具体地,首先将query encoder的key和memory encoder的每个key分别进行矩阵相乘,得到一个相似度图(similarity map),进一步通过归一化(softmax)操作将其约束到0-1范围;然后,将归一化后的相似度图与memory encoder输出的value进行矩阵乘法,得到中间结果,相当于为每个value(也即不同时间和区域value)分配了一个时空(time-space)上的权重矩阵;最后,将query encoder的value和上述中间结果在通道(channel)维度上进行拼接(concat),作为从memory encoder中读出来的结果y,送入后续的decoder网络进行最终mask的预测。
44.但是,如图3所示,相关技术中时空记忆网络在得到结果y之后直接送入了后续decoder网络中进行最终的mask预测,这种方式下,y并没有进行较好的信息融合,导致模型对多种多样的场景不具备较好的鲁棒性和泛化性,因而阻碍了模型性能的进一步提升。而且,如图2所示,记忆编码网络和查询编码网络在生成各自的key和value时,仅仅使用了基础网络(如resnet50)的3个阶段(stage)模块,分别为res2、res3和res4,各个模块输出特征的分辨率分别是输入图像的1/4、1/8和1/16。然而,一般来讲,时空记忆网络的基础网络都包括了4个stage模块,比如resnet50还包括res5模块,其输出的特征的分辨率为输入图像的1/32,因为网络愈深,分辨率越低,深层语义信息越丰富。相关技术如图2所示选用了res4输出的特征来生成键值对(key和value),因为res4输出的特征保留了较高分辨率(1/16)同时也具有一定的语义信息,达到了一个分辨率和深层语义信息之间的一个折中方案。然而这种方式由于丢弃了最后一个stage模块,导致不能充分的利用基础模型(如resnet50)丰富的深层次的语义信息,进而导致视频目标分割模型整体性能很难进一步提升。
45.针对上述问题,本公开提供了一种视频目标分割方法,能够提高视频目标分割模型的鲁棒性和泛化性,下面以视频目标分割的场景为例进行说明。
46.图4是示出根据本公开的示例性实施例的视频目标分割方法的实施场景示意图,如图4所述,该实施场景包括服务器100、用户终端110和用户终端120,其中,用户终端不限于2个,包括并不限于手机、个人计算机等设备,用户终端可以安装获取视频的摄像头,服务器可以是一个服务器,也可以是若干个服务器组成服务器集群,还可以是云计算平台或虚拟化中心。
47.用户终端110或用户终端120通过摄像头获取一段视频,当用户想要查看视频中小狗,此时,用户通过用户终端110或用户终端120将该视频作为待处理视频上传到服务器100,服务器100接收到待处理视频后,一个图像帧一个图像帧的进行处理。以视频的第二个
图像帧的处理为例:服务器100接收视频中第一个图像帧的标注信息,该标注信息可以是人为标注,即标注出第一个图像帧中小狗,标注信息可以包含该图像帧的目标掩膜,此时,服务器100将第一个图像帧作为记忆图像帧,并将第一个图像和其对应的目标掩膜存储到存储器中,然后,将第一个图像帧和其对应的目标掩膜输入记忆编码网络,得到第一个图像帧的第一键值对,其中,第一键值对包括第一特征信息和第一键信息,第一特征信息包括第一个图像帧的编码信息和目标掩膜的编码信息,第一键信息包括用于查询第一特征信息的寻址信息,并将当前图像帧输入查询编码网络,得到当前图像帧的第二键值对,其中,第二键值对包括第二特征信息和第二键信息,第二特征信息包括当前图像帧的编码信息,第二键信息包括用于查询第二特征信息的寻址信息,服务器100再将第一键值对和第二键值对输入时空记忆网络,得到用于预测当前图像帧的目标掩膜的第三特征信息;获取第三特征信息中冗余特征信息,其中,冗余特征信息是第三特征信息的不同信道间相似程度超过预设值的特征信息;将第三特征信息和冗余特征信息融合后输入解码网络,得到当前图像帧的目标掩膜;基于当前图像帧的目标掩膜,对待处理视频的当前图像帧进行目标分割。同时得到第二图像帧的目标掩膜对应分割效果比较好时,可以将第二个图像帧及其对应的目标掩膜也存储到存储器,作为记忆图像帧。
48.需要说明的是,用户终端110和用户终端120也可以独立完成该工作,无需服务器100,本公开对此并不进行限定。,
49.下面,将参照附图详细描述根据本公开的示例性实施例的视频目标分割方法及装置、电子设备。
50.图5是根据一示例性实施例示出的一种视频目标分割方法的流程图,如图5所示,视频目标分割方法包括以下步骤:
51.在步骤s501中,获取待处理视频的当前图像帧、当前图像帧对应的至少一个图像帧以及至少一个图像帧的目标掩膜,其中,至少一个图像帧在待处理视频中的位置位于当前图像帧之前。待处理视频可以是任何一类视频,本公开对此并不进行限定。上述至少一个图像帧的目标掩膜可以通过人为标注相应图像帧中的目标对象而获取的,也可以是通过本公开的方法得到的,对此本公开并不进行限定。一般情况下,第一个图像帧的目标掩膜是通过人为标注相应图像帧中的目标对象而获取的。
52.在步骤s502中,对至少一个图像帧、至少一个图像帧的目标掩膜和当前图像帧进行编码处理,得到至少一个图像帧的第一编码特征和当前图像帧的第二编码特征。在本步骤中,一般是分别对至少一个图像帧和当前图像帧进行编码处理,当然本公开对此并不进行限定。
53.根据本公开的示例性实施例,对至少一个图像帧、至少一个图像帧的目标掩膜和当前图像帧进行编码处理,得到至少一个图像帧的第一编码特征和当前图像帧的第二编码特征,包括:将至少一个图像帧和至少一个图像帧的目标掩膜输入记忆编码网络,得到第一键值对,作为第一编码特征,其中,第一键值对包括第一特征信息和第一键信息,第一特征信息包括至少一个图像帧的编码信息和目标掩膜的编码信息,第一键信息包括用于查询第一特征信息的寻址信息;将当前图像帧输入查询编码网络,得到第二键值对,作为第二编码特征,其中,第二键值对包括第二特征信息和第二键信息,第二特征信息包括当前图像帧的编码信息,第二键信息包括用于查询第二特征信息的寻址信息。根据本实施例,分别引入记
忆编码网络和查询编码网络,得到相应的第一键值对和第二键值对,从而后续可以获取到相对准确的第三特征信息。
54.具体地,上述记忆编码网络可以如图2所示,第一特征信息可以是记忆编码网络输出的value,第一键信息可以是记忆编码网络输出的key,对此,本公开并不进行限定。具体地,至少一个图像帧和至少一个图像帧的目标掩膜在记忆编码网络(memory encoder)中,先经过任意深度学习backbone网络(图2中以resnet50为例)提取深度特征,然后分开两个并行的分支,各自通过一个3x3的卷积层生成各自对应的key和value。
55.根据本公开的示例性实施例,记忆编码网络包括n个阶段模块,第n个阶段模块中一个卷积层为空洞卷积,其中,n为大于2的正整数,在将至少一个图像帧和至少一个图像帧的目标掩膜输入记忆编码网络,得到第一键值对之前,还包括:调整记忆编码网络的第n个阶段模块中空洞卷积的参数,得到调整后记忆编码网络,调整后记忆编码网络的第n个阶段模块输出结果的分辨率与第n-1个阶段模块输出结果的第一分辨率一致;将至少一个图像帧和至少一个图像帧的目标掩膜输入记忆编码网络,得到第一键值对,包括:将至少一个图像帧和至少一个图像帧的目标掩膜输入调整后记忆编码网络,得到第一分辨率的第一键值对。根据本实施例,调整了记忆编码网路的第n个阶段模块输出的分辨率,使其与n-1个阶段模块的输出的分辨率相同,因此,可以在生成的键值对的分辨率维持不变的基础上,也即保证记忆编码网络的输出分辨率较高的基础上,可以获取更深层次的语义信息,增强网络的表征能力,提升了模型对目标物体和背景的区分能力,进一步的增加了模型的鲁棒性和泛化性。
56.例如,以n等于4为例,图6是根据一示例性实施例示出的一种调整后的记忆编码网络的结构图,如图6所示,调整后的记忆编码网络包含了4个阶段模块,且调整后的记忆编码网络的输出的分辨率和第3个阶段模块的输出的分辨率一致,都是1/16。具体地,至少一个图像帧和至少一个图像帧的目标掩膜在记忆编码网络中,先经过任意深度学习backbone网络(图6中仍以resnet50为例)提取深度特征,然后分开两个并行的分支,各自通过一个3x3的卷积层生成各自对应的key和value。
57.根据本公开的示例性实施例,调整记忆编码网络的第n个阶段模块中空洞卷积的参数,包括:在第n个阶段模块中卷积核的尺寸参数不变的情况下,调整记忆编码网络的第n个阶段模块中空洞卷积的参数,以使调整后的第n个阶段模块输出结果的分辨率与第一分辨率一致。根据本实施例,调整第n个阶段模块时,保证卷积核的尺寸不变的情况下,使得调整后记忆编码网络可以按原来的框架逻辑对输入的图像进行处理,从而可以延续原始框架逻辑的优势。
58.例如,仍以图6所示的记忆编码网络结构为例。一般而言,在深度学习基础网络的最后一个stage(也即上述第n个阶段模块)中,通常会有一个卷积层conv(convolution),该卷积层conv一般包括但不限于如下参数:stride=s1,dilation=d1,padding=p1,kernel=k1,其中,kernel参数代表卷积核的尺寸,输入可以是int类型,如k1=3代表卷积核的height=width=3,也可以是tuple类型,如k1=(3,5)代表卷积核的height=3,width=5;stride参数代表卷积核的步距,默认为1,输入可以是int类型,也可以是tuple类型,需要注意的是,若为tuple类型即第一个int用于高度尺寸,第二个int用于宽度尺寸;padding参数代表在输入特征矩阵四周补零的情况,默认为0,同样输入可以为int型,如p1=1代表上下
方向各补一行0元素,左右方向各补一列0元素(即补一圈0),输入也可以为tuple型,如p1=(2,1)代表在上方补两行下方补两行,左边补一列,右边补一列;dilation参数有点类似于stride,实际含义为:每个点之间有空隙的过滤器。
59.假设记该卷积层conv的输入尺寸为w
in
,输出尺寸为w
out
,则:
[0060][0061]
一般来讲,上述参数组合为如下两种形式:
[0062]
(1)s1=2,k1=3,d1=1,p1=1时,得到如下关系:
[0063][0064]
(2)s1=2,k1=5,d1=1,p1=2时,得到如下关系:
[0065][0066]
因此,导致输出尺寸近似降为输入尺寸的1/2,为了不降低分辨率,可以利用空洞卷积原理,即调节除kernel参数以外的参数大小,如调整ilation参数大小,在维持相同感受野的情况下,做到不降低分辨率,修改后的参数可以为:
[0067]
(1)s1=1,k1=3,d1=2,p1=2得到如下关系
[0068][0069]
(2)s1=1,k1=5,d1=2,p1=4得到如下关系
[0070][0071]
如此,由于该调整方式并没改变卷积核k1的大小,因此,调整参数后的记忆编码网络仍然可以正常读取基础网络的预训练模型权重信息,也即正常使用没有进行调整的模型的训练好的参数。
[0072]
需要说明的是,本公开并不限于上述两种调整后的参数组合,还可以根据w
in
和w
out
等式关系,先令s1=1,然后通过调节d1和p1两个参数来达到相同目的。
[0073]
再具体地,上述查询编码网络可以如图2所示,第二特征信息可以是查询编码网络输出的value,第二键信息可以是查询编码网络输出的key,对此,本公开并不进行限定。具体地,当前图像帧在记忆编码网络(memory encoder)中,先经过任意深度学习backbone网络(图2中以resnet50为例)提取深度特征,然后分开两个并行的分支,各自通过一个3x3的卷积层生成各自对应的key和value。
[0074]
根据本公开的示例性实施例,查询编码网络包括n个阶段模块,第n个阶段模块中一个卷积层为空洞卷积,其中,n为大于2的正整数,在将当前图像帧输入查询编码网络,得到第二键值对之前,还包括:调整查询编码网络的第n个阶段模块中空洞卷积的参数,得到调整后查询编码网络,调整后查询编码网络的第n个阶段模块输出结果的分辨率与第n-1个阶段模块输出结果的第一分辨率一致;将当前图像帧输入查询编码网络,得到的第二键值对,包括:将当前图像帧输入调整后查询编码网络,得到第一分辨率的第二键值对。根据本实施例,调整了查询编码网络的第n个阶段模块输出的分辨率,使其与n-1个阶段模块的输出的分辨率相同,因此,可以在生成的键值对的分辨率维持不变的基础上,也即保证记查询
编码网络的输出分辨率较高的基础上,可以获取更深层次的语义信息,增强网络的表征能力,提升了模型对目标物体和背景的区分能力,进一步的增加了模型的鲁棒性和泛化性。
[0075]
例如,以n等于4为例,图7是根据一示例性实施例示出的一种调整后的查询编码网络的结构图,如图7所示,调整后的查询编码网络包含了4个阶段模块,且调整后的查询编码网络的输出的分辨率和第3个阶段模块的输出的分辨率一致,都是1/16。具体地,当前图像帧在查询编码网络中,先经过任意深度学习backbone网络(图6中仍以resnet50为例)提取深度特征,然后分开两个并行的分支,各自通过一个3x3的卷积层生成各自对应的key和value。
[0076]
根据本公开的示例性实施例,调整查询编码网络的第n个阶段模块中空洞卷积的参数,包括:在第n个阶段模块中卷积核的尺寸参数不变的情况下,调整查询编码网络的第n个阶段模块中空洞卷积的参数,以使调整后的第n个阶段模块输出结果的分辨率与第一分辨率一致。根据本实施例,调整第n个阶段模块时,保证卷积核的尺寸不变的情况下,使得调整后查询编码网络可以按原来的框架逻辑对输入的图像进行处理,从而可以延续原始框架逻辑的优势。
[0077]
仍以图7所示的查询编码网络结构为例。一般而言,在深度学习基础网络的最后一个stage(也即上述第n个阶段模块)中,通常会有一个卷积层conv(convolution),该卷积层conv一般包括但不限于如下参数:stride=s1,dilation=d1,padding=p1,kernel=k1,其中,kernel参数代表卷积核的尺寸,输入可以是int类型,如k1=3代表卷积核的height=width=3,也可以是tuple类型,如k1=(3,5)代表卷积核的height=3,width=5;stride参数代表卷积核的步距,默认为1,输入可以是int类型,也可以是tuple类型,需要注意的是,若为tuple类型即第一个int用于高度尺寸,第二个int用于宽度尺寸;padding参数代表在输入特征矩阵四周补零的情况,默认为0,同样输入可以为int型,如p1=1代表上下方向各补一行0元素,左右方向各补一列0像素(即补一圈0),输入也可以为tuple型,如p1=(2,1)代表在上方补两行下方补两行,左边补一列,右边补一列;dilation参数有点类似于stride,实际含义为:每个点之间有空隙的过滤器。
[0078]
假设记该卷积层conv的输入尺寸为w
in
,输出尺寸为w
out
,则:
[0079][0080]
一般来讲,上述参数组合为如下两种形式:
[0081]
(1)s1=2,k1=3,d1=1,p1=1时,得到如下关系:
[0082][0083]
(2)s1=2,k1=5,d1=1,p1=2时,得到如下关系:
[0084][0085]
因此,导致输出尺寸近似降为输入尺寸的1/2,为了不降低分辨率,可以利用空洞卷积原理,即调节除kernel参数以外的参数大小,如调整ilation参数大小,在维持相同感受野的情况下,做到不降低分辨率,修改后的参数可以为:
[0086]
(1)s1=1,k1=3,d1=2,p1=2得到如下关系
[0087][0088]
(2)s1=1,k1=5,d1=2,p1=4得到如下关系
[0089][0090]
如此,由于该调整方式并没改变卷积核k1的大小,因此,调整参数后的记忆编码网络仍然可以正常读取基础网络的预训练模型权重信息,也即正常使用没有进行调整的模型的训练好的参数。
[0091]
需要说明的是,本公开并不限于上述两种调整后的参数组合,还可以根据w
in
和w
out
等式关系,先令s1=1,然后通过调节d1和p1两个参数来达到相同目的。
[0092]
返回图5,在步骤s503中,将第一编码特征和第二编码特征输入时空记忆网络,得到用于预测当前图像帧的目标掩膜的第三特征信息。
[0093]
例如,时空记忆网络可以如图3所示,首先将query encoder的key和memory encoder的每个key分别进行矩阵相乘,得到一个相似度图(similarity map),进一步通过归一化(softmax)操作将其约束到0-1范围;然后,将归一化后的相似度图与memory encoder输出的value进行矩阵乘法,得到中间结果,相当于为每个value(也即不同时间和区域value)分配了一个时空(time-space)上的权重矩阵;最后,将query encoder的value和上述中间结果在通道(channel)维度上进行拼接(concat),作为从memory encoder中读出来的结果y,也即上述第三特征信息。
[0094]
在步骤s504中,提取第三特征信息中的冗余特征信息,其中,冗余特征信息是第三特征信息的不同信道间相似程度超过预设值的特征信息。例如,以第三特征信息中包含6个特征图,分别为特征图1、特征图2、特征图3、特征图4、特征图5和特征图6为例,其中,特征图1和特征图3是相似程度超过预设值的两个特征图,特征图2和特征图4是相似程度超过预设值的两个特征图,此时,特征图1和特征3可以组成一个特征集合,特征图2和特征图4可以组成一个特征集合,而冗余特征信息包括每个特征集合中的至少一个特征图,如,可以包括特征图1和特征图2,可以包括特征图1和特征图4,还可以包括特征图1、特征图3和特征图2,对此本公开并不进行限定。
[0095]
根据本公开的示例性实施例,提取第三特征信息中的冗余特征信息,包括:将第三特征信息输入冗余特征获取网络,得到第一冗余特征信息;对第一冗余特征信息进行归一化处理,得到第二冗余特征信息;将第二冗余特征信息经激活函数处理,得到冗余特征信息。根据本实施例,通过冗余特征获取网络、归一化处理以及激活函数,可以方便快速的得到冗余特征信息。
[0096]
例如,图8是根据一示例性实施例示出的一种获取冗余特征信息的示意图,如图8所示,上述冗余特征获取网络可以是3x3的深度卷积(depthwise convolution),也可以是其它卷积,如分组卷积,此处卷积的作用就是生成第一冗余特征信息,也就是获取相似的特征图,所以只要是能够实现用低成本的方式,获取冗余特征信息即可。上述归一化处理可以采用批标准化(batch normalization),也可以采用其他方式,对此本公开并不进行限定。上述激活函数可以采用relu函数,也可以采用其他激活函数,对此本公开也不进行限定。
[0097]
具体地,在如图3所示所示的时空记忆网络输出的第三特征信息后,可以将其输入如图8所示的包含3x3的depthwise convolution、batch normalization和relu函数的模
块,得到冗余特征信息。
[0098]
根据本公开的示例性实施例,在将第三特征信息输入冗余特征获取网络,得到第一冗余特征信息之前,还包括:对第三特征信息进行降维处理。根据本实施例,在获取冗余特征信息前,可以先对第三特征信息进行降维处理,可以减少获取与冗余特征信息过程中的计算量,降低成本。
[0099]
例如,图9是根据一示例性实施例示出的一种包含了降维处理来获取冗余特征信息的示意图,如图9所示,上述降维处理可以通过一个1x1的卷积层、batch normalization和relu函数实现,当然本公开对此并不进行限定。具体地,在如图3所示所示的时空记忆网络输出的第三特征信息后,可以将其输入如图9所示的包含了1x1的卷积层、batch normalization和relu函数的模块,得到降维后的第三特征信息,再将降维后的第三特征信息输入如图8所示的包含3x3的depthwise convolution、batch normalization和relu函数的模块,得到冗余特征信息。需要说明的是,降维后的第三特征信息的channel维度不局限于为c/2,可以是任意c/n,但需要满足n为正整数,c/n可整除,且c/n>1。
[0100]
返回图5,在步骤s505中,将第三特征信息和冗余特征信息融合后输入解码网络,得到当前图像帧的目标掩膜,其中,目标掩膜用于对当前图像帧进行目标分割。在本步骤中,可以将第三特征信息和冗余特征信息先进行拼接,再将拼接后的拼接结果输入解码网络,得到当前图像帧的目标掩膜,然后基于当前图像帧的目标掩膜,对待处理视频的当前图像帧进行目标分割。对于待处理视频中的每个图像帧都完成了目标分割,则待处理视频完成了目标分割。
[0101]
需要说明的是,上述获取冗余特征信息的结构也可以包含在时空记忆网络中,如此相当于对原始的时空记忆网络进行了改进,即改进后的时空记忆网络如图10所示,改进后的时空记忆网络输出的是第三特征信息和冗余特征信息的拼接结果,此时为新的y,将该拼接结果可以直接输入解码网络,对此,本公开并不进行限定。也即,本公开相当于提出了一种改进版的时空记忆读取模块,该模块可以更好地融合y内在的信息,增强整个模型的表征能力,提升了模型的鲁棒性和泛化性。一般情况下,在复杂的卷积神经网络中,存在着很多相似的通道,即存在相似的特征信息,也即上述冗余特征信息,本公开的时空记忆读取模块建立在以下逻辑之上:卷积神经网络的强大特征提取能力和这些相似的特征信息(特征相似性)正相关。因此,本公开增加了放大特征相似性的部分来进一步融合y内在的信息,从而进一步提升算法性能。
[0102]
而且,本公开还利用空洞卷积特征对时空记忆网络中基础网络架构中的第四个stage模块,如resnet50的res5模块,的降分辨率模块进行等效替代,从而可以在维持相似的感受野下,仍然维持相同的分辨率(1/16);因此,变换前后,网络拥有相似的感受野区域,用来生成键值对的特征分辨率维持不变,即仍为(1/16),同时可以利用起预训练基础模型(如resnet50)丰富的深层次的编码信息,增强网络的表征能力,提升了模型网络对目标物体和背景的区分能力,增加了算法的鲁棒性和泛化性
[0103]
图11是根据一示例性实施例示出的一种视频目标分割装置的框图。参照图11,该装置包括:
[0104]
图像帧获取单元110,被配置为获取待处理视频的当前图像帧、当前图像帧对应的至少一个图像帧以及至少一个图像帧的目标掩膜,其中,至少一个图像帧在待处理视频中
的位置位于当前图像帧之前;编码单元112,被配置为对至少一个图像帧、至少一个图像帧的目标掩膜和当前图像帧进行编码处理,得到至少一个图像帧的第一编码特征和当前图像帧的第二编码特征;第三特征信息获取单元114,被配置为将第一编码特征和第二编码特征输入时空记忆网络,得到用于预测当前图像帧的目标掩膜的第三特征信息;冗余特征信息获取单元116,被配置为提取第三特征信息中的冗余特征信息,其中,冗余特征信息是第三特征信息的不同信道间相似程度超过预设值的特征信息;目标掩膜获取单元118,被配置为将第三特征信息和冗余特征信息融合后输入解码网络,得到当前图像帧的目标掩膜,其中,目标掩膜用于对当前图像帧进行目标分割。
[0105]
根据本公开的实施例,冗余特征信息获取单元116,还被配置为将第三特征信息输入冗余特征获取网络,得到第一冗余特征信息;对第一冗余特征信息进行归一化处理,得到第二冗余特征信息;将第二冗余特征信息经激活函数处理,得到冗余特征信息。
[0106]
根据本公开的实施例,冗余特征信息获取单元116,还被配置为在将第三特征信息输入冗余特征获取网络,得到第一冗余特征信息之前,对第三特征信息进行降维处理。
[0107]
根据本公开的实施例,编码单元112,还被配置为将至少一个图像帧和至少一个图像帧的目标掩膜输入记忆编码网络,得到第一键值对,作为第一编码特征,其中,第一键值对包括第一特征信息和第一键信息,第一特征信息包括至少一个图像帧的编码信息和目标掩膜的编码信息,第一键信息包括用于查询第一特征信息的寻址信息;将当前图像帧输入查询编码网络,得到第二键值对,作为第二编码特征,其中,第二键值对包括第二特征信息和第二键信息,第二特征信息包括当前图像帧的编码信息,第二键信息包括用于查询第二特征信息的寻址信息。
[0108]
根据本公开的实施例,记忆编码网络括n个阶段模块,第n个阶段模块中一个卷积层为空洞卷积,其中,n为大于2的正整数,编码单元112,还被配置为调整记忆编码网络的第n个阶段模块中空洞卷积的参数,得到调整后记忆编码网络,调整后记忆编码网络的第n个阶段模块输出结果的分辨率与第n-1个阶段模块输出结果的第一分辨率一致;将至少一个图像帧和至少一个图像帧的目标掩膜输入调整后记忆编码网络,得到第一分辨率的第一键值对。
[0109]
根据本公开的实施例,查询编码网络包括n个阶段模块,第n个阶段模块中一个卷积层为空洞卷积,其中,n为大于2的正整数,编码单元112,还被配置为调整查询编码网络的第n个阶段模块中空洞卷积的参数,得到调整后查询编码网络,调整后查询编码网络的第n个阶段模块输出结果的分辨率与第n-1个阶段模块输出结果的第一分辨率一致;将当前图像帧输入调整后查询编码网络,得到第一分辨率的第二键值对。
[0110]
根据本公开的实施例,编码单元112,被配置为在第n个阶段模块中卷积核的尺寸参数不变的情况下,调整记忆编码网络和/或查询编码网络的第n个阶段模块中空洞卷积的参数,以使调整后的第n个阶段模块输出结果的分辨率与第一分辨率一致。
[0111]
根据本公开的实施例,可提供一种电子设备。图12是根据本公开实施例的一种电子设备1200的框图,该电子设备包括至少一个存储器1201和至少一个处理器1202,所述至少一个存储器中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器执行时,执行根据本公开实施例的视频目标分割方法。
[0112]
作为示例,电子设备1200可以是pc计算机、平板装置、个人数字助理、智能手机、或
其他能够执行上述指令集合的装置。这里,电子设备1000并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1200还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
[0113]
在电子设备1200中,处理器1202可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器1202还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
[0114]
处理器1202可运行存储在存储器中的指令或代码,其中,存储器1201还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
[0115]
存储器1201可与处理器1202集成为一体,例如,将ram或闪存布置在集成电路微处理器等之内。此外,存储器1201可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1201和处理器1202可在操作上进行耦合,或者可例如通过i/o端口、网络连接等互相通信,使得处理器1202能够读取存储在存储器1201中的文件。
[0116]
此外,电子设备1200还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。
[0117]
根据本公开的实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行本公开实施例的视频目标分割方法。这里的计算机可读存储介质的示例包括:只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd+r、cd-rw、cd+rw、dvd-rom、dvd-r、dvd+r、dvd-rw、dvd+rw、dvd-ram、bd-rom、bd-r、bd-r lth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如,多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
[0118]
根据本公开实施例,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现本公开实施例的视频目标分割方法。
[0119]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的
权利要求指出。
[0120]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1