基于时空卷积神经网络的视频显著性目标检测系统及方法

文档序号:31202089发布日期:2022-08-20 01:52阅读:201来源:国知局
基于时空卷积神经网络的视频显著性目标检测系统及方法

1.本发明属于数字图像处理技术领域,具体涉及一种基于时空卷积神经网络的视频显著性目标检测系统及方法。


背景技术:

2.随着互联网和通信技术的快速发展,人们能够获取的外界信息越来越多,据统计80%以上都是视觉信息资源。随着人们对信息质量的要求越来越高,图像和视频的分辨率也在不断地提升,这就导致视频分析等工作所需要的计算资源、存储资源也越来越大。在视频的分析处理过程中,人们的注意力往往只是关注视频中的一部分事物,如在背景固定的会话类视频中,人们可能会更在意视频中出现的人物;在监控类视频中,人们会更关注视频中新出现的目标。如果能事先挖掘出这些人们关注的目标或者区域,将有限的资源优先分配给这些区域,能够很好的提高分析和处理视频的能力。如何高效地从海量数据中挖掘出人们最关注的信息,成为计算机视觉领域的一大热点。基于人类视觉注意力的显著性目标检测可以准确地找到图像或者视频中最吸引人注意的区域,因此这一领域成为了一个重要的研究方向。
3.视频的显著性目标检测分为传统方法和基于深度学习的方法。大多数的传统的视频显著性目标检测方法一般都是依赖手工底层特征进行启发式显著性推理,因此无法处理需要知识和语义推理的复杂的视频序列,普遍存在检测效果不好或者检测成本高的缺点。基于深度学习的显著性目标检测方法主要由空间特征提取、时间特征提取、时空特征融合三部分组成。虽然该方法因为检测准确率高,不需要预处理,实时性比较高的优点逐渐取代了传统方法,但是目前基于深度学习的显著性目标检测方法仍然存在一定的问题:
4.问题1:视频帧序列在神经网络的传播过程中,检测到的特征图对每一个像素点的关注是一样的,也就是网络将提取到的特征同等看待,这就导致有些属于背景的区域对显著性目标的预测造成了干扰,影响了网络的检测性能;
5.问题2:大多数方法在最后进行显著性预测的时候,仅仅使用高级时空特征进行预测,忽略了低级语义特征这个细节信息。显著性目标检测是一个像素级预测任务,如果没有足够的细节信息,在一些物体的边缘上就不能进行精准的预测。
6.中国专利“cn109784183a基于级联卷积网络和光流的视频显著性目标检测方法”提供了一种在视频中的显著性目标检测的方法,该方法首先基于卷积神经网络进行空间特征提取,然后基于光流法进行光流场提取,最后对两者进行拼接后送入动态优化网络进行像素级的分类,进而得到每帧图像的显著图。从实验效果看,这种方法相对于传统的视频显著性目标检测方法大大提高了预测的精度。该专利虽然通过级联卷积网络进行空间特征提取并使用光流法进行时域特征提取,然后对两者进行简单的拼接以达到显著性目标检测的效果,但是该方法在本质上割裂了视频的时间特征和空间特征,会导致检测的准确率不高,实时性不好。此外,光流法的计算代价非常大,这必定造成实际业务中对视频处理的效率较低。同时,该发明专利采用卷积的操作对特征进行信息提取的过程中,卷积的操作相当于将
网络中的特征等同看待,在一定程度上造成了背景信息对显著性目标信息的干扰,使得检测效果并不理想。


技术实现要素:

7.针对上述问题,本发明提供一种基于时空卷积神经网络的视频显著性目标检测系统及方法,在不割裂时间特征和空间特征的前提下,兼顾效率的同时提升显著性目标检测方法进行显著性目标预测的精确度。
8.一种基于时空卷积神经网络的视频显著性目标检测系统,包括:空间特征提取模块、时空一致特征增强模块、特征融合及上采样模块、低级语义信息链接模块、解码器;
9.所述空间特征提取模块用于提取视频帧的空间特征;
10.所述时空一致特征增强模块用于提取视频帧的时空一致性特征,并对特征图中的特征值进行加权操作;
11.所述低级语义信息链接模块用于提取低级空间特征,去除低级空间特征的背景冗余信息;
12.所述特征融合及上采样模块用于将低级空间特征与时空一致性特征进行融合,并将特征图扩张到与输入视频同等大小;
13.所述解码器用于对特征图进行解码操作得到视频序列中每张图像对应的显著性目标掩码。
14.所述空间特征提取模块包括:残差模块和空洞卷积金字塔池化模块;
15.所述残差模块用于对空间特征进行建模操作;
16.所述空洞卷积金字塔池化模块用于提取多尺度的空间特征得到空间特征图。
17.所述时空一致特征增强模块包括:双向convlstm模块、注意力模块i、注意力模块ii、拼接模块;
18.所述双向convlstm模块用于根据当前帧和前向帧以及当前帧和后向帧之间的时空相关性进行建模操作;
19.所述注意力模块i用于对双向convlstm模块的前向单元得到的特征图中的特征点进行加权;
20.所述注意力模块ii用于对双向convlstm模块的后向单元得到的特征图中的特征点进行加权;
21.所述拼接模块用于将双向convlstm模块前向单元得到的特征图和后向单元得到的特征图进行拼接,通过tanh激活函数得到具有时空一致性的视频特征帧。
22.所述低级语义信息链接模块包括:链接模块i、链接模块ii、链接模块iii;
23.所述链接模块i用于提取残差模块中第四个卷积层输出的低级空间特征;
24.所述链接模块ii用于提取残差模块中第三个卷积层输出的低级空间特征;
25.所述链接模块iii用于提取残差模块中第二个卷积层输出的低级空间特征。
26.一种基于时空卷积神经网络的视频显著性目标检测方法,基于所述的基于时空卷积神经网络的视频显著性目标检测系统实现,所述方法包括:
27.步骤1:采集包含t帧图像的视频,提取视频帧的空间特征;
28.步骤2:提取视频帧的时空一致性特征,对特征图中的特征值进行加权操作;
29.步骤3:根据深度可分离卷积操作提取低级空间特征;
30.步骤4:将低级空间特征与时空一致性特征进行特征融合及上采样操作,得到包含t帧视频的高级特征图;
31.步骤5:对高级特征图解码得到视频序列中每张图像对应的显著性目标掩码。
32.所述步骤1具体表述为:采用预训练后的残差模块对空间特征进行建模,残差模块使用残差网络resnet-50的前5组层,同时移除第五层的下采样操作,然后将残差模块输出的特征输入到空洞卷积金字塔池化模块提取多尺度的空间特征得到空间特征图。
33.所述步骤2包括:
34.步骤2.1:采用双向convlstm模块的前向单元对空间特征提取模块输出的空间特征进行当前帧和前向帧之间的时空相关性建模操作,得到前向单元的输出结果;
35.步骤2.2:将前向单元的输出结果送入注意力模块i,对前向单元得到的特征图中的特征点进行加权得到包含非显著性目标和显著性目标对比度的特征图g1;
36.步骤2.3:经过注意力模块i加权后,将得到的特征图输入到后向单元进行当前帧和后向帧之间的时空相关性建模操作;
37.步骤2.4:将后向单元的输出结果送入注意力模块ii,对后向单元得到的特征图中的特征点进行加权得到包含非显著性目标和显著性目标对比度的特征图g2;
38.步骤2.5:将特征图g1、特征图g2进行拼接,输入一层卷积核为3*3的卷积层进行特征提取,然后通过tanh激活函数得到具有时空一致性的视频特征帧。
39.所述步骤2中的注意力模块i、注意力模块iii是基于自注意力机制构建的十字交叉注意力模块cca,输入特征经过三个并行且卷积核大小为1*1的卷积层,得到三个特征张量:q、k、v;然后将q和k输入第一个注意力分布计算层以得到q和k之间的注意力分布图a,计算过程如下所示:
40.d
i,u
=q
uki,u
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
41.a=softmax(d)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
42.式中,qu表示q中一个维度的张量;k
i,u
表示k中和qu中具有相同横坐标或者纵坐标的所有特征点;d
i,u
表示q中每一个通道中的特征点和k中特征点的关系,softmax表示激活函数;
43.将得到的特征张量a和v输入第二个注意力分布计算层,根据公式(1)、(2)计算a和v之间的注意力分布,然后将该注意力作为权重分布添加到原始的特征图中,即得到了包含显著性目标和非显著性目标对比度的高级特征图。
44.所述步骤3包括:
45.步骤3.1:将空间特征提取模块中的残差模块第2、3、4卷积层得到的不同粒度的空间特征并行送入链接模块i、ii、iii的第一层,先进行卷积操作,在卷积操作后使用归一化操作进行数据的归一化;
46.步骤3.2:将归一化后的空间特征并行送入链接模块i、ii、iii的第二层,采用深度可分离卷积操作对显著性目标进行细节特征的提取,卷积核的大小采用3*3的尺寸,每个卷积操作后的结果都送入归一化层,最后经过一个relu激活函数;
47.步骤3.3:将步骤3.2得到的结果并行送入链接模块i、ii、iii的第三层进行卷积操作,采用卷积核大小为1*1的卷积层对第二层得到的特征图进行通道调整。
48.所述步骤4具体表述为:采用递归的形式在特征融合及上采样模块中实现特征的拼接融合与上采样操作,实现过程如下:将链接模块i输出的低级空间特征和拼接模块输出的时空一致性特征进行拼接,经过一层卷积操作和上采样操作完成融合;将输出的特征和链接模块ii输出的低级空间特征进行融合;将输出的特征和链接模块iii输出的低级空间特征进行融合,得到和输入图片一样大小的特征帧;
49.所述步骤5具体表述为:将特征融合及上采样模块得到的特征帧通过一个卷积核为3*3的卷积层进行升维操作,然后通过一个卷积核为1*1的卷积层进行像素级的分类,最后通过sigmoid函数将分类结果进行归一化操作得到视频帧对应的显著性目标掩码。
50.本发明的有益效果是:
51.本发明提出了一种基于时空卷积神经网络的视频显著性目标检测系统及方法,是一种面向视频的、效率更高、精度更好的显著性目标检测方法,采用一种轻量级的骨干网络和空洞卷积金字塔池化模块进行显著性目标的空间特征提取;然后,采用一种嵌入了交叉自注意力计算机制的循环神经网络来进行时空一致性特征的提取,同时对特征图种的特征值进行加权以提升显著性特征和非显著性特征的对比度,在一定程度上避免背景信息对前景信息的干扰,提升了方法的预测精度;同时,采用了低级语义信息链接模块将低级空间特征和时空一致性特征进行融合,尽可能的减少低级空间特征的损失,使得在物体边缘的预测更加准确。本发明相对于传统的视频显著性目标检测方法,能够兼顾速度和精度,是一种更加适用于实际视频显著性目标检测的方法。
附图说明
52.图1为本发明中基于时空卷积神经网络的视频显著性目标检测系统框图;
53.图2为本发明中空间特征提取模块原理图;
54.图3为本发明中时空一致特征增强模块原理图;
55.图4为本发明中特征融合及上采样模块原理图;
56.图5为本发明中本发明方法与其他显著性目标检测方法之间的可视化结果对比图。
具体实施方式
57.下面结合附图和具体实施实例对发明做进一步说明。
58.如图1所示,一种基于时空卷积神经网络的视频显著性目标检测系统,包括:空间特征提取模块、时空一致特征增强模块、特征融合及上采样模块、低级语义信息链接模块、解码器;
59.所述空间特征提取模块用于提取视频帧的空间特征;
60.所述时空一致特征增强模块用于提取视频帧的时空一致性特征,并对特征图中的特征值进行加权操作;
61.所述低级语义信息链接模块用于提取低级空间特征,去除低级空间特征的背景冗余信息;
62.所述特征融合及上采样模块用于将低级空间特征与时空一致性特征进行融合,并将特征图扩张到与输入视频同等大小;特征融合及上采样模块的结构图如图4所示,采用递
归的形式依次将链接模块ⅰ、ⅱ、ⅲ输出的低级空间特征和时空一致特征增强模块输出的时空一致性特征进行融合和上采样操作,其中,conv表示卷积操作,f
l2
、f
l3
、f
l4
依次表示残差模块第2、3、4卷积层输出的低级空间特征,si(i=1....t)表示得到的显著性目标掩码,f
cl
表示得到的时空一致性特征。
63.所述解码器用于对特征图进行解码操作得到视频序列中每张图像对应的显著性目标掩码。
64.所述空间特征提取模块包括:残差模块和空洞卷积金字塔池化模块;
65.所述残差模块用于对空间特征进行建模操作;
66.所述空洞卷积金字塔池化模块用于提取多尺度的空间特征得到空间特征图。
67.空间特征提取模块的结构图如图2所示,输入包含t帧图像的视频,视频帧依次经过残差模块和空洞卷积金字塔池化模块进行空间特征的提取,ii(i=1.....t)表示输入的视频帧,aspp表示空洞卷积金字塔池化模块,f
aspp
表示得到的空间特征。
68.所述时空一致特征增强模块包括:双向convlstm模块、注意力模块i、注意力模块ii、拼接模块;
69.所述双向convlstm模块用于根据当前帧和前向帧以及当前帧和后向帧之间的时空相关性进行建模操作;
70.所述注意力模块i用于对双向convlstm模块的前向单元得到的特征图中的特征点进行加权;
71.所述注意力模块ii用于对双向convlstm模块的后向单元得到的特征图中的特征点进行加权;
72.所述拼接模块用于将双向convlstm模块前向单元得到的特征图和后向单元得到的特征图进行拼接,通过tanh激活函数得到具有时空一致性的视频特征帧。
73.时空一致特征增强模块如图3所示,空间特征提取模块输出的空间特征依次被送入双向convlstm模块的前向单元、注意力模块i、双向convlstm模块的后向单元、注意力模块ⅱ进行时空一致性特征的提取,且对得到的特征图中的特征点进行加权,ccai(i=1、2.....t)表示交叉注意力模块,convlstm表示卷积长短期记忆网络,f
aspp
表示空间特征提取模块得到的空间特征,f
cl
表示得到的时空一致性特征。
74.所述低级语义信息链接模块包括:链接模块i、链接模块ii、链接模块iii;
75.所述链接模块i用于提取残差模块中第四个卷积层输出的低级空间特征;
76.所述链接模块ii用于提取残差模块中第三个卷积层输出的低级空间特征;
77.所述链接模块iii用于提取残差模块中第二个卷积层输出的低级空间特征。
78.一种基于时空卷积神经网络的视频显著性目标检测方法,基于所述的基于时空卷积神经网络的视频显著性目标检测系统实现,包括:
79.步骤1:将包含t帧图像的视频送入空间特征提取模块,由粗到细地提取视频帧的空间特征;空间特征提取模块包括残差模块和空洞卷积金字塔池化模块。首先采用预训练好的残差模块对空间特征进行初步建模操作,残差模块使用resnet-50网络的前5组层,同时移除第五层的下采样操作。然后将残差模块输出的特征输入到空洞卷积金字塔池化模块提取多尺度的空间特征得到低级空间特征图。表示包含t帧图像的视频,上述建模过程如公式所示:
[0080][0081][0082]
式中,m
res
表示骨干网络,m
aspp
表示空洞卷积金字塔池化模块,表示最后得到的空间特征。
[0083]
步骤2:将步骤1中提取到的空间特征送入到时空一致特征增强模块,进一步学习更深层次的时空一致性特征,对特征图中的特征值进行加权操作以提升显著性特征和非显著性特征的对比度;包括:
[0084]
步骤2.1:采用双向convlstm模块的前向单元对空间特征提取模块输出的空间特征进行当前帧和前向帧之间的时空相关性建模操作;
[0085]
前向单元的建模过程如公式所示:
[0086][0087]
式中,t表示当前帧,表示前向单元的输出结果,表示当前帧的前向帧的特征,表示步骤1中得到的空间特征。
[0088]
步骤2.2:将前向单元的输出结果送入注意力模块i,对前向单元得到的特征图中的特征点进行加权得到包含非显著性目标和显著性目标对比度的特征图g1;
[0089]
加权过程如公式所示:
[0090][0091]
式中,表示包含非显著性目标和显著性目标对比度的特征图,

表示哈德玛乘积,cca表示注意力模块因子。
[0092]
步骤2.3:经过注意力模块i加权后,将得到的特征图输入到后向单元进行当前帧和后向帧之间的时空相关性建模操作;
[0093]
后向单元的建模过程如公式所示:
[0094][0095]
式中,t表示当前帧,表示后向单元输出的结果。
[0096]
步骤2.4:将后向单元的输出结果送入注意力模块ii,对后向单元得到的特征图中的特征点进行加权得到包含非显著性目标和显著性目标对比度的特征图g2;
[0097]
加权过程如公式所示:
[0098][0099]
式中,表示包含非显著性目标和显著性目标对比度的特征图,

表示哈德玛乘积,cca表示注意力模块因子。
[0100]
步骤2.5:将特征图g1、特征图g2进行拼接,输入一层卷积核为3*3的卷积层进行特征提取,然后通过tanh激活函数得到具有时空一致性的视频特征帧;
[0101]
上述建模过程如公式所示:
[0102][0103]
式中,表示经过时空一致特征增强模块后得到的时空一致性特征。
[0104]
所述步骤2中的注意力模块i、注意力模块iii是基于自注意力机制构建的十字交叉注意力模块cca,输入特征经过三个并行且卷积核大小为1*1的卷积层,得到三个特征张量:q、k、v;然后将q和k输入第一个注意力分布计算层以得到q和k之间的注意力分布图a,计算过程如下所示:
[0105]di,u
=q
uki,u
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0106]
a=softmax(d)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0107]
式中,qu表示q中一个维度的张量;k
i,u
表示k中和qu中具有相同横坐标或者纵坐标的所有特征点;d
i,u
表示q中每一个通道中的特征点和k中特征点的关系,softmax表示激活函数;
[0108]
将得到的特征张量a和v输入第二个注意力分布计算层,根据公式(1)、(2)计算a和v之间的注意力分布,然后将该注意力作为权重分布添加到原始的特征图中,即得到了包含显著性目标和非显著性目标对比度的高级特征图;
[0109]
上述建模过程如公式所示:
[0110]fout
=a
uvi,u
+f
input
[0111]
式中,au表示a中一个维度的张量;v
i,u
表示选择v中和au具有相同横坐标或者纵坐标的点;f
out
∈f
out
,f
out
表示包含了非显著性目标和显著性目标特征对比度的时空一致性特征。
[0112]
步骤3:将空间特征提取模块中的第2、3、4卷积层得到的不同粒度的空间特征输入由ghost组成的低级语义信息链接模块,进一步提取低级空间特征,去除低级空间特征的背景冗余信息;包括:
[0113]
步骤3.1:将空间特征提取模块中的残差模块第2、3、4卷积层得到的不同粒度的空间特征并行送入链接模块i、ii、iii的第一层,先进行卷积操作,在卷积操作后使用归一化操作进行数据的归一化;
[0114]
步骤3.2:将归一化后的空间特征并行送入链接模块i、ii、iii的第二层,采用深度可分离卷积操作对显著性目标进行细节特征的提取,卷积核的大小采用3*3的尺寸,每个卷积操作后的结果都送入归一化层,最后经过一个relu激活函数;
[0115]
步骤3.3:将步骤3.2得到的结果并行送入链接模块i、ii、iii的第三层进行卷积操作,采用卷积核大小为1*1的卷积层对第二层得到的特征图进行通道调整。
[0116]
步骤4:将步骤3中低级语义信息链接模块输出的低级语义特征和步骤2中时空一致特征增强模块输出的时空一致性特征一起输入给特征融合及上采样模块进行融合操作,将特征图扩张到输入视频帧大小;具体表述为:采用递归的形式在特征融合及上采样模块中实现特征的拼接融合与上采样操作,实现过程如下:将链接模块i输出的低级空间特征和拼接模块输出的时空一致性特征进行拼接,经过一层卷积操作和上采样操作完成融合;将输出的特征和链接模块ii输出的低级空间特征进行融合;将输出的特征和链接模块iii输出的低级空间特征进行融合,得到和输入图片一样大小的特征帧;
[0117]
上述建模过程如公式所示:
[0118][0119]
[0120][0121]
式中,表示经过步骤2得到的时空一致性特征,表示空间特征提取模块第4卷积层输出的特征经过低级语义链接模块得到的低级语义特征,表示空间特征提取模块第3卷积层输出的特征经过低级语义链接模块得到的低级语义特征,表示空间特征提取模块第2卷积层输出的特征经过低级语义链接模块得到的低级语义特征,f
t
表示最后得到的特征帧,conv表示卷积操作,up表示上采样操作。
[0122]
步骤5:将步骤4中得到的特征图送入到解码器进行解码操作得到视频序列中每张图像对应的显著性目标掩码;具体表述为:将特征融合及上采样模块得到的特征帧通过一个卷积核为3*3的卷积层进行升维操作,然后通过一个卷积核为1*1的卷积层进行像素级的分类,最后通过sigmoid函数将分类结果进行归一化操作得到视频帧对应的显著性目标掩码。
[0123]
上述建模过程如公式所示:
[0124]st
=δ
sigmoid
(conv(f
t
))
[0125]
式中,δ
sigmoid
表示sigmoid激活函数,s
t
表示最后得到的视频帧的显著性目标掩码。
[0126]
本发明基于编解码结构,在编码端进行空间特征提取和时空一致性特征提取,在解码端进行特征融合和显著性目标预测,在兼顾效率的同时提升显著性目标预测的精确度。在时空信息增强模块中基于自注意力机制设计了一种嵌入双层交叉注意力计算机制的convlstm结构(简称dca_convlstm),通过该模块在空间和时间维度上引入了全局信息,对显著图对应的特征值进行加权以提升显著性特征和非显著性特征的对比度,在一定程度上避免背景信息对前景信息的干扰,提升了方法的预测精度,同时也得到了时空一致性特征。
[0127]
再者,本发明提出了由ghost组成的低级语义信息链接模块。随着神经网络层次的变化,在不同层提取的特征所表达的语义并不相同。深层次卷积层可以以更小的卷积核映射出更大的感受野,进而可以提取更高层的语义特征,浅层次的卷积层则具有比较小的感受野,提取的特征更能反应图像的局部细节信息,如轮廓信息。视频显著性目标检测是一个像素级的预测任务,此类任务如果缺少细节信息,那么在一些物体边缘就不能进行精准的预测。因此本发明提出了由ghost组成的低级语义信息链接模块,尽可能的减少了低级语义特征的损失,使得在物体边缘的预测更加准确。
[0128]
为了证明本发明中视频显著性目标检测方法的有效性,对本文所提出的方法和其他7种先进的显著性目标检测方法在davis、vos、fbms三个数据集上进行了测试,可视化结果如图5所示。其中7种方法分别为rfcn、dss、pica、ssa、fcns、fgrn、pdb;gt为真实标签;在图5中,第一行为原始视频帧,最后一行gt为真实标签,倒数第二行为本发明提出的视频显著性目标检测方法的检测结果,其余各行是前人在该领域提出的一些显著性目标检测方法的预测结果。从图5中的对比实验结果可以看出,本发明提出的视频显著性目标检测方法在显著性目标的轮廓定位以及显著性目标的细节预测上更为精准。并且在针对具有多个显著性目标且背景较为复杂的场景,本发明中提出的方法依旧有着不错的检测效果。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1