1.本发明属于视觉目标跟踪领域,具体涉及一种单目标长时跟踪方法。
背景技术:2.视觉目标跟踪是指在一段视频中持续跟踪指定目标的技术,跟踪过程的可视化通常为使用一个矩形框锁定目标来展现。通常的目标跟踪方法是基于孪生网络,将跟踪任务定义成两幅图像间相似性度量的问题,输入初始化的模板信息,在后续帧上寻找与模板匹配程度最大的图像区域。
3.上述跟踪方式在长时跟踪场景下,跟踪器学习到的错误信息将不断积累,最终导致跟踪失败;并且由于目标不总是存在于场景中,因此要求跟踪丢失后的目标重检测机制。现有的目标重检机制往往是通过跟踪检测预测跟踪目标在下一视频帧的位置,并判断预测位置是否可靠,一旦发现预测位置不够可靠,则进行全局重检测,重新计算确定预测位置,根据新的预测位置继续跟踪目标。
4.如申请公布号为cn111242977a的中国发明专利中公开了一种全景视频的目标跟踪方法,其中,只要预测跟踪位置的置信度小于置信度阈值,就重新进行目标检测,根据检测结果重新确定预测跟踪框,再根据新的预测跟踪框进行下一视频帧的跟踪,若同时判定目标并非被遮挡,则重新确定预测跟踪框后需要重启跟踪器。这种重检测方法能够避免跟踪器使用固定模板进行跟踪的错误积累,也能够及时更新跟踪情况,但由于重检测整体流程执行需要一定时间,因此如果重检测频繁触发,则可能会影响到目标跟踪的实时性。
技术实现要素:5.本发明的目的在于提供一种单目标长时跟踪方法,用于解决现有技术在目标跟踪的过程中,重检测流程触发频繁导致的重检测效率较低、实时性差的问题。
6.为了实现上述目的,本发明提供了一种单目标长时跟踪方法,包括如下步骤:
7.1、一种单目标长时跟踪方法,其特征在于,包括以下步骤:
8.1)获取视频帧序列,根据跟踪目标从视频帧序列中确定第一模板区域和第一搜索区域;所述第一模板区域为首次识别到目标的视频帧中,对目标附近区域剪裁出的第一设定尺寸的区域;所述第一搜索区域为首次识别到目标的视频帧中,对包含目标的区域剪裁出的第二设定尺寸的区域;
9.2)将视频当前帧的模板区域和视频当前帧的搜索区域输入卷积神经网络,提取两幅图像的特征,得到两幅特征图;
10.3)将所述两幅特征图降维压平为一维特征向量,进行特征融合,得到一组融合后的特征向量;
11.4)将所述融合后的特征向量通过卷积核映射到高维,再通过位置预测网络利用映射后的特征定位目标在当前帧中的位置获取本次预测结果,同时将融合后的特征也输入评分网络,对预测结果进行置信评分;
12.5)根据不同的置信评分设置相应的跟踪策略,具体如下:
13.①
若评分网络输出的置信分数s
t
大于第一设定阈值τ1,且当前时刻与上一次更新模板区域时刻之间的间隔大于tu,则将本次预测结果加入模板池,作为更新视频下一帧的模板区域时的参考;在计算并更新模板区域后,将更新的模板区域与视频下一帧的搜索区域一起输入卷积神经网络,所述搜索区域是根据本次预测结果确定的;
14.②
若s
t
大于第一设定阈值τ1,而当前时刻与上一次更新模板区域时刻之间的间隔小于tu,则不进行模板区域更新,继续进行下一帧的跟踪;
15.③
若s
t
小于第一设定阈值τ1,且大于第二设定阈值τ2,则不进行模板区域更新,并将下一帧的搜索区域以当前帧预测结果为中心,扩大至原搜索区域面积的22倍;
16.④
若s
t
小于第二设定阈值τ2,则不进行模板区域更新,输入视频当前帧的整幅图像并使用回归网络对目标位置进行粗定位,再通过回归网络中的分类头,判断粗定位区域内是否包含目标;若包含目标,则根据目标位置,对目标附近区域裁剪出第二设定尺寸的区域作为视频下一帧新的搜索区域,否则不更新搜索区域,直接进行下一帧的跟踪;
17.其中第二设定阈值τ2小于第一设定阈值τ1;
18.6)重复以上步骤2)-5)直至视频帧序列结束。
19.有益效果是:该跟踪方法能够在跟踪效果不佳时,根据跟踪效果推断实际的目标跟踪情况,区分不同的跟踪状态;若判定目标只是被遮挡一部分,则仅在下一帧的跟踪过程中扩大搜索区域面积,将目标显示完全即可实现准确跟踪;只有在判定目标基本丢失时才在整体图像中重新进行定位,即进行完整的重检测流程,重新定位找到目标。由于该方法能够不同跟踪效果设置相应的跟踪策略,因此能够在保证目标跟踪精度的基础上,尽可能地避免不必要的重检测步骤,从而提高整体的重检测效率,保证目标跟踪的实时性。
20.进一步地,为获取更可靠的定位目标结果,步骤4)中,位置预测网络的目的为学习一个回归函数y=f(x;w),所述回归函数中,y表示预测结果,x为输入图像,w是所求回归函数的权值;位置预测网络使用rpn函数生成候选目标框,所述回归函数的训练通过下式进行:
[0021][0022]
其中表示孪生网络特征提取函数,ζ为rpn函数,yi为输入xi对应的标签,zi为模板图像。
[0023]
进一步地,为准确计算预测结果的置信度,使跟踪状态的判断更可靠,步骤4)中,评分网络的输入为模板区域特征与搜索区域特征融合后的特征,该网络的目的是学习一个函数从而最大化置信函数s
θ
(y,x),最后通过归一化控制,使评分网络输出0-1之间连续值;
[0024]
其中,置信函数为其中,置信函数为表示特征提取函数,ψ(
·
)表示特征融合函数,y表示模板区域图像,x表示搜索区域图像,b为超参数。
[0025]
置信函数通过以下目标函数训练:
[0026]
l(θ;xi,yi)=∫yl(s
θ
(y,xi),a(y,yi))dy
[0027]
其中l为损失函数,θ为网络通过训练学习到的参数,a(y,yi)为标签函数,y服从高
斯正态分布,xi表示第i帧搜索区域图像,yi为输入xi对应的标签。
[0028]
进一步地,步骤4)中,所述评分网络训练时的损失为gfocal损失:
[0029][0030]
为fq损失,为df损失,为giou损失,n
pos
为正样本,λ0和λ1分别是和的权值,z代表样本位置中心坐标,在时取值为1,否则为0。
[0031]
df损失旨在扩大目标周围值的概率;giou损失考虑预测结果与真实目标的形状重合度;fq损失在预测结果偏离标签时可平滑的调整权重,着重学习硬负样本信息,从而自动降低容易样本的贡献,平衡正负样本不均衡。gfocal损失在正样本集合上使用fq损失平衡正负样本均衡,并在正样本中心处通过df损失和giou损失学习目标中心附近样本信息,使得置信函数能从正样本和硬负样本中学习到更好的数据分布。
[0032]
进一步地,为优化特征融合效果,从而提高预测结果的可靠性,步骤3)中,通过transformer编码器和译码器结构进行特征融合;其中,transformer编码器结构为带有前馈网络的多头自注意力模块;译码器由多头自注意力、多头交叉注意力和前馈网络组成。
[0033]
进一步地,为准确区分不同的目标跟踪情况,并避免过于频繁地更新模板区域,减少不必要的更新运算成本,步骤5)中,第一设定阈值τ1在0.65-0.75范围内选择,第二设定阈值τ2在0.3-0.4范围内选择,其中frameg为视频序列的总帧数。
[0034]
所述第一设定阈值的设置能够将跟踪状态良好与跟踪状态不佳两种情况区分开来,第二设定阈值的设置能够再将跟踪状态不佳分类为两种程度,一种是跟踪不够及时导致跟踪目标被遮挡,即搜索区域中包含的目标不够完整,程度较轻,另一种则是预测的搜索区内几乎不包括目标,即完全丢失跟踪目标,程度较重;针对上述不同的跟踪情况为下一视频帧设置不同的跟踪策略,从而使跟踪策略与实际跟踪情况更匹配,效率更高。并且,通过设置阈值控制模板区域更新次数,可以避免帧数太过密集时,模板区域在没有较大变化的情况下仍频繁更新,从而提高模板区域更新的效率。
[0035]
进一步地,步骤5)中,当采用策略
①
时,有:
[0036][0037]
为更新后模板区域特征,为首帧模板区域特征,
[0038]
为融合模板池内所有模板图像特征的融合特征,融合方法采用concat函数;λ为超参数,表示element-wise乘积。
[0039]
使用该式融合模板信息可以有效保留初始模板信息,通过控制λ值能够避免模板信息被污染。
[0040]
进一步地,为在跟踪失效、目标丢失的情况下,准确判断目标在当前帧的存在状态并重捕获目标,步骤5)中,策略
④
中所述回归网络使用骨干网络和特征增强网络提取并输出特征在头部网络训练回归头和分类头;所述回归网络的输入为目标模板和全局图像,经特征提取网络后,通过分类头判别全局图像中的目标和背景的分类得分,若输出的目标最高分类得分大于设定阈值,则以回归头粗定位目标位置;所述全局图像指的是视频当
前帧的整幅图像;所述回归头使用rpn函数,通过非极大抑制选择出回归框,以该框的中心坐标裁剪出第二设定尺寸的区域作为视频下一帧新的搜索区域,完成当前的跟踪;所述分类头训练一个判别函数,将搜索区域特征与模板区域特征进行匹配得到分类得分:
[0041][0042]
为模板特征,g(
·
)为线性互相关算子,ffn是一个前馈网络,包含卷积层、归一化层和softmax层,输出0-1之间的连续值作为分类得分。
[0043]
进一步地,所述设定得分阈值为0.55。
[0044]
进一步地,为使模板区域能够更好地体现目标特征、搜索区域能够充分包含目标,所述第一设定尺寸为3
×
128
×
128,第二设定尺寸为3
×
256
×
256。
附图说明
[0045]
图1是本发明方法实施例中的一种单目标长时跟踪方法流程图;
[0046]
图2是本发明方法实施例中的跟踪网络示意图;
[0047]
图3是本发明方法实施例中判别跟踪状态的不同情况及对应跟踪策略示意图;
[0048]
图4是本发明方法实施例中重检测网络示意图;
[0049]
图5为不同视频序列的跟踪过程效果图;
[0050]
图6为本发明与多个不同算法在长时跟踪数据集lasot上的测试结果对比图。
具体实施方式
[0051]
为了使本发明的目的、技术方案及优点更加清楚明了,以下结合附图及实施例,对本发明进行进一步详细说明。
[0052]
方法实施例:
[0053]
本实施例提供了一种单目标长时跟踪方法,参照图1,具体步骤如下:
[0054]
1)作为模板区域获取视频帧序列,根据跟踪目标从视频帧序列中确定第一模板区域和第一搜索区域;所述第一模板区域为首次识别到目标的视频帧中,对目标附近区域剪裁出的第一设定尺寸的区域;所述第一搜索区域为首次识别到目标的视频帧中,对包含目标的区域剪裁出的第二设定尺寸的区域。
[0055]
在进行目标跟踪时,首先需要获取最开始的目标位置和特征作为识别依据,由于目标不一定在视频的首帧就出现,因此需要先按照视频序列,逐帧识别目标,直到第一次在视频帧中识别到目标,再采用那一帧中的目标特征作为第一模板区域,即作为后续识别目标时的比对基础;将目标附近的区域作为下一帧在进行目标识别时的第一搜索区域,即下一帧的目标识别只在该搜索区域的范围内进行,无需针对整个图像进行识别匹配,提高识别效率,从而保证跟踪实时性。
[0056]
2)将视频当前帧的模板区域和视频当前帧的搜索区域输入卷积神经网络,提取两幅图像的特征,得到两幅特征图。此处的卷积神经网络可以采用如resnet50的特征提取网络。
[0057]
3)将所述两幅特征图降维压平为一维特征向量,进行特征融合,得到一组融合后的特征向量。
[0058]
其中,通过transformer编码器和译码器结构进行特征融合;transformer编码器结构为带有前馈网络的多头自注意力模块,其输入为压平后的卷积特征,通过多头自注意模块捕获输入序列中所有元素的特征依赖关系,输出包含各元素特征位置关系的一维特征;译码器由多头自注意力、多头交叉注意力和前馈网络组成,其输入为编码器的输出和一个目标特征编码,通过自注意力和互注意力模块交互模板和搜索区域上的特征信息,最终输出预测的目标位置码。
[0059]
4)将所述融合后的特征向量通过卷积核映射到高维,通过位置预测网络利用映射后的特征定位目标在当前帧中的位置获取本次预测结果,同时将融合后的特征也输入评分网络,对预测结果进行置信评分。本实施例中,在将特征向量通过卷积核映射到高维时,使用1
×
1卷积核,通过控制卷积核深度,最终将特征维度调整到1024。
[0060]
其中,位置预测网络的目的为学习一个回归函数y=f(x;w),该函数中,y代表预测结果,x为输入图像,w是所求回归函数的权值。位置预测网络使用rpn函数生成候选目标框,上述回归函数的训练通过下式进行:
[0061][0062]
其中表示孪生网络特征提取函数,ζ为rpn函数,yi为输入xi对应的标签,zi为模板图像。
[0063]
评分网络的输入为模板区域特征与搜索区域特征融合后的特征,该网络的目的是学习一个函数从而最大化置信函数s
θ
(y,x),最后通过归一化控制,使评分网络输出0-1之间连续值;
[0064]
其中,置信函数为其中,置信函数为表示特征提取函数,ψ(
·
)表示特征融合函数,y表示模板区域图像,x表示搜索区域图像,b为超参数。
[0065]
置信函数通过以下目标函数训练:
[0066]
l(θ;xi,yi)=∫yl(s
θ
(y,xi),a(y,yi))dy
[0067]
其中l为损失函数,θ为网络通过训练学习到的参数,a(y,yi)为标签函数,y服从高斯正态分布,xi表示第i帧搜索区域图像,yi为输入xi对应的标签。
[0068]
置信评分越高,说明在搜索区域内识别到的目标特征就越多,即目标跟踪的效果越好,置信评分偏低,则说明目标的部分甚至大部分特征都没有被包含在搜索区域中,因此说明目标跟踪效果不佳。
[0069]
上述步骤2)-4)中的各个网络即构成整体的跟踪网络,如图2所示。
[0070]
5)根据不同的置信评分设置相应的跟踪策略,参照图3,具体如下:
[0071]
①
若评分网络输出的置信分数s
t
大于第一设定阈值τ1,且当前时刻与上一次更新模板区域时刻之间的间隔大于tu,则将本次预测结果作为视频下一帧的新的模板区域,与视频下一帧的搜索区域一起输入卷积神经网络,所述搜索区域是根据本次预测结果确定的;
[0072]
②
若s
t
大于第一设定阈值τ1,而当前时刻与上一次更新模板区域时刻之间的间隔小于tu,则不进行模板区域更新,直接进行下一帧的跟踪;由此能够避免正常跟踪时每一帧都额外提取模板特征,以降低参数量。
[0073]
③
若s
t
小于第一设定阈值τ1,且大于第二设定阈值τ2,则不进行模板区域更新,并将下一帧的搜索区域以当前帧预测结果为中心,扩大至原搜索区域面积的22倍;
[0074]
④
若s
t
小于第二设定阈值τ2,则不进行模板区域更新,输入视频当前帧的整幅图像并使用回归网络对目标位置进行粗定位,再通过回归网络中的分类头,判断粗定位区域内是否包含目标;若包含目标,则根据目标位置,对目标附近区域裁剪出第二设定尺寸的区域作为视频下一帧新的搜索区域,否则不更新搜索区域,直接进行下一帧的跟踪;
[0075]
其中第二设定阈值τ2小于第一设定阈值τ1,且第一设定阈值τ1和第二设定阈值τ2的值可以根据实际需要适应性设置,如:第一设定阈值τ1在0.65-0.75范围内选择,第二设定阈值τ2在0.3-0.4范围内选择。上述阈值为经验常数,通常反映跟踪器预测结果与目标真实位置的重叠程度,局部遮挡或快速运动引起的目标形变量通常在50%以下。
[0076]
该步骤中,用两个阈值与置信分数做比较,从而将跟踪状态区分为三类,匹配不同的跟踪策略。置信评分大于第一设定阈值τ1时为第一类情况,此时目标的绝大部分特征均包含在搜索区域内,表示预测结果可靠,将预测结果作为模板区域更新的参考,并继续下一帧的跟踪;置信评分小于第一设定阈值τ1,且大于第二设定阈值τ2时为第二类情况,此时考虑目标被搜索区域局部遮挡,于是在下一帧扩大搜索区域继续跟踪;当置信评分小于第二设定阈值τ2时,认为目标大范围消失于画面中,此时需要通过回归网络重新捕获目标,即将当前帧的整体图像送入回归网络进行检测,若回归网络检测到目标,则对其进行粗定位,再剪裁由粗定位获得的图像区域,重新送入跟踪网络进一步精细定位目标位置,获取新的模板区域和搜索区域。
[0077]
其中,第一类情况又分为两种不同的跟踪策略,只有当距离上一次更新模板区域的时间间隔足够大时,才进行模板区域的更新,避免针对帧数过高的视频序列进行目标跟踪时,模板区域的更新过于频繁,从而提高模板更新的效率。在一个实施例中,更新模板区域的周期其中frameg为视频序列的总帧数。
[0078]
在一个实施例中,对模板区域进行更新时,需要参考当前帧更新前的模板区域特征,来计算新的模板区域特征;在另一实施例中,更新模板区域还需要参考首次识别到目标的视频帧中,对目标附近区域剪裁出的第一模板区域特征,其计算公式具体如下:
[0079][0080]
为更新后模板区域特征,为首帧模板区域特征,为融合模板池内所有模板图像特征的融合特征,融合方法采用concat,λ为超参数,表示element-wise乘积。使用该式融合模板信息可以有效保留初始模板信息,通过控制λ值避免模板信息被污染。其中,模板池d容量为15,当超出容量后弃用该模板池中最早进入模板池的模板图像。
[0081]
策略
④
中的回归网络属于重检测网络,目标丢失后需要在整幅图像范围内寻找目标;参照图4,将视频当前帧的整幅图像即全局图像与目标模板输入骨干网络提取特征,并通过特征增强网络fpn优化输入全局图像的特征表达然后在头部网络训练一个回归头和分类头;
[0082]
该回归网络的输入为目标模板(即目标对应的模板区域)和全局图像,两种图像均
通过骨干网络提取,获取对应的特征。对于全局图像特征,通过fpn优化输入全局图像的特征表达;对于目标模板特征,分别通过平均池化保留背景信息和最大值池化保留细节;进而将目标模板特征、平均池化后的特征以及平均池化后进一步最大值池化后的特征分别输入三个分类头,通过分类头判别全局图像中的目标和背景的分类得分,若其中一个分类头的分类得分高于设定阈值,则由回归头粗定位目标位置,若得分低于阈值,则直接进行下一帧的跟踪,下一帧的搜索区域的输入为以局部跟踪器输出的“不准确”输出框的中心坐标为中心,截取出第二设定尺寸的图像区域;在一个优选实施例中,参照图4,可以仅设置单个分类头,分类头的输入为目标模板特征通过平均池化以及最大值池化后得到的特征,从而避免数据冗余。回归头同样使用上述目标模板与全局图像特征,通过非极大抑制选择出回归框,以该框的中心坐标裁剪出第二设定尺寸的区域作为视频下一帧新的搜索区域,完成当前帧的跟踪。该分类头训练一个判别函数,将搜索区域特征与目标模板特征进行匹配得到分类得分:
[0083][0084]
为模板特征,g(
·
)为线性互相关算子,ffn是一个前馈网络,包含卷积层、归一化层和softmax层,输出0-1之间的连续值作为分类得分,若输出最高得分大于0.55则输出回归头的预测结果,即回归头输出的回归框。
[0085]
6)重复以上步骤2)-5)直至视频序列结束。
[0086]
其中,模板区域与搜索区域的裁剪尺寸,即第一设定尺寸和第二设定尺寸的大小可以根据目标对象的不同,进行适应性设置,在一个实施例中,第一设定尺寸为3
×
128
×
128,第二设定尺寸为3
×
256
×
256,模板需要包含目标完整所在的区域,而搜索区域设定为模板区域的整数倍有利于两区域进行卷积,在此基础上搜索区域越小跟踪器的运行速度则越快,搜索区域越大则会降低跟踪器运行速度。
[0087]
模板区域是在全图上裁剪出一个场景内主要物体是目标的区域,搜索区域是以跟踪器在上一帧的预测结果为中心裁剪的另一片“较可能”包含目标的区域;在本实施例中还额外设有跟踪框,该跟踪框是在区域内有目标时生成的包围框。如图5所示,图上跟踪框有两个分别为本方法的跟踪器预测框和标注的真实位置。使用本方法的跟踪器的跟踪效果在列举的几个视频序列上的运行测试所呈现,这些序列包含运动模糊、目标被部分或全部遮挡、目标部分处于视野外、尺度发生大幅变化和相似物体干扰等挑战属性。面对目标被完全遮挡的情况下,跟踪框定位目标失败,但是物体重现后仍可将其再次捕获。
[0088]
下面以基于其他算法的目标跟踪方法与本实施例上述的目标跟踪方法为例,对设定目标的跟踪过程以及跟踪结果进行对比分析:
[0089]
如图6所示,本算法(ours)在长时数据集lasot的测试集上,在成功率曲线、精度曲线和归一化精读曲线均取得了第二名的成绩,该数据集广泛包含目标被遮挡与消失于视野中的情景。从图6可见,本方法在lasot测试集上的成功率相比ltmu差距3%,而领先于atom算法14%,值得注意的是,本方法的跟踪速度在nvidia rtx 3060 gpu平台上达到了34fps,而ltmu、atom以及相对高效的splt算法的跟踪速度分别是13fps、33fps和25.7fps。由此可见,本方法在跟踪效率和跟踪精度上取得了较好的平衡。
[0090]
本发明在进行目标跟踪时,针对跟踪效果不佳的情况,首先根据置信程度表征的
搜索区域中的目标特征和目标实际特征的差异程度,区分不同的跟踪状态,若置信程度偏低、判定目标可能只是被遮挡,仅需要在下一帧的跟踪过程中扩大搜索区域,只有在置信程度过低、判定目标丢失时才重新进行定位,即进行完整的重检测流程。因此本发明针对不同跟踪效果设置相应的跟踪策略,尽可能地避免不必要的重检测步骤,从而提高整体的重检测效率,保证目标跟踪的实时性。
[0091]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细地说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。