一种基于深度网络多层特征融合的视频跟踪方法及系统

文档序号:37510716发布日期:2024-04-01 14:17阅读:22来源:国知局
一种基于深度网络多层特征融合的视频跟踪方法及系统

本发明涉及一种基于深度网络多层特征融合的视频跟踪方法及系统,属于目标跟踪。


背景技术:

1、视频目标跟踪技术可以从连续的视频序列的每一帧中找到运动目标的运动状态以及位置信息并反馈给跟踪系统进行跟踪。该领域的研究能够使计算机像人体中的视觉系统一样能够自主地感知、分析并处理现实世界中的各种信号。

2、现如今,目标跟踪算法已获得了较大的进步,但仍然存在一定的局限性和问题,需要不断完善、优化。例如:

3、场景的复杂性:当目标跟踪应用于实际生活中时,由于拍摄过程中,设备的动态运动,目标的运动轨迹会表现出非线性变化和模糊化。其次光照在不同的时间和天气情况下都有所不同,再加上人工光源的影响,会使得颜色特征、纹理特征等产生许多的误差。除此之外,还有一些具有相似特征的物体的干扰,在目标跟踪的过程中需要进行甄别。最后,目标在运动的过程中不可避免地会被遮挡,这会严重影响目标信息的完整性,且遮挡部位随机,无法建立同一模型,因此必须提高算法的智能性。

4、目标自身的变化:目标自身状态的改变也是跟踪算法优化时必须考虑的问题。例如目标尺度的改变、快速移动和不规则运动的改变、姿态的改变、消失与重现的变化等都会影响目标跟踪的准确性。


技术实现思路

1、目的:鉴于以上技术问题中的至少一项,本发明提供一种基于深度网络多层特征融合的视频跟踪方法及系统。

2、本发明采用的技术方案为:

3、第一方面,本发明提供一种基于深度网络多层特征融合的视频跟踪方法,包括:

4、获取目标视频的第t帧图像;

5、针对第t帧图像,提取候选目标区域特征;

6、基于所述候选目标区域特征,计算当前区域特征和前一帧目标区域特征的核矩阵;

7、根据当前区域特征和前一帧目标区域特征的核矩阵以及滤波模板,计算得到输出响应图;

8、根据所述输出响应图,确定目标位置;

9、其中所述滤波模板的获取方法包括:

10、针对连续帧训练样本图像,分别提取目标区域特征,形成特征矩阵;

11、基于所述特征矩阵,利用核函数计算目标区域特征自身的核矩阵;

12、通过核矩阵和理想高斯核函数输出响应,训练得到滤波模板。

13、在一些实施例中,采用主干网络resnet特征提取方法提取候选目标区域特征,包括:

14、在resnet提取特征的基础上,将原后三层特征以相加的方式进行深度特征和浅层特征的融合;

15、所述主干网络resnet包括第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层;输入的图像一共需要经历五个阶段,分别依次经过第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层提取得到第一特征、第二特征、第三特征、第四特征和第五特征,为了实现目标跟踪应用对物体特征既需要高语义的类别特征信息,同时也要抽取对空间位置敏感的特征信息的要求,将原本rsenet提取特征过程中经过第三卷积层、第四卷积层和第五卷积层后得到的第三特征、第四特征和第五特征进行下采样操作,使其拥有相同的通道数,并以相加的方式进行深度特征和浅层特征的融合,得到候选目标区域特征,以提升目标跟踪的准确度。

16、在一些实施例中,利用核函数计算目标区域特征自身的核矩阵k,包括:

17、

18、其中特征矩阵x=[x1,x2,…,xn]t中的每一个xi元素都代表了一个样本,为核函数,表示将特征矩阵映射到高维空间后的结果。

19、进一步地,在一些实施例中,采用以牺牲岭回归的无偏性为代价来确保数值的稳定性;

20、在对候选目标区域进行采样的过程中,相关滤波跟踪方法样本集表示为:(x1,y1),(x2,y2),…(xi,yi),…(xm,ym),m代表样本集中的样本数量;

21、训练旨在找到一个目标函数ftmpl(xi)=ωtxi,使样本xi与回归目标yi的平均误差最小;其中ω为所要求的参数滤波模板;

22、因此看成一个岭回归问题,则损失函数表示为:

23、

24、其中λtmpl表示滤波模板的正则项系数,yi表示样本xi对应的标签值,则矩阵形式表示为:

25、

26、其中特征矩阵x=[x1,x2,…,xn]t中的每一个xi元素都代表了一个样本,而y=[y1,y2,…,yn]t中的每一个yi元素则代表着对应样本的期望输出,即标签;通过求导得到上式的最优解:

27、ω=(xhx+λtmpl)-1xhy

28、其中xh代表x的hermitian转置。

29、在求解ω的过程中,假设样本矩阵x是循环矩阵,利用循环矩阵在频域能够对角化的性质来解决在求解ω的过程中矩阵求逆计算量过大的难题。

30、在一些实施例中,引入核函数将问题扩展到非线性空间,将滤波模板ω用x和对偶空间下的滤波模板α的线性组合表示为:

31、

32、α=[α1,α2,...,αn]t

33、将带入中,ω的求解就转换成对α的求解,利用矩阵的变换求得:

34、

35、其中特征矩阵x=[x1,x2,…,xn]t中的每一个xi元素都代表了一个样本,而y=[y1,y2,…,yn]t中的每一个yi元素则代表着对应样本的期望输出,即标签;令表示核空间的核矩阵k;λtmpl表示滤波模板的正则项系数,i表示对xh求逆后的结果。

36、在一些实施例中,基于所述候选目标区域特征,计算当前区域特征和前一帧目标区域特征的核矩阵k(x,f),包括:

37、

38、其中,x代表特征矩阵,f代表输入的原始图像,σ代表函数的带宽区域,用于控制函数的径向作用范围。

39、在一些实施例中,根据当前区域特征和前一帧目标区域特征的核矩阵k(x,f)以及滤波模板α,计算得到输出响应图,包括:

40、

41、其中g表示输出响应图,表示傅里叶变换,x代表特征矩阵,f代表输入的原始图像,α代表训练得到的滤波模板,g代表期望得到的高斯响应输出。

42、在一些实施例中,根据所述输出响应图,确定目标位置,包括:

43、所述输出响应图中的每一点对应的响应值表征为该位置是所求目标的可能性大小,将输出响应图中响应值最大的点的位置确定为目标位置。

44、第二方面,本发明提供了一种基于深度网络多层特征融合的视频跟踪系统,包括处理器及存储介质;

45、所述存储介质用于存储指令;

46、所述处理器用于根据所述指令进行操作以执行根据第一方面所述的方法。

47、第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。

48、第四方面,本发明提供了一种设备,包括,

49、存储器;

50、处理器;

51、以及

52、计算机程序;

53、其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现上述第一方面所述的方法。

54、有益效果:本发明提供的基于深度网络多层特征融合的视频跟踪方法及相关装置,具有以下优点:本发明提出利用resnet特征提取方法替换hog特征提取方法,并利用相加实现特征融合的优化思路。

55、resnet的提出是为了解决网络层数越多,效果反而下降的问题。因为在深度网络中,每做一次卷积,就会损失一部分的信息,网络的层数越多,丢失的信息也会越多,所以resnet利用许多旁路的分支将输入的信息传入当前的网络层上一并处理,尽可能保护了信息的完整性,起到了减损的效果。将原kcf跟踪方法,与改进后的方法分别在otb2013库中进行测试,可以得出结论:改进后的方法成功率和准确率都有所上升,利用resnet特征提取方法替换hog特征提取方法,并采用相加的特征融合方法这一思路对原方法有着较好的优化效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1