基于深度卷积神经网络特征融合的目标跟踪方法及系统的制作方法

文档序号:10688060阅读:599来源:国知局
基于深度卷积神经网络特征融合的目标跟踪方法及系统的制作方法
【专利摘要】本发明提出基于深度卷积神经网络特征融合的目标跟踪方法及系统,涉及模式识别技术领域,该方法包括步骤1,通过深度卷积神经网络,获取视频图像中目标的多种特征,通过滤波器方法计算每种特征的特征置信权重,根据特征置信权重,获取目标当前的跟踪目标位置;步骤2,计算每种特征当前帧的预测精度损失,并根据预测精度损失,对每种特征,建立在△t时间内的稳定性模型,通过稳定性模型计算每个特征在当前帧的稳定性,根据每种特征的稳定性及累积的预测精度损失,更新每种特征的置信权重;步骤3,重复步骤1至步骤2完成所有帧的目标跟踪。本发明合理地融合多种特征的跟踪结果,实现鲁棒的目标跟踪。
【专利说明】
基于深度卷积神经网络特征融合的目标跟踪方法及系统
技术领域
[0001 ]本发明涉及模式识别技术领域,特别涉及基于深度卷积神经网络特征融合的目标 跟踪方法及系统。
【背景技术】
[0002] 计算机目标跟踪是视频监控、人机交互、汽车自动驾驶等实际应用中的重要组成 部分,根据所使用的特征不同,现有的目标跟踪技术可以分为两类:一类是使用人工设计的 图像特征进行目标跟踪(N.Dalal and B.Triggs.Histograms of oriented gradients for human detection . In CVPR,2005)(D.G. Lowe.Object recognition from local scale-invariant features. In ICCV,1999),一类是使用卷积神经网络的方法提取图像特 convolutional features for visual tracking.In ICCV,2015)(J.Fan,ff.Xu,Y.Wu,and Y.Gong.Human tracking using convolutional neural networks .TNN,21(10):1610-1623,2010.),目前,使用卷积神经网络得到的特征的有效性已远超人工设计的特征。
[0003] Fan^A(J.Fan,W-XujY-Wujand Y.Gong.Human tracking using convolutional neural networks.TNN,21(10) :1610-1623,2010.)使用一个预先训练好的神经网络对行人 进行足艮踪;Wang等人(N. Wang and D . - Y. Yeung . Learning a deep compact image representation for visual tracking.In NIPS,2013)则设计了一个基于去噪自动编码 器的深度网络从大量的物体图像中学习具有代表性的特征,进而使用该网络进行特征提取 以应用于目标跟踪,为了更加有效地利用卷积神经网络,Hong等人(S. Hong,T. You,S. Kwak, and B.Han. Online tracking by learning discriminative saliency map with convolutional neural network. In ICML,2015.)基于R_CNN(R.B.Girshick,J.Donahue, T.Darrell,and J.Malik.Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR,2014.)设计了两路特征提取方法,一路使用第一个 全连接层的特征来构建一个判别式模型,另一路使用R-CNN反向传播得到的显著性特征构 建一个生成式模型,最后将两个模型得到的结果结合起来得到最终的跟踪结果。
[0004] 计算机目标跟踪技术还可以根据建模方法分为判别式跟踪技术(H. Grabner, M.Grabner,and H.Bischof,"Real-time tracking via on-line boosting,',in BMVCj 2006)(J.Gao,H.Ling,ff.Hu,and J.Xing,uTransfer learning based visual tracking with gauss i an processes regression,',in ECCV,2014) (S · Hare,A · Saf far i,and PS·Torr,"Struck:Structured output tracking with kernels,"in ICCV,2011)和生 成式足艮踪技术(J · Kwon and K . M. Lee,"Interval tracker : Tracking by interval analysis,',in CVPR,2014)(D.A.Ross,J.Lim,R.Lin,and M.Yang,"Incremental learning for robust visual tracking,"IJCV,vol.77,pp.125-141,2008)(X·Jia,H.Lu,and M.Yang,"Visual tracking via adaptive structural local sparse appearance model," in CVPR,2012.)(T. Zhang,B.Ghanem,S.Liu,and N·Ahuja,"Robust visual tracking via multi-task sparse learning,"in CVPR,2012),判别式跟踪技术将目标跟 踪问题看作一个目标图像区域和背景区域的分类问题,因此这类技术致力于提高分类器的 性會泛。Grabner等人(H.Grabne;r,M.G;rabne;r,and H.Bischof, "Real-time tracking via on-line boosting," in BMVC,2006)利用在线boosting技术构建了一个特征选择算法,并 将多个弱分类器融合为一个强分类器,Hare等人(S .Hare,A. Saffari ,and P ·Η· S. Torr, "Struck: Structured output tracking with kernels," in ICCV ,2011)则将结构支持向 量机引入到目标跟踪问题中,将目标的位置坐标作为样本标签,避免了传统支持向量机样 本的正负标签和跟踪位置之间的转换,在传统的分类器中,具有不同置信度的所有正样本 具有一样的类别标签,这降低了分类的识别能力,为了解决这一问题,Babenko等人 (B. Babenko,M. Yang , and S·J·Belongie,"Robust object tracking with online multiple instance learning,"TPAMI ,vol · 33,pp· 1619-1632,2011)引入了多实例学习技 术。
[0005] 生成式目标跟踪技术将目标跟踪视为一个由目标的表观模型在新的视频帧中生 成最佳目标候选的任务,这类技术的关键是对跟踪目标的表观进行建模以及模型的更新, 常见的方法有子空间学习和稀疏表示,Ross等人(D ·Α· Ross,J. Lim,R· Lin ,and M· Yang, "Incremental learning for robust visual tracking,''IJCV,vol · 77,pp · 125-141, 2008)使用增量子空间学习的方法适应跟踪目标表观随时间的变化,在(X. Jia,H. Lu,and M.Yang,aVisual tracking via adaptive structural local sparse appearance model /' in CVPR,2012.)(T. Zhang,B.Ghanem,S.Liu,and N·Ahuja,"Robust visual tracking via multi-task sparse learning,''in CVPR, 2012) (X.Mei and H. Ling, "Robust visual tracking using llminimization,"in ICCV,2009.)中则使用稀疏表不 方法对表观进行刻画,稀疏表示理论认为,当字典过完备时,跟踪目标可以由少量的正字典 项表示,而非跟踪目标则主要由负字典项表示,这样,当仅使用正字典项及其对应的系数重 建被表示对象时,具有较小重建误差的目标候选应为跟踪目标,而具有较大重建误差的目 标候选应为背景。

【发明内容】

[0006] 针对现有技术的不足,本发明提出基于深度卷积神经网络特征融合的目标跟踪方 法及系统。
[0007] 本发明提出一种基于深度卷积神经网络特征融合的目标跟踪方法,包括:
[0008] 步骤1,通过深度卷积神经网络,获取视频图像中目标的多种特征,通过滤波器方 法计算每种特征的特征置信权重,根据特征置信权重,获取目标当前的跟踪目标位置;
[0009] 步骤2,计算每种特征当前帧的预测精度损失,并根据预测精度损失,对每种特征, 建立在At时间内的稳定性模型,通过稳定性模型计算每个特征在当前帧的稳定性,根据每 种特征的稳定性及累积的预测精度损失,更新每种特征的置信权重;
[0010] 步骤3,重复步骤1至步骤2完成所有帧的目标跟踪。
[0011] 步骤1中获取目标当前的跟踪目标位置的公式为:
[0012]
[0013] 其中,x、y为训练数据,K为特征的种类总数,t为当前时刻
1S使用第k种特 征在时刻t的跟踪结果,^^为第k种特征在第t时刻的权重。[0014] 步骤2中稳定性模型为:
[0015]
[0016]
[0017] 其中,&为第k种特征在T时刻的损失,t为当前时刻,
为第k种特征在[t_At+ I,t]时间内的平均损失
b第k种特征在[t_At+l,t]时间内损失的标准差。
[0018] 步骤2中计算每个特征在当前帧的稳定性的公式为:
[0019]
[0020] 其中Sk表示矩阵,为第k种特征在[t-At+l,t]时间内的平均损失,Cf为第k种 特征在[t_At+l,t]时间内损失的标准差。
[0021] 步骤2中更新每种特征的置信权重的公式为:
[0025] 其中,w为置信权重,每种特征的R度量的量化方式为:[0026]
[0022]
[0023]
[0024]
[0027]
[0028]
[0029] 其中,;是第k种特征在t时刻的r度量,^是平均损失,沢;是第k种特征的从开始 时刻到t时刻的累积r度量,Ct是尺度因子,是平衡系数,8是^^的最小值。
[0030] 本发明还提出一种基于深度卷积神经网络特征融合的目标跟踪系统,包括:
[0031 ]获取跟踪目标位置,用于通过深度卷积神经网络,获取视频图像中目标的多种特 征,通过滤波器方法计算每种特征的特征置信权重,根据特征置信权重,获取目标当前的跟 踪目标位置;
[0032] 更新置信权重模块,用于计算每种特征当前帧的预测精度损失,并根据预测精度 损失,对每种特征,建立在At时间内的稳定性模型,通过稳定性模型计算每个特征在当前 帧的稳定性,根据每种特征的稳定性及累积的预测精度损失,更新每种特征的置信权重;
[0033] 目标跟踪模块,用于重复步骤1至步骤2完成所有帧的目标跟踪。
[0034] 获取跟踪目标位置中获取目标当前的跟踪目标位置的公式为:
[0035]
[0036] 其中,x、y为训练数据,K为特征的种类总数,t为当前时刻
为使用第k种特 征在时刻t的跟踪结果,为第k种特征在第t时刻的权重。[0037]更新置信权重模块中稳定性模型为:
[0038]
[0039]
[0040] 其中,&为第k种特征在T时刻的损失,t为当前时刻
9第1^种特征在[t_At+ I,t]时间内的平均损失,为第k种特征在[t_At+l,t]时间内损失的标准差D
[0041] 更新置信权重模块中计算每个特征在当前帧的稳定性的公式为:
[0042]
[0043] 其中Sk表示矩阵,为第k种特征在[t_At+l,t]时间内的平均损失%第1^种 特征在[t_At+l,t]时间内损失的标准差。
[0044]更新置信权重模块中更新每种特征的置信权重的公式为:
[0045]
[0046]
[0047]
[0048] 其中,w为置信权重,每种特征的R度量的量化方式为:
[0049]
[0050]
[0051]
[0052] 其中,;^是第k种特征在t时刻的r度量,Z是平均损失,是第k种特征的从开始 时刻到t时刻的累积r度量,Ct是尺度因子,是平衡系数,g是的最小值。
[0053] 由以上方案可知,本发明的优点在于:
[0054] 本发明以多种深度卷积神经网络特征作为输入,对每种特征在当前场景下指定时 间窗口内的跟踪精度损失进行建模,用以预测每种特征在接下来的时间内的跟踪结果可信 度,将较多的置信度分配给跟踪精度高的特征,从而合理地融合多种特征的跟踪结果,实现 鲁棒的目标跟踪。
【附图说明】
[0055] 图1为本发明在一帧图像上的实施流程图;
[0056]图2位本发明方法流程图。
[0057]步骤S 卜I、Sl-2、S2-1、S2-2、S2-3、S2-4、S2-5、S3。
【具体实施方式】
[0058]本发明提出基于深度卷积神经网络特征融合的目标跟踪方法及系统,实现根据场 景、时间的不同自适应地学习每种特征的置信权重,具体地,本发明对当前场景下,一定长 度时间窗口内的每种特征的跟踪精度损失进行建模,得到每种特征的跟踪精度及其稳定 性,并用于计算每种特征的置信度,最终实现多种特征跟踪结果的有效融合(实验结果证 明,本发明在公开的数据集上有效),图1位本发明在一帧图像上的实施流程图。
[0059]本发明的具体步骤如图2所示:
[0060] Sl-I:使用深度卷积神经网络,比如VGG,提取多种特征;
[0061] S1-2:使用相关滤波器方法计算每种特征的跟踪结果;
[0062]
[0063]
[0064]
[0065] 上式中,X和Y是训练数据,用以计算回归模型的系数矩阵w,该计算在傅里叶域完 成;F-1表示傅里叶逆变换,s k(x',y')表示矩阵#在位置(x',y')处的取值;(xk,yk)是使用第 k中特征预测的跟踪目标的位置。
[0066] S2-1:根据上一次确定的各特征置信权重Wt,得到当前的跟踪目标位置;
[0067]
[0068] S2-2:计算每种特征在当前帧的预测精度损失;
[0069]
[0070] S2-3:对每种特征,建立(已建立则更新)在At时间内的稳定性模型;
[0071]
[0072]
[0073] 其中,&为第k种特征在T时刻的损失,t为当前时刻
:)第k种特征在[t_At+ I,t]时间内的平均损失,Crf为第k种特征在[t_At+l,t]时间内损失的标准差。
[0074] S2-4:计算特征在当前帧的稳定性;
[0075]
公式5
[0076] S2-5:根据每种特征的稳定性及其累积的预测精度损失,更新每种特征的置信权
[0080]其中,每种特征的R量化方式为 [0081] 重;
[0077]
[0078]
[0079]
[0082]
[0083] 公式7
[0084] S3:重复S2-1至S2-5完成所有帧的目标跟踪。
[0085] 本发明还提出一种基于深度卷积神经网络特征融合的目标跟踪系统,包括:
[0086] 获取跟踪目标位置,用于通过深度卷积神经网络,获取视频图像中目标的多种特 征,通过滤波器方法计算每种特征的特征置信权重,根据特征置信权重,获取目标当前的跟 踪目标位置;
[0087] 更新置信权重模块,用于计算每种特征当前帧的预测精度损失,并根据预测精度 损失,对每种特征,建立在At时间内的稳定性模型,通过稳定性模型计算每个特征在当前 帧的稳定性,根据每种特征的稳定性及累积的预测精度损失,更新每种特征的置信权重;
[0088] 目标跟踪模块,用于重复步骤1至步骤2完成所有帧的目标跟踪。
[0089] 获取跟踪目标位置中获取目标当前的跟踪目标位置的公式为:
[0090]
[0091] 其中,x、y为训练数据,K为特征的种类总数,t为当前时亥
为使用第k种特 征在时刻t的跟踪结果,为第k种特征在第t时刻的权重。[0092] 更新置信权重模块中稳定性模型为:
[0093]
[0094]
[0095] 其中,^为第k种特征在T时刻的损失,t为当前时刻
为第k种特征在[t-At+ I,t]时间内的平均损失,为第k种特征在[t_At+l,t]时间内损失的标准差。
[0096]更新置信权重模块中计算每个特征在当前帧的稳定性的公式为:
[0097]
[0098] 其中Sk表示矩阵,/f为第k种特征在[t_At+l,t]时间内的平均损失,为第k种 特征在[t_At+l,t]时间内损失的标准差。
[0099]更新置信权重模块中更新每种特征的置信权重的公式为:
[0103] 其中,w为置信权重,每种特征的R度量的量化方式为:[0104]
[0100]
[0101]
[0102]
[0105]
[0106]
[0107]其中,<是第k种特征在t时刻的r度量,g是平均损失,是第k种特征的从开始 时刻到t时刻的累积r度量,Ct是尺度因子,是平衡系数,8是0;的最小值。
【主权项】
1. 一种基于深度卷积神经网络特征融合的目标跟踪方法,其特征在于,包括: 步骤1,通过深度卷积神经网络,获取视频图像中目标的多种特征,通过滤波器方法计 算每种特征的特征置信权重,根据特征置信权重,获取目标当前的跟踪目标位置; 步骤2,计算每种特征当前帧的预测精度损失,并根据预测精度损失,对每种特征,建立 在At时间内的稳定性模型,通过稳定性模型计算每个特征在当前帧的稳定性,根据每种特 征的稳定性及累积的预测精度损失,更新每种特征的置信权重; 步骤3,重复步骤1至步骤2完成所有帧的目标跟踪。2. 如权利要求1所述的基于深度卷积神经网络特征融合的目标跟踪方法,其特征在于, 步骤1中获取目标当前的跟踪目标位置的公式为:其中,x、y为训练数据,K为特征的种类总数,t为当前时刻,为使用第k种特征在 时刻t的跟踪结果,μ^为第k种特征在第t时刻的权重。3. 如权利要求1所述的基于深度卷积神经网络特征融合的目标跟踪方法,其特征在于, 步骤2中稳定性模型为:其中,为第k种特征在T时刻的损失,t为当前时刻,#为第k种特征在[t-At+l,t]时 间内的平均损失为第k种特征在[t_At+l,t]时间内损失的标准差。4. 如权利要求1所述的基于深度卷积神经网络特征融合的目标跟踪方法,其特征在于, 步骤2中计算每个特征在当前帧的稳定性的公式为:其中sk表示矩阵,//f为第k种特征在[t-At+i,t]时间内的平均损失,为第k种特征 在[t_At+l,t]时间内损失的标准差。5. 如权利要求1所述的基于深度卷积神经网络特征融合的目标跟踪方法,其特征在于, 步骤2中更新每种特征的置信权重的公式为:其中,W为置信权重,每种特征的R度量的量化方式为:其中,;!^是第k种特征在t时刻的r度量,Z是平均损失,是第k种特征的从开始时刻 至Ijt时刻的累积r度量,ct是尺度因子,^是平衡系数,g是的最小值。6. -种基于深度卷积神经网络特征融合的目标跟踪系统,其特征在于,包括: 获取跟踪目标位置,用于通过深度卷积神经网络,获取视频图像中目标的多种特征,通 过滤波器方法计算每种特征的特征置信权重,根据特征置信权重,获取目标当前的跟踪目 标位置; 更新置信权重模块,用于计算每种特征当前帧的预测精度损失,并根据预测精度损失, 对每种特征,建立在At时间内的稳定性模型,通过稳定性模型计算每个特征在当前帧的稳 定性,根据每种特征的稳定性及累积的预测精度损失,更新每种特征的置信权重; 目标跟踪模块,用于重复步骤1至步骤2完成所有帧的目标跟踪。7. 如权利要求6所述的基于深度卷积神经网络特征融合的目标跟踪系统,其特征在于, 获取跟踪目标位置中获取目标当前的跟踪目标位置的公式为:其中,x、y为训练数据,K为特征的种类总数,t为当前时刻,为使用第k种特征在 时刻t的跟踪结果,为第k种特征在第t时刻的权重。8. 如权利要求6所述的基于深度卷积神经网络特征融合的目标跟踪系统,其特征在于, 更新置信权重模块中稳定性模型为:其中,为第k种特征在T时刻的损失,t为当前时刻,为第k种特征在[t-At+l,t]时 间内的平均损失,(7^为第k种特征在[t_At+l,t]时间内损失的标准差。9. 如权利要求6所述的基于深度卷积神经网络特征融合的目标跟踪系统,其特征在于, 更新置信权重模块中计算每个特征在当前帧的稳定性的公式为:其中sk表示矩阵,//f为第k种特征在[t-At+i,t]时间内的平均损失,为第k种特征 在[t_At+l,t]时间内损失的标准差。10.如权利要求6所述的基于深度卷积神经网络特征融合的目标跟踪系统,其特征在 于,更新置信权重模块中更新每种特征的置信权重的公式为:其中,w为置信权重,每种特征的R度量的量化方式为:其中,;^是第k种特征在t时刻的r度量,0是平均损失,是第k种特征的从开始时刻 至Ijt时刻的累积r度量,ct是尺度因子是平衡系数,g是的最小值。
【文档编号】G06T7/20GK106056628SQ201610371378
【公开日】2016年10月26日
【申请日】2016年5月30日
【发明人】秦磊, 齐元凯, 张盛平, 姚鸿勋, 黄庆明, 林钟禹, 杨明轩
【申请人】中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1