本发明涉及一种基于iou匹配的双滤波器视频多目标跟踪方法,属于计算机视觉、模式识别和信息处理技术领域。
背景技术:
在计算机视觉中,多目标跟踪常用于行人、车辆以及生物中细胞等跟踪。尽管目标跟踪技术取得重大进步,但是多目标跟踪仍是一项具有挑战性的任务,目标数目不确定,目标遮挡、检测器失效和杂波干扰等问题一直是多目标跟踪的难点。早期的多假设跟踪(multiplehypothesistracking,mht)和联合概率数据关联滤波(jointprobabilisticdataassociation,jdaf)等通过数据关联的方法,在存在噪声和检测不确定等情况下将检测框分配给现有目标。但是当被跟踪目标数量增加时,这些方法的复杂性呈指数增长。mahler提出的随机有限集(randomfiniteset,rfs)理论,避免了复杂的数据关联。基于rfs理论的算法在多目标跟踪中得到进一步应用。多伯努利滤波(multi-bernoullifilter,mbf)就是基于rfs理论算法中的一个重要分支,有效应对了多目标跟踪过程中的数目变化问题。
基于检测的目标跟踪方法是当前多目标跟踪广泛的跟踪框架,近几年,检测器性能得到大幅度提升,尤其是深度神经网络的发展,极大程度上推动了检测器的发展,比如单步多框检测器(singleshotmultiboxdetector,ssd)得益于日益精确的目标检测算法,基于检测的跟踪方法也逐步简化。bewley等人将与目标轨迹高度重叠的检测框关联起来,而重叠度则根据交并比(intersectionoverunion,iou)计算得来。bewley等人提出了基于检测的在线多目标跟踪框架,简单的结合卡尔曼滤波和匈牙利算法来实现一个快速的多目标跟踪。随后又进一步改进,在目标跟踪过程中,加入深度特征,提取目标的表观模型来优化检测框匹配,一定程度上缓解了目标遮挡问题,减少标签跳变。但是过于依赖检测框的准确性,同时轨迹中包含大量的错误框。bewley等人提出的iou-t算法不使用图片信息,只利用目标检测框信息,通过计算相邻帧检测框之间的交并比,加入阈值,以贪心的方式实现目标跟踪。这种方法同样依赖于底层检测器的性能,有很好的跟踪效率,但是会导致大量的轨迹碎片和标签跳变。
技术实现要素:
技术问题:
解决iou关联下容易导致标签跳变和轨迹碎片的问题。
技术方案:
本发明提供了一种基于iou匹配的双滤波器视频多目标跟踪方法,所述方法包括:
步骤一:在初始时刻k=0,当前帧目标检测集为
步骤二:在k时刻,当前帧目标检测集为
步骤三:将对与目标轨迹相匹配的检测框,将检测框作为跟踪结果加入轨迹集并进行多伯努利参数赋值,对于未匹配到检测框的目标,进行多伯努利滤波求解,所述多伯努利滤波求解包括:目标框卷积层特征提取;对提取的卷积层特征进行滤波器训练得到不同卷积层特征对应的多个目标位置估计、对多个目标位置估计进行加权求和并扩充得到粒子集、进行多伯努利预测;
步骤四:利用目标与粒子的量测似然更新未匹配目标的多伯努利参数,对于已匹配或新生目标,直接更新伯努利参数;
步骤五:更新目标模板。
在本发明的一种实施方式中,所述进行目标轨迹与检测框的匹配的匹配方法为:
a、设iou匹配阈值为δiou,若
b、若
c、若
在本发明的一种实施方式中,所述特征提取采用vgg19特征提取,包括:设当前目标框宽、高分别为m、n,扩展目标搜索区域至2m×2n;将当前目标框区域图像插值调整尺寸到224*224作为vgg19输入图像;vgg19的卷积网络中间层输出作为提取到的卷积层特征x;为了消除卷积层特征x的不连续性,将提取出的卷积特征层x乘以余弦窗口,并插值调整大小到(m/8×n/8)。
在本发明的一种实施方式中,所述滤波器训练过程包括:
a、利用vgg19提取的卷积特征x的循环变化表示为:
xm,n(m,n)∈{0,1,…,m-1}×{0,1,…,n-1};
其中,m、n分别为提取目标框的宽、高;
b、在滤波器训练时,需要记录特征的变换过程,将每次变换的标签y定义为下式的高斯分布:
c、采用傅里叶变换得到特征和标签在频域内的表示,即x=f(x),y=f(y),f(*)表示傅里叶变换;相关滤波器为:
其中,
式中,xds为卷积层特征x在特征通道ds上的特征图,xi为卷积层特征x在特征通道i上的特征图,
d、目标跟踪过程中,被跟踪目标的搜索区域r为目标在上一帧中的位置,计算其通过vgg19传播的结果:
zds=vgg(r),ds∈[1,2,…,d]
其中,vgg(*)表示vgg19向前传播计算。
e、计算特征x对相关滤波器响应:
其中,f-1(*)表示傅里叶逆变换;所述s最大响应为被跟踪目标估计位置
在本发明的一种实施方式中,所述粒子集生成包括:分别提取的多层vgg19卷积层特征训练多个滤波器w*,通过滤波器计算的最大响应位置得到不同卷积层特征对应的多个目标位置估计,将这些目标位置估计进行加权求和并扩充得到最终粒子集。
在本发明的一种实施方式中,所述利用目标与粒子的量测似然更新未匹配目标的多伯努利参数包括:卷积特征提取,将目标框
目标模板建立时,在目标附近随机平移目标框来采集num个背景样本,所述平移值大于目标框宽和高的1/4,与目标特征采集时使用同样预处理操作,使用k-means算法选取d个特征小块,第i个背景样本的特征子块集合为
将其与图像i做卷积操作,得到背景在图像上的特征图:
用目标特征图
两个目标框的量测似然计算公式为:
其中f1,f2为对应的目标框卷积特征,
在本发明的一种实施方式中,所述目标模板更新为:
其中,
在本发明的一种实施方式中,若目标lj的模板未建立,则提取目标特征建立目标模板,利用该目标轨迹
本发明的一种基于iou匹配的双滤波器视频多目标跟踪方法用于行人、车辆跟踪。
有益效果
本发明通过在检测框交并比关联的目标跟踪框架下,融合可视化的多伯努利跟踪方法,在目标轨迹未寻找到匹配的高质量检测框时,采用多伯努利滤波方式对目标继续跟踪,解决因为检测框缺失而导致的轨迹碎片问题。同时,根据iou阈值判断和相似性比较,关联目标轨迹与目标再次被检测到的高质量检测框,减少目标发生标签跳变,减少标签跳变和轨迹碎片,提高目标跟踪精度。
附图说明
图1是iou-t基本原理;
图2多伯努利滤波与iou-t融合原理;
图3多伯努利滤波与iou-t融合算法流程图;
图4双滤波器跟踪框架;
图5密集人群场景实验结果图;(a1)iou-t:第159帧,(a2)iou-t:第178帧,(b1)cf-mbf:第159帧,(b2)cf-mbf:第178帧;
图6目标尺寸变化实验结果图;(c1)iou-t:第14帧,(c2)iou-t:第37帧,(d1)cf-mbf:第14帧,(d2)cf-mbf:第37帧;
图7目标交叉运动实验结果图;(e1)det-mbf:第17帧,(e2)det-mbf:第59帧,(e3)det-mbf:第90帧,(f1)cf-mbf:第17帧,(f2)cf-mbf:第59帧,(f3)cf-mbf:第90帧;
图8稀疏目标场景实验结果图;(g1)det-mbf:第128帧,(g2)det-mbf:第177帧,(g3)det-mbf:第180帧,(h1)cf-mbf:第128帧,(h2)cf-mbf:第177帧,(h3)cf-mbf:第180帧;
图9目标数目估计与ospa距离估计对比;(i1)实验(3)目标数目估计,(i2)实验(3)ospa估计,(j1)实验(4)目标数目估计,(j2)实验(4)ospa估计。
具体实施方式
实施例1
本发明提出算法结合iou-t与多伯努利滤波方法,在没有可用检测框关联,或者检测框置信度较低的情况下,利用多伯努利滤波实现轨迹的跟踪,iou-t基本原理如图1所示,多伯努利滤波与iou-t融合原理如图2所示。多伯努利滤波与iou-t融合流程图如图3所示。本发明在多伯努利滤波的基础上引入相关滤波(correlationfilter,cf)作为弱滤波器采样粒子,构成双滤波器跟踪框架,双滤波器跟踪框架如图4所示。整个算法过程具体分为以下几个步骤:
步骤一初始化
在初始时刻k=0,当前帧目标检测集为
步骤二iou检测匹配
根据存活目标轨迹集和当前帧目标检测集进行目标框与检测框的iou匹配,对于已匹配的目标框,将其对应检测框作为跟踪结果加入轨迹集并进行多伯努利参数赋值,对于未匹配的检测框判断是否为杂波或新生目标,进行相应处理,具体过程如下:
在k(k>0)时刻,当前帧目标检测集为
设iou匹配阈值为δiou,若
若
若
步骤三多伯努利预测
根据步骤二中的检测框匹配,对于未匹配到检测框的目标,进行多伯努利滤波求解,所述求解包括:特征提取、多伯努利预测等,在多伯努利预测步骤中,训练相关滤波器采样粒子,其具体过程如下。
3.1、vgg19特征提取
vgg19凭借其较强的泛化能力,常被用于提取目标特征,vgg19是alexnet的改进版本,采用3个连续3x3的卷积核代替7x7的卷积核,2个3x3卷积核来代替5x5的卷积核,不仅保证了相同的感受野,还提升了网络层的的深度。vgg19的网络结构非常一致,整个过程采用3x3的卷积2x2的最大池化,包含19个隐藏层(16个卷积层和3个全连接层),使得整个结构非常简洁。并且加深了网络,从而提高性能。vgg19具有较高的泛化能力,不同层的特征刻画目标的不同信息。
设当前目标框宽、高分别为m、n,扩展目标搜索区域至2m×2n,将该区域图像插值调整尺寸到224*224作为vgg19输入图像,卷积网络中间层输出作为提取到的卷积特征。为了消除特征图的不连续性,将提取出的特征图乘以余弦窗口,并插值调整大小到(m/8×n/8)。
3.2、相关滤波器训练
设提取出的特征为
采用傅里叶变换得到特征和标签在频域内的表示,即x=f(x),y=f(y),f(*)表示傅里叶变换。相关滤波器为:
其中,
式中,xds为卷积层特征x在特征通道ds上的特征图,xi为卷积层特征x在特征通道i上的特征图,
目标跟踪过程中,被跟踪目标的搜索区域r为目标在上一帧中的位置,计算其通过vgg19传播的结果:
zds=vgg(r),ds∈[1,2,…,d]
其中,vgg(*)表示vgg19向前传播计算。
计算该特征x对相关滤波器响应:
其中,f-1(*)表示傅里叶逆变换。所述s最大响应为被跟踪目标估计位置
3.3、粒子集生成
分别采用提取的多层vgg19卷积层特征训练多个相关滤波器,通过滤波器计算的最大响应位置得到不同卷积层特征对应的多个目标位置估计,将这些目标位置估计进行加权求和并扩充得到最终粒子集。
3.4、多伯努利预测
(1)若目标lj的模板未建立,则提取目标特征建立目标模板,利用该目标轨迹
其中,
对于未匹配目标li,其伯努利参数预测
其中,
(2)若目标li为已匹配或新生目标,其多伯努利参数
步骤四多伯努利更新
根据步骤二中的检测匹配信息和步骤三中未匹配目标的多伯努利预测,进行存活目标
4.1、卷积特征提取。
将目标框
目标模板建立时,在目标附近随机平移目标框来采集num个背景样本,所述平移值大于目标框宽和高的1/4,与目标特征采集时使用同样预处理操作,使用k-means算法选取d个特征小块,第i个背景样本的特征子块集合为
将其与图像i做卷积操作,得到背景在图像上的特征图:
用目标特征图
两个目标框的量测似然计算公式为:
其中f1,f2为对应的目标框卷积特征,
4.2、多伯努利更新
对于未匹配目标,通过粒子的量测似然更新多目标多伯努利参数集:
若连续tl帧都没有匹配的检测框,则在目标状态更新时,对目标存在概率加入递减因子η,加速目标消失,即:
其中,
对于已匹配或新生目标,直接更新其伯努利参数:
步骤五目标模板更新
目标运动过程中,周围环境及自身状态会不断发生变化,如背景变化、自身扭曲、旋转及尺度变化等,因此,需要对目标模板进行实时更新,本发明方法在使用多伯努利滤波时,对目标模板进行跟新:
其中,
实施例2
1、实验条件及参数
本发明方法采用matlab2016a实现,在处理器为intelcorei7-8700、3.2ghz×12,内存为16gb,显卡为nvidiageforcegtx1080ti的电脑上运行,并与2017年erikbochinski在文章《high-speedtracking-by-detectionwithoutusingimageinformation》里提出的iou-t方法和论文《检测优化的多伯努利视频多目标跟踪算法》的方法det-mbf进行性能比较与分析,同时,在实验中将本发明方法命名为cf-mbf。
本发明的性能分析采用mot评价指标mota、motp、mt、ids;ospa和目标数目变化。实验数据包括稀疏人群与密集人群场景,同时存在目标遮挡、小目标、图像模糊等问题。实验结果的定量分析与定性分析如下。
2实验结果的定性分析
(1)密集人群场景
为了验证本发明算法在目标密集情况下处理轨迹碎片与标签跳变等问题的能力,本发明选取数据集mot17中的视频序列mot17-04进行实验,该实验数据是一个夜晚的街道场景,人群十分密集且包含一部分小目标。图5为mot17-04视频序列在frcnn检测集上的实验结果图,(a1)、(a2)为iou-t跟踪结果,(b1)、(b2)为本发明算法cf-mbf跟踪结果。可以看出,由于频繁的目标紧邻和互相遮挡,多个目标没有被检测器检测到,iou-t无法关联漏检目标,导致目标被漏跟,出现标签跳变情况。而cf-mbf算法采用双滤波器结合,从检测框消失的前一帧开始对目标进行处理,实现后续的跟踪。根据第178帧实验结果图中,iou-t最大目标标签为69,而cf-mbf算法最大目标标签为48,可以得出,本发明算法cf-mbf能较好的处理标签跳变与轨迹碎片问题。
(2)目标尺寸变化
为了评估本发明算法cf-mbf对目标尺寸变化的处理能力,本发明选取数据集mot17中的视频序列mot17-09进行实验。该实验数据是一个商场门口的场景,人群较为密集,目标尺寸变化大,且存在大量遮挡。图6为mot17-04视频序列在frcnn检测集上的实验结果图,(c1)、(c2)为iou-t跟踪结果,(d1)、(d2)为cf-mbf算法跟踪结果。可以看出,尽管部分目标姿态发生较大变化,但是通过检测器可以很好地检测出该目标,iou-t算法和cf-mbf算法都能根据检测框信息对该目标进行很好的跟踪。图中目标发生遮挡,无法获得其检测信息,本发明提出的cf-mbf算法,能够跟踪到被短期遮挡的目标。实验结果表明本发明算法cf-mbf对目标尺寸变化具有较好的处理能力。
(3)目标交叉运动
为了本发明算法cf-mbf对目标交叉运动时出现的遮挡等问题的处理能力,本发明在visualtrackerbenchmarktb100中的视频序列subway上进行实验,该实验数据为地铁入口处街道监控视频,包含目标紧邻、遮挡、交叉运动等情形,同时序列图像质量较低,存在部分目标模糊。实验结果如图7所示,(e1)-(e3)为det-mbf跟踪结果,(f1)-(f3)为本发明算法cf-mbf的跟踪结果。根据结果图可以看出,目标被部分遮挡多帧,算法det-mbf与cf-mbf均能对目标进行比较准确的定位,但是连续的遮挡导致det-mbf出现部分跟踪框偏移情况,当目标脱离遮挡状态时,det-mbf算法采用高置信度检测框对跟踪框进行调整,减少了误差的叠加。本发明算法cf-mbf,同样会出现部分跟踪框偏移现象,但是偏移程度较小,能够实现整体较为准确的跟踪。
(4)稀疏目标场景
为了综合评估本发明算法cf-mbf处理问题的能力,本发明在cavuar数据集中的视频序列上enterexitcrossingpaths1cor进行实验,该实验数据为商场走廊监控视频数据,同时包含上述目标紧邻、遮挡、交叉运动、小目标、目标尺寸变化等问题,实验结果如图8所示,(g1)-(g3)为det-mbf跟踪结果,(h1)-(h3)为本发明算法cf-mbf的跟踪结果。根据结果图可以看出,两种算法在目标脱离遮挡后,均保持目标标签不变,实现多目标的连续跟踪。同时,两种算法能够很好的利用高置信度检测框信息实时调整目标尺寸,实现自适应跟踪。但是对于无对应检测框的目标的持续跟踪,det-mbf存在部分跟踪框有偏差的情况,而本发明算法cf-mbf,采用弱滤波器采样粒子,更好的包含真实目标状态,提高了目标跟踪精度。
3实验结果的定量分析
对于2中实验(1)和实验(2),选取mota、motp、mt、ids这四个评价指标,对iou-t算法、本发明算法cf-mbf进行对比,如表1所示,本发明算法cf-mbf在mota、mt、ids上都要优于对比算法,iou-t的跟踪效果依赖于检测结果,当目标出现漏检等情况,会导致iou-t出现部分轨迹碎片和标签跳变的情况,所以在mota、mt、ids这三个指标上相对较差。本发明算法cf-mbf通过结合滤波算法实现漏检目标继续跟踪与轨迹关联,能够减少目标漏跟情况,实现目标状态连续估计,同时,本发明算法cf-mbf,采用cf作为弱滤波器采样高质量粒子,能够很好的采样出目标真实状态,提高跟踪框质量,所以整体优于iou-t算法。
表5-1实验(1)、(2)结果对比(表中↑表示值越大越好,↓表示值越小越好)
对于2中实验(3)和实验(4),本发明选取ospa估计与目标数目变化估计来对实验结果进行定量分析,对det-mbf算法与本发明算法cf-mbf进行对比。图9给出了对比算法的ospa估计与目标数目估计,(i1)、(i2)为实验(3)目标数目估计与ospa估计,(j1)、(j2)为实验(4)目标数目估计与ospa估计。从图中可以看出,当新生目标部分出现时,检测器无法提供高置信度检测框,目标新生短暂延迟,使得ospa值增大。在跟踪过程中,cf-mbf算法使用弱滤波器精准采样粒子,同时结合高置信度目标检测框,实现对目标的准确跟踪,ospa估计值相对较低。在目标开始消失时,检测器无法检测到已部分消失的目标,det-mbf算法和cf-mbf算法在没有检测信息的情况下,可能会出现目标消失不敏感,导致ospa估计值上升,且目标数目估计较大。从图(i2)、(j2)中可以发现,在中间帧目标被稳定跟踪时,对比算法的ospa估计值基本一样且波动较小。这是因为在目标不受到复杂情况影响时,检测器能够得到高置信度目标检测框,而对比算法在跟踪过程中都充分利用高置信度检测框信息。
本发明的保护范围并不仅局限于上述实施例,凡是在本发明构思的精神和原则之内,本领域的专业人员能够做出的任何修改、等同替换和改进等均应包含在本发明的保护范围之内。