一种音视频控制设备中图像跟踪方法与流程

文档序号:28424040发布日期:2022-01-11 23:34阅读:111来源:国知局
一种音视频控制设备中图像跟踪方法与流程

1.本发明涉及视频图像处理与检测识别技术领域,特别是指一种音视频控制设备中图像跟踪方法。


背景技术:

2.图像追踪即在给定视频的第一帧的目标信息或者前几帧的目标信息,在后续帧序列中追踪目标,确定目标的运动轨迹。在视频分析中,有三个重要的步骤:目标检测、目标追踪和行为分析。目标追踪技术作为一个中间层任务,为许多需要每一帧目标的位置和尺度的高层应用服务。
3.目前存在的目标追踪算法也有很多种,其中henriques提出的利用岭回归在输入特征空间中回归到一个二维高斯分布学习一个最优的核相关滤波器(kernelized correlationfilters,kcf),通过密集采样使kcf成为当时效果最好的目标追踪算法,kcf利用循环矩阵在傅里叶域可以对角化的性质,大大降低了算法复杂度,很大程度上提高了算法的运行速度。相关滤波跟踪器的相关计算可以通过离散傅里叶变换转换为频域的点积计算。kcf通过循环移位矩阵完成密集取样,通过核函数和岭回归函数完成滤波器的训练,最后通过计算样本图像和滤波器相关性,选择相关性最高的区域为目标对象预测位置。在相关滤波追踪方面,很多算法都是在kcf基础上进行改进。针对不同问题,改进的方法也各不相同。kcf在保证具有较高追踪精度的同时,还具有较快的处理速度。kcf的算法流程如图2所示。kcf是以固定大小的模板框来处理对象的特征模板,所以在对象发生尺度变化的时候,大小不变的模板框无法精确地描述对象。而且kcf核化相关滤波器在物体发生急剧形变的情况下会很容易丢失目标,尤其是在遮挡的情况下,由于kcf滤波器的模板在每帧的预测后会进行更新,被遮挡的目标部分会同背景噪音混杂,导致滤波器的模板发生漂移。后续以错误的模板进行匹配的话,自然很难找到正确目标。kcf滤波器在长期跟踪过程中同样稳定性不够强,在线更新的滤波器模板容易由于错误特征的积累,模板逐渐失真。
4.而mask-rcnn是由faster-rcnn改进而来的,在faster-rcnn对roi pooling做了改进并提出了roi align,这样改进后不再进行取整操作,而是用双线性插值来更精确地找到每个块对应的特征,使得为每个roi取得的特征能够更好地对齐原图上的roi区域。与此同时,增添mask branch预测k个种类的m*m二值掩膜输出,引入预测k个输出的机制,允许每个类都生成独立的掩膜,避免类间竞争。这样做解耦了掩膜和种类预测,提高了分割效果。mask-rcnn算法虽然能识别目标轮廓,但对一张图片分割需要耗费很长时间,无法对视频目标进行实时追踪。


技术实现要素:

5.针对上述背景技术中存在的不足,本发明提出了一种音视频控制设备中图像跟踪方法,解决了kcf滤波器在长期跟踪过程中同样稳定性不够强,在线更新的滤波器模板容易由于错误特征的积累,模板逐渐失真,很难识别正确目标;以及mask-rcnn算法中图片分割
耗时过长,无法对视频目标进行实时追踪的技术问题。
6.本发明的技术方案是这样实现的:
7.一种音视频控制设备中图像跟踪方法,其步骤如下:
8.步骤一:通过摄像头控制模块获取视频流,并由视频解码模块将视频流转化为mat格式的序列帧图像;
9.步骤二:针对第一帧图像,选取候选区域,并初始化目标图像的位置和初始尺度;
10.步骤三:将下一帧图像作为当前帧图像,获取当前帧图像的搜索区域图,根据目标图像的位置分别提取搜索区域图的hog特征和颜色直方图特征;
11.步骤四:根据搜索区域图的hog特征和颜色直方图特征计算搜索区域图的响应图,并把搜索区域图的响应图作为预测目标位置区域;
12.步骤五:利用尺度滤波器提取预测目标位置区域的多尺度样本,并计算不同尺度样本的响应值,以最大的响应值对应的尺度作为预测尺度;
13.步骤六:设计异常值检测器,利用异常值检测器检测当前帧图像的特征响应图是否处于异常状态,若特征响应图异常,执行步骤七,否则,特征响应图正常,输出当前帧图像的目标的位置及尺度,返回步骤三;
14.步骤七:利用改进的mask-rcnn对当前帧图像进行检测,得到目标的位置信息,返回步骤三。
15.优选地,所述根据搜索区域图的hog特征和颜色直方图特征计算搜索区域图的响应图的方法为:
16.分别使用滤波器f
hog
和f
cn
计算得到hog特征的响应图y
hog
和基于颜色直方图特征的响应图y
cn

17.根据hog特征的响应图y
hog
计算搜索区域图的hog特征对应的响应图置信度:
[0018][0019]
其中,q
hog
为hog特征对应的响应图置信度,max(y
hog
)为响应图y
hog
中的最大值,y
hog,r,c
为响应图y
hog
中的第r行第c列个响应点的值,n
hog
为响应图y
hog
中响应点的个数;
[0020]
根据基于颜色直方图特征的响应图y
cn
计算搜索区域图的颜色直方图特征对应的响应图置信度:
[0021][0022]
其中,q
cn
为基于颜色直方图特征对应的响应图置信度,max(y
cn
)为响应图y
cn
中的最大值,y
cn,r

,c

为响应图y
cn
中的第r

行第c

列个响应点的值,n
cn
为响应图y
cn
中响应点的个数;
[0023]
计算搜索区域图的响应图:
[0024][0025]
其中,y
merg
为融合后的搜索区域图的响应图,w
hog
为hog特征的权重,w
cn
为基于颜色
直方图特征的权重,f
hog
(x)表示hog的初始化核相关滤波器,f
cn
(x)表示cn的初始化核相关滤波器。
[0026]
优选地,所述预测尺度的获得方法为:
[0027]
采集预测目标位置区域的多尺度样本大小:
[0028][0029]
其中,m表示目标在前一帧图像中的尺度的宽,n表示目标在前一帧图像中的尺度的高,c1表示尺度因子,s为多尺度的数量;
[0030]
定义代价函数ε:
[0031][0032]
其中,l表示维度,g表示尺度滤波器期望输出,h
l
表示第l维的相关滤波器,λ为正则系数,f
l
为输入样本的第l维的特征;
[0033]
相关滤波器在频域上表示为:
[0034][0035]
其中,h
l
表示频域上的相关滤波器,f
l
是频域上的输入特征,表示理想输出的频域共轭,

表示逻辑运算符同或,fk表示k维的频域特征,表示k维的频域共轭特征;
[0036]
通过对相关滤波器的分子与分母进行在线更新以更新尺度相关滤波器:
[0037][0038]
其中,a
t
为第t帧的尺度相关滤波器h
t
的分子,为第t帧的尺度相关滤波器h
t
的第l维的分子,b
t
为第t帧的尺度相关滤波器h
t
的分母,η为学习速率;
[0039]
利用尺度相关滤波器计算不同尺度样本的预测响应值:
[0040][0041]
在频域补0的方式对响应值ys进行三角插值,将尺度响应值数量从s插值到s
interp
,以插值后的响应值最大的尺度为目标当前的预测尺度。
[0042]
优选地,所述利用异常值检测器检测当前帧图像的特征响应图是否处于异常状态的方法为:
[0043]
抛弃前n0帧,将第n0+1帧到n1帧用于初始化异常值检测器,计算公式为:
[0044][0045]
其中,q
t
表示该特征第t帧的响应图置信度,表示均值,表示方差;
[0046]
从视频的n1+1帧起开始启用异常值检测器,并在新的一帧中更新参数:
[0047]
[0048]
其中,t
t
表示响应图置信度在t帧的异常值阈值,ηe表示异常值检测器的更新率,β表示参数系数;
[0049]
当第t帧的特征响应图置信度q
t
《t
t-1
时,认为第t帧的特征响应图置信度异常,否则,第t帧的特征响应图置信度正常。
[0050]
优选地,所述特征响应图正常,输出当前帧图像的位置及尺度的方法为:
[0051]
定义响应图的异常值阈值threshold
cn
与threshold
hog
,如果qcn》threshol
dcn
且q
hog
》threshold
hog
,计算帧间相似度s
t
,并设定学习速率η:
[0052][0053][0054]
其中,代表预测目标位置区域的第t帧颜色直方图特征的特征向量,a、b均为经验值,ts为s
t
的阈值,η
max
为学习速率η
t
的最大值,η
t
为第t帧的学习速率;
[0055]
使用学习速率η
t
更新滤波器f
hog
、f
cn
和f
scale
,输出每一帧图像中目标的位置(x
t
,y
t
)与尺度sz
t

[0056]
优选地,所述利用改进的mask-rcnn对当前帧图像进行检测为:
[0057]
s71、对当前帧图像进行图像空间转换,得到hsv空间下的待检测图像;
[0058]
s72、利用rpn对步骤s71中的待检测图像进行特征提取,生成一系列的特征图;
[0059]
s73、通过roi align池化层将一系列的特征图转化为尺寸大小一致的深度特征图;
[0060]
s74、通过分类预测对深度特征图进行分类,获得目标的类别;同时,利用lk光流分析法对深度特征图进行特征点提取,获得特征区域的位置;
[0061]
s75、根据目标的类别和特征区域的位置获得当前帧图像的目标的位置及尺度。
[0062]
优选地,所述对当前帧图像进行图像空间转换的方法为:
[0063]
max=max(r,g,b),min=(r,g,b);
[0064][0065]
v=max(r,g,b);
[0066][0067]
其中,r表示红(r,red),g表示绿(g,green),b表示蓝(b,blue),max表示最大值,min表示最小值,h表示色调(h,hue),v表示明度(v,value),s表示饱和度(s,saturation)。
[0068]
优选地,所述特征图的生成方法为:使用卷积神经网络对hsv空间下的待检测图像提取特征,将得到的图像特征送入rpn,利用rpn生成一系列的特征图。
[0069]
优选地,所述通过roi align池化层将一系列的特征图转化为尺寸大小一致的深度特征图的方法为:首先通过roi align操作将特征图转化为固定大小的特征图,将固定大小的特征图经过4个卷积操作后,生成14
×
14大小的特征图;然后对14
×
14大小的特征图进
行上采样,生成28
×
28大小的特征图;最后对28
×
28大小的特征图进行卷积操作,生成大小为28
×
28、深度为80的深度特征图。
[0070]
优选地,mask-rcnn的训练损失函数为:
[0071]
l=l
cls
+l
box
+l
mas
k;
[0072]
其中:l为总误差;l
mask
为分割误差;为分类误差,n
cls
为分类数量,pi为目标框anchor[i]的预测分类概率,当anchor[i]为正样本时,当anchor[i]为负样本时,anchor[i]为负样本时,为检测误差,λ为权重平衡系数,n
reg
为目标定位的数量,ti为anchor[i]预测的边界框参数化坐标,为实际边界框的参数化坐标。
[0073]
与现有技术相比,本发明产生的有益效果为:
[0074]
1)本发明将kcf的预测分成了位置预测和尺度预测两个过程,在位置预测时联合基于颜色直方图的跟踪模型,能有效地定位形变的目标,尺度预测加入一维相关滤波来对预测位置的周围进行不同尺度的采样,取得最大尺度响应。
[0075]
2)本发明在mask-rcnn模型在相邻帧提取出候选区域后加入lk光流法,在相应的区域中先进行特征点提取,有效减少背景特征,使后面的mask提取和边界框预测时间大幅度缩短。
附图说明
[0076]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0077]
图1为本发明的音视频控制设备中图像跟踪技术系统功能模块图。
[0078]
图2为kcf算法流程图。
[0079]
图3为改进的mask-rcnn网络结构图。
[0080]
图4为检测与跟踪算法联合流程图。
具体实施方式
[0081]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0082]
实施例1,一种音视频控制设备中图像跟踪方法,如图4所示,具体步骤如下:
[0083]
步骤一:通过摄像头控制模块获取视频流,并由视频解码模块将视频流转化为mat格式的序列帧图像;
[0084]
图像检测的目的是从实时视频流的初始帧中对画面中的图像进行检测,如果有满足观测的对象类型,并且可信程度在设定阈值以上时标记目标对象;目标跟踪的目的是能够在复杂场景中对目标对象进行持续的跟踪,通过目标跟踪模型匹配确定目标的位置。包括步骤二至步骤六。
[0085]
步骤二:针对第一帧图像,选取候选区域,并初始化目标图像的位置(x1,y1)和初始尺度sz1;根据初始目标的信息初始化核相关滤波器f
hog
和f
cn
,尺度相关滤波器f
scale

[0086]
步骤三:将下一帧图像作为当前帧图像,获取当前帧图像的搜索区域图,根据目标图像的位置分别提取搜索区域图的hog特征和颜色直方图特征;
[0087]
步骤四:根据搜索区域图的hog特征和颜色直方图特征计算搜索区域图的响应图,并把搜索区域图的响应图作为预测目标位置区域;
[0088]
分别使用滤波器f
hog
和f
cn
计算得到hog特征的响应图y
hog
和基于颜色直方图特征的响应图y
cn

[0089]
根据hog特征的响应图y
hog
计算搜索区域图的hog特征对应的响应图置信度:
[0090][0091]
其中,q
hog
为hog特征对应的响应图置信度,max(y
hog
)为响应图y
hog
中的最大值,y
hog,r,c
为响应图y
hog
中的第r行第c列个响应点的值,n
hog
为响应图y
hog
中响应点的个数;
[0092]
根据基于颜色直方图特征的响应图y
cn
计算搜索区域图的颜色直方图特征对应的响应图置信度:
[0093][0094]
其中,q
cn
为基于颜色直方图特征对应的响应图置信度,max(y
cn
)为响应图y
cn
中的最大值,y
cn,r

,c

为响应图y
cn
中的第r

行第c

列个响应点的值,n
cn
为响应图y
cn
中响应点的个数;
[0095]
计算搜索区域图的响应图:
[0096][0097]
其中,y
merg
为融合后的搜索区域图的响应图,w
hog
为hog特征的权重,w
cn
为基于颜色直方图特征的权重,f
hog
(x)表示hog的初始化核相关滤波器,f
cn
(x)表示cn的初始化核相关滤波器。至此即完成了通过位置滤波器对目标位置进行预测。
[0098]
步骤五:利用尺度滤波器提取预测目标位置区域的多尺度样本,并计算不同尺度样本的响应值,以最大的响应值对应的尺度作为预测尺度;
[0099]
采集预测目标位置区域的多尺度样本大小:
[0100][0101]
其中,m表示目标在前一帧图像中的尺度的宽,n表示目标在前一帧图像中的尺度的高,c1表示尺度因子,s为多尺度的数量;
[0102]
定义代价函数ε:
[0103][0104]
其中,l表示维度,g表示尺度滤波器期望输出,h
l
表示第l维的相关滤波器,λ为正则系数,f
l
为输入样本的第l维的特征;
[0105]
相关滤波器在频域上表示为:
[0106][0107]
其中,h
l
表示频域上的相关滤波器,f
l
是频域上的输入特征,表示理想输出的频域共轭,

表示逻辑运算符同或,fk表示k维的频域特征,表示k维的频域共轭特征;
[0108]
通过对相关滤波器的分子与分母进行在线更新以更新尺度相关滤波器:
[0109][0110]
其中,a
t
为第t帧的尺度相关滤波器h
t
的分子,为第t帧的尺度相关滤波器h
t
的第l维的分子,b
t
为第t帧的尺度相关滤波器h
t
的分母,η为学习速率;
[0111]
利用尺度相关滤波器计算不同尺度样本的预测响应值:
[0112][0113]
为了能够兼顾尺度滤波器的精度与速度,通过在进行离散傅里叶逆变换之前在频域补0的方式对响应值ys进行三角插值,将尺度响应值数量从s插值到s
interp
,以插值后的响应值最大的尺度为目标当前的预测尺度。
[0114]
步骤六:如果遇到跟踪目标被遮挡等情况,特征的响应图置信度会显著降低,设计异常值检测器,利用异常值检测器检测当前帧图像的特征响应图是否处于异常状态,若特征响应图异常,执行步骤七,否则,特征响应图正常,输出当前帧图像的目标的位置及尺度,返回步骤三;
[0115]
由于视频的最初几帧响应图置信度不够稳定,因而抛弃前n0帧,将第n0+1帧到n1帧用于初始化异常值检测器,计算公式为:
[0116][0117]
其中,q
t
表示该特征第t帧的响应图置信度,表示均值,表示方差;
[0118]
从视频的n1+1帧起开始启用异常值检测器,并在新的一帧中更新参数:
[0119][0120]
其中,t
t
表示响应图置信度在t帧的异常值阈值,ηe表示异常值检测器的更新率,β表示参数系数;
[0121]
当第t帧的特征响应图置信度q
t
《t
t-1
时,认为第t帧的特征响应图置信度异常,否则,第t帧的特征响应图置信度正常。
[0122]
所述特征响应图正常,输出当前帧图像的位置及尺度的方法为:
[0123]
定义响应图的异常值阈值threshold
cn
与threshold
hog
,如果q
cn
》threshold
cn
且q
hog
》threshold
hog
,计算帧间相似度s
t
,并设定学习速率η:
[0124][0125][0126]
其中,代表预测目标位置区域的第t帧颜色直方图特征的特征向量,a、b均为经验值,控制学习速率的变化,ts为s
t
的阈值,η
max
为学习速率η
t
的最大值,η
t
为第t帧的学习速率;ts为s
t
的阈值,当s
t
小于阈值ts后,设定学习速率η
t
的最大值为η
max
,这是为了防止当后续的遮挡检测机制失效时跟踪器学习到过多的错误信息。在绝大多数视频帧中,η
t
学习率均随着s
t
的改变而线性改变,小于η
max

[0127]
使用学习速率η
t
更新滤波器f
hog
、f
cn
和f
scale
,输出每一帧图像中目标的位置(x
t
,y
t
)与尺度sz
t

[0128]
步骤七:利用改进的mask-rcnn对当前帧图像进行检测,得到目标的位置信息,返回步骤三。如图3所示,利用改进的mask-rcnn对当前帧图像进行检测也称为图像再检测:再检测旨在对目标跟踪服务的结果进行置信度判断,如果目标跟踪的结果偏离了正确的目标,就会重新调用目标检测服务,重新对跟踪模块进行初始化。具体步骤如下:
[0129]
s71、对当前帧图像进行图像空间转换,通过把颜色特征作为主要特征,先将grb颜色空间转换为hsv,得到hsv空间下的待检测图像;
[0130]
所述对当前帧图像进行图像空间转换的方法为:
[0131]
max=max(r,g,b),min=(r,g,b);
[0132][0133]
v=max(r,g,b);
[0134][0135]
其中,r表示红(r,red),g表示绿(g,green),b表示蓝(b,blue),max表示最大值,min表示最小值,h表示色调(h,hue),v表示明度(v,value),s表示饱和度(s,saturation)。
[0136]
s72、利用rpn对步骤s71中的待检测图像进行特征提取,生成一系列的特征图;使用卷积神经网络对hsv空间下的待检测图像提取特征,将得到的图像特征送入rpn,利用rpn生成一系列的特征图。rpn依靠一个在共享特征图上滑动的窗口,为每个位置生成预先设置好长宽比与面积的目标框,提取出其中的感兴趣区域(roi),也即特征图。
[0137]
s73、通过roi align池化层将一系列的特征图转化为尺寸大小一致的深度特征图;首先通过roi align操作将特征图转化为固定大小的特征图,将固定大小的特征图经过4个卷积操作后,生成14
×
14大小的特征图;然后对14
×
14大小的特征图进行上采样,生成28
×
28大小的特征图;最后对28
×
28大小的特征图进行卷积操作,生成大小为28
×
28、深度
为80的深度特征图。
[0138]
s74、通过分类预测对深度特征图进行分类,获得目标的类别;同时,利用lk光流分析法对深度特征图进行特征点提取,获得特征区域的位置;
[0139]
s75、根据目标的类别和特征区域的位置获得当前帧图像的目标的位置及尺度。一方面对roi align池化层生成的尺寸大小一致的特征图进行进一步的分类,来分别判断物体属于哪个类别,分类分支采用softmax激活函数。另一方面结合roi align池化层生成的尺寸大小一致的特征图进行lk光流分析,在相应的区域中先进行特征点提取,有效减少背景特征,使后面的mask提取和边界框预测时间缩短。边界框预测主要是特征图边界框坐标的回归,精细调整特征区域的位置,以获取最终目标检测的结果。分割掩膜分支使用fcn网络从每一个特征图中预测k个m*m的分割掩膜,其中k为类别数,m为掩膜的长和宽,每一个类别对应一个分割掩膜(以抑制分割任务间的类别竞争),并对每个像素采用sigmoid函数激活。
[0140]
mask-rcnn的训练损失函数为:
[0141]
l=l
cls
+l
box
+l
mask

[0142]
其中:l为总误差;l
mask
为分割误差;l
cls
为分类误差;l
box
为检测误差;
[0143][0144]
其中,n
cls
为分类数量,pi为目标框anchor[i]的预测分类概率,当anchor[i]为正样本时,当anchor[i]为负样本时,
[0145][0146][0147]
其中,λ为权重平衡系数(一般设为10),n
reg
为目标定位的数量,ti为anchor[i]预测的边界框参数化坐标,为实际边界框的参数化坐标。
[0148]
实施例2,一种音视频控制设备中图像跟踪系统,其功能模块图如图1所示,包括视频解析模块、图像检测和目标跟踪模块、以及摄像头控制模块;视频解析模块——完成视频流数据的读取、解码、存储、播放功能;视频流解析服务目的是为了接收摄像头传输过来的实时视频流的数据,并转化成后续算法能够处理的标准输入格式,如mat格式。图像检测和目标跟踪模块从视频流数据中检测到图像目标,提取图像特征和跟踪目标,跟踪模块是基于提出的改进的kcf算法实现的,当置信度判断不可靠时进行再检测,再检测模块基于提出的改进的mask-rcnn检测算法的实现。摄像头控制模块——完成摄像头的主动跟踪系统,对实时视频流中可疑对象进行自动标注,在后续的视频流中能够持续地完成跟踪。摄像头随动控制模块:在监控场景中,运动中的目标对象不会一直处于画面中心较好观测的位置很有可能会运动出视野之外。摄像头随动服务的目的是通过主动地控制摄像头转动角度以及焦距,保持目标对象处于视野中央的区域,且处于良好的观测状态。同样也是为了解决目标完全逃离检测区域的问题。根据实施例1提出的目标跟踪算法,可以获得跟踪对象的位置信息,通过比较跟踪对象的坐标与画面的参数,得到跟踪对象与摄像头中心轴之间的角度,控制摄像头的转动将目标对象保持在画面的中央。这种操作方式还能够解决算法层面上对于
目标对象完全脱离画面难以跟踪的难题提供了一定的帮助。
[0149]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1