一种用于机器人视觉的目标跟踪方法

文档序号:33046029发布日期:2023-01-24 22:29阅读:20来源:国知局
一种用于机器人视觉的目标跟踪方法

1.本发明涉及一种目标跟踪方法,更具体地说,尤其涉及一种用于机器人视觉的目标跟踪方法。


背景技术:

2.视频目标跟踪技术,作为机器视觉研究中的重要内容,受到了研究人员的广泛关注。它旨在通过第一帧获得的目标状态信息,在视频中对目标进行跟踪,以获得每帧目标状态。在跟踪的过程中,存在目标形态变化、光照变化复杂背景和目标被遮挡等情况。在这些情况下,目标特征结构会发生相应变化,造成跟踪算法难于锁定目标。
3.自深度学习技术引入视觉跟踪以来,卷积被广泛用于特征提取和模板和搜索区域融合的框架中。目前流行的深度学习跟踪器主要由卷积核构造,然而,由于计算量大,卷积核无法设计得太大。因此,卷积核不能在单次对长距离信息进行交互,当出现相似目标或目标形态变化较大时,模型的这种缺陷限制了复杂场景的处理能力。
4.长距离依赖问题可以通过引入自注意力机制得到有效解决,自注意力机制已经成功地应用于机器翻译,自然语言处理和语音处理过程中。此外,它还在图像处理过程中得到了出色的实验结果,比如目标跟踪和目标检测。虽然自注意力机制可以很好地捕获全局信息,但是它没有特别地关注局部信息,对于目标跟踪来说,目标周围的局部信息应该占有较大的权重。因此,有必要开发一个既能像自注意力机制一样能处理全局又能像卷积处理局部信息的模型来解决这个问题。


技术实现要素:

5.本发明的目的在于针对上述现有技术的不足,提供一种跟踪成功率高、跟踪误差小且能实现实时跟踪的用于机器人视觉的目标跟踪方法。
6.本发明的技术方案是这样实现的:一种用于机器人视觉的目标跟踪方法,包括下述步骤:
7.(1)在图像首帧手动获得要跟踪的目标在二维图像上的左上和右下坐标,截取目标图像及其周边的样本图像块作为模板,通过特征提取深度网络获得模板样本特征张量;
8.(2)将搜索区域样本输入相同的特征提取深度网络,获得搜索区域样本特征张量;
9.(3)将模板的特征张量和搜索区域的特征张量同时输入基于内卷-注意力模型的特征增强和特征融合网络,得到包含了模板特征和搜索区域特征的融合特征张量,再将该融合特征张量通过分类网络和回归网络得到跟踪结果。
10.上述的一种用于机器人视觉的目标跟踪方法,步骤(1)中,所述特征提取深度网络具体为:其采用resnet50网络作为基准;resnet50包括一个干层和四个支干层,分别有3、4、6和3个bottleneck;
11.在特征提取深度网络中,丢弃了resnet50的第四层,将第三层的conv2d算子的下采样stride参数由2变成1;在resnet50的干层,使用7
×
7对内部卷积和代替以前的7
×
7卷
积核;在其他层,全部的3
×
3卷积核被7
×
7内部卷积核所取代;最后,在第三层之后增加了1
×
1卷积。
12.上述的一种用于机器人视觉的目标跟踪方法,步骤(3)所述内卷-注意力模型由一个内注模块、两个add&norm模块和一个ffn&relu模块构成;
13.所述内注模块以张量a和张量b为输入;使用和分别构建卷积张量和内部卷积核,其中d为通道数,w
×
w为图像块的尺度;
14.为了构建内部卷积核,张量b被展开为那么,给定可学习参数矩阵和可以得到查询q和键k为
15.q=b

wq16.k=b

wk,
ꢀꢀꢀ
(1)
17.其中,而后,注意力矩阵可以由式(2)获得;
[0018][0019]
然后,将注意力矩阵m变维为内部卷积核张量其中g为内部卷积核的组数,w
×
w为卷积图像的尺度,k
×
k为内部卷积核大小。
[0020]
上述的一种用于机器人视觉的目标跟踪方法中,将注意力矩阵m变维为内部卷积核张量i依赖于不同类型的b,需要处理两种类型的输入b:搜索区域样本和模板集样本,模板集样本由四个模板组成,可以在线更新;
[0021]
当输入b是一个搜索区域张量时,m
i,j
表示q的第i行和k的第j行相似度;由于每个核都是全局采样的,因此所有的内部卷积核都能够捕获搜索区域的长程依赖关系;该策略称为内卷注意力策略1;
[0022]
当输入b是一个模板集张量时,使用四个模板来连接模板集张量;m的第i行描述了q中的第i个元素与k中四个模板中的所有元素之间的相似性;由于每个核都是全局采样的,因此所有的内部卷积核都能够捕获模板集张量的长依赖关系;该策略称为内卷注意力策略2。
[0023]
上述的一种用于机器人视觉的目标跟踪方法,步骤(3)中,基于内卷-注意力模型的特征增强和特征融合网络由五个模块构成:内卷-注意力模板模块,内卷-注意力搜索区域模块,内卷-注意力模板搜索模块,内卷-注意力搜索模板模块和内卷-注意力混合模块模块;其中,五个模块中的内卷-注意力均表示基于内卷-注意力模型;
[0024]
得到包含了模板特征和搜索区域特征的融合特征张量的具体步骤为:首先,模板集特征f
t0
和搜索区域特征f
s0
分别通过内卷-注意力模板模块和内卷-注意力搜索区域模块,得到增强特征f
t1
和f
s1
;然后,将增强后的模板特征f
t1
和搜索区域特征f
s1
同时交叉输入内卷-注意力模板搜索模块和内卷-注意力搜索模板模块,获得融合特征f
t2
和f
s2
;其中,内卷-注意力模板模块,内卷-注意力搜索区域模块,内卷-注意力模板搜索模块,内卷-注意力搜索模板模块共同构建特征增强融合层,重复4次;
[0025]
在特征增强融合层之后,内卷-注意力混合模块以融合特征f
t2
和f
s2
为输入,输出特征f,并将其送入回归网络和分类网络中。
[0026]
上述的一种用于机器人视觉的目标跟踪方法中,所述内卷-注意力搜索区域模块和内卷-注意力模板搜索模块使用内卷注意力策略1来获取内部卷积核,内卷-注意力模板
模块,内卷-注意力搜索模板模块和内卷-注意力混合模块使用内卷注意力策略2来获取内部卷积核。
[0027]
上述的一种用于机器人视觉的目标跟踪方法,步骤(3)中,所述分类网络为一种包含3个线性层和2个激活的分类网络,表示为
[0028]
fc(f)=φ2((φ1(f*w1)*w2))*w3,
ꢀꢀꢀ
(3)
[0029]
其中,为特征混合网络的输出,w1,w2,w3为可学习的参数矩阵;分类网络的输出是一个二元张量用标准二元交叉熵损失计算分类损失,
[0030][0031]
其中,yi为第i个样本的ground-truth标签,等于1为正样本,pi为正样本的概率;
[0032]
通过softmax函数,将fc(f)映射到一个分类评分矩阵s。在理想状态下,在评分矩阵s中,目标区域的分类评分均为1,背景区域的分类评分均为0。
[0033]
上述的一种用于机器人视觉的目标跟踪方法中,在某些情况下,如相似的目标,遮挡,或超出范围的目标,s可能被污染;因此在跟踪方法中,高于预定数值的分类分数被视为高分;
[0034]
假设回归框内外高分数个数分别为ni和no,回归框面积为nr;定义更新分数为s=(n
i-no)/nr;当s>τ且更新间隔到了时,就对模板进行更新;其中τ为模板更新阈值。
[0035]
上述的一种用于机器人视觉的目标跟踪方法,步骤(3)中,所述回归网络通过估计目标框的概率分布进行建立;回归网络是一个全卷积网络(fcn),有四个conv-bn-relu层;回归网络的输出有4个通道,分别表示目标框的左、右、上、下的概率分布;因此,边框的坐标为
[0036]
x
tl
=∑(xp
left
(x))
[0037]ytl
=∑(yp
top
(y))
[0038]
x
br
=∑(xp
right
(x))
[0039]ybr
=∑(yp
bottom
(y)),
ꢀꢀꢀ
(5)
[0040]
其中,p
left
,p
top
,p
riqht
,p
bottm
分别为包围框的左、右、上和下的概率分布;结合iou损失和l1损失,回归网络的损失函数为
[0041][0042]
其中,λ
iou
和λ
l
为超参数,用于调整两项的权值,b和分别为真实目标框坐标和预测目标框坐标。
[0043]
本发明采用上述方法后,首先通过改进的特征提取深度网络,由目标图像及其周边的样本图像块作成的模板获得模板样本特征张量,由搜索区域样本获得搜索区域样本特征张量,再通过独创的基于内卷-注意力模型的特征增强和特征融合网络,结合分类网络和回归网络得到跟踪结果。可以有效增强目标跟踪的跟踪成功率、减少跟踪误差、实现实时跟踪的效果,提高机器人的控制效果。
附图说明
[0044]
下面结合附图中的实施例对本发明作进一步的详细说明,但并不构成对本发明的任何限制。
[0045]
图1是本发明跟踪方法的框架示意图;
[0046]
图2是本发明内卷注意力模型的示意图;
[0047]
图3是本发明内注模块的示意图;
[0048]
图4是本发明两种注意力矩阵变维策略的演示示意图;
[0049]
图5是本发明得分热图与回归边界框关系示意图;
[0050]
图6是本发明目标跟踪装置的方框示意图。
具体实施方式
[0051]
参阅图1所示,本发明的一种用于机器人视觉的目标跟踪方法,包括下述步骤:
[0052]
(1)在图像首帧手动获得要跟踪的目标在二维图像上的左上和右下坐标,截取目标图像及其周边的样本图像块作为模板,通过特征提取深度网络获得模板样本特征张量;
[0053]
(2)将搜索区域样本输入相同的特征提取深度网络,获得搜索区域样本特征张量;
[0054]
(3)将模板的特征张量和搜索区域的特征张量同时输入基于内卷-注意力模型的特征增强和特征融合网络,得到包含了模板特征和搜索区域特征的融合特征张量,再将该融合特征张量通过分类网络和回归网络得到跟踪结果。
[0055]
步骤(1)中,为了更有效地提取特征,使用内部卷积对现有特征提取深度网络进行了改造,本发明所述特征提取深度网络具体为:其采用resnet50网络作为基准;resnet50包括一个干层和四个支干层,分别有3、4、6和3个bottleneck。
[0056]
在特征提取深度网络中,丢弃了resnet50的第四层,为了获得更大的特征分辨率,将第三层的conv2d算子的下采样stride参数由2变成1;在resnet50的干层,使用7
×
7对内部卷积和代替以前的7
×
7卷积核;在其他层,全部的3
×
3卷积核被7
×
7内部卷积核所取代;因此,本特征提取深度网络可以一次获得更大的感受野。最后,在第三层之后增加了1
×
1卷积,以降低特征提取深度网络输出的信道维度。
[0057]
表1列出了修改后的内核的详细信息,第二列表示被替换的卷积核的大小,括号中的乘数表示该层的卷积核被替换的次数。第三列表示内部卷积核大小。第四列是卷积/卷积核的通道数。最后一列表示内部卷积核的组数。骨干网的输入是模板图像搜索区域图像通过骨干网后,骨干网输出的模板特征搜索区域特征
[0058]
表1修改的resnet50内核
[0059][0060][0061]
参阅图2所示,在本实施例中,步骤(3)所述内卷-注意力模型由一个内注模块、两
个add&norm模块和一个ffn&relu模块构成。
[0062]
参阅图3所示,所述内注模块以张量a和张量b为输入;使用和分别构建卷积张量和内部卷积核,其中d为通道数,w
×
w为图像块的尺度。
[0063]
为了构建内部卷积核,张量b被展开为那么,给定可学习参数矩阵和可以得到查询q和键k为
[0064]
q=b

wq[0065]
k=b

wk,
ꢀꢀꢀ
(1)
[0066]
其中,而后,注意力矩阵可以由式(2)获得。
[0067][0068]
然后,将注意力矩阵m变维为内部卷积核张量其中g为内部卷积核的组数,w
×
w为卷积图像的尺度,k
×
k为内部卷积核大小。
[0069]
需要注意的是,将注意力矩阵m变维为内部卷积核张量i依赖于不同类型的b,需要处理两种类型的输入b:搜索区域样本和模板集样本,模板集样本由四个模板组成,可以在线更新。参阅图4所示,其展示了两种类型的输入b变维策略。
[0070]
当输入b是一个搜索区域张量时,m
i,j
表示q的第i行和k的第j行相似度;如图4(a)所示,为了简单起见,以形状为64
×
64的m和形状为2
×
2的内部卷积核为例。虚线矩形为矩阵m的1行,可将其重构为一个8
×
8矩阵。每4行、4列分别抽取1个元素,可以构建16组2
×
2核的内部卷积核集。由于每个核都是全局采样的,因此所有的内部卷积核都能够捕获搜索区域的长程依赖关系。该策略称为内卷注意力策略1。
[0071]
当输入b是一个模板集张量时,本实施例使用四个模板来连接模板集张量。如图4(b)所示,1-1和1-2块分别表示第一个模板本身和第一个模板与第二个模板之间的成对相似度。例如,m的第i行描述了q中的第i个元素与k中4个模板中的所有元素之间的相似性。m中的虚线矩形可以重塑为8
×
8矩阵,其中红、蓝、黄、绿方框中的块分别与第一、第二、第三、第四个模板相关,具体地,在图中,数字2对应黄方框、数字3对应红方框、数字4对应蓝方框、数字6对应绿方框。在每个块中,每两行两列抽取元素。对于所有的块,可以得到16组内部卷积核。由于每个核都是全局采样的,因此所有的内部卷积核都能够捕获模板集张量的长依赖关系。该策略称为内卷注意力策略2。
[0072]
进一步优选地,步骤(3)中,基于内卷-注意力模型的特征增强和特征融合网络由五个模块构成:内卷-注意力模板模块,内卷-注意力搜索区域模块,内卷-注意力模板搜索模块,内卷-注意力搜索模板模块和内卷-注意力混合模块模块;其中,五个模块中的内卷-注意力均表示基于内卷-注意力模型。
[0073]
得到包含了模板特征和搜索区域特征的融合特征张量的具体步骤为:首先,模板集特征f
t0
和搜索区域特征f
s0
分别通过内卷-注意力模板模块和内卷-注意力搜索区域模块,得到增强特征f
t1
和f
s1
;然后,将增强后的模板特征f
t1
和搜索区域特征f
s1
同时交叉输入内卷-注意力模板搜索模块和内卷-注意力搜索模板模块,获得融合特征f
t2
和f
s2
;其中,内卷-注意力模板模块,内卷-注意力搜索区域模块,内卷-注意力模板搜索模块,内卷-注意力搜索模板模块共同构建特征增强融合层,重复4次。
[0074]
在特征增强融合层之后,内卷-注意力混合模块以融合特征f
t2
和f
s2
为输入,输出
特征f,并将其送入回归网络和分类网络中。
[0075]
在本实施例中,所述内卷-注意力搜索区域模块和内卷-注意力模板搜索模块使用内卷注意力策略1来获取内部卷积核,内卷-注意力模板模块,内卷-注意力搜索模板模块和内卷-注意力混合模块使用内卷注意力策略2来获取内部卷积核。
[0076]
进一步优选地,为了提高跟踪的鲁棒性,需要在跟踪过程中对模板集进行更新。但是,当出现跟踪漂移、目标遮挡、目标偏离距离的情况时,当前的跟踪结果并不可靠。为了保证跟踪结果的可靠性,本发明提出了一种包含3个线性层和2个激活的分类网络,可表示为
[0077]
fc(f)=φ2((φ1(f*w1)*w2))*w3,
ꢀꢀꢀ
(3)
[0078]
其中,为特征混合网络的输出,w1,w2,w3为可学习的参数矩阵;分类网络的输出是一个二元张量用标准二元交叉熵损失计算分类损失,
[0079][0080]
其中,yi为第i个样本的ground-truth标签,等于1为正样本,pi为正样本的概率;
[0081]
通过softmax函数,将fc(f)映射到一个分类评分矩阵s。在理想状态下,在评分矩阵s中,目标区域的分类评分均为1,背景区域的分类评分均为0。
[0082]
然而,在某些情况下,如相似的目标,遮挡,或超出范围的目标,s可能被污染。
[0083]
如图5所示,图5中红框为回归网络提供的回归框。在得分热点图a中,回归框中包含了大部分的高分。在分数热点图b中,回归框中包含了由于类似目标而获得高分的部分内容。因此,热图a的结果比热图b的结果更可靠,可见,利用热图a的跟踪结果更新模板集是合理的。在跟踪方法中,高于预定数值的分类分数被视为高分,本实施例中预定数值为0.88。假设回归框内外高分数个数分别为ni和no,回归框面积为nr。定义更新分数为s=(n
i-no)/nr。当s>τ且更新间隔到了时,就对模板进行更新。其中τ为模板更新阈值。
[0084]
传统的无锚点回归网络直接学习目标状态并遵循dirac delta分布,该分布局限于目标边界不够清晰的情况,如遮挡、运动模糊、阴影和复杂背景等。本发明通过估计目标框的概率分布来建立回归网络。
[0085]
在本实施例中,回归网络是一个全卷积网络(fcn),有四个conv-bn-relu层;回归网络的输出有四个通道,分别表示目标框的左、右、上、下的概率分布;因此,边框的坐标为
[0086]
x
tl
=∑(xp
left
(x))
[0087]ytl
=∑(yp
top
(y))
[0088]
x
br
=∑(xp
right
(x))
[0089]ybr
=∑(yp
bottom
(y)),
ꢀꢀꢀ
(5)
[0090]
其中,p
left
,p
top
,p
right
,p
bottm
分别为包围框的左、右、上和下的概率分布;与其他回归网络相比,本发明的回归网络在处理不确定性时性能更好。结合iou损失(liou)和l1损失,回归网络的损失函数为
[0091][0092]
其中,λ
iou
和λ
l
为超参数,用于调整两项的权值,b和分别为真实目标框坐标和预测目标框坐标。
[0093]
实验结果
[0094]
本发明的跟踪方法和装置分别在目前主流的数据集跟目前较为先进的方法进行
了对比测试,这些数据集分别是trackingnet和got-10k数据集。
[0095]
表2为本发明的跟踪方法与其他算法在trackingnet的测试结果,可以看出,本发明提出的方法在指标prec.(%)、n.prec.(%)和success(auc)均取得了最好的结果。
[0096]
表2 trackingnet测试集上prec.、n.prec.和auc的比较结果
[0097][0098]
表3为本发明的跟踪方法与其他算法在got-10k测试集上的测试结果,可以看出,本发明提出的方法在指标mao(%)、sr0.5(%)和sr0.75(%)均取得了最好的结果。
[0099]
方法mao(%)sr0.5(%)sr0.75(%)trsiam67.378.758.6trdimp68.880.559.7transt72.382.468.2treg66.877.857.2stack-st5068.077.762.3siamfc++59.569.547.9本发明方法73.283.368.8
[0100]
参阅图6所示,本发明的一种基于上述方法的目标跟踪装置,包括图像采集模块、特征提取模块、特征增强模块、特征融合模块、分类模块、回归模块、结果显示模块、模板更新模块和机器人数据接口模块。
[0101]
其中图像采集模块采用摄像头采集视频数据,特征提取模块负责提取目标模板和搜索区域的深度特征,特征增强模块负责对提取的深度特征进行增强、特征融合模块负责融合目标模板和搜索区域的增强特征,分类模块的作用是对特征各区域进行分类判断,回归模块负责确定目标状态,结果显示模块负责在视频的原图中显示跟踪结果,模板更新模块根据分类模块和回归模块的结果判断跟踪结果是否用于更新目标模板集,机器人数据接口模块用于将跟踪结果传输至机器人控制器内,帮助机器人进行决策和动作规划。
[0102]
以上所举实施例为本发明的较佳实施方式,仅用来方便说明本发明,并非对本发明作任何形式上的限制,任何所属技术领域中具有通常知识者,若在不脱离本发明所提技术特征的范围内,利用本发明所揭示技术内容所作出局部更动或修饰的等效实施例,并且
未脱离本发明的技术特征内容,均仍属于本发明技术特征的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1