一种餐饮税源监控目标跟踪算法及系统

文档序号:28160452发布日期:2021-12-24 19:34阅读:137来源:国知局
一种餐饮税源监控目标跟踪算法及系统

1.本技术涉及cv(computer vision,计算机视觉)领域,更具体地,涉及一种餐饮税源监控目标跟踪算法及系统。


背景技术:

2.视觉目标跟踪是计算机视觉中的一个重要研究方向,有着广泛的应用,如:视频监控,人机交互,无人驾驶等。过去二三十年视觉目标跟踪技术取得了长足的进步,特别是最近两年利用深度学习的目标跟踪方法取得了令人满意的效果,使目标跟踪技术获得了突破性的进展。
3.视觉跟踪是指对图像序列中的运动目标进行检测、提取、识别和跟踪,获得运动目标的运动参数,如位置、速度、加速度和运动轨迹等,从而进行下一步的处理与分析,实现对运动目标的行为理解,以完成更高一级的检测任务。
4.现有技术中给出了基于区域的跟踪算法、基于特征的跟踪方法、基于轮廓的跟踪方法、基于模型的跟踪方法以及基于检测的跟踪算法。进来随着人工智能的迅猛发展,也有人提出将神经网络技术应用到跟踪算法中。
5.针对我国餐饮酒店税收实践工作中的迫切需要,研制一种餐饮税源监控目标跟踪算法及系统。该系统综合利用人工智能、大数据、互联网等多领域创新性技术成果,实现了视频流并发采集及存储管理、视频数据实时目标跟踪,根据视频目标行为及酒店人均消费网络化评估、为后续的酒店应缴税费统计提供依据,具有可操作性强、易于推广应用的明显优势。


技术实现要素:

6.本技术提供一种餐饮税源监控目标跟踪算法及系统。通过将深度学习网络与iou(intersection over union,交叠)网络相结合,获得形变目标的准确跟踪。
7.本技术的一个方面提供了一种餐饮税源监控目标跟踪算法,包括:
8.1)获取当前帧图像中包括所述目标及其周边的区域、预搜索区域,其中,对于第一帧图像,手动初始化待跟踪目标及其周边的区域框和预搜索区域;
9.2)将所述目标及其周边的区域输入到预训练好的卷积神经元网络中,提取第四层的卷积特征,然后将其输入到全连接层,并获得全链接层的输出;
10.3)将所述目标及其周边的区域输入到预训练好的卷积神经元网络中,提取第五层的卷积特征,然后将其输入到全连接层,并获得全链接层的输出;
11.4)将所述目标预搜索区域输入到预训练好的卷积神经元网络中,提取第四层的卷积特征,然后将其输入到全连接层,并获得全链接层的输出;
12.5)将所述目标预搜索区域输入到预训练好的卷积神经元网络中,提取第五层的卷积特征,然后将其输入到全连接层,并获得全链接层的输出;
13.6)使用相关滤波器计算步骤2)和步骤4)的全链接层输出的响应;
14.7)使用相关滤波器计算步骤2)和步骤4)的全链接层输出的响应;
15.8)将步骤6)和步骤7)的结果加权相加,得到语义分支的响应;
16.9)将三个具有最高得分的响应对应的目标框作为候选结果,分别输入到iou预测网络,得到网络的输出结果;
17.10)比较三个输出结果,最大值对应的目标区域即为当前帧的跟踪结果;
18.11)进行下一帧图像操作,转到步骤1),直到所有跟踪结束。
19.本技术的另一个方面提供了一种餐饮税源监控目标跟踪系统,包括:
20.存储器,存储有计算机可执行的指令;以及处理器,执行所述指令:
21.1)获取当前帧图像中包括所述目标及其周边的区域、预搜索区域,其中,对于第一帧图像,手动初始化待跟踪目标及其周边的区域框和预搜索区域;
22.2)将所述目标及其周边的区域输入到预训练好的卷积神经元网络中,提取第四层的卷积特征,然后将其输入到全连接层,并获得全链接层的输出;
23.3)将所述目标及其周边的区域输入到预训练好的卷积神经元网络中,提取第五层的卷积特征,然后将其输入到全连接层,并获得全链接层的输出;
24.4)将所述目标预搜索区域输入到预训练好的卷积神经元网络中,提取第四层的卷积特征,然后将其输入到全连接层,并获得全链接层的输出;
25.5)将所述目标预搜索区域输入到预训练好的卷积神经元网络中,提取第五层的卷积特征,然后将其输入到全连接层,并获得全链接层的输出;
26.6)使用相关滤波器计算步骤2)和步骤4)的全链接层输出的响应;
27.7)使用相关滤波器计算步骤2)和步骤4)的全链接层输出的响应;
28.8)将步骤6)和步骤7)的结果加权相加,得到语义分支的响应;
29.9)将三个具有最高得分的响应对应的目标搜索区域分别输入到iou预测网络,得到网络的输出结果;
30.10)比较三个输出结果,最大值对应的目标区域即为当前帧的跟踪结果;
31.11)进行下一帧图像操作,转到步骤1),直到所有跟踪结束。
32.在一个实施方式中,所述步骤9)包括:
[0033]9‑
1)输入上一帧目标的真实区域和边框信息,构建网络的参考分支;
[0034]9‑
2)输入三个具有最高得分的响应对应的目标搜索区域信息,构建测试分支。
[0035]
在一个实施方式中,所述步骤9

1)包括:
[0036]
输入真实目标区域到resnet

18网络,提取第一层特征映射,经过卷积和池化后,得到特征映射,进行全卷积操作,将结果输入到测试分支;
[0037]
提取第二层特征映射,经过卷积和池化后,得到特征映射,进行全卷积操作,将结果输入到测试分支。
[0038]
在一个实施方式中,所述步骤9

2)包括:
[0039]
输入真实目标区域到resnet

18网络,提取第一层特征映射,经过卷积和池化后,得到特征映射;提取第二层特征映射,经过卷积和池化后,得到特征映射;联合参考分支的结果,得到iou值。
[0040]
有益效果
[0041]
(1)采用最高卷积特征作为语义分支输入,对目标的外观变化具有鲁棒性;
[0042]
(2)与传统的基于分类的跟踪方法不同,所述方法采用iou网络细化边界框,它包含了更多的目标空间状态信息;
[0043]
(3)混合策略提供了互补的好处。语义分支得到目标的粗定位,iou网络分支细化边界框;
[0044]
(4)对两个分支进行离线训练,提高了跟踪速度;
[0045]
(5)能够实时统计客流数量,为餐饮系统的税收提供依据。
附图说明
[0046]
为了使本发明的目的,系统方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述:
[0047]
图1所示为根据本技术一个实施方式的resnet

18的网络结构。
[0048]
图2所示为根据本技术一个实施方式的餐饮税源监控目标跟踪算法的流程图。
[0049]
图3所示为图2所示流程的示意性框图。
[0050]
图4所示为交叠(iou)预测网络结构示意图。
[0051]
图5所示为根据本技术一个实施方式的重叠度计算示意图。
[0052]
图6所示为根据本技术一个实施方式的、使用计算机架构实现时的框图。
[0053]
图7所示为根据本技术一个实施方式的跟踪结果图。
具体实施方式
[0054]
下面结合附图和实施例子对本发明作进一步详细的说明。本技术所描述的具体的实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分。
[0055]
本说明书中对“一个实施方式”或“实施方式”的提及意味着结合该实施方案所描述的特定特征、结构或特性可以包括在本公开的至少一个实施方案中。短语“实施方式”在本说明书中各个地方的出现不必全部是指同一实施方式。
[0056]
在本技术中,综合考虑系统的准确性与运行效率,采用经典的resnet

18网络结构来实现本技术的各个实施方式。如图1所示为示例性的resnet

18网络结构。如图1所示,该网络结构包括17个卷积层(201)和1个全连接层(203)。
[0057]
具体地,如图1所示,首先用7
×
7、步幅为2的过滤器构建卷积层,假设网络输入大小为m
×
n
×
3,为了保证卷积之后的特征矩阵的前两维与输入矩阵的前两维维数相同即:m
×
n。即在输入矩阵外加三圈0。然后用一个3
×
3,步幅为2的过滤器构建最大池化层(202)。第一、二个基础块将得到的特征矩阵经过两次3
×
3、步长为1的卷积,每次补一圈0。这样卷积之后的特征矩阵的前两维仍为:m
×
n。第三个基础块添加1
×
1、步幅为2的过滤器构建残差块升维,与一次3
×
3、步长为2的卷积,一次3
×
3、步长为1的卷积结果相加输出,第四个基础块将第三个基础块得到的结果经过两次3
×
3、步长为1的卷积。重复基础块3和基础块4的结构2次。此前所用所有激活函数都使用relu。如此进行几轮操作后,将最后得到的7
×7×
512的特征图放入一个3
×
3,步幅为2的过滤器构建平均池化层(202),然后进行softmax激活(204)。虽然在这里给出一个具体的resnet

18网络结构,但是本领域技术人员应该理解,在未背离本技术教导的情况下还可以采用其它的网络架构。
[0058]
再构架上述网络后,通过使用imagenet数据集对其进行训练。该imagenet数据集分为训练集和测试集。该数据集对应例如1000个类别。每个数据有对应的标签向量,每个标签向量对应一个不同的类别。本技术不关心输入图像的具体分类,只是应用该数据集训练resnet

18网络的权重。具体地,将上述imagenet训练集调整成224
×
224
×
3大小,然后输入resnet

18网络以对该网络进行训练,得到网络各层或各单元的权重参数信息。然后,向训练得到的resnet

18网络结构中输入预先确定的测试数据集以及对应类别的标签向量。测试数据集的大小可例如同样为224
×
224
×
3。通过向resnet

18网络输入上述测试数据集以及对应类别的标签向量,可对resnet

18网络的输出结果进行检测,所检测的结果与标准数据进行比对,以根据比对的误差对resnet

18网络的参数(权重)进行调整。重复上面步骤,直到得到测试准确率达到预定的标准,例如准确率为98%以上。
[0059]
如图2所示为根据本技术一个实施方式的餐饮税源监控目标跟踪算法的流程图。图3所示为图2所示流程的示意性框图。图4所示为交叠(iou)预测网络结构示意图。下面将结合图2,图3以及图4对本技术公开的实施方式进行详细的描述。
[0060]
如图2所示,根据本技术一个实施方式的一种餐饮税源监控目标跟踪算法包括:步骤s101,获取当前帧目标及其周边的区域、预搜索区域,手动初始化第一帧图像待跟踪目标及其周边的区域框和预搜索区域;步骤s102,输入目标及其周边的区域至cnn,提取第四层的卷积特征,输入到全连接层;步骤s103,输入目标及其周边的区域至cnn,提取第五层的卷积特征,输入到全连接层;步骤s104,输入目标预搜索区域至cnn,提取第四层的卷积特征,输入到全连接层;步骤s105,输入目标预搜索区域输入cnn,提取第五层的卷积特征,输入到全连接层;步骤s106,计算s102和s104的全链接层输出的响应;步骤s107,计算s103和s105的全链接层输出的响应;步骤s108,加权相加s106和s107的结果,得到语义分支的响应;步骤s109,分别输入三个得分最高目标框到iou预测网络;步骤s110,最大值对应的目标区域作为当前帧的跟踪结果;步骤s111,读入下一帧图像,转到s101。
[0061]
图3显示了所述跟踪器的网络结构。该算法分别由语义分支和位置分支组成,位置分支的功能主要由iou预测网络分支实现。如图3中300所示虚线框为语义分支。309为iou预测网络分支,具体结构如图4所示。将语义分支的输出结果输入到网络分支,得出跟踪结果318。
[0062]
基于cnn的低层特征包含更多的空间信息,而高层特征包含更多的语义信息。语义分支基于cnn网络的高层特征和相关滤波器。语义分支的输出是位置分支输入的一部分,位置分支由iou预测网络实现。
[0063]
下面将对分别对步骤s101

s111进行描述。
[0064]
步骤s101,如图2和图3所示,如果是第一帧视频图像,手动初始化第一帧图像待跟踪目标及其周边的区域框和预搜索区域;否则,根据上一帧的跟踪结果获取当前帧目标及其周边的区域、预搜索区域。
[0065]
如图3所示,首先,将编号为301的目标及其周边区域r和编号为310的搜索区域集s输入到语义分支。设t表示精确的目标区域,r表示目标及其周边区域,s表示搜索区域集。其中r和s的大小同为w
s
×
h
s
×
3,t的大小是w
t
×
h
t
×
3。w
s
和h
s
表示区域r和s的宽度和高度,w
t
和h
t
分别表示区域t宽度和高度。由于精确的目标区域t小于目标及其周边区域r,因此上述变化的关系为w
s
>w
t
和h
s
>h
t
。搜索集s={s
i
}(i=1..n),其中s
i
是第i个候选搜索区域,n是
候选搜索区域的总数。候选搜索块的大小与目标区域t的大小相同。
[0066]
步骤s102,输入目标及其周边的区域至cnn,提取第四层的卷积特征,输入到全链接层;对应编号303中,计算目标及其周边区域r在resnet

18网络的第四层卷积,得到编号308的卷积特征,然后编号305进行全链接操作。
[0067]
步骤s103,输入目标及其周边的区域至cnn,提取第五层的卷积特征,输入到全连接层;在编号302中,计算目标及其周边区域r在resnet

18网络的第五层卷积,得到编号304的卷积特征,然后编号306进行全链接操作。
[0068]
步骤s104,输入目标预搜索区域至cnn,提取第四层的卷积特征,输入到全连接层;
[0069]
在编号319中,计算一个搜索区域在resnet

18网络的第四层卷积,得到编号313的卷积特征,然后编号320进行全链接操作。
[0070]
步骤s105,输入目标预搜索区域输入cnn,提取第五层的卷积特征,输入到全连接层;在编号311中,计算一个搜索区域在resnet

18网络的第五层卷积,得到编号312的卷积特征,然后编号314进行全链接操作。
[0071]
步骤s106,计算s102和s104的全链接层输出的响应;得到303和305所示的全链接响应。
[0072]
步骤s107,计算s103和s105的全链接层输出的响应;得到306和314所示的全链接层的响应。
[0073]
步骤s108,加权相加s106和s107的结果,得到语义分支的响应;在编号307中和编号315中计算如图所示的相关系数;然后编号316进行加权求和,得到编号为317的相关系数得分最高的三个候选区域。也是所述算法的语义分支的输出。
[0074]
在图像分类任务中,我们使用了一个cnn,并且保持了所有参数不变。输入(r,s)到cnn中,提取最后两个卷积层的特征作为每个图像块的语义特征。让cnn的两个特征用f
r1
(
·
)和f
r2
(
·
)表示。最后两个卷积层的相关滤波器的响应图是
[0075]
h1(r,s)=cor(f
r1
(r),f
r1
(s)),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0076]

[0077]
h2(r,s)=cor(f
r2
(r),f
r2
(s)),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0078]
其中cor(
·
)是相关运算。语义分支的响应图表示为
[0079]
h(r,s)=λh1(r,s)+(1

λ)h2(r,s),
ꢀꢀꢀꢀꢀꢀꢀ
(3)
[0080]
其中λ用于平衡两个加法项对结果的影响的加权参数。所有参数的训练方法与相似学习问题相同。对于每个数据对(r
i
,s
i
),y
i
表示相应搜索区域的真值特征图。其中i=1..n,n为搜索区域的总数。
[0081]
通过最小化逻辑损失函数los(
·
)优化语义分支,具体如下:
[0082][0083]
其中w
i
为网络中参数,n为训练样本数。
[0084]
如图3所示,算法的具体流程为:
[0085]
第1步:在resnet

18网络中输入r,提取第四卷积层的特征图f
r1
(r)。全连通层后,得到特征图。提取第五卷积层的特征图f
r1
(r)。全连通层后,得到特征图f
r2
(r);
[0086]
第2步:与第1步相同的过程在s上完成。我们得到的特征图f
r1
(s)和f
r2
(s);
[0087]
第3步:h1(r,s)使用公式(1)计算响应图;
[0088]
第4步:使用公式(2)h2(r,s)计算响应图;
[0089]
第5步:使用公式(3)计算语义分支h(r,s)的响应图。
[0090]
步骤s109,分别输入三个得分最高目标框到iou预测网络;将三个候选区域和精确的目标区域t输入到位置分支中,对每个候选区域和t,通过iou网络获得iou值。在细化每对输入的边界框后,输出是具有最大iou值的区域。值得注意的是,这两个分支是单独训练的。具体的iou预测网络分支的执行流程如图4所示。
[0091]
首先,将参考区域401输入到resnet

18中,如编号404所示计算第一层卷积,得到编号为405所示的第一层卷积特征,然后再进行卷积(编号为407)和池化(编号为408),得到特征409,然后进行全链接操作413。
[0092]
将405输入到输入到resnet

18中计算第二层卷积(编号为406),得到编号为410所示的第二层卷积特征,然后再进行卷积(编号为411)和池化(编号为412),得到特征414,然后进行全链接操作415。
[0093]
同时,将语义分支得到的三个目标区域402分别输入到resnet

18中,如编号403所示计算第一层卷积,得到编号为418所示的第一层卷积特征,然后再进行卷积(编号为417)和池化(编号为419),得到特征420,然后与413进行与操作,然后进行全链接操作422。
[0094]
将416输入到resnet

18中计算第二层卷积(编号为418),得到编号为421所示的第二层卷积特征,然后再池化(编号为423),得到特征426,然后与415进行与操作,然后进行全链接操作425。
[0095]
将422和425所得结果输入到iou预测模块424中,得到最大值对应的区域即为所跟踪的目标区域。
[0096]
如图4所示,对于参考区域分支,输入的是真值区域t及其边界框b0,从预先训练好的resnet

18中提取出第一层和第二层的特征图,然后紧随其后的是池化层和一个全连接层。对于第一层的特征,它返回一个大小为1
×1×
d维的正系数调整向量a1(t,b0),对于第二层的特征,它返回一个大小为1
×1×
d维的正系数调整向量a2(t,b0)。d是表示第三维大小的一个变量。
[0097]
如图4所示,对于搜索区域分支,输入是搜索区域集s={s
i
}i=1,2,3及其边界框集b={b
i
}i=1,2,3,对于s中的每个元素,分别从预先训练的resnet

18中提取第一层和第二层的特征图,然后用边界框估计b作为池化层。如图2所示,用测试分支提取iou预测的一般特征是一项更复杂的任务,因此需要更多的卷积层和更高的池化分辨率。它分别为第1层和第2层生成大小为k1×
k1×
d的向量v1(s
i
,b
i
)i=1,2,3和大小为k2×
k2×
d的向量v2(s
i
,b
i
)i=1,2,3,其中k1和k2是池化层的空间大小。然后,利用参考系数输出向量a1和a2通过通道式乘法来调整这两个结果向量。边界框b
i
的预测iou公式表示为
[0098]
iou(b
i
)=ηiou1(b
i
)+(1

η)iou2(b
i
),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0099]
iou1(b
i
)=g(a1(t,b0)
·
v1(s
i
,b
i
)),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0100]
iou2(b
i
)=g(a2(t,b0)
·
v1(s
i
,b
i
)),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0101]
其中g是由三个完全连接的层组成的iou预测模块。η是用来平衡两层对结果影响的加权参数。
[0102]
训练时,我们最小化方程(5)的预测误差,估计目标区域时,我们最大化方程(5)。
[0103]
跟踪结果b
truth
定义为
[0104][0105]
其中iou值的具体计算方法如图5所示。重叠度(iou)的计算如下。设四边形abcd表示上一帧跟踪到的目标仿射边界框。四边形defg表示待比较的仿射边界框。两者的重叠区域为多边形aecgh。设

表示面积,后接图形名称,表示对应图形的面积。例如:

aecgh表示多边形aecgh的面积。则

aecgh=

aec+

acg+

agh.四边形abcd与四边形defg的重叠度iou定义为即两者重叠面积占据两种总面积减去重叠面积的比例。
[0106]
步骤s110,最大值对应的目标区域作为当前帧的跟踪结果;如318所示。
[0107]
步骤s111,读入下一帧图像,转到s101。部分跟踪结果边框如图7中701,702,703,704
[0108]
箭头所指示矩形边框所示。
[0109]
图6所示为根据本技术另一方面的形变目标跟踪系统。下面参考图6,其示出了适于用来实现本公开的实施例的电子系统600的结构示意图。图6示出的电子系统仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
[0110]
如图6所示,电子系统600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储装置608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0111]
通常,以下装置可以连接至i/o接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子系统600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子系统600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
[0112]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从rom 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。
[0113]
需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程
只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0114]
上述计算机可读介质可以是上述电子系统(在本文中还称为“形变目标跟踪系统”)中所包含的;也可以是单独存在,而未装配入该电子系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子系统:1)获取当前帧图像中包括所述目标及其周边的区域、预搜索区域,其中,对于第一帧图像,手动初始化待跟踪目标及其周边的区域框和预搜索区域;2)将所述目标及其周边的区域输入到预训练好的卷积神经元网络中,提取第四层的卷积特征,然后将其输入到全连接层,并获得全链接层的输出;3)将所述目标及其周边的区域输入到预训练好的卷积神经元网络中,提取第五层的卷积特征,然后将其输入到全连接层,并获得全链接层的输出;4)将所述目标预搜索区域输入到预训练好的卷积神经元网络中,提取第四层的卷积特征,然后将其输入到全连接层,并获得全链接层的输出;5)将所述目标预搜索区域输入到预训练好的卷积神经元网络中,提取第五层的卷积特征,然后将其输入到全连接层,并获得全链接层的输出;6)使用相关滤波器计算步骤2)和步骤4)的全链接层输出的响应;7)使用相关滤波器计算步骤2)和步骤4)的全链接层输出的响应;8)将步骤6)和步骤7)的结果加权相加,得到语义分支的响应;9)将三个具有最高得分的响应对应的目标搜索区域分别输入到iou预测网络,得到网络的输出结果;10)比较三个输出结果,最大值对应的目标区域即为当前帧的跟踪结果;11)进行下一帧图像操作,转到步骤1),直到所有跟踪结束。
[0115]
在一个实施方式中,所述步骤9)包括:9

1)输入上一帧目标的真实区域和边框信息,构建网络的参考分支;9

2)输入三个具有最高得分的响应对应的目标搜索区域信息,构建测试分支;
[0116]
在一个实施方式中,所述步骤9

1)包括:输入真实目标区域到resnet

18网络,提取第一层特征映射,经过卷积和池化后,得到特征映射,进行全卷积操作,将结果输入到测试分支;提取第二层特征映射,经过卷积和池化后,得到特征映射,进行全卷积操作,将结果输入到测试分支;
[0117]
在一个实施方式中,所述步骤9

2)包括:输入真实目标区域到resnet

18网络,提取第一层特征映射,经过卷积和池化后,得到特征映射;提取第二层特征映射,经过卷积和池化后,得到特征映射;联合参考分支的结果,得到iou值。
[0118]
根据本技术第一方面的形变目标跟踪方法中的各种算法和细节同样适用于上述的形变目标跟踪系统600,因此出于简要的目的忽略了它们大部分的描述。
[0119]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人
员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1