一种基于通道与空间注意力机制的孪生网络目标跟踪方法

文档序号:26349524发布日期:2021-08-20 20:22阅读:168来源:国知局
一种基于通道与空间注意力机制的孪生网络目标跟踪方法

本发明涉及计算机视觉技术领域,特别涉及一种基于通道与空间注意力机制的孪生网络目标跟踪方法。



背景技术:

目标跟踪是计算机视觉中的一个非常重要的课题,在自动驾驶、视频监控、视频分析、医疗领域以及军事等领域均具有实际应用。在实际应用中,由于目标跟踪应用场景广泛并且复杂,在具有复杂背景的目标跟踪上经常会发生变形,存在运动模糊和遮挡等挑战性问题。此外,由于商业、工业、军事以及医学等方面应用场景的需求,目标跟踪技术研究极具价值。

通常,目标跟踪算法包含有判别式算法和生成式算法两种。其中,基于判别模型的算法可以有效地将被跟踪的目标与周围的背景区分开。基于生成模型的算法在给定搜索区域中,利用目标图像样本和候选区域目标图像样本之间学习的相似性函数来比较。近年来,随着大规模公开标注的图像数据集的出现以及计算机硬件性能和软件技术的飞速发展,深度学习在图像处理的各个领域已经取得很大的成功。其中,基于深度学习的判别相关滤波器由于运算速度快,已经成功地应用于目标跟踪。此外,基于孪生网络的跟踪算法也在目标跟踪任务中得到了广泛的关注。利用孪生网络体系结构对检测到的目标候选样本进行模板匹配,通过计算目标区域与候选区域之间的最高相似度来获得目标图像的位置。

然而,现有技术中,在进行视觉目标跟踪时,没有同时联合卷积神经网络模型、通道注意力机制以及空间注意力机制,进行目标跟踪的精确度以及鲁棒性不太理想。



技术实现要素:

鉴于上述状况,有必要解决现有技术中在进行视觉目标跟踪时,没有同时联合卷积神经网络模型、通道以及空间注意力机制,进行目标跟踪的精确度以及鲁棒性不太理想的问题。

本发明实施例提供了一种基于通道与空间注意力机制的孪生网络目标跟踪方法,其中,所述方法包括如下步骤:

步骤一:对视频或图像数据集进行处理,以获得统一图像大小的多个目标图像;

步骤二:基于卷积神经网络模型、通道注意力机制以及空间注意力机制,构建得到新型骨干网络模型;

步骤三:从所述多个目标图像中提取训练样本,以对所述新型骨干网络模型进行训练;

步骤四:利用训练好的所述新型骨干网络模型在所述多个目标图像中提取以得到目标图像样本深层特征,并将所述目标图像样本深层特征在目标图像候选区域进行相似性匹配以得到多个目标候选块,其中每个目标候选块均分别对应有一相似度得分;

步骤五:利用获取到的最大相似度得分的目标候选块进行目标跟踪。

本发明提出一种基于通道与空间注意力机制的孪生网络目标跟踪方法,首先对视频或图像数据集进行处理以得到统一图像大小的目标图像,然后基于卷积神经网络模型、通道注意力机制以及空间注意力机制联合构建得到新型骨干网络模型,然后从目标图像中提取训练样本,对新型骨干网络模型进行训练,再利用训练好的新型骨干网络模型在目标图像中提取以得到目标图像样本深层特征,进而在目标图像候选区域进行相似性匹配以得到多个目标候选块,最后利用获取到的最大相似度得分的目标候选块进行目标跟踪。

本发明利用got-10k作为训练集来调整离线训练的模型参数,可更准确地表示视频中的目标;然后通过使用一种轻量级的卷积神经网络模型进行特征提取。本发明所设计的跟踪算法的表观模型,具有更好的鲁棒性与精确度。

所述基于通道与空间注意力机制的孪生网络目标跟踪方法,其中,所述新型骨干网络模型为孪生网络框架,所述孪生网络框架包括模板分支以及搜索分支;

其中,从所述多个目标图像中提取训练样本的步骤包括:

当对所述目标图像进行搜索的子窗口扩展到所述目标图像的范围之外时,缺失的图像部分利用平均rgb值进行填充。

所述基于通道与空间注意力机制的孪生网络目标跟踪方法,其中,在所述孪生网络框架中,所述方法包括:

分别通过所述模板分支以及所述搜索分支进行目标图像的输入,并根据所述模板分支以及所述搜索分支以获取目标图像样本深层特征;

在所述孪生网络框架中,存在如下公式:

其中,h表示输入输出信号的映射函数,k表示步幅,是输入输出信号中有效区域的转换值,均表示平移运算符,表示输入的目标图像。

所述基于通道与空间注意力机制的孪生网络目标跟踪方法,其中,在所述步骤四中,所述相似度得分的公式表述为:

其中,表示两个输入的目标图像之间的相似度得分,表示值的偏差,表示实数集,表示两个输入的目标图像通过孪生网络框架后的输出特性,表示两个输入的目标图像,表示卷积嵌入函数。

所述基于通道与空间注意力机制的孪生网络目标跟踪方法,其中,在利用训练好的所述新型骨干网络模型在所述多个目标图像中提取以得到目标图像样本深层特征的步骤中,所述通道注意力机制执行如下步骤:

通过最大池化以及全局平均池化来获得两个通道的目标图像的特征;

将经过最大池化以及全局平均池化之后所获得的两个通道的目标图像的特征,输入到多层感知机网络中经元数求和后得到特征向量;

将所述特征向量通过sigmoid激活函数以得到第一权重系数,将所述第一权重系数与输入的目标图像进行相乘以得到第一加权新特征。

所述基于通道与空间注意力机制的孪生网络目标跟踪方法,其中,所述第一权重系数表示为:

其中,为第一权重系数,表示sigmoid激活函数,表示共享多层感知机网络的权重,表示relu函数,为全局平均池化函数,为最大池化函数,表示输入的目标图像;

所述第一加权新特征表示为:

其中,表示第一加权新特征,表示元数级的乘法。

所述基于通道与空间注意力机制的孪生网络目标跟踪方法,其中,在利用训练好的所述新型骨干网络模型在所述多个目标图像中提取以得到目标图像样本深层特征的步骤中,所述空间注意力机制执行如下步骤:

通过最大池化以及全局平均池化来获得两个通道的目标图像的特征,并通过第一卷积层对两个通道的目标图像的特征进行拼接;

将拼接后的两个通道的目标图像的特征,通过第二卷积层以及sigmoid激活函数计算得到第二权重系数;

将所述第二权重系数与所述第一加权新特征进行相乘以得到第二加权新特征。

所述基于通道与空间注意力机制的孪生网络目标跟踪方法,其中,所述第二权重系数表示为:

其中,为所述第二权重系数,表示卷积核的感受域为7×7,同样表示第一加权新特征,表示sigmoid激活函数;

所述第二加权新特征表示为:

为所述第二加权新特征。

所述基于通道与空间注意力机制的孪生网络目标跟踪方法,其中,在所述基于卷积神经网络模型、通道注意力机制以及空间注意力机制,构建得到新型骨干网络模型的步骤中,

以所述多个目标图像作为训练数据集进行训练,其中所述训练数据集包含560个运动对象以及87个运动模式类;

在进行训练构建时使用到随机梯度下降法,其中动量被设置为0.9。

所述基于通道与空间注意力机制的孪生网络目标跟踪方法,其中,所述孪生网络框架中的模板分支与搜索分支分别提取到的目标图像特征大小为"6×6×128"和"22×22×128"。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于通道与空间注意力机制的孪生网络目标跟踪方法的流程图;

图2为本发明提出的基于通道与空间注意力机制的孪生网络目标跟踪方法的原理图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

现有技术中,在进行视觉目标跟踪时,没有同时联合卷积神经网络模型、通道注意力机制以及空间注意力机制,进行目标跟踪的精确度以及鲁棒性不太理想。

为了解决这一技术问题,本发明提出一种基于通道与空间注意力机制的孪生网络目标跟踪方法,请参阅图1与图2,其中,所述方法包括如下步骤:

s101,对视频或图像数据集进行处理,以获得统一图像大小的多个目标图像。

在本步骤中,需要将视频或图像数据集中的图像处理成统一大小。需要说明的是,处理成大小统一的目标图像,既便于后续输入也便于在跟踪阶段提取到统一大小的图像深层特征。

s102,基于卷积神经网络模型、通道注意力机制以及空间注意力机制,构建得到新型骨干网络模型。

在本实施例中,新型骨干网络模型为孪生网络框架,该孪生网络框架包括模板分支以及搜索分支。如图2所示,对应的为模板分支,对应的为搜索分支。

作为补充的,在图2中,中间的虚线框内,集合了卷积神经网络模型、通道注意力模块以及空间注意力模块构建成新型骨干网络模型。其中,卷积神经网络模型包括卷积层1、卷积层2、卷积层3、卷积层4以及卷积层5。其中,通道注意力模块与空间注意力模块位于卷积层1与卷积层2之间。用于在后续步骤中,对目标图像中所提取的目标图像样本深层特征进行处理。

s103,从所述多个目标图像中提取训练样本,以对所述新型骨干网络模型进行训练。

在训练时,需要根据模型的复杂程度以及显存大小来确定图片大小。在本发明中,输入到模板分支中的样本图像大小为127×127×3,输入到搜索分支中的目标图像大小为255×255×3。

在从所述多个目标图像中提取训练样本的步骤,需要补充说明的是:

当对目标图像进行搜索的子窗口扩展到所述目标图像的范围之外时,缺失的图像部分利用平均rgb值进行填充。在后续的测试阶段(包括步骤s104以及步骤s105)中,两个通道的目标图像将被分别引入到孪生网络框架的模板分支与搜索分支中,以获取到目标图像样本深层特征。

在此需要补充说明的是,以多个目标图像作为训练数据集进行训练。其中,训练数据集包含560个运动对象以及87个运动模式类。此外,训练数据集还提供了超过10000个真实世界移动对象的视频剪辑以及超过150万个手工制作的标记边框。在本发明中,上述设计的新型骨干网络模型可实现大规模数据集got-10k的端到端训练。

另外,在进行训练构建时使用到随机梯度下降法(sgd),其中动量被设置为0.9。此外,每次迭代的学习率从初始学习率下降到最终学习率,分别设置为0.01和0.00001。本发明中所提出的新型骨干网络模型总共被训练50个epoch,重量衰减设置为0.0005,批次大小为16。

s104,利用训练好的所述新型骨干网络模型在所述多个目标图像中提取以得到目标图像样本深层特征,并将所述目标图像样本深层特征在目标图像候选区域进行相似性匹配以得到多个目标候选块,其中每个目标候选块均分别对应有一相似度得分。

具体的,对上述的新型骨干网络模型而言,卷积神经网络模型(cnn模型)包含有5层卷积层,但不包含有全连接层。通道注意力机制与空间注意力机制由通道注意力模块和空间注意力模块构成。按照通道注意力模块-空间注意力模块的先后排放位置,被构建在第一层卷积层和池化层之后。作为补充的,空间注意力模块的感受域采用"7×7"卷积核。

在孪生网络框架中,存在如下公式:

(1)

其中,h表示输入输出信号的映射函数,k表示步幅,是输入输出信号中有效区域的转换值,均表示平移运算符,表示输入的目标图像。

此外,通常使用一个卷积嵌入函数,使得两个输入的目标图像进行相互关联以生成一个输出响应图,用于表示两个输入的目标图像通过孪生网络框架后的目标图像样本深层特征之间的相似度得分。

其中,相似度得分的公式表述为:

(2)

其中,表示两个输入的目标图像之间的相似度得分,表示值的偏差,表示实数集,表示两个输入的目标图像通过孪生网络框架后的输出特性,表示两个输入的目标图像,表示卷积嵌入函数。

对上述的通道注意力模块而言,当提取输入的目标图像的相关特征时,特征图的每个通道都表示一个特殊的检测器。因此,需要采取措施使通道注意力模块集中在某些特定特征上,以对输入的目标图像是有用的。

具体的,在所述利用所述训练好的新型骨干网络模型在所述多个目标图像中提取以得到目标图像样本深层特征的步骤中,所述通道注意力机制执行如下步骤:

a1、通过最大池化以及全局平均池化来获得两个通道的目标图像的特征。

在本发明中,输入的目标图像z的大小为"h×w×c",使用max-pooling(最大池化)和globalaverage-pooling(全局平均池化)来获得两个通道的目标图像的特征,两个通道的目标图像的特征的大小是"1×1×c"。

b1、将经过最大池化以及全局平均池化之后所获得的两个通道的目标图像的特征,输入到多层感知机网络中经元数求和后得到特征向量。

然后,将经过最大池化以及全局平均池化之后所获得的两个通道的目标图像的特征输入到一个多层感知机网络中(即mlp)。其中,第一层神经元数为c/r,激活函数为relu,第二层神经元数为c。其中,两层的神经网络参数是共享的。将元数求和后输出特征向量。

其中,特征向量为

c1、将所述特征向量通过sigmoid激活函数以得到第一权重系数,将所述第一权重系数与输入的目标图像进行相乘以得到第一加权新特征。

在本步骤中,第一权重系数表示为:

(3)

其中,为第一权重系数,表示sigmoid激活函数,表示共享多层感知机网络的权重,表示relu函数,为全局平均池化函数,为最大池化函数;

所述第一加权新特征表示为:

(4)

其中,表示第一加权新特征,表示元数级的乘法,表示输入的目标图像。

进一步的,在通道注意力模块之后,引入空间注意力模块来关注输入的目标图像中哪些特征是有意义的。具体的,在所述利用所述训练好的新型骨干网络模型在所述多个目标图像中提取以得到目标图像样本深层特征的步骤中,所述空间注意力机制执行如下步骤:

a2、通过最大池化以及全局平均池化来获得两个通道的目标图像的特征,并通过第一卷积层对两个通道的目标图像的特征进行拼接。

与通道注意力模块相似,输入的目标图像的大小为"h×w×c"。利用一个通道维度的max-pooling(最大池化)和globalaverage-pooling(全局平均池化)来得到两个通道的目标图像的特征,大小为"h×w×1",并根据一个标准的卷积层(第一卷积层)拼接在一起。

b2、将拼接后的两个通道的目标图像的特征,通过第二卷积层以及sigmoid激活函数计算得到第二权重系数。

然后,通过7×7卷积层和sigmoid激活函数得到权重系数。最后,将权重系数与输入的目标图像z'相乘,以得到第二加权新特征

其中,第二权重系数表示为:

(5)

其中,为所述第二权重系数,表示卷积核的感受域为7×7,同样表示第一加权新特征,表示sigmoid激活函数。

c2、将所述第二权重系数与所述第一加权新特征进行相乘以得到第二加权新特征。

第二加权新特征表示为:

(6)

为所述第二加权新特征。

对上述步骤s104而言,概述地来说,在测试跟踪阶段,原始的孪生网络结构中两个分支的目标图像之间的卷积特征不包含背景上下文信息。因此,跟踪器很难区分目标和复杂的背景信息,容易造成跟踪漂移和失败。基于此,利用训练好的新型骨干网络模型来提取目标图像样本深层特征,从背景信息中辨别出目标图像样本深层特征,以聚焦于重要特征从而抑制无用信息。

然后,我们给予该序列的通道注意力模块以及空间注意力模块更多的权重。通道注意力模块以及空间注意力模块在提高跟踪器的判别能力方面起着重要的作用。最终,孪生网络框架中的模板分支和搜索分支分别提取到的目标图像特征大小分别为"6×6×128"和"22×22×128"。

进一步的,在目标图像候选区域中进行相似性匹配。也即在一个密集的网格上计算所有转换子窗口的相似性,具体操作如上述公式(2)所示,也即利用卷积嵌入函数进行相互关联以生成一个输出响应图,用于表示两个输入的目标图像通过孪生网络框架后的目标图像样本深层特征之间的相似度得分。

在此需要说明的是,此处所表述的目标候选块,均是通过搜索分支得到的,对应的大小为"22×22×128"。上述的相似度得分,是将搜索分支中的目标候选块(本质上也是目标图像特征)与模板分支中的样本图像特征进行相似度比较得到的。

s105,利用获取到的最大相似度得分的目标候选块进行目标跟踪。

在本步骤中,利用获取到的最大相似度得分的目标候选块进行目标跟踪。具体包括:计算并比较目标图像样本深层特征(模板分支中)与候选目标图像样本深层特征(搜索分支中)之间的相似性,在随后的帧中找到相似度得分最高区域的目标图像定为预测的结果,从而实现目标跟踪。

本发明提出一种基于通道与空间注意力机制的孪生网络目标跟踪方法,首先对视频或图像数据集进行处理以得到统一图像大小的目标图像,然后基于卷积神经网络模型、通道注意力机制以及空间注意力机制联合构建得到新型骨干网络模型,然后从目标图像中提取训练样本,对新型骨干网络模型进行训练,再利用训练好的新型骨干网络模型在目标图像中提取以得到目标图像样本深层特征,进而在目标图像候选区域进行相似性匹配以得到对应的相似度得分,最后根据获取到的最大相似度得分的目标候选块进行目标跟踪。

本发明利用got-10k作为训练集来调整离线训练的模型参数,可更准确地表示视频中的目标;然后通过使用一种轻量级的卷积神经网络模型进行特征提取。本发明所设计的跟踪算法的表观模型,具有更好的鲁棒性与精确度。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1