本申请涉及目标识别跟踪领域,特别是涉及一种透明物体跟踪模型及其构建方法和应用。
背景技术:
1、目标跟踪是计算机视觉技术中的一个基本研究课题,目的在于定位和持续辨别视频中的物体,通常这个领域方向解决的是不透明的物体跟踪的技术问题,而透明物体的跟踪是一个探索较少的领域。虽然研究较少,但在日常生活中透明物体(如玻璃和塑料件)却很常见,对它们进行稳定跟踪的应用面挺广,比如可用于医疗过程中对玻璃瓶和注射器等物体的进行识别和跟踪;在工业制造等领域中,监控玻璃等的移动也是常规需求之一。
2、目前目标识别和跟踪透明物体仍然是非常困难的,主要是因为透明物体具有比较特别的光学特性:它们没有背景纹理,并且玻璃这类的物体还会透射或者反射光线,当这类物体移动时,由于受到物件后面背景的影响,其外观会发生巨大变化。而常用的目标跟踪技术主要从目标颜色和目标边缘图案等视觉属性中提取特征,进而使得透明物体独特的光学特点会造成基于外观的深度学习跟踪器识别困难。
3、且与特定的跟踪任务(比如行人跟踪技术或无人机跟踪技术)不同的是,透明物体的跟踪方面缺少专门的训练数据集,进而导致通过端到端训练模型的方式来提高跟踪性能也是无法实现的。有技术人员提出利用知识转移技术为通用跟踪器注入透明度知识,比如:把针对透明物体分割训练的骨干模块的特征融合到跟踪器网络中,但是由于算法网络中的特征融合可能会扰乱特征空间,进而导致简单的融合方法无法起效,进而使得该方案的可行性不高,除非对整个模型进行再训练以学习利用融合后的特征,而如前所述现有技术缺少透明物体的标注数据,进而也导致重新训练模型的方式也是无法实现的。
技术实现思路
1、本申请实施例提供了一种透明物体跟踪模型及其构建方法和应用,在不破坏特征空间的情况下将透明特征和原始特征融合并同跟踪器集成,以提高跟踪器在透明物体上的跟踪性能。
2、第一方面,本申请实施例提供了一种透明物体跟踪模型的构建方法,包括:
3、获取包含透明物体的视频序列,且视频序列中的每一视频帧内至少标注需要跟踪的透明物体,获取所述视频序列中任意三张视频帧组成一组训练样本;
4、构建透明物体跟踪模块,其中所述透明物体跟踪模块包括依次连接的透明特征提取模块、特征融合模块以及跟踪模块,其中所述透明特征提取模块包括推理特征提取网络和参考特征提取网络,其中推理特征提取网络和参考特征提取网络均由两个并行的骨干网络和预训练得到的trans2seg分割网络组成,所述trans2seg分割网络包括依次连接的主干网络和transformer编码器模块;其中所述特征融合模块包括依次连接的transformer编码器和全连接投影层,其中所述跟踪模块包括transformer编码解码器、分类头以及估算头;
5、将每组训练样本输入到透明物体跟踪模块中进行分阶段训练,其中一视频帧作为推理视频帧输入到推理特征提取网络中输出推理透明特征以及推理骨干特征,另外两视频帧作为参考视频帧输入到参考特征提取网络中输出参考透明特征以及参考骨干特征;
6、第一阶段的训练:推理透明特征和两个参考透明特征输入到特征融合模块中分别得到推理融合透明特征和两个参考融合透明特征,推理融合透明特征和两个参考融合透明特征拼接得到透明拼接特征,透明拼接特征输入到跟踪模块中被学习;
7、第二阶段的训练:推理透明特征和推理骨干特征输入到特征融合模块在每个像素位置上均发生融合得到推理融合特征,对应同一视频帧的参考透明特征和参考骨干特征输入到特征融合模块在每个像素位置上均发生融合得到第一参考融合特征和第二参考融合特征,推理融合特征、第一参考融合特征和第二参考融合特征拼接得到特征向量序列,特征向量序列输入到跟踪模块中得到推理视频帧中的预测透明物体目标;
8、根据预测透明物体目标构建损失函数并以最小化损失函数为目标训练透明物体跟踪模型。
9、第二方面,本申请实施例提供了一种透明物体跟踪方法,其特征在于,包括以下步骤:将已经标记跟踪透明物体的至少两视频帧和待推理的推理图像输入到所述的透明物体跟踪模型的构建方法构建得到的透明物体跟踪模型中,输出推理图像中的透明物体。
10、第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述的透明物体跟踪模型的构建方法或者透明物体跟踪方法。
11、第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据所述的透明物体跟踪模型的构建方法或者所述的透明物体跟踪方法。
12、本发明的主要贡献和创新点如下:
13、本申请实施例提供了一种透明物体跟踪模型及其构建方法和应用,该透明物体跟踪模型在特征提取模块中引入了预训练得到的trans2seg分割网络,通过预训练得到的trans2seg分割网络来学习理解透明物体的透明特征并采用迁移学习的方法迁移到本方案的特征提取模块中,以解决透明物体训练数据量小透明物体识别能力差的问题;改进了特征融合模块并且提出了分阶段训练的方式,在不破坏特征空间的情况下,有选择性地将透明特征与原始特征融合在一起,且通过在第一阶段切断骨干特征的馈送使得特征融合模块可以将透明特征将学习到的透明度先验信息整合到跟踪模块中,提高了透明物体跟踪识别能力。
14、本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
1.一种透明物体跟踪模型的构建方法,其特征在于,包括:
2.根据权利要求1所述的透明物体跟踪模型的构建方法,其特征在于,特征融合模块包括的transformer编码器和全连接投影层,transformer编码器由一个多头自注意模块和一个前馈网络组成,全连接投影层包括双层全连接神经网络以及位于末端的实例归一化层。
3.根据权利要求2所述的透明物体跟踪模型的构建方法,其特征在于,在第一阶段的训练时:对应同一视频帧的参考骨干特征或者推理骨干特征输入到transformer编码器中,对应的查询嵌入向量equery转换为中间特征表征finterim,利用中间特征表征finterim融合对应同一视频帧的参考骨干特征得到初步参考透明特征,利用中间特征表征finterim融合对应同一视频帧的推理骨干特征得到初步推理透明特征,全连接投影层将初步参考透明特征投影到潜在空间得到两个参考融合透明特征,将初步推理透明特征投影到潜在空间得到推理融合透明特征。
4.根据权利要求2所述的透明物体跟踪模型的构建方法,其特征在于,在第二阶段的训练时:对应同一视频帧的参考骨干特征和参考透明特征或者同一组推理骨干特征和推理透明特征输入到transformer编码器中,对应的查询嵌入向量equery转换为中间特征表征finterim,利用中间特征表征finterim融合对应同一视频帧的参考骨干特征和参考透明特征得到初步参考融合特征,利用中间特征表征finterim融合对应同一视频帧的推理骨干特征和推理透明特征得到初步推理融合特征,全连接投影层将初步参考融合特征投影到潜在空间得到第一参考融合特征和第二参考融合特征,将初步推理融合特征投影到潜在空间得到推理融合特征。
5.根据权利要求1所述的透明物体跟踪模型的构建方法,其特征在于,在“推理融合特征、第一参考融合特征和第二参考融合特征拼接得到特征向量序列”步骤前,将参考视频帧中的透明物体的边框标签以及目标位置标签进行编码得到对应参考视频帧的标签特征,将标签特征加入到对应参考视频帧的第一参考融合特征或第二参考融合特征中。
6.根据权利要求1所述的透明物体跟踪模型的构建方法,其特征在于,在“推理融合透明特征和两个参考融合透明特征拼接得到透明拼接特征”步骤前,将参考视频帧中的透明物体的边框标签以及目标位置标签进行编码得到对应参考视频帧的标签特征,将标签特征加入到对应参考视频帧的参考融合透明特征。
7.一种透明物体跟踪方法,其特征在于,包括以下步骤:将已经标记跟踪透明物体的至少两视频帧和待推理的推理图像输入到权利要求1到6任一所述的透明物体跟踪模型的构建方法构建得到的透明物体跟踪模型中,输出推理图像中的透明物体。
8.根据权利要求7所述的透明物体跟踪方法,其特征在于,参考图像经过特征提取模块后获取参考透明特征和参考骨干特征,推理图像经过特征提取模块后获取推理透明特征和推理骨干特征,参考透明特征和参考骨干特征在特征融合模块中融合得到参考融合特征,推理透明特征和推理骨干特征在特征融合模块中融合得到推理融合特征,参考图像中的透明物体的目标状态编码同参考融合特征进行结合后同推理融合特征拼接得到特征向量序列,跟踪模块对特征向量序列进行推理得到推理图像中的透明物体。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1到6任一所述的透明物体跟踪模型的构建方法或者权利要求7所述的透明物体跟踪方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1到6任一所述的透明物体跟踪模型的构建方法或者权利要求7所述的透明物体跟踪方法。