本公开涉及计算机视觉、图像处理、深度学习等人工智能,可应用于自动驾驶、智慧城市等场景。
背景技术:
1、自动驾驶技术中,需要对车辆周边的物体进行识别和跟踪,从而为后续的物体轨迹预测和车辆控制提供依据。
2、现有的物体跟踪技术,主要是基于图像或雷达点云来识别和跟踪物体。但是,对于物体遮挡情况的处理都相对较差,影响了物体跟踪的准确性。
技术实现思路
1、本公开提供了一种物体跟踪方法、跟踪模型训练方法、装置、设备和介质。
2、根据本公开的一方面,提供了一种物体跟踪模型的训练方法,包括:
3、获取用于训练物体跟踪模型的多个样本视频,每个所述样本视频包括至少两个视频帧;
4、在任一视频帧作为当前视频帧,对所述物体跟踪模型进行训练的过程中,将所述当前视频帧的图像数据和初始化的物体特征向量,输入所述物体跟踪模型,以输出识别到的物体,作为物体识别结果;其中,所述当前视频帧的初始化的物体特征向量,为基于至少一个历史视频帧中已识别物体的物体特征向量确定的;
5、根据所述物体识别结果,基于预设损失函数对所述物体跟踪模型进行更新。
6、根据本公开的另一方面,提供了一种物体跟踪方法,包括:
7、获取通过至少一个摄像头采集到的输入视频;其中,每个摄像头采集至少两个视频帧;
8、将所述输入视频,输入本公开任一实施例所提供的物体跟踪模型的训练方法所训练得到的物体跟踪模型,以输出从所述输入视频中识别到的物体跟踪结果。
9、根据本公开的另一方面,提供了一种物体跟踪模型的训练装置,包括:
10、样本视频获取模块,用于获取用于训练物体跟踪模型的多个样本视频,每个所述样本视频包括至少两个视频帧;
11、物体识别模块,用于在任一视频帧作为当前视频帧,对所述物体跟踪模型进行训练的过程中,将所述当前视频帧的图像数据和初始化的物体特征向量,输入所述物体跟踪模型,以输出识别到的物体,作为物体识别结果;其中,所述当前视频帧的初始化的物体特征向量,为基于至少一个历史视频帧中已识别物体的物体特征向量确定的;
12、模型更新模块,用于根据所述物体识别结果,基于预设损失函数对所述物体跟踪模型进行更新。
13、根据本公开的另一方面,提供了一种物体跟踪装置,包括:
14、输入视频获取模块,用于获取通过至少一个摄像头采集到的输入视频;其中,每个摄像头采集至少两个视频帧;
15、物体跟踪模块,用于将所述输入视频,输入本公开任一实施例所提供的物体跟踪模型的训练方法所训练得到的物体跟踪模型,以输出从所述输入视频中识别到的物体跟踪结果。
16、根据本公开的另一方面,提供了一种电子设备,包括:
17、至少一个处理器;以及
18、与所述至少一个处理器通信连接的存储器;其中,
19、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所提供的物体跟踪模型的训练方法或本公开任一实施例所提供的物体跟踪方法。
20、根据本公开的另一方面,提供了存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开任一实施例所提供的物体跟踪模型的训练方法或本公开任一实施例所提供的物体跟踪方法。
21、根据本公开的另一方面,提供了计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现根据本公开任一实施例所提供的物体跟踪模型的训练方法或本公开任一实施例所提供的物体跟踪方法。
22、本公开实施例的技术方案,能够在物体跟踪模型的训练过程中,引入基于历史已识别物体的物体特征所确定的物体特征向量,参与对物体进行识别的过程,使得物体识别结果更加准确。
23、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种物体跟踪模型的训练方法,包括:
2.根据权利要求1所述的方法,其中,所述物体特征向量中的每个向量值,用于表征每个物体的物体特征,所述当前视频帧的初始化的物体特征基于所述物体在至少一个视频帧中的物体特征,采用设定融合方法而确定。
3.根据权利要求2所述的方法,其中,所述设定融合方法为自注意力交互方法。
4.根据权利要求2所述的方法,其中,所述当前视频帧的初始化的物体特征向量的确定过程包括:
5.根据权利要求4所述的方法,其中,根据所述物体识别结果,基于预设损失函数对所述物体跟踪模型进行更新包括:
6.根据权利要求1-5任一所述的方法,其中,所述物体跟踪模型包括骨干网络、编码模块、物体特征向量和解码模块;将所述当前视频帧的图像数据和初始化物体特征向量,输入所述物体跟踪模型,以输出识别到的物体,作为物体识别结果包括:
7.根据权利要求6所述的方法,其中,所述物体跟踪模型为transformer模型,所述物体特征向量作为输入所述解码模块的搜索向量,所述图像隐层向量分别作为输入所述解码模块的键向量和值向量。
8.根据权利要求6所述的方法,将所述当前视频帧通过所述骨干网络提取的图像特征,输入编码模块中之前,还包括:
9.根据权利要求8所述的方法,其中,将所述当前视频帧的三维空间特征和图像特征进行融合,以形成空间图像特征包括:
10.根据权利要求6所述的方法,将所述当前视频帧通过所述骨干网络提取的图像特征,输入编码模块中之前,还包括:
11.根据权利要求8或10所述的方法,其中,所述物体特征向量中的物体特征为物体在三维空间坐标系下的位置特征。
12.根据权利要求8或10所述的方法,还包括:
13.根据权利要求12所述的方法,其中,根据拍摄所述当前视频帧的摄像头的内参外参矩阵,确定所述当前视频帧中图像像素点所对应的三维空间特征包括:
14.根据权利要求10所述的方法,还包括:
15.根据权利要求6所述的方法,其中,根据所述解码模块的输出数据识别所述当前视频帧中的物体,作为物体识别结果包括:
16.根据权利要求15所述的方法,其中,所述三维包围框数据包括物体的长度、宽度、高度、中心点三维坐标和朝向角,所述朝向角为物体相对于标准坐标轴的夹角。
17.根据权利要求15所述的方法,其中,所述预设损失函数包括三维检测损失函数;所述三维检测损失函数包括中心点回归损失、长宽高回归损失和朝向角回归损失之和;其中,所述中心点回归损失、长宽高回归损失和朝向角回归损失均采用l1损失。
18.根据权利要求15所述的方法,其中,所述三维属性输出头包括两个多层感知机,分别用于识别物体类别和物体的三维包围框数据。
19.根据权利要求6所述的方法,其中,根据所述解码模块的输出数据识别所述当前视频帧中的物体,作为物体识别结果包括:
20.根据权利要求19所述的方法,其中,所述速度特征为所述物体在单位时间内,位于水平面内两个垂直轴向的偏移距离。
21.根据权利要求19所述的方法,其中,所述预设损失函数包括跟踪损失函数,所述跟踪损失函数包括外观特征损失和速度回归损失之和;其中,所述外观特征损失采用交叉熵分类损失,所述速度回归损失采用l1损失。
22.根据权利要求19所述的方法,其中,所述跟踪属性输出头包括两个多层感知机,分别用于识别外观特征和速度特征。
23.根据权利要求6所述的方法,其中,根据所述解码模块的输出数据识别所述当前视频帧中的物体,作为物体识别结果包括:
24.根据权利要求23所述的方法,其中,根据所述物体的物体类别、三维包围框数据、外观特征和速度特征,进行物体识别,作为物体识别结果包括:
25.根据权利要求24所述的方法,其中,根据所述当前帧物体的速度特征和三维包围框数据,以及所述历史帧物体的位置和三维包围框数据,确定所述当前帧物体与历史帧物体之间的运动相似度包括:
26.根据权利要求25所述的方法,根据所述当前帧物体的速度特征,预测所述历史帧物体在当前视频帧中的预测位置之前,还包括:
27.根据权利要求24所述的方法,其中,根据所述当前帧物体的物体类别和外观特征,以及所述历史帧物体的物体类别和外观特征,确定所述当前帧物体与历史帧物体之间的外观相似度包括:
28.根据权利要求24所述的方法,其中,根据所述运动相似度和所述外观相似度确定所述当前帧物体与历史帧物体之间的总相似度包括:
29.根据权利要求24所述的方法,将所述当前帧物体与历史帧物体进行关联之后,还包括:
30.根据权利要求24所述的方法,其中,根据所述当前帧物体与历史帧物体之间的总相似度,将所述当前帧物体与历史帧物体进行关联,作为所述物体识别结果包括:
31.根据权利要求1所述的方法,其中,所述样本视频采用安装在车身周围的多个环视摄像头进行采集,所述视频帧为rgb图像。
32.一种物体跟踪方法,包括:
33.根据权利要求32所述的方法,其中,所述摄像头的数量为多个,分别为安装在车身周围的环视摄像头。
34.一种物体跟踪模型的训练装置,包括:
35.根据权利要求34所述的装置,其中,所述物体特征向量中的每个向量值,用于表征每个物体的物体特征,所述当前视频帧的初始化的物体特征基于所述物体在至少一个视频帧中的物体特征,采用设定融合方法而确定。
36.根据权利要求35所述的装置,其中,所述设定融合方法为自注意力交互方法。
37.根据权利要求35所述的装置,还包括物体特征向量初始化模块,用于确定所述当前视频帧的初始化的物体特征向量,所述物体特征向量初始化模块包括:
38.根据权利要求37所述的装置,其中,所述模型更新模块具体用于:
39.根据权利要求34-38任一所述的装置,其中,所述物体跟踪模型包括骨干网络、编码模块、物体特征向量和解码模块;所述物体识别模块包括:
40.根据权利要求39所述的装置,其中,所述物体跟踪模型为transformer模型,所述物体特征向量作为输入所述解码模块的搜索向量,所述图像隐层向量分别作为输入所述解码模块的键向量和值向量。
41.根据权利要求39所述的装置,还包括:
42.根据权利要求41所述的装置,其中,空间图像融合模块具体用于:
43.根据权利要求39所述的装置,还包括:
44.根据权利要求41或43所述的装置,其中,所述物体特征向量中的物体特征为物体在三维空间坐标系下的位置特征。
45.根据权利要求41或43所述的装置,还包括:
46.根据权利要求45所述的装置,其中,空间特征记录模块具体用于:
47.根据权利要求43所述的装置,还包括:
48.根据权利要求39所述的装置,其中,所述物体识别单元具体用于:
49.根据权利要求48所述的装置,其中,所述三维包围框数据包括物体的长度、宽度、高度、中心点三维坐标和朝向角,所述朝向角为物体相对于标准坐标轴的夹角。
50.根据权利要求48所述的装置,其中,所述预设损失函数包括三维检测损失函数;所述三维检测损失函数包括中心点回归损失、长宽高回归损失和朝向角回归损失之和;其中,所述中心点回归损失、长宽高回归损失和朝向角回归损失均采用l1损失。
51.根据权利要求48所述的装置,其中,所述三维属性输出头包括两个多层感知机,分别用于识别物体类别和物体的三维包围框数据。
52.根据权利要求39所述的装置,其中,所述物体识别单元具体用于:
53.根据权利要求52所述的装置,其中,所述速度特征为所述物体在单位时间内,位于水平面内两个垂直轴向的偏移距离。
54.根据权利要求52所述的装置,其中,所述预设损失函数包括跟踪损失函数,所述跟踪损失函数包括外观特征损失和速度回归损失之和;其中,所述外观特征损失采用交叉熵分类损失,所述速度回归损失采用l1损失。
55.根据权利要求52所述的装置,其中,所述跟踪属性输出头包括两个多层感知机,分别用于识别外观特征和速度特征。
56.根据权利要求39所述的装置,其中,所述物体识别单元包括:
57.根据权利要求56所述的装置,其中,所述物体识别子单元包括:
58.根据权利要求57所述的装置,其中,运动相似度确定子单元具体用于:
59.根据权利要求58所述的装置,还包括:
60.根据权利要求57所述的装置,其中,外观相似度确定子单元具体用于:
61.根据权利要求57所述的装置,其中,总相似度确定子单元具体用于:
62.根据权利要求57所述的装置,还包括:
63.根据权利要求57所述的装置,其中,物体关联子单元具体用于:
64.根据权利要求34所述的装置,其中,所述样本视频采用安装在车身周围的多个环视摄像头进行采集,所述视频帧为rgb图像。
65.一种物体跟踪装置,包括:
66.根据权利要求65所述的装置,其中,所述摄像头的数量为多个,分别为安装在车身周围的环视摄像头。
67.一种电子设备,包括:
68.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-31中任一项所述的物体跟踪模型的训练方法或权利要求32或33所述的物体跟踪方法。