对象匹配方法、装置、电子设备及计算机可读存储介质与流程

文档序号:31688004发布日期:2022-09-30 21:35阅读:48来源:国知局
对象匹配方法、装置、电子设备及计算机可读存储介质与流程

1.本技术涉及图像处理技术领域,具体而言,本技术涉及一种对象匹配方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.目前,随着互联网技术的发展,在一些场景中需要对一个视频序列中出现的一个或多个对象进行匹配,来得到一个或多个对象的轨迹。例如,在通过对象匹配来实现目标追踪场景中,大部分追踪方案,以行人或者车辆为例,当场景中出现相似外观的行人或者车辆时,由于获取到的行人或者车辆的外观特征较为相似,因此在追踪过程中极易发生追踪错误的情况。
3.例如,目标a与目标b外观相似,在后续追踪中容易把a追踪到b的轨迹中,该情况会降低目标追踪的准确率。也就是说,现有技术中,在进行目标追踪时,存在目标匹配准确性低的问题,会导致目追踪准确率低的问题。


技术实现要素:

4.本技术提供了一种对象匹配方法、装置、电子设备及计算机可读存储介质,提高了对象匹配的准确率。
5.根据本技术的一个方面,提供了一种对象匹配方法,该方法包括:
6.获取当前时刻的待识别图像;
7.识别上述待识别图像中的各第一对象,并提取各上述第一对象的当前对象特征,其中,上述当前对象特征包括当前位置特征和当前表观特征;
8.获取各第二对象的历史对象特征,其中,上述历史对象特征包括历史运动特征和历史表观特征,上述各第二对象是从上述待识别图像之前的至少一帧历史图像中识别出的对象,上述历史对象特征是基于上述待识别图像之前的至少一帧历史图像确定的;
9.对于任一上述第一对象和任一上述第二对象,根据上述第一对象的上述当前对象特征和上述第二对象的历史对象特征,确定上述第一对象和上述第二对象的匹配度;
10.对于每一上述第二对象,基于各上述第一对象与上述第二对象的匹配度,从各上述第一对象中确定与上述第二对象相匹配的目标对象。
11.根据本技术的另一个方面,提供了一种对象匹配装置,该装置包括:
12.待识别图像获取模块,用于获取当前时刻的待识别图像;
13.当前对象特征提取模块,用于识别上述待识别图像中的各第一对象,并提取各上述第一对象的当前对象特征,其中,上述当前对象特征包括当前位置特征和当前表观特征;
14.历史对象特征获取模块,用于获取各第二对象的历史对象特征,其中,上述历史对象特征包括历史运动特征和历史表观特征,上述各第二对象是从上述待识别图像之前的至少一帧历史图像中识别出的对象,上述历史对象特征是基于上述待识别图像之前的至少一帧历史图像确定的;
15.对象匹配模块,用于对于任一上述第一对象和任一上述第二对象,根据上述第一对象的上述当前对象特征和上述第二对象的历史对象特征,确定上述第一对象和上述第二对象的匹配度;
16.目标对象确定模块,用于基于各上述第一对象与上述第二对象的匹配度,从各上述第一对象中确定与上述第二对象相匹配的目标对象。
17.在一种可选的实施例中,上述目标对象确定模块,用于:
18.将各上述第一对象与上述第二对象的匹配度中大于或等于预定阈值的匹配度对应的第一对象,确定为与上述第二对象匹配的各候选匹配对象;
19.将上述各候选匹配对象中与上述第二对象匹配度最高的候选匹配对象,确定为与上述第二对象相匹配的目标对象。
20.在一种可选的实施例中,上述对象匹配模块,还用于:
21.若基于上述第一对象和上述第二对象的匹配度,确定上述第一对象和上述第二对象不匹配,则记录上述第一对象的当前对象特征,以将记录的上述第一对象的当前对象特征作为上述当前时刻的下一时刻的历史对象特征。
22.在一种可选的实施例中,上述对象匹配模块,用于:
23.基于上述第一对象的当前位置特征和上述第二对象的历史运动特征,确定上述第一对象和上述第二对象对应的位置匹配度;
24.根据上述第一对象的当前表观特征和上述第二对象的历史表观特征,确定上述第一对象和上述第二对象的表观匹配度;
25.根据上述位置匹配度和上述表观匹配度,确定上述第一对象和上述第二对象的匹配度。
26.在一种可选的实施例中,上述对象匹配模块,用于:
27.基于上述第二对象的历史运动特征通过轨迹预测算法预测上述第二对象当前时刻的位置特征;
28.根据预测得到的上述第二对象的位置特征和上述第一对象的当前位置特征,确定上述位置匹配度。
29.在一种可选的实施例中,上述对象匹配模块,用于:
30.获取上述位置匹配度对应的第一权重,以及上述表观匹配度对应的第二权重;
31.根据上述第一权重对上述位置匹配度进行加权,得到加权后的位置匹配度;
32.根据上述第二权重对上述表观匹配度进行加权,得到加权后的表观匹配度;
33.将上述加权后的位置匹配度和上述加权后的表观匹配度求和,得到上述第一对象和上述第二对象的匹配度。
34.在一种可选的实施例中,对于任意一个上述第二对象,上述第二对象的历史运动特征是基于上述当前时刻之前的至少一帧目标图像中提取的上述第二对象的位置特征确定的,上述目标图像为当前时刻之前的包含上述第二对象的图像,上述至少一帧目标图像包括各目标图像中距离当前时刻最近的目标图像;
35.上述第二对象的历史表观特征是基于上述至少一帧目标图像中提取的上述第二对象的表观特征确定的。
36.在一种可选的实施例中,上述当前对象特征提取模块,用于:
37.根据上述第一对象的当前位置特征,将上述待识别图像中上述第一对象的当前位置特征所对应的图像区域输入至特征提取网络,通过上述特征提取网络得到上述第一对象的当前表观特征;
38.其中,上述特征提取网络是通过训练模块通过以下方式对神经网络模型训练得到的:
39.获取训练数据集,上述训练数据集包括各带有标注标签的训练样本,每个上述训练样本包括图像对,上述标注标签表征了上述图像对中包含的对象之间的第一匹配度;
40.将各上述训练样本输入至上述神经网络模型;
41.对于每一上述训练样本,上述神经网络模型的输出为上述训练样本包含的图像对分别对应的图像特征;
42.对于每一上述训练样本,计算上述训练样本包含的图像对分别对应的图像特征之间的匹配度,得到上述训练样本对应的第二匹配度;
43.通过各上述训练样本所对应的上述第一匹配度和上述第二匹配度,计算损失函数;
44.若上述损失函数收敛,则将收敛时的神经网络模型作为上述特征提取网络;
45.若上述损失函数未收敛,则调整上述神经网络模型的模型参数,并基于各上述训练样本对上述神经网络模型继续进行训练,直至上述神经网络模型对应的损失函数收敛,将收敛时的神经网络模型作为上述特征提取网络。
46.在一种可选的实施例中,上述训练数据集包括多个正训练样本和多个负训练样本,其中,上述正训练样本的图像对是包含同一对象的不完全相同的两张图像,上述负训练样本的图像对是包含不同对象的两张图像。
47.根据本技术的另一个方面,提供了一种电子设备,该电子设备包括处理器和存储器,该处理器和存储器相互连接;
48.上述存储器用于存储计算机程序;
49.上述处理器被配置用于在调用上述计算机程序时,执行上述对象匹配方法的任一可选实施方式所提供的方法。
50.一方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现上述对象匹配方法的任一种可能的实施方式所提供的方法。
51.本技术提供的技术方案带来的有益效果是:
52.本技术实施例所提供的对象匹配方法、装置、电子设备及存储介质,对于获取到的当前时刻的待识别图像,可以识别并提取待识别图像中的各第一对象的当前对象特征。然后,获取当前时刻之前的历史图像中的各第二对象的历史对象特征。对于任一第一对象和任一第二对象,可以根据第一对象的当前对象特征和第二对象的历史对象特征,确定出第一对象和第二对象的匹配度,然后对于每一第二对象,根据各第一对象与第二对象的匹配度,从各第一对应中确定出与第二对象相匹配的目标对象。上述方案中,在对当前时刻的待识别图像中的第一对象进行识别追踪的过程中,是通过当前时刻的第一对象的当前对象特征和历史图像中的第二对象的历史对象特征,采用计算匹配度的方式来确定各第一对象中与第二对象相匹配的目标对象的,在这个过程中,通过当前位置特征和历史运动特征,能够
在对象匹配时使用对象的运动特征信息,通过当前表观特征和历史表观特征,能够在对象匹配时使用对象的表观特征信息,即可以同时使用运动特征和表观特征这两个维度的信息,通过运动追踪和表观特征分析,提高了对象匹配的准确率,进而提高了对目标进行追踪识别的准确率。
附图说明
53.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
54.图1为本技术实施例所适用的一种对象识别系统的结构示意图;
55.图2为本技术实施例提供的一种对象匹配方法的流程示意图;
56.图3为本技术实施例提供的一种特征提取网络的结构示意图;
57.图4为本技术实施例提供的另一种对象匹配方法的流程示意图;
58.图5为本技术实施例提供的一种对象匹配装置的结构示意图;
59.图6为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
60.下面详细描述本技术的实施例,上述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本技术的限制。
61.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在上述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
62.根据本发明实施例的一个方面,提供了一种对象匹配方法。为了更好的理解和说明本技术实施例所提供的方案,下面首先结合一个具体的实施例对本技术所提供的可选实施方案进行说明。
63.作为一个示例,图1中示出了本技术实施例所适用的一种对象识别系统的结构示意图,可以理解的是,本技术实施例所提供的对象匹配方法可以适用于但不限于应用于如图1所示的应用场景中。
64.本示例中,如图1所示,该示例中的对象识别系统可以包括但不限于图像采集设备101、网络102、服务器103。图像采集设备101可以通过网络102与服务器103通信,图像采集设备101可以通过网络向服务器103发送待识别图像。
65.如图1所示,本技术中的对象匹配方法的具体实现过程可以包括步骤s1-s5:
66.步骤s1,通过一个或多个图像采集设备101采集一个视频序列,获取该视频序列中当前时刻的待识别图像,并通过网络102将待识别图像发送至服务器103。
67.步骤s2,服务器103识别上述待识别图像中的各第一对象,并提取各上述第一对象
的当前对象特征,其中,上述当前对象特征包括当前位置特征和当前表观特征。
68.步骤s3,服务器103获取各第二对象的历史对象特征,其中,上述历史对象特征包括历史运动特征和历史表观特征,上述各第二对象是从上述待识别图像之前的至少一帧历史图像中识别出的对象,上述历史对象特征是基于上述待识别图像之前的至少一帧历史图像确定的;
69.步骤s4,对于任一上述第一对象和任一上述第二对象,服务器103根据上述第一对象的上述当前对象特征和上述第二对象的历史对象特征,确定上述第一对象和上述第二对象的匹配度;
70.步骤s5,对于每一上述第二对象,服务器103基于各上述第一对象与上述第二对象的匹配度,从各上述第一对象中确定与上述第二对象相匹配的目标对象。
71.可理解,上述仅为一种示例,本实施例在此不作限定。本技术实施例所提供的方案适用于任何需要进行对象匹配的应用场景中,如可以包括但不限于识别一个视频序列中包含同一对象的各视频帧,或者,对视频序列中的一个或多个对象进行对象匹配,实现对一个或多个对象的追踪,基于本技术实施例所提供的方案,能够有效提高对象匹配的准确率。
72.其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、wi-fi及其他实现无线通信的网络。图像采集设备可以是摄像机,具有摄像功能的智能手机(如android手机、ios手机等)、平板电脑、笔记本电脑、mid(mobile internet devices,移动互联网设备)、pda(个人数字助理)、台式计算机、车载终端(例如车载导航终端、车载电脑等)等,图像采集设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,但并不局限于此。具体也可基于实际应用场景需求确定,在此不作限定。
73.下面以具体的实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
74.参见图2,图2是本技术实施例提供的一种对象匹配方法的流程示意图,该方法可以由任一电子设备执行,如图2所示,本技术实施例提供的对象匹配方法包括如下步骤:
75.步骤s201,获取当前时刻的待识别图像;
76.步骤s202,识别上述待识别图像中的各第一对象,并提取各上述第一对象的当前对象特征,其中,上述当前对象特征包括当前位置特征和当前表观特征;
77.步骤s203,获取各第二对象的历史对象特征,其中,上述历史对象特征包括历史运动特征和历史表观特征,上述各第二对象是从上述待识别图像之前的至少一帧历史图像中识别出的对象,上述历史对象特征是基于上述待识别图像之前的至少一帧历史图像确定的;
78.步骤s204,对于任一上述第一对象和任一上述第二对象,根据上述第一对象的上述当前对象特征和上述第二对象的历史对象特征,确定上述第一对象和上述第二对象的匹
配度;
79.步骤s205,对于每一上述第二对象,基于各上述第一对象与上述第二对象的匹配度,从各上述第一对象中确定与上述第二对象相匹配的目标对象。
80.可选的,本技术中的对象匹配方法可应用于对象(也可以称为目标)追踪的场景中,对于对象的类型不作限定,可以是人、动物、车辆等各种类型的目标。
81.上述获取到的待识别图像可以是电子设备本地存储的视频序列中的图像,也可以是实时采集的视频序列中的图像,在此不作限定。对该待识别图像进行目标检测,确定出该待识别图像中存在的各第一对象,并确定出各第一对象所在的图像区域的位置、以及识别出各第一对象的类别(如人、动物、车辆等其他类别)。
82.然后,对待识别图像进行特征提取,识别出该待识别图像中所包含的各对象(可能是一个,有可能是多个),并提取得到该待识别图像中各第一对象的当前对象特征。其中,当前对象特征可以包括当前位置特征和当前表观特征。
83.其中,对于对象特征的具体提取方式本技术实施例不做限定,如可以采用神经网络实现,也可以是其它方式。可选的,当前位置特征可以通过目标检测中的检测框所在的位置得到。当前表观特征可以通过预先训练好的特征提取网络得到。对于特征提取网络的描述详见后文。
84.当前位置特征表征了第一对象的在待识别图像中的位置特征,如第一对象在待识别图像中的坐标信息,当前表观特征表征了对象本身的表观信息,该表观信息包括但不限于视觉信息,如表观特征可以表征对象的姿态、形状、颜色、纹理等信息中的一项或多项。
85.上述历史对象特征指的则是基于当前时刻的待识别图像之前的包含了第二对象的至少一帧历史图像提取得到的,其中,该历史对象特征包括历史运动特征和历史表观特征。其中,对于任一第二对象,历史运动特征表征了该第二对象在当前时刻之前的连续的运动轨迹信息,其中,历史运动特征可以是包含了第二对象的最近一帧历史图像中第二对象的位置特征,也可以是包含了第二对象的至少一帧历史图像中第二对象的各个位置特征得到的轨迹。
86.对于任一第二对象,历史表观特征是由待识别图像之前的至少一帧图像确定的,表征该第二对象本身的表观信息,如姿态、形状、颜色、纹理等信息。
87.在一种可能的实现方式中,对于任一上述第二对象,上述第二对象的历史运动特征是基于上述当前时刻之前的至少一帧目标图像中提取的上述第二对象的位置特征确定的,上述目标图像为当前时刻之前的包含上述第二对象的图像,上述至少一帧目标图像包括各目标图像中距离当前时刻最近的目标图像;
88.上述第二对象的历史表观特征是基于上述至少一帧目标图像中提取的上述第二对象的表观特征确定的。
89.可选的,对于任意一个第二对象,该第二对象的历史运动特征对应的历史图像中,至少包含了与当前时刻最近且包含了该第二图像的一帧历史图像,还可以包含除了该图像的其他包含了第二对象的历史图像,那么,该第二对象的历史运动特征即为该包含了第二对象的最近一帧历史图像和/或其他历史图像中的第二对象的运动特征。
90.对于任一第二对象,第二对象的历史表观特征可以基于对包含了第二对象的至少一帧历史图像进行特征提取所得到。例如,第二对象的历史表观特征可以是对包含了第二
对象的最近一帧图像进行特征提取得到,或者,基于对出现了第二对象的第一帧图像进行特征提取得到,或者,获取包含了部分或全部的第二对象的历史图像,对该历史图像中第二对象所在的图像区域进行特征提取,得到第二对象分别对应的各个特征,将提取到的各个特征进行特征融合,得到融合特征,该融合特征即为该第二对象的历史表观特征,在此不作限定。
91.然后,为了将当前时刻获取到的各第一对象与当前时刻之前出现的各第二对象分别对应匹配,实现对象追踪,可以采用将每一第一对象分别与各第二对象一一匹配,确定与每个第二对象匹配的同一第一对象,若未匹配到,则记录新出现的第一对象。
92.具体地,对于任一第一对象和第二对象,可以根据第一对象的当前对象特征和第二对象的历史对象特征,确定该第一对象和第二对象的匹配度,如果该匹配度大于或等于预定阈值,则表明该第一对象和第二对象的相似度较高,可以将该第一对象作为该第二对象的一个候选匹配对象,对于每个第二对象,均可以按照这种一一匹配的方式,确定出每个第二对象的一个或多个候选匹配对象,然后从这些候选匹配对象中确定出与该第二对象相匹配的目标对象。
93.在一种可选的实施例中,上述基于各上述第一对象与上述第二对象的匹配度,从各上述第一对象中确定与上述第二对象相匹配的目标对象,包括:
94.将各上述第一对象与上述第二对象的匹配度中大于或等于预定阈值的匹配度对应的第一对象,确定为与上述第二对象匹配的各候选匹配对象;
95.将上述各候选匹配对象中与上述第二对象匹配度最高的候选匹配对象,确定为与上述第二对象相匹配的目标对象。
96.可选的,对于每一第二对象,可以确定与该第二对象的匹配度大于或等于预设阈值的各候选匹配对象,然后,从这些候选匹配对象中,选择出与该第二对象匹配度最高的一个候选匹配对象,将该匹配度最高的一个候选匹配对象作为与第二对象相匹配的目标对象,可理解,该目标对象与第二对象是同一个对象。
97.举例来说,假设当前时刻的待识别对象中的各第一对象分别为对象1、对象2、对象3,当前时刻之前的历史图像中的各第二对象分别为对象4、对象5、对象6。以对象1为例,将对象1的当前对象特征分别与对象4、对象5、对象6分别对应的历史对象特征进行匹配,分别得到对应的匹配度1、匹配度2、匹配度3,若匹配度1、匹配度2、匹配度3中只有匹配度2大于或等于预定阈值,表明对象1和对象5为同一对象。若匹配度1、匹配度2、匹配度3中均小于预定阈值,则表明该对象1为新出现的对象,在当前时刻之前的历史图像中未出现过该对象1。
98.通过本技术实施例,在对当前时刻的待识别图像中的第一对象进行识别追踪的过程中,是通过当前时刻的第一对象的当前对象特征和历史图像中的第二对象的历史对象特征,采用计算匹配度的方式来确定各第一对象中与第二对象相匹配的目标对象,在这个过程中,通过当前位置特征和历史运动特征,能够在对象匹配时使用对象的运动特征信息,通过当前表观特征和历史表观特征,能够在对象匹配时使用对象的表观特征信息,即可以同时使用运动特征和表观特征这两个维度的信息,通过运动追踪和表观特征分析,提高了对象匹配的准确率,进而提高了对目标进行追踪识别的准确率。
99.在一种可能的实现方式中,还包括:
100.若基于上述第一对象和上述第二对象的匹配度,确定上述第一对象和上述第二对
象不匹配,则记录上述第一对象的当前对象特征,以将记录的上述第一对象的当前对象特征作为上述当前时刻的下一时刻的历史对象特征。
101.可选的,对于当前时刻的待识别图像中的任一第一对象和历史图像中的任一第二对象,按照前文描述,通过第一对象的当前对象特征和第二对象的历史对象特征,可以得到该第一对象和该第二对象之间的匹配度,若该匹配度大于或等于预设阈值,则表明该第一对象是第二对象的候选匹配对象。在实际应用中,若第一对象和第二对象之间的匹配度小于预设阈值,表明该第一对象和该第二对象之间不匹配,若该第一对象与全部的第二对象均不匹配,则表明该第一对象是待识别图像中新出现的对象,需要记录该第一对象的当前对象特征,并将记录的该第一对象的当前对象特征作为当前时刻的下一时刻的历史对象特征。
102.通过本技术实施例,若该第一对象与全部的第二对象均不匹配,则可以将新出现的第一对象的当前对象特征记录,并将该第一对象的当前对象特征作为历史对象特征,应用到下一时刻的目标追踪中,提高了目标追踪中信息记录的完整性。
103.在一种可能的实现方式中,上述根据上述第一对象的上述当前对象特征和上述第二对象的历史对象特征,确定上述第一对象和上述第二对象的匹配度,包括:
104.基于上述第一对象的当前位置特征和上述第二对象的历史运动特征,确定上述第一对象和上述第二对象对应的位置匹配度;
105.根据上述第一对象的当前表观特征和上述第二对象的历史表观特征,确定上述第一对象和上述第二对象的表观匹配度;
106.根据上述位置匹配度和上述表观匹配度,确定上述匹配度。
107.可选的,在计算第一对象和第二对象的匹配度时,可以按照以下方式确定:
108.基于该第一对象的当前位置特征和该第二对象的历史运动特征,确定该第一对象和第二对象之间的位置匹配度。根据该第一对象的当前表观特征和第二对象的历史表观特征,确定该第一对象和第二兑现之间的表观匹配度。
109.在一示例中,可以基于该位置匹配度和表观匹配度,确定出该第一对象和第二对象的匹配度。
110.在一可能的实施例中,上述根据上述位置匹配度和上述表观匹配度,确定上述第一对象和上述第二对象的匹配度,包括:
111.获取上述位置匹配度对应的第一权重,以及上述表观匹配度对应的第二权重;
112.根据上述第一权重对上述位置匹配度进行加权,得到加权后的位置匹配度;
113.根据上述第二权重对上述表观匹配度进行加权,得到加权后的表观匹配度;
114.将上述加权后的位置匹配度和上述加权后的表观匹配度求和,得到上述第一对象和上述第二对象的匹配度。
115.在实际应用中,不同维度的信息的重要程度通常是不同的,因此,在进行对象匹配时,位置匹配度对应的第一权重和表观匹配度对应第二权重的重要程度可能是不同的,其中,第一权重和第二权重的具体取值可以根据实际应用场景进行配置的,可以根据实验值和/或经验值进行配置。
116.可以基于该位置匹配度对应的第一权重对位置匹配度进行加权,得到加权后的位置匹配度,基于该表观匹配度对应的第二权重对表观匹配度进行加权,得到加权后的表观
匹配度,然后将加权后的位置匹配度和加权后的表观匹配度进行求和,确定出该第一对象和第二对象的匹配度。
117.通过本技术实施例,可以通过分别计算位置匹配度和表观匹配度的方式,然后融合位置匹配度和表观匹配度来确定出第一对象和第二对象之间的匹配度,提高了确定匹配度的效率。
118.在一种可能的实现方式中,上述基于上述第一对象的当前位置特征和上述第二对象的历史运动特征,确定上述第一对象和上述第二对象对应的位置匹配度,包括:
119.基于上述第二对象的历史运动特征通过轨迹预测算法预测上述第二对象当前时刻的位置特征;
120.根据预测得到的上述第二对象的位置特征和上述第一对象的当前位置特征,确定上述位置匹配度。
121.可选的,在确定位置匹配度时,可以按照以下方式确定:
122.可以基于该第二对象的历史运动特征对该第二对象在当前时刻获取到的待识别图像中的运动轨迹通过轨迹预测算法进行预测,得到该第二对象在该待识别图像中的预测位置特征,基于预测得到的该第二对象的预测位置特征和该第一对象的当前位置特征,确定该第一对象和第二对象之间的位置匹配度。
123.其中,轨迹预测算法可以为卡尔曼滤波方法,还可以为其他可以进行轨迹预测的算法,本实施例在此不作限定。
124.通过本技术实施例,可以通过预测得到的第二对象位置特征和第一对象的当前位置特征来确定两者之间的位置匹配度,采用这种方式确定位置匹配度,提高了确定位置匹配度的准确率。
125.在一种可能的实现方式中,上述方法还包括:
126.确定上述待识别图像中的上述各第一对象的对象类型;
127.获取上述各第二对象的对象类型;
128.其中,上述任一上述第一对象和任一上述第二对象为同一对象类型的第一对象和第二对象。
129.可选的,在进行目标追踪时,不同对象类型的对象之间一般差异比较大,对于不同对象类型的对象之间可以不用确定两者是否匹配,可以只对同一类型对象进行目标追踪,确认同一对象类型的对象之间匹配度即可。
130.因此需要确定待识别图像中的各第一对象的对象类型,并获取各第二对象的对象类型。确认对象类型的方式可以通过目标识别技术实现。其中,目标识别是指一个特殊目标(或一种类型的目标)从其它目标(或其它类型的目标)中被区分出来的过程。例如,识别出待识别图像中包含的各种对象类型,例如,若待识别图像中包含了行人、车辆、狗,则可以通过目标识别的方式识别出行人、车辆、狗,并以不同的对象类型标记该行人、车辆、狗。
131.其中,在计算匹配度时,任一第一对象和任一第二对象为同一对象类型的第一对象和第二对象。
132.例如,假设待识别图像中识别出的某个第一对象的对象类型为人,那么在对该第一对象进行对象匹配时,只需要和该待识别图像之前的历史图像中对象类型为人的各第二对象计算匹配度,无需与对象类型不是人的其他对象计算匹配度。
133.通过本技术实施例,可以通过目标识别的方式,确定出待识别图像中的各第一对象的对象类型,当计算匹配度的时候,可以只对属于同一对象类型的第一对象和第二对象计算匹配度,避免了对不属于同一对象类型的第一对象和第二对象计算匹配度,提高了运算效率。
134.在一种可能的实现方式中,对于任意一个上述第一对象,提取上述第一对象的当前表观特征,包括;
135.根据上述第一对象的当前位置特征,将上述待识别图像中上述第一对象的当前位置特征所对应的图像区域输入至特征提取网络,通过上述特征提取网络得到上述第一对象的当前表观特征;
136.其中,上述特征提取网络是通过以下方式对神经网络模型训练得到的:
137.获取训练数据集,上述训练数据集包括各带有标注标签的训练样本,每个上述训练样本包括图像对,上述标注标签表征了上述图像对中包含的对象之间的第一匹配度;
138.将各上述训练样本输入至上述神经网络模型;
139.对于每一上述训练样本,上述神经网络模型的输出为上述训练样本包含的图像对分别对应的图像特征;
140.对于每一上述训练样本,计算上述训练样本包含的图像对分别对应的图像特征之间的匹配度,得到上述训练样本对应的第二匹配度;
141.通过各上述训练样本所对应的上述第一匹配度和上述第二匹配度,计算损失函数;
142.若上述损失函数收敛,则将收敛时的神经网络模型作为上述特征提取网络;
143.若上述损失函数未收敛,则调整上述神经网络模型的模型参数,并基于各上述训练样本对上述神经网络模型继续进行训练,直至上述神经网络模型对应的损失函数收敛,将收敛时的神经网络模型作为上述特征提取网络。
144.可选的,对于当前时刻获取到的待识别图像中的任意一个第一对象,可以根据该第一对象的当前位置特征,将该待识别图像中该第一对象的当前位置特征所对应的图像区域提取出来,并将该图像区域输入至特征提取网络,通过该特征提取网络对该第一对象所在的图像区域进行特征提取,得到该第一对象的当前表观特征。
145.其中,该特征提取网络可以通过以下方式对神经网络模型训练得到:
146.获取训练数据集,该训练数据集包括各带有标注标签的训练样本,每个训练样本包括图像对,该标注标签表征了该图像对包含的对象之间的第一匹配度。
147.在一可选的实施例中,上述训练数据集包括多个正训练样本和多个负训练样本,其中,上述正训练样本的图像对是包含同一对象的不完全相同的两张图像,上述负训练样本的图像对是包含不同对象的两张图像。
148.在一示例中,训练数据集中可以包括多个正训练样本多个负训练样本。
149.正训练样本的图像对中的两张图像(即图像对)所包含的对象是同一对象、且这两张图像不完全相同,也就是说,正训练样本的图像对是同一对象类型的同一对象的两张不同的图像,例如,两张图像是包含同一对象的图像,但这两张图像的背景信息不完全相同或者完全不同。
150.负训练样本的图像对中的两张图像(即图像对)所包含的对象是不同的两个对象,
也就是说,负训练样本的图像对是不同对象类型的不同对象的两张图像,例如,这两个对象自身的信息在这两张图像中不同,这两张图像的背景信息可以完全相同,或者,这两张图像的背景信息也可以不完全相同,可根据实际需要设定,在此不作限定。
151.对于正训练样本和负训练样本的具体获取方式本技术实施例不做限定,
152.对于正训练样本,可以是从包含同一对象的两张背景信息不同的图像中分别截图该对象所对应的图像区域,将截取得到的两个图像区域作为一个图像对,该图像对即为一个正训练样本。还可以是从同一视频序列中对同一对象的不同帧中,对该对象所在的图像区域进行截取,将截取到的两个图像区域作为一个正训练样本,即在同一视频的不同的两帧中截取同一对象的图像区域得到一个正训练样本。
153.在实际训练中,为了提高对相似度较高的图像的识别率,对于负训练样本,负训练样本中的图像对中的两张图像可以为相似度比较高的两个不同的对象的两张图像。例如,可以选取外观相似但不属于同一对象的两帧图像,通过截取这两个图像所在的图像区域得到一个负训练样本。
154.在获取到训练数据集后,可以将该训练数据集中的训练样本一一输入神经网络模型中,通过该神经网络模型得到各训练样本包含的两张图像分别对应的图像特征,然后通过该两张图像分别对应的图像特征,计算这两张图像所包含的两个对象之间的第二匹配度,通过各训练样本所对应的第一匹配度和第二匹配度之间的差异,计算得到损失函数。然后,根据损失函数来判断神经网络模型是否训练完成,若损失函数收敛,则表明该神经网络训练完成,可以将收敛时的神经网络模型作为特征提取网络,若损失函数未收敛,则调整该神经网络模型的模型参数,继续通过训练数据集合和损失函数训练该神经网络模型,直到损失函数收敛。
155.其中,对于特征提取网络的具体网络结构本技术实施例不做限定。作为一可选方案,图3中示出了本技术实施例提供的一种特征提取网络的结构示意图,该特征提取网络为一个孪生网络模型,包括两个卷积神经网络,这两个卷积神经网络结构可以完全相同,并且网络之间共享权重。整个网络的输入可表示为(x1,x2,y),其中x1(可以简称为样本x1)和x2(可以简称为样本x2)代表一对样本数据(即训练样本),y代表样本数据标签,当y为1时表示x1和x2为一对正样本数据(即正训练样本),当y为0时表示x1和x2为一对负样本数据(即负训练样本)。通过一组映射函数gw(x)将输入映射到目标空间,在目标空间使用简单的距离计算第二匹配度,当样本数据为正样本时,样本图片x1和x2属于同一对象;当样本数据属于负样本时,x1和x2属于不同对象。w表示网络模型参数。ew表示输出向量计算出来的距离(即第二匹配度)。其中,样本x1和x2之间实际的匹配度为第一匹配度。训练阶段的目标就是最小化来自相同对象的一对样本的损失函数值,最大化来自不同对象的一对样本的损失函数值。
156.如图3所示,整个训练过程为,将一对样本数据(即训练样本)x1和x2分别输入卷积神经网络,通过映射函数gw(x)将输入映射到目标空间,通过卷积神经网络对样本数据x1和x2进行特征提取,分别得到x1的特征gw(x1)和x2的特征gw(x2),然后计算这两个特征之间的距离||gw(x1)-gw(x2)||,将该距离作为这两个特征之间的匹配度,该距离即为ew,并输出ew,该ew即为样本数据x1和x2对应的对象之间的距离,该距离可以表征x1和x2对应的对象之间的匹配度。
157.在孪生网络中还可以使用对比损失函数(contrastive loss)作为该孪生神经网
络的损失函数,该损失函数主要用于降维,原来相似的样本在经过特征提取后,在特征空间中仍然相似;原来不相似的样本在经过特征提取后,在特征空间中仍然不相似。对比损失函数可以很好的表达成对样本的匹配程度,其表达式如下所示:
[0158][0159]
其中,dw表示样本x1的特征和样本x2的特征的余弦距离,y为两个样本(即一个样本图像对)的样本数据标签,若y=1,则样本x1和x2分别对应的对象为同一对象,若y=0,则样本x1和x2分别对应的对象为不同的对象,m表示设定的阈值,n表示训练样本的个数即样本图像对的数量。
[0160]
通过本技术实施例,可以通过使用正训练样本来训练神经网络模型,使得特征提取网络提高对同一对象的识别能力,通过使用负训练样本来训练神经网络模型,使得特征提取网络提高对较相似的不同对象的识别能力,进而提高了特征提取网络对对象的识别能力。
[0161]
下面结合一具体实施例,说明本技术实施例中的对象匹配方法,具体过程如下:
[0162]
根据给定的图像序列,使用已知的目标检测工具对目标进行提取,以获取目标在单个图像帧中的信息;在当前的待识别图像中检测出目标(即第一对象)后,提取目标的运动特征(即第一对象的当前位置特征)和表观特征(即第一对象的当前表观特征),表观特征则需要使用采用孪生神经网络框架的预训练器(即特征提取网络)进行提取;根据当前的待识别图像中提取到的运动特征和表观特征,结合历史图像帧对应的运动特征和表观特征,进行进一步的加权集成计算,得出当前的待识别图像与历史图像帧(即当前时刻之前的历史图像)中的对象是否匹配的相似度评分(即匹配度),最后根据全局的图像帧评分进行全局分配(如hungarian算法),得到全局的追踪结果。其中,全局的追踪结果可理解为图像序列中所有的对象的追踪结果。
[0163]
图4为本技术提供的另一种对象匹配方法的流程示意图,如图4所示,获取已有轨迹(即各第二对象的历史轨迹)和观测对象(即当前待识别图像中的各第一对象),然后对当前时刻的待识别图像中的各第一对象以及已有轨迹中的各第二对象分别进行运动特征提取和表观特征提取,得到各第二对象的轨迹预测信息,以及各第二对象和各第一对象的深度表观特征,对于任一第一对象和任一第二对象,基于第一对象的运动特征和表观特征,以及第二对象的运动特征和表观特征,对第一对象和第二对象进行轨迹匹配,并对轨迹进行优化处理,得到全部的对象的追踪结果。
[0164]
其中,在进行运动特征数据关联时,是(即第二对象)的位置特征,是在t-1时刻标记框(即目标检测时的检测框)的左上角坐标,是在t-1时刻标记框的右下角坐标,是在t-1时刻的表观特征(一组特征向量),是的类别(即对象类型);类似的,是(即第一对象)的位置特征,是在t时刻标记框的左上角坐标,
是在t时刻标记框的右下角坐标,是在t时刻的表观特征,是的类别(即对象类型)。运动特征相似度(即位置匹配度)可以使用欧式距离进行度量计算,通过卡尔曼滤波方法的轨迹预测方法对目标(即第二对象)在下一时刻的位置进行预测,即由目标在t-1时刻的位置得到目标(即第二对象)在t时刻的预测位置然后计算与的欧氏距离,得到运动特征相似度计算方式如公式:
[0165][0166]
在进行表观特征数据关联时,使用余弦距离进行计算得到(即第二对象)和(即第一对象)表观相似度(即表观匹配度),如公式所示:
[0167][0168]
通常同时存有多个轨迹,观测对象集合中也会有多个观测对象(即各第一对象),当计算和之间的相似度时,的值越小说明二者越相似,但只有当值小于或等于一定阈值时,才认为两者是有关联性的;当值大于该阈值时,则认为两者无关联性。运动特征相似度(即位置匹配度)阈值为l
thres
,表观特征相似度(即表观匹配度)阈值为a
thres
,当时,将置为∞,表示二者无运动特征关联性,同理,当时,将置为∞,表示二者无表观特征关联性。
[0169]
采用特征融合的方式,结合历史图像中各第二对象的运动特征和表观特征与观测对象的运动特征和表观特征,得到运动特征相似度和表观特征相似度,使用两种特征相似度线性加权的方式计算历史图像中的第二对象和观测对象之间的整体相似度t
sim
(即任一第一对象和任一第二对象之间的匹配度),如公式所示:
[0170][0171]
其中,λ为第一权重,(1-λ)为第二权重。
[0172]
当整体相似度t
sim
小于整体相似度阈值t
thres
时,才认为第一对象和第二对象具备关联性,当t
sim
大于t
thres
时,第一对象和第二对象不具备关联性。
[0173]
通过本技术实施例,在追踪过程中,通过结合运动特征和表观特征,计算得到位置匹配度和表观匹配度,由于表观特征是通过特征提取网络提取得到的,对于相似对象之间的识别能力高,不易发生追踪错误的情况,提高了目标追踪的准确率。
[0174]
本技术实施例提供了一种对象匹配装置,如图5所示,该对象匹配装置1可以包括:
[0175]
待识别图像获取模块11,用于获取当前时刻的待识别图像;
[0176]
当前对象特征提取模块12,用于识别上述待识别图像中的各第一对象,并提取各上述第一对象的当前对象特征,其中,上述当前对象特征包括当前位置特征和当前表观特征;
[0177]
历史对象特征获取模块13,用于获取各第二对象的历史对象特征,其中,上述历史对象特征包括历史运动特征和历史表观特征,上述各第二对象是从上述待识别图像之前的至少一帧历史图像中识别出的对象,上述历史对象特征是基于上述待识别图像之前的至少一帧历史图像确定的;
[0178]
对象匹配模块14,用于对于任一上述第一对象和任一上述第二对象,根据上述第一对象的上述当前对象特征和上述第二对象的历史对象特征,确定上述第一对象和上述第二对象的匹配度;
[0179]
目标对象确定模块15,用于基于各上述第一对象与上述第二对象的匹配度,从各上述第一对象中确定与上述第二对象相匹配的目标对象。
[0180]
通过本技术实施例,在对当前时刻的待识别图像中的第一对象进行识别追踪的过程中,是通过当前时刻的第一对象的当前对象特征和历史图像中的第二对象的历史对象特征,采用计算匹配度的方式来确定各第一对象中与第二对象相匹配的目标对象的,在这个过程中,通过当前位置特征和历史运动特征,能够在对象匹配时使用对象的运动特征信息,通过当前表观特征和历史表观特征,能够在对象匹配时使用对象的表观特征信息,即可以同时使用运动特征和表观特征这两个维度的信息,通过运动追踪和表观特征分析,提高了对象匹配的准确率,进而提高了对目标进行追踪识别的准确率。
[0181]
在一种可选的实施例中,上述目标对象确定模块,用于:
[0182]
将各上述第一对象与上述第二对象的匹配度中大于或等于预定阈值的匹配度对应的第一对象,确定为与上述第二对象匹配的各候选匹配对象;
[0183]
将上述各候选匹配对象中与上述第二对象匹配度最高的候选匹配对象,确定为与上述第二对象相匹配的目标对象。
[0184]
在一种可选的实施例中,上述对象匹配模块,还用于:
[0185]
若基于上述第一对象和上述第二对象的匹配度,确定上述第一对象和上述第二对象不匹配,则记录上述第一对象的当前对象特征,以将记录的上述第一对象的当前对象特征作为上述当前时刻的下一时刻的历史对象特征。
[0186]
在一种可选的实施例中,上述对象匹配模块,用于:
[0187]
基于上述第一对象的当前位置特征和上述第二对象的历史运动特征,确定上述第一对象和上述第二对象对应的位置匹配度;
[0188]
根据上述第一对象的当前表观特征和上述第二对象的历史表观特征,确定上述第一对象和上述第二对象的表观匹配度;
[0189]
根据上述位置匹配度和上述表观匹配度,确定上述第一对象和上述第二对象的匹配度。
[0190]
在一种可选的实施例中,上述对象匹配模块,用于:
[0191]
基于上述第二对象的历史运动特征通过轨迹预测算法预测上述第二对象当前时刻的位置特征;
[0192]
根据预测得到的上述第二对象的位置特征和上述第一对象的当前位置特征,确定上述位置匹配度。
[0193]
在一种可选的实施例中,上述对象匹配模块,用于:
[0194]
获取上述位置匹配度对应的第一权重,以及上述表观匹配度对应的第二权重;
[0195]
根据上述第一权重对上述位置匹配度进行加权,得到加权后的位置匹配度;
[0196]
根据上述第二权重对上述表观匹配度进行加权,得到加权后的表观匹配度;
[0197]
将上述加权后的位置匹配度和上述加权后的表观匹配度求和,得到上述第一对象和上述第二对象的匹配度。
[0198]
在一种可选的实施例中,对于任意一个上述第二对象,上述第二对象的历史运动特征是基于上述当前时刻之前的至少一帧目标图像中提取的上述第二对象的位置特征确定的,上述目标图像为当前时刻之前的包含上述第二对象的图像,上述至少一帧目标图像包括各目标图像中距离当前时刻最近的目标图像;
[0199]
上述第二对象的历史表观特征是基于上述至少一帧目标图像中提取的上述第二对象的表观特征确定的。
[0200]
在一种可选的实施例中,上述当前对象特征提取模块,用于:
[0201]
根据上述第一对象的当前位置特征,将上述待识别图像中上述第一对象的当前位置特征所对应的图像区域输入至特征提取网络,通过上述特征提取网络得到上述第一对象的当前表观特征;
[0202]
其中,上述特征提取网络是通过训练模块通过以下方式对神经网络模型训练得到的:
[0203]
获取训练数据集,上述训练数据集包括各带有标注标签的训练样本,每个上述训练样本包括图像对,上述标注标签表征了上述图像对中包含的对象之间的第一匹配度;
[0204]
将各上述训练样本输入至上述神经网络模型;
[0205]
对于每一上述训练样本,上述神经网络模型的输出为上述训练样本包含的图像对分别对应的图像特征;
[0206]
对于每一上述训练样本,计算上述训练样本包含的图像对分别对应的图像特征之间的匹配度,得到上述训练样本对应的第二匹配度;
[0207]
通过各上述训练样本所对应的上述第一匹配度和上述第二匹配度,计算损失函数;
[0208]
若上述损失函数收敛,则将收敛时的神经网络模型作为上述特征提取网络;
[0209]
若上述损失函数未收敛,则调整上述神经网络模型的模型参数,并基于各上述训练样本对上述神经网络模型继续进行训练,直至上述神经网络模型对应的损失函数收敛,将收敛时的神经网络模型作为上述特征提取网络。
[0210]
在一种可选的实施例中,上述训练数据集包括多个正训练样本和多个负训练样本,其中,上述正训练样本的图像对是包含同一对象的不完全相同的两张图像,上述负训练样本的图像对是包含不同对象的两张图像。
[0211]
本技术实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,执行上述对象匹配方法或对象匹配方法中的任一种可能的实施方式。
[0212]
在一个可选实施例中提供了一种电子设备,如图6所示,图6所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中
收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
[0213]
处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(field programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
[0214]
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0215]
存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd-rom(compact disc read only memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
[0216]
存储器4003用于存储执行本技术方案的应用程序代码(计算机程序),并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
[0217]
其中,电子设备包括但不限于:服务器或图像采集设备。
[0218]
本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
[0219]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0220]
上述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1