本发明涉及图像处理技术领域,尤其涉及一种用于人识别的拟吉布斯结构采样的深层置换的方法和装置。
背景技术:
基于视觉外貌的人重新识别(re-id)在过去几年一直是一个活跃的话题,并且在可预见的未来也将继续如此。这项重新识别任务包括将相同的标签分配给一系列图像或影像捕捉到的一个指定个体的所有时刻,即使这些时刻在时间或空间上有明显的不同。
在现有技术中,给出探查组图像和包括兴趣点列表的图库组,检索图像就可以回馈出兴趣点的分级列表,或者可以在图库组上训练一个多种类别的分类器。这些方法主要用于特征表示和距离测量,希望能够根据不同的照相机视图和时空上的显著差异来归纳出外貌变化中的不变特质。然而,不施加任何启发式约束的话,现有的图像检索框架并不能很好地处理类内差异性和类间相似性的问题。
另一种方法涉及对所述图库组和探查组之间的重新识别结构进行建模,从而推断出探查组中的所有图像标签,而不是分别标记每个图像。所述重新识别结构可被建模成二分图或条件随机场(CRF)。这些模型的结构可以从大量手动标记的图像配对(与同一人的标签相关的一个图库组图像和一个探查组图像)中得到,或者从基于启发式的手工制作(例如边缘拓扑)中得出。
然而,手工获取强大的重新识别结构优先级在实践中是非常昂贵和不可用的。此外,手工制作的结构忽略了这种统计学推断问题的不确定性。另外,目前还不存在一种原则性的方法来为重新识别问题导出一个共有的潜在特征空间。
本发明所公开方法和系统用于解决上述一个以上的问题以及其他问题。
技术实现要素:
本发明一方面公开了一种用于人识别的拟吉布斯结构采样的深层置换的方法。所述方法包括:获得一个以上的输入图像,包括含有兴趣点的图库组和含有人检测图像的探查组;使用深层神经网络从所述输入图像中提取N个特征映射,N为自然数;使用条件随机场(CRF)图形模型构建所述N个特征映射的N个结构样本;从嵌入在所述N个结构样本中的隐式的共有潜在特征空间中学习所述N个结构样本;根据已学习的结构,从包括与图库组中的图像相同的兴趣点的探查组中识别一个以上的图像。
本发明另一方面公开了一种用于人识别的拟吉布斯结构采样的深层置换的装置。所述装置包括:一个以上的处理器,所述处理器用于获取一个以上的输入图像。所述输入图像包括含有兴趣点的图库组和含有人检测图像的探查组,并且一个所述输入图像对应于一个人。所述一个以上的处理器还用于:使用深层神经网络从输入图像中提取N个特征映射,N为自然数;使用条件随机场(CRF)图形模型构建所述N个特征映射的N个结构样本;从嵌入在所述N个结构样本中的隐式的共有潜在特征空间中学习所述N个结构样本;根据已学习的结构,从包括与图库组中的图像相同的兴趣点的探查组中识别一个以上的图像。
本领域技术人员根据本揭露的说明书、权利要求书以及说明书附图的指引,能够理解本发明的其他方面。
附图说明
为便于对实施例理解,结合附图对实施例进行描述,仅用于解释本发明,而不能解释为对本发明的限制。
图1为本发明提供的一实施例的操作环境的示意图;
图2为本发明提供的一实施例的计算系统的示意图;
图3为本发明提供的一用于人识别的装置的示例性结构图;
图4为本发明提供的一用于人识别的示例性框架图;
图5为本发明提供的用于人识别的处理过程的一示例性流程图;
图6为本发明提供的用于人识别的处理过程的另一示例性流程图;
图7为本发明提供的一用于获得结构样本的示例性流程图。
具体实施方式
为便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。下文将参照附图来描述与本发明一致的实施例。除非另外指出,在各图中相同的参考数字用于相同的部件。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了与所公开的各实施例一致的用于人识别的示例性方法和装置的示例性操作环境100。如图1所示,所述操作环境100可以包括:服务器104、用户终端106和通信网络102。所述服务器104和用户终端106可以通过通信网络102耦合以进行信息交换,例如发送和接受包括人检测的图像等。尽管在所述操作环境100中只显示了一个用户终端106和一个服务器104,但是任何数目的用户终端106或服务器104或其他装置都可以包括在内。
所述通信网络102可以包括任何适当类型的通信网络,用于向所述服务器104和用户终端106或一个以上的服务器104与用户终端106之间提供网络连接。例如,所述通信网络102可以包括互联网或其他有线或无线的计算机网络或电信网络。
所述用户终端可以指任何具有某些计算能力的合适的用户终端,例如包括收集包括兴趣点的图像、显示人识别结果。例如,用户终端可以是个人计算机(PC)、工作站计算机、计算机服务器、手持计算机(平板)、移动终端(移动电话或智能电话)或任何其他用户端计算装置。
所述服务器可以指一个以上的提供某些服务器功能的计算机服务器,例如维护图像数据库、提取输入图像的特征映射、构建特征映射的采样结构、基于特征映射构建可视化图形模型、学习样本结构进行身份推断。所述服务器还可以包括一个以上的处理器,以并行地执行计算机程序。
所述服务器104和用户终端106可以在任何合适的计算平台上实现。图2示出了能够执行服务器104和/或用户终端106的示例性计算系统200。如图2所示,计算系统200可以包括处理器202、存储介质204、显示器206、通信模块208、数据库210和外围设备212,以及将这些装置耦合在一起的一个以上的总线214。可以省略某些组件,也可以包括其他组件。
所述处理器202可以包括任何合适的一个以上的处理器。此外,所述处理器202可以包括用于多线程或并行处理的一个以上的核心。所述处理器202可以执行系列的计算机程序指令或程序模块,以实现各种处理,例如图像处理程序。所述存储介质204可以包括记忆模块,例如ROM、RAM、闪存模块、可擦除和可重写的存储器,以及大容量存储器,例如CD-ROM、U盘和硬盘等。所述存储介质204可存储计算机程序指令和程序模块,用于实现由所述处理器202执行的所述计算机程序的各种进程。
此外,所述通信模块208可以包括通过所述通信网络102建立连接的网络装置。所述数据库210可以包括用于存储某些数据(例如,图像和视频)并且用于对所存储的数据执行某些操作的一个以上的数据库,例如数据库搜索和数据检索。
所述显示器206可以包括任何适当类型的计算机显示装置或电子装置显示器(例如,基于CRT或LCD的装置,触摸屏,LED显示器)。所述外围设备212可以包括各种传感器和其它I/O装置,例如扬声器,照相机,运动传感器,键盘,鼠标等。
在运行中,所述用户终端106和/或服务器104可以基于包括人检测的图像为人识别实现某些操作。所述用户终端106和/或服务器104可以提供用于这些操作和运行的结构和功能。在一些实施例中,一部分操作可以在所述服务器104上执行,另一部分可以在所述用户终端106上执行。
本发明公开了一种用于人识别的方法和装置。所述的人识别或人重新识别(re-id)可以指在第一图库组(探查组)中找到包括来自第二图库组(图库组)的相同的人图像的一个以上的图库组。此外,所公开的方法和装置可以从包括与图库组具有相同图像的探查组中推断出所有图像,而不是依次标记每个图像。如本文所使用的人检测或检测到的人,可以指包括在图像中的人。一个图像可以包括一个检测到的人。如本文所使用的兴趣点,可以指来自图库组的图像中检测到的人。
基于视觉外貌的重新识别的主要挑战在于,同一个人视觉外貌的不相似性可以比不同的人之间的相似性大。例如,由于人的姿态、照明、视点、背景杂波、遮挡和图像分辨率的变化,人图像通常呈现严重的差异。此外,相机通常处于不重叠的位置,而同一人出现在相机中的视图是不可预测的。因此,即使有相机网络拓扑(如果有的话),要将冒名顶替者与真正的兴趣点分开,并同时适应同一兴趣点的外貌变化是极其有挑战性的。
图3示出了本发明提供的一用于人识别的装置300的示例性结构图,图4示出了人识别的示例性框架图,所述示例性框架图对应于图3所示的示例性结构图。如图3所示,所述装置300可以包括图像获取模块302,特征映射提取模块(深层特征网络映射)304,结构采样模块(拟吉布斯结构采样器)306,结构学习模块(人重新识别结构学习)308和身份推断模块310。所述装置300可以由所述用户终端106和/或服务器104实现。
请继续参阅图3、图4,所述图像获取模块302可以用于获取包括所述图库组3022和探查组3024的输入图像。给定来自第一照相机视图的兴趣点的图库组3022以及来自第二照相机视图的探查组3024,所述重新识别的问题在如何利用所述的框架学习于将两个相机视图中的同一兴趣点关联起来。可以使用本发明所公开的框架图来学习不同所述图库组和探查组之间的人外貌变化的重新识别结构。可以理解,一对照相机对人重新识别的过程可以被转移到不同对照相机之间的人重新识别脚本中。
例如,所述图库组3022可以包括兴趣点的一个以上的图像,每个人可以对应于一个图像。所述探查组3024可以包括人检测的一个以上的图像。所述探查组3024中的一些或全部图像可以包括与所述图库组3022中相同的兴趣点。所述图库组3022和探查组3024中相同的人的图像可以由两个不同的照相机从相同位置的两个角度,或以同一照相机在不同时间或完全不同的位置来制作。也就是说,这两张图像可以包括不同的姿势、照明、视点、背景杂波、遮挡和图像分辨率中的外貌变化。所述探查组3024中图像的数量可以小于、等于或大于所述图库组3022中图像的数量。在一些实施例中,所述探查组3024可以包括一个以上的与所述图库组3022中相同的兴趣点的图像。在一些实施例中,每张图库组和探查组的图像可以具有相同的规格,并包括位于图像中大致相似的区域中心的兴趣点。所述图像获取模块302用以获取具有相同规格的输入图像,所述图像获取模块可以用于预处理过程,例如识别兴趣区域、裁剪、放大/缩小等。
所述特征映射提取模块(深层特征网络映射)304可以用于从输入图像中提取特征映射。在一些实施例中,所述深层神经网络(DNN)特征映射可以从这两个图像集(即,图库组3022和探查组3024)中提取获得。例如,可以从每个图像中提取初始像素级特征,并将其馈送到DNN中,以便随后对训练数据进行采样。N个不同的深度特征映射可以由DNN的一个以上的卷积层生成。对应于所有输入图像的相同深层特征空间的提取结果可以生成特征映射。因此,所述特征映射提取模块(深层特征网络映射)304可以获得N个特征映射。在一些实施例中,对应于所述N个特征映射的N个特征空间是正交的。
所述结构采样器模块(拟吉布斯结构采样器)306可以使用条件随机场图形模型,从每个特征映射中获取一个结构样本。换句话说,所述结构采样器模块(拟吉布斯结构采样器)306可以在正交并能够捕获各种视觉方面的不同特征空间中获取真实结构的“快照”。也就是说,可以采样提取的特征映射的结构。在一些实施例中,所述结构采样器模块(拟吉布斯结构采样器)306可以将深层置换的拟吉布斯结构采样器应用于N个特征映射,以获得用于学习的人关联结构的相应的N个结构样本。
同一人的外貌变化中的内在联系的性质,可以通过从不同的特征空间中学习到的结构输出模型进行更合适的体现。作为非条件回归的结构化输出版本,所述条件随机场(CRF)是无向图形模型,在相似的被检测者之间可以利用所述CRF来紧凑地表示其数据依赖关系。所述CRF拓扑可以从不同的深层特征空间中学习得到。
此外,将捕获的所述“快照”公式化为结构学习问题。所述结构学习模块(人重新识别结构学习)308可以用稀疏算法学习N个结构样本,所述稀疏算法来自嵌入在所述N个结构样本的隐式的共有潜在特征空间中。可以获得表示re-id结构的图形模型。所述的re-id结构可以指基于N个结构样本学习的图形模型,以揭示探查组图像的标记。
所述身份推断模块310可以用于根据掌握的所述重新识别结构来识别所述探查组3024的一个以上的图像,所述图像中包括与所述图库组3022中相同的兴趣点。具体来说,当掌握了所述人重新识别结构时,可以使用能量最小值来将图形切割成几个簇,每个簇被标记为一个兴趣点。也就是说,当确定两个图像包括相同的人时,就将所述图库组3022的图像标记在所述探查组3024的图像上。
本发明所公开的实施例提供了用于学习重新识别结构的装置和方法,所述重新识别结构与图库组和探查组之间的人外貌同步变化。第一,提出了拟吉布斯结构抽样方法,理论上保证了在有效捕获视觉外貌的不同方面的不同深层特征空间中揭示真实的重新识别结构。第二,通过稀疏算法从一类条件随机场中搜索re-id结构,所述稀疏算法来自嵌入在N个结构样本的隐式的共有潜在特征空间中。所述过程无需任何人为注释或明确的特征融合方案。第三,所公开的实施例为问题的配置提供了新的方式。假设相对于所述探查组以空前的速度递增的规格而言,兴趣点的数量和重现率相对较小,那么就可以从所有兴趣点备选者的图像中学习重新识别结构,而不仅是拟吉布斯结构中的人的图像。
具体地,所述重新识别结构可以无需人为注释或明确的特征融合方案而学习得到,所述重新识别结构与图库组和探查组之间的人外貌同步变化。在示例性实施例中,没有结构先验的具有对势的条件随机场图形模型可以表示为:
其中,<i,j>是图中所有边缘的乘积,ψi是节点势(边缘证据项),ψij是边缘势。Z(X)表示归一化因子。
与现有技术相比,本公式的不同之处有三点。第一,传统的结构学习假设节点的数量是固定的,并且等于人检测的数量(即图像的数量)。然而,在所公开的实施例中,对于等式(1)所示的条件概率,Y表示所有兴趣点备选者的联合标签,而不是所有检测到的人。换句话说,要被学习的结构中的所有节点都是兴趣点备选者,并且节点的数量不是先验的。第二,在现有技术中,所有学习模型都在明确指定的特征空间中工作。然而,在所公开的实施例中,等式(1)中的X表示从结构样本中隐含地导出的共有潜在特征(例如,详细描述可以在步骤S406中找到)。第三,所公开的结构学习可以被认为是对具有外貌变化的相同的人群进行聚类的情况。一旦了解了所述CRF的最终底层拓扑结构,则在切割图形后,与所述图库组中的兴趣点节点相关联的任何节点都将被分配相同的标签。
假设所述图库组包括m个不同的兴趣点,每个节点中的状态数量是m,即yi∈{1,2,...,m}。进一步地,节点势和边缘势可以由以下术语表示:
其中,xi表示节点特征,xij是边缘特征,V和W分别是节点参数和边缘参数。节点特征或边缘特征在此公式中都未被明确指定。在一些情况下,可以使用所述CRF模型的替代来表示(例如,对应于步骤S408的详细描述)。令θ=[V,W]表示所有参数,F(X,Y)表示所有特征,等式(1)中的所述CRF模型可以重写如下:
即Z(θ,X)=∑Y′exp(θTF(X,Y′))(3)
图5示出了本发明提供的人识别处理过程的一示例性流程400。所述流程400可以由例如用户终端装置106和/或服务器104来执行。如图5所示,可以获得一个以上的输入图像(S402)。所述输入图像包括含有兴趣点的图库组,以及包括含有人检测的图像的探查组。一个所述输入图像对应于一个人。
进一步地,所述深层神经网络(DNN)可以用于从所述输入图像中提取N个特征映射(S404)。可以使用条件随机场(CRF)图形模型来构建所述N个特征映射的N个结构样本(S406)。可以通过学习所述N个结构样本来执行人识别。
结构学习高度依赖于训练样本的质量,假设这些样本是基于目前问题的真实结构拓扑结构的观察结果得出的。用于评估所述结构学习算法理论健全性的常规做法是事先构建真实结构,并从所述真实结构中抽取样本。然后将所学习的结构与关于所述评估的已选择的量度进行比较。例如,可以从小的(例如,10节点)CRF中创建合成数据库。所述图形模型可以随机构造,包括具有指定概率的每个边。此外,所述节点和边缘的权重也随机抽样生成。由于所述CRF模型通常用于分类,所以根据分类相对误差率对学习的结构进行评估。然而,在用于人重新识别的现实环境中,所述重新识别结构不能像合成数据库那样随机或任意构造。
在一示例性实施例中,基于等式(1)至(3)中的公式,所公开的结构学习可以发现CRF模型的未知真实结构。基于同一人的外貌变化相互关联的性质,所述CRF可以被认为是可以适当地构建真实结构的概率图形模型的簇。因此,从这样的未知真实结构中绘制的N个结构样本(Q,Y)={(Q1,Y1),(Q2,Y2)…(QN,YN)}满足如式(1)或式(3)中的随后分布,其中Q是所述真实结构的图形拓扑,Y是所述结构中所有节点的相关标签。每个结构样本(Qi,Yi)可以被视为真实结构的快照,这为数值化绘制每个样本提供了有效的方法。
根据所述重新识别结构的学习问题和从等式(1)至(3)中建立的CRF模型,从未知的后验条件中进行结构采样来重现真实的结构是一个鸡蛋相生问题。常规地,后验条件的推导需要在整个节点后收集和重新整理相关术语。如果已知封闭形式的QYi,例如伽马分布,则可以直接从这些条件中抽取样本。在所公开的实施例中,尽管所述CRF被选作那些后验条件的概率模型簇,但是其中并未给出底层图结构和参数。此外,无需任何人为注释,所公开的人重新识别的应用可以将结构和参数的学习同时进行。
在一示例性实施例中,所述鸡蛋相生问题可以通过使用预先训练的所述深层神经网络(DNN)的深层置换来克服,即从N个不同深度特征映射中进行结构采样,其中,所述N个不同的深度特征映射由相同底层的重新识别真实结构提取出来。在所述DNN中的任何完全连接的层之前,这些N个不同的深特征映射可以由最后的卷积层或几个较高的卷积层产生。使用哪个卷积层可取决于需要多少结构样品。在一些实施例中,可以使用来自最后一组卷积层的特征映射,因为这些较高级别特征比较低级别的伽柏样特征更抽象,可用于描绘所述真实结构的不同层面。
具体地,图6示出了本发明提供的用于人识别的处理过程的另一示例性流程;图7示出了本发明提供的一用于获得结构样本(S406)的示例性流程图。
请参阅图6和图7,当获得所述N个特征映射502时,对于每个特征映射,可以使用基于与特征映射对应的特征空间中的特征相似度的K最近邻法(KNN)来构建初始图形结构/模型(S4062)。所述图形模型可以包括所述节点和边缘,并且每个节点表示一个人检测。此外,在所述结构采样过程中可以使用深层置换。换句话说,可以通过使用所述拟吉布斯结构采样器在所述N个特征空间中进行所述KNN计算的多次迭代来执行结构排列(S4064)。
使用基于所述DNN产生的特征映射的深层置换可以具有以下优点。1)特征融合优于单一随机特征,因为的人外貌变化的不变本质几乎不可能被单一特征所捕获。2)N个不同深度特征映射是估计任何所需深度特征的基础,由通过输入图像和扫描所有卷积层中的所有通道的N个不同粒子之间的卷积产生。3)通过已掌握/预训练的内核和来自大数据库(例如图像网络)的参数,传递的所述深度特征即使在新任务中进行大量微调之后也可以提高泛化性能。因此,这些N个不同的深度特征映射为结构采样的置换提供了期望的替代方案。
只要存在来自后验分布的N个模拟样本,就可以用采样算法来进行此后验分布的统计学估计。在一个实施例中,可以使用基于蒙特卡罗马尔科夫链(MCMC)技术的采样算法。例如,吉布斯采样可以通过遍历每个变量(或变量块),从其条件分布中进行采样来生成后验样本,其余变量则固定位其当前值。所述MCMC的理论保证了使用吉布斯采样产生的样本的平稳分布是目标兴趣的后验节点。
在一个实施例中,可以应用所述拟吉布斯结构抽样方法(S4064)以在的人重新识别的环境中生成结构样本,用于发现重新识别结构。假定X表示隐式的共有潜在特征空间,θ=[V,W]表示所有的参数,QYi表示采样需要扫描的每个变量。根据等式(3),每个变量的后验条件(或后验条件分布)可以写为P(QYi=(Qi,Yi)|X;QY1,QY2,..,QYi-1,QYi+1,…,QYN;θ),将第i个结构样本的条件概率评估为(Qi,Yi),其中,隐式共有潜在特征、所有其他结构样本以及所有参数均已给定。因此,所述拟吉布斯结构采样详细如下。
算法1拟吉布斯结构采样器(QGSS)
初始化(Q1,Y1)(0),(Q2,Y2)(0),…,(QN,YN)(0)
迭代i=1,2,…开始
(Q1,Y1)(i)~P(QY1=(Q1,Y1)|X;QY2=(Q2,Y2)(i-1),QY3=(Q3,Y3)(i-1),..…,QYN=(QN,YN)(i-1);θ)
(Q2,Y2)(i)~P(QY2=(Q2,Y2)|X;QY1=(Q1,Y1)(i),QY3=(Q3,Y3)(i-1),..…,QYN=(QN,YN)(i-1);θ)
(QN,YN)(i)~P(QYN=(QN,YN)|X;QY1=(Q1,Y1)(i),QY2=(Q2,Y2)(i),..…,QYN=(QN-1,YN-1)(i);θ)
结束
对于所述深层置换(S4064),迭代i中的每个深层特征空间中的每个后验条件的采样过程如下:
(Qj,Yj)(i)~P(QYj=(Qj,Yj)|X;,…,QYj-1=(Qj-1,Yj-1)(i),QYj+1=(Qj+1,Yj+1)(i-1)..;θ)
(4)
其中,j是所述N个结构样本的索引。
具体地,根据所述深层特征映射502(S4062),基于深层特征空间中的特征相似度,可由K最近邻法(KNN)构成初始图形模型504Qj=G(V,E),其中V和E分别表示所有的节点和边缘。节点表示输入图像中的人检测。两个节点之间的边缘表示对应于两个节点的两个的人检测之间的特征相似度。节点可以具有m个状态,m为图库组中不同的兴趣点的数量。
给定Qj和一组可能的标签L(例如,{1,2,...,m}),CRF能量最小值被制定为导出标签,因为兴趣的目标结构被建模为CRF。标签步骤(S4066)是在所有标签上找到最小化能量函数E的节点的标签分配。能量函数可以由等式(5)表示:
其中,φi(yi)表示用于分配标签yi到顶点i的一元成本电位,φij(yi,yj)表示分别将yi和yj分配给顶点i和j的条件成本的二进制平滑度电位。
可以证明,如果一个通用的吉布斯采样器的迭代次数是无限的,那么由N个样本所代表的分布可以收敛到真实分布。前几轮迭代可以被认为是”老化”周期,因为早期迭代中的样本并不代表真实分布。在一些实施例中,可以放弃初次迭代(例如,200次迭代)的结果,而随后的迭代(例如,1000次迭代)可用于计算目标分布的统计学数据。在所公开的拟吉布斯结构采样器(QGSS)中,可以推迟所述CRF能量最小化的过程(S4066),直到所述N个不同深层特征空间(S4064)中的结构排序完成了KNN计算的预设的迭代次数(例如,1200)。基于所述MCMC采样的逻辑基础,一个期望可以通过遍历平均法E(Qj)来估计,所述N个结构样本可以从1000次迭代(S4068)中得到,使用方程(6):
只有当两个所述节点之间的边界值超过阈值时,E*的边界才可能存在。也就是说,具有连接边的所述节点可以被认为是兴趣点备选者。得出的N个结构样本(E(Qj),Yj)506被加入到结构学习算法中,而没有显式地派生出共有潜在特征空间X,换句话说,共有潜在特征空间可以被隐式地发现。人的检测可以相互比较,因此构造了可以推断探查组图像的标签的重新识别结构。
请参阅图5和图6,在一些实施例中,所述结构学习508可以用稀疏的方法处理(S408)。所述稀疏的方法有以下几个优点:在稀疏模型中存在较少的参数,并且估计的效率会更高;且由于所述稀疏结构中的参数少,估计参数的成本要低得多。此外,假设搜索的图形模型的类别可以准确地描述数据组中的依赖关系,那么就可以找到描述所述数据组依赖关系的“真实”结构。
现有的结构学习方法需要图形拓扑中有数量固定的节点,即学习算法通过寻找节点之间的稀疏连接而不增加任何新节点来从一类图形模型中寻找真实结构。在本发明所公开的实施例中,每个所述节点都指一个兴趣点。虽然所述N个结构样本对所有的人检测都有标记,但在所述图库组和探查组中,只有那些被标记为兴趣点备选者(例如,N结构样本中具有边缘连接的节点)的节点被收集到最后的结构学习中。当所述兴趣点的数目相对较小且固定时,搜索这些固定节点之间的连接比搜索所有的人检测中的更易于处理。
ACRF图形模型表示一个重新识别结构,可以通过所述N个结构样本学习得到。CRF模型508可以用等式(1)或(3)表示,在这个等式中没有明确指定节点和边缘的特征,一旦掌握最终的CRF结构,就可以用另一种能量最小值(S408)将图形切割成一个以上的簇,所述每个簇都标记为一个兴趣点(S410)。
最大似然估计(MLE)可以用来估计统计模型的参数,所述模型由定义。假设训练样本是独立同分布的(例如,IID),那么对数似然可以改写为:与其将所述对数似然最大化,相反的,负对数似然可以被最小化,即:因此,从等式(3)可知,所述负对数似然和其梯度可由等式(7)和(8)分别给出:
通过将一L2正则化矩阵放在局部证据参数V(不直接影响图形结构)上,并将关键正则化矩阵R(W)(影响已掌握的结构)放在边缘参数W上,可以实现对正则化结构的推导。
其中,是边缘(结构)正则化矩阵,wb对应于参数块b(图中每边一个)。如果α=2,则R(W)退化为L1/Lasso正则化矩阵,它不会在块级上产生稀疏。在一些实施例中,使用α=2和∞可在块级上强制执行稀疏,并将所有的参数都置为0。
给出的λ1,λ2(其值可由实验中的交叉验证决定)是一个无约束的正则化优化问题。在一些实施例中,为了确保在块级上的稀疏性,优化方法可以包括,在α=2和∞时将等式(9)中的两个不同的正则化目标最小化,并且分别表示为L1L2和L1L∞。
对于最小化问题(10),L1L2正则化矩阵可以用多元二次函数来估计,并使用有限内存的BFGS算法来将这个可区分的目标优化为一个小的正数ε。对于问题(11),这个目标中的内部点方法也需要Hessian。此外,问题(11)可以通过重新构造辅助变量(每个组中取一个)转化为约束优化,这些变量限定为一个组中的最大值。
当所述最小化问题得到解决后,所述图形模型被切割成簇(即图中所含的最优标签)。所述一个簇中的所有图像对应一个兴趣点。也就是说,所述探查组中包括与所述图库组的图像相同的一个以上的兴趣点图像(即,相同的簇)可以被识别(S410)。
本发明所公开的实施例提供了用于人识别的结构学习方法。应用所述拟吉布斯结构采样方法,揭示了不同的深层特征空间中的正交结构,即捕捉到视觉外貌上的不同层面,而非完全完整的外貌。此外,在没有任何的人为注释或明确的特征融合方案的情况下,可以使用稀疏的方法,从一个嵌入在结构样本中的隐式的共有潜在特征空间里学习重新识别结构。现有技术中是通过直接学习双向图,或者通过在具有固定结构的所述CRF上解决能量最小值问题来揭露所有探查组图像的标签。与现有技术相比,本发明所公开的实施例是从所有兴趣点备选者的图像中学习重新识别结构,而不是所有可用的人的图像。相对于所述探查组以空前的速度递增的规格而言,兴趣点的数量和重现率相对较小。在实践中,这种方法可以为人识别开启一个变革的机会。
在现有技术中,所述CRF模型的底层拓扑结构通常是人为指定的(例如,一种用于序列标记的链式结构,或用于图像分割的二维晶格)。本发明所公开的实施例提供了一种无需人为注释而学习所述拓扑结构(重新识别结构)的程序。此外,为了解决类内差异性与类间相似性的问题,在此领域中引入了许多从初始线性组合到多视角多重嵌入的特征融合方案。这些特征融合方案虽然复杂,但仍然高度依赖于特征提取/选择步骤。为了进行结构学习,所公开的实施例提供了一种无需明确地通过特征融合导出共有潜在特征空间,而从不同的深层特征空间学习CRF拓扑的过程。
本发明的方法和装置可用在不同的人识别应用上,例如,在大型视频监控网络上对人的长期追踪联系,从不同的车载照相机视图中对无人驾驶车辆(UAV)兴趣点的重新识别,以及在多媒体取证数据库中对兴趣点的检索。
此外,本发明所公开的方法和装置可应用于除人识别之外的重新识别应用程序中。例如,所公开的方法可以用于重新识别不同相机视图中的汽车、动物和其他移动的物体。
所公开的实施例用于向本领域的技术人员解释说明本发明。本说明书和实施例仅被认为是示例性的,本发明所要求的真实范围和精神由权利要求书指出。