一种用于无约束视频人脸识别的特征图聚合方法与流程

文档序号:23386617发布日期:2020-12-22 13:51阅读:181来源:国知局
一种用于无约束视频人脸识别的特征图聚合方法与流程

本发明涉及视频人脸识别技术领域,具体涉及一种用于无约束视频人脸识别的特征图聚合方法。



背景技术:

随着深度学习的发展,人脸识别技术被广泛应用于交通、安防和刑侦等领域,特别在对静态图像的识别中取得了极大的进展。然而,随着监控和移动设备中摄像机的广泛使用,在实际应用中,人脸识别的对象更多的是连续变化的视频人脸而非单一的静态人脸图像。相比静态人脸图像,视频中无约束的运动人脸导致巨大的姿态变化及运动模糊,不同时间段的视频帧仅具有部分人脸信息。而对整个的视频序列而言,视频人脸具有多视图和时间信息。因此,利用视频人脸序列的多视图和时间信息来表示视频人脸能够反映更加全面的人脸信息。视频人脸识别的场景一般具有v2s(video-to-still)、s2v(still-to-video)以及v2v(video-to-video)三种设置,具体而言,对v2s模式下,用于搜寻的人脸底库由静态图像组成,目标人脸为一组视频序列。在这些场景中,不论是1:1的人脸验证还是1:n的人脸识别问题,图像间匹配的问题演变为更具挑战性的图像与视频匹配问题及视频间匹配问题。对此类问题,最好的解决方案是将视频人脸与图像人脸映射为相同形式的人脸表示。

对视频人脸的识别,目前已有通过整合各个视频帧信息来表示人脸。这些方法主要在原始的图像层面或高度紧凑的特征向量层次对各视频帧人脸进行聚合,以此实现视频人脸的表示。这些方法均取得了一定的效果,然而在图像层面或特征向量层次进行聚合具有一定局限性。例如图像层次的聚合虽然能够充分的利用原始的数据信息,但同时也会由于过多的噪声影响聚合效果。而对特征向量层次的聚合,虽然直接聚合特征向量能够利用现在日渐成熟的基于图像的人脸识别网络优越的特征映射能力,但是高度紧凑的特征向量是所有人脸特征的融合表示,直接将其聚合忽视了不同图像在各个特征通道的差异性。

所以,需要一个新的技术方案来解决这个问题。



技术实现要素:

发明目的:为了克服现有技术中存在的不足,提供一种用于无约束视频人脸识别的特征图聚合方法,该方法使用先进的基于图像的人脸识别网络进行特征映射,在特征图层次进行聚合进而获得更为准确的人脸表示。

技术方案:为实现上述目的,本发明提供一种用于无约束视频人脸识别的特征图聚合方法,包括如下步骤:

s1:使用深度卷积神经网络获取视频人脸中每帧人脸对应的多通道特征图;

s2:对视频人脸对应的全部多通道特征图以通道为单位进行重构,使得每个通道内包含全部人脸帧在该通道的特征图;

s3:使用特征图质量感知模块获得步骤s2中重构后的各通道内的特征图的对应质量分数;

s4:根据获取的对应质量分数,将各通道内多张特征图自适应的聚合为一张特征图;

s5:将聚合后的多通道特征图降维为一个特征向量,将该特征向量作为聚合所得的视频人脸表示。

进一步的,所述步骤s1中深度卷积神经网络具体为:

使用resnet101网络作为基础dcnn的主体网络架构,保留resnet101网络中conv1,conv2_x,conv3_x,conv4_x,conv5_x五个部分,丢弃conv5_x后的averagepool,1000-dfc以及softmax层,其中,由conv5_x部分输出的各通道特征图组成的特征图集作为聚合模块的输入用于聚合任务。

进一步的,所述步骤s3中对应质量分数的获取过程具体为:

特征图质量感知模块使用一个浅层的神经网络来获得特征图在质量空间的映射,然后将全部映射值通过softmax操作获得对应的质量分数。

进一步的,所述softmax的公式如下:

式中,sk表示通道内第k张特征图对应的质量分数,qi表示第i个特征值。由于对生成的质量分数{sk}存在∑ksk=1,因此,{sk}可作为权值用于后续聚合。

进一步的,所述浅层的神经网络包括3个卷积层、3个密集连接层以及一个softmax层。

进一步的,所述步骤s4具体为:

令a(·)为特征图质量感知模块,在k通道的聚合方式如下所示:

其中,ck为在k通道聚合所得特征图,fk′为k通道全部特征图,fk′i为k通道第i张特征图;聚合后的多通道特征图表示为f″={c1,c2,…,cd}。

进一步的,所述步骤s5中的降维过程具体为:

s5-1:聚合后的特征图与单张人脸图像特征图具有相同的含义及相似的形状,在聚合后的特征图增加两个卷积层来增强聚合特征的表示,并使用relu作为激活函数增加非线性表达;

s5-2:在网络的最终输出部分,放弃了传统的直接使用全连接层获得指定维度输出,而使用全卷积的方式获得紧凑的特征向量表示,然后再使用全连接层获得指定维度输出。

本发明涉及到一种用于无约束视频人脸识别的特征图聚合网络。本发明利用特征图聚合网络完成特征图聚合,其首先使用一个基础的端到端的dcnn模型将输入的一组人脸图像映射为相应数量的多通道特征图,映射后的多通道特征图作为输入用于聚合网络。在网络聚合部分,对多张人脸对应的多通道特征图进行重构,重构后每个通道内包含各图像在此通道的特征图,其中,各通道相应特征图位置是一致的。通过特征图质量感知模块,重构后的各特征图获得其对应的质量分数。以此质量分数为权重,对基础dcnn提取的多通道特征图在各个通道对不同图像的特征图进行加权聚合,聚合后的多通道特征图具有和单张图像相同的形式和含义。与对图像的处理相似,对聚合所得的多通道特征图使用两层卷积操作后通过全局卷积进行降维,进而获得更为紧凑的向量表示。

有益效果:本发明与现有技术相比,具有如下优点:

1、特征图具有更多的参数可用于学习,在特征图层次的聚合能够获得更为准确的质量分数。

2、在不同的特征通道内分别对视频人脸进行聚合,能够避免不同特征通道对聚合产生的影响。

3、视频人脸通过特征图聚合网络后具有单一的视频人脸表示,有利于获得更为准确的人脸表示,同时降低后续任务的计算量。

附图说明

图1为本发明中特征图聚合网络的整体框架图;

图2为本发明中特征图质量感知模块示意图。

具体实施方式

下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供一种特征图聚合网络用于实现无约束视频人脸识别,如图1所示,本实施例中采用该特征图聚合网络对无约束的视频人脸或图像集进行聚合,实现人脸识别,特征图聚合过程具体包括如下步骤:

s1:使用深度卷积神经网络作为基础特征图提取模块获得视频人脸中每帧人脸对应的多通道特征图。

本实施例中基础特征图提取模块是一个深度的卷积神经网络,具有和常规的基于图像的人脸识别模型相似的结构。不同于一般的dcnn模型将待识别图像映射为一个紧凑的特征向量,本实施例中使用的基础特征图提取模块将人脸图像映射为表征不同高级特征的特征图集。

该基础特征图提取模块使用当前在图像识别领域表现出众的resnet101网络作为基础dcnn的主体网络架构,并保留了resnet101的conv1,conv2_x,conv3_x,conv4_x,conv5_x五个部分,丢弃了conv5_x后的averagepool,1000-dfc以及softmax层。因此,基础特征图提取模块是一个由resnet101保留下来的五个部分组成的端到端的映射模型。其中,由conv5_x部分输出的各通道特征图组成的特征图集作为聚合模块的输入用于聚合任务。

s2:对视频人脸对应的全部多通道特征图以通道为单位进行重构,使得每个通道内包含全部人脸帧在该通道的特征图。

在本实施例中,设t={i1,i2,,in}为一组待聚合人脸图像,h()为fman的步骤s1中基础特征图提取模块。因此,单张人脸图像特征图fi=h(ii),设f为图像组t对应特征图组,则f={f1,f2,…fn}。其中,fi为通道数为d,大小为w×h的三维数据。fi的每个通道表示了基础dcnn模块提取的区分人脸不同的部分特征,为对每个通道特征进行聚合,首先将特征图组按照通道数进行重构。

设f′为重构后特征图组,则f′={f′1,f′2,…f′d}。其中,f′i为深度为n,大小为w×h的三维数据,表示n张聚合图像在第i通道的特征图集。

s3:对获得的各通道特征图集使用特征图质量感知模块获得各通道内特征图对应质量分数;

特征图质量感知模块读取步骤s1重构后的单通道内的一组特征图作为感知对象,并为每张特征图生成对应的质量分数。

特征图质量感知模块是一个浅层的神经网络,如图2所示,该神经网络共有7层,其中包括3个卷积层、3个密集连接层以及一个softmax层。一组特征图中的每张特征图首先并行的通过2个卷积层,然后通过一个全局卷积层将卷积操作产生的各通道特征图降维为一组特征值,最后通过3个全连接层将特征图对应的一组特征值降维为一个特征值。以此方式,输入的一组特征图被映射为对应的一组包含质量信息的特征值。

本实施例中为了获得特征图质量的相对质量分数,以便于在通道内进行加权聚合,将这一组特征值通过somtmax操作转换为质量分数,具体公式如下:

式中,sk表示通道内第k张特征图对应的质量分数,qi表示第i个特征值。由于对生成的质量分数{sk}存在∑ksk=1,因此,{sk}可作为权值用于后续聚合。

s4:根据质量分数将各通道内多张特征图自适应的聚合为一张特征图。

质量感知模块以fi′作为感知输入,输出为fi′中n张特征图对应的质量分数,设a(·)为特征图质量感知模块,因此在k通道的聚合方式具体如下所示:

其中,ck为在k通道聚合所得特征图,f′k为k通道全部特征图,f′ki为k通道第i张特征图。因此,聚合后的多通道特征图可表示为f″={c1,c2,…,cd}。

s5:将聚合后的多通道特征图降维为一个特征向量,该特征向量为聚合所得的视频人脸表示。

由于聚合后的f″与单张人脸图像特征图fi具有相同的含义及相似的形状,因此本实施例使用一些用于单张图像识别的方法对f″的特征表示作进一步处理,以获得更为紧凑的特征表示。

在本实施例中,通过在聚合层后增加了两个卷积层来增强聚合特征的表示,并在适当的位置使用relu作为激活函数以增加非线性表达。在网络的最终输出部分,放弃了传统的直接使用全连接层获得指定维度输出,而使用全卷积的方式获得紧凑的特征向量表示,然后再使用全连接层获得指定维度的向量表示。此指定维度的向量表示即为特征图聚合网络最终的聚合表示,所得向量可用于后续人脸识别任务。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1