一种基于卷积宽度网络的人脸检测和识别方法

文档序号:29737428发布日期:2022-04-21 18:05阅读:149来源:国知局
一种基于卷积宽度网络的人脸检测和识别方法

1.本发明属于人脸检测识别技术领域,具体涉及一种基于卷积宽度网络的人脸检测和识别方法。


背景技术:

2.随着科技和成像技术的发展,人工智能已经涉及到人类生活的方方面面,人脸检测和识别就是一个重要的场景。由于其卓越的学习表征和识别性能,深度学习在人脸检测识别中的研究越来越广泛。pang等人提出的基于级联残差网络的人脸检测方法在双目立体匹配中表现出最高精度。此外,faster-rcnn也在人脸检测上取得了不错的效果,同时缩短了学习时间。还有zhang等人设计的三层级联网络,其准确率超过了92%等。虽然目前的方法在人脸检测识别上表现优异,但是都是基于深度神经网络的,他们的参数量大,资源消耗大,训练时间长。部署在资源受限的设备中时,很难达到实时性的要求。


技术实现要素:

3.本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于卷积宽度网络的人脸检测和识别方法,该方法在保证人脸检测识别的精度的同时,解决了深度学习中参数量大,时间消耗长的问题,能达到实时性的要求。
4.为了达到上述目的,本发明采用以下技术方案:
5.一种基于卷积宽度网络的人脸检测和识别方法,包括以下步骤:
6.s1、使用摄像头采集视频并按一定频率截取视频帧;
7.s2、使用深度网络mtcnn对视频帧进行人脸检测;
8.s3、将检测到的人脸区域输入到卷积宽度人脸识别网络,并输出最终通用的人脸特征;
9.s4、将获得的人脸特征与现有人员库中的人脸特征进行对比,计算与人员库中每个人脸特征的差异值,并根据设定阈值输出人脸识别结果。
10.进一步的,深度网络mtcnn包括三个级联子网络,分别为p-net、r-net以及q-net。
11.进一步的,p-net具体结构为:
12.p-net网络输入为12
×
12
×
3的图像,中间具有3个3
×
3的卷积,网络第一部分输出是判断该12
×
12图像是否存在人脸,输出向量大小1
×1×
2;网络第二部分输出当前人脸框位置相对完美的人脸框位置的偏移,输出向量为1
×1×
4,表示左上角的横坐标的相对偏移,框左上角的纵坐标的相对偏移、框的宽度的误差以及框的高度的误差;网络第三部分输出人脸的5个特征点的位置,分别对应左右眼位置、鼻子位置以及左右嘴巴位置,每个特征点需要两维来表示,因此输出是向量大小为1
×1×
10。
13.进一步的,r-net具体为:
14.r-net网络输入为24
×
24
×
3的图像,包括3个卷积,大小分别为3
×
3、3
×
3以及2
×
2,3个卷积后接一个全连接层,其输出和p-net输出相同,包含三部分:1
×1×
2的向量表示
是否存在人脸,1
×1×
4的向量表示人脸框位置偏移信息和1
×1×
10的向量表示5个人脸特征位置。
15.进一步的,q-net具体结构为:
16.q-net网络输入为48
×
48
×
3的图像,包括4个卷积,大小分别为3
×
3、3
×
3、3
×
3以及2
×
2,4个卷积后接一个全连接层,其输出边界框的坐标信息和特征点信息。
17.进一步的,步骤s2中,使用深度网络mtcnn对视频帧进行人脸检测具体为:
18.将图像进行不同尺度的变换,构建图像金字塔以适应不同尺度的人脸;
19.在p-net中通过一个人脸分类器判断该区域是否是人脸,同时使用边框回归和一个面部关键点的定位器来进行人脸区域的初步提议,该部分最终将输出多张可能存在人脸的人脸区域,并将这些区域输入r-net进行进一步处理;
20.在r-net中,对输入进行细化选择,并且舍去错误输入,再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,最后输出可信的人脸区域;
21.q-net继续进行人脸判别、人脸区域边框回归和人脸特征定位,最终输出人脸区域的坐标信息与人脸区域的五个特征点。
22.进一步的,步骤s3中,卷积宽度人脸识别网络具体包括:
23.s31、初始化卷积宽度网络参数,模型参数包括映射特征组个数n、组内特征个数k以及增强节点个数m,每种特征对应的卷积核kernel;
24.s32、使用随机卷积核初始化宽度学习中的映射特征节点组;利用模型输入k,使用随机初始化的卷积核kernelk(θ1)计算特征映射节点zn≡[z1,z2,

,zn],其中第i组映射特征zi的计算如公式(1),每一组特征包含k个映射特征;
[0025]
zi=x*kernelk(θ1),i=1,2,

,n
ꢀꢀ
(1)
[0026]
s33、由映射节点zn使用随机初始化的卷积核kernelm(θ2)计算增强节点hm≡[h1,h2,

,hm],其中增强特征hj的计算如公式(2):
[0027]hj
≡zn*kernelm(θ2),j=1,2,

,m
ꢀꢀ
(2)
[0028]
s34、将映射特征和增强节点特征合并成特征层a=α[z|h],连接到模型输出层y,特征层和输出层的连接权重为w;其中α是一个向量,所有元素和为1;真实输出y和特征层a的关系如公式(3):
[0029]
y=wa
ꢀꢀ
(3)
[0030]
s35、使用批量梯度下降算法对其参数进行优化,包括最后一层连接权重和特征层卷积核,直到达到停止条件;若卷积宽度网络的损失函数为公式(4)
[0031][0032]
其中,n表示数据的个数,zi是第i个数据对应的预测输出;
[0033]
对公式(4)所表示的损失函数求偏导有:
[0034][0035]
其中,j=1,2,表示特征层参数组;
[0036]
[0037]
每次迭代对参数θ1,θ2,w使用公式(7)和公式(8)进行更新;
[0038][0039][0040]
其中,α是学习率;
[0041]
重复以上步骤,直到达到停止条件,停止条件是损失函数的值在5次迭代过程中不会发生大的变化;
[0042]
s36、获取优化模型的特征层的人脸识别特征a。
[0043]
进一步的,步骤s4中,当前人脸与人员库中每个人脸特征的差异值是通过公式(9)计算的:
[0044][0045]
其中,i表示人员库中的数量,a
ij
表示第i个人员对应的第j个特征;
[0046]
基于该差异值,获得最小差异值对应人员,并判断该值是否小于设定的可接受阈值,如果小于设定阈值,输出该人员信息;如果大于阈值则输出不存在该人员。
[0047]
本发明与现有技术相比,具有如下优点和有益效果:
[0048]
1、本发明使宽度学习充分利用深度卷积提取的特征,并通过增强层加强特征,为后期人脸识别模块提供有效的人脸特征。此外,由于宽度学习的特点,该框架能使用比较少的参数实现较高的识别精度。
[0049]
2、本发明将深度学习与宽度学习相结合,并用于人脸检测识别,解决了现有人脸识别模型中参数量大,资源消耗大,训练时间长的问题,能够满足实际应用中实时性要求。
[0050]
3、本发明相较于现有的深度人脸识别方法具有快速、有效的特点。
附图说明
[0051]
图1是本发明方法流程示意图;
[0052]
图2是本发明中p-net的结构示意图;
[0053]
图3是本发明中r-net的结构示意图;
[0054]
图4是本发明中q-net的结构示意图;
[0055]
图5是本发明中卷积宽度人脸识别网络结构示意图。
具体实施方式
[0056]
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0057]
实施例
[0058]
如图1所示,本发明,一种基于卷积宽度网络的人脸检测和识别方法,包括以下步骤:
[0059]
s1、使用摄像头采集视频并按一定频率截取视频帧;
[0060]
s2、使用深度网络mtcnn对视频帧进行人脸检测,深度网络mtcnn包括三个级联子
网络,分别为p-net、r-net以及q-net,具体步骤为:
[0061]
将图像进行不同尺度的变换,构建图像金字塔以适应不同尺度的人脸;
[0062]
在p-net中通过一个人脸分类器判断该区域是否是人脸,同时使用边框回归和一个面部关键点的定位器来进行人脸区域的初步提议,该部分最终将输出多张可能存在人脸的人脸区域,并将这些区域输入r-net进行进一步处理;
[0063]
在r-net中,对输入进行细化选择,并且舍去大部分的错误输入,再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,最后输出较为可信的人脸区域;
[0064]
q-net的输入特征更多,在网络结构的最后同样是一个更大的256的全连接层,保留了更多的图像特征,再进行人脸判别、人脸区域边框回归和人脸特征定位,最终输出人脸区域的左上角坐标和右下角坐标与人脸区域的五个特征点。
[0065]
其中,如图2所示,p-net的具体结构为:p-net网络输入为12
×
12
×
3的图像,中间具有3个3
×
3的卷积,网络第一部分输出是判断该12x12图像是否存在人脸,输出向量大小1
×1×
2;网络第二部分输出当前人脸框位置相对完美的人脸框位置的偏移,输出向量为1
×1×
4,表示左上角的横坐标的相对偏移,框左上角的纵坐标的相对偏移、框的宽度的误差以及框的高度的误差;网络第三部分输出人脸的5个特征点的位置,分别对应左右眼位置、鼻子位置以及左右嘴巴位置,每个特征点需要两维来表示,因此输出是向量大小为1
×1×
10。
[0066]
如图3所示,r-net的具体结构为:r-net网络输入为24
×
24
×
3的图像,包括3个卷积,大小分别为3
×
3、3
×
3以及2
×
2,3个卷积后接一个全连接层,其输出和p-net输出相同,包含三部分:1
×1×
2的向量表示是否存在人脸,1
×1×
4的向量表示人脸框位置偏移信息和1
×1×
10的向量表示5个人脸特征位置。
[0067]
如图4所示,q-net的具体结构为:q-net网络输入为48
×
48
×
3的图像,包括4个卷积,大小分别为3
×
3、3
×
3、3
×
3以及2
×
2,4个卷积后接一个全连接层,其输出边界框的坐标信息和特征点信息。
[0068]
s3、将检测到的人脸区域输入到卷积宽度人脸识别网络进行训练,并输出最终通用的人脸特征,具体为:
[0069]
s31、初始化模型参数,模型参数包括映射特征组个数n、组内特征个数k以及增强节点个数m;每种特征对应的卷积核kernel;
[0070]
s32、使用卷积核随机初始化宽度学习中的映射特征节点组。利用模型输入k,使用随机初始化的卷积核kernel(k)计算特征映射节点zn≡[z1,z2,

,zn],其中第i组映射特征zi的计算如公式(1),每一组特征包含k个映射特征;
[0071]
zi=x*kernel(k),i=1,2,

,n
ꢀꢀ
(1)
[0072]
s33、由映射节点zn使用随机初始化的卷积核kernel(m)计算增强节点hm≡[h1,h2,

,hm],其中增强特征hj的计算如公式(2):
[0073]hj
≡zn*kernel(m),j=1,2,

,m
ꢀꢀ
(2)
[0074]
s34、将映射特征和增强节点特征合并成特征层a=α[z|h],连接到模型输出层y,特征层和输出层的连接权重为w;其中α是一个向量,所有元素和为1;真实输出y和特征层a的关系如公式(3):
[0075]
y=wa
ꢀꢀ
(3)
[0076]
s35、使用批量梯度下降算法对其参数进行优化,包括最后一层连接权重和特征层卷积核,直到达到停止条件;若卷积宽度网络的损失函数为公式(4)
[0077][0078]
其中,n表示数据的个数,zi是第i个数据对应的预测输出;
[0079]
对公式(4)所表示的损失函数求偏导有:
[0080][0081]
其中,j=1,2,表示特征层参数组;
[0082][0083]
每次迭代对参数θ1,θ2,w使用公式(7)和公式(8)进行更新;
[0084][0085][0086]
其中,α是学习率;
[0087]
重复以上步骤,直到达到停止条件,停止条件是损失函数的值在5次迭代过程中不会发生大的变化;
[0088]
s36、获取优化模型特征层的人脸识别特征a。
[0089]
如图5所示,为卷积宽度人脸识别网络结构示意图。
[0090]
s4、将获得的人脸特征与现有人员库中的人脸特征进行对比,计算与人员库中每个人脸特征的差异值,并根据设定阈值输出人脸识别结果;当前人脸与人员库中每个人脸特征的差异值是通过公式(9)计算的:
[0091][0092]
其中,i表示人员库中的数量,a
ij
表示第i个人员对应的第j个特征;
[0093]
基于该差异值,获得最小差异值对应人员,并判断该值是否小于设定的可接受阈值,如果小于设定阈值,输出该人员信息;如果大于阈值则输出不存在该人员。
[0094]
在本实施例中,使用公开的数据集casia-webface图像进行模型测试。该数据集包含10575个人的494414张图像。在与深度学习方法facenet作比较时,采用相同的数据分配,其结果如下表1所示。从实验结果来看,基于卷积宽度的人脸检测识别模型比facenet模型的训练精度提升了2.09%,测试精度提升了1.21%。然而其训练时间和参数量上都有大幅度的缩减,并且捕捉相同数量图片的时间有所减少,这对实现实时性有重要意义。
[0095][0096]
表1
[0097]
本发明将深度和宽度网络模型结合,提出了一种基于卷积宽度网络的人脸检测和识别系统,该发明能够充分利用深度的特征提取功能,并同时兼顾宽度学习快速高效的特点。基于该框架的模型具有高效和效果好的优点,对部署人脸识别的实时性要求十分友好。
[0098]
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0099]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1