本发明涉及人脸活体检测,特别是一种基于生成式域适应的人脸活体检测方法。
背景技术:
1、人脸活体检测(fas)旨在检测来自真人或各种人脸呈现攻击的人脸图像。早期作品利用手工制作的功能来解决这个问题,例如sift、lbp和hog。有几种方法利用来自不同域的信息,例如hsv和ycrcb颜色空间、时域和傅立叶谱。最近的方法利用cnn对具有二分类或额外监督的fas建模,例如深度图、反射图和r-ppg信号。其他方法采用解耦合和自定义算子来提高性能。尽管在数据集内训练中取得了良好的结果,但由于域移位较大,它们在目标域上的性能仍然显著下降。
2、为了提高跨域设置下的性能,在fas任务中引入了域泛化(dg)。然而,dg-fas方法旨在将样本映射到公共特征空间,并且缺乏不可见域的特定信息,不可避免地导致不满意的结果。最近对uda-fas的研究主要依靠伪标记、对抗学习或最小化域差异来缩小域移位。然而,它们仍然受到未标记目标域的监督不足的影响,这可能会导致对源模型的负迁移。此外,大多数工作主要关注高级语义特征的对齐,而忽略了对fas任务至关重要的低级特征。
技术实现思路
1、针对上述缺陷,本发明提出了一种基于生成式域适应的人脸活体检测方法,其目的在于解决了现有的人脸活体检测方法存在未标记目标域的监督不足,以及大多数工作主要关注高级语义特征的对齐,而忽略了对人脸活体检测任务的低级特征的问题。
2、为达此目的,本发明采用以下技术方案:
3、一种基于生成式域适应的人脸活体检测方法,包括以下步骤:
4、步骤s1:建立活体检测模型和生成器;
5、步骤s2:将未标记目标域的图像进行域内频谱混合,生成多样化目标图像和原始目标图像;
6、步骤s3:将所述多样化目标图像和所述原始目标图像均通过图像转换风格化为源样式图像,并采用域间神经统计一致性来引导生成器生成源样式图像;
7、步骤s4:将源样式图像输入活体检测模型进行人脸活体检测,输出人脸活体检测的结果。
8、优选地,在步骤s2中,具体包括以下步骤:
9、步骤s21:计算目标图像xt∈dt的傅立叶变换f(xt),具体公式如下:
10、
11、其中,f(xt)(u,v)为目标图像xt的二维离散傅立叶变换,u和v为频域中的频率变量,h为图像的最大高度,w为图像的最大宽度,h为图像高度,w为图像宽度;
12、步骤s22:计算目标图像xt∈dt的傅立叶变换f(xt)的振幅和相位,具体公式如下:
13、a(xt)(u,v)=[r2(xt)(u,v)+i2(xt)(u,v)]1/2
14、
15、其中,a(xt)(u,v)为振幅,p(xt)(u,v)为相位,r(xt)为f(xt)的实部,i(xt)为f(xt)的虚部;
16、步骤s23:计算来自相同未标记目标域dt的两个任意图像的振幅谱之间线性插值,具体公式如下:
17、
18、其中,为混合振幅插值,为图像的振幅插值,为图像的振幅插值,λ~u(0,η),超参数η控制增强的强度;
19、步骤s24:将混合振幅谱与原始相位谱相结合,以重建新的傅立叶表示:
20、
21、其中,为插值图像的二维离散傅立叶变换,为插值图像的混合振幅,为插值图像的原始相位;
22、步骤s25:将通过傅立叶逆变换生成插值图像,具体公式如下:
23、
24、其中,为插值图像。
25、优选地,在步骤s3中,采用域间神经统计一致性来引导生成器生成源样式图像,具体包括以下步骤:计算域间差距lstat,即为域间神经统计一致性损失,具体公式如下:
26、
27、其中,l=∈{1,2,…,l}表示源训练模型中的第l层,包括特征提取器、分类器和深度估计器,l表示源训练模型中的第l层,表示源样式数据的运行平均值,表示源样式数据的运行方差,表示源模型的存储平均值,表示源模型的存储方差。
28、优选地,在步骤s3中,采用特征级和图像级的双重语义一致性来约束内容,以确保图像转换过程中保留语义内容,具体包括以下步骤:
29、步骤s31:将生成的源样式图像和原始目标图像xt作为输入,对imagenet上预训练的vgg16模块的潜在特征施加感知损失lper,感知损失lper的具体公式如下:
30、
31、其中,为源样式图像和原始目标图像xt之间的感知损失,cj为特征图第j层的通道数,hj为特征图第j层的高度,wj为特征图第j层的宽度,为源样式图像第j层的卷积,为原始目标图像xt第j层的卷积;
32、步骤s32:通过最小化语义一致性损耗lph,以加强原始目标图像和源样式图像之间的相位一致性,lph具体公式如下:
33、
34、其中,<,>是点积,||.||2是l2范数,为原始目标图像的原始相位和源样式图像的生成相位之间的负余弦距离,xt为原始目标图像,为源样式图像,f(xt)j为第j个原始目标图像xt的傅立叶变换,为第j个源样式图像的傅立叶变换。
35、优选地,还包括训练活体检测模型步骤,具体包括以下步骤:
36、步骤s51:通过分类器和深度估计器计算熵损失,得到分类器熵损失和深度估计器熵损失,具体公式如下:
37、
38、
39、其中,lent1为分类器熵损失,lent2为深度估计器熵损失,为源样式图像的标签概率分布,c为通道,h为图像的高度,w为图像的宽度,c为通道的总数量,h为图像的高度上限,w为图像的宽度上限,(h,w)为源样式图像的任一像素,为源样式图像上任一像素的深度估计;
40、步骤s52:将分类器熵损失和深度估计器熵损失相加,得到总熵损失,具体公式如下:
41、lent=lent1+lent2
42、其中,lent为总熵损失。
43、优选地,根据活体检测模型训练的总熵损失、感知损失、语义一致性损耗和域间神经统计一致性损失,计算生成器参数优化的总损耗,具体公式如下:
44、ltotal=lstat+lper+λentlent+λphlph
45、其中,ltotal为总损耗,lent为总熵损失,λent为总熵损失的加权系数,lph为语义一致性损耗,λph为语义一致性损耗的加权系数,lstat为域间神经统计一致性损失,lper为感知损失。
46、本技术实施例提供的技术方案可以包括以下有益效果:
47、本方案中一方面通过采用域内频谱混合来扩展目标数据分布,使未标记的目标数据能够在目标域的不可见测试子集上进行测试,有利于避免受到未标记目标域的监督不足的问题。另一方面通过采用域间神经统计一致性来引导生成器生成源样式图像,它在高水平和低水平上将目标数据的特征统计与源样式数据的特征统计完全对齐,并有效缩小域间差距。