基于多模型两次融合的人脸深伪检测方法与流程

文档序号:33204282发布日期:2023-02-07 23:36阅读:77来源:国知局
基于多模型两次融合的人脸深伪检测方法与流程

1.本发明涉及一种基于多模型两次融合的人脸深伪检测方法。适用于人脸深度伪造检测领域。


背景技术:

2.随机互联网的快速发展,数字媒体信息在其中的传播也越来越迅速和广泛,伴随着深度学习以及神经网络的发展,出现了神经网络驱动生成的虚假图像和视频人脸,这些图像和视频甚至人眼无法区分。这类方法对影视行业以及艺术创作等等提供了新的思路和方法,但恶意传播深度伪造数字媒体会导致社会出现安全问题甚至信任危机,因此如何鉴别互联网中传播的数字媒体的真实性,开发有效的人脸深度伪造检测方法成为亟待解决的问题。
3.早期的人脸深度伪造检测方法依赖于具有丰富经验的专家,针对特定的伪造方法设计出具有代表性的特征,使得特征之间具备可区分性。然而随着人脸伪造生成技术的发展,伪造方法越来越多样化,不同伪造方法之间的差异也越来越大。这种方法费时费力,难以适应新的发展,不具备泛化性和鲁棒性。
4.深度学习的发展特别是卷积神经网络(cnn)的发展,引入了另一种途径来应对这一挑战。cnn是一种分层的数据表示方式,高层的特征表示依赖于底层的特征表示,由浅入深逐步抽象地提取更具备高级语义信息的特征。cnn在提取特征时一方面通过权重共享,极大的降低参数量来避免更多冗余的计算从而提高网络模型计算的效率,另一方面又结合卷积和池化的局部相关特性,使网络具备一定的平移不变性和平移等变性。cnn这两种强大的归纳偏置使得它即使使用非常少的数据也能实现高性能,目前是人脸深度伪造检测的主流方法。
5.transformer是一种基于注意力的编码器-解码器架构,已在自然语言处理(nlp)领域广泛使用。与cnn相比,transformer利用注意力的方式来捕获全局的上下文信息对目标建立起远距离的依赖,从而提取出更强有力的特征,具有出色的建模能力。基于transformer的建模能力,视觉transformer(vit)也慢慢引入到图像识别领域。
6.cnn和vit具有各自的优势,他们在解决某一类问题的能力上比较出色,但在解决另一类问题时,结果可能不尽如人意,使用单一模型很容易遇到模型泛化瓶颈。


技术实现要素:

7.本发明要解决的技术问题是:针对上述存在的问题,提供一种具有更高的准确率、泛化性和鲁棒性的基于多模型两次融合的人脸深伪检测方法。
8.本发明所采用的技术方案是:一种基于多模型两次融合的人脸深伪检测方法,其特征在于:
9.获取待检测图像;
10.将待检测图像输入经训练的人脸深伪检测模型,得到检测判断结果;
11.所述人脸深伪检测模型包括基于cnn的人脸深伪检测基模型ⅰ、基于vit的人脸深伪检测基模型ⅱ和基于cnn+vit的人脸深伪检测基模型ⅲ,以及用于融合基模型ⅰ、ⅱ、ⅲ预测结果得到检测判断结果的元学习器;
12.所述基模型ⅰ、ⅱ、ⅲ在训练时均采用多组不同超参数训练得到多个初级模型,将各基模型对应的多个初级模型融合得到经训练的相应基模型。
13.所述人脸深伪检测基模型ⅰ基于convnext-s纯卷积网络构建;所述人脸深伪检测基模型ⅱ基于swint-transformer-s纯注意力网络构建;所述人脸深伪检测基模型ⅲ基于coatnet_1卷积和注意力相结合网络构建。
14.所述基模型ⅰ、ⅱ、ⅲ在训练时均采用多组不同超参数训练得到多个初级模型,包括:
15.将模型训练用数据集分成k份,其中任意k-1份数据用于训练,剩余1份数据用于验证;
16.对应每组超参数,用k种不同的k-1份数据进行训练,得到该组超参数对应的k个模型;
17.基于k个模型在验证数据上的表现,选择其中一个模型作为该组超参数对应的初级模型。
18.所述将各基模型对应的多个初级模型融合得到经训练的相应基模型,包括:
19.采用贪婪算法将各基模型对应的多个初级模型进行加权融合,得到经训练的相应基模型。
20.所述元学习器的训练,包括:
21.将模型训练用数据集分成m份,其中任意m-1份数据用于训练,剩余1份数据用于验证;
22.对应每个基模型ⅰ、ⅱ、ⅲ,均用m种不同的m-1份数据进行训练,得到m个预测模型,获取m个预测模型在相应验证数据上的预测结果;
23.将基模型ⅰ、ⅱ、ⅲ对数据集中每份数据的预测结果作为训练集,训练元学习器。
24.一种基于多模型两次融合的人脸深伪检测装置,其特征在于,包括:
25.图像获取模块,用于获取待检测图像;
26.模型预测模块,用于将待检测图像输入经训练的人脸深伪检测模型,得到检测判断结果;
27.所述人脸深伪检测模型包括基于cnn的人脸深伪检测基模型ⅰ、基于vit的人脸深伪检测基模型ⅱ和基于cnn+vit的人脸深伪检测基模型ⅲ,以及用于融合基模型ⅰ、ⅱ、ⅲ预测结果得到检测判断结果的元学习器;
28.所述基模型ⅰ、ⅱ、ⅲ在训练时均采用多组不同超参数训练得到多个初级模型,将各基模型对应的多个初级模型融合得到经训练的相应基模型。
29.一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于多模型两次融合的人脸深伪检测方法的步骤。
30.一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于多模型两次融合的人脸深伪检测方法的步骤。
31.本发明的有益效果是:本发明使用多种低相关性的基模型提取特征,并将不同超参训练的同一基模型融合,最后再通过元学习器融合多种基模型预测结果,得到预测结果,通过两次模型融合,充分融合不同基模型的性能优势,突破了单个模型对不同伪造类型的泛化能力的瓶颈,相比现有的人脸深度伪造检测技术而言具有更高的准确率、泛化性和鲁棒性性,提升了人脸深度伪造检测技术的性能。
32.cnn具有强大的归纳偏置,局部相关性和权重共享,使得即使使用非常少的数据也能实现高性能,但当存在大量数据时,这些归纳偏置就可能会限制模型。相比之下,transformer具有出色的全局建模能力,具有最小的归纳偏置,这种灵活性让transformer在大数据上性能优于cnn。本发明中使用cnn、vit和cnn+vit三种相关性较低的基模型,三种基模型互补,具备不同伪造类型的特征提取能力。
33.本发明中使用不同的超参训练得到多个模型,再对得到的多个模型使用贪婪算法加权融合得到最优模型,在不增加推理成本的同时,提高算法的准确率和鲁棒性。
34.本发明将多个基模型的预测结果融合起来作为的预测结果,先采用交叉验证解决过拟合问题,然后使用元学习器自适应的学习多个模型的融合权重,避免了人工参数设定的影响。通过融合多个模型,综合各个模型的优点,突破了单个模型对不同伪造类型的泛化能力的瓶颈。
附图说明
35.图1为实施例中模型训练的流程图。
具体实施方式
36.本实施例为一种基于多模型两次融合的人脸深伪检测方法,具体包括以下步骤:获取待检测图像;将待检测图像输入经训练的人脸深伪检测模型,得到检测判断结果。
37.本例中人脸深伪检测模型包括三种相关性较低的人脸深伪检测基模型和用于将三种人脸深伪检测基模型输出检测结果融合并给出检测判断结果的元学习器,其中三种人脸深伪检测基模型分别为基于cnn的人脸深伪检测基模型ⅰ、基于vit的人脸深伪检测基模型ⅱ和基于cnn+vit的人脸深伪检测基模型ⅲ。
38.本实施例中基模型ⅰ具体基于convnext-s纯卷积网络(liu z,mao h,wu c y,et al.a convnet for the 2020s[c]//proceedings of the ieee/cvf conference on computer vision and pattern recognition.2022:11976-11986.)构建;基模型ⅱ具体基于swint-transformer-s纯注意力网络(liu z,lin y,cao y,et al.swin transformer:hierarchical vision transformer using shifted windows[c]//proceedings of the ieee/cvf international conference on computer vision.2021:10012-10022.)构建;基模型ⅲ具体基于coatnet_1卷积和注意力相结合网络(dai z,liu h,le q v,et al.coatnet:marrying convolution and attention for all data sizes[j].advances in neural information processing systems,2021,34:3965-3977.)构建。
[0039]
本实施例中人脸深伪检测模型的训练方法,包括以下步骤:
[0040]
s1、获取训练和测试用数据集,并使用面部重演、换脸、人脸属性编辑等方法对数据集进行扩充,并对生成样本进行随机模糊、添加噪声、压缩等操作。
[0041]
s2、为了增强模型的泛化性,引入交叉验证的方法,将数据集分成训练集和测试集,比例为10:1;再将训练集分成k份(本例k=5),对于每一个基模型,用训练集中任意的k-1份数据训练,然后将剩余未用来训练的一份数据进行验证。
[0042]
s3、对基模型ⅰ、ⅱ、ⅲ均采用多组不同超参数(具体包括不同种子、不同学习率和优化器组合)进行训练,不同超参数的基模型ⅰ、ⅱ、ⅲ训练后均得到多个初级模型。
[0043]
本例中种子个数设为3个,不同学习率和不同优化器组合3种,共得到9种不同超参数组合,每组超参数对应的基模型用k种不同的k-1份数据进行训练,得到该组超参数对应的k个模型,从k个模型中选择在相应验证数据上效果最好的一个模型作为该组超参数对应的初级模型。每个基模型得到9个初级模型,设{θi}
i=1,2,3
…9为基模型在不同的超参数上训练得到的模型权重集合。
[0044]
s4、将同一基模型的9个初级模型融合,即将步骤s3中{θi}
i=1,2,3
…9融合,融合时采用贪婪算法,融合步骤如下:
[0045]
1)、将同一基模型的9个初级模型融合按其在验证数据上的准确率从高到低排序,同步调整{θi}
i=1,2,3
…9中排序;
[0046]
2)、初始化融合模型为θm=θ1;
[0047]
3)、选择下一个准确率次大的模型与θm的权重平均,并将融合的模型在验证集上计算准确率,若准确率大于θm的准确率,则更新θm为新融合模型,否则保持θm不变;
[0048]
4)、重复步骤3)直到选择完所有初级模型,得到该基模型对应的经训练模型。
[0049]
s5、在经训练的基模型ⅰ、ⅱ、ⅲ上堆叠一层经训练的元学习器,将3个基模型预测结果融合给出最终的检测判断结果,其中元学习器采用两层卷积网络和一层全连接层堆叠。
[0050]
本实施例中元学习器的训练,包括以下步骤:
[0051]
将模型训练用数据集分成m(本例m=5)份,其中任意m-1份数据用于训练,剩余1份数据用于验证;
[0052]
对应每个基模型ⅰ、ⅱ、ⅲ,均用m种不同的m-1份数据进行训练,得到m个预测模型,获取m个预测模型对相应验证数据的预测结果(即基模型对训练用数据集中每份数据都有预测结果);
[0053]
获取m个预测模型对测试用数据集的预测结果;
[0054]
将基模型ⅰ、ⅱ、ⅲ对训练用数据集中每份数据的预测结果作为训练集,将基模型ⅰ、ⅱ、ⅲ对测试用数据集的预测结果作为测试集,训练元学习器。
[0055]
本实施例还提供一种基于多模型两次融合的人脸深伪检测装置,包括图像获取模块和模型预测模块,其中图像获取模块用于获取待检测图像;模型预测模块用于将待检测图像输入经训练的人脸深伪检测模型,得到检测判断结果。
[0056]
本例中模型预测模块所用人脸深伪检测模型包括基于cnn的人脸深伪检测基模型ⅰ、基于vit的人脸深伪检测基模型ⅱ和基于cnn+vit的人脸深伪检测基模型ⅲ,以及用于融合基模型ⅰ、ⅱ、ⅲ预测结果得到检测判断结果的元学习器。基模型ⅰ、ⅱ、ⅲ在训练时均采用多组不同超参数训练得到多个初级模型,将各基模型对应的多个初级模型融合得到经训练的相应基模型。
[0057]
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计
算机程序被执行时实现本例中基于多模型两次融合的人脸深伪检测方法的步骤。
[0058]
本实施例还提供一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本例中基于多模型两次融合的人脸深伪检测方法的步骤。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1