人脸篡改视频检测方法和人脸篡改视频检测装置

文档序号：25216818发布日期：2021-05-28 14:15阅读：125来源：国知局

本申请涉及图像技术领域，具体涉及一种人脸篡改视频检测方法和人脸篡改视频检测装置，以及计算机可读存储介质和电子设备。

背景技术：

随着深度学习和计算机视觉技术的发展，越来越多的篡改视频被合成。恶意的篡改视频被上传到互联网平台后，会造成恶劣的社会影响，因此，需要检测视频是否被篡改。

然而，现有人脸篡改视频检测技术的检测准确率不高、通用性差。例如，在篡改视频较为模糊或者压缩率较高或者篡改视频的类型在现有人脸篡改视频检测模型的训练集中没有出现过时，现有人脸篡改视频检测技术的检测准确率很低、通用性差，无法满足对人脸篡改视频检测的需求。另外，现有的人脸篡改视频检测技术在使用一段时间后，容易被视频篡改技术找到缺陷，即容易被攻破，不能长久的保持准确率。因此，如何提高人脸篡改视频检测的准确率、通用性和准确率保持性成为亟待解决的问题。

技术实现要素：

为了解决上述技术问题，提出了本申请。本申请实施例提供了一种人脸篡改视频检测方法和人脸篡改视频检测装置，以及计算机可读存储介质和电子设备。

在一方面，本申请一实施例提供的一种人脸篡改视频检测方法包括：基于待检测视频对应的多幅图像帧确定所述多幅图像帧对应的多个盲反卷积核，其中，所述多幅图像帧和所述多个盲反卷积核呈一一对应关系；基于所述多个盲反卷积核确定所述待检测视频的类型，其中，所述类型包括篡改视频和非篡改视频。

在本申请一实施例中，所述基于所述多个盲反卷积核确定所述待检测视频的类型，包括：基于所述多个盲反卷积核确定所述多个盲反卷积核对应的特征向量；基于所述特征向量确定所述待检测视频的类型。

在本申请一实施例中，所述基于所述多个盲反卷积核确定所述多个盲反卷积核对应的特征向量，包括：基于所述多个盲反卷积核确定所述待检测视频对应的卷积核特征向量；利用主成份分析算法，对所述待检测视频对应的卷积核特征向量进行降维处理，以生成所述特征向量。

在本申请一实施例中，所述利用主成份分析算法，对所述待检测视频对应的卷积核特征向量进行降维处理，以生成所述特征向量，包括：确定所述待检测视频对应的主成份维度；利用所述主成份分析算法，基于所述主成份维度对所述待检测视频对应的卷积核特征向量进行所述降维处理，以生成所述特征向量。

在本申请一实施例中，所述确定所述待检测视频对应的主成份维度，包括：确定测试视频对应的卷积核特征向量、实际类型和多个主成份维度，其中，所述测试视频与所述待检测视频对应；利用所述主成份分析算法，基于所述测试视频对应的多个主成份维度，分别对所述测试视频对应的卷积核特征向量进行降维处理，以生成所述测试视频对应的多个特征向量；基于所述测试视频对应的多个特征向量确定所述测试视频对应的多个测试类型；基于所述测试视频对应的多个主成份维度、多个测试类型和实际类型，确定所述待检测视频对应的主成份维度。

在本申请一实施例中，所述基于所述特征向量确定所述待检测视频的类型，包括：将所述特征向量输入视频分类模型，以确定所述待检测视频的类型。

在本申请一实施例中，在所述将所述特征向量输入视频分类模型，以确定所述待检测视频的类型之前，还包括：确定训练视频对应的特征向量以及实际类型；建立初始分类模型，并基于所述训练视频对应的特征向量和实际类型训练所述初始分类模型，以生成视频分类模型，其中，所述视频分类模型用于基于所述待检测视频确定所述待检测视频的类型。

在本申请一实施例中，所述待检测视频包括人脸信息，其中，所述基于待检测视频对应的多幅图像帧确定所述多幅图像帧对应的多个盲反卷积核，包括：基于所述待检测视频对应的多幅图像帧确定所述多幅图像帧对应的多组人脸特征点信息；基于所述多组人脸特征点信息确定所述多组人脸特征点信息对应的多个面部区域信息；基于所述多个面部区域信息确定所述多个盲反卷积核。

在一方面，本申请一实施例提供的一种人脸篡改视频检测装置包括：第一确定模块，配置为基于待检测视频对应的多幅图像帧确定所述多幅图像帧对应的多个盲反卷积核，其中，所述多幅图像帧和所述多个盲反卷积核呈一一对应关系；第二确定模块，配置为基于所述多个盲反卷积核确定所述待检测视频的类型，其中，所述类型包括篡改视频和非篡改视频。

在一方面，本申请一实施例提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述实施例所提及的人脸篡改视频检测方法。

在一方面，本申请一实施例提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述实施例所提及的人脸篡改视频检测方法。

本申请实施例提供了一种人脸篡改视频检测方法和人脸篡改视频检测装置，以及计算机可读存储介质和电子设备。该人脸篡改视频检测方法基于待检测视频对应的多幅图像帧确定所述多幅图像帧对应的多个盲反卷积核，并基于所述多个盲反卷积核确定所述待检测视频的类型，即确定所述待检测视频是篡改视频还是非篡改视频。由于篡改视频和非篡改视频对应的图像的盲反卷积核有一定的差异，通过盲反卷积核确定所述待检测视频的类型，提高了人脸篡改视频检测的准确性，且篡改视频和非篡改视频对应的图像的盲反卷积核之间的差异对视频的模糊程度、压缩率等要求较低，因此，通过盲反卷积核确定待检测视频的类型的方法通用性强。另外，篡改视频和非篡改视频对应的图像的盲反卷积核之间的差异是客观存在且不易改变的，因此，不容易被攻破，能长久的保持准确率，即提高了准确率保持性。

附图说明

图1所示为本申请一实施例提供的人脸篡改视频检测方法的流程示意图。

图2a所示为本申请一实施例提供的篡改视频对应的盲反卷积核可视化后的图像。

图2b所示为本申请一实施例提供的第一非篡改视频对应的盲反卷积核可视化后的图像。

图2c所示为本申请一实施例提供的第二非篡改视频对应的盲反卷积核可视化后的图像。

图3所示为本申请一实施例提供的基于多个盲反卷积核确定待检测视频的类型的流程示意图。

图4所示为本申请一实施例提供的基于多个盲反卷积核确定特征向量的流程示意图。

图5所示为本申请一实施例提供的生成特征向量的流程示意图。

图6所示为本申请一实施例提供的确定待检测视频对应的主成份维度的流程示意图。

图7所示为本申请一实施例得到的测试视频的主成份维度与人脸篡改视频检测的准确率之间的关系示意图。

图8所示为本申请另一实施例提供的基于多个盲反卷积核确定待检测视频的类型的流程示意图。

图9所示为本申请一实施例提供的生成视频分类模型的流程示意图。

图10所示为本申请一实施例提供的基于待检测视频对应的多幅图像帧确定盲反卷积核的流程示意图。

图11所示为本申请一实施例提供的人脸篡改视频检测装置的结构示意图。

图12所示为本申请另一实施例提供的人脸篡改视频检测装置的结构示意图。

图13所示为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

申请概述

目前的视频篡改方法主要有全脸合成、人脸交换、面部属性篡改和面部表情篡改等。全脸合成是利用生成对抗性网络gans直接生成整个面部区域。人脸交换是利用fakeswap、deepfake等方法将一个人脸图像直接替换为另一个人脸图像。面部属性篡改是利用startgan等方法修改面部皮肤、年龄、是否戴眼镜等属性。面部表情篡改是利用fake2face等方法修改面部表情，例如将一个人的面部表情转移到另一个人的脸上。以上视频篡改方法主要是利用深度学习技术识别出视频中的某些特征，从而判断视频是否被篡改，然而不同的视频篡改方法对应了不同的特征，因此，现有的人脸篡改视频检测技术准确率和通用性较低。且当人脸篡改视频检测方法中检测的特征被公开后，不法人员会针对被公开的检测特征制作无法被检测出来的篡改视频，导致现有的人脸篡改视频检测方法的使用时间大大缩短，例如，当利用眨眼特征检测篡改视频的方法被公开几个月后，就有人合成了可以眨眼的篡改视频，导致利用眨眼特征检测篡改视频的方法无法继续使用。

针对上述的技术问题，本申请的基本构思是提出一种人脸篡改视频检测方法。由于篡改视频和非篡改视频对应的图像的盲反卷积核有一定的差异，且该差异不受视频篡改方法的影响，通过盲反卷积核确定待检测视频的类型，提高了人脸篡改视频检测的准确性，且篡改视频和非篡改视频对应的图像的盲反卷积核之间的差异对视频的模糊程度、压缩率等要求较低，因此，通过盲反卷积核确定待检测视频的类型的方法通用性强。另外，篡改视频和非篡改视频对应的图像的盲反卷积核之间的差异是客观存在且不易改变的，因此，不容易被攻破，能长久的保持准确率。

需要说明的是，本申请所提供的人脸篡改视频检测方法可以应用于人脸篡改视频检测的众多场景。例如，对人脸篡改、动物面部篡改、车辆外观篡改等众多场景的人脸篡改视频检测都有较高的准确性和通用性。本申请对人脸篡改视频检测所适用的应用场景不做具体限定。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图1所示为本申请一实施例提供的一种人脸篡改视频检测方法的流程示意图。如图1所示，该人脸篡改视频检测方法包括如下步骤。

步骤101：基于待检测视频对应的多幅图像帧确定多幅图像帧对应的多个盲反卷积核。

示例性地，多幅图像帧和多个盲反卷积核呈一一对应关系。

具体而言，待检测视频可能是篡改视频，也可能是非篡改视频，因此需要对待检测视频进行检测，判断待检测视频是否是篡改视频。待检测视频可以是包括人脸的视频，本申请对待检测视频的种类不做具体限定。待检测视频对应的多幅图像帧是将待检测视频进行逐帧分解后，在分解出的图像帧中选取的多幅图像帧。多幅图像帧可以是随机选取的，也可以是按照时间规律选取的，例如每隔五帧选取一幅图像帧。本申请对图像帧的选取规则不做具体限定。盲反卷积核是利用盲反卷积算法对待检测视频对应的多幅图像帧进行计算得到的。每幅图像帧对应一个盲反卷积核。

步骤102：基于多个盲反卷积核确定待检测视频的类型。

示例性地，待检测视频的类型包括篡改视频和非篡改视频。

具体而言，盲反卷积核的表征形式可以是一个矩阵，也可以是一个数值。当盲反卷积核的表征形式是一个矩阵时，可以将多个盲反卷积核对应的矩阵合成为一个总矩阵，总矩阵中的每个元素以及每个元素之间的关系都能够表征多个盲反卷积核的特征。例如当总矩阵中的每个元素的数值大小相差不多时，可以认为该多个盲反卷积核较平坦，即该多个盲反卷积核对应的待检测视频是篡改视频；当总矩阵中的每个元素的数值大小相差较多时，可以认为该多个盲反卷积核不平坦，即该多个盲反卷积核对应的待检测视频是非篡改视频。再例如，当盲反卷积核的表征形式是一个数值时，可以选取多个盲反卷积核的最大值、平均值等作为待检测视频的盲反卷积核的数值，然后可以根据该数值的大小判断待检测视频是篡改视频还是非篡改视频。

示例性地，选取3个待检测视频进行人脸篡改视频检测方法的效果验证，第一个待检测视频为篡改视频，第二个待检测视频为第一非篡改视频，第三个待检测视频为第二非篡改视频，篡改视频是由第一非篡改视频和第二非篡改视频合成的。基于3个待检测视频确定每个待检测视频对应的1幅图像帧，并通过盲反卷积算法计算出图像帧对应的盲反卷积核，每个盲反卷积核都是一个矩阵，将每个待检测视频的盲反卷积核可视化后，可以得到一个盲反卷积核图像。如图2a、2b和2c所示，图2a为篡改视频的盲反卷积核图像，图2b为第一非篡改视频的盲反卷积核图像，图2c为第二非篡改视频的盲反卷积核图像，图2a、2b和2c中的横坐标为矩阵的列数，纵坐标为矩阵的行数，右侧标尺为归一化的盲反卷积核数值。从图2a、2b和2c可以看出，篡改视频的归一化的盲反卷积核数值的范围在0-0.07之间，第一非篡改视频的归一化的盲反卷积核数值的范围在0-0.16之间，第二非篡改视频的归一化的盲反卷积核数值的范围在0-0.16之间，即篡改视频的归一化的盲反卷积核数值变化范围较小，而非篡改视频的盲反卷积核的归一化的盲反卷积核数值变化范围较大，因此，通过盲反卷积核可以很准确的确定待检测视频是篡改视频还是非篡改视频。

本申请实施例提供的人脸篡改视频检测方法基于待检测视频对应的多幅图像帧确定所述多幅图像帧对应的多个盲反卷积核，并基于所述多个盲反卷积核确定所述待检测视频的类型，即确定所述待检测视频是篡改视频还是非篡改视频。由于篡改视频和非篡改视频对应的图像的盲反卷积核有一定的差异，通过盲反卷积核确定所述待检测视频的类型，提高了人脸篡改视频检测的准确性，且篡改视频和非篡改视频对应的图像的盲反卷积核之间的差异对视频的模糊程度、压缩率等要求较低，因此，通过盲反卷积核确定待检测视频的类型的方法通用性强。另外，篡改视频和非篡改视频对应的图像的盲反卷积核之间的差异是客观存在且不易改变的，因此，不容易被攻破，能长久的保持准确率。

图3所示为本申请一实施例提供的基于多个盲反卷积核确定待检测视频的类型的流程示意图。在本申请图1所示实施例的基础上延伸出本申请图3所示实施例，下面着重叙述图3所示实施例与图1所示实施例的不同之处，相同之处不再赘述。

如图3所示，在本申请实施例提供的人脸篡改视频检测方法中，基于多个盲反卷积核确定待检测视频的类型步骤，包括如下步骤。

步骤301：基于多个盲反卷积核确定多个盲反卷积核对应的特征向量。

具体而言，特征向量即为多个盲反卷积核的一种表征形式，但是特征向量的形式更方便计算，从而提高人脸篡改视频检测的效率。同时，特征向量可以包括待检测视频的全部特征，即不会遗漏任何待检测视频的特征，从而在利用特征向量判断待检测视频的类型时，能够使判断更加准确。

步骤302：基于特征向量确定待检测视频的类型。

示例性地，选取3个待检测视频进行人脸篡改视频检测方法的效果验证，第一个待检测视频为篡改视频，第二个待检测视频为第一非篡改视频，第三个待检测视频为第二非篡改视频。基于3个待检测视频确定每个待检测视频对应的20幅图像帧，并通过盲反卷积算法计算出20幅图像帧对应的20个盲反卷积核，每个盲反卷积核都是一个矩阵，选取矩阵中最大的元素数值来表征每个盲反卷积核，因此，每个待检测视频可以对应一个1*20的特征向量，分别对3个待检测视频的特征向量进行归一化处理后，可以看出篡改视频对应的特征向量的20个元素的值都在0-0.07之间，第一非篡改视频和第二非篡改视频对应的的特征向量的20个元素的值基本在0.06-0.13之间，因此，可以看出，特征向量的元素值小的待检测视频即为篡改视频，即可以根据特征向量的元素值的大小准确的确定待检测视频是否为篡改视频。

示例性地，使用图3所示实施例的人脸篡改视频检测方法，分别计算压缩量化系数为40和23的两组视频的盲反卷积核的特征向量。每组视频均包括篡改视频100个(其中，篡改类型为deepfake的有50个，篡改类型为neuraltexture的有50个)、第一非篡改视频100个(其中，用于合成篡改类型为deepfake的有50个，用于合成篡改类型为neuraltexture的有50个)和第二非篡改视频100个(其中，用于合成篡改类型为deepfake的有50个，用于合成篡改类型为neuraltexture的有50个)，并以特征向量中所有元素值之和表征该特征向量的数值，以下使用t、s、f分别表示篡改视频、第一非篡改视频和第二非篡改视频的盲反卷积核的特征向量的数值。可以计算出f＜(s+t)/2的概率、f＜s或f＜t的概率、f＜s且f＜t的概率(具体数值如表1)，和s＜(f+t)/2的概率、s＜f或s＜t的概率、s＜f且s＜t的概率(具体数值如表2)，以及t＜(f+s)/2的概率、t＜f或t＜s的概率、t＜f且t＜s的概率(具体数值如表3)。在表1、表2和表3中，c23_deepfake表示压缩量化系数为23，篡改类型为deepfake，c40_deepfake表示压缩量化系数为40，篡改类型为deepfake，c23_neuraltexture表示压缩量化系数为23，篡改类型为neuraltexture，c40_neuraltexture表示压缩量化系数为40，篡改类型为neuraltexture。

表1所示为篡改视频与第一非篡改视频和第二非篡改视频的第一概率统计表。

表1

表2所示为篡改视频与第一非篡改视频和第二非篡改视频的第二概率统计表。

表2

表3所示为篡改视频与第一非篡改视频和第二非篡改视频的第三概率统计表。

表3

由表1、表2和表3可以看出，无论压缩量化系数为23还是40，无论篡改类型为deepfake还是neuraltexture，f＜(s+t)/2的概率、f＜s或f＜t的概率和f＜s且f＜t的概率均较大，而s＜(f+t)/2的概率、s＜f或s＜t的概率、s＜f且s＜t的概率，以及t＜(f+s)/2的概率、t＜f或t＜s的概率、t＜f且t＜s的概率均较小。因此，盲反卷积核的特征向量的数值较小时即可确定该盲反卷积核对应的待检测视频为篡改视频。

图4所示为本申请一实施例提供的基于多个盲反卷积核确定特征向量的流程示意图。在本申请图3所示实施例的基础上延伸出本申请图4所示实施例，下面着重叙述图4所示实施例与图3所示实施例的不同之处，相同之处不再赘述。

如图4所示，在本申请实施例提供的人脸篡改视频检测方法中，基于多个盲反卷积核确定多个盲反卷积核对应的特征向量步骤，包括如下步骤。

步骤401：基于多个盲反卷积核确定待检测视频对应的卷积核特征向量。

示例性地，当一个盲反卷积核是一个31*31矩阵时，基于多个该盲反卷积核确定的待检测视频对应的卷积核特征向量可以是一个1*(n*961)的向量，其中，n为盲反卷积核的数量，因为每幅图像帧对应一个盲反卷积核，所以n也是图像帧的数量。例如，当基于待检测视频获取20幅图像帧时，n即为20，对应的卷积核特征向量为1*(20*961)，即1*19220的向量。

步骤402：利用主成份分析算法，对待检测视频对应的卷积核特征向量进行降维处理，以生成特征向量。

具体而言，主成份分析算法(pca)是将高维度上的特征映射到低维度上，从而在低维度上表示出主要特征的一种算法。利用主成份分析算法，对待检测视频对应的卷积核特征向量进行降维处理后，得到的特征向量，既能够表征待检测视频的主要特征，保证了人脸篡改视频检测的准确率，又降低了向量的维度，从而减少了计算量，提高了人脸篡改视频检测的效率。

图5所示为本申请一实施例提供的生成特征向量的流程示意图。在本申请图4所示实施例的基础上延伸出本申请图5所示实施例，下面着重叙述图5所示实施例与图4所示实施例的不同之处，相同之处不再赘述。

如图5所示，在本申请实施例提供的人脸篡改视频检测方法中，利用主成份分析算法，对待检测视频对应的卷积核特征向量进行降维处理，以生成特征向量步骤，包括如下步骤。

步骤501：确定待检测视频对应的主成份维度。

具体而言，主成份维度是利用主成份分析法进行降维处理后得到的特征向量的维度。

步骤502：利用主成份分析算法，基于主成份维度对待检测视频对应的卷积核特征向量进行降维处理，以生成特征向量。

由于特征向量的维度越高，特征向量所包含的待检测视频的特征越多，人脸篡改视频检测的准确率越高，但是计算量也会随之增加，人脸篡改视频检测的效率会随之降低。而特征向量的维度越低，特征向量所包含的待检测视频的特征越少，计算量越少，人脸篡改视频检测的效率越高，但是人脸篡改视频检测的准确率会随之降低。因此，选择合适的主成份维度，能够在保证人脸篡改视频检测的准确率的同时，尽可能的提高人脸篡改视频检测的效率。

图6所示为本申请一实施例提供的确定待检测视频对应的主成份维度的流程示意图。在本申请图5所示实施例的基础上延伸出本申请图6所示实施例，下面着重叙述图6所示实施例与图5所示实施例的不同之处，相同之处不再赘述。

如图6所示，在本申请实施例提供的人脸篡改视频检测方法中，确定待检测视频对应的主成份维度步骤，包括如下步骤。

步骤601：确定测试视频对应的卷积核特征向量、实际类型和多个主成份维度。

示例性地，测试视频与待检测视频对应。

具体而言，待检测视频对应的主成份维度可以通过实验得到，实验数据即为测试视频对应的卷积核特征向量、实际类型和多个主成份维度。测试视频与待检测视频的视频种类对应。例如当待检测视频是包括人脸的视频时，测试视频也是包括人脸的视频；当待检测视频是包括动物面部的视频时，测试视频也是包括动物面部的视频。本申请对待检测视频和测试视频的种类不做具体限定，只要是测试视频与待检测视频的种类对应即可。实际类型即该测试视频实际是篡改视频还是非篡改视频。多个主成份维度可以是预先设定的多个维度，例如200维、300维、400维、500维等，本申请对多个主成份维度的数值不做具体限定。

步骤602：利用主成份分析算法，基于测试视频对应的多个主成份维度，分别对测试视频对应的卷积核特征向量进行降维处理，以生成测试视频对应的多个特征向量。

示例性地，实验用测试视频可以是100个，100个测试视频均有对应的卷积核特征向量、实际类型和7个主成份维度。7个主成份维度分别为：0维、200维、400维、600维、800维、1000维和1200维。利用主成份分析算法，基于每测试视频对应的7个主成份维度，分别对每个测试视频对应的卷积核特征向量进行降维处理，以生成每个测试视频对应的每个特征向量。

步骤603：基于测试视频对应的多个特征向量确定测试视频对应的多个测试类型。

示例性地，基于每个测试视频对应的特征向量确定每个测试视频对应的测试类型。测试类型即为通过上述实施例得到的人脸篡改视频检测的类型。

步骤604：基于测试视频对应的多个主成份维度、多个测试类型和实际类型，确定待检测视频对应的主成份维度。

示例性地，通过比对测试类型和实际类型可得得到人脸篡改视频检测的准确率，从而得到每个人脸篡改视频检测的准确率对应的测试类型，以及该测试类型对应的测试视频的主成份维度，从而得到人脸篡改视频检测的准确率和测试视频的主成份维度的对应关系。

图7所示为本申请一实施例得到的测试视频的主成份维度与人脸篡改视频检测的准确率之间的关系示意图。图7的横坐标为测试视频的主成份维度，图7的纵坐标为人脸篡改视频检测的准确率。由图7可以看出当测试视频的主成份维度是200维时，人脸篡改视频检测的准确率较高，当测试视频的主成份维度继续增加到400维、600维、800维、1000维、1200维时，人脸篡改视频检测的准确率没有明显提高，因此，可以得知，测试视频的主成份维度是200维。由于测试视频与待检测视频时的种类相同，因此，可以确定待检测视频的主成分维度是200维时，人脸篡改视频检测的准确率较高。通过实验的方式得到待检测视频的合适的主成分维度，能够在保证人脸篡改视频检测的准确率的同时，尽可能的提高人脸篡改视频检测的效率。

图8所示为本申请另一实施例提供的基于多个盲反卷积核确定待检测视频的类型的流程示意图。在本申请图3所示实施例的基础上延伸出本申请图8所示实施例，下面着重叙述图8所示实施例与图3所示实施例的不同之处，相同之处不再赘述。

如图8所示，在本申请实施例提供的人脸篡改视频检测方法中，基于特征向量确定待检测视频的类型步骤，包括如下步骤。

步骤801：将特征向量输入视频分类模型，以确定待检测视频的类型。

具体而言，视频分类模型可以是一种数学模型，例如svm分类器，也可以是一种网络模型，只要是可以根据特征向量对待检测视频进行分类，从而确定待检测视频时篡改视频还是非篡改视频即可，本申请对视频分类模型不做具体限定。

图9所示为本申请一实施例提供的生成视频分类模型的流程示意图。在本申请图8所示实施例的基础上延伸出本申请图9所示实施例，下面着重叙述图9所示实施例与图8所示实施例的不同之处，相同之处不再赘述。

如图9所示，在本申请实施例提供的人脸篡改视频检测方法中，在将特征向量输入视频分类模型，以确定待检测视频的类型步骤之前，还包括如下步骤。

步骤901：确定训练视频对应的特征向量以及实际类型。

具体而言，步骤901中提及的训练视频可以与上述实施例中的待检测视频对应。

示例性地，训练视频可以是deepfake(以下简称df)、fake2face(以下简称f2f)、neuraltexture(以下简称nt)、fakeswap(以下简称fs)四种篡改类型的视频。

步骤902：建立初始分类模型，并基于训练视频对应的特征向量和实际类型训练初始分类模型，以生成视频分类模型。

示例性地，视频分类模型用于基于待检测视频确定待检测视频的类型。

步骤902中提及的视频分类模型用于基于待检测视频对应的特征向量确定待检测视频的类型。

下面，通过实验对视频分类模型的效果进行验证。实验分为5组。

第一组实验的视频分类模型是通过仅包括一种篡改类型的训练视频进行训练得到的，并用来确定与该训练视频的篡改类型相同的测试视频的类型。具体地，分为四个小组，第一个小组的视频分类模型是通过篡改类型为df的训练视频进行训练得到的，并用来确定篡改类型为df的测试视频的类型；第二个小组的视频分类模型是通过篡改类型为f2f的训练视频进行训练得到的，并用来确定篡改类型为f2f的测试视频的类型；第三个小组的视频分类模型是通过篡改类型为fs的训练视频进行训练得到的，并用来确定篡改类型为fs的测试视频的类型；第四个小组的视频分类模型是通过篡改类型为nt的训练视频进行训练得到的，并用来确定篡改类型为nt的测试视频的类型。

第二组实验的视频分类模型是通过包括四种篡改类型(df、f2f、fs、nt)的训练视频进行训练得到的，并用来确定该四种的篡改类型中的任意一种的测试视频的类型。具体地，分为三个小组，第一个小组的视频分类模型是通过篡改类型为四种篡改类型(df、f2f、fs、nt)的训练视频进行训练得到的，并用来确定篡改类型为df的测试视频的类型；第二个小组的视频分类模型是通过篡改类型为四种篡改类型(df、f2f、fs、nt)的训练视频进行训练得到的，并用来确定篡改类型为f2f的测试视频的类型；第三个小组的视频分类模型是通过篡改类型为四种篡改类型(df、f2f、fs、nt)的训练视频进行训练得到的，并用来确定篡改类型为fs的测试视频的类型。

第三组实验的视频分类模型是通过包括四种篡改类型(df、f2f、fs、nt)中的三种的训练视频进行训练得到的，并用来确定该四种的篡改类型中除去训练视频的三种类型后剩下的一种篡改类型的测试视频的类型。具体地，分为四个小组，第一个小组的视频分类模型是通过篡改类型为三种篡改类型(f2f、fs、nt)的训练视频进行训练得到的，并用来确定篡改类型为df的测试视频的类型；第二个小组的视频分类模型是通过篡改类型为三种篡改类型(df、fs、nt)的训练视频进行训练得到的，并用来确定篡改类型为f2f的测试视频的类型；第三个小组的视频分类模型是通过篡改类型为三种篡改类型(df、f2f、nt)的训练视频进行训练得到的，并用来确定篡改类型为fs的测试视频的类型；第四个小组的视频分类模型是通过篡改类型为三种篡改类型(df、f2f、fs)的训练视频进行训练得到的，并用来确定篡改类型为nt的测试视频的类型。

第四组实验的视频分类模型是通过包括四种篡改类型(df、f2f、fs、nt)中的一种的训练视频进行训练得到的，并用来确定该四种的篡改类型中除去训练视频的一种类型后剩下的三种篡改类型的测试视频的类型。具体地，分为四个小组，第一个小组的视频分类模型是通过篡改类型为df的训练视频进行训练得到的，并用来确定篡改类型为三种篡改类型(f2f、fs、nt)的测试视频的类型；第二个小组的视频分类模型是通过篡改类型为f2f的训练视频进行训练得到的，并用来确定篡改类型为三种篡改类型(df、fs、nt)的测试视频的类型；第三个小组的视频分类模型是通过篡改类型为fs的训练视频进行训练得到的，并用来确定篡改类型为三种篡改类型(df、f2f、nt)的测试视频的类型；第四个小组的视频分类模型是通过篡改类型为三种篡改类型nt的训练视频进行训练得到的，并用来确定篡改类型为(df、f2f、fs)的测试视频的类型。

第五组实验的视频分类模型是通过仅包括一种篡改类型的训练视频进行训练得到的，并用来确定与该训练视频的篡改类型相同的测试视频的类型，且训练视频数据的数量不同。具体地，分为12个小组，第1个小组的视频分类模型是通过篡改类型为df的训练视频进行训练得到的，并用来确定篡改类型为df的测试视频的类型，包括30个训练视频数据；第2个小组的视频分类模型是通过篡改类型为df的训练视频进行训练得到的，并用来确定篡改类型为df的测试视频的类型，包括50个训练视频数据；第3个小组的视频分类模型是通过篡改类型为df的训练视频进行训练得到的，并用来确定篡改类型为df的测试视频的类型，包括70个训练视频数据；第4个小组的视频分类模型是通过篡改类型为f2f的训练视频进行训练得到的，并用来确定篡改类型为f2f的测试视频的类型，包括30个训练视频数据；第5个小组的视频分类模型是通过篡改类型为f2f的训练视频进行训练得到的，并用来确定篡改类型为f2f的测试视频的类型，包括50个训练视频数据；第6个小组的视频分类模型是通过篡改类型为f2f的训练视频进行训练得到的，并用来确定篡改类型为f2f的测试视频的类型，包括70个训练视频数据；第7个小组的视频分类模型是通过篡改类型为fs的训练视频进行训练得到的，并用来确定篡改类型为fs的测试视频的类型，包括30个训练视频数据；第8个小组的视频分类模型是通过篡改类型为fs的训练视频进行训练得到的，并用来确定篡改类型为fs的测试视频的类型，包括50个训练视频数据；第9个小组的视频分类模型是通过篡改类型为fs的训练视频进行训练得到的，并用来确定篡改类型为fs的测试视频的类型，包括70个训练视频数据；第10个小组的视频分类模型是通过篡改类型为nt的训练视频进行训练得到的，并用来确定篡改类型为nt的测试视频的类型，包括30个训练视频数据；第11个小组的视频分类模型是通过篡改类型为nt的训练视频进行训练得到的，并用来确定篡改类型为nt的测试视频的类型，包括50个训练视频数据；第12个小组的视频分类模型是通过篡改类型为nt的训练视频进行训练得到的，并用来确定篡改类型为nt的测试视频的类型，包括70个训练视频数据。

以上第1-4组实验中，每组实验中的每个小组均包括数量相同的训练视频，例如均包括100个训练视频。以上第1-5组实验中，每组实验中的每个小组均包括60个测试视频数据，即进行60次实验，并对应得到60个准确率。

实验的评价指标包括3个，一是60次实验对应的最高准确率，以下简称acc_top；二是60次实验中准确率最高的20个准确率的平均值，以下简称acc_averge_top20；三是60次实验得到的60个准确率的平均值，以下简称acc_averge_60。

以上5组实验得到对应的5组实验结果如下表。

表4所示为第一组实验对应的实验结果统计表。

表4

第一组实验结果中，四种篡改类型的测试视频的acc_averge_60均达到85％以上。acc_averge_top20均达到了92％以上。其中nt类型的测试视频平均准确率最高，达到87.56％。最高的acc_averge_top20达到了95.18％，可以看出这种情况下，nt类型的测试检测效果最好。

表5所示为第二组实验对应的实验结果统计表。

表5

第二组实验结果中，人脸篡改视频检测的准确率相比第二组实验均稍有下降，acc_top没有达到100％，最高达到92.86％。acc_averge_top20最高的是f2f类型的测试视频，达到82.5％。acc_averge_60最高的也是f2f类型的测试视频，为72.26％，在这组实验中，f2f类型的测试人脸篡改视频检测效果较好。

表6所示为第三组实验对应的实验结果统计表。

表6

第三组实验结果中，acc_averge_top20在75％左右，其中准确率最高的是df类型的测试视频，结果为75％。acc_averge_60最高的也是df类型的测试视频，结果为66.19％。df类型的测试视频对应的实验结果相对其它三种类型的测试视频对应的实验结果更好。

表7所示为第四组实验对应的实验结果的第一统计表。

表7

表8所示为第四组实验对应的实验结果的第二统计表。

表8

表9所示为第四组实验对应的实验结果的第三统计表。

表9

第四组实验结果中，针对指标acc_averge_top20：

(1)训练视频是df类型时，fs类型的测试视频的acc_averge_top20最高，达到了80％。

(2)训练视频是f2f类型时，df类型的测试视频的acc_averge_top20最高，达到了79.11％。

(3)训练视频是fs类型时，f2f类型的测试视频的acc_averge_top20最高，达到了79.46％。

(4)训练视频是nt类型时，fs类型的测试视频的acc_averge_top20最高，达到了79.64％。

针对指标acc_averge_60：训练视频是df、f2f、nt类型时，fs类型的测试视频的acc_averge_60最高，分别达到了70.54％、70.24％、70.65％。训练视频是fs类型时，f2f类型的测试视频的acc_averge_60最高，达到了70％。

总体上看，第四组实验结果中，acc_top、acc_averge_top20和acc_averge_60相对前三组实验结果均有所下降，整体上fs类型的测试视频的检测效果较好。

表10所示为第五组实验对应的实验结果的第一统计表。

表10

表11所示为第五组实验对应的实验结果的第二统计表。

表11

表12所示为第五组实验对应的实验结果的第三统计表。

表12

第五组实验结果中，acc_top、acc_averge_top2、acc_averge_60三个指标采用与第一组实验一样的方法和数据对模型进行训练，通过表10、表11和表12可以看出，四种类型的测试视频的acc_averge_top20和acc_averge_60都随着训练视频的数量的增多而提高。

图10所示为本申请一实施例提供的基于待检测视频对应的多幅图像帧确定盲反卷积核的流程示意图。在本申请图1所示实施例的基础上延伸出本申请图10所示实施例，下面着重叙述图10所示实施例与图1所示实施例的不同之处，相同之处不再赘述。

如图10所示，在本申请实施例提供的人脸篡改视频检测方法中，基于待检测视频对应的多幅图像帧确定多幅图像帧对应的多个盲反卷积核步骤，包括如下步骤。

步骤1001：基于待检测视频对应的多幅图像帧确定多幅图像帧对应的多组人脸特征点信息。

具体而言，人脸特征点信息可以是眼睛信息、嘴巴信息等，只要是人类面部的特征点信息即可，本申请对人脸特征点信息不做具体限定。

步骤1002：基于多组人脸特征点信息确定多组人脸特征点信息对应的多个面部区域信息。

具体而言，通过确定人脸特征点信息，可以识别人脸图像在图像帧中的具体位置，因此，可以根据人脸图像在图像帧中的具体位置来提取面部区域信息。

步骤1003：基于多个面部区域信息确定多个盲反卷积核。

具体而言，面部区域是最容易被篡改的位置，且面部区域信息相对人身体其他部位具有较多的特征点，基于面部区域信息确定的盲反卷积核能够包括待检测视频的大部分特征，因此，能够在保证人脸篡改视频检测准确性的基础上，提高人脸篡改视频检测的效率。

示例性装置

图11所示为本申请一实施例提供的人脸篡改视频检测装置的结构示意图。如图11所示，人脸篡改视频检测装置1包括：

第一确定模块10，配置为基于待检测视频对应的多幅图像帧确定多幅图像帧对应的多个盲反卷积核，其中，多幅图像帧和多个盲反卷积核呈一一对应关系；

第二确定模块20，配置为基于多个盲反卷积核确定待检测视频的类型，其中，类型包括篡改视频和非篡改视频。

图12所示为本申请另一示例性实施例提供的肺血管分类装置的结构示意图。在本申请图11所示实施例的基础上延伸出本申请图12所示实施例，下面着重叙述图12所示实施例与图11所示实施例的不同之处，相同之处不再赘述。

如图12所示，第二确定模块20包括：

特征向量确认单元21，配置为基于所述多个盲反卷积核确定所述多个盲反卷积核对应的特征向量；

视频类型确认单元22，配置为基于所述特征向量确定所述待检测视频的类型。

在本申请一实施例中，特征向量确认单元21包括：

卷积核特征向量确定子单元211，配置为基于所述多个盲反卷积核确定所述待检测视频对应的卷积核特征向量；

特征向量生成子单元212，配置为利用主成份分析算法，对所述待检测视频对应的卷积核特征向量进行降维处理，以生成所述特征向量。

在本申请一实施例中，特征向量生成子单元212包括：

维度确定子单元2121，配置为确定所述待检测视频对应的主成份维度；

降维子单元2122，配置为利用所述主成份分析算法，基于所述主成份维度对所述待检测视频对应的卷积核特征向量进行所述降维处理，以生成所述特征向量。

在本申请一实施例中，维度确定子单元2121包括：

测试视频确定子单元21211，配置为确定测试视频对应的卷积核特征向量、实际类型和多个主成份维度，其中，所述测试视频与所述待检测视频对应；

测试视频特征向量生成子单元21212，配置为利用所述主成份分析算法，基于所述测试视频对应的多个主成份维度，分别对所述测试视频对应的卷积核特征向量进行降维处理，以生成所述测试视频对应的多个特征向量；

测试类型确定子单元21213，配置为基于所述测试视频对应的多个特征向量确定所述测试视频对应的多个测试类型；

待检测视频主成份维度确定子单元21214，配置为基于所述测试视频对应的多个主成份维度、多个测试类型和实际类型，确定所述待检测视频对应的主成份维度。

在本申请一实施例中，视频类型确认单元22包括：

模型分类模块221，配置为将所述特征向量输入视频分类模型，以确定所述待检测视频的类型。

在本申请一实施例中，第二确定模块20还包括：

训练视频确认单元23，配置为确定训练视频对应的特征向量以及实际类型；

分类模型生成单元24，配置为建立初始分类模型，并基于所述训练视频对应的特征向量和实际类型训练所述初始分类模型，以生成视频分类模型，其中，所述视频分类模型用于基于所述待检测视频确定所述待检测视频的类型。

在本申请一实施例中，第一确定模块10包括：

人脸特征点确定单元11，配置为基于所述待检测视频对应的多幅图像帧确定所述多幅图像帧对应的多组人脸特征点信息；

面部区域信息确认单元12，配置为基于所述多组人脸特征点信息确定所述多组人脸特征点信息对应的多个面部区域信息；

盲反卷积核确认单元13，配置为基于所述多个面部区域信息确定所述多个盲反卷积核。

图11和图12提供的人脸篡改视频检测装置中的第一确定模块10和第二确定模块20，以及第二确定模块20中包括的特征向量确认单元21、视频类型确认单元22、训练视频确认单元23和分类模型生成单元24，以及特征向量确认单元21中包括的卷积核特征向量确定子单元211和特征向量生成子单元212，以及特征向量生成子单元212中包括的维度确定子单元2121和降维子单元2122，以及维度确定子单元2121中包括的测试视频确定子单元21211、测试视频特征向量生成子单元21212、测试类型确定子单元21213和待检测视频主成份维度确定子单元21214，以及视频类型确认单元22中包括的模型分类模块221，以及第一确定模块10中包括的人脸特征点确定单元11、面部区域信息确认单元12和盲反卷积核确认单元13的操作和功能可以参考上述图1至图10提供的肺血管分类方法，为了避免重复，在此不再赘述。

示例性电子设备

下面，参考图13来描述根据本申请实施例的电子设备。图13所示为本申请一实施例提供的电子设备的结构示意图。

如图13所示，电子设备130包括一个或多个处理器1301和存储器1302。

处理器1301可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备130中的其他组件以执行期望的功能。

存储器1302可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1301可以运行所述程序指令，以实现上文所述的本申请的各个实施例的人脸篡改视频检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如包括待检测视频等各种内容。

在一个示例中，电子设备130还可以包括：输入装置1303和输出装置1304，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置1303可以包括例如键盘、鼠标等等。该输出装置1304可以向外部输出各种信息，包括确定出的待显示组织的类型信息信息等。该输出装置1304可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图13中仅示出了该电子设备130中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备130还可以包括任何其他适当的组件。

示例性计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本申请各种实施例的人脸篡改视频检测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c++等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本申请各种实施例的人脸篡改视频检测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许静;于家伟;金骁;何振;易康;吴杰胜
技术所有人：南开大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。