
本发明涉及图像处理
技术领域:
,尤其涉及一种以具有热图特征分布的基于cnn的特征提取网络为主,特征热图回归网络为辅的联合图像分类方法。
背景技术:
:一般而言,典型的卷积神经网络主要包括卷积层、池化层和全连接层。其中卷积层与池化层配合组成多个卷积组,逐层提取特征,最终通过若干个全连接层完成分类,而池化层主要是进行数据降维。mesonet的中文译名即“袖珍网络”,其特点是网络参数少且在训练轮次较少的情况下可以达到较高的精度,但是稳定性和泛化能力稍弱。将其前面三层典型传统卷积层替换为两层inception层之后,训练速度虽稍微减缓但结果却更加稳定,也达到了更高的精度,此时的网络称为mesonet_inceptionv4。inception的主要特点是更好地利用网络内部的计算资源,这通过一个精心制作的设计来实现,即该设计允许增加网络的深度和宽度,同时保持计算预算不变。为了优化质量,架构决策基于赫布原则和多尺度处理。在同一层级上运行具备多个尺寸的滤波器,使得网络变宽而非更深。从而可以保留更多细节特征。现有的deepfakes图片分类方法有以下三种:即白盒方法、黑盒方法以及两者相结合的方法。1)白盒方法,其通常会明确地给出真实截图与deepfakes截图的特点。比如其在生物信号、眨眼检测、区块链和智能合同以及视觉特征等方面的差异,并以此作为判断标准。2)黑盒方法,顾名思义,在内部结构完全透明的情况下,给出判断结果。黑盒方法一般是搭建基于cnn或rnn的二分类神经网络。3)黑白盒相结合的方法,即先利用前文述及的白盒方法得到具有明显差异的中间结果,将中间结果送入前文述及的黑盒方法中,再做进一步的区分。上述白盒方法掣肘于图片特性,比如眨眼检测之于不眨眼的原视频,视觉特征检测之于新闻视频等;与之相对,黑盒方法大多是为了分类而分类,依赖于训练生成模型、数据集、特定人脸等。技术实现要素:针对现有图像分类方法所采用的特征提取网络中出现的训练过拟合、图像分类精度不高等问题,本发明提供了一种以具有热图特征分布的基于cnn的特征提取网络为主,特征热图回归网络为辅的联合图像分类网络的图像分类方法。为了达到上述发明目的,本发明采用的技术方案为:一种联合热图特征回归的基于cnn特征提取网络的联合图像分类方法,包括以下步骤:s1、获取待分类的真假图像,并进行图像预处理;s2、构建具有热图特征分布的基于cnn的特征提取分类网络模型,利用步骤s1中预处理后的训练集图像对模型进行训练,得到第一预测结果;s3、构建特征热图回归网络模型,利用步骤s1中预处理后的训练集图像及步骤s2得到的特征图像对模型进行训练,得到第二预测结果;s4、构建联合回归网络模型,将步骤s2得到的第一预测结果与步骤s3得到的第二预测结果进行拼接,并经过联合回归网络模型计算最终预测概率;s5、采用二分类交叉熵损失函数对步骤s4得到的最终预测概率与真实标签之间进行距离衡量,输出分类结果。进一步地,所述步骤s2具体为:利用步骤s1中预处理后的训练集图像对构建的具有热图特征分布的基于cnn的特征提取分类网络模型进行训练,学习真假图像之间的图像特征信息,将输入的图像转换为特征图像输出至特征热图回归网络,同时将特征图像经过具有热图特征的分类网络的第一全连接层和第二全连接层后,再经过softmax层输出得到第一预测结果。进一步地,所述具有热图特征分布的基于cnn的特征提取分类网络模型在输入图像信息后设置有resize层,所述resize层用于将图片缩放为适用于后期映射神经元特征值的尺寸。进一步地,所述具有热图特征分布的基于cnn的特征提取分类网络模型中前三组卷积层、rule层、批标准化层和最大池化层替换为两组inception层,其中每组inception层包括七个并行的卷积层与一个批标准化层。进一步地,所述具有热图特征分布的基于cnn的特征提取分类网络模型中在rule层后加入leakyrule激活函数,并去除第二全连接层前的dropout层。进一步地,所述特征热图回归网络模型包括具有热图特征分布的基于cnn的特征提取分类网络模型中的特征提取部分、人脸识别定位库和线性回归层模块。进一步地,所述步骤s3具体为:首先利用具有热图特征分布的基于cnn的特征提取分类网络模型中的特征提取部分提取神经元特征值,再利用人脸识别定位库对步骤s1中预处理后的训练集图像进行人脸定位,得到眼口部的神经元特征值,将其与提取的神经元特征值做缩放与映射,得到眼口部各坐标点特征值并取出最大值以计算在各自特征值中的相对大小,并经过线性回归层模块输出得到第二预测结果。进一步地,所述步骤s4具体为:将具有热图特征分布的基于cnn的特征提取分类网络模型输出的第一预测结果与特征热图回归网络模型输出的第二预测结果进行拼接,再经过第二线性回归层得到图像的真假图得分,并经过softmax层输出得到最终预测概率。基于上述联合热图特征回归的基于cnn特征提取网络的联合图像分类方法的相同发明构思,本发明还包括一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述联合热图特征回归的基于cnn特征提取网络的联合图像分类方法的步骤。基于上述联合热图特征回归的基于cnn特征提取网络的联合图像分类方法的相同发明构思,本发明还包括一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述联合热图特征回归的基于cnn特征提取网络的联合图像分类方法的步骤。本发明具有的有益效果是:本发明采用具有热图特征分布的基于cnn的特征提取分类神经网络与特征热图回归网络相结合的联合回归网络架构,能够从实际能帮助具有热图特征分布的基于cnn的分类网络更好地实现并提高泛化能力和稳定性,进一步提升图像分类精度。附图说明图1是本发明联合热图特征回归的基于cnn特征提取网络的联合图像分类方法流程示意图;图2是本发明实施例中联合热图特征回归的基于cnn特征提取网络的联合图像分类网络结构示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。如图1所示,本发明实施例提供了一种联合热图特征回归的基于cnn特征提取网络的联合图像分类方法,包括以下步骤s1至s5:s1、获取待分类的真假图像,并进行图像预处理;在本实施例中,本发明以faceforensics++的deepfakes图像数据集为例,从不同平台收集了175个伪造视频;最低分辨率为854*480像素。所有的视频都是用h.264编解码器压缩的,但压缩级别不同,从而能够提供实际的分析条件。所有的人脸都是使用viola-jones检测器提取出来的,并使用经过训练的神经网络对人脸地标进行对齐。为了平衡人脸的分布,每个视频选择的帧数与目标人脸的角度和光照变化成正比。本发明将获取的deepfakes图像数据集分为训练集和测试集,并对训练集和测试集图像进行预处理,包括:(1)为了适应网络的输入结构,对图像进行大小变换,变换后的尺寸为256*256,保留三通道。(2)对图像进行array→tensor数据类型转化与min-max归一化。对于测试集图像除了上述两个预处理操作外,还需包括标准化操作,即将原先三个0到1之间的维度变换为-1到1区间内。s2、构建具有热图特征分布的基于cnn的特征提取分类网络模型,利用步骤s1中预处理后的训练集图像对模型进行训练,得到第一预测结果;在本实施例中,具有热图特征分布的基于cnn的特征提取分类网络模型包括具有热图特征的预训练vgg系列模型或mesonet_inceptionv4模型,具有热图特征的分类网络即在网络全连接层前的神经元输出结果在眼部和口部有明显特征,下面以mesonet_inceptionv4为例进行说明。具有热图特征分布的基于cnn的特征提取分类网络模型在输入图像信息后设置有resize层,resize层用于将图片缩放为适用于后期映射神经元特征值的尺寸。在mesonet网络中,将前三组传统卷积层,即每组包括卷积层、rule层、批标准化层和最大池化层,替换为两组inception层,即每组包括七个并行的卷积层与一个批标准化层。在mesonet网络中,在rule层后加入第二个激活函数leakyrule,并去掉第二全连接层前面的dropout层,以保留更多特征信息。而同时具有热图特征分布的基于cnn的特征提取分类网络中的特征提取部分用以提取第十六卷积层之后的神经元特征值。基于上述改进后的具有热图特征分布的基于cnn的特征提取分类网络模型,步骤s2具体为:利用步骤s1中预处理后的训练集图像对构建的具有热图特征分布的基于cnn的特征提取分类网络模型进行训练,学习真假图像之间的图像特征信息,将输入的图像转换为特征图像输出至特征热图回归网络,同时将特征图像经过具有热图特征的分类网络的第一全连接层和第二全连接层后,再经过softmax层输出得到第一预测结果。参照图2中的具有热图特征分布的基于cnn的特征提取分类网络模型,其以连续的第一inception层和第二inception层为开始,inception层可以表述为:yi=(ai,bi,ci,di)xixi+1=f(yi)其中,x、y表示第一inception层的输入和输出,ai,bi,ci,di为inception层的四个超参数,f(yi)表示激活函数,在本发明中选择relu函数,表示为f(yi)=relu(yi)=max(0,yi)。该模块的思想是将几个具有不同内核形状的卷积层的输出进行叠加,从而增加模型优化的函数空间。为了避免高语义性,本发明使用了3*3的扩展卷积来代替原模块的5*5卷积,并且在扩展卷积之前已经添加了1*1个卷积来进行降维,增加了一个1*1个卷积作为连续模块之间的跳转连接。后接rule层与leakyrule层是为了引入非线性,以提高泛化性。而第二标准层用于调节输出,防止梯度消失。将第十六卷积层提取到的特征进行存储,用于步骤s2中与人脸定位点相映射。在第一全连接层和第二全连接层前的dropout层用于调节和提高鲁棒性。将输入图像转换为特征图像输出至特征热图回归网络。同时,将特征图像经过第一全连接层和第二全连接层输出得到预测分数,表示为batch*(true_score,false_score)。预测分数经过softmax层得到预测概率,通过torch.max函数得到索引结果,即图1中的预测结果1,表示为batch*(1-p,p)=softmax(batch*(score1true,score1false))。mesonet_inceptionv4网络的第一inception层和第二inception层对输入的图像进行真假图之间的图像特征信息的学习并将输出进行叠加,在第十六卷积层之后,将输入的图像转换为特征图像输出至特征热图回归模型,保存第二全连接层得到的关于该图像真假得分的预测结果1。s3、构建特征热图回归网络模型,利用步骤s1中预处理后的训练集图像及步骤s2得到的特征图像对模型进行训练,得到第二预测结果;在本实施例中,特征热图回归网络模型包括具有热图特征分布的基于cnn的特征提取分类网络模型中的特征提取部分、人脸识别定位库和线性回归层模块。具有热图特征分布的基于cnn的特征提取分类网络模型中的特征提取部分用以提取第十六卷积层之后的神经元特征值。人脸识别定位库包括人脸识别和人脸坐标定位,以dlib人脸识别定位库为例,其用于映射眼口处的神经元特征值。线性回归层模块用于接收dlib人脸识别定位库的眼口部神经元特征值,经过第一线性回归层得到第二预测结果。基于上述特征热图回归网络模型,步骤s3具体为:首先利用具有热图特征分布的基于cnn的特征提取分类网络模型中的特征提取部分提取神经元特征值,再利用人脸识别定位库对步骤s1中预处理后的训练集图像进行人脸定位,得到眼口部的神经元特征值,将其与提取的神经元特征值做缩放与映射,得到眼口部各坐标点特征值并取出最大值以计算在各自特征值中的相对大小,并经过线性回归层模块输出得到第二预测结果。参照图2中的特征热图回归网络模型,其利用dlib人脸识别定位库先将人脸通过resnet34生成一个128维的向量,在这个空间做距离计算以进行人脸68点的坐标定位points[68],本发明通过这68点定位得到眼口部的坐标点信息,具体地,左眼是从36点到41点points[36:42],右眼是从42点到47点points[42:48],口部是从48点到54点points[48:54],并取出各部分的形心点坐标,以右眼为例,表示为:cen_right=centroid(points[36:42])将三组点坐标与步骤s2得到的特征图像做缩放与映射,得到三个特征值,将其输入到线性回归层中。得到一组通过热图预测的得分,表示为batch*(score2true,score2false)=linear(leftvalue,rightvalue,mouthvalue)与步骤s2类似地,将上式得到的得分结果经过一层softmax得到热图回归模型的结果概率,表示为batch*(1-q,q)=softmax(batch*(score2true,score2false))根据特征热图回归模型中的dlib模块特性,从左眼、右眼及口各选取六个点坐标。计算三区域的形心坐标以保证取到各区域最大值。坐标值经过等比缩放,与特征值映射层接收第十六卷积层输出的特征图像相映射,得到其对应特征值,取出三个区域各自的相对最大值。将其经过第一线性回归层,得到该图像真假得分的预测结果2。s4、构建联合回归网络模型,将步骤s2得到的第一预测结果与步骤s3得到的第二预测结果进行拼接,并经过联合回归网络模型计算最终预测概率;在本实施例中,联合回归网络模型包括第二线性回归层,第二线性回归层输入第一预测结果及第二预测结果的拼接结果,输出最终图片预测结果。基于上述联合回归网络模型,步骤s4具体为:将具有热图特征分布的基于cnn的特征提取分类网络模型输出的第一预测结果与特征热图回归网络模型输出的第二预测结果进行拼接,再经过第二线性回归层得到图像的真假图得分,并经过softmax层输出得到最终预测概率。上述真假图得分表示为:final_pred_val=linear(batch*(p,q))将结果经过一层sigmod得到最终概率,sigmod是一个归一化函数,表示为:s5、采用二分类交叉熵损失函数对步骤s4得到的最终预测概率与真实标签之间进行距离衡量,输出分类结果,表示为:loss=becloss(final_pred_val,label)为进一步地说明本发明方法的优化效果,使用cc数据集和cifar-100数据集进行图像分类及原始图像重建的实验。实验在gtx1060ti的pc上进行训练,训练时,选择adam作为优化器,默认参数设置为β1=0.9,β2=0.999。此外,初始学习率设为10-3,每1000次迭代的学习率都下降10%,直到下降为10-6。为了提高泛化性和鲁棒性,输入批次进行了几个轻微的随机转换,包括缩放、旋转、水平翻转、亮度和色调变化。在15~30个epoch之间训练我们的模型,每个时期花费大概30分钟,top-1测试精度达到了92.37%。测试时,为了进行比较,在原始meso_incpetion4网络中测试了相同的数据集。结果表明,原始meso_inception4网络表现不及添加了热图回归层的模型。faceforensics++的deepfakes数据集中,测试后的模型准确率如表1所示。表1、faceforensics++的deepfakes数据集测试准确率对比表模型准确率原始meso_inception网络87.30%本发明91.37%本发明不仅达到了在faceforensics++中的deepfakes数据集上显著的性能提升效果,还分析了当前的meso_inception网络,探寻了meso_inception的热图规律并加以利用。结合热图回归神经网络解决了现有神经网络中出现的训练结果不稳定问题,提出了一种新型网络架构-以具有热图特征分布的基于cnn的特征提取网络为主,特征热图回归网络为辅的联合图像分类网络,来达到对图像分类精度的提升。在本发明的一个可选实施例中,基于上述实施例的相同发明构思,本发明还包括一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述联合热图特征回归的基于cnn特征提取网络的联合图像分类方法的步骤。在本发明的一个可选实施例中,基于上述实施例的相同发明构思,本发明还包括一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述联合热图特征回归的基于cnn特征提取网络的联合图像分类方法的步骤。基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。当前第1页12