本发明涉及人工智能系统安全领域,特别涉及一种基于图像重构的对抗样本攻击防御方法。本发明能够解决现有对抗样本攻击检测方法高度依赖对抗样本的生成与训练,以及缺乏对抗扰动清除的问题。
背景技术:
1、近年来,人工智能模型被广泛应用到计算机视觉、语音识别、nlp等多个领域,并且取得了巨大的成就,在工业界与学术界掀起了以深度学习模型为代表技术的人工智能热潮。但是,智能模型的安全性一直没有得到科学性的解释和处理办法,智能模型是通过其自身结构和算法机理得到结果,并且训练过程中依赖大量外部数据,数据的特征决定了神经网络的判定结果。因此,攻击者可以通过对数据的修改对深度神经网络进行攻击。szegedy首次在图像分类任务中提出深度神经网络模型存在脆弱性,在干净样本中加入人眼不可察觉的细微的扰动后生成对抗样本,将对抗样本输入到深度神经网络,会导致该网络的识别性能受到严重影响。随着对抗样本的提出,研究人员开始关注对抗样本的生成和防御方法研究,然而,目前的对抗样本检测方法过于依赖对抗样本的生成过程,由于需要对抗样本进行训练导致这类检测方法的泛化能力较差。同时,部分防御方法在检测到对抗样本或其他异常样本后会将样本剔除,当样本数量较少时,上述方法会导致智能模型缺少充足的样本进行训练,影响智能模型的泛化推理能力。
2、总之,当前的对抗样本防御主要存在以下两个问题:
3、(1)现有检测方法高度依赖对抗样本的生成与训练;
4、(2)在实现对抗样本检测后没有相应的样本恢复能力。
技术实现思路
1、针对上述问题,本发明提出一种基于图像重构的对抗样本攻击防御方法。本发明能够在不依赖对抗样本的前提下,实现对抗样本的高效准确检测以及对抗扰动清除。
2、为了实现上述目的,本发明采用的技术方案为:
3、一种基于图像重构的对抗样本攻击防御方法,用于对目标网络进行对抗样本攻击防御,包括以下步骤:
4、(1)构建自编码器,所述自编码器包括编码器和解码器;编码器用于对输入样本x0进行特征压缩,得到特征向量,解码器用于将特征向量重构得到重构样本x1;
5、(2)构建生成对抗网络,生成对抗网络包括生成器和鉴别器;生成器用于根据输入样本x0生成修复样本x2,鉴别器用于对修复样本x2进行鉴别,区分真实数据和生成数据;
6、(3)设定对抗样本检测的重构误差阈值,结合自编码器、生成对抗网络和目标网络构建攻击防御模型,其中,输入样本x0首先输入给自编码器,自编码器输出重构样本x1,计算输入样本x0与重构样本x1的重构误差;若重构误差小于重构误差阈值,则输入样本x0为正常样本,将其输入到目标网络;若重构误差大于重构误差阈值,则输入样本x0为对抗样本,将其输入到生成器中,生成修复样本x2,然后将修复样本x2输入目标网络;
7、(4)对攻击防御模型进行训练,训练的目标损失函数l为:
8、
9、其中,l的第一项为自编码器的损失函数,第二项为生成器的损失函数,第三项为鉴别器的损失函数,lc为目标网络的损失函数,n表示样本数量,x0,x1和x2分别对应正常样本、重构样本和修复样本,g()和d()分别表示生成器和鉴别器,和表示x0和x2数据分布;
10、(5)使用训练好的攻击防御模型对其中的目标网络进行对抗样本攻击防御。
11、本发明与现有技术相比,取得的有益效果为:
12、1、本发明基于自编码器设计端到端的对抗样本检测,在不依靠对抗样本生成与训练的前提下,通过分析重构样本与输入样本的重构误差,可以甄别出样本数据中的细微扰动,进而高效筛选对抗样本。
13、2、本发明在检测到对抗样本后,通过生成对抗网络生成修复样本,修复样本在清除对抗扰动的同时,与自编码器生成的重构样本相比更加逼近原始输入样本。
14、3、本发明提出的模型可以实现端到端地对抗样本检测、修复以及修复样本分类,为智能模型训练数据安全提供综合性安全服务,避免增设多种外挂式防御模型,节约计算成本。
1.一种基于图像重构的对抗样本攻击防御方法,其特征在于,用于对目标网络进行对抗样本攻击防御,包括以下步骤: