本发明涉及对抗样本检测,具体涉及一种基于扰动估计和去噪的对抗样本检测方法。
背景技术:
1、对抗样本检测是指通过分析输入样本特征,识别出其中受到对抗性扰动影响的样本的过程。但是现有方法使用图像特征检测对抗样本,通常无法应对类型和强度多样化的对抗样本。目前基于模型预测不一致性的方法广受关注,该类方法利用一些图像处理技术减小对抗样本对模型的影响,接着根据模型对处理前后样本的预测不一致性检测对抗样本,无需复杂的阈值设置,且图像处理具有随机性,可以避免被攻击绕过,适用于不同类型的数据以及攻击方法。
2、但是目前基于模型预测不一致性的检测方法存在问题:图像处理技术可能损害其样本原始信息,从而导致误分类,使得检测假阳率上升;图像处理技术未考虑到残留的对抗性扰动,从而影响对抗样本召回率。
技术实现思路
1、本发明提供一种基于扰动估计和去噪的对抗样本检测方法,以解决现有对抗样本检测方法泛用性差、图像处理技术影响检测精度的技术问题。
2、为解决上述技术问题,本发明采用如下技术方案:
3、设计一种基于扰动估计和去噪的对抗样本检测方法,包括以下步骤:
4、s1:使用不同攻击方法包括fgsm、pgd、cw、deepfool、autoattack制作对抗样本xadv,并于相同数量的良性样本xbeg组成训练集xtrain,其中标签为扰动强度∈和对应良性样本xb,选择目标模型f()。
5、s2:构建一个自编码器pea(),使用训练集dtrain训练自编码器pea(),输入待测样本x,输出尺寸相同的估计扰动∈p。
6、s3:构建全连接神经网络fcn(),其中fcn()根据s2中扰动强度i(∈p)输出一个数值σ作为噪声方差,将高斯噪声n~g(0,σ)加入到s2中待测样本x得到xn。
7、s4:构建去噪自编码器d(),输入s3中带噪样本xn执行去噪,输出xd
8、s5:使用s1中xtrain训练将s3中fcn()和s4中d(),将s4中xd与xtrain中对应的良性样本xb之间差异作为损失更新s3中fcn()和s4中d()模型的参数。
9、s6:将待测样本x输入s2中pea(),得到∈p,并计算扰动强度i(∈p),比较i(∈p)和阈值λ,i(∈p)小于阈值λ则将其判定为两型样本,若i(∈p)大于或等于阈值λ,则进行后续操作进一步判断。
10、s7:将需要进一步判断的样本x的i(∈p)输入至s3中fcn()得到噪声方差σ,将高斯噪声n~g(0,σ)加入到x得到xn,将xn输入到s4中d(),去噪得到xd,使用s1中f()对x和xd进行预测,得到结果f(x)=f(xd),则将x视为良性样本;若f(x)≠f(xd),则将x判定为对抗样本。
11、进一步的,在步骤s2中,自编码器pea()为u-net结构,包括三阶段的下采样和上采样,损失采用均方误差,pea()的输出和输入尺寸相同。
12、进一步的,在步骤s3中,fcn()包括三层全连接层,在将对应噪声注入样本x后得到xn,将相同强度的噪声n’与预测扰动∈p相加,并于样本xn拼接。
13、进一步的,在步骤s5中,重构损失采用待测样本x和良性样本xb的均方误差,并且为了约束噪声水平使其进肯能大,在损失中加入噪声约束项1/σ+1。
14、与现有技术相比,本发明的有益技术效果在于:
15、1.本发明通过估计对抗性扰动和噪声水平的先验知识,训练去噪自动编码器。这个自动编码器的目标是从样本中去除噪声和残留的对抗性扰动。通过利用先验知识,即估计的对抗性扰动和噪声水平,训练去噪自动编码器,可以更有效地去除噪声和残留的对抗性扰动,提高对抗样本检测的精度。
16、2.本发明在进行加噪去噪处理前,先根据扰动强度进行阈值选择,对于一些容易识别的良性样本可以避免后续处理,从而提高了检测效率而不影响整体准确率。
17、3.本发明克服了先前去噪方法在去除残余对抗性扰动方面的局限性,通过添加噪声到图像中,然后进行非盲去噪处理,有效消除噪声和残留扰动,从而平衡了原始信息的保留和对抗扰动的消除之间的问题,减少了可能存在的去噪不彻底的情况。
1.一种基于扰动估计和去噪的对抗样本检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的混合提示学习与规则的领域命名实体识别方法,其特征在于,在步骤s2中,自编码器pea()为u-net结构,包括三阶段的下采样和上采样,损失采用均方误差,pea()的输出和输入尺寸相同。
3.根据权利要求1所述的混合提示学习与规则的领域命名实体识别方法,其特征在于,在步骤s3中,fcn()包括三层全连接层,在将对应噪声注入样本x后得到xn,将相同强度的噪声n’与预测扰动∈p相加,并于样本xn拼接。
4.根据权利要求1所述的混合提示学习与规则的领域命名实体识别方法,其特征在于,