一种基于非活跃频率注入的神经网络后门攻击方法

文档序号:34857696发布日期:2023-07-23 00:42阅读:46来源:国知局
一种基于非活跃频率注入的神经网络后门攻击方法

本发明属于深度学习,具体涉及一种神经网络后门攻击方法。


背景技术:

1、以深度神经网络模型为基础的人工智能技术迅速发展,在机器翻译、语音识别、场景分类和目标检测等任务领域中取得了优于传统算法的成绩。然而,由于深度神经网络的黑盒特性,其决策行为逻辑缺乏可解释性和透明性,使得深度神经网络的使用具有安全隐患,最近的研究表明神经网络模型易遭受攻击。神经网络攻击具体是指攻击者通过一定手段操纵网络模型做出错误决策的破坏性行为。目前针对深度神经网络的攻击方式可以分为三类:对抗攻击、投毒攻击和后门攻击。对抗攻击作用于在模型推理阶段,通过向干净样本中添加微小扰动噪声或补丁图案,诱导神经网络做出指定决策。对抗攻击需要在神经网络推理决策阶段对模型信息进行大量的访问才能构建出可误导模型的对抗样本,且只生成单一样本的对抗噪声。投毒攻击作用于模型训练阶段,通过添加恶意错误数据污染训练集从而降低模型的准确性,但却无法指定模型对特定样本做出指定的决策。

2、后门攻击是一种在神经网络模型实际部署之前进行的攻击,其通过对训练数据或网络模型的修改在神经网络中注入后门信息,在模型部署后的推理阶段不需要再访问模型,输入携带特定触发器的样本便可直接激活模型中的后门,从而使模型错误决策,完成攻击。随同硬件设备计算与存储能力的提升,具有先进性能的神经网络模型所需训练数据规模、模型参数尺寸也越来越大,这使得训练数据与模型参数难以人工检测安全性。此外,攻击中对数据的修改往往微小到难以察觉,模型单一参数也不具有实际意义,不可分析异常。这些特性都为后门攻击的成功实施创造了条件,使后门攻击对神经网络模型极具威胁。

3、虽然后门攻击已被验证对神经网络模型有效,但在仅可访问与修改训练数据的场景下,现有方法大都在图像的空间域注入后门触发器,基于空间域的触发器往往能量集中,模式明显,很难找到一个视觉难以察觉但神经网络模型容易学习的后门触发模式。同时,目前大多数后门防御方法都在空间域对触发器进行检测,这导致基于空间域的后门攻击,可以用通用方法进行防御。此外,一些在频域分析神经网络的工作也证明,当扰动被添加到图像频域时,转换到空间域后能量被分散,对图像只造成极小变化,很难被视觉发现,但学习频域特征的变化对神经网络来说却较为容易。

4、现有技术中,在仅可访问与修改训练数据的场景下,神经网络后门攻击的方案如下:

5、(1)设计、生成后门触发器;

6、(2)选择训练数据集中的部分干净样本,在这些样本中添加后门触发器,生成中毒样本,中毒样本与剩余干净样本共同构成中毒数据集;

7、(3)用中毒数据集训练要攻击的深度神经网络模型,从而注入后门;

8、(4)在模型使用的推理阶段中,攻击者通过在输入样本中添加触发器,激活中毒模型中的后门,使模型做出指定错误决策,从而最终实现攻击。

9、上述4个步骤中。第(3)步由神经网络模型开发者正常完成,不需要攻击者参与干涉(攻击者没有访问模型与训练模型的权限)。

10、在该场景下,不同的后门攻击方法的差别主要在于第(1)步,现有技术设计的后门触发器大都为在空间域中的视觉可见图像,例如在图像样本的固定位置添加白色小方块。

11、现有方法大都在图像的空间域注入后门触发器,基于空间域的触发器往往能量集中,模式明显,很难找到一个视觉难以察觉但神经网络模型容易学习的后门触发模式。同时,目前大多数后门防御方法都在空间域对触发器进行检测,这导致基于空间域的后门攻击,可以用通用方法进行防御。

12、现有技术的缺陷总结为:

13、(1)隐蔽性较差,不利于后门注入行为实现;

14、(2)可被现有通用方法防御,攻击实现后也易被检测和清除。


技术实现思路

1、为了克服现有技术的不足,本发明提供了一种基于非活跃频率注入的神经网络后门攻击方法,将目标攻击类别图像的频率均值设计为后门触发模式,增强了后门攻击的隐蔽性。为了削弱后门信息在样本中注入会对样本中的良性分类信息产生影响,选择数据集的非活跃频率作为后门触发模式的注入掩码区域,以实现本发明攻击的后门模型将中毒样本识别为目标攻击类别的同时,能正常识别其余干净样本,从而使得后门攻击在神经网络模型中潜伏更难被察觉。本发明在仅可访问与修改训练数据的场景下,实现了更强的后门攻击性能,提高了后门攻击的隐蔽性,可以成功抵御现有后门防御方法。

2、本发明解决其技术问题所采用的技术方案包括如下步骤:

3、步骤1:从神经网络模型的训练数据集中随机选取部分样本作为要污染的中毒样本集其余样本作为干净样本集

4、步骤2:使用离散余弦变换dct将神经网络模型的训练数据集中每一个属于目标攻击类别的样本进行空间域到频域的变换,对这些样本的频域数据取均值得到后门触发模式

5、步骤3:将中毒样本集中的每一个样本转换为频域,注入后门触发模式然后使用反离散余弦变换idct转换为空间域图像,生成中毒样本,与干净样本集共同构成中毒数据集

6、步骤4:在神经网络模型部署后,向输入样本中注入后门触发模式激活网络模型中的后门,使模型做出指定错误决策。

7、优选地,所述训练数据集为cifar-10数据集。

8、优选地,所述步骤2具体为:

9、设定目标攻击类别为t,使用离散余弦变换dct将训练数据集中每一个属于类别t的样本x从空间域图像转换为频域数据x=dct(x),n1和n2为样本x的尺寸大小,具体如下:

10、

11、其中x(n1,n2)是x在索引(n1,n2)处的值,x(ω1,ω2)为x在相应的频段(ω1,ω2)上的频率振幅,在样本的三个通道分别进行上述计算;ci(ni,ωi),i=1,2的计算如下式所示:

12、

13、对所有目标类别t的样本的频域数据计算均值,得到后门触发模式公式如下所示,k为训练数据集中属于目标攻击类别t的样本总数:

14、

15、优选地,所述步骤3具体为:

16、步骤3-1:使用dct将训练数据集中的每一个样本x转换为频域x=dct(x),并对不同样本间在同一频率的幅值求均值n为训练数据集中的样本总数;计算不同样本间在同一频率的幅值的方差取方差var中值最小的25%的频率作为后门注入掩码

17、步骤3-2:使用dct将中毒样本集中的每一个样本转换为频域,并在后门注入掩码对应的频率使用后门触发模式替换样本的原数据,注入后门信息,得到

18、

19、步骤3-3:对注入后门信息的频域样本使用反离散余弦变换idct转换为空间域图像x′,x′即为相应于干净样本x生成的中毒样本,生成相应的中毒样本:

20、

21、与干净样本集共同构成中毒数据集

22、优选地,所述步骤4具体为:

23、在中毒污染的数据集上训练的神经网络模型fp部署后,向任一样本xi中注入后门触发模式生成中毒样本xp,如下式所示:

24、

25、将xp输入神经网络模型fp,激活网络模型中的后门,模型将xp识别为目标类别t。

26、本发明的有益效果如下:

27、本发明在仅可访问与修改训练数据的场景下,实现了更强的后门攻击性能,提高了后门攻击的隐蔽性,可以成功抵御现有后门防御方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1