基于训练推理解耦触发器的后门攻击方法、装置和设备

文档序号:37340620发布日期:2024-03-18 18:10阅读:9来源:国知局
基于训练推理解耦触发器的后门攻击方法、装置和设备

本发明属于计算机视觉,具体涉及一种基于训练推理解耦触发器的后门攻击方法、装置和设备。


背景技术:

1、人工智能的应用落地上存在着诸多安全隐患,其根本原因是因为人工难以量化模型的决策边界且难以对模型进行审查,只能将其作为一个黑盒使用。后门攻击从2017年开始引入至深度学习中,正是因为模型的不可解释性和深度学习中存在的偏见,使得这种攻击强大而隐蔽,对人工智能的安全造成了极大的威胁。后门攻击可以使得模型在推理阶段对于正常样本做出正确的输出,而对带有触发器的样本产生误判。因此后门攻击会对人工智能的应用产生极大的危害,为了应对后门攻击的不断演化和发展壮大,防御者也需要加强对后门攻击的研究,以提高人工智能系统的安全性和鲁棒性。

2、后门攻击手法多样,我们若以模型受到影响各个阶段和攻击者的能力可以将后门攻击的产生分为六个攻击阶段:代码投毒,外包,预训练,数据收集,协同学习,部署后。对于后门攻击研究者,更加注重数据收集阶段的研究。数据收集是人工智能(artificialintelligence,ai)模型训练过程中非常关键的一步,攻击者可以利用数据注入攻击的方式在模型中植入后门,从而影响模型的输出结果。因此,需要加强对数据的采集和处理过程的安全性和隐私保护,以及对模型训练过程的监控和审查,以提高ai系统的安全性和鲁棒性。

3、基于训练数据中毒的后门攻击是一种常见的数据收集阶段的后门攻击方式,攻击者通过向数据集中注入恶意数据或样本,然后通过模型推理时将任意样本加入触发器来激活后门,该攻击是难以被防御的。然而该攻击技术存在依赖训练样本数据,可被追溯,难以隐蔽等缺陷,在最新研究中的攻击效果较好的触发器大多能被目测识别而隐藏较好的触发器的攻击又能力不足等问题。同时当前的研究者侧重于攻击由单一后门触发的单一目标的研究,这种方式在最新的一些防御手段中是会较为容易地被检测出存在触发器。


技术实现思路

1、为了解决现有技术中存在的上述问题,本发明提供了一种基于训练推理解耦触发器的后门攻击方法、装置和设备。本发明要解决的技术问题通过以下技术方案实现:

2、第一方面,本发明提供了一种基于训练推理解耦触发器的后门攻击方法,包括:以最大值滤波器作为触发器生成第一中毒数据集,第一中毒数据集包括多个第一中毒样本图像;根据第一中毒数据集和良性数据集对初始模型进行训练,得到包含后门的受害模型,受害模型能够被以白色光栅作为触发器所生成的第二中毒样本图像攻击。

3、可选的,以最大值滤波器作为触发器生成第一中毒数据集,包括:按照预设比例从训练数据集中确定出多个目标样本图像,多个目标样本图像和良性数据集组成训练数据集;对各目标样本图像进行带有噪声的图像重构处理,得到多个目标重构样本图像;对各目标重构样本图像进行最大值滤波处理,得到第一中毒数据集。

4、可选的,对各目标重构样本图像进行最大值滤波处理,得到第一中毒数据集,包括:根据最大值滤波器,以间隔一行的方式,对各目标重构样本图像的每个通道中的行进行处理,得到第一中毒数据集。

5、可选的,根据最大值滤波器,以间隔一行的方式,对各目标重构样本图像的每个通道中的行进行处理,得到第一中毒数据集,包括:根据最大值滤波器对各目标重构样本图像的每个通道中的奇数行的灰度值进行处理,得到第一中毒数据集,表示为:

6、rk=max(max(rk-1,rk+1),rk)

7、其中,rk表示第k行的灰度值,k=2n+1,n=0,1,2...,rk-1表示第k-1行的灰度值,rk+1表示第k+1行的灰度值。

8、可选的,对各目标样本图像进行带有噪声的图像重构处理,得到多个目标重构样本图像,包括:将各目标样本图像输入卷积自编码器进行编码处理,得到各目标样本图像对应的编码结果;向各目标样本图像对应的编码结果添加高斯噪声,得到多个目标重构样本图像

9、可选的,根据第一中毒数据集和良性数据集对初始模型进行训练,包括:根据第一中毒数据集和良性数据集对初始模型进行深度学习分类模型的标准训练,标准训练对应的损失函数为:

10、

11、其中,y表示真实标签,表示初始模型预测的软标签,c表示标签类别总数量,c∈{1,2,...,c}。

12、第二方面,本发明还提供了一种基于训练推理解耦触发器的后门攻击方法,包括:

13、以白色光栅作为触发器生成至少一个第二中毒样本图像;

14、根据所述至少一个第二中毒样本图像对由第一方面中任一方法训练得到的受害模型进行后门攻击。

15、第三方面,本发明提供了一种基于训练推理解耦触发器的后门攻击装置,包括:

16、生成装置,用于以最大值滤波器作为触发器生成第一中毒数据集,第一中毒数据集包括多个第一中毒样本图像。

17、训练装置,用于根据第一中毒数据集和良性数据集对初始模型进行训练,得到包含后门的受害模型,受害模型能够被以白色光栅作为触发器生成的第二中毒样本图像攻击。

18、第四方面,本发明提供了一种基于训练推理解耦触发器的后门攻击装置,包括:

19、生成模块,用于以白色光栅作为触发器生成至少一个第二中毒样本图像;

20、处理模块,用于根据所述至少一个第二中毒样本图像对由第一方面中任一方法训练得到的受害模型进行后门攻击。

21、第五方面,本发明提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

22、存储器,用于存放计算机程序;

23、处理器,用于执行存储器上所存放的程序时,实现第一方面及其可选方式所提供的任一方法步骤。

24、第六方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现第一方面及其可选方式所提供的任一方法步骤。

25、本发明的有益效果:

26、本发明提供的基于训练推理解耦触发器的后门攻击方法、装置和设备,通过以最大值滤波器作为触发器生成第一中毒数据集,其中第一中毒数据集包括多个第一中毒样本图像,投毒隐蔽性高,进一步能够降低投毒比例;进一步,根据第一中毒数据集和良性数据集对初始模型进行训练,得到包含后门的受害模型,受害模型能够被以白色光栅作为触发器所生成的第二中毒样本图像攻击,实现了训练阶段和推理阶段触发器的解耦,提升模型中后门的隐蔽性,提高模型的稳定性,以及后门的攻击性、攻击稳定性和灵活性。

27、以下将结合附图及实施例对本发明做进一步详细说明。



技术特征:

1.一种基于训练推理解耦触发器的后门攻击方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述以最大值滤波器作为触发器生成第一中毒数据集,包括:

3.根据权利要求2所述的方法,其特征在于,所述对各所述目标重构样本图像进行最大值滤波处理,得到所述第一中毒数据集,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据最大值滤波器,以间隔一行像素的方式,对各所述目标重构样本图像的每个通道中的像素行进行处理,得到所述第一中毒数据集,包括:

5.根据权利要求2-4任一所述的方法,其特征在于,所述对各所述目标样本图像进行带有噪声的图像重构处理,得到多个目标重构样本图像,包括:

6.根据权利要求1-4任一所述的方法,其特征在于,所述根据所述第一中毒数据集和良性数据集对初始模型进行训练,包括:

7.一种基于训练推理解耦触发器的后门攻击方法,其特征在于,包括:

8.一种基于训练推理解耦触发器的后门攻击装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。


技术总结
本发明提供了一种基于训练推理解耦触发器的后门攻击方法、装置和设备,该方法包括:以最大值滤波器作为触发器生成第一中毒数据集,第一中毒数据集包括多个第一中毒样本图像;根据第一中毒数据集和良性数据集对初始模型进行训练,得到包含后门的受害模型,受害模型能够被以白色光栅作为触发器所生成的第二中毒样本图像攻击,通过该方法能够提高后门的隐蔽性、提升后门攻击的攻击性、隐蔽性、灵活性、稳定性。

技术研发人员:张海宾,周相南,唐舒楠,吕敏杰,杨学武,王海涛,崔佳松
受保护的技术使用者:西安电子科技大学
技术研发日:
技术公布日:2024/3/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1