一种神经网络模型后门检测方法和系统

文档序号:34729703发布日期:2023-07-07 23:19阅读:89来源:国知局
一种神经网络模型后门检测方法和系统

本发明涉及神经网络模型安全保护,尤其涉及一种神经网络模型后门检测方法和系统。


背景技术:

1、针对深度神经网络模型的后门攻击是人工智能面临的重大威胁之一。被注入后门的神经网络模型对正常的输入样本表现正常,输出正确的预测类别。然而,如果输入样本包含特定的触发器(trigger),被注入后门的神经网络模型将表现出攻击者预设的异常行为,例如将该样本分类到指定的某个目标类别。

2、尽管已有多种后门检测器,但它们都假设防御者可以访问一组不具有触发器的验证样本,或者假设防御者可以接触到带有触发器的在线访问样本,这些假设在一些关键的实际场景中可能不成立,例如:如果防御者是一个模型共享平台的维护者,那么该防御者在检查平台上的模型是否有后门的时候很可能无法接触到任何辅助样本。

3、现有唯一无数据依赖的神经网络模型后门检测方法为df-tnd法,该方法通过生成输入样本摆脱检测器对于辅助数据的依赖;虽然该方法确实取得一定效果,但是生成样本的质量难以保证,同时极易受到后门触发器类型的干扰,例如面对滤镜型后门触发器时检测效果大幅下降。当前无数据依赖的神经网络模型后门检测器的通用性和准确性亟待加强。


技术实现思路

1、针对目前神经网络模型后门检测器依赖辅助数据、无法在无数据依赖的情形下运作的现状,本发明提供一种神经网络模型后门检测方法和系统,可在无数据依赖的情形下对神经网络模型进行高精度后门检测。

2、本发明提供了如下技术方案:

3、第一方面,本发明提供了一种神经网络模型后门检测方法,包括:

4、将目标神经网络模型划分为特征提取器部分和分类器部分,定义特征提取器部分的输出为中间层表示;

5、通过最大化源类别的分类置信度的方式,逆向生成每一个源类别的中间层表示;

6、由分类器部分获取每一个源类别的中间层表示的分类置信度向量,预处理每一个源类别的分类置信度向量,拼接得到分类置信度矩阵;

7、根据分类置信度矩阵计算异常指标值,若异常指标值大于阈值,则判断目标神经网络模型存在后门,并定位后门的目标类别。

8、上述后门检测方法应用于图像识别领域,源类别即目标神经网络模型预设的图像类别,目标类别即目标神经网络模型中植入的后门期望输入图像被预测的类别。

9、进一步的,所述的将目标神经网络模型划分为特征提取器部分和分类器部分,划分方法为:

10、若目标神经网络模型的层数不超过30层,则将前或层作为特征提取器部分,将其余部分作为分类器部分,其中表示向上取整符号,表示向下取整符号;

11、若目标神经网络模型的层数超过30层,则将前15层作为特征提取器部分,将其余部分作为分类器部分。

12、进一步的,所述的通过最大化源类别的分类置信度的方式,逆向生成每一个源类别的中间层表示,计算公式为:

13、

14、

15、其中,irk为第k个源类别的中间层表示,ce(.)为交叉熵损失函数,为l2范数,为控制l2正则化的参数,mcls为目标神经网络模型的分类器部分,ck为第k个源类别的标签,为第k个源类别的中间层表示的第i维的值,ndims为目标神经网络模型的中间层表示的维数。

16、进一步的,所述的预处理每一个源类别的分类置信度向量,拼接得到分类置信度矩阵,具体为:将每一个源类别的分类置信度向量中对应源类别标签的置信度置零,并将分类置信度向量转置为行向量,将全部源类别对应的预处理后的分类置信度向量拼接为分类置信度矩阵。

17、进一步的,所述的根据分类置信度矩阵计算异常指标值,具体为:

18、计算分类置信度矩阵中每一列数据的均值,形成均值数组;

19、根据均值数组中的最大值、75%分位点的值和25%分位点的值,计算初始异常指标值;

20、将初始异常指标值和基准值的绝对值作为最终异常指标值。

21、进一步的,所述的定位后门的目标类别,具体为:若目标神经网络模型存在后门,则所述的均值数组中的最大值对应的目标类别即为后门的目标类别。

22、第二方面,本发明提供了一种神经网络模型后门检测系统,包括:

23、模型分割模块,其用于将目标神经网络模型划分为特征提取器部分和分类器部分,定义特征提取器部分的输出为中间层表示;

24、中间层表示生成模块,其用于通过最大化源类别的分类置信度的方式,逆向生成每一个源类别的中间层表示;

25、置信度矩阵生成模块,其用于根据分类器部分获取每一个源类别的中间层表示的分类置信度向量,预处理每一个源类别的分类置信度向量,拼接得到分类置信度矩阵;

26、后门判定模块,其用于根据分类置信度矩阵计算异常指标值,若异常指标值大于阈值,则判断目标神经网络模型存在后门,并定位后门的目标类别。

27、第三方面,本发明提供了一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述的一种神经网络模型后门检测方法。

28、第四方面,本发明提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,用于实现上述的一种神经网络模型后门检测方法。

29、与现有技术相比,本发明的有益效果在于:本发明通过最大化源类别的分类置信度的方式,能够自动逆向生成每一个源类别的中间层表示而非依赖现成的辅助数据,且该方法不依赖于特定触发器类型上的规律,对于后门攻击的触发器形式不敏感,对多种触发器类型的后门攻击检测精度高。



技术特征:

1.一种神经网络模型后门检测方法,其特征在于,应用于图像识别领域,所述方法包括:

2.根据权利要求1所述的一种神经网络模型后门检测方法,其特征在于,所述的将目标神经网络模型划分为特征提取器部分和分类器部分,划分方法为:

3.根据权利要求1所述的一种神经网络模型后门检测方法,其特征在于,所述的通过最大化源类别的分类置信度的方式,逆向生成每一个源类别的中间层表示,计算公式为:

4.根据权利要求1所述的一种神经网络模型后门检测方法,其特征在于,所述的预处理每一个源类别的分类置信度向量,拼接得到分类置信度矩阵,具体为:将每一个源类别的分类置信度向量中对应源类别标签的置信度置零,并将分类置信度向量转置为行向量,将全部源类别对应的预处理后的分类置信度向量拼接为分类置信度矩阵。

5.根据权利要求4所述的一种神经网络模型后门检测方法,其特征在于,所述的根据分类置信度矩阵计算异常指标值,具体为:

6.根据权利要求5所述的一种神经网络模型后门检测方法,其特征在于,所述的定位后门的目标类别,具体为:若目标神经网络模型存在后门,则所述的均值数组中的最大值对应的目标类别即为后门的目标类别。

7.根据权利要求5所述的一种神经网络模型后门检测方法,其特征在于,所述的初始异常指标值的计算公式为:

8.一种神经网络模型后门检测系统,其特征在于,应用于图像识别领域,所述系统包括:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至7任一项所述的一种神经网络模型后门检测方法。

10.一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,用于实现权利要求1至7任一项所述的一种神经网络模型后门检测方法。


技术总结
本发明公开了一种神经网络模型后门检测方法和系统,属于神经网络模型安全保护技术领域。将目标神经网络模型划分为特征提取器部分和分类器部分,定义特征提取器部分的输出为中间层表示;通过最大化源类别的分类置信度的方式,逆向生成每一个源类别的中间层表示;由分类器部分获取每一个源类别的中间层表示的分类置信度向量,预处理每一个源类别的分类置信度向量,拼接得到分类置信度矩阵;根据分类置信度矩阵计算异常指标值,若异常指标值大于阈值,则判断目标神经网络模型存在后门,并定位后门的目标类别。本发明能够自动生成中间层表示而非依赖现成的辅助数据,且对于后门攻击的触发器形式不敏感,后门检测精度高,适用范围广。

技术研发人员:张旭鸿,付冲,纪守领,蒲誉文,刘沛宇,杨星,周颖杰
受保护的技术使用者:浙江大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1