基于基因演化的未知网络威胁攻击及防御方法、系统

文档序号：35462751发布日期：2023-09-16 01:34阅读：63来源：国知局

本发明涉及人工智能信息安全领域，尤其涉及一种基于基因演化的未知网络威胁攻击及防御方法、系统。

背景技术：

1、对抗攻击在计算机视觉领域被广泛的研究，因此，有研究者发现大多数在很多领域中表现良好的机器学习模型面对对抗样本的攻击时都会表现的极其脆弱。对抗样本对分类器的威胁不仅在图像领域，在信息物理系统的网络入侵检测领域基于dl\ml的分类器检测也会受到威胁。当判断网络中流量的异常情况时，攻击者利用对抗样本生成的方法对异常流量数据进行处理，诱导分类器对输入的异常流量进行错误分类为“良性”，从而避开系统检测。亦或是攻击者利用生成器直接生成类良性流量的攻击流量数据来攻击分类器，影响分类器的检测性能。例如，攻击者会通过现有的对抗样本生成技术快速梯度符号方法生成大量带有扰动的流量数据样本，以此攻击分类器，造成了入侵检测系统产生较多误报的结果，给信息物理系统的安全带来很大的隐患。由此，工业界学术界对此也提出了很多应对的防御措施，来提高入侵检测系统的检测性能。从对抗样本数据特征入手，防御者进行相应的特征选择或者训练鉴别器对这类扰动样本进行筛选，识别出这些对抗样本数据并丢弃，然后将处理过的数据输入到分类器中进行分类，以此提高网络入侵检测模型的鲁棒性。由此可见，对抗攻击和防御技术已经成为信息物理系统网络入侵检测领域的研究热点和应用热门。

2、现有技术中有三种常见的针对网络入侵检测系统的攻击类别，根据攻击者对目标深度学习系统模型的了解程度来决定。第一类是白盒攻击，假设入侵者可以窥探目标模型的结构和获取训练数据，而第二类灰盒攻击需要先前对训练数据的了解和对目标模型结构大致了解。这种假设适用于不真实的情况，因为网络入侵检测模型对于外界都很隐私。然而，第三类情况更为常见。入侵者总是把网络入侵检系统测模型当作一个黑匣子，因为目标系统内部运作的细节对入侵者来说是不可见的，只有通过收到的反馈和一连串的查询，才能了解网络入侵检测模型的行为。

3、目前在对抗攻击方面的研究大多数都是直接借鉴于图像视觉领域，代表性的方法是通过使用白盒攻击快速梯度符号任意修改流量数据特征生成目标对抗样本，来达到迷惑入侵检测系统分类模型的目的。这类方法没有考虑限制因素，比如功能性，流量数据元素之间的关联性，因此会出现被分类器识别的结果。后期出现的研究注意到了这点，对此进行了改进。有研究就提出利用对抗生成网络生成对抗性值，当作粒子群优化器的特征输入，然后粒子群优化器生成对抗性样本，在网络入侵检测系统环境中保留其功能。但是，这类算法计算很复杂成本巨大，很大程度上影响了攻击的效果，因此不适合用于攻击实时工作的入侵检测器。

4、在对抗防御方面，现有大多数的研究都集中在提高深度学习模型上。常见的方法有对抗训练，对抗特征去除和特征选择。对抗训练将对抗性样本添加到原始训练集中，以增加用于重新训练神经网络的数据集，使它们能够更好地抵御具有微妙特征干扰的输入。对抗特征去除是通过去除鲁棒性得分低的部分特征维度，因为特征的高维度容易暴露出逃避检测的漏洞。特征选择是去除不相干的特征以及冗余特征来优化输入数据。然而这些方法都是辅助提高目标模型的鲁棒性，没有实质上的提高检测器的性能，防御效果在面对未知威胁的情况下会变得很脆弱。

技术实现思路

1、本发明的目的在于，从信息物理系统网络入侵检测系统自身安全的角度出发，提出一种基于基因演化的未知网络威胁攻击及防御方法。该方法在构建的改进ga算法(遗传算法)和gan框架(生成对抗网络框架)模型的基础上进行实验，设计了新的基于基因演化的对抗样本生成方法来生成攻击样本和自适应发现对抗攻击样本进行防御对抗攻击。针对信息物理系统中恶意攻击流量的多样性，利用基因生成的攻击样本模拟多样化的攻击流量数据，并对现有的网络入侵检测模型发起黑盒攻击，同时针对这些攻击，通过利用这些攻击数据和原有数据混合进行对抗训练得到不错的分类效果。

2、本发明的上述技术问题主要是通过下述技术方案得以解决的：

3、第一方面提供了一种基于基因演化的未知网络威胁攻击及防御方法，包括：

4、s1：对信息物理系统交互的网络流量数据进行预处理；

5、s2：将预处理后的网络流量数据输入到ga模型中进行初始化处理，其中，预处理后的网络流量数据为一个个的群体pop，利用轮盘赌模型在预设有效的范围里对这些群体进行随机选择得到一个初始群体popinitial＝(x1,x2,…,xn)，其中x1,x2,…,xn分别代表这个群体的第一个、第二个和第n个个体，根据群体中不良个体的基因特征值保留一个恶意攻击种子染色体fx，fx同时拥有可变基因和固定不可变基因，其中可变基因决定样本后代的生成；

6、s3：对生成的初始群体进行选择、交叉、变异以及更新操作，通过ga模型不断更新适应度值选择最优的后代检测器作为攻击样本。

7、在一种实施方式中，所述方法还包括：

8、测试生成的攻击样本能否诱导入侵检测分类器产生错误的分类，如果入侵检测分类器的检测正确率低于预设比例，则表明生成的攻击样本能够诱导入侵检测分类器产生错误的分类，攻击样本是有效的。

9、在一种实施方式中，所述方法还包括：

10、将生成的攻击样本加入到原始数据集中构成新的数据集，将新的数据集输入到采用改进生成器部分的自编码器对抗生成网络模型aegan中，进行对抗训练验证防御方法的效果，同时检验网络异常检测的性能是否提高，若检测准确率保持在预设范围，则证明生成的攻击样本具有较好的防御效果，其中，aegan在原有生成器和鉴别器的对抗网络架构的基础上，对生成器部分多层感知机进行改进，加入自编码器，利用自编码器对输入数据进行编码，解码器进行解码。

11、在一种实施方式中，步骤s1包括：

12、s1.1：对信息物理系统的网络流量数据进行采集，形成特征向量集合；

13、s1.2：根据标签将网络流量数据划分为正常样本集和攻击样本集；

14、s1.3：对划分后的样本集进行数据清理，去除离散型特征以保留每条攻击样本的攻击属性，得到具有核心特征字段的样本。

15、在一种实施方式中，步骤s3包括：

16、随机选择多对双亲样本，一对双亲样本中的一个为攻击样本pattack，另一个为正常样本pnon-attack；

17、将双亲样本的基因与核心特征字段进行匹配操作，通过匹配的双亲根据适应度函数fitness来选择用于提取具有重要信息基因特征的中间代样本，其中，核心特征字段包括protocal、service，protocal表示协议，service表示服务；

18、根据交叉率将中间代样本的基因进行交叉，生成继承双亲基因特征的后代样本用于后续的变异操作；

19、根据变异率，在特征变量vx允许的范围(0,δmax)内对后代样本的可变特征基因片段进行突变操作，其中，δmax表示x的基因片段数值可以取的最大值，基因片段为特征字段；

20、ga模型通过遗传漂变deviation不断更新适应度值fitness来选择最优的后代检测器作为攻击样本。

21、在一种实施方式中，适应度值的计算方式为：

22、

23、其中，x is normal sample表示种子样本x为正常样本，otherwise表示x不为正常样本的其它情况，deviation为偏离程度，第i个输入样本xi与种子样本x的偏离程度的计算方式为：

24、

25、当种子样本是正常样本时，|xi-x|表示第i个输入样本xi与种子样本x之间的连续特征值之差的绝对值，当种子样本是攻击样本时，表示第i个样本与种子样本的连续特征值之差，其中δmax表示这个攻击种子样本的对应的连续特征值属性的最大值。

26、在一种实施方式中，改进生成器部分的自编码器对抗生成网络模型aegan的处理过程包括：

27、将生成的攻击样本加入到原始数据集中构成新的数据集，通过攻击样本污染率contaminate_rate将新的数据集划分为训练集和测试集；

28、将训练集数据输入到aegan中，通过编码器训练得到隐藏的空间分布特征e(x)；

29、将对训练集数据进行压缩处理后得到的隐藏数据变量z通过生成器训练得到重构的变量g(z)；

30、将两个数据对(e(x),x)，(z,g(z))输入到aegan中的鉴别器中，计算样本的异常得分score，其中，样本的异常得分用以衡量样本是否为攻击样本，若score>α，则表明x为攻击样本，否则为正常样本。

31、在一种实施方式中，异常得分score的计算方式为：

32、计算第一误差分数gen_score:

33、gen_score＝σ(x-g(z))

34、

35、第一误差分数通过l1_norm损失函数σ计算样本x和重构数据g(z)之间的误差得到。n表示样本数量，k表示样本变量，这里k＝x-g(z)表示的是源样本和重构数据的误差变量，y(k)、分别表示目标样本和预测样本的特征向量；

36、计算第二误差分数dis_core:

37、dis_score＝sigmiod(g(z),e(x))

38、第二误差分数通过交叉熵函数sigmiod计算数据对之间的误差得到；

39、根据第一误差分数与第二误差分数计算样本的异常得分：

40、score＝(1-w)*gen_score+w*dis_score

41、其中，w为aegan模型的权重。

42、基于同样的发明构思，本发明第二方面提供了一种基于基因演化的未知网络威胁攻击及防御系统，包括：

43、数据预处理模块，用于对信息物理系统交互的网络流量数据进行预处理；

44、数据初始化模块，用于将预处理后的网络流量数据输入到ga模型中进行初始化处理，其中，预处理后的网络流量数据为一个个的群体pop，利用轮盘赌模型在预设有效的范围里对这些群体进行随机选择得到一个初始群体popinitial＝(x1,x2,…,xn)，其中x1,x2,…,xn分别代表这个群体的第一个、第二个和第n个个体，根据群体中不良个体的基因特征值保留一个攻击种子染色体fx，fx同时拥有可变基因和固定不可变基因，其中可变基因决定样本后代的生成；

45、攻击样本生成模块，用于对生成的初始群体进行选择、交叉、变异以及更新操作，通过ga模型不断更新适应度值选择最优的后代检测器作为攻击样本。

46、基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

47、与现有技术相比，本发明提供的技术方案至少具有以下技术效果：

48、本发明将信息物理系统交互的网络流量数据作为网络入侵检测数据集，设计了新的适应度计算方法，采用改进后的遗传算法生成更接近真实数据的对抗样本即未知网络威胁攻击样本，对黑盒状态下的网络入侵检测模型进行攻击，并针对这些未知网络威胁攻击样本的空间分布特征，提出基于对抗生成网络架构模型进行对抗训练的防御措施，可以生成有效的攻击样本，并提高对抗攻击能力和防御能力。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王丽娜付杰杨葛英刘晓稳王清浩
技术所有人：武汉大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。