一种基于可解释人工智能的实时入侵检测方法及系统

文档序号:34538876发布日期:2023-06-27 14:34阅读:55来源:国知局
一种基于可解释人工智能的实时入侵检测方法及系统

本发明属于网络流量管理领域,涉及入侵流量检测技术,具体涉及一种基于可解释人工智能的实时入侵检测方法及系统。


背景技术:

1、入侵流量检测和识别是网络流量管理技术的重要分支之一。该技术通过在网络通信的中间结点设立检测装置,审查经过的网络流量,以识别和检测具有恶意行为的攻击流量,也称为入侵流量。与其他流量分析器不同的是,入侵检测系统更注重入侵检测的实时性,因此离线流量分析在大多数场景下是不适用的。由于不能影响到正常流量的业务流程,入侵流量检测系统需要满足实时流量检测,因此不能直接使用复杂的特征工程和深度学习模型。

2、目前,不少开源的入侵检测系统能够实现实时流量检测。其中,基于专家规则的检测系统是目前的主流方法。这类方法通过专家领域知识,从大量的入侵流量样本中总结出适用于模式匹配的专家规则,在流量引导框架上实现数据包级别的规则匹配。对于经过的数据包,该类检测系统会从规则库中导出规则,检查是否与该数据包的明文字段匹配,以判定该流量包是否为入侵流量的一部分。虽然该类主流检测系统具有快速判别,高带宽流量实时检测的优势,但是其规则生成的方式限制了其更好的泛化性和准确性。由于专家规则是人工力量的总结分析,入侵流量只需要稍加混淆就能绕过检测,导致其漏判率与泛化能力不强。另一类基于人工智能的分析器通过学习离线入侵流量的特征分布,使用深度学习的方法判别入侵流量。由于深度学习模型在特征表征上具有更强的泛化能力,相比于基于专家规则的检测系统,该类方法具有更强的判别精确度和更低的误判率和漏判率。但是,由于其需要复杂且耗时的特征工程与判别模型,其只能实现离线流量的审计,却不能做到在实时流量上在线检测入侵流量。因此,如何将这两种入侵检测系统的优势结合在一起,是学术界和工业界面临的共同难题。


技术实现思路

1、本发明的目的在于提供一种基于可解释人工智能的实时入侵检测方法及系统,重点利用设计的树正则算法,首先将流序列深度模型近似转化为可解释的决策树模型,利用规则转化算法,将决策树模型等价转化为正则规则集。利用设计的实时流量检测引擎,部署正则规则集,实现深度学习模型在实时入侵流量检测系统上的在线部署。

2、本发明首先收集入侵流量与良性流量作为数据集,以网络流为单位分割原始的网络流量,并提取一定量的前置字节作为每个流量的特征表示;利用设计的树正则算法,在流序列深度模型初始化的过程中,近似转化为可解释的决策树;利用设计的规则转化算法,将决策树模型等价转化为正则规则集;利用设计的实时流量检测引擎,部署正则规则集,实现深度学习模型在实时入侵流量检测系统上的在线部署。

3、本发明采用的技术方案如下:

4、一种基于可解释人工智能的实时入侵检测方法,其步骤包括:

5、1)收集入侵流量与非入侵流量作为数据集;将数据集中每一网络流的前置字节作为对应网络流的特征表示;

6、2)将不可导的决策树模型连接到流序列深度模型之后;将流序列深度模型中输出层的参数与网络流的特征表示对位相乘后,作为所述决策树模型的输入,训练所述决策树模型;训练时使用所述决策树模型的平均决策路径深度函数作为损失函数;

7、3)使用多层感知机替代所述流序列深度模型之后所连接的决策树模型,使用步骤1)处理后的数据集进行训练;训练时所述多层感知机使用所述决策树模型的平均决策路径深度函数作为损失函数;

8、4)循环迭代进行步骤2)~3),训练结束后得到可解释的决策树模型;

9、5)遍历所述可解释的决策树模型中的入侵流量判定路径,提取每一条路径上的决策条件,形成等价的入侵流量检测规则集合;

10、6)入侵流量实时在线检测引擎根据所述入侵流量检测规则集合对网络流量进行实时检测。

11、进一步的,训练所采用的损失函数为其中,为步骤3)中所述多层感知机使用所述决策树模型的平均决策路径深度函数时计算所得损失值,ψ(·)为步骤2)中使用所述决策树模型的平均决策路径深度函数时计算所得损失值,θ是加入的随机噪声;通过求与ψ(·)的最小二范式,获得所述流序列深度模型的最优参数w。

12、进一步的,所述决策树模型的平均决策路径深度函数的计算方法为:使用决策树初始化函数inittree(xn,f(xn,w))初始化决策树,xn是网络流的特征表示,w是流序列深度模型输出层的参数;通过函数f(xn,w)将参数w与网络流的特征表示xn对位相乘,得到决策树ti;然后遍历所述决策树ti中所有的叶子结点leaf,通过路径回溯函数pathlength(ti,leaf获得每一叶子结点到根结点的长度,并记录在总长度count中;然后总长度count除以决策路径数量k得到平均决策路径长度。

13、进一步的,得到所述入侵流量检测规则集合的方法为:对于可解释性的决策树模型中每一用于判定入侵流量的叶子结点j,从可解释性的决策树模型中获取从根结点到该叶子结点j的决策路径;对于每一条所述决策路径,遍历并抽取所述决策路径上的判定规则,形成一条入侵流量检测规则;根据所得各入侵流量检测规则形成所述入侵流量检测规则集合。

14、进一步的,所述流序列深度模型为处理流序列特征的深度学习模型。所述流序列深度模型为循环神经网络、长短记忆神经网络或门控循环单元神经网络。

15、进一步地,所述分割收集的网络流量,并提取网络流的前置字节作为表征,包括:

16、收集公开的入侵流量作为恶意流量数据,并且收集良性应用产生的流量作为良性流量数据集;

17、对所有收集的流量数据,以网络五元组作为索引,分割网络流,得到恶意流量网络流集合和良性流量网络流集合;

18、提取每一个网络流的表征形式,截取每个网络流的前n个前置字节作为该网络流的特征表征。

19、进一步地,所述的采用网络流对流序列深度模型训练的过程中,利用树正则算法将不可导的决策树模型、多层感知机分别连接到流序列深度模型之后,进行联合训练,然后将训练后的决策树模型作为可解释的决策树模型,包括:

20、初始化决策树模型,将流序列深度模型中输出层的参数与网络流的特征表征对位相乘后,作为决策树模型的输入,训练得到初始化的决策树模型,所述的输出层参数为流序列深度模型的初始参数;

21、对于原始的不可导不可微的决策树模型,使用多层感知机替代决策树模型参与流序列深度模型的训练过程;

22、所述的多层感知机,使用决策树模型的平均决策路径深度作为替代损失函数;

23、每一轮训练轮次中,首先,将流序列深度模型中输出层的参数与网络流的特征表征对位相乘后,作为输入更新训练决策树模型,然后,网络流的特征表征输入流序列模型,流序列模型中间层的输出作为替代的多层感知机的输入,最后,流序列深度模型的损失函数与多层感知机的替代损失函数(决策树模型的平均决策路径深度)共同优化模型参数。

24、训练结束后,得到可解释的决策树模型。

25、进一步地,所述使用规则转化算法,将可解释的决策树模型转化为可部署的检测规则,包括:

26、对于可解释性的决策树模型中用于判定入侵流量的叶子结点,从可解释性的决策树模型中获取其从根结点到该叶子结点的决策路径;所得可解释性的决策树模型中已标出用于判定入侵流量的叶子结点。

27、对于每一条入侵流量检测的决策路径,遍历并抽取其路径上的判定规则,形成一条入侵流量检测规则;通过查询决策路径上的每一个非叶子结点,得到该决策路径的判定规则。

28、相似地,遍历并抽取所有决策路径上的判定规则,形成该决策树模型的入侵流量检测规则集合。

29、进一步地,所述利用实时入侵流量检测引擎,部署入侵检测规则集合,实现深度学习模型在实时入侵流量检测系统上的在线部署,包括:

30、对于实时经过的流量,将其暂时存储在高速流量缓冲区,在高速流量缓冲区中,以网络五元组进行分割,分别存储不同的网络流;

31、对于转化得到的入侵流量检测规则集合,部署于检测引擎上,以轮询的方式访问高速流量缓冲区,使用规则集合审计符合检测规定的流量,将检测结果存储在快速查询表中;

32、对于被规则集合成功碰撞的网络流,丢弃相应的数据包,并将五元组记录在快速查询表中,对于碰撞失败的网络流,转发对应的数据包,并将五元组记录在快速查询表中;

33、对于快速查询表,网络数据包在经过实时入侵流量检测引擎时首先查询其五元组是否被记录在快速查询表中,丢弃命中记录入侵流量五元组的网络数据包,转发命中记录的正常流量五元组的网络数据包。

34、一种基于可解释人工智能的实时入侵检测系统,其包括:

35、预处理模块,用于收集入侵流量和良性应用流量数据,以网络流为单位分割原始的网络流量,并提取网络流的前置字节流作为每一个网络流的特征表征;

36、流序列深度模型转译模块,用于将不可导的决策树模型、多层感知机分别连接到流序列深度模型之后,进行联合训练,然后将训练后的决策树模型作为可解释的决策树模型;

37、入侵流量检测规则转化模块,用于将可解释的决策树模型等价转化为可实际部署的入侵流量检测规则集合;

38、实时入侵流量检测引擎模块,高速流量缓冲区用于以网络流为单位存储捕获的实时网络流量,检测引擎用于使用入侵流量规则集合审计高速流量缓冲区中的网络流,快速查询表用于以得到的检测结果快速判定经过的网络流量的属性,加速入侵流量检测的判定效率。

39、利用本发明的方法可以将不具备实际部署能力的不可解释的流序列深度模型转化为具备实际部署能力的入侵流量规则集合,入侵流量规则集合实际部署与实时入侵流量检测引擎上,在线审计经过的网络流量,并且高效地检测和拦截其中的入侵流量。

40、一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。

41、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。

42、与现有技术相比,本发明的积极效果为:

43、1、本发明提出了一种树正则算法,使用该算法可以将流序列深度模型转译为可解释的决策树模型,以决策树模型的平均决策路径深度作为损失函数,同步训练替代的多层感知机模型,共同训练原始的流序列深度模型。

44、2、本发明提出了一种入侵流量检测规则转化方法,使用该方法可以将可解释的决策树模型等价转化为可部署的入侵流量检测规则集合,遍历具有入侵流量判定的叶子结点的决策路径,提取判定条件,形成入侵流量检测规则集合。

45、3、本发明提出了一种实时入侵流量检测引擎,使用该引擎可以将得到的入侵流量检测规则实际部署,实时审计经过的网络流量,高速流量缓冲区用于以网络流为单位存储捕获的实时网络流量,检测引擎用于使用入侵流量规则集合审计高速流量缓冲区中的网络流,快速查询表用于以得到的检测结果快速判定经过的网络流量的属性,加速入侵流量检测的判定效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1