一种基于随机森林的网络入侵检测方法

文档序号:28210991发布日期:2021-12-28 20:41阅读:221来源:国知局
一种基于随机森林的网络入侵检测方法

1.本发明涉及大数据和机器学习领域,特别涉及一种基于随机森林的网络入侵检测方法。


背景技术:

2.随着网络技术和网络规模的不断发展,网络入侵的风险性和机会也越来越多,网络安全已经成为人们无法回避的问题。为了保护现在越来越多的敏感信息,网络入侵检测也成为了一种非常重要的技术,并得到了越来越广泛的重视。如何借助计算机和互联网技术提高网络安全,避免网络入侵而造成损失,是网络安全人员的关注热点。
3.计算机网络的出现产生了大量的审计数据,而且审计数据大都是以文件形式存放,如果仅仅只依靠手工的方法去发现记录中的异常现象是不够的,往往费时费力,达到的效果往往也是差强人意。数据挖掘技术的快速发展为解决这个问题提供了一种好的解决模式,能够为网络安全发展提供良好的技术保障。
4.本发明通过采集网络流量测试数据集,并对其进行数据归一化和数据样本再平衡,然后将处理后的数据送入随机森林构成的二分类模型进行训练,进而得到分类后的网络入侵检测模型,最后将测试集进行测试,得到网络入侵检测判定结果,最终得到一个网络入侵检测的方法。


技术实现要素:

5.本发明目的在于提供一种基于随机森林的网络入侵检测方法,对网络流量数据进行入侵判定的二分类分析;通过召回率和准确率,对网络入侵行为进行判定。
6.为了实现以上目的,本发明所采用的技术方案包括以下步骤:
7.步骤s1.数据预处理:将网络流量测试数据集经过归一化处理后上传至数据库,这些数据包括计算机网络产生的大量审计数据;
8.步骤s2.数据再平衡:对步骤s1中获得的数据进行数据再平衡,增加少数类样本,提高少数类样本比例;
9.步骤s3.二分类模型训练:对步骤s2中处理后的数据送入随机森林模型进行训练,得出网络入侵的检测模型;
10.步骤s4.网络入侵判定:将测试数据通过模型进行网络入侵判定。
11.所述步骤s1数据归一化如下:
12.步骤s1:归一化,将数据按照公式(1)归一化处理:
[0013][0014]
式中,x为需要归一化的值,x
max
为所采集数据特征中最大的值,x
min
为所采集数据特征中最小的值;
[0015]
所述步骤s2数据再平衡步骤如下:
[0016]
步骤s21:针对训练数据,采取最邻近算法,计算出网络流量样本数据的k个近邻;
[0017]
步骤s22:针对每个网络流量样本,与它k近邻中随机选择一个的样本,进行随机线性插值;
[0018]
步骤s23:重复步骤s22,直至生成的新样本个数达到合成比率要求;
[0019]
步骤s24:将新合成的样本数据与原数据集合成,产生新的训练集;
[0020]
所述步骤s3随机森林模型训练包括以下步骤:
[0021]
步骤s31:从完整的m个特征中随机选择k个特征,其中k<<m;
[0022]
步骤s32:使用最佳分割点计算k个特征中的节点d;
[0023]
步骤s33:使用最佳划分将网络划分为子节点;
[0024]
步骤s34:重复从步骤s31到步骤s33的测量,直到达到节点n的数量;
[0025]
步骤s35:通过重复步骤s31到步骤s34中的n个树,开发一个森林来构建n个树;
[0026]
所述步骤s4网络入侵判定包括以下几个步骤:
[0027]
步骤s41:将测试数据导入训练好的随机森林模型进行也测,生成模型预测召回率和准确率;
[0028]
步骤s42:根据召回率和准确率判断网络流量是否存在网络入侵行为。
[0029]
本发明具有以下有益效果及优点:
[0030]
(1)相对于传统的数据处理方法,本发明的smote算法是是基于随机过采样算法的一种改进算法,它对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中,通过增加少数类样本的数据集,使得少数类样本和多数类样本达到一定比例,实现样本再平衡效果;
[0031]
(2)相对于传统的随机森林算法,本发明通过基于smote的随机森林方法来对网络流量数据集进行分类,该算法在通过随机抽取的方式,抽取不同的特征向量进行分类,又能够处理大批量、多维度的复杂数据,模型的泛化能力强,不易造成过拟合问题,具有较高的分类准确度。
附图说明
[0032]
图1为本发明一种基于随机森林的网络入侵检测方法步骤图。
[0033]
图2为本发明基于随机森林模型的实现流程图。
具体实施方式
[0034]
实施例:
[0035]
如图1所示,本发明技术方案包含四个方面的步骤:数据预处理,数据再平衡,二分类模型训练,网络入侵判定。
[0036]
所述步骤s1数据预处理:将网络流量测试数据集经过归一化处理后上传至数据库,这些数据包括计算机网络产生的大量审计数据;
[0037]
所述步骤s2数据再平衡:对数据预处理后获得的数据进行数据再平衡,增加少数类样本,提高少数类样本比例;
[0038]
所述步骤s3二分类模型训练:将经过数据再平衡处理后的数据送入随机森林模型进行训练,得出网络入侵的检测模型;
[0039]
所述步骤s4网络入侵判定:将测试数据集通过模型进行网络入侵判定。
[0040]
如图2所示,本发明所述随机森林判定过程分为以下几步:
[0041]
首先输入网络流量测试数据集,用于判断该测试数据集属于哪种分类类型;
[0042]
其次随机森林中的每一棵决策树分别对网络流量测试数据集进行判断和分类,每个决策树会得到一个自己的分类结果;
[0043]
最后通过分析决策树的分类结果中个数最多的分类,进而把这个结果当做最终的结果。
[0044]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。


技术特征:
1.一种基于随机森林的网络入侵检测方法,其特征在于,包括以下步骤:步骤s1.数据预处理:将网络流量测试数据集经过归一化处理后上传至数据库,这些数据包括计算机网络产生的大量审计数据;步骤s2.数据再平衡:对步骤s1中获得的数据进行数据再平衡,增加少数类样本,提高少数类样本比例;步骤s3.二分类模型训练:对步骤s2中处理后的数据送入随机森林模型进行训练,得出网络入侵的检测模型;步骤s4.网络入侵判定:将测试数据通过模型进行网络入侵判定;所述步骤s1数据归一化如下:步骤s1:归一化,将数据按照公式(1)归一化处理:式中,x为需要归一化的值,x
max
为所采集数据特征中最大的值,x
min
为所采集数据特征中最小的值;所述步骤s2数据再平衡步骤如下:步骤s21:针对训练数据,采取最邻近算法,计算出网络流量样本数据的k个近邻;步骤s22:针对每个网络流量样本,与它k近邻中随机选择一个的样本,进行随机线性插值;步骤s23:重复第步骤s22,直至生成的新样本个数达到合成比率要求;步骤s24:将新合成的样本数据与原数据集合成,产生新的训练集;所述步骤s3随机森林模型训练包括以下步骤:步骤s31:从完整的m个特征中随机选择k个特征,其中k<<m;步骤s32:使用最佳分割点计算k个特征中的节点d;步骤s33:使用最佳划分将网络划分为子节点;步骤s34:重复从步骤s31到步骤s33的测量,直到达到节点n的数量;步骤s35:通过重复步骤s31到步骤s34中的n个树,开发一个森林来构建n个树;所述步骤s4网络入侵判定包括以下几个步骤:步骤s41:将测试数据导入训练好的随机森林模型进行也测,生成模型预测召回率和准确率;步骤s42:根据召回率和准确率判断网络流量是否存在网络入侵行为。

技术总结
本发明公开了一种基于随机森林的网络入侵检测方法,包括4个步骤:S1数据预处理:将网络流量测试数据集经过归一化处理后上传至数据库;S2数据再平衡:对预处理后的数据进行再平衡,增加少数类样本;S3二分类模型训练:将经过数据再平衡后的数据送入随机森林模型进行训练,得出网络入侵的检测模型;S4网络入侵判定:将测试数据通过模型进行网络入侵判定。本发明提供的一种基于随机森林的网络入侵检测方法,可以通过网络流量测试数据集对网络入侵进行训练,并预测是否为入侵行为,实现网络安全智能检测过程,有效提高网络防控风险能力。有效提高网络防控风险能力。有效提高网络防控风险能力。


技术研发人员:刘亚荣 黄海滨 黄飞扬 于顼顼
受保护的技术使用者:桂林理工大学
技术研发日:2021.09.15
技术公布日:2021/12/27
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1