本技术涉及网络安全,具体而言,涉及一种网络流量异常检测方法、装置、电子设备及存储介质。
背景技术:
1、随着信息技术的不断发展,互联网的普及率逐渐提高,网络流量呈爆炸式增长。接入互联网的各类设备数量增加,导致网络流量的复杂性提升,给传统的网络流量分析带来挑战,同时网络攻击手段也不断升级。网络流量异常检测可以实现高效的攻击检测,通过机器学习、深度学习、聚类分析等手段来检测不同类型的攻击和异常行为。然而,在模型训练过程中,需要大量的异常流量和正常流量,但实际上,异常流量样本较少,从而使得训练的模型检测准确率低。
技术实现思路
1、本技术实施例的目的在于提供一种网络流量异常检测方法、装置、电子设备及存储介质,用以提高对网络流量安全检测的准确率。
2、第一方面,本技术实施例提供一种网络流量异常检测方法,包括:
3、利用特征提取器对待测网络流量数据进行特征提取,获得第一特征向量;其中,特征提取器为利用正常网络流量数据进行训练获得;
4、根据第一特征向量,生成对应的服从标准正态分布的第二特征向量;
5、计算第二特征向量与标准正态分布的距离;
6、基于距离确定待测网络流量数据是否为异常流量。
7、在本技术实施例中,特征提取器只需要使用正常网络流量数据进行训练即可,因此本技术的特征提取不依赖异常网络流量,并且通过将提取的第一特征向量映射成服从标准正态分布的第二特征向量,计算第二特征向量与标准正态分布的距离,基于该距离确定待测网络流量是否异常,可以提高网络流量检测的准确性。
8、在任一实施例中,该方法还包括:
9、获取训练网络流量集,训练网络流量集包括多个正常网络流量数据;
10、将正常网络流量数据输入对抗重构网络中的编码器中,获得编码器输出的隐向量特征;
11、将隐向量特征输入对抗重构网络中的解码器中,获得解码器输出的重构流量数据;
12、将正常网络流量数据与重构流量数据输入判别器中,获得判别器输出的评分,并根据评分计算判别器损失;
13、基于正常网络流量数据与重构流量数据的均方差损失和判别器损失优化对抗重构网络中的参数进行优化,以获得训练好的对抗重构网络;其中,训练好的对抗重构网络中的编码器为特征提取器。
14、本技术实施例通过只使用正常网络流量训练对抗重构网络,从而获得特征提取器,通过该特征提取器可以提取到待测网络流量数据的特征向量,与现有的执行有监督分类任务,然后基于模型参数从网络流量中提取特征的方式相比,本技术无需人工标注流量,并可以提取到更准确的特征向量,从而提高后续安全检测的准确性。
15、在任一实施例中,根据第一特征向量,生成对应的服从标准正态分布的第二特征向量,包括:
16、将第一特征向量输入训练好的normalizing flows模型中,normalizing flows模型将第一特征向量映射到标准正态分布中,获得normalizing flows模型输出的第二特征向量。
17、本技术实施例通过利用normalizing flows模型将第一特征向量映射到标准正态分布中,由于在训练时normalizing flows模型是将正常流量的第一特征映射到标准正态分布中,所以经过训练好的normalizing flows模型提取的正常流量的第二特征都是服从标准正态分布的,因此,可以通过计算第二特征向量与标准正态分布的距离确定待测网络流量是否异常,因此,本技术的方案不依赖于训练集中存在的异常流量的类别,可以提高异常流量识别的准确率。
18、在任一实施例中,方法还包括:
19、通过特征提取器对训练网络流量数据进行特征提取,获得训练特征向量;
20、将训练特征向量输入normalizing flows模型,获得normalizing flows模型输出的预测特征向量;
21、根据预测特征向量和训练特征向量对损失函数进行计算,并根据计算获得的损失值对normalizing flows模型的参数进行优化,以获得训练好的normalizing flows模型;
22、其中,损失函数为:
23、
24、zl为训练特征向量;所述zl'为所述预测特征向量;p(zl)为服从真实流量分布的训练特征向量的概率密度;p(zl')为服从标准正态分布的预测特征向量的概率密度。
25、本技术实施例中只需要收集正常网络流量数据,无需对种类繁多的异常流量进行收集并标注,极大地节省了人力和时间资源。
26、在任一实施例中,计算所述第二特征向量与标准正态分布的距离,包括:
27、利用马氏距离算法公式计算距离第二特征向量与标准正态分布的距离;
28、马氏距离算法公式包括:
29、其中,zt'为第二特征向量;μ为标准正态分布的均值;σ为标准正态分布的标准差。
30、本技术实施例通过计算第二特征向量与标准正态分布的距离,可以反映出待测网络流量数据与正常网络流量数据的差异度,从而可以提高对待测网络流量数据进行安全检测的准确性。
31、在任一实施例中,基于距离确定待测网络流量数据是否为异常流量,包括:
32、若距离大于预设距离阈值,则待测网络流量数据为异常流量;
33、若距离不大于预设距离阈值,则待测网络流量数据为正常流量。
34、本技术实施例通过计算第二特征向量与标准正态分布的距离,可以反映出待测网络流量数据与正常网络流量数据的差异度,从而可以提高对待测网络流量数据进行安全检测的准确性。
35、在任一实施例中,该方法还包括:
36、采集网络流量数据,对网络流量数据进行预处理,获得待测网络流量数据;
37、预处理包括以下至少一项:
38、剔除网络流量数据中与活动无关的数据;
39、剔除网络流量数据中底层负责物理链接的数据头部信息;
40、对网络流量数据中的字段长度进行填充;
41、对ip字段匿名化处理;
42、将网络流量数据进行归一化。
43、本技术实施例通过对网络流量数据进行预处理,获得待测网络流量数据,提高了对待测网络流量数据检测的准确性,以及降低后续安全检测的计算量。
44、第二方面,本技术实施例提供一种网络流量异常检测装置,包括:
45、特征提取模块,用于利用特征提取器对待测网络流量数据进行特征提取,获得第一特征向量;
46、映射模块,用于根据第一特征向量,生成对应的服从标准正态分布的第二特征向量;
47、距离计算模块,用于计算第二特征向量与标准正态分布的距离;
48、异常判断模块,用于基于距离确定待测网络流量数据是否为异常流量。
49、第三方面,本技术实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
50、所述处理器和所述存储器通过所述总线完成相互间的通信;
51、所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法。
52、第四方面,本技术实施例提供一种非暂态计算机可读存储介质,包括:
53、所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法。
54、本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。