本技术涉及流量检测,尤其是涉及一种异常流量检测模型的训练方法及装置、监测方法、设备。
背景技术:
1、网络流量作为网络空间中信息传输与交互的载体,其包含着大量重要信息。随着科学技术的不断发展,网络病毒和攻击方式日趋复杂,使得出现了一些异常的网络流量,而异常的网络流量可能会威胁网络安全,由此如何自动准确的识别异常的网络流量数据,亟待解决。
2、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
2、本技术实施例提供了一种异常流量检测模型的训练方法及装置、监测方法、设备,以便于自动准确的识别异常的网络流量。
3、本技术实施例提供了一种异常流量检测模型的训练方法,包括:获取网络流量数据集;所述网络流量数据集包括多个网络流量特征;根据各所述网络流量特征的重要性对所述网络流量数据集进行特征冗余消除并形成备选特征数据集;对所述备选特征数据集进行均衡处理并形成目标特征数据集;利用所述目标特征数据集对预设的网络模型进行训练,获得异常流量检测模型。
4、在上述实施方式中,通过重要性对网络流量特征进行筛选,能够精简网络流量特征,只保留重要的网络流量特征,从而使得通过筛选后的网络流量特征训练出的异常流量检测模型更有针对性。通过对备选特征数据集进行均衡处理并获得目标特征数据集,能够减少备选特征数据集中数据类型不平衡的问题,从而使得利用优化后的备选特征数据集训练模型,能够在不增加额外的模型复杂度的情况下,提高小样本网络流量特征类型的检测召回率。进而使得通过本技术的方式训练出的异常流量检测模型,能够自动准确的识别异常的网络流量。且利用本技术训练出的异常流量检测模型能够处理较大规模的数据集,实际应用中处理速度较快,能够实时响应。
5、进一步的,获取网络流量数据集,包括:获取网络原始数据和各所述网络原始数据的数据源;根据所述数据源分别提取各所述网络原始数据中的关键信息;分析各所述数据源之间的关联关系,并将所述关联关系与各所述关键信息进行融合,获得若干网络流量特征;各所述网络流量特征组成所述网络流量数据集。
6、在上述实施方式中,通过对关联关系与各关键信息进行融合,进而得到网络流量特征,能够使得网络流量特征包含的信息更加丰富,从而利用网络流量特征训练出的异常流量检测模型能够更准确。
7、进一步的,根据各所述网络流量特征的重要性对所述网络流量数据集进行特征冗余消除并形成备选特征数据集,包括:步骤s11,将所述网络流量数据集输入预设的第一极限树模型,获得各所述网络流量特征的重要性分数;步骤s12,移除所述网络流量数据集中所述重要性分数最低的网络流量特征,获得新的所述网络流量数据集;循环步骤s11~s12,直至满足预设条件,剩余的网络流量特征形成所述备选特征数据集;所述预设条件包括:所述备选特征数据集中的所述网络流量特征的个数小于或等于预设个数。
8、在上述实施方式中,重要的网络流量特征往往对预测的流量是否异常的影响更大,通过筛选重要的网络流量特征组成备选特征数据集,能够提高训练出的异常流量检测模型的准确性。同时,通过筛选重要的网络流量,能够减少用于训练的特征,从而减少模型训练所需的资源和时间。
9、进一步的,根据各所述网络流量特征的重要性对所述网络流量数据集进行特征冗余消除并形成备选特征数据集,还包括:生成与所述网络流量特征的数据分布特性相同的影子特征;利用预设的第二极限树模型构建若干棵决策树,每个所述决策树的节点分裂时计算每个所述网络流量特征的基尼指数减少量,并选择基尼指数减少量最大的网络流量特征进行分裂,根据每个所述网络流量特征在所述第二极限树模型中所有的基尼指数减少量计算得到每个所述网络流量特征的重要性评分;利用预设的第三极限树模型构建若干棵决策树,每个所述决策树的节点分裂时计算每个所述影子特征的基尼指数减少量,并选择基尼指数减少量最大的影子特征进行分裂,根据每个所述影子特征在所述第三极限树模型中所有的基尼指数减少量计算得到每个所述影子特征的重要性评分;根据所述网络流量特征和所述影子特征的重要性评分筛选部分所述网络流量特征并形成所述备选特征数据集。
10、在上述实施方式中,网络流量特征的重要性评分反映了它们在模型中的实际作用,而影子特征的重要性评分则应该接近于零,因为影子特征不包含任何实际信息。由此,通过比较网络流量特征与影子特征的重要性评分,可以评估每个网络流量特征的显著性,进而利于后续训练获得的异常流量检测模型更准确。
11、进一步的,根据所述网络流量特征和所述影子特征的重要性评分筛选部分所述网络流量特征并形成所述备选特征数据集,包括:获取所有所述影子特征的重要性评分中的最大值;比较每一个所述网络流量特征的重要性评分与所述最大值,将重要性评分大于所述最大值的所述网络流量特征保留并形成备选特征数据集。
12、在上述实施方式中,与影子特征相比具有显著重要性的网络流量特征特征被认为是对模型预测有显著贡献的全局特征。由此,将重要性评分大于影子特征的最大值的网络流量特征进行保留并组成备选特征数据集。能够使得后续进行模型训练的网络流量特征都是对模型预测有显著贡献的,从而提高训练后异常流量检测模型的准确性。
13、进一步的,对所述备选特征数据集进行均衡处理并形成目标特征数据集,包括:针对每一个所述网络流量特征:确定该网络流量特征与其他所述网络流量特征之间的距离;将距离小于预设阈值的网络流量特征确定为近邻样本;统计各所述近邻样本的类型以及各类型所占数量,将数量最多的类型定义为主导类型;若所述主导类型与该网络流量特征的类型一致,则保留该网络流量特征,若所述主导类型与该网络流量特征的类型不一致,则删除该网络流量特征或调整该网络流量特征的预设权重,剩余的所述网络流量特征形成所述目标特征数据集。
14、在上述实施方式中,如果主导类型和网络流量特征的类型不同,则该网络流量特征可能是一个边界点或噪声点,其会造成数据不均衡的问题。由此,通过确定网络流量特征对应的主导类型,并删除与主导类型不一致的网络流量特征,能够减少备选特征数据集中数据类型不平衡的问题,从而使得利用优化后的备选特征数据集训练模型,能够在不增加额外的模型复杂度的情况下,提高小样本网络流量特征类型的检测召回率。
15、进一步的,预设的网络模型为多层感知机模型;利用所述目标特征数据集对预设的网络模型进行训练,获得异常流量检测模型,包括:将所述目标特征数据集输入所述多层感知机模型进行训练,并利用多头注意力机制对所述目标特征数据集中的特征进行加权求和,获得输出结果;根据预设的损失函数计算所述输出结果的损失值;根据所述损失值和预设的优化算法优化所述多层感知机模型中每一层的权重和偏置直至收敛或达到设定的迭代次数,获得所述异常流量检测模型。
16、在上述实施方式中,通过利用多头注意力机制对目标特征数据集中的特征进行加权求和,能够利用注意力权重对不同特征的重要性进行动态调整,实现了自适应地聚焦于对检测异常流量最为关键的网络流量特征。从而训练出的异常流量检测模型能够更加准确。
17、本技术实施例提供了一种异常流量监测方法,包括:获取待检测流量;将所述待检测流量输入预设的异常流量检测模型,获得所述待检测流量是否异常;所述异常流量检测模型通过上述的异常流量检测模型的训练方法获得。
18、在上述实施方式中,通过异常流量检测模型检测异常流量,能够有效处理大规模的数据集,识别异常流量的速度较快,能够实时响应。
19、本技术实施例提供了一种异常流量检测模型的训练装置,包括:数据集获取模块,用于获取网络流量数据集;所述网络流量数据集包括多个网络流量特征;第一优化模块,用于根据各所述网络流量特征的重要性对所述网络流量数据集进行特征冗余消除并形成备选特征数据集;第二优化模块,用于对所述备选特征数据集进行均衡处理并形成目标特征数据集;训练模块,用于利用所述目标特征数据集对预设的网络模型进行训练,获得异常流量检测模型。
20、本技术实施例提供了一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述异常流量检测模型的训练方法或上述的异常流量监测方法。
21、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本技术。