本发明涉及网络人工智能、未知流量识别、未知流量聚类,尤其涉及基于软边缘三元组损失函数的孪生网络未知流量识别方法。
背景技术:
1、未知流量识别对于网络安全管理和网络资源优化十分重要,运营商或网络管理员可以识别潜在的未知恶意流量或者网络攻击;同时可以对识别出的流量进行细粒度的网络资源分配与动态智能化调配,以支持网络切片业务、可定制化网络服务等业务的发展。因此实现细粒度的未知流量识别能够促进网络资源高效率利用、降低网络能耗、降低网络安全潜在风险。
2、未知网络流量识别主要包括未知流量检测和未知流量聚类两个阶段。前者确保未知的应用流量能够被检测到,以一定的置信率与已知种类区分,避免未知流量与已知种类混淆,从而导致一些隐匿性安全风险或者阻碍具有针对性的网络资源优化;后者则确保已经被识别出来的未知流量根据其相似度聚类成纯度更高的簇,以引入专家系统(指具有流量识别背景知识的技术人员,在传统技术或者人工智能技术辅助下组成的专业系统,以进一步提高识别的准确度)、深度包解析技术等进一步分析未知流量种类,丰富已知样本库,进而提升网络流量的识别准确度。
3、传统的未知流量识别方案主要分为以下三种:(1)基于无监督聚类的识别方法直接对所有的流量样本根据选定特征进行无监督聚类,通常导致未知流量不能被有效区分且堆簇数目不确定;(2)基于半监督聚类的识别方法通常引入部分带标签样本指导聚类过程,该种方式会导致未知流量样本被已知流量样本吞噬,导致识别精度下降,且污染已知样本;(3)基于one-class思想的识别方法针对任何一个已知种类的流量类别均构造出一个二分类器判断样本是否属于该类别,若所有二分类其均判定为否,则样本被判定为未知。这种方法开销过大,当实际网络环境中出现上千种应用,则需要维护过多二分类器。
技术实现思路
1、本发明的目的在于,解决传统的未知流量识别方案中存在的上述问题。
2、为实现上述目的,本发明提供了一种基于软边缘三元组损失函数的孪生网络未知流量识别方法,该方法包括以下步骤:
3、构建孪生网络训练需求的三元组数据集合,采用随机构建的方式,通过多轮迭代,形成多种组合的三元组训练数据集;
4、在孪生网络模型训练阶段,软边界三元组损失函数指导孪生网络模型训练,训练完成后的孪生网络单独作为编码器;使用编码器将被测试样本与所有已知流量数据样本编码;计算被测试样本与已知流量应用的距离,通过与预设阈值比较判定其是否属于未知样本;
5、将判定为未知流量的样本通过相似度聚类,形成纯度更高的堆簇;根据簇纯度决定最佳分簇数量,最终引入专家系统进行细粒度分析。
6、本发明采用策略学习的思想,解决传统无监督聚类方案与深度学习方案在未知流量识别领域的聚类数量不明确、维护孪生网络模型过多等问题。训练阶段在软边界三元组损失函数约束下,使同类别样本距离拉近,同时推理不同类别样本使其距离增大,以此在新的映射空间里使得不同类别流量数据的边界更为明显,提高识别精度。
1.基于软边缘三元组损失函数的孪生网络未知流量识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,训练三元组的数据集构造作为孪生网络模型训练的输入,孪生网络模型在损失函数的指导下学习三元组数据信息,优化孪生网络模型。
3.根据权利要求2所述的方法,其特征在于,所述三元组构造步骤包括:
4.根据权利要求1所述的方法,其特征在于,所述训练过程主要包含软边界三元组损失函数设计,损失函数定义为:
5.根据权利要求1所述的方法,其特征在于,判定被测试样本是否属于未知样本步骤,包括:
6.根据权利要求1所述的方法,其特征在于,对已经被孪生网络编码的未知流量样本,部署无监督聚类算法;计算最佳簇值,通过计算簇内纯度,选取纯度最高的对应数值作为最佳簇值;引入后续专家系统完成进一步分析。
7.根据权利要求1所述的方法,其特征在于,聚类阶段支持用户自定义无监督聚类算法,包括k-mean、谱聚类和图聚类。