本发明涉及网络安全,尤其涉及一种基于有限审查预算的网络入侵样本高效标注方法、系统及存储介质。
背景技术:
1、随着新漏洞和新型攻击技术的不断出现,及时发现这些最新的网络攻击是保护网络安全的关键,当前已经开展了大量的研究工作来应对这一挑战。然而,如何加快对发现的最新攻击样本进行审查和标注确很少被关注。这些被审查和标注的新样本能够支撑后续的多项任务,从而增强网络安全的防护能力。比如,异常检测、带有噪声标签的网络入侵检测和小样本网络入侵检测等。
2、如何有效且高效地对新样本进行审查和标注是一个极具挑战性的问题。一方面,新样本往往缺乏先验知识,难以直接判断是否为正常或潜在威胁,导致依赖于自动化的方法不足以应对复杂多变的真实网络环境。另一方面,网络安全专家人工标注是确保标注正确性的关键步骤,但这通常伴随着高昂的成本和时间消耗,导致无法在有限审查预算的前提下应对源源不断地新样本。先前的工作利用dbscan聚类算法来估计类别数,进而使用k-means聚类算法来实现新样本的聚类和标注。然而,误差过大的估计类别数将导致其失去有效性。
技术实现思路
1、为了解决现有技术中的问题,本发明提供了一种基于有限审查预算的网络入侵样本高效标注方法,包括执行以下步骤:
2、人工标注步骤:从新样本中选取设定数量样本用于人工的审查、标记和统计类别数;
3、标注分配步骤:利用已标记样本和统计类别数来聚类和标注剩余样本。
4、作为本发明的进一步改进,在所述人工标注步骤中,使用k-means对新样本进行聚类,聚类类别数为企业提供的预算审查样本数n,在聚类完成后,提取距离每个簇中心最近的一个新样本用于网络安全分析师手动审查和标记,标记结果进一步用于统计新样本中出现的类别数k,其中k≤n。
5、作为本发明的进一步改进,在所述标注分配步骤中,采用带有样本约束的聚类方法,通过修改k-means算法实现新样本的聚类和标注分配。
6、作为本发明的进一步改进,所述通过修改k-means算法的具体流程如下:
7、步骤1:设置并检查随机种子;
8、步骤2:初始化聚类质心,从被选中新样本中依次选取具有相同类别的新样本,来计算新样本特征的平均值作为初始质心;
9、步骤3:计算剩余没有标记的新样本到初始质心的距离,为其分配距离最近质心的标签;
10、步骤4:更新初始质心点,并始终保持有相同类别的已标记新样本在同一个簇中;
11、步骤5:再次计算剩余没有标记的新样本到初始质心的距离,为其分配距离最近质心的标签;
12、步骤6:迭代执行步骤4-步骤5,直到聚类结果不再变化。
13、作为本发明的进一步改进,在所述步骤2中,质心对应新样本中统计出的类别数。
14、本发明还公开了一种基于有限审查预算的网络入侵样本高效标注的系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述网络入侵样本高效标注方法的步骤。
15、本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述网络入侵样本高效标注方法的步骤。
16、本发明的有益效果是:1.本发明的网络入侵样本高效标注方法不对特征空间进行限制,可在原始特征空间执行,也可在特征表示空间执行;2.本发明的网络入侵样本高效标注方法能够在有限标注预算的前提下提高新样本的标注准确性和效率。
1.一种基于有限审查预算的网络入侵样本高效标注方法,其特征在于,包括执行以下步骤:
2.根据权利要求1所述的网络入侵样本高效标注方法,其特征在于,在所述人工标注步骤中,使用k-means对新样本进行聚类,聚类类别数为网络安全企业提供的预算审查样本数n;在聚类完成后,提取距离每个簇中心最近的一个新样本用于网络安全分析师手动审查和标记,标记结果进一步用于统计新样本中出现的类别数k,其中k≤n。
3.根据权利要求1所述的网络入侵样本高效标注方法,其特征在于,在所述标注分配步骤中,采用带有样本约束的聚类方法,通过修改k-means算法实现新样本的聚类和标注分配。
4.根据权利要求3所述的网络入侵样本高效标注方法,其特征在于,所述通过修改k-means算法的具体流程如下:
5.根据权利要求3所述的网络入侵样本高效标注方法,其特征在于,在所述步骤2中,质心对应从已标记的新样本中统计出的类别数。
6.一种基于有限审查预算的网络入侵样本高效标注的系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-5中任一项所述网络入侵样本高效标注方法的步骤。
7.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-5中任一项所述网络入侵样本高效标注方法的步骤。