1.本发明涉及一种伪标签引导下的多视角共识图半监督网络入侵检测系统,属于数据分类领域。
背景技术:2.随着信息时代的到来和互联网的普及,网络攻击对个人、公司及国家信息安全的威胁日益严重。如何准确识别当前访问是否为异常访问,并判断该异常访问所属攻击类别以快速部署相应防御措施,是网络入侵检测的主要研究内容。但由于存在海量的网络访问数据,而给海量网络数据打标签需要耗费大量的人力、物力,因此在实际操作中并不可行。半监督学习因为其可以仅利用少量标签样本的监督信息实现对大量无监督样本的分类,近年来成为网络入侵检测的主要手段之一。
3.不同类型的特征提取器可针对相同网络入侵样本采集到多种类型的数据特征以全面描述样本目标,其中每种类型的特征可以看作是样本的一个视角。合理利用此类异构多视角的数据可以大幅提升入侵检测的精度。如何在有限的标签样本场景下合理利用多个视角的特征是设计半监督多视角网络入侵检测系统的关键。
4.半监督多视角网络入侵系统的设计通常至少遵循以下三个原则中的一个原则:第一个原则是在特征空间中相近的两个网络入侵样本通常属于同一种攻击类型;第二个原则是相同簇结构内的样本拥有相同的标签;第三个原则是网络入侵样本分布在一个维度远低于原始特征空间的流形空间中,而此流形空间通过一个图来表表示各样本间的关系。由于基于图的半监督分类方法显示出的良好性能,本发明致力于学习到一个高质量的多视角共识图来执行网络入侵检测任务。
技术实现要素:5.技术问题:针对现有的网络入侵检测系统无法充分利用已有标签样本的监督信息的问题,本发明提供了一种伪标签引导下的多视角共识图半监督网络入侵检测系统。该发明利用有限标签网络入侵样本的监督信息生成额外的监督信息并引入到多视角共识图的学习过程中,获得一个可以更好的估计样本流形结构的多视角共识图以执行网络入侵检测任务。
6.技术方案:首先,将采集到的网络入侵样本随机挑选小部分人工打上标签作为标签样本集,剩余的网络入侵样本为无标签样本集;其次,在样本的每个视角中基于标签样本并采用近邻法为无标签样本分配对应视角的伪标签;接着,选择在所有视角中伪标签一致的无标签样本作为高置信度样本,并将对应的一致伪标签信息作为额外的监督信息;进而,采用自表示子空间学习方法在每个视角中学习到视角特定图,并采用最大对齐方式,结合原有的标签样本的监督信息与额外的监督信息在优化过程中动态地学习与所有学习到的视角特定图有最小差异的多视角共识图;同时,学习到的多视角共识图可将标签样本的监督信息传播至无标签样本,并得到指示标签矩阵;最后,上述步骤被联合集成在一个统一的
学习框架中,并采用坐标下降法获得每个模块的最优解,并最终得出无标签样本的分类结果。
7.本发明解决其技术问题所采用的技术方案还可以进一步细化。所述无标签样本的各视角伪标签由其在原始特征空间中欧式距离最近的标签样本所属的标签确定,在实践中可基于标签样本训练其他经典的单视角分类模型以获取质量更高的伪标签,进而进一步提升最终的高置信度伪标签的质量。
8.有益效果:本发明与现有技术相比,具有以下优点:
9.在不额外引入较高计算代价的基础上,利用有限的现有标签网络入侵样本的监督信息,同时遵循多视角学习的一致性原则筛选得到高置信度伪标签作为额外的监督信息引入到多视角共识图的学习过程中。与现有方法仅使用有限标签样本的监督信息不同,本发明结合已有的标签信息和额外的标签信息所学的多视角共识图可以更好的估计样本的流形结构,从而实现更准确的网络入侵检测。
10.不同于传统方法通常采用高斯核函数构建表示样本关系的图,本发明采用自表示子空间学习方法学习每个视角的视角特定相似图,避免了调节高斯核宽参数导致的人工成本。
11.本发明采用最大对齐方式,结合原有的标签样本的监督信息与额外的监督信息在优化过程中动态地学习与所有学习到的视角特定图有最小差异的多视角共识图,充分的利用了样本的监督信息,各模块以一种相互耦合,相互增强的方法寻得最优解,大大提升了网络入侵检测系统的精度。
附图说明
12.图1是本发明伪标签引导下的多视角共识图半监督网络入侵检测系统流程图。
13.图2是本发明的高置信度伪标签生成流程图。
具体实施方式
14.为了更清楚的描述本发明的的内容,下面结合实例和说明书附图作进一步说明。下文所提的实例并非用来限制本发明所覆盖的范围。本发明的伪标签引导下的多视角共识图半监督网络入侵检测系统,包括以下步骤:
15.步骤1:输入网络入侵检测数据集其中n为样本总数,v表示视角总数,dv表示第v个视角的特征维度,分别表示标签样本集和无标签样本集,输入标签样本标签的独热形式(one-hot)矩阵y。
16.步骤2:首先获取无标签网络入侵样本的伪标签,其具体步骤如下:
17.步骤2.1:利用标签网络入侵样本,在所有视角中分别使用最近邻方法给所有无标签样本分配一个初始的伪标签:
18.步骤2.1.1:利用以下公式计算标签样本与无标签样本两两间的欧氏距离:步骤2.1.1:利用以下公式计算标签样本与无标签样本两两间的欧氏距离:是样本xi和xj的距离,d表示样本维度,上标v表示第v个视角;
19.步骤2.1.2:根据上一步计算的距离,选择最近的标签样本为无标签样本分配伪标签。
20.步骤2.2:针对所有的无标签样本,对比其各视角中分配的伪标签是否一致,并选择伪标签一致的无标签样本作为高置信度样本。
21.步骤2.3:将高置信度样本的伪标签作为额外的监督信息输出。
22.步骤3:针对样本的每个视角,采用自表示学习方法动态学习视角特定图。具体操作为:其中:xv和sv分别表示第v个视角对应的样本和学习的视角特定图,v表示视角总数,||
·
||f表示对应矩阵的f范数,λ表示一个大于0的正则参数,diag(
·
)表示对应矩阵的对角元素,1表示全是1的向量。
23.步骤4:采用最大对齐的方式,并结合已有标签样本的标签信息和额外的监督信息动态学得一个与所有视角特定图有最小差异的多视角共识图。具体操作为:其中,a表示学习到的多视角共识图,fi是指示标签矩阵的第i行,a
ij
为共识图的第i行第j列元素,y
′
为根据已有标签样本确定的额外的监督信息矩阵。(3)式中第一项用以约束共识图a与各视角的视角特定图sv有最小的差异性,第二项约束拥有较大相似度的两个样本对应的标签之间的距离更近,第三项、第四项用以约束最终传播所得的标签更接近于真实标签和伪标签。
24.步骤5:将上述提到的模块统一为一个联合的优化框架:其中,λ、α、β、μ、γ分别为对应模块的正则化参数。该框架采用坐标下降法优化,具体步骤为:
25.步骤5.1:优化参数sv,并将其他参数视为常数:
26.步骤5.1.1:不考虑sv的约束条件,对公式(4)针对sv求偏导并令其为0,可以得到sv不考虑约束条件时的解,即:
27.步骤5.1.2:进而考虑sv约束条件,求解下式:
通过构造拉格朗日函数并结合kkt条件,可以得到sv的最优解:其中并且s
′
ii
=0,需要注意的是,为保证图的质量,我们仅更近第i个样本的10个最近邻样本的相似度值。
28.步骤5.2:优化参数a,并将其他参数视为常数:求解下式:其中通过构造拉格朗日函数并结合kkt条件,可以得到a的最优解:其中并且ai′i=0,
29.步骤5.3:对公式(4)针对f求偏导并令其为0,可以得到f在当前迭代步数的闭解:
30.步骤5.4:重复步骤5.1-5.3,直至公式(4)的值收敛,即为优化完成。
31.步骤6:根据下式输出无标签样本的分类结果:
32.上文中根据附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不脱离本发明的精神和原理的前提下,还可以做出若干改进和等同替换。本发明权利要求进行改进和等同替换后的技术和方案,均落入本发明的保护范围。实验设计
33.实验数据集选取:本发明选用常规的网络安全数据集nsl-kdd用以评估本系统完成网络入侵检测任务的效果,该数据集详细信息如下表所示:数据集视角数类别数样本数维度nsl-kdd352526464/1144/104
34.本发明采用一种自适应的方法确定正则参数λ、α,即针对第i个样本,其对应的正则参数值为第11个最近邻的相似度值减去前10个最近邻的相似度值之和,最终的正则参数值为所有样本的正则参数值取平均;对于正则参数β、γ采用网格搜索法分别在[10-3
;10-2
;10-1
]和[100;101;102;103]内搜索确定最优正则参数;μ设置为1。
[0035]
对比模型:本发明提出的系统命名为pmvc。我们在lp,ammss,smgi,amgl,mlan和mvcsd之间进行性能比较。
[0036]
性能度量方式:本实验采用准确率acc作为衡量模型性能的指标。对于给定的真实
标签yi和预测标签fi,acc的定义如下:其中,δ(fi,yi)只有在fi=yi时为1,否则为0。
[0037]
实验策略:对于本发明与其他对比模型,我们分别采用其最优参数,分别在包含10%、15%、20%、25%和30%的标签样本的数据集上运行系统,并汇报10次运行结果的平均值和标准差,为了避免随机性,标签样本在10次实验中都随机选取。
[0038]
实验结果如下表所示,表中数据分别对应10次独立实验结果所得的acc指标度量下的均值及标准差,每一行对应一个算法,每一列对应一个数据集,每个数据集上的最好结果都已使用粗体标出。
[0039]
由表中结果可知,本发明提出的pmvc在包含不同比例的标签样本的网络安全数据集上均可以达到稳定的、最优的性能,出色的完成了网络入侵检测任务。