一种网络通讯检测方法、装置、设备以及存储介质

文档序号:32525144发布日期:2022-12-13 20:50阅读:24来源:国知局
一种网络通讯检测方法、装置、设备以及存储介质

1.本技术属于网络通讯技术领域,特别涉及一种网络通讯检测方法、装置、设备以及存储介质。


背景技术:

2.随着网络技术的进步与广泛应用,越来越多的应用基于互联网或物联网设备得以实现。为了能让网络技术更好的服务于人们的需求,通常需要对网络通讯进行检测分类,例如区分网络通讯的种类,以此根据不同的网络通讯种类选取不同的资源配置方案,或对网络通讯数据进行安全检测,将正常的网络通讯数据与异常的网络通讯数据进行检测区分,以此保障网络技术的安全可靠性等。因此,网络通讯检测是一项十分重要的技术。
3.现有技术中,常用的网络通讯检测方法包括主要包括以下几种:
4.一、基于知识库的网络通讯检测方法:该方法通过预先构造一个包含网络通讯知识特征的知识库,如当网络通讯数据具备某种模式或特征时,认定其为某一类通讯数据,而当网络通讯数据具备另一种模式或特征时,认定其为另一类通讯数据。该方法存在以下缺点:首先,该方法需要依赖于一个完备的网络通讯知识库,构建此种知识库需要极其专业的专业知识,且较为复杂、耗时耗力。此外,此种知识库并不与时俱进,需要不断进行更新,否则,依赖此种知识库的方法将无法适应快速发展的网络技术,从而逐渐变得落后。
5.二、基于机器学习的网络通讯检测方法;该方法采用机器学习模型,通过在现有的网络通讯检测数据集上进行训练,从而使其具备进行网络通讯检测的能力。然而,机器学习模型需要利用较大规模的数据集进行训练,对于物联网等获取数据较为困难的场景,获取一个完全标记的训练数据集较为困难,而利用人工对数据集进行标注也较为耗时,成本较高。
6.三、基于伪标签的训练模式:考虑到基于机器学习的网络通讯检测方法待测数据的标签信息较为稀少,现有的一些方法中采用无标签待测数据分配伪标签的模式来充分利用无标签数据信息。然而,现有的基于伪标签的训练模式存在以下缺陷:首先,现有的基于伪标签的训练模式并没有充分的考虑到空间中的几何信息,而这些几何信息可以帮助算法进行更加准确、更加细化的伪标签标注工作;此外,现有的基于伪标签的训练模式对无标签数据进行相互孤立的伪标签分配,并没有考虑所分配的伪标签与其他标签的关系,从而使得所分配的伪标签的准确率有所损失。
7.四、基于图的训练模式:在利用数据充足的信息源辅助信息稀少的待测数据进行网络通讯检测时,有一些现有方法采用了基于图的训练模式,例如最小化数据源的图向量与待测数据的图向量之间的差异等。然而,该训练模式并没有从几何的角度对图进行匹配,因此,在不考虑图自身的几何特性的情况下,该训练模式的性能会有所损失。


技术实现要素:

8.本技术提供了一种网络通讯检测方法、装置、设备以及存储介质,旨在至少在一定
程度上解决现有技术中的上述技术问题之一。
9.为了解决上述问题,本技术提供了如下技术方案:
10.一种网络通讯检测方法,包括:
11.分别获取源数据和待测数据;所述源数据为完全拥有通讯类别标签的数据,所述待测数据包括少部分拥有通讯类别标签的有标签待测数据以及大多数没有通讯类别标签的无标签待测数据;
12.分别计算所述待测数据中无标签待测数据的神经网络标签、几何标签以及邻居标签,根据所述神经网络标签、几何标签以及邻居标签生成所述无标签待测数据的伪标签;
13.基于所述源数据以及生成伪标签后的待测数据,调用几何图生成算法分别构造所述源数据与待测数据的几何图;
14.结合形状保持、旋转防止、对称防止以及节点分布保持算法对所述源数据与待测数据的几何图进行空间匹配,基于所述几何图匹配结果对所述待测数据进行网络通讯检测。
15.本技术实施例采取的技术方案还包括:所述分别获取源数据和待测数据之后还包括:
16.分别构建源数据的第一特征提取器和待测数据的第二特征提取器,将源数据和待测数据分别输入第一特征提取器和第二特征提取器,利用第一特征提取器和第二特征提取器对源数据与待测数据进行公共特征空间映射,并输出源数据与待测数据在公共特征空间中的特征向量表示。
17.本技术实施例采取的技术方案还包括:所述分别计算所述待测数据中无标签待测数据的神经网络标签、几何标签以及邻居标签,根据所述神经网络标签、几何标签以及邻居标签生成所述无标签待测数据的伪标签包括:
18.将所述源数据与待测数据在公共特征空间中的特征向量表示输入至公共分类器;
19.利用所述公共分类器为所述待测数据中的每一个无标签待测数据输出一个预测标签,记为神经网络标签;
20.将源数据与所述待测数据中的有标签待测数据进行合并,并计算合并后的数据中每一个通讯类别数据的均值向量;
21.对于每一个无标签待测数据,寻找与其余弦相似度最高的合并后的通讯类别数据的均值向量,将该通讯类别作为所述无标签待测数据的几何标签;
22.判断所述每一个无标签待测数据的神经网络标签与几何标签是否一致,如果不一致,不为所述无标签待测数据赋予伪标签;如果一致,
23.统计与所述无标签待测数据最近的n个相邻的有标签待测数据的标签,并判断所述n个相邻标签是否可以达成多数共识,如果不能达成多数共识,不为所述无标签待测数据赋予伪标签;如果可以达成多数共识,
24.将所述达成多数共识的标签记为所述无标签待测数据的邻居标签,并判断所述无标签待测数据的邻居标签与神经网络标签是否一致,如果不一致,不为所述无标签待测数据赋予伪标签;如果一致,
25.将所述神经网络标签作为所述无标签待测数据的伪标签。
26.本技术实施例采取的技术方案还包括:所述基于所述源数据以及生成伪标签后的
待测数据,调用几何图生成算法分别构造所述源数据与待测数据的几何图具体为:
27.分别将源数据、有标签待测数据、有标签待测数据与被赋予伪标签的待测数据进行合并后的数据作为几何图生成算法的输入数据;
28.针对每种输入数据,计算每种通讯类别数据的均值向量,将其标记为节点的具体定义为其中表示输入数据中属于第i个通讯类别的数据向量的个数,表示输入数据中所有属于第i个通讯类别的数据向量的集合;
29.对每个通讯类别数据,计算其两两均值向量与之间的欧式距离;
30.用通讯类别数据的均值向量以及其两两均值向量之间的欧式距离构建完全图及其带权邻接矩阵;
31.将所述带权邻接矩阵向量化,并输出每种输入数据的带权邻接矩阵向量;所述带权邻接矩阵向量包括源数据几何图的带权邻接矩阵向量、有标签待测数据的几何图的带权邻接矩阵向量以及有标签待测数据与被赋予伪标签的待测数据合并后生成的几何图的带权邻接矩阵向量。
32.本技术实施例采取的技术方案还包括:所述结合形状保持、旋转防止、对称防止以及节点分布保持算法对所述源数据与待测数据的几何图进行空间匹配包括:
33.调用几何形状保持模块对所述几何图进行形状保持;所述几何形状保持模块的形状保持算法具体为:将所述源数据几何图的带权邻接矩阵向量标记为1类,将所述有标签待测数据的几何图的带权邻接矩阵向量以及所述有标签待测数据与被赋予伪标签的待测数据合并后生成的几何图的带权邻接矩阵向量分别标记为0类;将三种几何图的带权邻接矩阵向量及其标记输入至对抗网络中,输出所述对抗网络的损失值为:
[0034][0035]
上式中,d代表对抗网络,ms代表所述源数据几何图的带权邻接矩阵向量,m
tl
,m
tl+pl
代表其他两种几何图的带权邻接矩阵向量,d(m)表示将带权邻接矩阵输入至对抗网络后产生的对于带权邻接矩阵来源的预测输出值;所述几何形状保持模块通过驱使特征提取器以最大化网络损失的方式进行特征映射,使得所述对抗网络无法区分所述几何图的带权邻接矩阵向量的来源,以对所述几何图进行形状保持。
[0036]
本技术实施例采取的技术方案还包括:所述结合形状保持、旋转防止、对称防止以及节点分布保持算法对所述源数据与待测数据的几何图进行空间匹配还包括:
[0037]
分别调用旋转防止模块和对称防止模块防止因旋转和对称造成的几何图不匹配;
[0038]
所述旋转防止模块的防止旋转算法具体为:分别计算源数据以及有标签待测数据中每个通讯类别数据的均值向量;对于每一个通讯类别,计算所述源数据中该通讯类别的数据均值向量与所述待测数据中该通讯类别的数据均值向量之间的余弦相似度并求和,记为lr,具体定义如下:
[0039][0040]
计算最终损失lr=k-lr,其中k为总通讯类别的个数;
[0041]
所述对称防止模块的防对称算法具体为:分别计算所述源数据以及待测数据中所有数据的均值向量;计算所述源数据的均值向量与待测数据的均值向量之间的欧式距离,并将欧式距离作为损失值;所述损失值定义如下:
[0042][0043]
其中,ns,n
t
分别代表全体源数据的个数以及全体待测数据的个数,xi代表第i个源数据的数据向量,xj表示第j个待测数据的数据向量。
[0044]
本技术实施例采取的技术方案还包括:所述结合形状保持、旋转防止、对称防止以及节点分布保持算法对所述源数据与待测数据的几何图进行空间匹配还包括:
[0045]
调用节点分布保持模块对所述几何图进行节点匹配;所述节点分布保持模块的节点匹配算法具体为:
[0046]
计算所述源数据中每个通讯类别数据由公共分类器输出的分布向量的均值向量,其数学定义如下:
[0047][0048]
上式中,c为公共分类器,f为特征提取器,t为温度参数,用于对分布向量做平滑处理,q
(k)
表示第k类源数据由公共分类器输出的分布向量的均值向量,表示源数据中属于第k类的数据向量个数,表示源数据中属于第k类的数据向量的集合;
[0049]
计算每个有标签待测数据由公共分类器输出的分布向量,其定义如下:
[0050][0051]
表示有标签待测数据的数据向量集合;对于每个有标签待测数据,计算其分布向量与其所在通讯类别的源数据的分布均值向量之间的交叉熵损失,并求平均,其数学表示如下:
[0052][0053]
其中,n
tl
表示有标签待测数据的个数,表示有标签待测数据对应的标签,表示第yi类源数据由公共分类器输出的分布向量的均值向量;
[0054]
将所述有标签待测数据的标签信息作为辅助监督,损失定义如下:
[0055][0056]
其中为交叉熵损失,α为权衡参数;
[0057]
将所述源数据的标签信息作为训练监督,其数学定义如下:
[0058][0059]
分别为源数据的数据向量集合以及源数据的标签;
[0060]
所述节点匹配算法的最终损失为:
[0061][0062]
上式中,γ,η,λ为用于调节不同损失项的权重参数,es,e
t
分别为第一特征提取器和第二特征提取器。
[0063]
本技术实施例采取的另一技术方案为:一种网络通讯检测装置,包括:
[0064]
数据获取模块:用于分别获取源数据和待测数据;所述源数据为完全拥有通讯类别标签的数据,所述待测数据包括少部分拥有通讯类别标签的有标签待测数据以及大多数没有通讯类别标签的无标签待测数据;
[0065]
伪标签生成模块:用于分别计算所述待测数据中无标签待测数据的神经网络标签、几何标签以及邻居标签,根据所述神经网络标签、几何标签以及邻居标签生成所述无标签待测数据的伪标签;
[0066]
几何图生成模块:用于基于所述源数据以及生成伪标签后的待测数据,调用几何图生成算法分别构造所述源数据与待测数据的几何图;
[0067]
几何图匹配模块:用于结合形状保持、旋转防止、对称防止以及节点分布保持算法对所述源数据与待测数据的几何图进行空间匹配,基于所述几何图匹配结果对所述待测数据进行网络通讯检测。
[0068]
本技术实施例采取的又一技术方案为:一种设备,所述设备包括处理器、与所述处理器耦接的存储器,其中,
[0069]
所述存储器存储有用于实现所述网络通讯检测方法的程序指令;
[0070]
所述处理器用于执行所述存储器存储的所述程序指令以控制网络通讯检测。
[0071]
本技术实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行所述网络通讯检测方法。
[0072]
相对于现有技术,本技术实施例产生的有益效果在于:本技术实施例的网络通讯检测方法、装置、设备以及存储介质通过获取完全拥有通讯类别标签的源数据以及仅有部分通讯类别标签的待测数据,基于源数据以及部分有标签待测数据,通过对神经网络预测、空间几何信息以及邻居信息三种信息加以综合考量生成无标签待测数据的伪标签,在生成伪标签后,从空间的几何图匹配角度出发分别为源数据与待测数据构造几何图,最后分别采用形状保持、旋转防止、对称防止以及节点分布保持算法对源数据与待测数据的几何图进行空间匹配,基于几何图匹配结果,利用源数据传递网络通讯检测知识给待测数据,对待
测数据进行网络通讯检测。相对于现有技术,本技术实施例至少具有以下有益效果:
[0073]
1、通过获取数据与知识相对较为充足的源数据,以辅助标签数据知识稀少的待测数据进行更加精准的网络通讯检测,解决了现有技术中标签数据及知识稀少的不足以及其所带给网络通讯检测技术的困难。
[0074]
2、在生成待测数据的伪标签时,通过对神经网络预测、空间几何信息以及邻居信息三种信息加以综合考量生成伪标签,可以避免预测较为确信但与几何性质冲突或靠近决策边界较为模糊的伪标签,从而提高伪标签准确率。
[0075]
3、在进行几何图匹配时,本技术实施例从几何角度出发,通过将几何形状保持、旋转防止、对称防止以及节点分布保持四种几何图匹配算法相结合,在保持几何图形状的同时,避免由于旋转与对称造成的几何图不匹配,并从几何图节点的层面出发对几何图进行节点层级的匹配,以从整体到局部的方式形成一套完整的几何图匹配算法,可以更加精细化的对几何图进行匹配,从而使得源数据可以更好的辅助待测数据进行更加精准的网络通讯检测。
附图说明
[0076]
图1是本技术第一实施例的网络通讯检测方法的流程图;
[0077]
图2是本技术第二实施例的网络通讯检测方法的流程图;
[0078]
图3为本技术实施基于公共分类器的伪标签生成过程示意图;
[0079]
图4为本技术实施例的几何图生成模块算法流程图;
[0080]
图5为本技术实施例的几何图匹配算法示意图;
[0081]
图6为本技术实施例的几何形状保持模块算法流程图;
[0082]
图7为本技术实施例的旋转放置模块算法流程图;
[0083]
图8为本技术实施例的对称防止模块防对称算法示意图;
[0084]
图9为本技术实施例的节点分布保持模块算法流程图;
[0085]
图10为本技术实施例的网络通讯检测装置结构示意图;
[0086]
图11为本技术实施例的设备结构示意图;
[0087]
图12为本技术实施例的存储介质的结构示意图。
具体实施方式
[0088]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
[0089]
请参阅图1,是本技术第一实施例的网络通讯检测方法的流程图。本技术第一实施例的网络通讯检测方法包括以下步骤:
[0090]
s100:分别获取源数据和待测数据;所述源数据为完全拥有通讯类别标签的数据,所述待测数据包括少部分拥有通讯类别标签的有标签待测数据以及大多数没有通讯类别标签的无标签待测数据;
[0091]
s110:分别计算所述待测数据中无标签待测数据的神经网络标签、几何标签以及邻居标签,根据所述神经网络标签、几何标签以及邻居标签生成所述无标签待测数据的伪
标签;
[0092]
s120:基于所述源数据以及生成伪标签后的待测数据,调用几何图生成算法分别构造所述源数据与待测数据的几何图;
[0093]
s130:结合形状保持、旋转防止、对称防止以及节点分布保持算法对所述源数据与待测数据的几何图进行空间匹配,基于所述几何图匹配结果对所述待测数据进行网络通讯检测。
[0094]
本技术第一实施例的网络通讯检测方法通过获取完全拥有通讯类别标签的源数据以及仅有部分通讯类别标签的待测数据,基于源数据以及部分有标签待测数据,通过对神经网络预测、空间几何信息以及邻居信息三种信息加以综合考量生成无标签待测数据的伪标签,在生成伪标签后,从空间的几何图匹配角度出发分别为源数据与待测数据构造几何图,最后分别采用形状保持、旋转防止、对称防止以及节点分布保持算法对源数据与待测数据的几何图进行空间匹配,基于几何图匹配结果,利用源数据传递网络通讯检测知识给待测数据,对待测数据进行网络通讯检测。本技术实施例通过获取数据与知识相对较为充足的源数据,以辅助标签数据知识稀少的待测数据进行更加精准的网络通讯检测,解决了现有技术中标签数据及知识稀少的不足以及其所带给网络通讯检测技术的困难

[0095]
请参阅图2,是本技术第二实施例的网络通讯检测方法的流程图。本技术第二实施例的网络通讯检测方法包括以下步骤:
[0096]
s200:分别获取完全拥有通讯类别标签的源数据以及仅有部分通讯类别标签的待测数据;
[0097]
本步骤中,为解决现有技术中标签数据及知识稀少的问题,本发明通过获取一个数据与知识相对较为充足的网络通讯场景作为数据源,以辅助标签数据知识稀少的待测数据进行更加精准的网络通讯检测。其中,源数据是完全拥有通讯类别标签的通讯数据,待测数据中包括少部分拥有通讯类别标签的有标签待测数据和绝大多数的没有通讯类别标签的无标签待测数据。例如,在进行某些网络通讯检测时,数据中心网络可以作为数据充足的数据源,而物联网设备则是标签数据知识较为稀少的待测方,可以利用数据中心网络作为信息源头,辅助标签数据知识稀少的物联网设备进行网络通讯检测。而在进行另一些网络通讯检测时,也可以将物联网设备作为数据源,将数据中心网络作为待测方,使得本发明具有一般性与实用性。本发明可以作用于标签极其有限的待测数据上,如1:100的标签比,甚至更为极端的标签比。
[0098]
s210:分别构建源数据的第一特征提取器和待测数据的第二特征提取器,将源数据和待测数据分别输入第一特征提取器和第二特征提取器,利用第一特征提取器和第二特征提取器对源数据与待测数据进行公共特征空间映射,并输出源数据与待测数据在公共特征空间中的特征向量表示;
[0099]
本步骤中,由于在通常情况下,源数据与待测数据具有较强的异构性,例如,源数据与待测数据拥有不同的特征空间、采用不同维度的特征表示、服从不同的分布等。因此,为了将源数据的通讯检测知识进行传递以辅助待测数据进行更为精准的通讯检测,需要对源数据和待测数据进行映射,使得源数据和待测数据处在一个公共特征空间中。基于此,本技术实施例针对源数据与待测数据分别构建第一特征提取器和第二特征提取器,第一特征提取器和第二特征提取器分别为一个使用relu或leakyrelu作为激活函数的两层的全连接
神经网络,然后将源数据和待测数据分别输入至第一特征提取器和第二特征提取器,利用第一特征提取器和第二特征提取器将源数据与待测数据映射至一个公共特征空间,从而得到源数据与待测数据在公共特征空间中的特征向量表示。
[0100]
s220:将源数据与待测数据在公共特征空间中的特征向量表示输入至公共分类器,利用公共分类器预测生成每个无标签待测数据的伪标签;
[0101]
本步骤中,公共分类器为一个采用relu或leakyrelu作为激活函数的一层的全连接神经网络。具体如图3所示,为本技术实施基于公共分类器的伪标签生成过程示意图,其具体包括以下步骤:
[0102]
s221:利用公共分类器为每一个无标签待测数据输出一个预测标签,记为神经网络标签;
[0103]
s222:将源数据与有标签待测数据进行合并,并计算合并后的数据中每一个通讯类别数据的均值向量,记为其表示合并后的数据中所有第k类通讯类别数据的均值向量,s+tl表示源数据与有标签待测数据的合并。
[0104]
s223:对于每一个无标签待测数据,寻找与其cosine(余弦)相似度最高的合并后的通讯类别数据的均值向量,将该通讯类别作为无标签待测数据的几何标签;几何标签计算公式如下:
[0105][0106]
公式(1)中,表示第i个无标签待测数据的几何标签,代表第i个无标签待测数据的数据向量。
[0107]
s224:判断每一个无标签待测数据的神经网络标签与几何标签是否一致,如果不一致,执行s225;如果一致,执行s226;
[0108]
s225:不为该无标签待测数据赋予伪标签;
[0109]
s226:对于每一个无标签待测数据,统计与该无标签待测数据最近的n个相邻的有标签待测数据的标签,并以少数服从多数的形式判断n个相邻标签是否可以达成多数共识,如果不能达成多数共识,执行s225;如果可以达成多数共识,执行s227;
[0110]
s227:将达成多数共识的标签记为邻居标签,并判断邻居标签与该无标签待测数据的神经网络标签是否一致,如果不一致,执行s225;如果一致,执行s228;
[0111]
s228:将神经网络标签作为该无标签待测数据的伪标签。
[0112]
综上,本发明实施例在生成伪标签时,综合考量了神经网络预测标签、几何标签以及邻居标签,几何标签可以较好的考虑到通讯数据在空间中的几何关系,能够更加准确、细化的生成伪标签,而邻居标签则避免了孤立的伪标签生成形式,从而可以更好的通过邻居信息避免一些较为模糊较为易错的伪标签,例如避免为在决策边界附近的无标签待测数据分配伪标签等,避免所分配的伪标签的准确率有所损失。通过对神经网络预测、空间几何信息以及邻居信息三种信息加以综合考量生成伪标签,可以避免预测较为确信但与几何性质冲突或靠近决策边界较为模糊的伪标签,从而提高伪标签准确率。
[0113]
s230:基于源数据以及生成伪标签后的待测数据,从空间的几何图匹配角度出发,调用几何图生成模块分别为源数据与待测数据构造几何图;
[0114]
本步骤中,在生成无标签待测数据的伪标签后,数据一共被分为以下四类:完全有标签的源数据、一部分有标签待测数据、一部分没有被赋予伪标签的无标签待测数据以及被赋予伪标签的待测数据。在构造源数据与待测数据的几何图时,会分三次调用几何图生成模块,第一次调用时,以完全有标签的源数据为输入,第二次调用时,以有标签待测数据为输入,第三次调用时,以有标签待测数据与被赋予伪标签的待测数据进行合并为输入。
[0115]
具体的,如图4所示,为本技术实施例的几何图生成模块算法流程图,其具体包括以下步骤:
[0116]
s231:针对每种输入数据,计算每种通讯类别数据的均值向量,将其标记为节点的具体定义为其中表示输入数据中属于第i个通讯类别的数据向量的个数,表示输入数据中所有属于第i个通讯类别的数据向量的集合;
[0117]
s232:对每个通讯类别数据,计算其两两均值向量与之间的欧式距离;
[0118]
s233:用通讯类别数据的均值向量以及其两两均值向量之间的欧式距离构建完全图及其带权邻接矩阵;其中,该带权邻接矩阵的维度为通讯类别的总数,例如,假设总共拥有6个通讯类别,则该带权临接矩阵为一个6x6的矩阵。
[0119]
s234:将该带权邻接矩阵向量化(例如将一个6x6的带权邻接矩阵变为1x36维度的向量),并输出带权邻接矩阵向量。
[0120]
基于上述,在完成对几何图生成模块的三次调用后,基于不同的输入数据,会得到三种几何图的带权邻接矩阵向量,分别为:源数据几何图的带权邻接矩阵向量、有标签待测数据的几何图的带权邻接矩阵向量以及有标签待测数据与被赋予伪标签的待测数据合并后生成的几何图的带权邻接矩阵向量。
[0121]
s240:结合形状保持、旋转防止、对称防止以及节点分布保持算法对源数据与待测数据的几何图进行空间匹配,基于几何图匹配结果,利用源数据传递网络通讯检测知识给待测数据,对待测数据进行网络通讯检测;
[0122]
本步骤中,通过采用几何形状保持模块、旋转防止模块、对称防止模块以及节点分布保持模块进行几何图匹配,具体的,从整体几何图的角度出发,采用几何形状保持模块对几何图的形状进行保持;在保持几何图形状的同时,采用旋转防止模块与对称防止模块分别从防止旋转以及防对称的角度避免由于旋转与对称造成的几何图不匹配。此外,从几何图节点的层面出发,采用节点分布保持模块对几何图进行节点层级的匹配。本技术通过将四种几何图匹配算法相结合,以从整体到局部的方式形成一套完整的几何图匹配算法,可以更加精细化的对几何图进行匹配,从而使得源数据可以更好的辅助待测数据进行更加精准的网络通讯检测。
[0123]
进一步地,如图5所示,为本技术实施例的几何图匹配算法示意图,采用形状保持、旋转防止、对称防止以及节点分布保持算法对源数据与待测数据的几何图进行空间匹配具体包括以下步骤:
[0124]
s241:调用几何形状保持模块对几何图进行形状保持;
[0125]
具体的,如图6所示,为本技术实施例的几何形状保持模块算法流程图,所述几何
形状保持模块对几何图进行形状保持算法具体为:将源数据几何图的带权邻接矩阵向量标记为1类,将后两种几何图的带权邻接矩阵向量(即有标签待测数据的几何图的带权邻接矩阵向量以及有标签的待测数据与被赋予伪标签的待测数据合并后生成的几何图的带权邻接矩阵向量)分别标记为0类。之后,将三种几何图的带权邻接矩阵向量及其标记输入至对抗网络中,输出对抗网络的损失值。其中,该对抗网络为一个一层的全连接神经网络,其用于区分输入的三种几何图的带权邻接矩阵向量属于1类还是0类,对抗网络损失值为:
[0126][0127]
公式(2)中,d代表对抗网络,ms代表源数据几何图的带权邻接矩阵向量,m
tl
,n
tl+pl
代表后两种几何图的带权邻接矩阵向量,d(m)表示将带权邻接矩阵输入至对抗网络后产生的对于带权邻接矩阵来源的预测输出值。
[0128]
几何形状保持模块通过驱使特征提取器以最大化网络损失的方式进行特征映射,使得对抗网络无法区分几何图的带权邻接矩阵向量的来源,从而实现对几何图的几何形状保持。同时,还可以将有标签待测数据与被赋予伪标签的待测数据通过几何图形状的保持进行更好的融合。
[0129]
s242:调用旋转防止模块防止因旋转造成的几何图不匹配;
[0130]
其中,在保持几何图形状的情况下,仍可能发生由于旋转或对称性造成的几何图不匹配。因此,本技术实施例利用旋转防止模块避免由于旋转造成的几何图不匹配。具体如图7所示,为本技术实施例的旋转放置模块算法流程图,其防止旋转算法具体包括:
[0131]
首先,分别计算源数据以及有标签待测数据中每个通讯类别数据的均值向量;之后,对于每一个通讯类别,计算源数据中该类别的数据均值向量与待测数据中该类别的数据均值向量之间的cosine相似度并求和,记为lr,具体定义如下:
[0132][0133]
最后,计算最终损失lr=k-lr,其中k为总通讯类别的个数。
[0134]
s243:调用对称防止模块防止因对称造成的几何图不匹配;
[0135]
其中,本技术除了从防止旋转的角度防止几何图的不匹配,还从防对称的角度防止由于对称造成的几何图不匹配。具体如图8所示,为本技术实施例的对称防止模块防对称算法示意图,其算法具体包括:
[0136]
首先,分别计算源数据以及待测数据中所有数据的均值向量;之后,计算源数据的均值向量与待测数据的均值向量之间的欧式距离,并将欧式距离作为损失值;该损失值定义如下:
[0137][0138]
其中,ns,n
t
分别代表全体源数据的个数以及全体待测数据的个数,xi代表第i个源数据的数据向量,xj表示第j个待测数据的数据向量。
[0139]
s244:调用节点分布保持模块对几何图进行节点匹配;
[0140]
其中,如图9所示,为本技术实施例的节点分布保持模块算法流程图,该算法具体
包括:
[0141]
首先,计算源数据中每个通讯类别数据由公共分类器输出的分布向量的均值向量,其数学定义如下:
[0142][0143]
公式(5)中,c为公共分类器,f为特征提取器,t为温度参数,用于对分布向量做平滑处理,q
(k)
表示第k类源数据由公共分类器输出的分布向量的均值向量,表示源数据中属于第k类的数据向量个数,表示源数据中属于第k类的数据向量的集合。
[0144]
其次,计算每个有标签待测数据由公共分类器输出的分布向量,其定义如下:
[0145][0146]
其中,表示有标签待测数据的数据向量集合。之后,对于每个有标签待测数据,计算其分布向量与其所在通讯类别的源数据的分布均值向量之间的交叉熵损失,并求平均,其数学表示如下:
[0147][0148]
其中,n
tl
表示有标签待测数据的个数,表示有标签待测数据对应的标签,表示第yi类源数据由公共分类器输出的分布向量的均值向量。有标签待测数据的标签信息也可以辅助提供监督,最终损失定义如下:
[0149][0150]
其中为交叉熵损失,α为权衡参数。
[0151]
源数据的标签信息也可以提供训练监督,其数学定义如下:
[0152][0153]
其中,分别为源数据的数据向量集合以及源数据的标签。因此,算法的最终损失为:
[0154][0155]
公式(10)中,γ,η,λ为用于调节不同损失项的权重参数,es,e
t
分别为第一特征提取器和第二特征提取器。算法会持续迭代优化网络参数,直至最终损失收敛。至此,即可利用数据知识较为丰富的源数据辅助标签数据知识较为稀少的待测数据进行更为精准的网络通讯检测。
[0156]
基于上述,本技术第二实施例的网络通讯检测方法通过获取完全拥有通讯类别标签的源数据以及仅有部分通讯类别标签的待测数据,基于源数据以及部分有标签待测数据,通过对神经网络预测、空间几何信息以及邻居信息三种信息加以综合考量生成无标签待测数据的伪标签,在生成伪标签后,从空间的几何图匹配角度出发分别为源数据与待测数据构造几何图,最后分别采用形状保持、旋转防止、对称防止以及节点分布保持算法对源
数据与待测数据的几何图进行空间匹配,基于几何图匹配结果,利用源数据传递网络通讯检测知识给待测数据,对待测数据进行网络通讯检测。相对于现有技术,本技术实施例至少具有以下有益效果:
[0157]
1、利用数据与知识相对较为充足的源数据辅助标签数据知识稀少的待测数据进行更加精准的网络通讯检测,解决了现有技术中标签数据及知识稀少的不足,以及其带给现有方法的因数据稀少而性能受损的问题。
[0158]
2、在生成待测数据的伪标签时,通过对神经网络预测、空间几何信息以及邻居信息三种信息加以综合考量生成伪标签,可以避免预测较为确信但与几何性质冲突或靠近决策边界较为模糊的伪标签,从而提高伪标签准确率。
[0159]
3、在进行几何图匹配时,本技术实施例从几何角度出发,通过将几何形状保持、旋转防止、对称防止以及节点分布保持四种几何图匹配算法相结合,在保持几何图形状的同时,避免由于旋转与对称造成的几何图不匹配,并从几何图节点的层面出发对几何图进行节点层级的匹配,以从整体到局部的方式形成一套完整的几何图匹配算法,可以更加精细化的对几何图进行匹配,从而使得源数据可以更好的辅助待测数据进行更加精准的网络通讯检测。
[0160]
4、本发明具有普遍适用性,可以用于进行入侵检测、安全检测、任务检测等多种类型的网络通讯检测。
[0161]
5、本发明对于源数据与待测数据的特征与分布具有鲁棒性,可作用于同构或异构的源数据与待测数据上。
[0162]
请参阅图10,为本技术实施例的网络通讯检测装置结构示意图。本技术实施例的网络通讯检测装置40包括:
[0163]
数据获取模块41:用于分别获取源数据和待测数据;所述源数据为完全拥有通讯类别标签的数据,所述待测数据包括少部分拥有通讯类别标签的有标签待测数据以及大多数没有通讯类别标签的无标签待测数据;
[0164]
伪标签生成模块42:用于分别计算所述待测数据中无标签待测数据的神经网络标签、几何标签以及邻居标签,根据所述神经网络标签、几何标签以及邻居标签生成所述无标签待测数据的伪标签;
[0165]
几何图生成模块43:用于基于所述源数据以及生成伪标签后的待测数据,调用几何图生成算法分别构造所述源数据与待测数据的几何图;
[0166]
几何图匹配模块44:用于结合形状保持、旋转防止、对称防止以及节点分布保持算法对所述源数据与待测数据的几何图进行空间匹配,基于所述几何图匹配结果对所述待测数据进行网络通讯检测。
[0167]
请参阅图11,为本技术实施例的设备结构示意图。该设备50包括处理器51、与处理器51耦接的存储器52。
[0168]
存储器52存储有用于实现上述网络通讯检测方法的程序指令。
[0169]
处理器51用于执行存储器52存储的程序指令以控制网络通讯检测。
[0170]
其中,处理器51还可以称为cpu(central processing unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器
件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0171]
请参阅图12,为本技术实施例的存储介质的结构示意图。本技术实施例的存储介质存储有能够实现上述所有方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等设备设备。
[0172]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本技术中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本技术所示的这些实施例,而是要符合与本技术所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1