基于网络安全应急响应知识图谱特征提取的预案匹配方法与流程

文档序号:30056058发布日期:2022-05-17 18:12阅读:274来源:国知局
基于网络安全应急响应知识图谱特征提取的预案匹配方法与流程

1.本发明涉及网络安全技术领域,特别涉及一种基于网络安全应急响应知识图谱特征提取的预案匹配方法。


背景技术:

2.随着互联网产业的不断发展,网络安全问题也显得日益严峻,网络攻击规模日益呈现组织化,其攻击手段不断变化,呈现多样化、结构化,网络应急响应工作也显得尤为重要。
3.应急响应预案能够有效减少网络攻击的损害,并且能够根据不同的攻击手段执行不同的安全编排剧本。应急响应预案匹配即根据目标攻击手段的特征在预案库中选择适用于对抗目标攻击手段的预案,其核心为预案和目标攻击手段的特征提取以及智能匹配机制。安全编排响应自动化(soar)能够极大提高网络安全应急响应预案的执行速度,依靠剧本库中的剧本能够高效简单地处理攻击手段,而安全编排响应自动化(soar)能否高效地执行取决于预案的选择。
4.目前,预案匹配的传统方法如下几种:通过制定一些约束条件对预案库中的预案进行搜索,此种方法需要大量的人工对数据进行标注,且搜索效率低下,难以满足网络安全事件发生后预案快速响应的要求;还有基于关键字的预案匹配算法,此方法需要将攻击手段和预案的特征完全形式化、格式化、定量化表示,但是实际应用场景中,很难满足上述要求,并且在精确度等方面存在诸多不足;同时基于机器学习的网络安全应急预案智能匹配也是近些年来兴起的方法,但是该种方法需要大量的数据样本对模型进行训练,但是目前该研究领域专业数据集较少难以满足训练要求。可见,传统手段基于关键字或索引等特征进行预案匹配,传统手段存在匹配效率以及匹配准确率较低的缺点,难以解决日益复杂化的攻击手段和网络安全事件,并且传统手段需要大量的人工参与数据标注,对于特征信息的数据格式化要求较高,难以满足网络安全事件发生后预案匹配的实时性要求。
5.基于以上考虑,本发明采用基于网络安全应急响应知识图谱特征提取的预案匹配方法,其中网络安全应急响应知识图谱内容包括攻击手段信息以及预案的信息,通过网络安全应急响应知识图谱能够较好地描述预案与攻击手段的特征信息,此外基于图的存储结构能够以低耦合的方式保存预案和攻击手段的特征信息,通过此方法能够解决传统方法的固有缺陷,提高预案匹配效率。


技术实现要素:

6.为实现上述目的,发明人提供了一种基于网络安全应急响应知识图谱特征提取的预案匹配方法,包括以下步骤:s1:对于目标攻击手段的特征属性值,制定预案的限制类约束规则进行初次筛选,排除不适用于目标攻击手段的预案;s2:将网络安全应急响应知识图谱经过初次筛选后的预案和目标攻击手段加载至
加权图卷积神经网络中,获取预案特征向量的嵌入表示和目标攻击手段特征向量的嵌入表示;s3:通过余弦相似度算法计算s2中嵌入表示之间的相似度;s4:通过归一化指数函数对相似度进行处理,得到预案与目标攻击手段匹配度得分;s5:在s4中的匹配度得分进行降序排列,排序列表即为预案匹配结果列表。
7.作为本发明的一种优选方式,所述s1中的特征属性值包括:目标攻击手段的应用平台、常见攻击模式枚举和分类编号、对抗性战术、技术和常识编号。
8.作为本发明的一种优选方式,所述s1包括:对于目标攻击手段提取其应用平台、常见攻击模式枚举和分类编号、对抗性战术、技术和常识编号,这三个特征的离散属性值,通过图数据库查询语句制定预案的限制类约束规则进行初次筛选。
9.作为本发明的一种优选方式,所述s2包括:通过加权图卷积神经网络提取经过初次筛选后的预案的特征向量,考虑不同特征对于预案匹配的影响,对于预案和目标攻击手段的每个特征加以不同的权值并且求和,每个特征的权值由相邻节点之间的相互作用决定,每个特征的权值定义为,每个特征由加权图卷积神经网络自动学习。
10.作为本发明的一种优选方式,所述s2还包括:按照知识谱图中的节点关系对周围相邻节点进行聚合,定义信息传递函数;其中是信息传递函数,用于在加权图卷积神经网络中传递信息,是节点
ꢀꢀ
在第层的输入向量,为第层的权值矩阵,是节点在第层的输入向量;选择线性整流函数作为加权图卷积神经网络的激活函数,该激活函数用于每个节点的特征,线性整流函数的表达式为:其中为加权图卷积神经网络的输出,用于比较与的大小并且输出两者中最大值。
11.作为本发明的一种优选方式,所述s2还包括:对于信息传递函数的计算结果进行加权,得到新的节点嵌入表示,表达式为:其中是节点在第层的输出向量,同时也是第层的输入向量,表示激活函数,表示节点的邻居节点集合,表示对节点的所有邻居节点 进行求和运算,
ꢀꢀ
为第层中第个特征的权值,是信息传递函数,是节点 在第层的输
入向量,是节点在第层的输入向量。
12.作为本发明的一种优选方式,所述s2还包括:将得到的新图层的中心节点与邻居节点分离,表达式为:其中是节点在第层的输出向量,同时也是第层的输入向量,表示激活函数,表示节点的邻居节点集合,表示对节点的所有邻居节点进行求和运算,
ꢀꢀ
为第层中第 个特征的权值, 是节点在第层的输入向量, 为第层的权值矩阵, 是节点
ꢀꢀ
在第层的输入向量;将上述表达式转化为矩阵形式,表达式为:其中 为第层中第个特征的权值, 表示第个特征构成的0-1邻接矩阵, 表示单位矩阵, 表示第个特征构成的0-1邻接矩阵, 表示第层所有特征的矩阵形式,通过邻接矩阵存储空间邻接节点的信息,即预案和目标攻击手段的特征信息;从而得到新图层的递推公式:其中, 为第层的输出矩阵, 表示激活函数, 表示第层所有特征的矩阵形式, 为第层的输入矩阵, 为第 层的权值矩阵;经过上述步骤得出预案特征向量的嵌入表示,以及目标攻击手段的特征向量的嵌入表示 ;其中:,表示知识图谱中所有待选的预案特征向量的嵌入表示集合。
13.作为本发明的一种优选方式,所述s3包括:使用余弦相似度计算与的相似度,余弦相似度通过预案的特征向量与攻击手段特征向量之间的夹角余弦值来度量差异,表达式为:其中表示第
ꢀꢀ
个预案特征向量的嵌入表示与目标攻击手段特征向量嵌入表示之间的余弦相似度; 是余弦函数, 表示两向量之间的夹角, 表示第个待选的预案特征向量的嵌入表示, 表示目标攻击手段特征向量的嵌入表示。
14.作为本发明的一种优选方式,所述s4包括:通过归一化指数函数对得出的余弦相
似度进行处理,得到预案与目标攻击手段的匹配度得分,表达式为: 表示第个待选的预案与目标攻击手段的匹配度得分,为归一化指数函数,表示第
ꢀꢀ
个预案特征向量的嵌入表示与目标攻击手段特征向量嵌入表示之间的余弦相似度, 代表自然常数。
15.作为本发明的一种优选方式,所述s5包括:将预案按照 值从大到小排列,得出预案排序列表,其中排名第一的预案即为最佳的网络安全应急响应预案。
16.区别于现有技术,上述技术方案所达到的有益效果有:本方案采用加权图卷积神经网络,即在网络安全应急响应知识图谱中的节点信息累积过程加上了权重,用于控制不同的特征对于预案匹配度的影响,多层次地提取特征信息,解决使用单一特征匹配模型的缺陷,从而提高了预案匹配的准确率;余弦相似度可简单、便捷地表示出预案和目标攻击手段的嵌入表示之间的相似度,有效的提高了计算效率,在网络安全事件发生后能够制定并实施正确的抑制策略。
附图说明
17.图1为具体实施方式所述预案匹配方法的体系结构图。
18.图2为具体实施方式所述预案匹配流程图。
19.图3为具体实施方式所述加权图卷积神经网络示意图。
具体实施方式
20.为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
21.如图1至图3所示,本实施例提供了一种基于网络安全应急响应知识图谱特征提取的预案匹配方法,包括以下步骤:s1:对于目标攻击手段的特征属性值,制定预案的限制类约束规则进行初次筛选,排除不适用于目标攻击手段的预案;特征属性值包括:目标攻击手段的应用平台(platform)、常见攻击模式枚举和分类(capec)编号、对抗性战术、技术和常识(att&ck)编号;s2:将网络安全应急响应知识图谱经过初次筛选后的预案和目标攻击手段加载至加权图卷积神经网络(wgcn)中,获取预案特征向量的嵌入表示(embedding)和目标攻击手段特征向量的嵌入表示(embedding);s3:通过余弦相似度算法计算s2中嵌入表示之间的相似度;s4:通过归一化指数函数(softmax)对相似度进行处理,得到预案与目标攻击手段匹配度得分;s5:在s4中的匹配度得分进行降序排列,排序列表即为预案匹配结果列表。
22.在上述实施例的具体实施过程中,具体包括以下步骤:
对于目标攻击手段提取其应用平台、capec编号、att&ck编号,这三个特征的离散属性值,通过图数据库查询语句(cypher)制定预案的限制类约束规则进行初次筛选;例如:当提取到攻击手段的应用平台为windows10、capec编号为:101、att&ck编号为g0067,则触发下列图数据库查询语句(cypher):match(solution:s{platform:windows10,capec_id=’101’,att&ck_id=’g0067’}),(cyberattack:r{platform:windows10,capec_id=’101’,att&ck_id=’g0067’})return s;通过加权图卷积神经网络(wgcn)提取经过初次筛选后的预案的特征向量,考虑不同特征对于预案匹配的影响,如图3所示设是节点 在第层的输入向量, 为该层的输入矩阵,在本实施例中,采用4层的图结构。
23.对于预案和目标攻击手段的每个特征加以不同的权值并且求和,每个特征的权值由相邻节点之间的相互作用决定,每个特征的权值定义为,每个特征由加权图卷积神经网络自动学习。在本实施例中,考虑四个特征进行计算,四个特征分别是:常见攻击目标、常见利用工具、影响服务信息、所需权限,此时,n=4,即;按照知识谱图中的节点关系对周围相邻节点进行聚合,定义信息传递函数;其中是信息传递函数,用于在加权图卷积神经网络中传递信息, 是节点
ꢀꢀ
在第 层的输入向量, 为第层的权值矩阵, 是节点 在第层的输入向量;选择线性整流函数作为加权图卷积神经网络的激活函数,该激活函数用于每个节点的特征,线性整流函数的表达式为:其中为加权图卷积神经网络的输出,用于比较与的大小并且输出两者中最大值。
24.不同的边代表着不同的特征,对于信息传递函数的计算结果进行加权,得到新的节点嵌入表示,表达式为:其中是节点在第层的输出向量,同时也是第层的输入向量,表示激活函数, 表示节点的邻居节点集合,表示对节点的所有邻居节点进行求和运
算,
ꢀꢀ
为第 层中第 个特征的权值,是信息传递函数, 是节点 在第 层的输入向量, 是节点 在第 层的输入向量, 为上述步骤中定义的信息传递函数。
25.将得到的新图层的中心节点与邻居节点分离,表达式为:其中是节点在第层的输出向量,同时也是第 层的输入向量,表示激活函数, 表示节点的邻居节点集合,表示对节点的所有邻居节点进行求和运算,
ꢀꢀ
为第层中第 个特征的权值, 是节点 在第层的输入向量, 为第 层的权值矩阵, 是节点
ꢀꢀ
在第 层的输入向量;将上述表达式转化为矩阵形式,表达式为:其中 为第层中第个特征的权值, 表示第个特征构成的0-1邻接矩阵, 表示单位矩阵, 表示第个特征构成的0-1邻接矩阵, 表示第 层所有特征的矩阵形式,通过邻接矩阵存储空间邻接节点的信息,即预案和目标攻击手段的特征信息;从而得到新图层的递推公式:其中, 为第 层的输出矩阵,表示激活函数, 表示第层所有特征的矩阵形式, 为第层的输入矩阵, 为第层的权值矩阵;本步骤可将一个含有多特征的关系图转化为多个具有不同权值的特征单关系图,在计算中只考虑每个层的线性变换中的所有一阶邻居节点,充分利用知识图谱的节点结构、节点属性和边缘关系类型;加权图卷积神经网络具有可学习的权值,适应局部聚合中使用的来自邻居的信息量,从而实现更精确的图节点嵌入。
26.经过上述步骤得出预案特征向量的嵌入表示,以及目标攻击手段的特征向量的嵌入表示;其中:,表示知识图谱中所有待选的预案特征向量的嵌入表示集合。
27.使用余弦相似度计算与 的相似度,余弦相似度通过预案的特征向量与攻击手段特征向量之间的夹角余弦值来度量差异,表达式为:其中表示第 个预案特征向量的嵌入表示与目标攻击手段特征向量
嵌入表示之间的余弦相似度; 是余弦函数, 表示两向量之间的夹角, 表示第个待选的预案特征向量的嵌入表示, 表示目标攻击手段特征向量的嵌入表示。
28.通过归一化指数函数对得出的余弦相似度进行处理,得到预案与目标攻击手段的匹配度得分,表达式为:匹配度得分,表达式为:表示第 个待选的预案与目标攻击手段的匹配度得分,为归一化指数函数,表示第 个预案特征向量的嵌入表示与目标攻击手段特征向量嵌入表示之间的余弦相似度, 代表自然常数。
29.最后将预案按照值从大到小排列,得出预案排序列表,其中排名第一的预案即为最佳的网络安全应急响应预案。
30.为了验证本发明基于网络安全应急响应知识图谱特征提取的预案匹配方法的准确性,使用malware training sets(恶意软件训练数据集)和mitre d3fend(网络应急响应知识图谱),malware training sets(恶意软件训练数据集)是一个机器学习数据集,旨在为希望使用机器学习技术深入研究恶意软件分析的研究人员提供有用的分类数据集。采用4种不同的模型结构与本发明使用的方法形成对照实验,计算数据集语义特征相似度的准确率;实验结果如表1所示,其中f1值=正确率*召回率*2/(正确率 + 召回率),用于刻画准确率和召回率两者的实际平均情况。
31.表1 不同模型的特征语义相似度匹配结果通过对比双向门控循环单元(bigru)、孪生神经网络-双向门控循环单元(siamese-bigru)、层次聚类(linkage)、自编码语言模型(bert+wmd距离模型)、wgcn+余弦相似度模型的表现可以发现,本发明使用的方法具有较高的准确率,达到87.1%,证明本发明使用的方法能够有效的提取网络应急响应预案和目标攻击手段的特征信息,有效提高网络安全事件发生后预案匹配的准确率。
32.上述实验使用的malware training sets数据集主要恶意软件分析的分类数据集,为验证模型泛化能力,故采取多个数据集进行实验。malware training sets(恶意软件训练数据集)、ember(恶意 windows 可移植可执行文件数据集)、malicious urls(恶意统一资源定位符数据集)、mawilab(网络流量异常数据集)、aposemat iot-23(物联网设备网络流量数据集)、annotations of cybersecurity blogs and articles(网络安全博客和文章的注释数据集)。其中ember(恶意 windows 可移植可执行文件数据集)用于训练机器
学习模型以静态检测恶意 windows 可移植可执行文件,malicious urls(恶意统一资源定位符数据集)包括来自大型网络邮件提供商的恶意统一资源定位符示例,其每天提供 6000-7500 个垃圾邮件和网络钓鱼统一资源定位符示例,mawilab(网络流量异常数据集)是网络流量异常检测数据集,它由多组流量异常的标签组成,aposemat iot-23(物联网设备网络流量数据集)来自物联网设备的网络流量数据集,annotations of cybersecurity blogs and articles(网络安全博客和文章的注释数据集)由网络安全领域的手动数据组成,其中收集了来自奥多比安全公告,微软安全公告和各种博客文章的文章,总数据有超过 45000 个特征和 5000 个标记实体,其中使用加权图卷积神经网络(wgcn)+余弦相似度对上述数据集提取特征并且计算特征匹配相似度,实验结果如表2所示:表2 不同数据集的特征语义相似度匹配结果从上表中可以看出,模型在ember(恶意 windows 可移植可执行文件数据集)上表现最佳,主要是因为ember(恶意 windows 可移植可执行文件数据集)中含有更多的攻击手段样本,包括900k 训练样本(300k 恶意,300k 良性,300k 未标记)和 200k 测试样本(100k 恶意,100k 良性),充足的训练样本使得加权图卷积神经网络得到充分的训练,使得网络表现更加出色。
33.完成目标攻击手段和预案的特征向量提取工作后,为验证本发明采用余弦相似度算法的有效性,通过与其他相似度算法进行比较,包括:线性判别式分析算法(lda)、词位移距离算法(wmd)、线性判别分析与词位移距离综合算法(wmd-lda)、局部敏感的哈希算法(simhash)、欧几里得算法,实验结果如表3所示:表3 不同相似度算法实验结果由上表可以看出余弦相似度在计算由加权图卷积神经网络(wgcn)提取的特征向量的相似度时,在准确率、召回率以及f1值上的表现都优于其他算法。
34.高效性也是建立网络安全应急响应体系的关键要素,通过对比双向门控循环单元(bigru)、孪生神经网络-双向门控循环单元(siamese-bigru)、层次聚类模型(linkage)、自编码语言模型(bert+wmd)以及本发明采用的加权图卷积神经网络(wgcn)+余弦相似度模型,计算20次取平均值,实验结果如表4所示:表4 不同模型运行时间
由上表可知,相较于双向门控循环单元(bigru)、孪生神经网络-双向门控循环单元(siamese-bigru)、层次聚类模型(linkage),本发明采用的加权图卷积神经网络(wgcn)+余弦相似度方法具有较高的计算速度,与自编码语言模型(bert+wmd)相比耗费的时间较多,但是加权图卷积神经网络(wgcn)+余弦相似度方法具有较高的准确率,在运行效率与计算准确率之间取得了良好的平衡性。
35.需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1