网络安全态势综合分析方法与流程

文档序号:29216681发布日期:2022-03-12 11:37阅读:418来源:国知局
网络安全态势综合分析方法与流程

1.本发明涉及一种网络安全大数据分析领域。更具体地说,本发明涉及一种网络安全态势综合分析方法。


背景技术:

2.信息化的快速发展引发了全球范围的深刻变革,但随着互联网的应用,电脑的普及,使得网络安全问题逐渐开始显现的重要起来。internet把世界各地的计算机联接到一起时,信息安全的内涵也就发生了根本的变化。从网络环境的单一性质到业务的多样性,它不仅从一般性的防卫变成了一种普便的防范,而且还从一种专门的领域扩展到无处不在。为了从总体上认知网络安全的动态变化,同时也为了适应对网络安全研究更高的实际需求,网络安全态势研究逐渐成为了网络安全领域的研究热点之一。目前,随着网络规模和复杂性不断增大,网络的攻击技术不断革新,新型攻击工具大量涌现,传统的网络安全技术显得力不从心,网络入侵不可避免,网络安全问题越发严峻。传统的业务通常是在受到攻击后才进行相应的处理,无法实时观测当前业务的安全情况和对未来的安全趋势进行预测。现有的网络态势分析大多通过计算所有防御节点或者安全组件和硬件等的网络安全态势来判断其是否受到威胁。该防御模式存在计算量庞大,反应速度慢,识别准确度低,终端客户无法有效响应等诸多问题。


技术实现要素:

3.本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
4.本发明还有一个目的是提供一种网络安全态势综合分析方法,其能够基于业务访问类型,引入安全事件剧本的场景,对聚类的数据按照预定义剧本方式进行识别访问的行为,提高了行为识别的准确性,解决了安全态势分析中针对单次行为呈现的不准确性。同时对攻击分析结果进行数据呈现,可实时观测当前业务安全情况。有利于终端客户进行后续有效的防御。
5.为了实现根据本发明的这些目的和其它优点,提供了一种网络安全态势综合分析方法,其包括以下步骤:
6.步骤一,采集安全云平台的安全日志数据,整理后作为数据分析样本;所述安全日志数据例如为从sda安全组件和硬件设施中采集到的用户经过防御节点的数据;
7.步骤二,将所述数据分析样本提取特征后进行降维处理,然后利用数据关联分析技术进行关联关系分析,将所述数据分析样本基于业务访问类型进行分类并输出分类结果;所述降维处理例如采用minmaxscale进行预处理后,采用k-means算法进行降维处理,其目标是找到较小的矩阵^a来似代替原始的大矩阵中的a,可以有效地加速算法的执行效率,可以减少存储空间。
8.步骤三,根据步骤二的分类结果进行安全分析,建立规则识别数据库,预定义剧本进行用户行为识别;
9.步骤四,提取当前用户访问的请求数据,进行整理、特征提取以及降维处理后得待测数据,采用数据关联分析技术计算特征向量的相似度,获得所述待测数据的最相似样本,确定所述待测数据的类型;然后按照预定义剧本进行所述待测数据的行为识别;所述待测数据降维处理后,保留数据的主要信息,减少运算量和储存空间,以便于在机器学习的训练和预测过程中,提高效率。
10.步骤五,按照当前用户访问的业务类型、行为以及攻击类型,以图表形式将步骤四的行为识别结果进行呈现。本发明所述网络安全态势综合分析方法采集过往历史数据,从不同类型数据中查找不同数据的关系,根据不同的关系确定是否为一个攻击。采用k近邻(k-nearest neighbor,knn)机器学习算法,确定待测数据的类别,根据该类别进行预定义剧本,按照预定义剧本进行用户行为识别,最后按照当前业务的访问、行为、攻击聚类效果数据做呈现,将网站的安全态势以直观图表呈现给终端用户。
11.优选的是,所述步骤二中采用分布式k-means聚类算法对数据分析样本进行降维处理。
12.优选的是,所述步骤二中所述数据关联分析具体包括:获取所述数据分析样本的相似度的特征变量,采用k近邻机器学习算法,计算所述数据分析样本中安全数据的相似度,采用欧式距离计算不同向量之间的距离,确定安全数据所归属的业务访问类型。
13.优选的是,所述步骤四中,当最相似样本数量n大于1时,采用组合函数方式继续计算,所述组合函数方式具体为:
14.首先,采用均等投票方式,用n个最近邻中分类较多的分类作为所述待测数据的分类;
15.其次,采用权重投票方式,用n个最近邻进行投票,每个最近邻投票的权重不一样,权重值和最近邻与待测数据样本的距离成反比,距离越远,投票的权重越低,算出每个类别的加权票数,得票最多的类别为所述待测数据的分类结果。
16.优选的是,步骤四所述待测数据的最相似样本通过下述步骤获得:
17.s401,获取待测数据的多个特征向量;
18.s402,计算待测数据和所述数据分析样本中安全数据多个特征向量的相似度,采用欧式距离计算不同向量之间的距离,计算公式如下:
[0019][0020]
其中,l表示不同向量之间的距离,x、y分别表示向量距离。
[0021]
s403,根据待测数据与数据库中安全数据的相似度,获得n个最相似样本。
[0022]
优选的是,所述步骤二中,采用分布式k-means聚类算法对数据分析样本中的数据进行一次降维后,再利用主成分分析法进行二次降维。
[0023]
优选的是,所述步骤四还包括:所述待测数据先进行清洗和整理,然后利用standardscaler进行预处理,使得所有数据的两个特征值都被转换到0-1之间。使得在数据分析过程中,训练速度更快,准确率提高。
[0024]
优选的是,所述清洗和整理包括:针对缺失值的处理,采用删除法对缺失值占比低,字段重要程度低的数据进行缺失值的删除,同时采用填充法的方式对缺失占比较高、数据分析重要性较高的字段进行填充,其中,数据填充引入自定义词典,对特定字段数据进行
填充。
[0025]
本发明至少包括以下有益效果:本发明所述网络安全态势综合分析方法从数据特征关联作为关键点,采用机器学习方法对数据进行关联性分析,按照关联性分析的结果,同时引入了安全事件剧本的场景,对聚类的数据按照预定义剧本方式进行识别访问的行为,相比传统只针对单次攻击或者直接使用正则作为规则来检测访问行为,提高了行为识别的准确性。同时对攻击分析结果进行数据呈现,可实时观测当前业务安全情况。
[0026]
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
[0027]
图1为本发明其中一个实施例所述网络安全态势综合分析方法的流程示意图;
[0028]
图2为本发明其中一个实施例所述网络安全态势综合分析方法的结果展示图;
[0029]
图3为本发明其中一个实施例所述网络安全态势综合分析方法的结果展示图;
[0030]
图4为本发明其中一个实施例所述网络安全态势综合分析方法的网络攻击态势展示图。
具体实施方式
[0031]
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
[0032]
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
[0033]
如图1所示,本发明提供一种网络安全态势综合分析方法,其包括以下步骤:
[0034]
步骤s1
[0035]
采集安全云平台的安全日志数据,整理后作为数据分析样本;所述安全日志数据例如包括用户请求、请求主体、url、请求方法、referer、source数据等等。所述安全日志数据例如从sda安全组件和硬件设施中采集到的用户经过防御节点的数据。
[0036]
步骤s2
[0037]
对采集到的结果进行数据的噪音清洗后,对数据进行预处理,在处理过程中对“脏数据”和无效、缺失数据进一步处理,并对样本数据结果进行降维处理,汇总数据为标准格式;
[0038]
其中,针对缺失值的处理,采用删除法对缺失值占比低,字段重要程度低的数据进行缺失值的删除,同时采用填充法的方式对缺失占比较高、数据分析重要性较高的字段进行填充,其中,数据填充引入自定义词典,对特定字段数据进行填充。
[0039]
步骤s3
[0040]
将所述数据分析样本提取特征后,再次进行降维处理,例如采用分布式k-means聚类算法对数据样本结果进行降维处理,降维的目标是找到较小的矩阵^a来似代替原始的大矩阵中的a,在^a上提供一个问题的解决方案,该方案可以近似为在^a上的解决方案。这种近似代替可以有效地加速算法的执行效率,可以减少存储空间。
[0041]
主成分分析的思想是将n维特征映射到r维上(r《n),r维是全新的正交特征。在用
主成分分析法对数据进行降维时,一般都是通过特征值分解或者奇异值分解的方式来对数据降维。
[0042]
若有,其中a是m*n的矩阵,x是n的维向量,则成
[0043]
m*n矩阵a,通过奇异值分解成a=u∑vt,启用,u是m*m的正交矩阵,∑代表m*n的对角矩阵,vt是n*n的矩阵;
[0044]
由此,经过对日志数据的降维以后,保留了数据的主要信息,在机器学习的训练和预测过程中,效率将会大为提升。
[0045]
步骤s4
[0046]
利用数据关联分析技术进行关联关系分析,将所述数据分析样本基于业务访问类型进行分类并输出分类结果;采用k近邻(k-nearest neighbor,knn)机器学习算法,从不同类型数据中查找不同数据的关系,根据不同的关系确定是否为一个攻击。尤其是在获取数据的训练集时,训练集的形成过程对平衡性要求比较高,平衡性是在预测变量类别包括的数据大体相同。若数据平衡性差则样本数量会少,会造成本属于当前类别的样本预测数据在计算相似度问题时候,会造成训练集因类别的样本数量问题从而匹配到其他类的数据,因此会造成结果产生误分类,因此训练集每个类别数据量应确保足够的样本数量。
[0047]
其中,所述待测数据的最相似样本通过下述步骤获得:
[0048]
s401,获取待测数据的多个特征向量;
[0049]
s402,计算待测数据和所述数据分析样本中安全数据多个特征向量的相似度,采用欧式距离计算不同向量之间的距离,计算公式如下:
[0050][0051]
其中,l表示不同向量之间的距离,x、y分别表示向量距离。本发明所述待测数据经过前述步骤处理后,实现了利用简单的计算即可实现相似度精确计算。大大降低了运算量,提高了运算效率。
[0052]
s403,根据待测数据与数据库中安全数据的相似度,获得n个最相似样本。
[0053]
步骤s5
[0054]
根据步骤s4的分类结果进行安全分析,建立规则识别数据库,预定义剧本并据此进行用户行为识别;
[0055]
步骤s6
[0056]
提取当前用户访问的请求数据,进行整理、特征提取以及降维处理后得待测数据,采用数据关联分析技术计算特征向量的相似度,获得所述待测数据的最相似样本根据待预测数据和训练集中的样本数据计算相似度,找到最相似的样本。在分类过程中当n等于1时,则是一个最近邻,当n大于1时,则需要采用组合函数方式产生预测的结果,组合函数如下:
[0057]

采用均等投票方式,用n个最近邻中分类较多的分类作为待预测数据的分类。
[0058]

采用权重投票方式,用n个最近邻进行投票,但每个最近邻投票的权重不一样,权重值和最近邻与待预测的距离成反比,距离越远的邻居,投票的权重越低。最后算出每个类别的加权票数,得票最多的类别就是待预测的分类。
[0059]
步骤s7
[0060]
确定所述待测数据的类型;然后按照预定义剧本进行所述待测数据的行为识别。
根据关联分析结果进行事件的预测,事件预测按照预定义剧本进行用户行为识别,例如,当利用appscan行为识别时,剧本如下表:
[0061][0062]
其中,http网页状态编码占比需符合以下要求,因扫描器产生大量的400、500代码,占比约为总访问量的2/3。
[0063][0064][0065]
当分类结果中数据特征符合当前行为,则输出用户行为结果,不同攻击或者行为按照不同的剧本进行识别不同行为,以达到对数据的关联分析结果。将关联分析结果存储并更新数据库和规则数据库。
[0066]
步骤s8
[0067]
按照当前用户访问的业务类型、行为以及攻击类型,以图表形式将步骤四的行为识别结果进行呈现。以图表形式直接呈现当前网络环境的攻击ip情况以及网络安全的态势,
[0068]
例如,攻击ip统计查询:
[0069]
"terms":{"field":"transaction.client_ip.keyword","order":{"_count":"desc"},"size":6}}},"track_total_hits":"false"........{"filter":[{"range":{"@timestamp":{"format":"strict_date_optional_time","gte":"2021-09-28t07:30:26z","lte":"2021-09-28t08:00:26z"}}},{"bool":{"must":{"match":{"transaction.response.headers.location":"block.html"}}}}]}}}
[0070]
攻击类型查询:
[0071]
"field":"transaction.messages.message.keyword","order":{"_count":"desc"},"size":5}}},"track_total_hits":"false","size":.......range":{"@timestamp":{"format":"strict_date_optional_time","gte":"2021-09-28t07:36:32z","lte":"2021-09-28t08:06:32z"}}},{"bool":{"must":{"match":{"transaction.
response.headers.location":"block.html"}}}}]}}}
[0072]
终端展示效果图见图1、图2和图3,图中针对不同攻击类型和不同业务类型,对单次行为进行进行多维度和动态展示,能够使得终端客户更加直观,快速地了解网络安全态势的发展趋势。
[0073]
在其中一个实施例中,所述待测数据先进行清洗和整理,然后利用standardscaler进行预处理,使得所有数据的两个特征值都被转换到0-1之间。使得,训练集训练的速度更快,准确率提高,输出的数据样本更完善,更全面。
[0074]
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1