1.本发明涉及一种网络安全智能分析方法、系统、设备和存储介质,属于网络安全分析技术领域。
背景技术:2.计算机网络规模不断扩大,各种应用随之扩展,网络安全问题日益突出。当前,单日网络中的访问流量就高达数百万,在其中恶意的网络攻击也越来越多。为此,在传统技术中,依托各式安全设备,应用特征库,实现网络攻击的预警、判别、处置,进而识别网络中的安全防护。
3.安全设备对恶意攻击的识别仍存在一定的局限性,而监控工作量大,人工又无法实现判别全部攻击流量。部署网络安全防护设备应对网络攻击时,易产生大量的冗余告警信息,同时,安全设备因其依据特征库判别容易对一些正常流量产生误报,严重增加告警处理的工作量,告警处理的效率与准确性大幅降低。
技术实现要素:4.为了解决上述问题,本发明提出了一种网络安全智能分析方法、系统、设备和存储介质,能够提高告警事件处理的准确性和效率。
5.本发明解决其技术问题采取的技术方案是:
6.一方面,本发明实施例提供的一种网络安全智能分析方法,包括以下步骤:
7.采集安全监控设备的流量数据和告警日志,并对告警日志标准化处理;
8.将采集的全流量安全数据统一存储,进行流量数据深层次再分析;
9.利用机器学习方法筛选告警信息,去除冗余告警;
10.根据告警信息相似度对告警信息进行聚类;
11.告警信息相互关联,并链接生成完整攻击链和威胁报告;
12.提取告警信息特征,迭代优化告警模型,进行告警信息研判。
13.作为本实施例一种可能的实现方式,所述将采集的全流量安全数据统一存储,进行流量数据深层次再分析,包括:
14.将设定时间段内的检测平台综合告警信息、网络安全数据的异常信息、安全设备的可疑事件信息以及其他网络安全时间异常信息进行关联分析;
15.通过策略库对经过安全设备的网络数据的异常情况进行过滤;
16.对安全分析平台的告警信息、安全设备事件加和计算,将模型分析后的告警信息等级分级在统一作战平台统一展示。
17.作为本实施例一种可能的实现方式,所述利用机器学习方法筛选告警信息,去除冗余告警,包括:
18.将设定时间段内的所有网络安全设备相关平台收集的告警信息合并处理;
19.依据安全设备中网络流量最大值、网络流量平均值、安全设备权重、风险类型计算
告警信息紧急程度;
20.计算正确告警次数与告警总次数的比值,得到告警准确率;
21.计算生成告警信息的时间点与处理时间点的差值;
22.根据告警紧急程度、准确率以及时间点差值筛选出疑似告警信息;
23.发现新告警后,遍历已经在告警队列的告警信息,对所有属性分别进行比对,出现相同告警信息时,以最早出现时间告警作为冗余告警的最终结果。
24.作为本实施例一种可能的实现方式,所述根据告警信息相似度进行聚类,包括:
25.告警信息特征提取,使用目的ip、源ip、时间、事件名称,对数据进行处理;
26.数据标准化处理,采用原始ip以及目标ip之间的差值绝对值,在设定时间内联系所有涉及原始ip和目标ip的告警;
27.日期格式数值化处理,重新构造新的告警数据集;
28.对告警的整体相似度计算,提高ip和时间的最小相似度期望,相应的对整体相似度的权重减小;
29.使用无监督机器学习算法dp-kmeans将新的告警数据集聚类为多个簇,经初始计算确定簇数值,从数据集以及经验出发调整簇数值,计算得出最终聚类完成的类簇。
30.作为本实施例一种可能的实现方式,所述告警信息相互关联,并链接生成完整攻击链和威胁报告,包括:
31.根据经过表达式范式处理的告警日志信息,完成数据提取、分析工作;
32.将数据转换为适用网络安全攻击行为模式场景支持的数据格式;
33.基于所有特征分析,经过机器学习方法降维提取关键特征数据;
34.从告警记录出发,挖掘频繁攻击序列模式,基于聚类算法以及滑动窗口构造记录集合,再利用数据挖掘技术深度挖掘攻击序列;
35.将告警信息聚类,从数据的特征出发划分聚类根源告警及相关联告警;
36.完整的攻击行为分散在告警日志信息库的若干告警信息中,将告警信息特征化处理后,进行关联分析以生成完整攻击链和威胁报告。
37.作为本实施例一种可能的实现方式,所述将告警信息关联分析,包括:
38.所述安全设备产生的告警信息,依据先验知识去除不恰当特征,从告警日志中提取告警类型、源与目的ip地址以及端口号作为有效特征,构造初始序列集合;
39.采用fp-growth算法,遍历预处理后的告警信息初始序列集合,统计初始频繁项集,并分别计算各项集的支持度生成频繁项集序列,迭代fp-tree分支产生最终频繁项集;
40.根据所述频繁项集,输出满足最小置信度的规则,更新规则库,分析得出攻击链。
41.作为本实施例一种可能的实现方式,所述提取告警信息特征,迭代优化告警模型,进行告警信息研判,包括:
42.对告警信息特征进行编码处理,获得矩阵数据,初始化神经网络参数;
43.迭代调整神经网络阈值、隐藏层层数、单层神经元数目,取最优分类参数作为提取特征的最终模型参数;
44.提取并预处理告警信息特征,将人为判别标签作为是否为真实告警的依据,生成网络安全告警数据训练集;
45.基于处理后的网络安全告警数据训练集,训练若干机器学习模型;
46.利用训练好的模型作为弱分类器,以准确率为权重进行集成,得到更具鲁棒性的告警真实性分类模型,判别误告警和真实告警。
47.另一方面,本发明实施例提供的一种网络安全智能分析系统,包括:
48.标准化处理模块,用于采集安全监控设备的流量数据和告警日志,并对告警日志标准化处理;
49.数据存储模块,用于将采集的全流量安全数据统一存储,进行流量数据深层次再分析;
50.告警信息筛选模块,用于利用机器学习方法筛选告警信息,去除冗余告警;
51.相似告警聚簇模块,用于根据告警信息相似度对告警信息进行聚类;
52.告警信息关联模块,用于告警信息相互关联,并链接生成完整攻击链和威胁报告;
53.告警信息研判模块,用于提取告警信息特征,迭代优化告警模型,进行告警信息研判。
54.第三方面,本发明实施例提供的一种计算机设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述agv仿真装置运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任意一种网络安全智能分析系方法的步骤。
55.第四方面,本发明实施例提供的一种可读存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任意一种网络安全智能分析方法的步骤。
56.本发明实施例的技术方案可以具有的有益效果如下:
57.本发明进行告警信息关联分析生成威胁报告,供研判人员学习,不断提升自身网络安全水平,研判人员将人为判别后的告警信息,提交给系统,迭代优化告警分析模型,通过人工判断与机器学习的不断迭代,既能使研判人员学习安全威胁报告,进一步提升研判人员分析水平,又能使系统经过自动化处理,生成标准告警数据集格式,提高人工智能判别模型的研判准确率,最终降低误报率、提高系统整体告警效率。
58.本发明汇集网络安全全域数据,建立全网流量池,并将全流量安全数据本地存储,可为溯源、取证提供支持,也可提供接口为第三方分析平台或统一作战平台使用,实现流量数据深层次再分析。
59.本发明将告警信息进行关联分析生成完整攻击链,可以推理已知及未知类型的漏洞攻击,分析攻击意图。
60.本发明的方法提高了告警事件的识别精度,并拥有自学习优化能力,可以提升告警事件处置的效率和准确性。
附图说明
61.图1是根据一示例性实施例示出的一种网络安全智能分析方法的流程图;
62.图2是根据一示例性实施例示出的一种网络安全智能分析系统的示意图。
具体实施方式
63.下面结合附图与实施例对本发明做进一步说明:
64.为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发
明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
65.如图1所示,本发明实施例提供的一种网络安全智能分析方法,包括以下步骤:
66.采集安全监控设备的流量数据和告警日志,并对告警日志标准化处理;
67.将采集的全流量安全数据统一存储,进行流量数据深层次再分析;
68.利用机器学习方法筛选告警信息,去除冗余告警;
69.根据告警信息相似度对告警信息进行聚类;
70.告警信息相互关联,并链接生成完整攻击链和威胁报告;
71.提取告警信息特征,迭代优化告警模型,进行告警信息研判。
72.作为本实施例一种可能的实现方式,所述采集安全监控设备的流量数据和告警日志,包括:
73.确定安全监控设备具有发送告警信息的能力,无法发送告警信息的设备,在所述安全监控设备安装代理端,通过所述代理端发送告警信息;
74.配置安全监控设备和/或代理端的地址;
75.建立安全监控设备和/或代理端与服务器的通信连接,获取安全监控设备的系统日志,并将告警信息发送至服务器;
76.汇聚全域网络安全数据形成流量池,将多级安全设备告警统一汇聚。
77.作为本实施例一种可能的实现方式,各平台提供插件,实现在各平台上监控时也能将预警信息联动至统一作战平台。
78.作为本实施例一种可能的实现方式,所述预警采集来自于人员手工选择标签(真实、疑似、误报)后的数据,数据来源于两种侦测方案(详见:用户功能模块-监测处置)。数据格式与监测日志采集格式相比,增加标签(真实、疑似、误报)。
79.作为本实施例一种可能的实现方式,地市公司本地部署流量探针,探针可对数据包进行捕获、过滤、分析,其采用旁路部署方式,主要有两个作用:一是生成告警信息,二是实现全流量采集,探针可实现基本信息分析、敏感流量分析,生成的告警信息可联动至统一作战平台。
80.作为本实施例一种可能的实现方式,所述对告警日志标准化处理,包括:通过配置的适配正则化表达式提取告警信息关键字段,匹配设备类型字段加载对应的正则化表达式。
81.作为本实施例一种可能的实现方式,所述将采集的全流量安全数据统一存储,进行流量数据深层次再分析,包括:
82.将设定时间段内的检测平台综合告警信息、网络安全数据的异常信息、安全设备的可疑事件信息以及其他网络安全时间异常信息进行关联分析;
83.通过策略库对经过安全设备的网络数据的异常情况进行过滤;
84.对安全分析平台的告警信息、安全设备事件加和计算,将模型分析后的告警信息等级分级在统一作战平台统一展示。
85.全流量数据本地存储,可为溯源、取证提供支持,也可提供接口为第三方分析平台或统一作战平台使用,实现流量数据深层次再分析,生成新的告警信息。
86.作为本实施例一种可能的实现方式,所述利用机器学习方法筛选告警信息,去除冗余告警,包括:
87.将设定时间段内的所有网络安全设备相关平台收集的告警信息合并处理;
88.依据安全设备中网络流量最大值、网络流量平均值、安全设备权重、风险类型计算告警信息紧急程度;
89.计算正确告警次数与告警总次数的比值,得到告警准确率;
90.计算生成告警信息的时间点与处理时间点的差值;
91.根据告警紧急程度、准确率以及时间点差值筛选出疑似告警信息;
92.发现新告警后,遍历已经在告警队列的告警信息,对所有属性分别进行比对,出现相同告警信息时,以最早出现时间告警作为冗余告警的最终结果。
93.作为本实施例一种可能的实现方式,所述根据告警信息相似度进行聚类,包括:
94.告警信息特征提取,使用目的ip、源ip、时间、事件名称,对数据进行处理;
95.数据标准化处理,采用原始ip以及目标ip之间的差值绝对值,在设定时间内联系所有涉及原始ip和目标ip的告警;
96.日期格式数值化处理,重新构造新的告警数据集;
97.对告警的整体相似度计算,提高ip和时间的最小相似度期望,相应的对整体相似度的权重减小;
98.使用无监督机器学习算法dp-kmeans将新的告警数据集聚类为多个簇,经初始计算确定簇数值,从数据集以及经验出发调整簇数值,计算得出最终聚类完成的类簇。
99.作为本实施例一种可能的实现方式,所述告警信息相互关联,并链接生成完整攻击链和威胁报告,包括:
100.根据经过表达式范式处理的告警日志信息,完成数据提取、分析工作;
101.将数据转换为适用网络安全攻击行为模式场景支持的数据格式;
102.基于所有特征分析,经过机器学习方法降维提取关键特征数据;
103.从告警记录出发,挖掘频繁攻击序列模式,基于聚类算法以及滑动窗口构造记录集合,再利用数据挖掘技术深度挖掘攻击序列;
104.将告警信息聚类,从数据的特征出发划分聚类根源告警及相关联告警;
105.完整的攻击行为分散在告警日志信息库的若干告警信息中,将告警信息特征化处理后,进行关联分析以生成完整攻击链和威胁报告。
106.作为本实施例一种可能的实现方式,安全威胁报告可以查看事件发生的时间、参与处置的人员,事件综合处置时效以及总结等信息。
107.作为本实施例一种可能的实现方式,所述将告警信息关联分析,包括:
108.所述安全设备产生的告警信息,依据先验知识去除不恰当特征,从告警日志中提取告警类型、源与目的ip地址以及端口号作为有效特征,构造初始序列集合;
109.采用fp-growth算法,遍历预处理后的告警信息初始序列集合,统计初始频繁项集,并分别计算各项集的支持度生成频繁项集序列,迭代fp-tree分支产生最终频繁项集;
110.根据所述频繁项集,输出满足最小置信度的规则,更新规则库,分析得出攻击链。
111.作为本实施例一种可能的实现方式,所述提取告警信息特征,迭代优化告警模型,进行告警信息研判,包括:
112.对告警信息特征进行编码处理,获得矩阵数据,初始化神经网络参数;
113.迭代调整神经网络阈值、隐藏层层数、单层神经元数目,取最优分类参数作为提取特征的最终模型参数;
114.提取并预处理告警信息特征,将人为判别标签作为是否为真实告警的依据,生成网络安全告警数据训练集;
115.基于处理后的网络安全告警数据训练集,训练若干机器学习模型;
116.利用训练好的模型作为弱分类器,以准确率为权重进行集成,得到更具鲁棒性的告警真实性分类模型,判别误告警和真实告警。
117.作为本实施例一种可能的实现方式,整合大量的告警信息,去除冗余数据时,为达到提高自动化检测分类准确率以及自动化水平,使用人工智能融合模型。
118.作为本实施例一种可能的实现方式,针对复杂多变的网络安全攻击数据信息中无法有效的提取特征,导致准确率不高的问题。采用神经网络提取特征,并剔除神经网络的输出层,取最后一层隐藏层数据作为告警信息特征。
119.作为本实施例一种可能的实现方式,监测人员学习安全威胁报告,不断提升自身网络安全水平,监测人员将人为判别后的告警信息,提交给系统,系统经过自动化处理,生成标准告警数据集格式,提高人工智能判别模型的研判准确率。
120.如图2所示,本发明实施例提供的一种网络安全智能分析系统,包括:
121.标准化处理模块,用于采集安全监控设备的流量数据和告警日志,并对告警日志标准化处理;
122.数据存储模块,用于将采集的全流量安全数据统一存储,进行流量数据深层次再分析;
123.告警信息筛选模块,用于利用机器学习方法筛选告警信息,去除冗余告警;
124.相似告警聚簇模块,用于根据告警信息相似度对告警信息进行聚类;
125.告警信息关联模块,用于告警信息相互关联,并链接生成完整攻击链和威胁报告;
126.告警信息研判模块,用于提取告警信息特征,迭代优化告警模型,进行告警信息研判。
127.第三方面,一种计算机设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任意所述的一种网络安全智能分析方法的步骤。
128.本发明实施例提供的一种计算机设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述装置运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任意一种网络安全智能分析方法的步骤。
129.具体地,上述存储器和处理器能够为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机程序时,能够执行上述一种网络安全智能分析方法。
130.本领域技术人员可以理解,所述计算机设备的结构并不构成对计算机设备的限
定,可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。
131.在一些实施例中,该计算机设备还可以包括触摸屏可用于显示图形用户界面(例如,应用程序的启动界面)和接收用户针对图形用户界面的操作(例如,针对应用程序的启动操作)。具体的触摸屏可包括显示面板和触控面板。其中显示面板可以采用lcd(liquid crystal display,液晶显示器)、oled(organic light-emitting diode,有机发光二极管)等形式来配置。触控面板可收集用户在其上或附近的接触或者非接触操作,并生成预先设定的操作指令,例如,用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作。另外,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位、姿势,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成处理器能够处理的信息,再送给处理器,并能接收处理器发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板,也可以采用未来发展的任何技术实现触控面板。进一步的,触控面板可覆盖显示面板,用户可以根据显示面板显示的图形用户界面,在显示面板上覆盖的触控面板上或者附近进行操作,触控面板检测到在其上或附近的操作后,传送给处理器以确定用户输入,随后处理器响应于用户输入在显示面板上提供相应的视觉输出。另外,触控面板与显示面板可以作为两个独立的部件来实现也可以集成而来实现。
132.对应于上述应用程序的启动方法,本发明实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任意一种网络安全智能分析方法的步骤。
133.本技术实施例所提供的应用程序的启动装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本技术实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
134.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
135.在本技术所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
136.作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的
部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
137.最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。