一种自动研判威胁事件的方法、系统、装置和存储介质与流程

文档序号:32165452发布日期:2022-11-12 04:19阅读:39来源:国知局
一种自动研判威胁事件的方法、系统、装置和存储介质与流程

1.本技术涉及网络安全技术领域,特别是涉及一种自动研判威胁事件的方法、系统、装置和存储介质。


背景技术:

2.随着计算机技术的快速发展,利用网络进行的犯罪事件与日俱增,因此如何提高网络安全,快速发现威胁事件已成为亟待解决的重要问题。
3.在相关技术中,一种方案是首先通过探针采集海量城域网流量数据,以及获取安全设备日常检查、检测发现的风险信息,然后通过人工研判后,将获取的数据梳理成威胁情报线索或威胁事件。在关保平台输入规则条件提取数据中的关键性信息,再由现场渗透人员对关键信息进行进一步验证,最终确认威胁事件的存在与否及系统受损程度。另一种方案则是采用自定义情报规则或威胁事件研判规则,自动研判输出情报或事件线索,然后由工作人员携带设备去现场进一步查验核实。
4.然而上述相关技术中,第一种方案通过人工研判获取情报线索和威胁事件,不仅人力成本高,而且耗时较久,容易错过数据侦查打击的黄金期。第二种传统的自动研判方案只能定向输出当下想要的结果数据,而对于其他可能存在的威胁事件则无法自动研判发现。并且其时效性差,无法及时核验数据真假及影响程度,从而导致无法获取真正有价值的信息,费时费力。
5.目前针对相关技术中,如何更及时更精确的发现网络威胁事件的问题,尚未提出有效的解决方案。


技术实现要素:

6.本技术实施例提供了一种自动研判威胁事件的方法、系统、装置和存储介质,以至少解决相关技术中如何更及时更精确的发现网络威胁事件的问题。
7.第一方面,本技术实施例提供了一种自动研判威胁事件的方法,所述方法包括:
8.获取原始语料数据,并对所述原始语料数据进行分类提取,得到不同特征类别的语料数据集,其中所述语料数据集分为训练集和测试集;
9.构建研判模型,通过训练集数据对所述研判模型进行训练,得到训练好的研判模型;
10.按照预设比例混合训练集数据和测试集数据,得到混合数据,根据所述混合数据对所述训练好的研判模型进行交叉验证,得到最佳研判模型;
11.通过所述最佳研判模型进行威胁事件的自动研判预测。
12.在其中一些实施例中,对所述原始语料数据进行分类提取包括:
13.预设特征类别,通过kmeans算法模型对所述原始语料数据进行不同特征类别的聚类。
14.在其中一些实施例中,所述训练集的获取包括:
15.通过自定义规则对所述不同特征类别的语料数据集进行抽取标注,得到用于训练的语料数据。
16.在其中一些实施例中,通过训练集数据对所述研判模型进行训练包括:
17.获取训练集数据中的特征类别信息,通过knn邻近模型对不同特征类别下的语料数据进行计算排序,得到不同特征的计算信息。
18.第二方面,本技术实施例提供了一种自动研判威胁事件的系统,所述系统包括:
19.数据提取模块,用于获取原始语料数据,并对所述原始语料数据进行分类提取,得到不同特征类别的语料数据集,其中所述语料数据集分为训练集和测试集;
20.模型生成模块,用于构建研判模型,通过训练集数据对所述研判模型进行训练,得到训练好的研判模型,
21.按照预设比例混合训练集数据和测试集数据,得到混合数据,根据所述混合数据对所述训练好的研判模型进行交叉验证,得到最佳研判模型;
22.预测模块,用于通过所述最佳研判模型进行威胁事件的自动研判预测。
23.在其中一些实施例中,所述数据提取模块,还用于预设特征类别,通过kmeans算法模型对所述原始语料数据进行不同特征类别的聚类。
24.在其中一些实施例中,所述数据提取模块,还用于通过自定义规则对所述不同特征类别的语料数据集进行抽取标注,得到用于训练的语料数据。
25.在其中一些实施例中,所述模型生成模块,还用于获取训练集数据中的特征类别信息,通过knn邻近模型对不同特征类别下的语料数据进行计算排序,得到不同特征的计算信息。
26.第三方面,本技术实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的自动研判威胁事件的方法。
27.第四方面,本技术实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的自动研判威胁事件的方法。
28.相比于相关技术,本技术实施例提供的自动研判威胁事件的方法,获取原始语料数据,并对原始语料数据进行分类提取,得到不同特征类别的语料数据集,其中语料数据集分为训练集和测试集;构建研判模型,通过训练集数据对研判模型进行训练,得到训练好的研判模型;按照预设比例混合训练集数据和测试集数据,得到混合数据,根据该混合数据对训练好的研判模型进行交叉验证,得到最佳研判模型;通过该最佳研判模型进行威胁事件的自动研判预测。
29.本技术将不同特征类别的语料数据输入到研判模型中,通过大量数据的机器学习,对模型进行不断的优化改进,得到用于自动研判所有可能存在的威胁事件的模型,该模型能及时高效的发现网络不法分子的攻击偏好及攻击意图,形成意图范本为后续及时开展预测提供依据,防患于未然,帮助网安实现真正的侦查打击。
附图说明
30.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
31.图1是根据本技术实施例的自动研判威胁事件的方法的应用环境示意图;
32.图2是根据本技术实施例的自动研判威胁事件的方法的流程图;
33.图3是根据本技术实施例的自动研判威胁事件的系统的结构框图;
34.图4是根据本技术实施例的电子设备的内部结构示意图。
具体实施方式
35.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本技术提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本技术公开的内容相关的本领域的普通技术人员而言,在本技术揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本技术公开的内容不充分。
36.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本技术所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
37.除非另作定义,本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本技术所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
38.本技术提供的自动研判威胁事件的方法,可以应用于如图1所示的应用环境中,图1是根据本技术实施例的自动研判威胁事件的方法的应用环境示意图,如图1所示。其中,终端11与服务器10通过网络进行通信。服务器10获取原始语料数据,并对原始语料数据进行分类提取,得到不同特征类别的语料数据集,其中语料数据集分为训练集和测试集;构建研判模型,通过训练集数据对研判模型进行训练,得到训练好的研判模型;按照预设比例混合训练集数据和测试集数据,得到混合数据,根据该混合数据对训练好的研判模型进行交叉验证,得到最佳研判模型;在终端11上通过该最佳研判模型进行威胁事件的自动研判预测。其中,终端11可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器10可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
39.本实施例提供了一种自动研判威胁事件的方法,图2是根据本技术实施例的自动
研判威胁事件的方法的流程图,如图2所示,该流程包括如下步骤:
40.步骤s201,获取原始语料数据,并对原始语料数据进行分类提取,得到不同特征类别的语料数据集,其中语料数据集分为训练集和测试集;
41.获取各类威胁数据的原始历史日志数据作为原始语料数据,然后对获取的原始语料数据进行分类提取,得到不同特征类别的语料数据集。
42.优选的,本实施例中对原始语料数据进行分类提取的步骤包括:
43.表1是根据本技术实施例的语料数据集样例。获取以周、月等时间为周期单位的原始语料数据,其中原始语料数据中的信息主要包括活动源(组织或个人)、攻击类型、以及频繁攻击的目标区域、目标行业、目标对象等。如表1所示,1为团伙组织,2、3、4为个人;apt攻击、木马等为攻击类型;目标ip为目标对象。需要说明的是,上述举例说明的语料信息还包括很多威胁变量,将这些变量进行排列组合,能获取到更多的威胁事件发生情况。例如,当活动源为团伙组织1时,团伙1可以有多个攻击源ip,并对多个区域、多个行业的目标ip发起攻击;当活动源为个人2时,可以对多个目标区域、多个目标行业的目标ip发起攻击;而同一个目标区域或同一个目标行业也可能遭受来自多个攻击类型的个人或团伙的攻击;同一个目标ip会遭受同个团伙不同类型的攻击,也会遭受同个类型的个人或团伙攻击。
44.因此,为了训练模型,得到更好的模型范本,本实施中首先需要预设威胁事件的特征类别,例如:
45.1、同一个目标区域的活动源(团伙或个人),将相同的目标区域设为特征k1;
46.2、同一个目标行业的活动源(团伙或个人),将相同的目标行业设为特征k2;
47.3、同一个目标ip的同类型攻击,将同种威胁类型设为特征k3;
48.4、同一个目标ip的团伙/个人攻击,将团伙/个人攻击设为特征k4;
49.然后采用kmeans算法模型对原始语料数据进行不同特征类别的聚类,即将同类的活动源、目标对象、目标区域、目标行业进行聚类,得到不同特征类别的语料数据集。其中,通过自定义规则,例如简单规则+随机的方法,从不同特征类别的语料数据集中抽取出几千条数据进行标注,这些数据即可用作训练模型的语料数据。抽取出来的数据为训练集,而语料数据集中剩下的部分则用作测试集,用作后期的模型测试。
50.表1
[0051][0052]
步骤s202,构建研判模型,通过训练集数据对研判模型进行训练,得到训练好的研判模型;
[0053]
通过大数据可视化组件创建研判模型,优选的,本实施例中采用knn邻近模型。需要说明的是,在该模型中可对模型的输出数据进行设定,即可根据不同用户的实际需求,设定想要知道的的威胁事件特征。例如,某公司比较重视威胁事件的攻击类型,那么可以在模型中设定只输出威胁类型,从而可以提高计算效率,节省计算机资源。
[0054]
接着,将训练集数据输入到研判模型中,通过训练集数据对该研判模型进行训练。具体步骤包括:获取训练集数据中的特征类别信息,通过knn邻近模型对不同特征类别下的语料数据进行计算排序,得到不同特征的计算信息。例如,通过研判模型找出经常遭受攻击的区域,以k1为例:假定k1有7个区域类别,分别设为k1-1、k1-2、k1-3、k1-4、k1-5、k1-6、k1-7;想要在语料数据集中找到与样本(k1-1、k1-2、k1-3、k1-4、k1-5、k1-6、k1-7)最相似的k个样本,那么需要进行分类统计。具体操作:nn为语料数据中待分类数据中的区域类别和类别数量,对于每一个n,knn邻近模型会计算当前这个n点到周围已知点(k1-1、k1-2、k1-3、k1-4、k1-5、k1-6、k1-7)的距离,并对计算到的距离进行排序,从而取前k个最近距离的点,其中k为超参数,可根据实际情况进行设定。最后获取的k个点中类别占比最多的那一类就是需要获取的n的所属类别(k1-1、k1-2、k1-3、k1-4、k1-5、k1-6、k1-7)。
[0055]
通过上述计算过程分别对已知的特征类别,例如,k1、k2、k3、k4,进行计算,获取语料数据中不同特征的类别、数量和占比信息,从而形成训练分析模型。本实施例中可以通过不断的加入语料训练数据,训练模型,提高模型的预测能力,然而这也会导致模型的复杂度提高,方差越大,偏差越小。因此,为了进一步得到最优模型,需要对模型进行验证处理。
[0056]
步骤s203,按照预设比例混合训练集数据和测试集数据,得到混合数据,根据混合数据对训练好的研判模型进行交叉验证,得到最佳研判模型;
[0057]
按照预设比例混合训练集数据和测试集数据,得到混合数据,优选的,本实施例中预设的训练集数据和测试集数据的混合比例为:7:3。
[0058]
根据混合后的数据对训练好的研判模型进行交叉验证,在实现模型中的偏差和方
差的权衡之后,即可形成高准确度的模型,大大增加模型对威胁事件自动研判的可信度及后续预测的准确度。
[0059]
步骤s204,通过最佳研判模型进行威胁事件的自动研判预测。
[0060]
获取网络原始数据,通过最佳研判模型对网络数据进行威胁事件的自动研判预测,能快速高效的得到预测结果,并根据预测结果给出相应的防控建议。有助于提醒用户提前有针对性的开展常态化监测防御。例如,针对k1种经常遭受攻击的区域,以及k2种经常遭受攻击的行业,可提醒用户开展定期的安全检查、自查,同时加固安全策略做好防范,避免严重的资产损失。对于k3的攻击类型数据,可有针对性的提前预测、溯源,并开展侦查打击,严防严控,避免后续的持续攻击带来大面积系统瘫痪或资产信息被窃等事件。
[0061]
通过上述步骤s201至步骤s204,本实施例将不同特征类别的语料数据输入到研判模型中进行模型训练,并通过大量数据的机器学习,对模型进行不断的优化改进,得到用于自动研判所有可能存在的威胁事件的模型,该模型能及时高效的发现网络不法分子的攻击偏好及攻击意图,形成意图范本为后续及时开展预测提供依据,防患于未然,帮助网安实现真正的侦查打击。
[0062]
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0063]
本实施例还提供了一种自动研判威胁事件的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0064]
图3是根据本技术实施例的自动研判威胁事件的系统的结构框图,如图3所示,该系统包括数据提取模块31、模型生成模块32和预测模块33:
[0065]
数据提取模块31,用于获取原始语料数据,并对原始语料数据进行分类提取,得到不同特征类别的语料数据集,其中语料数据集分为训练集和测试集;模型生成模块32,用于构建研判模型,通过训练集数据对研判模型进行训练,得到训练好的研判模型,按照预设比例混合训练集数据和测试集数据,得到混合数据,根据混合数据对训练好的研判模型进行交叉验证,得到最佳研判模型;预测模块33,用于通过最佳研判模型进行威胁事件的自动研判预测。
[0066]
通过上述系统,本实施例将不同特征类别的语料数据输入到研判模型中进行模型训练,并通过大量数据的机器学习,对模型进行不断的优化改进,得到用于自动研判所有可能存在的威胁事件的模型,该模型能及时高效的发现网络不法分子的攻击偏好及攻击意图,形成意图范本为后续及时开展预测提供依据,防患于未然,帮助网安实现真正的侦查打击。
[0067]
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0068]
此外,需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理
器中。
[0069]
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0070]
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0071]
另外,结合上述实施例中的自动研判威胁事件的方法,本技术实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种自动研判威胁事件的方法。
[0072]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种自动研判威胁事件的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0073]
在一个实施例中,图4是根据本技术实施例的电子设备的内部结构示意图,如图4所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种自动研判威胁事件的方法,数据库用于存储数据。
[0074]
本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0075]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0076]
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,
只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0077]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1