基于决策树的无监督日志学习算法的制作方法

文档序号：33510192发布日期：2023-03-21 22:27阅读：73来源：国知局

1.本发明涉及网络安全威胁分析技术领域，尤其涉及基于决策树的无监督日志学习算法。

背景技术：

2.通常分析日志，可以借助于流计算系统来做实时计算、或者借助elasticsearch做搜索，提供了一整套完整的日志收集、消费、搜索、计算的平台，日志分析大多基于规则进行解析。现有对日志关联分析去重算法大多是基于apriori算法或fp-growth算法。
3.apriori算法是一种挖掘布尔关联规则的频繁项集的算法，其缺点是对数据库的扫描次数过多，可能产生大量的候选项集，在频繁项目集长度变大的情况下，运算时间显著增加，采用唯一支持度,没有考虑各个属性重要程度的不同；
4.fp-growth算法是基于apriori算法构建，是将数据集存储在一个特定的称做fp树的结构之后发现频繁项集或者频繁项对，缺点是树的子节点过多，例如生成了只包含前缀的树，那么也会导致算法效率大幅度下降；另外，fp-growth算法需要递归生成条件数据库和条件fp-tree,所以内存开销大，而且只能用于挖掘单维的布尔关联规则。
5.日志数据之间互不关联，无法做到数据范式化分类、离群数据分析，也没有对数据进行综合研判，日志分析比较不存在关联容易漏报。

技术实现要素：

6.本发明提供了基于决策树的无监督日志学习算法，以解决上述背景技术中提出的问题。
7.为了实现上述目的，本发明采用了如下技术方案：
8.基于决策树的无监督日志学习算法，包括以下具体步骤：
9.s1，获取现有日志，并提取日志中的基本属性值；
10.s2，计算各个基本属性信息的信息增益值；
11.s3，根据各基本信息的信息增益值顺序，设置决策树的节点信息；
12.s4，根据日志的属性训练数据，设置阈值或调整层次叶子节点，并依据叶子节点的判定结果，形成决策树使其更具有泛化的能力；
13.s5，后续日志中的基本属性信息与决策树中的节点信息进行比较，并按照比较结果选择下一分支，直到叶子结点输出判定结果。
14.作为本技术方案的进一步改进方案：所述s1中，日志中的基本属性值包括时间、源ip，目的ip，端口或服务、归属地、操作行为、威胁等级。
15.作为本技术方案的进一步改进方案：所述s2，计算各个基本属性信息的信息增益值，具体为：
16.计算现有训练集内日志的信息熵s，并根据信息熵计算各个基本属性信息的信息增益值h
属性
(x)。
17.作为本技术方案的进一步改进方案：用于生成可对日志进行分析的决策树。
18.作为本技术方案的进一步改进方案：所述s3，根据各基本信息的信息增益值顺序，设置决策树的节点信息，具体为：
19.决策树的节点信息依次设为源ip是否为国外ip；威胁等级是否为高危或危急；是否为暴力破解、sql注入、恶意工具、扫描；目的端口是否为80/443。
20.作为本技术方案的进一步改进方案：s5，后续日志中的基本属性信息与决策树中的节点信息进行比较，并按照比较结果选择下一分支，直到叶子结点输出判定结果，具体为：
21.第一步，判断日志中源ip是否为国外ip，若是，则判定为恶意事件，若否进入下一步；
22.第二步，判断日志中威胁等级是否为高危或危急，若是，则判定为恶意事件，若否进入下一步；
23.第三步，判断日志是否为暴力破解、sql注入、恶意工具、扫描，若是，则判定为恶意事件，若否进入下一步；
24.第四步，判断日志的目的端口是否为80/443，若否，则判定为恶意事件，若是，则判定为非恶意事件。
25.本发明实施例还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的基于决策树的无监督日志学习算法。
26.本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任一项所述的基于决策树的无监督日志学习算法。
27.与现有技术相比，本发明的有益效果是：
28.本发明充分利用已有的日志信息作为训练数据集，利用归纳算法生成可读的规则和决策树，选择与训练数据矛盾较小的决策树，然后使用决策树对新数据进行分析，使数据能够进行正确有效分类，选定的决策时具有很好的泛化能力，不仅对训练数据有很好的拟合，而且对未知数据有很好的预测，有效提升数据真实有效性。
29.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
30.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
31.图1为本发明提出的基于决策树的无监督日志学习算法的示意图；
32.图2为本发明中现有日志提取的基本信息图；
33.图3为本发明生成的决策树示例图。
具体实施方式
34.以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。
35.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
36.决策树是一个无监督的聚类算法的组合，将数字与分类相结合，高效地去处理确实的数据，通过修剪后提供合理的清晰的指导。基于此本发明借助大量源日志，通过自拟规则器，对各基本属性提取，将每个内部节点代表对每一个属性得到信息增益，不断对模型进行计算，降低日志的误报率，并根据叶子节点的判定结果，形成决策树。
37.请参阅图1，基于决策树的无监督日志学习算法，包括以下具体步骤：
38.s1，获取现有日志，并提取日志中的基本属性值(时间、源ip，目的ip，端口或服务、归属地、操作行为、威胁等级)；
39.s2，计算现有训练集内日志的信息熵s，并根据信息熵计算各个基本属性信息的信息增益值h
属性
(x)；
40.s3，根据各基本信息的信息增益值顺序，设置决策树的节点信息；
41.s4，根据日志的属性训练数据，设置阈值或调整层次叶子节点，并依据叶子节点的判定结果，形成决策树使其更具有泛化的能力；
42.s5，后续日志中的基本属性信息与决策树中的节点信息进行比较，并按照比较结果选择下一分支，直到叶子结点输出判定结果。
43.请参阅图3，本算法生成的一个日志决策树示例图，该日志决策树示例图具体流程为：
44.第一步，判断日志中源ip是否为国外ip，若是，则判定为恶意事件，若否进入下一步；
45.第二步，判断日志中威胁等级是否为高危或危急，若是，则判定为恶意事件，若否进入下一步；
46.第三步，判断日志是否为暴力破解、sql注入、恶意工具、扫描，若是，则判定为恶意事件，若否进入下一步；
47.第四步，判断日志的目的端口是否为80/443，若否，则判定为恶意事件，若是，则判定为非恶意事件。
48.本发明的工作原理是：
49.该发明对日志中各维度信息如：来源设备、告警时间、地理位置、访问对象、操作行为、频次、威胁等级等建立信息增益值，根据各基本属性信息增益值顺序设置决策树的节点信息，通过训练数据，设置阈值或进行后减枝方法，调整层次叶子节点并形成决策树。模型建立后，后续日志信息与决策树的节点信息进行依次比较，直到输出叶子节点的判定结果。
50.以上所述，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡
本行业的普通技术人员均可按说明书附图所示和以上所述而顺畅地实施本发明；但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈海文杨继飞周子龙
技术所有人：武汉四海图宇科技有限公司
我是此专利的发明人

上一篇：用于猴痘病毒检测的crRNA、核酸分子组合物、检测体系及应用
上一篇：一种洗扫车专用风机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。