一种基于时空IP地址画像的网络流异常检测方法与流程

文档序号:28921653发布日期:2022-02-16 13:23阅读:148来源:国知局
一种基于时空IP地址画像的网络流异常检测方法与流程
一种基于时空ip地址画像的网络流异常检测方法
技术领域
1.本发明涉及ip画像与异常检测技术领域,具体涉及一种基于时空ip地址画像的网络流异常检测方法。


背景技术:

2.在网络数据流中,有着潜在的各种类型的网络异常,如网络扫描、高危端口访问、网络高频访问、网络攻击等行为。如何从海量的网络数据流中提取有效信息,挖掘出异常模式,设计评价标准和阈值判断是否异常,是现实的数据中心网络所面临的重要问题。
3.相关技术主要聚焦于ip地址的访问情况上。然而,设计指标描述ip的访问模式,本身是一个难题。另外,ip地址的访问模式不是一成不变的。ip地址的访问模式具有时间和空间上的变化关系,需要同时捕捉这两个关系的变化情况。如何定义时空ip地址画像,以及利用该画像完成网络流数据的异常检测,是需要思考和解决的问题。


技术实现要素:

4.发明目的:针对上述问题,本发明提出一种基于时空ip地址画像的网络流异常检测方法,能够从根本上解决现有异常检测算法无法提取ip的访问模式,设计合理的指标检测异常的问题。
5.技术方案:为了实现以上发明目的,本发明的技术方案如下:
6.一种基于时空ip地址画像的网络流异常检测方法,包括以下步骤:
7.(1)对每个ip地址,统计其历史入度、出度、访问频次信息,作为该ip地址的时空画像,并利用dbscan算法对ip地址进行聚类;
8.(2)统计同类别ip地址当前时期的时空画像,以及历史一周每一天内前后各四个时期的时空画像,获得当前类别ip地址的历史正常模式,计算历史值的平均值和方差,根据平均值和方差设计阈值,如果当前时期的时空画像超过阈值,则认为当前时期的ip地址访问异常;
9.(3)基于极值理论算法,对网络流数据中的峰值以及异常发生的概率进行定义,利用广义帕累托分布拟合历史数据的峰值,推理极值的分布,对异常检测阈值进行动态调整。
10.进一步地,所述步骤(1)中为了描述ip地址的访问模式,定义了时空ip地址画像,可以从时间和空间两个角度综合描述ip地址的访问模式。
11.进一步地,统计ip地址的访问模式随时间变化的情况,捕获正常模式的时间特征,统计ip地址的访问模式与其他ip地址的关系,捕获正常模式的空间特征,为后续异常检测提供依据。
12.进一步地,所述步骤(1)中为了更好地获取访问特征,定义时空ip地址画像,包含出度、入度、访问频次信息,其中出度代表该ip访问其他ip的地址总数,入度代表其他ip访问该ip的地址总数,访问频次代表该ip访问其他地址以及接受其他地址访问的总数。
13.进一步地,所述步骤(1)中为了获得同种类ip的访问模式,获得同类ip的共性特
征,使用dbscan算法对ip地址进行聚类,利用密度相连关系划分不同类别的ip地址,可以综合提取同类型ip的特征。
14.进一步地,所述步骤(2)中统计当前类别ip地址过去一周每一天内,对应时期前后各四个时期的时空画像,经过平均处理后,获得当前类别ip地址的历史正常时空画像,通过对历史正常时空画像的平均值和方差进行计算,可以获得异常检测的阈值。
15.进一步地,所述步骤(3)中基于极值理论的算法,获取历史正常画像用于初始化,定义异常发生的概率,设置一个较高的峰值阈值,利用广义帕累托分布拟合峰值,推理极值的分布并计算最终的阈值,该阈值可以随着正常时空画像的变化而动态调整。
16.进一步地,所述步骤(3)中基于极值理论计算获得异常的阈值,考虑到数据可能出现的概念漂移现象,取历史数据的平均值作为基准值,对变量与基准值的差值进行建模,并且不断更新基准值。
17.有益效果:本发明首次提出时空ip地址画像的定义来描述ip地址的访问模式,并提出了全新的异常检测算法,基于聚类ip的历史模式确定正常画像的模式,计算异常检测的阈值,通过极值理论算法对阈值进行动态调整。其优点在于可以全面地描述ip地址的时空特征,以及基于时空ip地址画像完成高质量的异常检测。
附图说明
18.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
19.图1是基于时空ip地址画像的网络流异常检测方法的流程图;
20.图2是基于时空ip地址画像的网络流异常检测方法的框架图;
21.图3是根据本发明实施例的极值理论算法异常检测示意图。
具体实施方式
22.下面结合附图对本发明的技术方案作进一步说明。应当了解,以下提供的实施例仅是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的技术构思,本发明还可以用许多不同的形式来实施,并且不局限于此处描述的实施例。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。
23.如图1-2所示,本发明提出了一种新的基于时空ip地址画像来描述ip地址访问模式,以及利用聚类历史值和极值理论算法获得动态调整阈值的算法。整个模型框架由时空ip地址画像聚类模块、阈值计算模块、阈值动态调整模块三个部分组成。
24.时空ip地址画像聚类模块首先定义时空ip地址画像的关键信息,分别是入度(接收访问的源ip地址总数),出度(发起访问的目的ip地址总数),入频次(接收访问的总次数),出频次(发起访问的总次数)等信息。相比于仅统计访问频次,入度和出度的统计可以更好地捕获特定ip地址和其他ip地址的连接关系,也就是空间关系。将一天按照细粒度(15分钟为间隔)进行划分,每个时间片内都作对应信息的记录。考虑到同类别的ip地址存在访问模式的相似性,利用dbscan算法对时空ip地址画像进行聚类,利用同类ip的时空ip地址
画像作为ip的历史访问正常模式。
25.阈值计算模块基于历史的时空ip地址画像,获得正常访问模式的阈值。具体来说,对于给定需要异常检测的ip,寻找其所属的类别。对该类别ip,计算其过去一周内,每一天对应时期的时空ip地址画像。每一天之中,选择对应时期前后各四个时期,总计九个时期的时空ip地址画像信息,获得7
×
9总共63个时期的信息作平均值和方差的计算。如果当前时期的访问频次或者出度超过了历史平均值加上三倍方差,则认为出现异常。异常的种类根据出现异常的行为加以定义,如短时间内入度和被访问频次数量激增,需要将dos攻击的可能性纳入范畴。
26.阈值动态调整模块基于极值理论算法动态调整异常检测的阈值。具体来说,仅根据历史平均值等统计信息确定阈值,难以做到符合ip的时序变化特征。基于极值理论的算法,通过定义异常发生的概率与历史行为的峰值阈值,将超过阈值的峰值拟合到广义帕累托分布中,可以推理极值的分布,获得动态变化的异常检测阈值。
27.图3是根据本发明实施例的基于极值理论的阈值动态调整示意图。如图所示,历史平均值呈现出变化的趋势,故利用滑动窗口取得随时间变化的最近历史平均值。为了获得动态变化的阈值,根据极值理论算法,需要确定一个峰值阈值,用来统计超过此峰值阈值的峰值,计算峰值超过阈值的差值并用集合存储峰值过阈值。根据极值理论算法,将峰值过阈值拟合到广义帕累托分布上,可以获得异常检测阈值,该阈值随着峰值过阈值集合以及历史平均值的更新而更新。
28.算法1是根据本发明实施例的网络流异常检测算法。对于历史时空ip地址画像,首先使用dbscan算法将其聚类为不同的类别,同类别内ip地址具有相似的时空访问模式,可以用聚类画像替代单个ip画像作为后续异常检测的依据。对于需要检测的ip地址,找到其所在聚类的时空ip地址画像,统计其过去一周内,每一天对应时期前后各四个时期,共7
×
9=63个时期的时空ip地址画像信息,计算其平均值和方差,并且得到异常检测的阈值。对于当前时空ip地址画像,若其某一个或多个指标超过阈值,则需要检查对应的异常种类,判断是否发出异常预警。
29.算法1:网络流异常检测算法
30.输入:当前时空ip地址画像(入度,接收访问频次,出度,发起访问频次等),历史时空ip地址画像
31.根据历史时空ip地址画像,利用dbscan算法计算ip地址的聚类
32.寻找当前ip地址所在聚类
33.对过去一周之中的每一天:
34.对当前时期减四个时期到当前时期加四个时期之中的每个时期:
35.取对应时期时空ip地址画像的值
36.计算时空ip地址画像的平均值和方差
37.阈值=平均值+3
×
方差
38.若当前时空ip地址画像的入度(出度、接受访问频次、发起访问频次等)超过阈值:
39.检查对应异常种类
40.判断是否发出异常预警
41.输出:有或者无异常预警
42.算法2是根据本发明实施例的阈值动态调整算法。该算法需要定义异常概率p和峰值阈值t,其中异常概率应当尽可能小,而峰值阈值应当小于历史异常检测阈值。初始化异常阈值为算法1得到的历史异常检测阈值,历史均值为历史时空ip地址画像的均值,建立峰值过阈值集合为历史n个峰值过阈值的集合。初始化历史对于每一个时期的时空ip地址画像,计算当前值减去历史均值的差值,若当前差值大于异常阈值,则输出异常。其他情况,若当前差值大于峰值阈值,获得最新的峰值过阈值,并且更新到峰值过阈值集合,舍弃距今最久远的峰值过阈值。拟合峰值过阈值集合到广义帕累托分布,可以获得更新后的异常阈值。若当前差值小于峰值阈值,则利用当前值更新历史均值。
43.算法2:阈值动态调整算法
44.输入:当前时空ip地址画像(入度,接收访问频次,出度,发起访问频次等),历史异常检测阈值,历史均值
45.定义异常概率p,峰值阈值t
46.异常阈值=历史异常检测阈值
47.峰值过阈值集合=历史n个峰值过阈值
48.对每个时期的时空ip地址画像
49.当前差值=当前值

历史均值
50.if当前差值》异常阈值:
51.输出异常
52.else if当前差值》峰值阈值:
53.当前峰值过阈值=当前差值

峰值阈值
54.更新最近n个峰值过阈值集合
55.拟合峰值过阈值集合到广义帕累托分布
56.更新异常阈值
57.更新历史均值
58.else:
59.更新历史均值
60.输出:动态调整的异常阈值
61.在处理网络流异常检测问题时,本发明统计ip地址的出度、入度、访问频率等信息,给出时空ip地址画像的定义,利用dbscan算法对同类型ip地址进行聚类。基于当前ip地址画像,对比同类别ip的历史一周对应时期的画像信息,通过对历史平均值和方差的计算,设计异常阈值,判断当前时期的ip画像是否异常。基于极值理论算法,定义网络流数据中的峰值,对历史数据的峰值加以拟合,推理极值的分布,对异常阈值进行动态调整。本发明方法使用时空ip地址画像的定义以及dbscan聚类算法,可以准确地表示同类别ip的历史访问特征,配合历史统计数值与基于极值理论的算法计算阈值,可以动态调整异常检测阈值,检测网络流中出现的异常。
62.以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1