基于数据增量图的异常检测方法
【专利摘要】本发明公开了一种基于数据增量图的异常检测方法,包括如下步骤:(1)对无线传感器网络当前监测区域内的检测数据进行采集和预处理,确定事件区域;(2)获取与当前事件相关的数据集,用图模型抽象概括事件数据,将事件数据转换成事件数据增量图;(3)采用基于结构关联度的图相似算法,在事件模式图数据库中进行查询,查找与事件图相似的事件模式图,判断当前事件的类型;所述事件模式图数据库为事件模式图的集合,所述事件模式图为事件数据增量图,是对事件类型的抽象描述。所述基于结构关联度的图相似查询算法,将图相似查询问题转化为序列相似性查询问题,有效降低查询复杂度。本发明提供的基于数据增量图的异常检测方法,事件图可以基于领域专家知识获得,或基于数据分析获得,用于复杂事件检测,提高事件检测效率、降低误报率。
【专利说明】基于数据增量图的异常检测方法
【技术领域】
[0001]本发明涉及一种无线传感器网络的异常检测方法,尤其涉及一种基于数据增量图的异常检测方法。
【背景技术】
[0002]无线传感器网络的异常检测现状
[0003]在无线传感器网络中,传感器节点数据异常产生的原因多种多样,如传感器节点本身发生了故障、采集的数据含有大量噪声数据以及传感器网络中发生了异常事件等等。无线传感器网络的异常检测就是检测出这些异常数据,反馈给用户,以便用户做出相应的决策。但是,一些用户不仅要求检测出哪些传感器节点的数据发生了异常,而且还要求检测出引发这些数据异常的具体异常事件类型。这样的异常检测也称为异常事件检测或事件检测,具有重要的现实意义。例如,在火灾检测应用中,当传感器网络的数据发生异常时,就要对这些异常数据进行判定,确认出这些异常数据是由那种异常事件所引发的,即检测出监测区域是发生了火灾,还是发生了其他事件。
[0004]无线传感器网络是以数据为中心的,而且数据之间有很强的时空相关性。一般地,若将某个节点在某个时刻的数据看作数据图中的顶点,数据间的时空相关性看作为数据图中的边,则可以很自然地使用图模型描述事件特性。很多研究与应用实例证明图模型在描述复杂事件上具有很强的能力,可以用于支持无线传感网复杂事件检测。若基于事件图集和事件相关信息建立数据库,传感网复杂事件检测可视为集合类图数据的查询处理问题。当事件发生时,采集相关数据建立事件查询图,在数据库中查询与之匹配的图数据,就可得到与本事件相关信息,例如事件类型、事件可能起因、未来可能发展趋势、有效的处理手段等等,这些信息是相关决策的重要依据。
[0005]事件检测的首要任务为事件建立模型,一个适当的事件模型是保证事件检测准确性的基础。无线传感网络事件检测技术已经得到了广泛而深入的研究,大部分是基于阈值的事件检测技术,事件发生与否取决于被检测属性的检测值是否超出预先设定的阈值。然而这种方案在决策支持方面还有不足,并有可能造成误报,例如某节点数据突破阈值有可能是发生了事件也有可能是因为设备故障或者传输故障。
[0006]针对基于阈值检测的缺点,出现了基于等值线图(Contour Map)的事件检测技术(文献 W.Xue, Q.Luo, L.Chen and Y.Liu.Contour Map Matching for EventDetection in Sensor Networks[C].1n Proceedings of ACM SIGM0D, 2006.和 Y.Liu, M.L1.1so-Map:Energy-Efficient Contour Mapping in Wireless Sensor Networks[C].1nProceedings of IEEE ICDCS, Toronto, Canada, June2007.)。等值线图技术把传感器网络区域内的事件抽象成节点感知数据的时空模型,通过模型匹配进行查询事件的发生情况,能显著提高检测效率。等值线也是一种图模型,能有效描述事件的时空数据特征,但是等值线的模式图都是基于专家知识得到的,不具有一般普遍性。
[0007]图数据的相似性查询技术现状[0008]图相似性查询可以形式化定义为:给定图数据库D= {gl,g2,…,gn},查询图q,相似性查询返回图集合{gi I gi e D,gi与q的相似度满足给定阈值}。
[0009]对于图相似性查询问题,核心问题是需要一个度量手段来量化两个图的相似性。有些研究者提出用图编辑距离(Graph Edit Distance)来度量相似性。图编辑距离由字符串匹配的思想转化而来,即利用字符串的对齐距离和编辑距离的思想构造图的编辑和对齐距离。两个图的比对需要三种编辑操作:插入、删除和更改。基于图编辑距离的方法属于间接计算相似度,其计算复杂度较高,属于NP完全问题。除了图编辑距离之外,最大公共子图也被用来衡量两个图结构之间的相似度,即两幅图形的最大公共部分。基于最大公共子图的方法属于直接计算相似性,用到了子图同构的计算,因而计算复杂度较高。文献H.Bunkeand K.Shearer.A graph distance metric based on maximal common subgraph.PatternRecognition, 19:25-259,1998使用了最大公共子图(Maximal Common Subgraph)来衡量图结构相似性。
[0010]由于计算图编辑距离和求解最大公共子图均是NP完全问题,所以在用这两种方法处理相似性查询问题时,一般是先计算两个图相似性值的上界或下界,而计算相似性上、下界的时间开销较直接计算两个图结构相似性的时间开销小,并且可以利用上、下界过滤掉一部分非结果集。Grafil(文献X.Yan, F.Zhu, P.S.Yu, et al.Feature-based SimilaritySearch in Graph Structures[J].ACM Transactions on Database Systems(TODS), 2006,31 (4): 1418-1453)是求解子图相似性问题的算法,子图相似性查询就是查询与给定查询图有满足某些条件的公共子图的图数据集合。其利用最大公共子图度量两图的相似性,文中给出了边松弛比(relaxation ratio)的概念。Grafil从图数据库提取特征并建立feature-graph矩阵索引,查询时确定包含在查询图内的子结构特征,然后将查询图边的松弛转化到查询图所包含的特征个数和减少,通过计算松弛边后可能丢失特征的最大个数,就可以提前过滤掉一部分非结果集合,从而减少问题复杂度。
[0011]通常求解图编辑距离主要有两类算法:精确算法和相似算法。大量的精确算法(文献 K.Riesen, S.Fankhauser, H.Bunke.Speeding up graph edit distance computationwith a bipartite heuristic.1n MLG’ 07 和文献 M.Neuhaus, k.Riesen, and H.Bunke.Fast suboptimal alorithms for the computaion of graph edit distance.1nSSSSpR,06)通常都是基于比较著名的A*算法(文献P.Hart, N.Nilsson, B.Raphael.Aformal basis for the heuristic determination of minimum cost paths.1EEE Trans.SSC, 4 (2):100-107, 1968.),然而精确算法通常只能处理不超过12个顶点的图,所以大量的求解编辑距离的上、下界的算法被提出。
[0012]BLP (文献 D.Justice, A.Her0.A Binary Linear ProgrammingFormulation of the Graph Edit Distance[J].1EEE Trans.Pattern Anal.Mach.1ntell.,2006, 28 (8): 1200 - 1214)针对无权标签图给出计算两个图编辑距离及其上、下界的方法,该方法将最小化问题转化为0、1整数线性规划模型。无权标签图是指顶点上有标签而边上没有权值的图。BLP将 要计算编辑距离的两图看作是一个编辑网格所代表的图的子图,那么两图之间的编辑操作一定不会超过这个大的编辑网格,因为这个网格的大小(网格的长和宽)恰好是两图顶点个数的和。文中证明了图的编辑操作等价于这一编辑网格状态的改变,并且如果一个编辑操作代价是度量标准,那么由此计算得到的编辑距离也是一个度量标准。该模型由于是0、1整数线性规划问题,而整数线性规划问题不存在多项式时间算法,所以又将变量作用域松弛为[0-1],这样就变为一般线性规划问题,而一般线性规划问题存在多项式时间算法,即内点法。由于松弛后线性规划变量作用域是松弛前变量作用域的超集,而该线性规划模型表示的是最小化问题,所以松弛后的模型计算出来的是两个图编辑距离的下界,利用下界就可以过滤一些数据库图。
[0013]Comparing Stars (文献 Ζ.Zeng, A.K.Τ.Tung, J.Wang et at.Comparing Stars: OnApproximating Graph Edit Distance[C].1n VLDB, 2009)米用编辑距离来度量两图之间的相似性。文献用多个星型结构表示一个图,通过比较两图所对应的星型结构组来计算两图的上、下界,这一计算过程可以在多项式时间内完成。
【发明内容】
[0014]发明目的:为了克服现有技术中存在的不足,本发明根据无线传感器网络事件的增量数据将事件抽象概括成数据增量图,给出基于数据增量图的异常检测方法(DataIncremental Graph Based Anomaly Detection Algorithm,简称DIG);事件图可以基于领域专家知识获得,或基于数据分析获得。
[0015]技术方案:为实现上述目的,本发明采用的技术方案为:
[0016]基于数据增量图的异常检测方法,包括如下步骤:
[0017](I)对无线传感器网络当前监测区域内的检测数据进行采集和预处理,确定事件相关区域;
[0018](2)获取与当前事件相关的数据集,用图模型抽象概括事件数据集,将事件数据集转换成事件数据增量图;
[0019](3)采用基于结构关联度的图相似算法,在事件模式图数据库中进行查询,查找与当前事件的事件数据增量图相似的事件模式图,判断当前事件的类型;
[0020]所述事件模式图数据库为事件模式图的集合,所述事件模式图为事件数据增量图,是对事件类型的抽象描述;
[0021]所述事件模式图通过领域专家知识获取或基于数据分析获取,是一种基于数据增量的事件图;所述数据增量为事件发生时刻传感器网络中各个节点数据的增量变化状态的数据集,基于该数据集建立的事件图为事件时刻的数据增量图,也是该事件的事件模式图;
[0022]所述基于结构关联度的图相似查询算法具体为,从图数据中抽取基本结构,以基本结构之间的关联度转化图数据为基本结构序列,将图相似查询问题转化为序列相似性查询问题,有效降低查询复杂度,以适用于事件检测应用。
[0023]所述步骤(I)中,基于传感器节点的物理相关性与数据相关性建立节点关联图,根据节点关联图确定事件相关区域,所述节点关联图包括全局节点关联图和全局节点关联图的子图,节点关联图的建立方式如下:
[0024]t时刻的节点关联图形式化表示为:
[0025]Gt= (V, E, ID, fv)
[0026]其中:V为图的顶点集合;E为图的边集合,包含所有事件相关顶点;ID为顶点的编号集合;fv:V — ID是顶点的标号函数,图顶点与传感器节点一一对应;无线传感器网络的每一个节点都构成节点关联图上的一个顶点;
[0027]设d(Vi) t为顶点V在t时刻的监测数据,图的边集合E构造原则如下:对于任意两个顶点V1, V2 e E,若V1与V2相对应的传感器节点为单跳通信邻居,或V1与V2相对应的传感器节点为k跳内通信邻居且存在函数与f2使得(d(V1) t) =f2 (d(V2) t),则存在边
(V1, V2) e E ;
[0028]所述事件相关区域确定方法为:在事件检测的时刻t,对于任意顶点Vi e E,若d (Vi) ^1-Cl (Vi) 11 / I d (Vi) ^+d (Vi) t ( e,则顶点Vi为事件相关顶点时刻所有事件相关顶
点所在的区域为事件相关区域;其中常数e为预设值,一般选择为2.5%~5% ;
[0029]确定了事件边界后的节点关联图是全局节点关联图的子图,全局节点关联图的子图定义如下:
[0030]Get= (V, E, ID, fv)
[0031]其中:V为图的顶点集合,包含所有事件相关顶点,F(Gef)CF(Gf); E为图的边集
E(Get)^E(Gl); ID为顶点的编号集合,/D(Gef)G/D(G,); fv:V — ID是顶点的标号函数,图顶点与传感器节点对应。
[0032]所述步骤(2 )中,用图模型抽象概括事件数据集,将事件数据集转换成事件数据增量图,所述数据增量与事件数据增量图如下:
[0033]I)无线传感网节点数据增量定义如下:
[0034]对于具有k个节点的无线传感网N,其包含节点为In1, n2,…,nk},N在时刻t的数据增量为集合{d(Ii1) t,d(n2)t,…,d(nk)J ;对于节点叫,其t时刻数据增量di (Iii)t定义如下:
[0035]
【权利要求】
1.基于数据增量图的异常检测方法,其特征在于:包括如下步骤: (1)对无线传感器网络当前监测区域内的检测数据进行采集和预处理,确定事件相关区域; (2)获取与当前事件相关的数据集,用图模型抽象概括事件数据集,将事件数据集转换成事件数据增量图; (3)采用基于结构关联度的图相似算法,在事件模式图数据库中进行查询,查找与当前事件的事件数据增量图相似的事件模式图,判断当前事件的类型; 所述事件模式图数据库为事件模式图的集合,所述事件模式图为事件数据增量图,是对事件类型的抽象描述; 所述事件模式图通过领域专家知识获取或基于数据分析获取,是一种基于数据增量的事件图;所述数据增量为事件发生时刻传感器网络中各个节点数据的增量变化状态的数据集,基于该数据集建立的事件图为事件时刻的数据增量图,也是该事件的事件模式图; 所述基于结构关联度的图相似查询算法具体为,从图数据中抽取基本结构,以基本结构之间的关联度转化图数据为基本结构序列,将图相似查询问题转化为序列相似性查询问题。
2.根据权利要求1所述的基于数据增量图的异常检测方法,其特征在于:所述步骤(1)中,基于传感器节点的物理相关性与数据相关性建立节点关联图,根据节点关联图确定事件相关区域,所述节点关联图包括全局节点关联图和全局节点关联图的子图,节点关联图的建立方式如下: t时刻的节点关联图形式化表示为:
Gt=<V, E, ID, fv> 其中:V为图的顶点集合;E为图的边集合,包含所有事件相关顶点;ID为顶点的编号集合;fv:V — ID是顶点的标号函数,图顶点与传感器节点一一对应;无线传感器网络的每一个节点都构成节点关联图上的一个顶点; 设d (Vi) t为顶点V在t时刻的监测数据,图的边集合E构造原则如下:对于任意两个顶点V1, v2 e E,若V1与V2相对应的传感器节点为单跳通信邻居,或V1与V2相对应的传感器节点为k跳内通信邻居且存在函数4与&使得则存在边(Vl,V2) e E ;所述事件相关区域确定方法为:在事件检测的时刻t,对于任意顶点Vi e E,若|d(Vi)^1-Cl (Vi) 11 / I d (Vi) ^+d (Vi) t ( e,则顶点Vi为事件相关顶点,t时刻所有事件相关顶点所在的区域为事件相关区域;其中常数e为预设值; 确定了事件边界后的节点关联图是全局节点关联图的子图,全局节点关联图的子图定义如下:
Get= (V, E, ID, fv) 其中:V为图的顶点集合,包含所有事件相关顶点,E为图的边集合,E(Gel)^E(Gt)X ID为顶点的编号集合,/D(Ge,)c /D(G.) *, fv:V — ID是顶点的标号函数,图顶点与传感器节点对应。
3.根据权利要求2所述的基于数据增量图的异常检测方法,其特征在于:所述步骤(2)中,用图模型抽象概括事件数据集,将事件数据集转换成事件数据增量图,所述数据增量与事件数据增量图如下: .1)无线传感网节点数据增量定义如下: 对于具有k个节点的无线传感网N,其包含节点为In1, n2,…,nk},N在时刻t的数据增量为集合{d (Ii1) t, d (n2) t,…,d (nk) J ;对于节点Iii,其t时刻数据增量di (Iii) t定义如下:
4.根据权利要求1所述的基于数据増量图的异常检测方法,其特征在于:所述步骤(3)中,基于结构关联度的图相似算法具体为,首先基于结构关联度提取图数据的结构特征序列,将图数据相似查询转化为结构特征序列相似查询,然后在事件模式图数据库中查找与事件数据增量图相似的事件模式图,判断当前事件的类型;具体过程包括如下步骤: I)定义图数据的基本结构为环型结构、星型结构和线型结构,相对于其他ー些结构类型,如频繁子图、频繁子树等,这三种基本结构更易获取,且包含了图的基本结构信息,三种图数据的基本结构定义如下: 环型结构:图中一系列的点集合形成ー个封闭环,且该封闭环上的边数大于等于3,记环形结构为cycle (s) ,S= {v |V ∈VΛ v节点构成ー个环},其中该封闭环不能嵌套其他环,即该封闭环为简单环; 星型结构:图中某一核心顶点ろ连接其它若干个顶点,且其它任意两个顶点之间都不连通,满足degress (V0)≥3,记星型结构为star (v0, s), s= {v | vQ, v ∈ V八v是vQ的邻节点},degress (V0)表示节点V0的度; 线型结构:由一串顶点端到端相连的结构,记线型结构为Iine(S),s={v|v ∈ V A degress (v) ≤ 2}, degress (v)表示节点 v 的度; 2)基本结构提取步骤如下: ①用深度遍历方法和回溯思想先找出图中所有的环型结构; ②比较其中任意两个环型结构A,B,若A是B的子集,即环型结构B包含环型结构A,则删除环型结构B ; ③循环执行步骤②直到没有包含其他环型结构的环型结构,得到所有简单环的环形结构; ④计算图中每个顶点的度数,度数大于等于3的作为ー个星型结构; ⑤计算图中每个顶点的度数,如果某个顶点度数等于I并且其邻接点的度数小于或等于2,则继续遍历邻接点,直到某个顶点的度数大于2为止,由此形成ー个线型结构; 3)基于结构关联度的图数据结构特征序列提取方法如下: 根据每个结构的重要程度不同,对基本结构的序列进行重要程度的排序,将图结构数据转换成基本结构的序列,用结构之间的关联度衡量每个结构的重要程度: 关联:一个图中的任意两个基本结构Si和Sj :如果满足cvNun^Si,Sj)≥1,则结构Si和结构 Sj 是关联的,记为 incident (Si, SjO=I ;如果 cvNun^Si,Sj) =0,则 incident (Si, Sj) =0,说明结构Si和结构不关联;将关联形式化定义为:
【文档编号】H04W84/18GK103546916SQ201310551137
【公开日】2014年1月29日 申请日期:2013年11月7日 优先权日:2013年11月7日
【发明者】吕建华, 张柏礼, 魏巨巍 申请人:东南大学