一种基于通信网络的行为异常检测方法

文档序号:9436012阅读:2408来源:国知局
一种基于通信网络的行为异常检测方法
【技术领域】
[0001] 发明涉及数据挖掘领域,具体涉及一种行为异常检测的方法。
【背景技术】一种基于模式自学习的中文开放式实体关系抽取方法
[0002] 挖掘用户行为和分析行为异常是挖掘数据异常和内部威胁的重要研究领域。
[0003] 通信网络是由多人通信服务形成的,例如电子邮件,电话等等。通信网络在日常生 活中扮演了一个重要的角色,而且他提供了一个前所未有的机会让我们去分析和挖掘用户 的模型和社会关系。现在关于通信网络中的用户行为挖掘已经有很多研究,例如社团挖掘, 角色分析,仿真模型等。
[0004] 近期通信网络中有大量研究工作集中在用户行为模型挖掘和事件挖掘上面。然而 异常检测和相关模型的联系是紧密的,怎么定义常规模型是重要的研究热点。
[0005]目前主要的挑战就是怎样方便准确地模拟和表示用户通信模型。比较常用的技术 就是基于文本的语义分析,根据提取和跟踪文本信息的话题来获取用户行为模式和意图。 然而,因为隐私问题和权限限制,获取用户信息内容存在很多的障碍。另一个比较流行的技 术是基于网络的框架和时间属性来发掘用户模型。与以上工作不同的是,我们的研究直接 聚焦在用户的个体行为。
[0006] 跟踪监测用户行为演化和异常可以帮助我们预测潜在的威胁和挖掘未知事件。因 此寻找一个有效的方法去研究它们是十分重要的。根据收集到的通信记录,我们可以得到 一个网络,网络中节点代表用户ID,边代表直接的信息交互。通信网络是一个典型的时间序 列网络。它可以由一系列的快照来表达。根据快照中用户的行为活动可以得到用户行为基 准,检测用户的行为异常。

【发明内容】

[0007] 本发明主要是提供一种基于通信网络的行为异常检测方法。该方法可以基于个 体的历史行为检测个体的行为异常,方便分析人员量化个体行为异常并提供相关的决策支 持。
[0008] 对于获取的通信记录,首先构建了一个通信网络。节点代表用户,边代表通信记 录。如果发信者u在t时刻向收信者v发送了信息,就建立在t时刻的一个由u指向v的 有向边。用一个向量(u,v,t)来表示这个边。然后把通信网络根据一定的时间间隔划分成 一系列的快照。每一个快照在忽略它的时间属性的情况下可以看成边的集合。
[0009] 假设G= {gl,g2,…,gM}是截取一系列的通信网络的快照。对于每个用户,首先提 取每个用户快照的基本信息。然后我们关注其中的三个非文本特征:通信量、通信时间分布 和收信者频度分布。
[0010] 计算用户的通信量异常值,利用Iglewicz和Hoaglin提出的基于绝对中位数 (MAD)的改进后的Z-scores方法,将改进后Z-scores的绝对值Imz」作为通信量异常值 [0011] 计算用户的通信时间分布异常值,利用所有通信时间分布的平均值来定义通信时 间分布的基准,利用Kullback-Leibler散度计算通信时间分布异常值。
[0012] 计算用户的收信者频度分布异常值,定义如果一个收信者出现在k个快照中, 我们就定义他的频度就是k,和上面相似,我们也定义了一个收信人频度分布基准,利用 Kullback-Leibler散度计算收信者频度分布异常值。
[0013] 最后通过一个转换方式来映射异常值到一个在区间[0, 1]的标准值,标准化的异 常值能够被解释为观测到异常值的可能性。同时也为在不同用户异常行为间的比较带来了 很多便利。
【附图说明】
[0014] 附图1是本发明对行为异常检测所提出方法的基本流程图。
【具体实施方式】
[0015] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0016] 图1为本发明提供的行为异常检测的流程图。具体可以包括如下步骤:
[0017] 101、根据时间间隔划分网络快照:
[0018] 通信网络是一个典型的时间序列网络。它可以由一系列的快照来表达。根据一定 的时间间隔,可以把通信网络划分成若干个网络快照,便于进行下一步分析。
[0019] 102、根据网络快照提取用户资料:
[0020] 在获取若干个网络快照后,我们可以从中提取出用户的有效信息,本发明重点关 注通信量、通信时间分布和收信者频度分布这三个特征。
[0021] 103、根据用户资料构造用户基准:
[0022] 我们提取出用户资料后,根据用户资料构造出用户基准,这些基准通常是某些快 照样本的平均值,得到用户基准便于计算异常值
[0023] 104、根据用户资料和用户基准计算异常值:
[0024] 在本发明中选取用户的三个特征:通信量,通信时间分布和收信者频度分布来进 行特征异常计算,具体计算方式如下:
[0025]I通信量
[0026] 通信网络主要用于用户间的信息传递,因此,某一用户在通信网络中通信量是表 征用户行为模式的重要特征。假设一段时间间隔内的通信量保持相对稳定。基于该假设, 用户通信量的变化能够反映现实世界中某一事件的发生。我们利用改进的Z-scores来测 量用户通信量的异常In1,n2,…,nM}。
[0027]Z-scores通常用于数值数据中的异常值标记。对于一组给定的数据集{Xl,x2,… ,Xn},样本乂;的z-score由以下公式进行计算:
[0028]
[0029]其中
[0030]如果21的绝对值超过了 3,那么对应的xi就将被标记为异常值。这种方法又称为three-sigma规则。但是由于均值Z及样本标准差s不是恒定不变的,Z-score计算所得的 可能的最大值并不依赖于数据值,而仅仅取决于观测值的数量。因此,该方法并
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1