专利名称:通信告警频繁项集挖掘引擎及冗余处理方法
技术领域:
本发明涉及移动互联网络告警监控领域,特别涉及基于数据挖掘技术的告警频繁 项集获取领域,具体地说是一种通信告警频繁项集挖掘引擎及冗余处理方法。
背景技术:
移动通信告警量巨大,其中的一些告警发生的时候,总会有其它特定的告警随之 发生,这些在一段时间内频繁发生的告警称之为告警频繁项集。告警频繁项集隐含着告警 关联的主要信息,是我们进行告警关联分析的重要依据。数据挖掘中的频繁项集挖掘算法, 能够从告警数据库中可以挖掘出蕴含在大量告警中的频繁项集,其中的频繁模式增长算法 能够将告警信息储存在一颗频繁模式树中,通过遍历频繁模式树,生成条件模式基和条件 模式子树,就能够挖掘出告警中出现的频繁项集。但是在实际工程应用中,由于告警数量巨 大,告警种类繁多,用于挖掘的告警数据量都在几百万甚至上千万条。频繁模式增长算法会 产生大量的条件模式基和条件模式树,使得算法的效率很低,并且得到的频繁项集,相对于 实际的工程应用来说大部分是冗余的,使得后期的处理工作量巨大,效率低下。本发明针对 上述问题构建了高效的频繁项集挖掘及冗余处理引擎,该引擎改进了频繁模式增长算法的 性能,有很强的执行效率和实用性,能够挖掘出复杂互联通信设备的告警频繁项集,并对挖 掘结果进行冗余处理,为通信网络告警频繁项集挖掘工作提供有效和实用化的解决方法。
发明内容
本发明的目的是提供一种通信告警频繁项集挖掘引擎及冗余处理方法。本发明的目的是按以下方式实现的,挖掘引擎包括以下内容(1)采集通信告警数据并对数据进行预处理,通过对数据的预处理确保告警频繁 项集挖掘的效率、准确度以及最终结果的有效性;(2)设定了告警时间窗和滑动步长两个参数,将告警关系型数据转化成事务型数 据,最大程度地保证在一个告警时间窗内告警发生的完整性,为告警频繁项集的挖掘工作 做准备;(3)频繁模式增长改进算法,建立项头列表和条件模式树,在每条路径上挖掘低阶 项的所有条件模式基,并进行标记,在挖掘每一项时,首先判断该节点标记,如果标记为真, 则跳过该路径,直接挖掘下一个路径,这样只需要挖掘部分低阶的项,就可以遍历所有的路 径,找出所有的条件模式基,然后生成条件模式树,挖掘频繁项集;(4)对挖掘到的告警频繁项集进行冗余处理,将最大频繁项集的所有子集,在支持 数上进行比较,从最大η阶频繁项集开始,如果η-1阶子集的支持数大于等于最大η阶频繁 项集的支持数不超过一个常数c,将此项集删除,对于满足上述的频繁项集进行保留;(5)对获取到的告警频繁项集进行归纳整理,并提供详细的解释信息,便于运维人 员进行规则核对。冗余处理步骤如下
(1)从设备中采集告警数据,并对数据进行清洗和集成,建立告警id表来标记告 警数据,完成数据的采集和准备工作;(2)设置告警时间窗和滑动窗口,对数据进行转换,将关系型告警数据,转换成事 务型告警数据;(3)设置支持度阈值,调用改进的频繁模式增长算法,对告警数据进行频繁项集挖 掘;(4)对挖掘结果进行冗余处理;(5)对最终得到的告警频繁项集进行合理的解释,并将结果呈现给运维人员便于 查询和维护。本发明的优异效果(1)将人工智能中的数据挖掘算法引入到告警频繁项集的挖掘应用当中,并对算 法进行了改进,使得算法能够高效和准确地挖掘出告警频繁项集。(2)面向实际应用,提出了频繁模式增长改进算法,在原算法的基础上对生成条件 模式基和条件模式树的方式进行了改进,使得该算法的处理能力有了极大的提高,能够满 足工程应用的需要。(3)对告警频繁项集的挖掘结果进行了冗余处理,从实际应用的角度出发,剔除了 其中一些冗余结果,使得挖掘结果能够更加简洁实用。本发明不依赖于网络模型与拓扑结构,适用于移动互联网、固网、通信网络等多种 网络模型的告警频繁项集获取。
图1是通信告警频繁项集挖掘引擎结构图;图2是项头列表与频繁模式树示意图;图3是频繁模式改进算法流程具体实施例方式参照说明书附图对本发明的方法作以下详细地说明。本发明的通信告警频繁项集挖掘引擎及冗余处理方法,是针对现代通信网络告警 监控的需求,将数据挖掘算法中的频繁模式增长算法进行改进,应用到通信告警频繁项集 挖掘当中。从海量的告警中快速获得告警频繁项集,并且对挖掘结果进行了冗余处理,进而 帮助运维人员高效地完成各类网络告警信息的处理,为通信告警关联分析工作提供一种创 新的解决方案。系统基本构成和工作原理针对通信网络中的海量告警信息,采用频繁模式增长改进算法,进行告警频繁项 集的挖掘工作,告警频繁项集挖掘引擎如图1所示。通信告警频繁项集挖掘引擎,包括告警数据的预处理、参数设置及频繁项集挖掘、 挖掘结果冗余处理和结果的解释与呈现四个阶段。数据处理阶段提取告警所需要的字段,将关系型数据转化成为事务型数据格式, 设置告警时间窗口和滑动步长的大小,并确定告警支持度阈值;频繁项集挖掘阶段调用频繁模式增长改进算法进行频繁项集的挖掘;对挖掘结果进行冗余处理,得到最终的告警频 繁项集;后对所挖掘的结果进行解释和呈现。荣誉处理步骤如下(1)从设备中采集告警数据,并对数据进行清洗和集成,建立告警id表,来标记告 警数据,完成数据的采集和准备工作。(2)设置告警时间窗和滑动窗口,对数据进行转换,将关系型告警数据,转换成事 务型告警数据。(3)设置支持度阈值,调用改进的频繁模式增长算法,对告警数据进行频繁项集挖 掘。(4)对挖掘结果进行冗余处理。(5)对最终得到的告警频繁项集进行合理的解释,并将结果呈现给运维人员便于 查询和维护。
实施例本发明针对各类面向3G、NGN、移动互联网等新一代通信网络监控与管理的要求, 解决了当前大型通信网络难以实现的告警关联分析问题。本发明采用的基于数据挖掘的告 警频繁项集获取技术以及挖掘结果的冗余处理技术,能够高效的处理海量告警中频繁出现 的告警序列。将本发明应用于某通信公司告警数据的挖掘工作中,获得三个月500多万条 告警数据。包含了爱立信、诺基亚和华为三种厂商的典型设备。挖掘结果如下表所示
权利要求
1.通信告警频繁项集挖掘引擎及冗余处理方法,其特征在于挖掘引擎包括以下内容(1)采集通信告警数据并对数据进行预处理,通过对数据的预处理确保告警频繁项集 挖掘的效率、准确度以及最终结果的有效性;(2)设定了告警时间窗和滑动步长两个参数,将告警关系型数据转化成事务型数据, 最大程度地保证在一个告警时间窗内告警发生的完整性,为告警频繁项集的挖掘工作做准 备;(3)频繁模式增长改进算法,建立项头列表和条件模式树,在每条路径上挖掘低阶项的 所有条件模式基,并进行标记,在挖掘每一项时,首先判断该节点标记,如果标记为真,则跳 过该路径,直接挖掘下一个路径,这样只需要挖掘部分低阶的项,就可以遍历所有的路径, 找出所有的条件模式基,然后生成条件模式树,挖掘频繁项集;(4)对挖掘到的告警频繁项集进行冗余处理,将最大频繁项集的所有子集,在支持数上 进行比较,从最大η阶频繁项集开始,如果η-1阶子集的支持数大于等于最大η阶频繁项集 的支持数不超过一个常数c,将此项集删除,对于满足上述的频繁项集进行保留;(5)对获取到的告警频繁项集进行归纳整理,并提供详细的解释信息,便于运维人员进 行规则核对。冗余处理步骤如下(1)从设备中采集告警数据,并对数据进行清洗和集成,建立告警id表来标记告警数 据,完成数据的采集和准备工作;(2)设置告警时间窗和滑动窗口,对数据进行转换,将关系型告警数据,转换成事务型 告警数据;(3)设置支持度阈值,调用改进的频繁模式增长算法,对告警数据进行频繁项集挖掘;(4)对挖掘结果进行冗余处理;(5)对最终得到的告警频繁项集进行合理的解释,并将结果呈现给运维人员便于查询 和维护。
全文摘要
本发明提供一种通信告警频繁项集挖掘引擎及冗余处理方法,本发明提供了通信告警频繁项集挖掘及其冗余处理引擎架构及实现,该引擎能够处理海量的告警信息,并且不依赖于通信网络的拓扑结构。能够高效地挖掘出告警中的频繁项集,并对挖掘结果进行冗余处理,满足实际应用需要。该引擎由告警数据的获取及预处理、参数的设定及告警类型转换、频繁模式增长改进算法、挖掘结果的冗余处理、最终结果的解释与呈现五部分组成。基于本发明的告警频繁项集挖掘及冗余处理引擎,可在不需要专家和运维人员的参与下实现通信网络的告警关联,而且能够在较低的运营成本情况下,成倍地提高处理效率,特别适合于通信网络的关联规则分析工作,具有广泛的应用前景和良好的实用价值。
文档编号G06F17/30GK102142992SQ20111000435
公开日2011年8月3日 申请日期2011年1月11日 优先权日2011年1月11日
发明者李洋, 苗再良 申请人:浪潮通信信息系统有限公司