本发明涉及网管智能化运维,具体来讲是一种异常流量数据过滤方法及装置。
背景技术:
1、网络流量实际分析预测时,流量会受诸如网络状态、用户规模、设备配置、器件工作环境等因素影响。众多因素会影响网络流量预测和分析的精度,特别是流量数据中存在的异常值波动,会导致进行网络流量预测和分析时,建模的特征选择被异常值干扰。这些存在的异常波动值,如果能在数据分析预处理阶段就被识别过滤并妥善处理,那么就可以有效提高预测和分析模型的精度。
技术实现思路
1、本发明的目的在于提供一种异常流量数据过滤方法及装置,能在数据分析预处理阶段对存在异常的流量数据进行识别和处理,从而减少流量数据异常值对流量预测和分析工作的影响,使流量数据的异常值分析处理过程自动化,并可自适应流量数据的变化发展。
2、为达到以上目的,第一方面,本发明实施例提供一种异常流量数据过滤方法,该方法包括:
3、将待分析的流量数据依次进入先进先出队列中,并在各流量数据入队列时和出队列时,通过计算该流量数据的变化异常度量指标,进行数据值异常判断;结合入队列时和出队列时的数据值异常判断结果,对该流量数据进行最终的异常性判定;
4、将最终判定为异常的流量数据,按照预设的处理策略进行处理。
5、作为一个优选的实施方案,在各流量数据入队列时,通过计算该流量数据的变化异常度量指标,进行数据值异常判断,具体包括:
6、传入下一个待分析流量数据的原始数据值,并对原始数据值进行数值量级缩放;
7、根据传入的流量数据,更新当前队列中各流量数据的变化因子;
8、基于更新后的各流量数据的变化因子,更新当前队列的参考变化因子;
9、基于更新后的参考变化因子以及当前传入队列的流量数据对应的变化因子,计算该流量数据的变化异常度量指标;
10、判断计算的变化异常度量指标是否小于或等于预设的异常性门限;若是,则判定为异常,否则,判定为正常。
11、作为一个优选的实施方案,在各数据出队列时,通过计算队列中各元素的异常度量指标,进行数据值异常判断,具体包括:
12、根据当前更新的参考变化因子以及更新的出队列流量数据对应的变化因子,计算当前出队列流量数据的变化异常度量指标;
13、判断计算的变化异常度量指标是否小于或等于预设的异常性门限;若是,则判定为异常,否则,判定为正常。
14、作为一个优选的实施方案,各流量数据出队列后,还包括以下操作:更新当前队列中各流量数据的变化因子;基于更新后的各流量数据的变化因子,更新当前队列的参考变化因子。
15、作为一个优选的实施方案,结合入队列时和出队列时的数据值异常判断结果,对该流量数据进行最终的异常性判定时,采用快速判定方式,具体包括:
16、获取该流量数据入队列时和出队列时的数据值异常判断结果;当两次数据值异常判断结果均为异常时,判定该流量数据最终为异常;否则,判定该流量数据最终为正常。
17、作为一个优选的实施方案,结合入队列时和出队列时的数据值异常判断结果,对该流量数据进行最终的异常性判定时,采用深度判定方式,具体包括:
18、在原有队列的基础上增设补充队列,所述补充队列包括至少一级的先进先出队列,且补充队列与原有队列形成多级队列的组合结构;
19、当各流量数据从原有队列出队列后,将依次进入补充队列中的各级先进先出队列中;且对于之前存在不同判断结果的流量数据,会在该流量数据出各级补充队列时,通过计算变化异常度量指标进行多次数据值异常判断,结合多次数据值异常判断结果进行综合评判。
20、作为一个优选的实施方案,所述补充队列中的各级先进先出队列的长度长于原有的先进先出队列的长度,且两者的长度形成倍数关系。
21、作为一个优选的实施方案,所述综合评判的方式包括:以补充队列的最后一次结果为准的方式;或者采取质量控制领域中的7点连续性异常判定原理的方式;或者计算异常判断的相对占比的方式。
22、作为一个优选的实施方案,所述预设的处理策略包括:丢弃处理或插值处理。
23、第二方面,本发明实施例还提供一种基于第一方面实施例中方法的异常流量数据过滤装置,该装置包括分析识别模块和异常处理模块;
24、所述分析识别模块,用于:将待分析的流量数据依次进入先进先出队列中,并在各流量数据入队列时和出队列时,通过计算该流量数据的变化异常度量指标,进行数据值异常判断;结合入队列时和出队列时的数据值异常判断结果,对该流量数据进行最终的异常性判定;
25、所述异常处理模块,用于:将最终判定为异常的流量数据,按照预设的处理策略进行处理。
26、本发明的有益效果在于:
27、(1)本发明设计了一种变化异常度量指标,用来作为判断当前流量数据是否为异常流量数据的指标。通过该变化异常度量指标的引入,使得数据异常值判断符合数据的变化特征,提供了一种合理且优化的异常值判断方法,从而为提高后续数据分析和预测工作的精度提供了帮助;并且,通过使用该数据变化异常度量指标,可自适应流量数据的变化,实现了一种可随数据趋势变化的动态异常数据过滤方法。
28、(2)本发明还采用了一种先进先出队列结构,并在该队列的入队列时刻和出队列时刻均进行数据值异常判断,满足了对异常值判断的时间性要求;而且,通过使用该先进先出队列结构,使得本过滤方法可以支持大数据量的过滤工作,并且可以灵活支持静态数据和在线动态数据的过滤,使用灵活。
29、(3)本发明中,在进行最终的异常性判定时,还设计了一种深度判定方式,可实现一种基于多队列组合的多次异常性深度判定,可进一步提高异常性判定的准确性,减少误判。
1.一种异常流量数据过滤方法,其特征在于,该方法包括:
2.如权利要求1所述的异常流量数据过滤方法,其特征在于,在各流量数据入队列时,通过计算该流量数据的变化异常度量指标,进行数据值异常判断,具体包括:
3.如权利要求2所述的异常流量数据过滤方法,其特征在于,在各数据出队列时,通过计算队列中各元素的异常度量指标,进行数据值异常判断,具体包括:
4.如权利要求3所述的异常流量数据过滤方法,其特征在于,各流量数据出队列后,还包括以下操作:
5.如权利要求1所述的异常流量数据过滤方法,其特征在于,结合入队列时和出队列时的数据值异常判断结果,对该流量数据进行最终的异常性判定时,采用快速判定方式,具体包括:
6.如权利要求1所述的异常流量数据过滤方法,其特征在于,结合入队列时和出队列时的数据值异常判断结果,对该流量数据进行最终的异常性判定时,采用深度判定方式,具体包括:
7.如权利要求6所述的异常流量数据过滤方法,其特征在于:所述补充队列中的各级先进先出队列的长度长于原有的先进先出队列的长度,且两者的长度形成倍数关系。
8.如权利要求6所述的异常流量数据过滤方法,其特征在于:所述综合评判的方式包括:
9.如权利要求1所述的异常流量数据过滤方法,其特征在于,所述预设的处理策略包括:丢弃处理或插值处理。
10.一种基于权利要求1至9中任一项所述方法的异常流量数据过滤装置,其特征在于:该装置包括分析识别模块和异常处理模块;