基于流量统计的网络设备及链路实时故障检测方法和系统与流程

文档序号:26794143发布日期:2021-09-29 00:27阅读:94来源:国知局
基于流量统计的网络设备及链路实时故障检测方法和系统与流程
distribution,链接流量分布)发生了改变。在本公开的另一方面,实施例提供一种链路异常检测机制,周期性地将所述链路中的实时链接流量分布与动态更新的统计经验模型进行比较。在一些实施例中,所述模型包括预期链接流量分布。
8.预期链接流量分布可通过对复数个区间内如连续区间采集到的链接流量分布数据的基线数据集取平均值获得。例如,所述基线数据集的每一基线数据对应于一组流量占比,该组流量占比为一个区间内所述链接各自分担的流量占比。所述模型初始构建之后,对于每一区间,确定链接流量分布的一个新基线数据是否合格且被选择用于更新所述基线数据集。如果是,所述新基线数据替换所述基线数据集的最早的基线数据,以更新所述预期链接流量分布。无论所述新基线数据是否用于更新所述模型,根据所述预期分布评估所述新基线数据,以判断该新基线数据是否为异常值。响应于检测到预先设定数量的连续的异常值,生成告警,所述告警可进一步触发自动或手动诊断、故障排查以及修复措施。
9.根据本公开实施例,由于网络流量或链接流量分布被持续监控及使用简单统计处理实时评估,不管网络架构的复杂性,设备或链路的网络异常可在快速响应中被方便地捕获。由于被监控的统计数据可简单地从流量数据中获得,故障检测可通过使用设备或链路的现成的数据而方便地实现,并且,经验模型不要求了解细节特性及业务操作的综合知识。
10.另外,因为随着采集新数据而频繁更新,统计模型能反映最新的数据概率分布,这方便地增强了故障检测的效果及准确性。进一步,由于设备或链路的模型能使用被监控设备或被监控链路本身的真实经验数据构建及更新,所述模型是根据所述设备或链路的特性及业务操作制定的。这进一步有助于故障检测的精确度。
11.上述是概要,这不可避免地会简化、概括化以及遗漏细节;因此,所属领域的技术人员可以理解所述概要仅仅是示例性的,不以任何方式作为限制。其他方面,本公开的发明特性及有益效果,如权利要求中严格定义的,将在下述非限制性的具体实施方式中明确体现。
附图说明
12.结合附图对下述具体实施方式阅读,可以更好的理解本公开实施例,附图中相似字符表示相似元素。
13.图1示出了根据本公开其一实施例的示例性的具有故障检测设备的通信网络,所述故障检测设备能基于流量数据的统计值实时检测设备故障和链路故障。
14.图2是根据本公开其一实施例的基于流量统计数据的实时设备故障检测的示例性计算机实现过程的流程图。
15.图3是根据本公开其一实施例的用于设备的统计模型构建及相应的故障检测的示例性计算机实现过程的流程图。
16.图4示出了其一链接故障后示例性链路的链接流量分布的变化。
17.图5是根据本公开其一实施例的基于流量统计的实时链路故障检测的示例性计算机实现过程的流程图。
18.图6是根据本公开其一实施例的用于链路的统计模型构建及相应的故障检测的示例性计算机实现过程的流程图。
19.图7是根据本公开其一实施例的基于流量统计的实时设备故障检测及链接检测的
示例性计算系统的框图。
具体实施方式
20.详细参考本公开优选实施例,这些例子在附图中进行了阐明。本发明将结合所述优选实施例进行描述,可以理解的是,它们并不意图将本发明限定于这些实施例。相反,本发明意图涵盖如所附权利要求定义的发明范围及精神内包括的替换、修改以及等同方案。进一步,下述本发明实施例的详细描述中,为了提供对本发明的透彻理解,给出了多个特定细节。然而,可以被本领域普通技术人员理解的是,没有这些特定细节本发明可被实践。在其他例子中,公知的方法、过程、部件以及链路未被详细描述,以免不必要地模糊本发明实施例的方面。尽管为清晰起见一种方法能被描述为一系列的步骤,步骤编号并不必然意味着步骤的顺序。应该被理解的是,一些步骤可以被跳过、并行执行或不要求保持严格顺序而执行。表现本发明实施例的附图为半图式且并非按比例绘制,尤其是一些维度是为了描述的清晰度,并在图中进行了夸张显示。同样地,尽管为了描述的简便附图中的视图一般显示相同方向,附图中的这个描述极大程度上是任意的。一般地,本发明可在任意方向被执行。符号和术语
21.然而应该铭记的是,所有这些以及相似术语与合适的物理量关联,仅仅是用于这些量的方便标签。除非另外从下述讨论中特别明显指明,否则,应该理解,贯穿本发明中使用术语如“采集(collecting)”、“构建(constructing)”、“处理(processing)”或“计算(calculating)”或“执行(executing)”或“存储(storing)”或类似用语意指:计算机系统或类似电子计算设备的动作及处理过程,计算机系统或类似电子计算设备对计算机系统的寄存器及存储器内以及其他计算机可读媒介内表示物理(电子)量的数据,操作并转换为计算机系统的存储器或寄存器内或其他如信息存储设备、传输设备或显示设备内的其他类似表示物理量的数据。当一个部件出现在几个实施例中,使用相同引用数字表示该部件与初始实施例中所示的部件相同。基于流量统计的网络设备及链路实时故障检测
22.本公开实施例提供基于实时流量数据及其统计值检测网络设备或链路故障的机制。对于网络设备而言,经验统计模型能通过使用复数个区间内采集到的基线数据集构建,所述模型代表每一区间所述设备的网络流量的概率分布。所述模型可包括一组统计指标或相关函数,例如,所述指标为平均值和标准差。初始模型构建之后,根据所述模型评估每一区间的网络流量的一个新基线数据,以判断该区间的所述基线数据是否为异常值。异常值连续出现能触发故障告警。如果合格,所述新基线数据能被随机选择用于更新所述基线模型。在该实施方式中,所述模型用最新的正常数据更新,因此能准确地反映所述设备的当前特性及业务操作。
23.对于链路而言,经验统计模型通过使用复数个区间内采集到的基线数据集构建,所述模型代表所述链路内每一区间的链接流量分布的概率分布。所述模型可对应于预期链接流量分布。初始模型构建之后,对于每一区间,根据所述模型对包括一组链接流量或链接流量分布的一个新基线数据进行评估,以判断所述区间的基线数据是否为异常值。异常值连续出现可触发故障告警。如果合格,所述基线数据能被随机选择用于更新所述基线模型。在该实施方式中,所述模型用最新的正常数据更新,因此能准确地反映所述设备的当前特
性及业务操作。
24.图1示出了根据本公开实施例的具有能基于流量数据统计实时检测设备故障及链路故障的故障检测设备121和122的示例性的通信网络100。在一种简化形式中,所述网络100包括复数个相互连接并按多层排列的网络交换设备(如路由器),每一交换设备被配置为转发网络流量。所述交换设备属于被因特网服务提供商110控制的网络架构。终端(如131)被联结至所述交换设备,可以为服务端设备或客户端设备。可以理解的是,本公开不被限定于任何特定类型的网络拓扑结构或交换设备。
25.每一交换设备科被配置为采集各种形式的流量数据,例如,符合简单网络管理协议(snmp)。根据本公开,所述实时流量数据能用于构建动态更新的用于设备和链路实时故障检测的统计模型。在示例性的实施例中,所述模型构建和故障检测功能可在独立的监控设备(如设备141或142)中实施,该监控设备被联结至所述被监控者(如交换设备121或122)。然而,在一些其他实施例中,所述故障检测功能可集成于交换设备中。
26.如图所示,在业务运行过程中,交换设备122周期性采集其入口及出口流量,用于提供给监控设备142。假设在很短时间内网络流量的显著变化能表示交换设备异常或故障,其中,网络流量对应于总入口流量和总出口流量之间的差异。所述监控设备142根据所述交换设备122提供的基线数据集构建网络流量统计经验模型。所述模型表示每一区间网络流量的概率分布,根据所述模型定义正常区域和异常区域。在一些实施例中,所述模型简单到包括所述基线数据集的平均值和标准差。然而,本公开不被限定于任何特定的与所述统计模型中使用的网络流量相关的统计指标、函数、算法或公式。对于每一区间,根据所述模型评估所述网络流量的新基线数据,以确定其是否落入异常区域。另外,一个合格的新基线数据可被选择用于更新模型。如果检测到连续异常值,生成告警以触发随后的手动或自动故障诊断措施。
27.进一步,假设在链路中,在很短时间内链接流量分布的显著变化可表示链接异常或故障。如图所示,交换设备121和123以及之间的几个链接151被配置为一个链路。在所述交换设备121和123之间的流量,按一组特定比率的占比分布于所述链接151。所述交换设备123周期性采集每一链接的总入口流量或总出口流量,提供给监控设备141。所述监控设备141根据所述交换设备123提供的基线数据集构建统计经验模型。所述模型表示所述链路的预期链接流量分布。根据所述模型定义正常区域和异常区域。本公开不被限定于任何特定的与所述统计模型中使用的链接流量相关的统计指标、函数、算法或公式。对于每一区间,一个新基线数据包括一组链接流量或当前链接流量分布,根据所述预期分布评估所述新基线数据,以确定所述新基线数据是否落入异常区域。另外,一个合格的新基线数据可被选择用于更新模型。如果检测到连续异常值,生成告警以触发随后的手动或自动故障诊断措施。
28.根据本公开实施例,由于网络流量或链接流量分布被持续监控并使用简单统计处理实时评估,即使网络架构复杂,设备或链路的网络异常能在快速响应中被方便地捕获。既然被监控的统计指标能从流量中获得,故障检测能通过使用设备或链路的现成的数据和经验模型方便地实现,并不要求了解其复杂的细节特性、性能以及业务运行的综合知识。
29.另外,因为频繁使用采集到的新数据进行更新,所述模型反映了最新的数据概率分布,能显著增强故障检测的有效性和准确性。进一步,由于使用从特定设备或链路采集到的经验数据构建及更新模型,所述模型还是根据所述被监控设备或被监控链路制定的。这
进一步有助于故障检测的准确性。
30.图2是根据本公开其一实施例的基于流量统计数据的实时设备故障检测的示例性计算机实现过程200的流程图。实现过程200可由监控设备或监控模块执行,所述监控设备交互地联结至被监控的交换设备,所述监控模块集成于被监控的交换设备。在201,根据初始化基线数据集生成每一区间网络流量的统计经验模型。例如,所述基线数据集包括n个连续区间的网络流量数据,例如,每一区间为1分钟,n为2000。本文中特定数字仅为示例性的,本公开不被限定于此。区间跨度和样本容量可根据考虑因素选择,考虑因素如各种工程限制导致的数据采集噪声、流量分布的统计属性以及概率分布的充分代表性。
31.所述基线数据集中每一基线数据是每一区间网络流量,所述每一区间网络流量对应于一个区间内累计的总入口流量和总出口流量之间的差异。入口总流量和出口总流量可以分别为经过所述设备的全部入端口和出端口的各自流量之和。入口及出口流量数据可在被监控设备实时采集,并提供给用于故障检测目的的监控设备或监控模块。
32.根据n个区间内网络流量数据的概率分布,定义一个正常区域和一个或多个异常区域。在一个例子中,现实的网络流量数据可遵循一个正常概率分布;然而,本公开不限定于此。在一些实施例中,所述统计模型涉及所述基线数据集的平均值和标准差,所述异常区域和所述正常区域能根据所述平均值和所述标准差的函数定义,正如下述关于图3的更加详细的描述。
33.在202,所述设备的网络流量数据,以与201生成基线数据集的相同方式周期性生成,例如,每分钟。在203,采用新网络流量数据实时更新所述统计模型,同时保持所述基线数据集的数据量。在204,根据更新后的统计模型评估每一新网络流量基线数据,以确定其是否位于所述异常区域之中。在205,如果连续出现m个异常值,生成告警,所述告警可触发各种进一步操作,例如故障核查、诊断操作等。例如,m预先定义为3。
34.图3是根据本公开其一实施例的用于设备的统计模型构建及相应的故障检测的示例性计算机实现过程300的流程图。在301,区间索引“i”被设为1。在302,区间t
i
的网络流量基线数据d
i
,根据实时检测到的所述区间累计的实时入口流量和出口流量确定。在303,确定d
i
是否合格的,可作为用于所述统计经验模型的一个基线数据。在一些实施例中,一个基线数据如果满足下述条件则是合格的:(1)所述区间内总入口流量和总出口流量均大于一个特定值,例如1mbit/s(bps,兆比特每秒);并且,(2)前一基线数据(i

1),是一个正常值,如以下所述。然而,可采用各种其他资格条件,并不脱离本公开的范围。如果该基线数据并非合格的基线数据,则索引i在311递增以评估下一基线数据。
35.对于一个合格的基线数据,确定是否将其增加至所述统计模型的基线数据集。尤其是,在304,确定当前基线数据集是否少于2000个数据。如果是,在305,新基线数据d
i
被增加至用于所述统计模型的初始构建的基线数据集,例如,获得所述基线数据集的平均值和标准差。在一些实施例中,所述平均值(m)计算方式如下:mean=average(log(d1),

,log(d
i
),

,log(d
n
)),其中,n=2000;标准差(sd)计算方式如下:sd=sd(log(d1),

,log(d
i
),

,log(d
n
))。可以理解的是,平均值或标准差的各种其他形式或等式,或其他统计指标可以被采用,而并不脱离本公开的范围。一旦在305使用d
i
更新所述模型,则索引i在311递增以评
估下一基线数据。
36.如果当前基线数据集已经达到2000(如304中所确定的),d
i
就直接地,进一步在306判断d
i
是否异常值。例如,如果(d
i

mean)/ad>3,则定义d
i
为异常值。如果d
i
非异常值,d
i
被合并至所述基线数据集,并在307更新所述基线数据集中最早的基线数据;在305网络流量的平均值和标准差进行相应更新。一旦在305使用d
i
更新所述模型,则索引i在311递增以评估下一基线数据。
37.如果当前基线数据集未达到2000,并且d
i
为异常值(如在306所确定的),在308将其记录下来。在309,进一步确定d
i
是否连续检测到的第三个异常值。如果是,意味着已经连续有3个异常值,在310生成故障告警。在310,索引i被递增。对每一区间重复上述302

312的处理。
38.在一些实施例中,d
i
可根据规定的几率随机选择,例如50%。如果d
i
被选中,所述基线数据集中最早的基线数据用d
i
替换,从而所述统计模型被更新。例如,d
i
在重新计算所述平均值及标准差中被合并。如果当前基线数据集已达到2000个,d
i
被增加至所述基线数据集并不替换任何基线数据,而用于重新计算平均值及标准差。
39.在基本形态中,链路包括一个第一侧a和一个第二侧b,以及几个功能等同且共同分担a和b之间的流量负荷的并行链接。每一侧有入口流量和出口流量。根据本公开,a端入(a_in)、a端出(a_out)、b端入(b_in)、b端出(b_out)中任何流量可用于对所述链路进行针对故障检测目的的特征化表征。本文中详细描述的例子可适用于侧和方向的任何连接的流量。
40.当其一链接故障,该链接的链接流量很可能明显下降,a和b之间的总流量自动重新分布于各个链接。因此,链路流量分布的显著变化表示链接故障。图4示出了其一链接故障后示例性链路的链接流量分布的变化。如图所示,在正常运行情况下,4个链接401

404各自分担总流量的20%、30%、40%以及10%,例如流入a侧的流量。当链接401故障时,其占比下降至0%,而其余的变为40%、40%以及20%。
41.图5是根据本公开其一实施例的基于流量统计的实时链路故障检测的示例性计算机实现过程500的流程图。实现过程500可由监控设备或被监控链路内的监控模块执行,所述监控设备以交互方式联结至被监控链路的交换设备。在501,根据初始的基线数据集生成链路流量分布的具有代表性的统计经验模型。例如,所述基线数据集包括n个区间的链接流量分布数据,比如每一区间为1分钟,n为100。特定数字仅仅是示例性的,本公开不被限定于此。区间跨度及样本容量可据以下考虑因素选择,如:各种工程限制导致的数据采集噪声、流量分布的统计属性以及概率分布的充分代表性。
42.所述基线数据集内的每一基线数据对应于所述链路的一侧的特定方向(入口或出口)的全部链接各自分担的流量占比。每一链接的流量数据可在每一区间内采集,并提供给用于故障检测目的的监控设备或监控模块。所述模型可以对应于包括一组预期链接流量占比的预期链接流量分布。在一些实施例中,一链接的预期占比可通过对所述基线数据集中该链路的流量占比取平均值而获得。一个正常区域和一个或多个异常区域可定义为预期链接流量分布的函数。
43.在502,采集所述链接的流量数据并周期性生成链接流量分布数据,例如每分钟,与501中生成基线数据集方式相同。在503,使用新链接流量分布数据实时更新所述统计模
型,同时保持所述基线数据集内的数据量不变。在504,根据更新后的统计模型评估每一新链接流量分布基线数据,以确定其是否在异常区域之中。在505,如果连续出现m个异常值,则生成告警,所述告警触发各种进一步操作,比如故障核查、诊断操作等。例如,m预定义为3。
44.图6是根据本公开其一实施例的用于链路的统计模型构建及相应的故障检测的示例性计算机实现过程600的流程图。在601,区间索引“i”设为1。在602,区间t
i
的链接流量分布基线数据a
i
,是根据检测到的所述区间内累计的实时流量确定的。例如,a
i
包括一个区间内全部链接的a侧入口流量,a
i
=(v
1_i
,v
2_i
,v
3_i
,v
4_i
)。在一些实施例中,a
i
可以包括从所述链接流量得出的入口链接流量占比或任何其他适于代表链接流量分布的链接流量变量。
45.在603,确定a
i
是否为一个合格的基线数据,例如,能提供有效流量数据的功能性链接的数量在最近3个连续区间是否已发生变化。如果是,在604生成故障告警。
46.对于一个合格的基线数据而言,然后确定是否将其增加至所述统计模型的基线数据集。尤其是,在605,确定当前基线数据集是否少于100个基线数据。如果是,将新基线数据a
i
增加至用于所述统计模型的初始构建的基线数据集,例如,根据所述基线数据集获取所述预期链接流量分布。在614,索引i进行递增。
47.在一些实施例中,所述预期分布对应于所述基线数据集的平均分布。可以理解的是,平均值的各种其他形式或其他统计指标可被采用,而并不脱离本公开的范围。
48.如果所述基线数据集已达到100个,在607评估当前连接流量分布与预期链接流量分布之间的距离,该结果然后在608用于判断a
i
是否为异常值。例如,如果下述表达式成立,则a
i
定义为异常值:其中,v
j_i
是链接j在区间i的入口流量;v
all
为经过全部链接的总入口流量;为根据所述模型的每一区间内链接j流量的预期占比;x为预先设定的阈值。
49.如果a
i
为异常值,在610进行记录。在611,进一步确定a
i
是否为连续检测到的第三个异常值。如果是,意味着已经连续有3个异常值,在612生成告警。在614,索引i进行递增。如果a
i
非异常值,使用a
i
替换所述基线数据集中的最早基线数据,从而在606更新所述统计模型。例如,a
i
在重新计算所述预期链接流量分布中被合并。在614,索引i进行递增。在每一区间重复上述处理602

614。
50.在一些实施例中,在606中a
i
按照预定几率随机选择,例如,10%。如果a
i
被选中,使用a
i
替换所述基线数据集中最早的基线数据,从而更新所述统计模型。
51.图7是根据本公开其一实施例的基于流量统计的实时设备故障检测及链接检测的示例性计算系统700的框图。所述计算系统包括:主处理器(cpu)701,系统存储器702,图形处理单元(gpu)703,i/o接口704以及网络链路705,操作系统706以及包括实时故障检测模块720和730并存储于存储器702的应用软件710。所述系统700通过网络接口以交互方式联结至交换设备。
52.当合并来源于交换设备750的流量数据,并被cpu 701执行时,设备故障检测模块720能根据如图1

3中详细描述的流量统计实时检测设备故障。所述设备故障检测模块720
包括:网络流量数据生成模块721,基线数据集模块722,统计模型模块722和设备故障处理模块724。
53.所述网络流量数据生成模块721被配置为计算每一区间交换设备750的入口与出口流量之间的差异。所述基线数据集模块722通过选择性接受合格新数据并删除最早的数据,保持基线数据集的固定数据量。所述统计模型模块723能计算所述基线数据集的平均值及标准差,每次所述基线数据集用新基线数据进行更新时,更新这些统计指标。所述设备故障处理模块724可根据所述模型判断一个新基线数据是否异常值,响应于检测到连续出现异常值,生成告警,并执行故障检测、核查及诊断的各种其他操作。
54.当合并来自于所述交换设备750(或链路中其他任何类型设备)的流量数据,并被cpu 701执行时,链接故障检测模块720可根据如图4

6中详细描述的流量统计,实时检测链接故障。所述链接故障检测模块730包括:链接流量分布生成模块731,基线数据集模块732,统计模型模块733以及链接故障处理模块724。
55.所述链接流量分布生成模块731被配置为计算每一区间所述链路中链接流量占比。所述基线数据集模块732通过选择性接受合格新数据并删除最早的数据,保持基线数据集的固定数据量。所述统计模型模块733能计算预期链接流量分布,并且,当使用一个新基线数据更新所述基线数据集时更新所述预期分布。所述链接故障处理模块734能根据所述模型判断一个新基线数据是否为异常值,响应于检测到连续出现异常值,产生告警,以及故障检测、核查及诊断的各种其他操作。
56.本领域普通技术人员可以理解的是,所述故障检测模块720和730能以本领域内技术人员所熟知的任何一种或多种合适的编程语言实现。在一些实施例中,一个系统仅包括故障检测模块720和730两者之一。
57.尽管本文中已经公开特定的优选实施例和方法,但是,从上述公开对这些实施例和方法做出变型及修改而不脱离本发明的精神及范围,对本领域技术人员将是显而易见的。意图是本发明仅限于所附权利要求以及适用法律的规则和原则所要求的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1