一种高性能的广域网网元集群监控数据采集方法以及装置与流程

文档序号:37633714发布日期:2024-04-18 17:48阅读:28来源:国知局
一种高性能的广域网网元集群监控数据采集方法以及装置与流程

本发明涉及sdwan监控数据采集,尤其是涉及一种高性能的广域网网元集群监控数据采集方法以及装置。


背景技术:

1、随着云计算技术的不断成熟,尤其是广域网技术的日益普及,客户通过不同资源池公共的网元设备集群建立私有网络连接。对于客户入云、互联等常见的网络场景中,客户非常关心底层网络的实时性能状况,比如客户出/入方向网卡、虚拟接口的业务流量速率、实时丢包率、时延、抖动等监控数据,客户需要底层监控数据对自己的网络性能进行监控告警、性能观测和网络质量展示;

2、目前常见的监控数据采集方案,是使用zabbix、普罗米修斯等主流的监控采集程序根据预先配置不同的监控项,在宿主机上进行采集数据运算之后,向服务端传送带有时间戳的采集数据结构,这种技术比较成熟,在传统单机模式下,满足绝大多数的可续需求场景;

3、但是在广域网场景下,尤其是多az基础设施下,网元设备往往都是运行在集群模式下,因此监控服务也要求把集群中所有单机服务器监控数据进行聚合处理,传统的监控业务不支持集群采集模式,需要在监控服务端做额外的聚合运算开发,但是由于不同服务器的采集起始时间不同、实时负载波动导致的监控间隔不同步等因素,从而会导致聚合数据上有一定难度,难以实现基于集群的数据采集。此外,传统的监控服务都是基于单台服务器的单个监控指标进行告警处理,无法基于集群聚合数据进行告警通知。

4、上述中的现有技术方案存在以下缺陷:

5、1、传统的监控服务只能针对单一服务器进行监控告警;

6、2、集群内不同服务器之间难以实现采集同步;

7、3、由于网络波动、服务器性能波动、单机服务器故障等异常因素,会导致上报集群数据的聚合具有一定的难度。


技术实现思路

1、本发明的目的是提供一种高性能的广域网网元集群监控数据采集方法以及装置。

2、为实现上述目的,本发明提供了如下技术方案:

3、一种高性能的广域网网元集群监控数据采集方法,包括以下步骤:

4、步骤1:与局域网内的时间服务器进行时钟同步,保障时间统一;

5、步骤2:单机监控数据根据监控指标配置,初始化数据采样时间周期和起始时间,数据采样起始时间点为:小时为每小时,秒为0秒,分钟为60%间隔*n,并设置可以容忍的波动范围;

6、步骤3:按照步骤2中计划的数据采集时间点,进行采集运算,将带有时间戳、主机信息、采样指标、采样数据等信息的数据结构传递给数据上报模块;

7、步骤4:上报监控数据给集群数据归集装置;

8、步骤5:集群数据归集装置根据业务id、主机id、客户id生成该客户此监控项唯一的datakey;

9、步骤6:步骤5中异步任务触发之前,如果接收到单机监控数据采集装置上报的该指标的数据,会被数据归集装置写入该数据key中;

10、步骤7:步骤5中的异步任务触发后,查询datakey,如果发现数据队列未满,说明有单机节点发生掉点,或者由于异常原因无法上报监控数据,忽略该单机数据,跳到步骤8;

11、步骤8:集群数据归集装置将datakey中的所有数据根据需求进行聚合处理,运算为一个数据点data,并删除该队列数据中的数据,标记datakey为不可用,跳到步骤9;

12、步骤9:调用监控告警远端服务的数据上报接口,将步骤7中的数据data上报给监控远端服务,此处可以对接zabbix、普罗米修等监控服务,从而完成整个上报过程;

13、步骤10:异常的单机数据上报之后,集群数据归集装置会根据时间戳判定为不符合新周期,从而被判定为丢弃。

14、作为本发明所述一种高性能的广域网网元集群监控数据采集方法的一种优选方案,其中,所述步骤3中按照步骤2中计划的数据采集时间点,进行采集运算,将带有时间戳、主机信息、采样指标、采样数据等信息的数据结构传递给数据上报模块,具体还包括有:

15、如果由于时间启动长、脚本运行时间等干扰问题,导致下一次运行间隔,不符合步骤2中计算的上报时间点,则sleep进行调整,保证按照步骤2中的计划时间进行数据上报。

16、作为本发明所述一种高性能的广域网网元集群监控数据采集方法的一种优选方案,其中,所述步骤4中上报监控数据给集群数据归集装置,具体还包括:

17、数据上报模块通过socket套接字与集群数据归集装置建立tcp长连接,将数据上报给集群数据归集装置,后者将数据缓存在分布式数据缓存中。上报数据包括如下数据结构:(时间戳、监控项id、主机id、客户id、监控业务id、上报数据)。

18、作为本发明所述一种高性能的广域网网元集群监控数据采集方法的一种优选方案,其中,所述步骤5中集群数据归集装置根据业务id、主机id、客户id生成该客户此监控项唯一的,具体还包括:

19、如果该datakey不可用,则根据步骤2中的告警指标配置数据进行周期计算,如果上报数据时间戳符合新周期,则设置datakey为可用,并在队列中写入数据。同时生成异步任务,预置触发时间为当前时间加上该生命周期时长。

20、jobtime=currenttime0+keytimeout

21、如果上报数据时间戳不符合新周期,依旧再旧周期内,说明是迟到的异常单机监控数据,则直接丢弃。

22、作为本发明所述一种高性能的广域网网元集群监控数据采集方法的一种优选方案,其中,所述步骤6中在步骤5中异步任务触发之前,如果接收到单机监控数据采集装置上报的该指标的数据,会被数据归集装置写入该数据key中,具体还包括有:

23、写入过程中,如果发现该数据队列中写满所有的单机监控数据采集装置的主机id,则跳到步骤8,如果发现队列没有写满,则继续等待其他单机节点上报数据。

24、一种高性能的广域网网元集群监控数据采集装置,包括有:

25、单机监控数据采集装置,所述单机监控数据采集装置,区别于传统的监控采集服务,主要实现集群服务器间上报数据同步,从而为实现集群数据采集做好单机数据采集准备;

26、集群数据归集装置,分布式数据缓存装置和监控告警远端服务。

27、作为本发明所述一种高性能的广域网网元集群监控数据采集装置的一种优选方案,其中,所述单机监控数据采集装置包括有配置模块、时钟同步模块、数据采集模块、策略模块和数据上报模块,实现步骤具体如下:

28、步骤a:时钟同步模块负责与时钟服务器进行时间同步,只有保障该集群内所有服务器时间同步,才能保障采样数据步调一致;

29、步骤b:首先通过配置模块读取监控指标配置数据加载入内存中,根据监控配置信息进行数据初始化,如初始监控间隔、确定监控采样时间点等信息。

30、作为本发明所述一种高性能的广域网网元集群监控数据采集装置的一种优选方案,其中,所述单机监控数据采集装置包括有配置模块、时钟同步模块、数据采集模块、策略模块和数据上报模块,实现步骤具体还包括有:

31、步骤c:数据采集模块根据监控指标配置信息,调整采样起点时间,通过计算之后在符合要求的时间点,将带有时间戳、主机信息、采样指标、采样数据等信息的数据结构传递给数据上报模块;

32、步骤d:数据上报模块与集群数据归集装置建立tcp长连接,通过socket套接字将数据上报给集群数据归集装置,将数据缓存在分布式数据缓存中。

33、作为本发明所述一种高性能的广域网网元集群监控数据采集装置的一种优选方案,其中,所述分布式数据缓存装置,具体包括有:

34、数据节点之间能够保障数据一致性,单节点故障依然可以提供分布式集群的数据访问;

35、分布式缓存装置与网元设备能够通过局域网进行网络通信,能够提供大规模数据的快速写读。

36、作为本发明所述一种高性能的广域网网元集群监控数据采集装置的一种优选方案,其中,所述集群数据归集装置,实现步骤具体如下:

37、s1:将据单机监控数据采集装置上报的数据写入到分布式缓存中,并设置任务数据采集时间过期时间戳;

38、s2:发布异步任务于s1中设置的过期时间点去执行计算任务,消费分布式缓存队列中的数据,并进行聚合运算,之后上报给监控告警远端服务,之后删除分布式任务中的数据key。

39、综上,本发明的有益技术效果为:

40、1.本发明可以满足客户查询租户网络真实的实时数据的需求,传统广域网业务无法向客户提供集群级别的监控数据,因为传统的监控技术只能针对单一的服务器进行采集数据,但是广域网业务底层数据层面都在运行在集群模式下的,集群内所有单机服务器的数据进行聚合后的数据才为真实的监控数据。

41、2.本发明通过一个高性能的广域网网元集群监控数据采集方法以及装置可以把分布在各个网元设备中的数据实时进行聚合上报,突破性的完成了广域网元集群监控的问题。

42、3.本发明通过时间同步的方法策略,根据监控指标预配置数据,来规定单机和集群约定判定合法上报时间戳,从而解决集群模式下多单子,上报数据时间不同步的难题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1