一种时延周期性越限的告警处理方法与流程

文档序号:29931498发布日期:2022-05-07 12:53阅读:290来源:国知局
一种时延周期性越限的告警处理方法与流程

1.本发明涉及到网络运维和流量管控领域,尤其涉及一种时延周期性越限的告警处理方法。


背景技术:

2.随着业务多样化、业务融合化、网络开放化、终端智能化的融合发展,网络覆盖领域急剧拓展,新的应用大量涌现,网络流量激增,对多样化应用和重要业务的细粒度资源尚未达到;此外,目前网络中部署的流量监测和探测设备还只能针对单个节点和局部信息,从网络中获取的信息也相对孤立,对链路沿途多点信息的关联分析和综合呈现还很欠缺,无法实现流量的全程全域监测,在网络故障的快速定位、网络运行状态的综合评定等方面还都无法提供全面实时的数据基础;同时,各类网络监测手段独立建设,未形成合力。
3.在现有的ip网络通信中,经常会遇到丢包的情况,直观的表现形式就是视频图像中出现“马赛克”,甚至是视频画面停止,通过添加设备、增加网络带宽等方法就可以解决丢包问题。有些重要业务网,为了保密的需要,会在路由器后端部署保密机,这样网络传输的所有数据包均为加密数据。在这种情况下,一旦出现丢包,就很难定位丢包位置。了保密的需要在路由器后端部署保密机,在网络中传输加密后的数据包,导致难以进行常规的流量监测;一旦发生丢包,如图像出现“马赛克”时,很难精确定位丢包位置。因此亟需解决加密后的流量信息的丢包监测问题。
4.均匀发包是网络探针的一项重要功能之一,当网速升级到万兆后,相应地发包功能也需要提升到万兆,必须达到线速。原有软件发包的方式需要升级为硬件发包,因此提出了硬件流量生成的方法。如何对硬件发出的流量数据包进行检测是一个问题,不能直接采用自己的探针抓包来进行验证,可以设计一种第三方仪器仪表检验的方案。高精度数据采集卡每发送100个数据包输出一个电平信号,与上一次输出的极性相反,即观察到一次完整的方波信号,表示发送了200个数据包。通过测量这个方波的频率就能得到流量发送包频,查看数据记录趋势图可以验证发送的均匀程度。
5.随着网络的融合发展,网络覆盖领域急剧拓展,新的应用大量涌现,网络流量激增,网络传输带宽也由百/千兆扩容到万兆,而目前对网络流量的监测能力只限于千兆以下,对大带宽传输环节的流量监测还处于空白;此外,目前网络中部署的监测设备还只能针对单个节点和局部信息,从网络中获取的信息也相对孤立,对链路沿途多点信息的关联分析和综合呈现还很欠缺,无法实现流量的全程全域监测,在网络故障的快速定位、网络运行状态的综合评定等方面无法提供全面实时的数据基础;同时,流量监测方面还没有形成统一的、适合航天业务网应用特点的规范,各类网络监测手段独立建设,未形成合力。因此对大带宽全域流量感知监测技术的研究和网络流量监测规范的制定迫在眉睫。


技术实现要素:

6.本发明所要解决的技术问题是针对时延周期性的超限,时延超过正常值并没有影
响业务工作,而问题又很难查找定位的问题,提出一种时延周期性越限的告警处理方法。
7.本发明所采用的技术方案为:
8.一种时延周期性越限的告警处理方法,包括以下步骤:
9.s1:在业务网中部署网络探针监测网络流量,并观察测试流的时延越限告警事件是否有周期性,持续设定时间后时延自动恢复正常,如果是,则转入步骤s2;
10.s2:记录时延越限告警事件出现的时间点和间隔周期,形成故障事件报告表;
11.s3:判断时延超限告警事件出现的时间点是否为设定的工作时间范围,如果是,则判定为正常工作时间范围,转入步骤s4;否则转入步骤s5;
12.s4:根据测试流包含的源ip地址,确定测试流的发送设备,并查看该设备与其他设备之间的关联关系;如果其他关联设备发送的测试流也发生了时延越限告警,则判定发生时延越限告警的关联设备均发生故障;如果其他关联设备未发生时延越限告警,仅测试流的发送设备发生告警,则判定设备在正常执行任务过程中产生了时延越限,且周期性重复,转入步骤s6;
13.s5:根据测试流包含的源ip地址,确定测试流的发送设备,全程记录设备上的进程运行情况,连续记录设定时间段,形成事件和进程运行清单,按照清单中的时间先后次序排列,如果某个进程有规律地出现启动和运行,且一段时间后关闭退出,并且运行时间段与事件的持续时间相关,则判定该进程为怀疑对象;转入步骤s6;
14.s6:基于人工经验查找时延超限告警原因,排除故障;
15.完成时延周期性越限的告警分析处理。
16.本发明相对于现有技术的优点和创新点如下:
17.1、当发现时延越限告警后,定位时间点和间隔周期,查找发送源,基于发送源监视进程运行清单,找到告警前后时间段启动运行停止的进程,基于时间进程匹配相关设备,确保告警定位的准确性;
18.2、本发明首次将真正的时延越限故障与规定时间内正常工作运行且占用大部分进程的软件造成的时延越限,对于多种常态化应用场景的流量越限告警排查和定位具有强有力的支撑作用;
附图说明
19.图1是本发明的设计流程图;
具体实施方式
20.下面结合图1,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
21.一种时延周期性越限的告警处理方法,包括以下步骤:
22.s1:在业务网中部署网络探针监测网络流量,并观察测试流的时延越限告警事件是否有周期性,持续设定时间后时延自动恢复正常,如果是,则转入步骤s2;
23.s2:记录时延越限告警事件出现的时间点和间隔周期,形成故障事件报告表;
24.s3:判断时延超限告警事件出现的时间点是否为设定的工作时间范围,如果是,则判定为正常工作时间范围,转入步骤s4;否则转入步骤s5;
25.s4:根据测试流包含的源ip地址,确定测试流的发送设备,并查看该设备与其他设备之间的关联关系;如果其他关联设备发送的测试流也发生了时延越限告警,则判定发生时延越限告警的关联设备均发生故障;如果其他关联设备未发生时延越限告警,仅测试流的发送设备发生告警,则判定设备在正常执行任务过程中产生了时延越限,且周期性重复,转入步骤s6;
26.s5:根据测试流包含的源ip地址,确定测试流的发送设备,全程记录设备上的进程运行情况,连续记录设定时间段,形成事件和进程运行清单,按照清单中的时间先后次序排列,如果某个进程有规律地出现启动和运行,且一段时间后关闭退出,并且运行时间段与事件的持续时间相关,则判定该进程为怀疑对象;转入步骤s6;
27.s6:基于人工经验查找时延超限告警原因,排除故障;
28.在新疆某单位有一台业务处理机,向北京中心发送业务信息。平时工作正常,但是每天晚上24时左右出现时延偏大直至超限,该时延超限告警持续几分钟至十几分钟不等,然后又恢复正常。该单位反复查找故障原因,未发现设备运行故障。该单位没有部署网络探针,无法采集该设备的网络数据包,但在北京中心部署了网络探针,可以捕获目的地址的数据包,从而发现时延超限。根据故障特点分析,初步判断是某个应用干扰了正常的业务工作,进一步跟踪监测,发现是病毒检测软件,设置24小时进行的全盘查杀病毒,由于病毒监测软件频繁读取磁盘文件,影响了网络通信,从而造成时延超限;病毒查杀结束后,病毒检测软件进入休眠,通信恢复正常。由于病毒查杀操作在操作系统的后台运行,比较隐秘,因此一直未发现。修改病毒检测策略后,时延恢复正常。
29.完成时延周期性越限的告警分析处理。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1