一种LDPDown故障定位方法及装置与流程

文档序号:40824885发布日期:2025-02-06 17:00阅读:7来源:国知局
一种LDP Down故障定位方法及装置与流程

本发明涉及ldp down故障定位领域,尤其是一种ldp down故障定位方法及装置。


背景技术:

1、ldp(label distribution protocol)是一种在多协议标签交换(mpls)网络中用于分发标签的协议。ldp down故障指的是ldp会话丢失或无法建立,导致标签交换路径(label switched path,lsp)中断,进而影响网络的正常运行。由于是协议层面的故障,定位复杂。运维人员需要花费很长时间人工去判断定位故障所在,导致问题长时间卡顿,对客户造成不良影响。

2、目前,运维人员需要根据专业知识,使用各种协议、命令进行故障分析,需要花费很长时间人工去判断ldp down故障原因,一方面经验要求高,需要具备深厚的专业知识和丰富的经验,另一方面即便有经验,但是对于路由故障定位这种复杂问题,在实操时也可能会有遗漏,费时费力,故障处理及时率较低,维护人员压力较大。因此,需要将这种过程标准化、流程化和自动化。


技术实现思路

1、针对上述情况,本发明提供一种ldp down故障定位方法及装置,通过对出现ldpdown故障网元进行告警采集分析、协议状态采集分析,并针对故障网元发起测试,定位ldpdown故障原因,减轻网络运维人员工作压力,提升运维效率。

2、为实现上述目的,本发明采用下述技术方案:

3、在本发明一实施例中,提出了一种ldp down故障定位方法,该方法包括:

4、加载网络告警数据,当设备网元出现端口down告警,且连续出现ldp down告警时,判断是设备端口down引起的ldp协议down;

5、检查建立ldp会话的接口是否被shutdown,若接口被shutdown,则在接口上undoshutdown,并检测ldp down是否恢复;

6、若接口未被shutdown,则检查是否执行了取消mpls相关配置的命令,若执行了取消mpls相关配置的命令,则执行相应的配置命令恢复被取消的配置,并检测ldp down是否恢复;

7、若未执行取消mpls相关配置的命令,则检查到达ldp会话对端的路由是否存在,若路由不存在,则对igp路由问题进行处理,并检测ldp down是否恢复;

8、若路由存在,则检查ldp hello-hold定时器是否超时,若ldp hello-hold定时器超时,则检查板卡状态、子板卡状态及设备cpu当前的利用率,若检查存在异常,对异常进行处理,并检测ldp down是否恢复;

9、若ldp hello-hold定时器未超时,则检查ldp keepalive-hold定时器是否超时,若ldp keepalive-hold定时器超时,则对ldp会话两端的设备网元进行ping测,若ping测不通,对ping不同问题进行处理,并检测ldp down是否恢复;若ldp keepalive-hold定时器未超时,则转人工处理。

10、进一步地,检查ldp hello-hold定时器是否超时,包括:

11、查看ldp会话两端收发的hello消息的计数;

12、若连续发现发送或接受的计数没有变化,则表示hello消息收发异常,ldp hello-hold定时器超时。

13、进一步地,若ldp hello-hold定时器超时,则查看板卡状态,若status列有板卡为abnormal,且slot列的槽位号与直连的板卡槽位号相同,则判断异常;查看子板卡状态,若logic_down列或者init_result列为非success,则表示该子板卡状态异常;查看设备cpu当前的利用率,若利用率超过系统阈值,则判断原因:cpu利用率异常;根据查询板卡内应用模块cpu利用率,找到cpu利用率高的模块,若利用率超过系统阈值,则判断原因:cpu利用率异常。

14、进一步地,检查ldp keepalive-hold定时器是否超时,包括:

15、查看ldp会话两端收发的keepalive消息的计数;

16、若连续发现发送或接收的计数没有变化,则表示keepalive消息收发异常,ldpkeepalive-hold定时器超时。

17、在本发明一实施例中,还提出了一种ldp down故障定位装置,该装置包括:

18、告警采集分析模块,用于加载网络告警数据,当设备网元出现端口down告警,且连续出现ldp down告警时,判断是设备端口down引起的ldp协议down;

19、协议状态采集分析模块,用于检查建立ldp会话的接口是否被shutdown,若接口被shutdown,则在接口上undo shutdown,并检测ldp down是否恢复;若接口未被shutdown,则检查是否执行了取消mpls相关配置的命令,若执行了取消mpls相关配置的命令,则执行相应的配置命令恢复被取消的配置,并检测ldp down是否恢复;若未执行取消mpls相关配置的命令,则检查到达ldp会话对端的路由是否存在,若路由不存在,则对igp路由问题进行处理,并检测ldp down是否恢复;若路由存在,则检查ldp hello-hold定时器是否超时,若ldphello-hold定时器超时,则检查板卡状态、子板卡状态及设备cpu当前的利用率,若检查存在异常,对异常进行处理,并检测ldp down是否恢复;若ldp hello-hold定时器未超时,则检查ldp keepalive-hold定时器是否超时,若ldp keepalive-hold定时器超时,则对ldp会话两端的设备网元进行ping测,若ping测不通,对ping不同问题进行处理,并检测ldp down是否恢复;若ldp keepalive-hold定时器未超时,则转人工处理。

20、进一步地,检查ldp hello-hold定时器是否超时,包括:

21、查看ldp会话两端收发的hello消息的计数;

22、若连续发现发送或接受的计数没有变化,则表示hello消息收发异常,ldp hello-hold定时器超时。

23、进一步地,若ldp hello-hold定时器超时,则查看板卡状态,若status列有板卡为abnormal,且slot列的槽位号与直连的板卡槽位号相同,则判断异常;查看子板卡状态,若logic_down列或者init_result列为非success,则表示该子板卡状态异常;查看设备cpu当前的利用率,若利用率超过系统阈值,则判断原因:cpu利用率异常;根据查询板卡内应用模块cpu利用率,找到cpu利用率高的模块,若利用率超过系统阈值,则判断原因:cpu利用率异常。

24、进一步地,检查ldp keepalive-hold定时器是否超时,包括:

25、查看ldp会话两端收发的keepalive消息的计数;

26、若连续发现发送或接收的计数没有变化,则表示keepalive消息收发异常,ldpkeepalive-hold定时器超时。

27、在本发明一实施例中,还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述ldp down故障定位方法。

28、在本发明一实施例中,还提出了一种计算机可读存储介质,计算机可读存储介质存储有执行ldp down故障定位方法的计算机程序。

29、有益效果:

30、1、本发明附着专家能力,结合告警信息、网络协议及测试命令自动进行ldp down的故障诊断,对检查结果数据进行实时分析处理,保证其时效性。

31、2、本发明对ldp down的故障进行流程化的处理分析,帮助网络运维人员快速定位业务故障所在,减轻其工作压力。

32、3、本发明的故障定位过程标准化、自动化,运维人员即便不熟悉网络、不熟悉路由,也可以完成故障定位,减少人为误查和漏查的可能性,提高故障诊断的准确性,提升故障定位的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1