本发明涉及ldp down故障定位领域,尤其是一种ldp down故障定位方法及装置。
背景技术:
1、ldp(label distribution protocol)是一种在多协议标签交换(mpls)网络中用于分发标签的协议。ldp down故障指的是ldp会话丢失或无法建立,导致标签交换路径(label switched path,lsp)中断,进而影响网络的正常运行。由于是协议层面的故障,定位复杂。运维人员需要花费很长时间人工去判断定位故障所在,导致问题长时间卡顿,对客户造成不良影响。
2、目前,运维人员需要根据专业知识,使用各种协议、命令进行故障分析,需要花费很长时间人工去判断ldp down故障原因,一方面经验要求高,需要具备深厚的专业知识和丰富的经验,另一方面即便有经验,但是对于路由故障定位这种复杂问题,在实操时也可能会有遗漏,费时费力,故障处理及时率较低,维护人员压力较大。因此,需要将这种过程标准化、流程化和自动化。
技术实现思路
1、针对上述情况,本发明提供一种ldp down故障定位方法及装置,通过对出现ldpdown故障网元进行告警采集分析、协议状态采集分析,并针对故障网元发起测试,定位ldpdown故障原因,减轻网络运维人员工作压力,提升运维效率。
2、为实现上述目的,本发明采用下述技术方案:
3、在本发明一实施例中,提出了一种ldp down故障定位方法,该方法包括:
4、加载网络告警数据,当设备网元出现端口down告警,且连续出现ldp down告警时,判断是设备端口down引起的ldp协议down;
5、检查建立ldp会话的接口是否被shutdown,若接口被shutdown,则在接口上undoshutdown,并检测ldp down是否恢复;
6、若接口未被shutdown,则检查是否执行了取消mpls相关配置的命令,若执行了取消mpls相关配置的命令,则执行相应的配置命令恢复被取消的配置,并检测ldp down是否恢复;
7、若未执行取消mpls相关配置的命令,则检查到达ldp会话对端的路由是否存在,若路由不存在,则对igp路由问题进行处理,并检测ldp down是否恢复;
8、若路由存在,则检查ldp hello-hold定时器是否超时,若ldp hello-hold定时器超时,则检查板卡状态、子板卡状态及设备cpu当前的利用率,若检查存在异常,对异常进行处理,并检测ldp down是否恢复;
9、若ldp hello-hold定时器未超时,则检查ldp keepalive-hold定时器是否超时,若ldp keepalive-hold定时器超时,则对ldp会话两端的设备网元进行ping测,若ping测不通,对ping不同问题进行处理,并检测ldp down是否恢复;若ldp keepalive-hold定时器未超时,则转人工处理。
10、进一步地,检查ldp hello-hold定时器是否超时,包括:
11、查看ldp会话两端收发的hello消息的计数;
12、若连续发现发送或接受的计数没有变化,则表示hello消息收发异常,ldp hello-hold定时器超时。
13、进一步地,若ldp hello-hold定时器超时,则查看板卡状态,若status列有板卡为abnormal,且slot列的槽位号与直连的板卡槽位号相同,则判断异常;查看子板卡状态,若logic_down列或者init_result列为非success,则表示该子板卡状态异常;查看设备cpu当前的利用率,若利用率超过系统阈值,则判断原因:cpu利用率异常;根据查询板卡内应用模块cpu利用率,找到cpu利用率高的模块,若利用率超过系统阈值,则判断原因:cpu利用率异常。
14、进一步地,检查ldp keepalive-hold定时器是否超时,包括:
15、查看ldp会话两端收发的keepalive消息的计数;
16、若连续发现发送或接收的计数没有变化,则表示keepalive消息收发异常,ldpkeepalive-hold定时器超时。
17、在本发明一实施例中,还提出了一种ldp down故障定位装置,该装置包括:
18、告警采集分析模块,用于加载网络告警数据,当设备网元出现端口down告警,且连续出现ldp down告警时,判断是设备端口down引起的ldp协议down;
19、协议状态采集分析模块,用于检查建立ldp会话的接口是否被shutdown,若接口被shutdown,则在接口上undo shutdown,并检测ldp down是否恢复;若接口未被shutdown,则检查是否执行了取消mpls相关配置的命令,若执行了取消mpls相关配置的命令,则执行相应的配置命令恢复被取消的配置,并检测ldp down是否恢复;若未执行取消mpls相关配置的命令,则检查到达ldp会话对端的路由是否存在,若路由不存在,则对igp路由问题进行处理,并检测ldp down是否恢复;若路由存在,则检查ldp hello-hold定时器是否超时,若ldphello-hold定时器超时,则检查板卡状态、子板卡状态及设备cpu当前的利用率,若检查存在异常,对异常进行处理,并检测ldp down是否恢复;若ldp hello-hold定时器未超时,则检查ldp keepalive-hold定时器是否超时,若ldp keepalive-hold定时器超时,则对ldp会话两端的设备网元进行ping测,若ping测不通,对ping不同问题进行处理,并检测ldp down是否恢复;若ldp keepalive-hold定时器未超时,则转人工处理。
20、进一步地,检查ldp hello-hold定时器是否超时,包括:
21、查看ldp会话两端收发的hello消息的计数;
22、若连续发现发送或接受的计数没有变化,则表示hello消息收发异常,ldp hello-hold定时器超时。
23、进一步地,若ldp hello-hold定时器超时,则查看板卡状态,若status列有板卡为abnormal,且slot列的槽位号与直连的板卡槽位号相同,则判断异常;查看子板卡状态,若logic_down列或者init_result列为非success,则表示该子板卡状态异常;查看设备cpu当前的利用率,若利用率超过系统阈值,则判断原因:cpu利用率异常;根据查询板卡内应用模块cpu利用率,找到cpu利用率高的模块,若利用率超过系统阈值,则判断原因:cpu利用率异常。
24、进一步地,检查ldp keepalive-hold定时器是否超时,包括:
25、查看ldp会话两端收发的keepalive消息的计数;
26、若连续发现发送或接收的计数没有变化,则表示keepalive消息收发异常,ldpkeepalive-hold定时器超时。
27、在本发明一实施例中,还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述ldp down故障定位方法。
28、在本发明一实施例中,还提出了一种计算机可读存储介质,计算机可读存储介质存储有执行ldp down故障定位方法的计算机程序。
29、有益效果:
30、1、本发明附着专家能力,结合告警信息、网络协议及测试命令自动进行ldp down的故障诊断,对检查结果数据进行实时分析处理,保证其时效性。
31、2、本发明对ldp down的故障进行流程化的处理分析,帮助网络运维人员快速定位业务故障所在,减轻其工作压力。
32、3、本发明的故障定位过程标准化、自动化,运维人员即便不熟悉网络、不熟悉路由,也可以完成故障定位,减少人为误查和漏查的可能性,提高故障诊断的准确性,提升故障定位的效率。