故障根因定位方法及装置与流程

文档序号:34120788发布日期:2023-05-11 04:07阅读:55来源:国知局
故障根因定位方法及装置与流程

本技术涉及运维,特别涉及一种故障根因定位方法及装置。


背景技术:

1、服务集群用于实现用户的业务,为用户提供服务。服务集群包括多个服务节点。并且,服务集群的规模通常很大,不同的服务节点之间可能会跨越多个服务节点。在现网运维过程中,如果链路中的某一设备出现故障,就需要耗费大量时间和人力才能定位到导致出现故障的故障根因。并且,若定位故障根因耗费的时间过长,还可能导致客户的受损面扩大。

2、目前,在服务节点之间的链路出现故障时,管理节点会发出告警信息,并在告警信息中指示该链路中的源服务节点和目的服务节点。然后再由运维人员逐个排查源服务节点和目的服务节点连接的网络设备,以确定故障根因。

3、但是,该定位故障根因的方式定位故障根因的效率很低。


技术实现思路

1、本技术提供了一种故障根因定位方法及装置。本技术提高了对故障根因进行定位的效率,降低了因故障对服务产生影响的概率。本技术提供的技术方案如下:

2、第一方面,本技术提供了一种故障根因定位方法。该方法应用于对服务集群进行管理的管理节点,服务集群包括多个服务节点,服务节点用于实现用户业务。该方法包括:获取多个服务节点的组网信息;在服务集群出现故障时,获取多个服务节点之间链路的链路状态;基于链路状态和组网信息进行汇聚分析,确定故障根因。

3、在本技术提供的故障根因定位方法中,通过基于链路状态和组网信息进行汇聚分析,能够在全局范围内自动地进行故障根因定位,能够快速定位到故障根因,提高了对故障根因进行定位的效率,降低了因故障对服务产生影响的概率。

4、在一种实现方式中,多个服务节点均通过位于接入层的接入网络设备接入网络。则基于链路状态和组网信息进行汇聚分析,确定故障根因,包括:当无法获取目标服务节点与其它服务节点之间链路的链路状态,或者,来自其它服务节点的链路状态指示与目标服务节点断链时,确定目标服务节点为候选故障根因;基于组网信息,获取目标服务节点连接的第一接入网络设备,及第一接入网络设备连接的第一服务节点,第一服务节点为第一接入网络设备连接的除目标服务节点外的服务节点;当链路状态指示第一服务节点包括正常节点时,确定目标服务节点为故障根因。

5、并且,接入网络设备通过位于汇聚层的汇聚网络设备接入网络。则基于链路状态和组网信息进行汇聚分析,确定故障根因,还包括:当链路状态指示第一服务节点均为候选故障根因时,基于组网信息,获取第一接入网络设备连接的第一汇聚网络设备,及第一汇聚网络设备连接的其它接入网设备连接的第二服务节点,第二服务节点为第一汇聚网络设备连接的除目标服务节点外的服务节点;当链路状态指示第二服务节点包括正常节点时,确定第一接入网络设备为故障根因。

6、进一步的,汇聚网络设备通过位于核心层的核心网络设备接入网络。则基于链路状态和组网信息进行汇聚分析,确定故障根因,还包括:当链路状态指示第二服务节点均为候选故障根因时,基于组网信息,获取第一汇聚网络设备连接的第一核心网络设备,及第一核心网络设备连接的其它汇聚网络设备连接的第三服务节点,第三服务节点为第一核心网络设备连接的除目标服务节点外的服务节点;当链路状态指示第三服务节点包括正常节点时,确定第一汇聚网络设备为故障根因。

7、否则,基于链路状态和组网信息进行汇聚分析,确定故障根因,还包括:当链路状态指示第三服务节点均为候选故障根因时,确定第一核心网络设备为故障根因。

8、可选的,服务节点可以检测与其连接的服务节点之间链路的链路状态,并向管理节点发送该链路状态。则获取多个服务节点之间链路的链路状态,包括:接收每个服务节点提供的服务节点与其它服务节点之间链路的链路状态。

9、在一种实现方式中,管理节点在获取多个服务节点之间链路的链路状态之前,管理节点还可以先在服务集群中选择具有代表性的服务节点,使得服务集群中的服务节点获取自身与每个具有代表性的服务节点之间链路的链路状态。则该方法还可以包括:管理节点在多个服务节点中确定多个待测服务节点,并向每个服务节点提供多个待测服务节点的信息,使得每个服务节点获取服务节点与每个待测服务节点之间链路的链路状态。相应的,管理节点接收每个服务节点提供的服务节点与其它服务节点之间链路的链路状态,包括:管理节点接收每个服务节点提供的服务节点与每个待测服务节点之间链路的链路状态。

10、通过管理节点在服务集群中选择待测服务节点,使得服务集群中的服务节点获取自身与每个待测服务节点之间链路的链路状态,这样无需服务节点获取该服务节点与服务集群中每个其它服务节点之间链路的链路状态,能够减小因获取链路状态产生的消耗,降低服务集群出现网络风暴的概率,并降低因获取链路状态对服务集群性能的影响,这种效果在服务集群规模较大时表现尤其明显。

11、可选的,服务集群中所有待测服务节点的整体网络范围可以覆盖服务集群的网络范围。其中,网络范围为通过网络能够达到的传输范围。这样一来,所有待测服务节点的整体网络范围就覆盖到服务集群使用的网络的所有机柜和所有网段,这样能够保证获取的链路信息的全面性,保证故障根因定位的准确定。

12、在一种实现方式中,链路状态通过以下一个或多个反映:链路的连通状态和传输时延。链路的连通状态用于指示链路是通的还是断的。当链路的连通状态指示链路是断的时,服务节点之间无法利用该链路传输数据。传输时延能够反映链路的状态,当传输时延过大(如超过预期的传输时延阈值)时,有可能是链路是断的,也有可能是链路虽然连通但状态较差。此时若服务节点采用该链路传输数据,无法满足服务节点的服务时效,也会导致服务集群出现故障,因此能够通过链路的传输时延反映链路状态。

13、第二方面,本技术提供了一种故障根因定位装置。该装置应用于对服务集群进行管理的管理节点,服务集群包括多个服务节点,服务节点用于实现用户业务。该装置包括:获取模块,用于获取多个服务节点的组网信息;获取模块,还用于在服务集群出现故障时,获取多个服务节点之间链路的链路状态;处理模块,用于基于链路状态和组网信息进行汇聚分析,确定故障根因。

14、可选的,多个服务节点均通过位于接入层的接入网络设备接入网络。则处理模块,具体用于:当无法获取目标服务节点与其它服务节点之间链路的链路状态,或者,来自其它服务节点的链路状态指示与目标服务节点断链时,确定目标服务节点为候选故障根因;基于组网信息,获取目标服务节点连接的第一接入网络设备,及第一接入网络设备连接的第一服务节点,第一服务节点为第一接入网络设备连接的除目标服务节点外的服务节点;当链路状态指示第一服务节点包括正常节点时,确定目标服务节点为故障根因。

15、可选的,接入网络设备通过位于汇聚层的汇聚网络设备接入网络。则处理模块,具体用于:当链路状态指示第一服务节点均为候选故障根因时,基于组网信息,获取第一接入网络设备连接的第一汇聚网络设备,及第一汇聚网络设备连接的其它接入网设备连接的第二服务节点,第二服务节点为第一汇聚网络设备连接的除目标服务节点外的服务节点;当链路状态指示第二服务节点包括正常节点时,确定第一接入网络设备为故障根因。

16、可选的,汇聚网络设备通过位于核心层的核心网络设备接入网络。则处理模块,具体用于:当链路状态指示第二服务节点均为候选故障根因时,基于组网信息,获取第一汇聚网络设备连接的第一核心网络设备,及第一核心网络设备连接的其它汇聚网络设备连接的第三服务节点,第三服务节点为第一核心网络设备连接的除目标服务节点外的服务节点;当链路状态指示第三服务节点包括正常节点时,确定第一汇聚网络设备为故障根因。

17、或者,当链路状态指示第三服务节点均为候选故障根因时,确定第一核心网络设备为故障根因。

18、可选的,获取模块,具体用于:接收每个服务节点提供的服务节点与其它服务节点之间链路的链路状态。

19、可选的,获取模块,具体用于:在多个服务节点中确定多个待测服务节点;向每个服务节点提供多个待测服务节点的信息,使得每个服务节点获取服务节点与每个待测服务节点之间链路的链路状态;接收每个服务节点提供的服务节点与每个待测服务节点之间链路的链路状态。

20、可选的,多个待测服务节点的网络范围覆盖服务集群的网络范围。

21、可选的,链路状态通过以下一个或多个反映:链路的连通状态和传输时延。

22、第三方面,本技术提供了一种计算设备,包括存储器和处理器,存储器存储有程序指令,处理器运行程序指令以执行本技术第一方面以及其任一种可能的实现方式中提供的方法。

23、第四方面,本技术提供了一种计算机集群,包括至少一个计算设备,每个计算设备包括处理器和存储器,至少一个计算设备的处理器用于执行至少一个计算设备的存储器中存储的指令,以使得计算设备集群执行本技术第一方面以及其任一种可能的实现方式中提供的方法。

24、第五方面,本技术提供了一种计算机可读存储介质,该计算机可读存储介质为非易失性计算机可读存储介质,该计算机可读存储介质包括程序指令,当程序指令在计算设备上运行时,使得计算设备执行本技术第一方面以及其任一种可能的实现方式中提供的方法。

25、第六方面,本技术提供了一种包含指令的计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行本技术第一方面以及其任一种可能的实现方式中提供的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1