一种系统故障预警方法和系统的制作方法
【技术领域】
[0001]本发明涉及计算机软件技术领域,特别是涉及一种系统故障预警方法和一种系统故障预警系统。
【背景技术】
[0002]分布式系统(Distributed System)是建立在网络之上的软件系统。在分布式系统中,特别是大型分布式系统,如Hadoop集群系统,通过预先设置监控阈值,然后,对系统节点服务器进行周期性的监控,当监控指标达到监控阈值时,对系统节点服务器进行故障预警。
[0003]但是,这种系统节点故障预警方式只有在监控指标达到预置阈值时,才能对系统节点服务器进行故障预警。一方面,当系统节点服务器已经存在故障,但监控指标尚未达到监控阈值时,无法对节点服务器故障进行有效的预警,从而影响系统的正常运行,例如,当集群中某个节点服务器的磁盘出现坏道故障时节点服务器的吞吐量将会下降,但未达到预先设置的监控指标,系统则无法发出节点服务器故障预警。另一方面,由于无法通过系统告警快速的发现已发生故障的节点,使得故障节点得不到及时的维护,从而影响系统的稳定运行。
【发明内容】
[0004]本发明实施例所要解决的技术问题是提供一种系统故障预警方法,以对系统中故障节点设备快速、有效的预警。
[0005]相应的,本发明实施例还提供了一种系统故障预警系统,用以保证上述方法的实现及应用。
[0006]为了解决上述问题,本发明公开了一种系统故障预警方法,包括:获取故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型;依据所述告警类型确定所述故障节点设备对应的相关节点设备;对所述相关节点设备进行检测,对检测异常的相关节点设备进行故障预警。
[0007]可选的,在获取故障节点设备的告警信息之前,还包括:将具有相同配置信息的节点设备标注相同类型的标签,其中,所述配置信息包括节点设备的硬件配置信息和网络架构信息;和/或,收集第一时间阈值内发生故障的节点设备的故障信息,依据所述故障信息统计分析所述发生故障的节点设备的关联关系,将具有关联关系的节点设备标注相同类型的标签。
[0008]可选的,依据所述告警类型确定所述故障节点设备对应的相关节点设备,包括:依据所述告警类型确定所述故障节点设备的至少一种标签;针对每种标签,在系统中查找具有所述标签的节点设备,将所述节点设备作为所述故障节点设备对应的相关节点设备。
[0009]可选的,对所述相关节点设备进行检测,包括:针对每一个相关节点设备,分别获取所述相关节点设备的每一种标签对应的性能检测项;分别对所述性能检测项进行检测,确定所述性能检测项的检测值;检测所述检测值是否在所述性能检测项的正常范围内;若任一检测值不在所述性能检测项的正常范围内,则所述相关节点设备异常。
[0010]可选的,对所述相关节点设备进行检测之前,还包括:在第二时间阈值内,检测标签类型相同的故障节点设备的数量是否达到检测阈值;若标签类型相同的故障节点设备的数量达到所述检测阈值,则执行对所述相关节点设备进行检测的步骤。
[0011]可选的,对检测异常的相关节点设备进行故障预警,包括:对检测异常的相关节点设备进行统计,当所述检测异常的相关节点设备的数量达到故障预警阈值时,执行故障预目O
[0012]本发明实施例还公开了一种故障预警系统,包括:告警获取模块,用于获取故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型;相关节点检测模块,用于依据所述告警类型确定所述故障节点设备对应的相关节点设备;预警模块,用于对所述相关节点设备进行检测,对检测异常的相关节点设备进行故障预警。
[0013]可选的,还包括:标签标注模块,用于将具有相同配置信息的节点设备标注相同类型的标签,其中,所述配置信息包括节点设备的硬件配置信息和网络架构信息;和/或,收集第一时间阈值内发生故障的节点设备的故障信息,依据所述故障信息统计分析所述发生故障的节点设备的关联关系,将具有关联关系的节点设备标注相同类型的标签。
[0014]可选的,所述告警获取模块,包括:标签获取子模块,用于依据所述告警类型确定所述故障节点设备的至少一种标签;相关节点查找子模块,用于针对每种标签,在系统中查找具有所述标签的节点设备,将所述节点设备作为所述故障节点设备对应的相关节点设备。
[0015]可选的,所述预警模块,包括:检测项确定子模块,用于针对每一个相关节点设备,分别获取所述相关节点设备的每一种标签对应的性能检测项;检测值确定子模块,用于分别对所述性能检测项进行检测,确定所述性能检测项的检测值;异常检测子模块,用于检测所述检测值是否在所述性能检测项的正常范围内;若任一检测值不在所述性能检测项的正常范围内,则所述相关节点设备异常。
[0016]可选的,所述异常检测子模块,还用于在第二时间阈值内,检测标签类型相同的故障节点设备的数量是否达到检测阈值;若标签类型相同的故障节点设备的数量达到所述检测阈值,则执行对所述相关节点设备的检测。
[0017]可选的,所述预警模块,包括:故障预警子模块,用于对检测异常的相关节点设备进行统计,当所述检测异常的相关节点设备的数量达到故障预警阈值时,执行故障预警。
[0018]与现有技术相比,本发明实施例包括以下优点:
[0019]通过获取的故障节点设备的告警信息,从所述告警信息中获取告警类型,然后依据告警类型确定所述故障节点设备对应的相关节点设备,对所述相关节点设备进行检测,能够在一个节点设备出现故障时主动对与其相关的其他节点设备进行检测,从而对检测异常的相关节点设备进行故障预警,有效对系统内设备进行维护并预警,保证系统的正常、稳定运行。
【附图说明】
[0020]图1是本发明的一种系统故障预警方法实施例的步骤流程图;
[0021]图2是本发明的另一种系统故障预警方法实施例的步骤流程图;
[0022]图3是本发明实施例中对集群系统的预警检测示意图;
[0023]图4是本发明一种故障预警系统实施例的结构框图;
[0024]图5是本发明另一种故障预警系统实施例的结构框图。
【具体实施方式】
[0025]为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0026]本发明实施例的核心构思之一在于,提供一种系统故障预警方法,以对系统中故障节点设备快速、有效的预警。通过获取的故障节点设备的告警信息,从所述告警信息中获取告警类型,然后依据告警类型确定所述故障节点设备对应的相关节点设备,对所述相关节点设备进行检测,能够在一个节点设备出现故障时主动对与其相关的其他节点设备进行检测,从而对检测异常的相关节点设备进行故障预警,有效对系统内设备进行维护并预警,保证系统的正常、稳定运行。
[0027]实施例一
[0028]参照图1,示出了本发明的一种系统故障预警方法实施例的步骤流程图,具体可以包括如下步骤:
[0029]步骤102,获取系统中故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型。
[0030]在集群系统运行过程中,为了能够及时发现系统的问题,防止出现由于较多设备故障才告警而此时系统已无法运行的问题。本实施例在系统中任一节点设备发生故障后,故障的节点设备会自动发出告警信息,其中该告警信息用于告知节点设备的故障以进行系统预警,告警信息中包括:故障节点设备的告警类型,告警类型用于标识节点设备的属性信息,以便于后续确定同种属性的其他节点设备是否也发生故