本发明涉及通信技术领域,尤其涉及一种故障处理方法及装置。
背景技术:
随着云计算技术的飞速发展,数据中心不断被建造以满足计算需求,同时,it(informationtechnology,信息技术)设备集群也越来越庞大,设备数量越来越多,设备种类也越来越多样,这就导致数据中心和it设备集群的管理难度越来越大。而作为计算、存储和网络资源的提供者,一旦出现问题,将造成客户的重大损失。
目前,对于数据中心和it设备集群的管理方式是,当设备发生故障时,设备管理系统接收到设备发出的告警信息,管理员通过系统界面、邮件等方式获得告警信息,然后根据告警信息做出相应的处理措施,比如将故障服务器下电、重启等。由于需要管理员到故障现场进行手动操作,故障设备从故障到恢复需要消耗大量的时间,存在故障处理效率较低的问题。
技术实现要素:
本发明的主要目的在于提供一种故障处理方法及装置,旨在提高设备的故障处理效率。
为实现上述目的,本发明提供一种故障处理方法,所述故障处理方法包括:
基于目标设备采集预设的判定信息,并获取所述目标设备所对应的故障判定条件;
根据所述故障判定条件以及采集的判定信息判断所述目标设备是否发生故障;
在所述目标设备发生故障时,基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人,由智能机器人执行故障处理指令对应的故障恢复操作,以排除所述目标设备的故障。
可选地,所述基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人的步骤之前,还包括:
在所述目标设备发生故障时,基于所述目标设备的故障信息确定所述目标设备的故障程度;
在所述目标设备的故障程度达到预设程度时,转入执行所述基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人的步骤。
可选地,所述基于所述目标设备的故障信息确定所述目标设备的故障程度的步骤之后,还包括:
在所述目标设备的故障程度未达到所述预设程度,且在所述目标设备继续运行第一预设时间段之后,转入执行所述基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人的步骤。
可选地,所述智能机器人包括第一智能机器人和第二智能机器人,所述基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人的步骤包括:
基于所述目标设备的故障信息确定所述目标设备的故障类型;
在所述目标设备发生第一类故障时,发送所述故障信息对应的故障处理指令至所述第一智能机器人,由所述第一智能机器人基于所述故障处理指令对所述目标设备执行复位、重启或更改配置参数中的至少一种故障恢复操作;
在所述目标设备发生第二类故障时,发送所述故障信息对应的故障处理指令至所述第二智能机器人,由所述第二智能机器人基于所述故障处理指令调整所述目标设备发生故障的部件。
可选地,所述在所述目标设备发生故障时,基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人的步骤之后,还包括:
在第二预设时间段后判断所述目标设备的故障是否恢复;
在所述目标设备的故障未恢复时,发送所述目标设备的故障信息至预设终端。
此外,为实现上述目的,本发明还提供了一种故障处理装置,所述故障处理装置包括:
信息收集模块,用于基于目标设备采集预设的判定信息,并获取所述目标设备所对应的故障判定条件;
故障诊断模块,用于根据所述故障判定条件以及采集的判定信息判断所述目标设备是否发生故障;
指令下发模块,用于在所述目标设备发生故障时,基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人,由智能机器人执行故障处理指令对应的故障恢复操作,以排除所述目标设备的故障。
可选地,所述指令下发模块还用于在所述目标设备发生故障时,基于所述目标设备的故障信息确定所述目标设备的故障程度;以及
在所述目标设备的故障程度达到预设程度时,基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人。
可选地,所述指令下发模块还用于在所述目标设备的故障程度未达到所述预设程度,且在所述目标设备继续运行第一预设时间段之后,基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人。
可选地,所述智能机器人包括第一智能机器人和第二智能机器人,所述指令下发模块还用于基于所述目标设备的故障信息确定所述目标设备的故障类型;以及
在所述目标设备发生第一类故障时,发送所述故障信息对应的故障处理指令至所述第一智能机器人,由所述第一智能机器人基于所述故障处理指令对所述目标设备执行复位、重启或更改配置参数中的至少一种故障恢复操作;
在所述目标设备发生第二类故障时,发送所述故障信息对应的故障处理指令至所述第二智能机器人,由所述第二智能机器人基于所述故障处理指令调整所述目标设备发生故障的部件。
可选地,所述故障诊断模块还用于在所述指令下发模块基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人的第二预设时间段后,判断所述目标设备的故障是否恢复;
所述故障处理装置还包括提示模块,用于在所述目标设备的故障未恢复时,发送所述目标设备的故障信息至预设终端。
本发明提出的故障处理方法及装置,在应用于数据中心以及it设备集群 时,能够自动对数据中心以及it设备集群内设备的运行状态进行监测,并在有设备故障时,根据设备的故障信息对应下发故障处理指令至故障现场的智能机器人,由智能机器人执行故障处理指令对应的故障恢复操作,排除故障。相较于现有技术,本发明无需人工值守,并能够在设备故障时及时排除故障,不仅能够提高设备的故障处理效率,还能够降低设备的维护成本。
附图说明
图1为本发明故障处理方法第一实施例的流程示意图;
图2为本发明故障处理方法的一种故障处理流程示例图;
图3为本发明故障处理装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种故障处理方法,参照图1,在本发明故障处理方法的第一实施例中,所述故障处理方法包括:
步骤s10,基于目标设备采集预设的判定信息,并获取所述目标设备所对应的故障判定条件;
需要说明的是,本实施例提出的故障处理方法主要应用于数据中心以及it设备集群中,具体由故障处理装置执行,能够智能分析并诊断数据中心和it设备集群内设备是否发生故障,并在发生故障时,自动处理设备故障以实现设备自恢复,无需人工值守的效果。
本领域技术人员可以理解的是,数据中心和it设备集群一般由数量众多、性能强大的服务器计算资源、存储资源和网络资源组成。具体来说,硬件设备包含刀片式服务器、机架式服务器、磁盘阵列、交换机以及路由器等。通常的,这些设备一般提供有telnet/snmp/ipmi/cgi等带外管理接口。在本发明实施例中,目标设备包括应用的数据中心以及it设备集群中的任一设备。
为实现对目标设备的故障检测,本实施例预先在故障处理装置设置有对应不同类型目标设备的故障判定条件,例如,设置有对应交换机的故障判定条件,设置有对应刀片式服务器的故障判定条件。其中,故障判定条件根据不同类型的目标设备分别进行设置,例如,针对交换机,当其丢包率达到一定的丢包率时,将影响其正常的通信性能,将该影响其正常通信性能的丢包率设置为其故障判定条件中的一种。
在本发明实施例中,故障处理装置实时基于目标设备的带外管理接口基采集预设的判定信息,并基于目标设备的设备类型获取到对应的故障判定条件。其中,需要采集的判定信息包括目标设备的基本硬件信息,以及运行日志、操作日志、告警信息和性能信息等运行时信息。
具体的,针对不同类型的目标设备,需要采集的硬件信息不同。例如,主要采集服务器的处理器个数、型号,内存、磁盘容量以及网卡个数等信息;主要采集磁盘阵列的磁盘容量、个数,raid级别以及分区数等信息;主要采集交换机的端口数以及端口配置等信息。本领域技术人员可以理解的是,本实施例能够实现故障检测的目标设备,包括但不限于服务器、磁盘阵列、交换机;并且,采集的每种具体设备的硬件信息,也不限于上述具体列出的信息种类。
步骤s20,根据所述故障判定条件以及采集的判定信息判断所述目标设备是否发生故障;
在采集到判定信息之后,故障处理装置根据采集的判定信息以及前述获取的故障判定条件判断目标设备是否发生故障,例如,当识别到目标设备的运行日志中出现预设数量的重复错误信息,目标设备发出高级别的告警,目标设备的负荷在高位持续预设时长等,这些情况均可判定目标设备发生故障。
步骤s30,在所述目标设备发生故障时,基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人,由智能机器人执行故障处理指令对应的故障恢复操作,以排除所述目标设备的故障。
在本发明实施例中,当判定目标设备发生故障时,故障处理装置根据目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人,例如,当故障处理装置在服务器的操作日志中识别到预设频次的重启命令时,判定服务器故障,并确定当前需要重启服务器,此时发送指示智能机器人下电并 重启服务器的故障处理指令至智能机器人,由智能机器人对服务器下电,并重启,以排除服务器的故障。
进一步地,为确保能够排除目标设备的故障,在本发明实施例中,步骤s30之后,还包括:
在第二预设时间段后判断所述目标设备的故障是否恢复;
在所述目标设备的故障未恢复时,发送所述目标设备的故障信息至预设终端。
本实施例中,在发送故障处理指令至故障现场的智能机器人的同时,故障处理装置启动内部定时器开始计时,当计时到达第二预设时间段(具体根据前述智能机器人执行故障恢复操作需要消耗的时间进行设置)时,故障处理装置再次对目标设备的故障状态进行判断,以确定其故障是否恢复;若判定目标设备仍处于故障状态,即目标设备的故障未恢复时,故障处理装置发送目标设备的故障信息至预设终端,由该预设终端将接收的故障信息呈现给管理人员,通知管理人员达到故障现场排除目标设备的故障。
此外,参照图2,在其他实施例中,还可以设置用于对目标设备进行判定信息采集的设备管理系统,参照前述故障处理装置采集判定信息的相关描述,该设备管理系统同样通过目标设备的带外管理接口进行判定信息的采集,并将采集到的判定参数上报至故障处理装置进行处理。
本实施例提出的故障处理方法,在应用于数据中心以及it设备集群时,能够自动对数据中心以及it设备集群内设备的运行状态进行监测,并在有设备故障时,根据设备的故障信息对应下发故障处理指令至故障现场的智能机器人,由智能机器人执行故障处理指令对应的故障恢复操作,排除故障。相较于现有技术,本发明无需人工值守,并能够在设备故障时及时排除故障,不仅能够提高设备的故障处理效率,还能够降低设备的维护成本。
进一步地,基于第一实施例,提出本发明故障处理方法的第二实施例,在本实施例中,步骤s30之前,还包括:
在所述目标设备发生故障时,基于所述目标设备的故障信息确定所述目标设备的故障程度;
在所述目标设备的故障程度达到预设程度时,转入执行步骤s30。
需要说明的是,本实施例在第一实施例的基础上,进一步对目标设备发生故障的程度进行区分,以确定是否需要立即对目标设备进行故障恢复,以下仅针对该区别进行说明,其它可参照前述第一实施例,此处不再赘述。
在本发明实施例中,预先设置有立即触发执行故障恢复的预设程度,当判定目标设备故障,且根据目标设备的故障信息判定故障程度达到该预设程度时,故障处理装置基于目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人,由智能机器人执行故障处理指令对应的故障恢复操作,以排除所述目标设备的故障,具体可参照前述第一实施例,此处不再赘述。
以服务器为例,本实施例根据服务器可能发生的故障类型,预先划分有两个等级的故障程度,包括:内存不足对应一级故障程度,网卡配置错误、硬盘读写失败、处理器宕机等对应二级故障程度。其中,一级故障程度低于二级故障程度,当发生故障的故障程度为二级故障程度时(即目标设备的故障程度达到预设程度时),需要立即触发执行故障恢复。
进一步地,在本发明实施例中,所述基于所述目标设备的故障信息确定所述目标设备的故障程度的步骤之后,还包括:
在所述目标设备的故障程度未达到所述预设程度,且在所述目标设备继续运行第一预设时间段之后,转入执行步骤s30。
例如,故障处理装置基于获取的目标设备的告警信息,识别到目标设备的内存不足(目标设备的故障程度未达到预设程度的一种情况),说明系统资源不足需要扩容。但是,由于内存的插拔需要在设备处于断电状态才能进行,若此时下电目标设备,将导致目标设备的服务中断。因此,故障处理装置根据目标设备的历史运行日志以及目标设备内存的当前负荷,预测其内存负荷降低到正常负荷需要的第一预设时间段,并在目标设备继续运行第一预设时间段之后,基于目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人,由智能机器人执行故障处理指令对应的故障恢复操作,增加目标设备的内存。
进一步地,基于前述任一实施例,提出本发明故障处理方法的第三实施例,在本实施例中,所述智能机器人包括第一智能机器人和第二智能机器人,步骤s30包括:
基于所述目标设备的故障信息确定所述目标设备的故障类型;
在所述目标设备发生第一类故障时,发送所述故障信息对应的故障处理指令至所述第一智能机器人,由所述第一智能机器人基于所述故障处理指令对所述目标设备执行复位、重启或更改配置参数中的至少一种故障恢复操作;
在所述目标设备发生第二类故障时,发送所述故障信息对应的故障处理指令至所述第二智能机器人,由所述第二智能机器人基于所述故障处理指令调整所述目标设备发生故障的部件。
需要说明的是,本实施例在前述实施例的基础上,进一步对智能机器人进行细分,包括第一智能机器人和第二智能机器人,并对智能机器人如何执行故障恢复操作作进一步描述,其它可分别前述实施例,此处不再赘述。
具体的,第一智能机器人为软件机器人,第二智能机器人为硬件机器人。其中,第一智能机器人用于在目标设备发生第一类故障(软件类故障),且接收到故障处理装置下发的故障处理指令时,具体根据接收的故障处理指令,通过目标设备的带外管理接口下发相应的软件控制指令至目标设备,实现对目标设备的复位、重启以及更改配置参数等故障恢复操作;第二智能机器人用于在目标设备发生第二类故障(硬件类故障),且接收到故障处理装置下发的故障处理指令时,具体利用自身的智能机械设备模拟人手操作,调整目标设备发生故障的部件,如替换服务器发生故障的单板,增加服务器的内存等。
本发明还提供一种故障处理装置,参照图3,在本发明故障处理装置的第一实施例中,所述故障处理装置包括:
信息收集模块10,用于基于目标设备采集预设的判定信息,并获取所述目标设备所对应的故障判定条件;
故障诊断模块20,用于根据所述故障判定条件以及采集的判定信息判断所述目标设备是否发生故障;
指令下发模块30,用于在所述目标设备发生故障时,基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人,由智能机器人执行故障处理指令对应的故障恢复操作,以排除所述目标设备的故障。
需要说明的是,本实施例提出的故障处理装置主要应用于数据中心以及 it设备集群中,能够智能分析并诊断数据中心和it设备集群内设备是否发生故障,并在发生故障时,自动处理设备故障以实现设备自恢复,无需人工值守的效果。
本领域技术人员可以理解的是,数据中心和it设备集群一般由数量众多、性能强大的服务器计算资源、存储资源和网络资源组成。具体来说,硬件设备包含刀片式服务器、机架式服务器、磁盘阵列、交换机以及路由器等。通常的,这些设备一般提供有telnet/snmp/ipmi/cgi等带外管理接口。在本发明实施例中,目标设备包括应用的数据中心以及it设备集群中的任一设备。
为实现对目标设备的故障检测,本实施例预先在故障处理装置设置有对应不同类型目标设备的故障判定条件,例如,设置有对应交换机的故障判定条件,设置有对应刀片式服务器的故障判定条件。其中,故障判定条件根据不同类型的目标设备分别进行设置,例如,针对交换机,当其丢包率达到一定的丢包率时,将影响其正常的通信性能,将该影响其正常通信性能的丢包率设置为其故障判定条件中的一种。
在本发明实施例中,信息收集模块10首先根据目标设备的设备类型获取到对应的故障判定条件,然后实时基于目标设备的带外管理接口,并按照获取的故障判定条件采集判定信息。其中,需要采集的判定信息包括目标设备的基本硬件信息,以及运行日志、操作日志、告警信息和性能信息等运行时信息。
具体的,针对不同类型的目标设备,需要采集的硬件信息不同。例如,主要采集服务器的处理器个数、型号,内存、磁盘容量以及网卡个数等信息;主要采集磁盘阵列的磁盘容量、个数,raid级别以及分区数等信息;主要采集交换机的端口数以及端口配置等信息。本领域技术人员可以理解的是,本实施例能够实现故障检测的目标设备,包括但不限于服务器、磁盘阵列、交换机;并且,采集的每种具体设备的硬件信息,也不限于上述具体列出的信息种类。
在采集到判定信息之后,信息收集模块10将采集的判定信息传输至故障诊断模块20,由故障诊断模块20根据信息收集模块10采集的判定信息以及前述获取的故障判定条件判断目标设备是否发生故障,例如,当识别到目标 设备的运行日志中出现预设数量的重复错误信息,目标设备发出高级别的告警或者目标设备的负荷在高位持续预设时长等,这些情况均可判定目标设备发生故障。
当故障诊断模块20判定目标设备发生故障时,指令下发模块30根据目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人,例如,当故障诊断模块20在服务器的操作日志中识别到预设频次的重启命令时,判定服务器故障,并确定当前需要重启服务器,此时由指令下发模块30发送指示智能机器人下电并重启服务器的故障处理指令至智能机器人,由智能机器人对服务器下电,并重启,以排除服务器的故障。
进一步地,为确保能够排除目标设备的故障,在本发明实施例中,所述故障诊断模块20还用于在所述指令下发模块30基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人的第二预设时间段后,判断所述目标设备的故障是否恢复;
所述故障处理装置还包括提示模块,用于在所述目标设备的故障未恢复时,发送所述目标设备的故障信息至预设终端。
本实施例中,在指令下发模块30发送故障处理指令至故障现场的智能机器人的同时,故障诊断模块20启动内部定时器开始计时,当计时到达第二预设时间段(具体根据前述智能机器人执行故障恢复操作需要消耗的时间进行设置)时,再次对目标设备的故障状态进行判断,以确定其故障是否恢复;若判定目标设备仍处于故障状态,即目标设备的故障未恢复时,由提示模块发送目标设备的故障信息至预设终端,由该预设终端将接收的故障信息呈现给管理人员,通知管理人员达到故障现场排除目标设备的故障。
此外,参照图2,在其他实施例中,还可以设置用于对目标设备进行判定信息采集的设备管理系统,参照前述信息收集模块10采集判定信息的相关描述,该设备管理系统同样通过目标设备的带外管理接口进行判定信息的采集,并将采集到的判定参数上报至故障处理装置(信息收集模块10)进行处理。
本实施例提出的故障处理装置,在应用于数据中心以及it设备集群时,能够自动对数据中心以及it设备集群内设备的运行状态进行监测,并在有设备故障时,根据设备的故障信息对应下发故障处理指令至故障现场的智能机 器人,由智能机器人执行故障处理指令对应的故障恢复操作,排除故障。相较于现有技术,本发明无需人工值守,并能够在设备故障时及时排除故障,不仅能够提高设备的故障处理效率,还能够降低设备的维护成本。
进一步地,基于第一实施例,提出本发明故障处理装置的第二实施例,对应于前述故障处理方法的第二实施例,在本实施例中,所述指令下发模块30还用于在所述目标设备发生故障时,基于所述目标设备的故障信息确定所述目标设备的故障程度;以及
在所述目标设备的故障程度达到预设程度时,基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人。
需要说明的是,本实施例在第一实施例的基础上,进一步对目标设备发生故障的程度进行区分,以确定是否需要立即对目标设备进行故障恢复,以下仅针对该区别进行说明,其它可参照前述第一实施例,此处不再赘述。
在本发明实施例中,预先设置有立即触发执行故障恢复的预设程度,当故障诊断模块20判定目标设备故障,且根据目标设备的故障信息判定故障程度达到该预设程度时,指令下发模块30基于目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人,由智能机器人执行故障处理指令对应的故障恢复操作,以排除所述目标设备的故障,具体可参照前述第一实施例,此处不再赘述。
以服务器为例,本实施例根据服务器可能发生的故障类型,预先划分有两个等级的故障程度,包括:内存不足对应一级故障程度,网卡配置错误、硬盘读写失败、处理器宕机等对应二级故障程度。其中,一级故障程度低于二级故障程度,当发生故障的故障程度为二级故障程度时(即目标设备的故障程度达到预设程度时),需要立即触发执行故障恢复。
进一步地,在本发明实施例中,所述指令下发模块30还用于在所述目标设备的故障程度未达到所述预设程度,且在所述目标设备继续运行第一预设时间段之后,基于所述目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人。
例如,故障诊断模块20基于信息收集模块10获取的目标设备的告警信息,识别到目标设备的内存不足(目标设备的故障程度未达到预设程度的一 种情况),说明系统资源不足需要扩容。但是,由于内存的插拔需要在设备处于断电状态才能进行,若此时下电目标设备,将导致目标设备的服务中断。因此,指令下发模块30根据目标设备的历史运行日志以及目标设备内存的当前负荷,预测其内存负荷降低到正常负荷需要的第一预设时间段,并在目标设备继续运行第一预设时间段之后,基于目标设备的故障信息发送对应的故障处理指令至故障现场的智能机器人,由智能机器人执行故障处理指令对应的故障恢复操作,增加目标设备的内存。
进一步地,基于前述任一实施例,提出本发明故障处理装置的第三实施例,对应于前述故障处理方法的第三实施例,在本实施例中,所述智能机器人包括第一智能机器人和第二智能机器人,所述指令下发模块30还用于基于所述目标设备的故障信息确定所述目标设备的故障类型;以及
在所述目标设备发生第一类故障时,发送所述故障信息对应的故障处理指令至所述第一智能机器人,由所述第一智能机器人基于所述故障处理指令对所述目标设备执行复位、重启或更改配置参数中的至少一种故障恢复操作;
在所述目标设备发生第二类故障时,发送所述故障信息对应的故障处理指令至所述第二智能机器人,由所述第二智能机器人基于所述故障处理指令调整所述目标设备发生故障的部件。
需要说明的是,本实施例在前述实施例的基础上,进一步对智能机器人进行细分,包括第一智能机器人和第二智能机器人,并对智能机器人如何执行故障恢复操作作进一步描述,其它可分别前述实施例,此处不再赘述。
具体的,第一智能机器人为软件机器人,第二智能机器人为硬件机器人。其中,第一智能机器人用于在目标设备发生第一类故障(软件类故障),且接收到指令下发模块30下发的故障处理指令时,具体根据接收的故障处理指令,通过目标设备的带外管理接口下发相应的软件控制指令至目标设备,实现对目标设备的复位、重启以及更改配置参数等故障恢复操作;第二智能机器人用于在目标设备发生第二类故障(硬件类故障),且接收到指令下发模块30下发的故障处理指令时,具体利用自身的智能机械设备模拟人手操作,调整目标设备发生故障的部件,如替换服务器发生故障的单板,增加服务器的内存等。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。