专利名称:宕机恢复方法和系统的制作方法
技术领域:
本发明涉及通信领域,尤其涉及一种宕机恢复方法和系统。
背景技术:
IT行业的迅速发展使得企业应用软件朝着自动化、智能化发展。而对于这些复杂应用软件的开发商,越来越复杂的功能软件如何更好的去测试也是一个难题,尤其是那些需要长期持续测试的内容。测试程序同样需要更加智能化才能适应IT软硬件功能的复杂化。随着软件系统应用环境的复杂性,软件出错的机率亦不断增加,软件面临着一个非常关键的需求就是在系统出错后能进行恢复。故,能够及时的发现系统错误就成为了待解决的首要问题。目前一般采用人工启动的检测方式对系统进行错误检测监控,而对于工作中7拉4 小时连续测试的服务器来说,一旦出现服务器宕机,由于人工无法实时查看机器运行状态, 有可能在人工检测发现服务器宕机造成的系统错误时,该服务器已宕机一段时间,进而造成大量测试时间的浪费。综上,现有软件系统应用环境日趋复杂,出错机率亦不断增高,人工检测无法满足快速响应系统错误的需求,使得系统工作效率低下。
发明内容
本发明提供了一种宕机恢复方法和系统,解决了人工检测无法满足快速响应系统错误的需求,使得系统工作效率低下的问题。一种宕机恢复方法,包括监控服务器根据预置的内网心跳时间,周期性的自动向内网中多个测试服务器发送心跳检测消息;所述监控服务器接收所述内网中各测试服务器返回的响应所述心跳检测消息的心跳检测结果;在所述测试服务器返回的心跳测试结果表明该测试服务器网络宕机时,所述监控服务器向该宕机的测试服务器发送电源关闭重启指令。优选的,所述心跳检测消息具体为ping命令。优选的,所述心跳检测结果包括所述测试服务器正常运行和所述测试服务器网络宕机两种情况。优选的,所述监控服务器向该宕机的测试服务器发送电源关闭重启指令具体为所述监控服务器采用智能平台管理接口(IPMI)管理命令向所述宕机的测试服务器发送电源关闭重启指令。优选的,所述在所述测试服务器返回的心跳测试结果表明该测试服务器网络宕机时,所述监控服务器向该宕机的测试服务器发送电源关闭重启指令的步骤之后,还包括
所述宕机的测试服务器根据接收到的所述监控服务器发送的电源关闭重启指令, 重新启动该测试服务器。优选的,在监控服务器根据预置的内网心跳时间,周期性的自动向内网中多个测试服务器发送心跳检测消息的步骤之前,还包括从所述内网的多个测试服务器中,选择一稳定且负荷较低的测试服务器作为监控服务器。优选的,上述宕机恢复方法还包括配置所述内网心跳时间,以指示监控服务器按照该内网心跳时间发送心跳检测消息,所述内网心跳时间大于测试服务器重新启动所需的时间。本发明还提供了一种宕机恢复系统,包括监控服务器和该监控服务器监控下的多个测试服务器,所述监控服务器与所述多个测试服务器处于同一内网中,通过所述内网互联;所述监控服务器,用于根据预置的内网心跳时间,周期性的自动向所述内网中的所述多个测试服务器发送心跳检测消息,接收所述内网中各测试服务器返回的心跳检测结果,并在所述测试服务器返回的心跳测试结果表明该测试服务器网络宕机时,所述监控服务器向该宕机的测试服务器发送电源关闭重启指令;所述测试服务器,用于接收所述监控服务器发送的心跳检测消息,并向所述监控服务器返回的响应所述心跳检测消息的心跳检测结果。优选的,所述监控服务器采用IPMI管理命令发送电源关闭重启指令。优选的,所述测试服务器,还用于根据接收到的所述监控服务器发送的电源关闭重启指令,重新启动该测试服务器。本发明提供了一种宕机恢复方法和系统,监控服务器根据预置的内网心跳时间, 周期性的自动向内网中多个测试服务器发送心跳检测消息,接收所述内网中各测试服务器返回的响应所述心跳检测消息的心跳检测结果,并在所述测试服务器返回的心跳测试结果表明该测试服务器网络宕机时,所述监控服务器向该宕机的测试服务器发送电源关闭重启指令,实现了对服务器宕机的自动实时检测,缩短了对系统中服务器宕机的响应时间,解决了人工检测无法满足快速响应系统错误的需求,使得系统工作效率低下的问题。
图1为本发明的实施例提供的一种宕机恢复系统的结构示意图;图2为本发明的实施例提供的一种宕机恢复方法的流程图。
具体实施例方式目前一般采用人工启动的检测方式对系统进行错误检测监控,而对于工作中7* 小时连续测试的服务器来说,一旦出现服务器宕机,由于人工无法实时查看机器运行状态, 有可能在人工检测发现服务器宕机造成的系统错误时,该服务器已宕机一段时间,进而造成大量测试时间的浪费。综上,现有软件系统应用环境日趋复杂,出错机率亦不断增高,人工检测无法满足快速响应系统错误的需求,使得系统工作效率低下。
为了解决上述问题,本发明的实施例提供了一种宕机恢复方法和系统。下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。本发明实施例提供了一种宕机恢复系统,其结构如图1所示,包括监控服务器101和该监控服务器监控下的多个测试服务器102,所述监控服务器 101与所述多个测试服务器102处于同一内网中,通过所述内网互联;所述监控服务器101,用于根据预置的内网心跳时间,周期性的自动向所述内网中的所述多个测试服务器102发送心跳检测消息,接收所述内网中各测试服务器102返回的心跳检测结果,并在所述测试服务器102返回的心跳测试结果表明该测试服务器102宕机时,所述监控服务器101向该宕机的测试服务器102发送电源关闭重启指令;所述测试服务器102,用于接收所述监控服务器101发送的心跳检测消息,并向所述监控服务器101返回的响应所述心跳检测消息的心跳检测结果。优选的,所述监控服务器101发送的心跳检测消息具体为ping命令,所述心跳检测结果包括所述测试服务器102正常和所述测试服务器102宕机两种情况。优选的,所述监控服务器101采用IPMI管理命令发送电源关闭重启指令。优选的,所述测试服务器102,还用于根据接收到的所述监控服务器101发送的电源关闭重启指令,重新启动该测试服务器102。需要说明是,监控服务器101和测试服务器102均为内网中的普通服务器,一般情况下,从内网中的多个服务器中选择一个稳定且负荷较低的服务器作为监控服务器,其他服务器即受到该监控服务器的监控。根据内网中各服务器工作情况的变化,也可人工配置其他服务器为监控服务器。结合上述宕机恢复系统,本发明的实施例提供了一种宕机恢复方法,使用该方法完成对内网中服务器的检测和控制恢复的流程如图2所示,包括步骤201、从所述内网的多个测试服务器中,选择一稳定且负荷较低的测试服务器作为监控服务器;本步骤中,选择持续稳定运行的服务器作为监控服务器。优选的,在内网中搭建基板管理控制器(Baseboard Management Controller, BMC)互联网络。在监控服务器上安装IPMI工具软件包;配置测试服务器的BMC地址,并开启IPMI服务。目前多数的服务器在主板BMC上已集成了 IPMI管理方式,当监控服务器发现测试服务器网络宕机后,可采用IPMI管理命令向测试服务器BMC发送电源关闭重启的指令,迅速的重新启动服务器,及时恢复测试服务的底层硬件系统。步骤202、配置内网心跳时间,以指示监控服务器按照该内网心跳时间发送心跳检测消息;本步骤中,配置内网心跳时间,内网心跳时间需大于测试服务器重新启动所需的时间,否则可能造成测试服务器重启过程中监控服务器再度检测到同一测试服务器网络宕机,进而重复发送电源关闭重启指令,导致同一测试服务器被频繁的断电重启。内网心跳时间大于测试服务器重新启动所需的时间,为测试服务器重启时断电与上电开机留有一定的时间间隔缓冲。优选的,还可以配置监控服务器对测试服务器监控的开机启动项。可以通过开机启动项中调用不同测试程序的特定资源监测及开启流程实现不同持续测试任务的智能恢
Μ. ο步骤203、监控服务器根据预置的内网心跳时间,周期性的自动向内网中多个测试服务器发送心跳检测消息;最为简单的方法为将网络定时ping命令作为心跳检测消息。步骤204、所述监控服务器接收所述内网中各测试服务器返回的响应所述心跳检测消息的心跳检测结果;在测试服务器上运行有心跳检测程序,该程序响应接收到的心跳检测消息,并返回当前的心跳检测结果。返回的心跳检测结果分为测试服务器正常运行与测试服务器网络宕机两种。在步骤204通过ping命令检测心跳时,本步骤中,通过ping结果的返回,利用脚本程序自动获取远程测试服务器的工作状态UP (对应测试服务器正常运行这一结果)或者 D0WN(对应测试服务器网络宕机这一结果)。步骤205、在所述测试服务器返回的心跳测试结果表明该测试服务器网络宕机时, 所述监控服务器向该宕机的测试服务器发送电源关闭重启指令;本步骤中,具体的,监控服务器通过IPMI的管理网络向宕机测试服务器的BMC发送服务器重新启动的指令,该指令直接作用于测试服务器电源。即使是测试服务器因测试程序导致死机(软件宕机)情况下仍可迅速进行重新启动。步骤206、所述宕机的测试服务器根据接收到的所述监控服务器发送的电源关闭重启指令,重新启动该测试服务器。当测试服务器进行重启后,通过在测试服务器启动的流程中加入测试程序的资源监测及启动流程。无需人工干预的实现心跳检测程序的自动恢复,保证持续测试的快速恢复,节省测试的人力、物力及时间成本。本发明的实施例提供了一种宕机恢复方法和系统,监控服务器根据预置的内网心跳时间,周期性的自动向内网中多个测试服务器发送心跳检测消息,接收所述内网中各测试服务器返回的响应所述心跳检测消息的心跳检测结果,并在所述测试服务器返回的心跳测试结果表明该测试服务器网络宕机时,所述监控服务器向该宕机的测试服务器发送电源关闭重启指令,实现了对服务器宕机的自动实时检测,缩短了对系统中服务器宕机的响应时间,解决了人工检测无法满足快速响应系统错误的需求,使得系统工作效率低下的问题。 在测试服务器的操作系统启动流程中加入测试程序必要的的资源监测及启动流程。在服务器网络正常后,无需人工干预的实现测试程序的自动恢复,保证持续测试的快速恢复,节省测试的人力、物力及时间成本。自动恢复的关键在于协调资源监测与测试程序启动的顺序流程。本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤之一或其组合。可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现, 它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器,磁盘或光盘等。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。
权利要求
1.一种宕机恢复方法,其特征在于,包括监控服务器根据预置的内网心跳时间,周期性的自动向内网中多个测试服务器发送心跳检测消息;所述监控服务器接收所述内网中各测试服务器返回的响应所述心跳检测消息的心跳检测结果;在所述测试服务器返回的心跳测试结果表明该测试服务器网络宕机时,所述监控服务器向该宕机的测试服务器发送电源关闭重启指令。
2.根据权利要求1所述的宕机恢复方法,其特征在于,所述心跳检测消息具体为Ping 命令。
3.根据权利要求1或2所述的宕机恢复方法,其特征在于,所述心跳检测结果包括所述测试服务器正常运行和所述测试服务器网络宕机两种情况。
4.根据权利要求1所述的宕机恢复方法,其特征在于,所述监控服务器向该宕机的测试服务器发送电源关闭重启指令具体为所述监控服务器采用智能平台管理接口(IPMI)管理命令向所述宕机的测试服务器发送电源关闭重启指令。
5.根据权利要求1所述的宕机恢复方法,其特征在于,所述在所述测试服务器返回的心跳测试结果表明该测试服务器网络宕机时,所述监控服务器向该宕机的测试服务器发送电源关闭重启指令的步骤之后,还包括所述宕机的测试服务器根据接收到的所述监控服务器发送的电源关闭重启指令,重新启动该测试服务器。
6.根据权利要求1所述的宕机恢复方法,其特征在于,在监控服务器根据预置的内网心跳时间,周期性的自动向内网中多个测试服务器发送心跳检测消息的步骤之前,还包括从所述内网的多个测试服务器中,选择一稳定且负荷较低的测试服务器作为监控服务ο
7.根据权利要求1所述的宕机恢复方法,其特征在于,该方法还包括配置所述内网心跳时间,以指示监控服务器按照该内网心跳时间发送心跳检测消息, 所述内网心跳时间大于测试服务器重新启动所需的时间。
8.一种宕机恢复系统,其特征在于,包括监控服务器和该监控服务器监控下的多个测试服务器,所述监控服务器与所述多个测试服务器处于同一内网中,通过所述内网互联;所述监控服务器,用于根据预置的内网心跳时间,周期性的自动向所述内网中的所述多个测试服务器发送心跳检测消息,接收所述内网中各测试服务器返回的心跳检测结果, 并在所述测试服务器返回的心跳测试结果表明该测试服务器网络宕机时,所述监控服务器向该宕机的测试服务器发送电源关闭重启指令;所述测试服务器,用于接收所述监控服务器发送的心跳检测消息,并向所述监控服务器返回的响应所述心跳检测消息的心跳检测结果。
9.根据权利要求8所述的宕机恢复系统,其特征在于,所述监控服务器采用IPMI管理命令发送电源关闭重启指令。
10.根据权利要求7所述的宕机恢复系统,其特征在于,所述测试服务器,还用于根据接收到的所述监控服务器发送的电源关闭重启指令,重新启动该测试服务器。
全文摘要
本发明提供了一种宕机恢复方法和系统。涉及通信领域;解决了人工检测无法满足快速响应系统错误的需求,使得系统工作效率低下的问题。该方法包括监控服务器根据预置的内网心跳时间,周期性的自动向内网中多个测试服务器发送心跳检测消息;所述监控服务器接收所述内网中各测试服务器返回的响应所述心跳检测消息的心跳检测结果;在所述测试服务器返回的心跳测试结果表明该测试服务器网络宕机时,所述监控服务器向该宕机的测试服务器发送电源关闭重启指令。本发明提供的技术方案适用于多服务器网络,实现了自动高效的宕机检测和恢复。
文档编号H04L12/26GK102394791SQ20111032956
公开日2012年3月28日 申请日期2011年10月26日 优先权日2011年10月26日
发明者刘希猛 申请人:浪潮(北京)电子信息产业有限公司