服务器的运行环境监控、保护方法和系统的制作方法
【专利摘要】本发明的实施例提供了一种服务器的运行环境监控、保护方法和系统,其中,服务器的运行环境监控方法包括:采集基础设备的运行状态信息;根据所述运行状态信息确定发生故障的区域;将包含所述发生故障的区域的报警信息发送给服务器监控系统。通过本发明实施例的服务器的运行环境监控、保护方法和系统,能够对服务器的运行环境进行监控,并对监控到的故障区域的服务器进行降频,从而保护服务器,且在基础设备故障情况下不中断业务运行,还降低了工程成本。
【专利说明】服务器的运行环境监控、保护方法和系统
【技术领域】
[0001]本发明涉及计算机网络【技术领域】,尤其涉及一种服务器的运行环境监控、保护方法和系统。
【背景技术】
[0002]目前大型数据中心建设的容错等级非常高,因此对服务器的运行环境要求也较高,这就需要在供电和制冷环节上保障服务器运行的外界环境。现有的保障手段多是通过增加基础设备来实现的,即有部分设备是为故障情况而设计使用。
[0003]随着大型数据中心建设规模的增加,这样的配置会使冗余设备的数量随之增多,进而使得工程费用明显增加,成本较高。另外,每增加一台基础设备,同时也是增加了一个故障点,如果基础设备发生故障就容易引发服务器故障,从而导致服务器的业务运行中断。
【发明内容】
[0004]本发明实施例的目的在于,提供一种服务器的运行环境监控、保护方法和系统,对服务器的运行环境进行监控,对监控到的故障区域的服务器进行操作控制以起到保护作用,并且在基础设备故障情况下不中断业务运行,还降低了工程成本。
[0005]为实现上述发明目的,本发明的实施例提供了一种服务器的运行环境监控方法,包括:采集基础设备的运行状态信息;根据所述运行状态信息确定发生故障的区域;将包含所述发生故障的区域的报警信息发送给服务器监控系统。
[0006]本发明的实施例还提供了一种服务器的保护方法,包括:接收包含发生故障的区域的报警信息;根据所述报警信息中的发生故障的区域确定需要保护的服务器;发送控制命令给所述发生故障的区域的服务器。
[0007]本发明的实施例还提供了一种服务器的运行环境监控系统,包括:采集设备,用于采集基础设备的运行状态信息;故障区域确定设备,用于根据所述运行状态信息确定发生故障的区域;数据交换设备,用于将包含所述发生故障的区域的报警信息发送给服务器监控系统。
[0008]本发明的实施例还提供了一种服务器的保护装置,包括:接收模块,用于接收包含发生故障的区域的报警信息;确定模块,用于根据所述报警信息中的发生故障的区域确定需要保护的服务器;发送模块,用于发送控制命令给所述发生故障的区域的服务器。
[0009]本发明实施例提供的服务器的运行环境监控、保护方法和系统,通过采集到的基础设备的运行状态信息确定发生故障的区域,将包含发生故障的区域的报警信息发送给服务器监控系统,根据报警信息中的发生故障的区域确定需要保护的服务器,发送控制命令给发生故障的区域的服务器,以使服务器通过降频进行保护,在上述监控和保护过程均不中断业务运行,且不增加任何基础设备作为冗余,使得工程费用有了明显的降低。
【专利附图】
【附图说明】
[0010]图1为本发明实施例的服务器监控系统和动力环境监控系统的系统架构图;
[0011]图2为本发明实施例一的服务器的运行环境监控方法的流程示意图;
[0012]图3为本发明实施例二的服务器的保护方法的流程示意图;
[0013]图4为本发明实施例三的服务器的运行环境监控系统的结构示意图;
[0014]图5为本发明实施例四的服务器的保护装置的结构示意图。
【具体实施方式】
[0015]下面结合附图对本发明实施例一种服务器的运行环境监控、保护方法和系统进行详细描述。
[0016]本发明的基本构思是,通过本发明提供的服务器的运行环境监控、保护方法和系统,既能够监控服务器的运行环境,又对监控到的故障区域的服务器进行例如降频的控制从而达到保护作用,同时在监控和保护过程中不中断业务运行,还降低了工程成本。
[0017]图1为本发明实施例的服务器监控系统和动力环境监控系统的系统架构图,如图1所示,服务器监控系统可采用带内监控的方式,即在服务器上配置一些脚本程序,在企业生产网内占用很少的资源,就可对所有服务器进行监控。动力环境监控系统通常独立组网,采用双机热备形式,其中的核心交换机需要连接到服务器监控系统所在的企业生产网上,实现互联互通。这两个监控系统协同完成服务器的运行环境监控和保护,具体实现原理如下:
[0018]动力环境监控系统通过多台嵌入式采集设备来采集各种基础设备(例如不间断电源、温湿度设备、空调等)的运行状态信息,从而可对基础设备的运行状态进行监控,当监控到基础设备出现故障时,及时分析发生故障的设备所影响的服务器,并通过动力环境系统核心交换机发送报警信息给内网核心交换机,以通知服务器监控系统哪些服务器有运行的风险,服务器监控系统收到报警信息后,根据报警信息确定需要保护的服务器,并发送控制命令给需要保护的服务器进而对其进行例如降频的控制,以此达到保护服务器的作用,且不中断服务器业务的运行。
[0019]实施例一
[0020]图2为本发明实施例一的服务器的运行环境监控方法的流程示意图。例如,可由动力环境监控系统执行图2中所示的方法,所述方法包括如下步骤:
[0021]步骤11:采集基础设备的运行状态信息。
[0022]在实际应用中,大型数据中心(例如核心机房)所配备的基础设备可包括,但不限于,不间断电源、温湿度设备和空调。为了在供电和制冷环节上极大程度地保障服务器的运行环境,需要监控这些基础设备的运行情况。
[0023]具体地,可以通过嵌入式采集设备来采集这些基础设备的运行状态信息,其中,运行状态信息包括了正常运行状态或故障运行状态的信息,或者是基础设备的运行参数信息。例如,可采集空调正处于故障运行状态、温湿度设备测量的室内温湿度数据等等。在实际应用中,基础设备会出现例如断电、空调制冷故障等情况,其中,断电会导致服务器的业务运行中断,空调制冷故障会导致机房温度过高,而服务器在高温下运行极易发生故障,本步骤的采集基础设备的运行状态信息为基础设备发生故障情况下故障区域的确定提供了数据基础。
[0024]步骤12:根据运行状态信息确定发生故障的区域。
[0025]根据本发明的示例性实施例,在该步骤中,所述确定发生故障的区域的处理可包括:根据运行状态信息确定发生故障的基础设备,并且根据确定发生故障的基础设备获取与基础设备相对应的发生故障的区域。
[0026]例如,在出现空调不制冷的情况下,在步骤11中,采集到空调处于故障运行状态,可根据故障运行状态的信息确定是哪台空调出现了故障,再获取与出现故障的空调相对应的发生故障的区域。
[0027]步骤13:将包含发生故障的区域的报警信息发送给服务器监控系统。例如,可以基于用于工业现场的传输控制协议/因特网互联协议(M0DBUS-TCP/IP)、用于过程控制的对象连接与嵌入(Object Linking and Embedding for Process Control, 0PC)、套接字(SOCKET)中任意一种协议发送包含发生故障的区域的报警信息给服务器监控系统。
[0028]通过本实施例的服务器的运行环境监控方法,能够将服务器的运行环境通过上述方法监控起来,在基础设备出现故障或温湿度过高时,能够及时的发出报警信息给服务器监控系统,从而为服务器的业务运行不中断提供保障。
[0029]进一步地,将包含发生故障的区域的报警信息发送给服务器监控系统的处理还包括:将确定的发生故障的基础设备的类型发送给服务器监控系统。在实际应用中,报警信息包含了发生故障的区域,还可以包含发生故障的基础设备的类型,以使服务器监控系统根据发生故障的基础设备的类型对故障的区域做相应的处理。
[0030]实施例二
[0031]图3为本发明实施例二的服务器的保护方法的流程示意图。例如,可由服务器监控系统执行图3所示的方法,其包括如下步骤:
[0032]步骤21:接收包含发生故障的区域的报警信息。
[0033]步骤22:根据报警信息中的发生故障的区域确定需要保护的服务器。在步骤21中接收报警信息之后,就可以通过报警信息中包含的发生故障的区域确定哪些服务器有运行的风险,从而需要对其进行保护。
[0034]步骤23:发送控制命令给发生故障的区域的服务器。例如,所述控制命令可以是用于指示服务器降低运行频率的命令。
[0035]具体的,服务器监控系统可以操作发生故障的区域的服务器,例如在制冷故障区域或者断电区域内的服务器。服务器监控系统可以通过控制服务器的基板管理控制器(Baseboard Management Controller,BMC)的功耗限定在指定范围内(power capping)的命令,以使服务器的频率减小,服务器频率的减小就意味着功耗的减小,从而产生的热量也减小,使基础设备故障情况下服务器得到保护。本发明所述对服务器的控制不限于降低服务器的运行频率,也可以是其他用于限制服务器功率消耗的控制,例如,将服务器置于休眠状态等。
[0036]通过本实施例的服务器的保护方法,能够根据接收到的报警信息中的发生故障的区域确定需要保护的服务器,并向需要保护的服务器发送降频的命令,完成对服务器的保护,从而使得即使是基础设备出现故障,服务器的业务运行也不会因此而发生中断,另外,在工程上无需增加冗余设备,使得工程费用有了明显的降低。
[0037]进一步地,报警信息还包括发生故障的基础设备的类型,其中,发送控制命令给发生故障的区域的服务器的处理包括:根据发生故障的基础设备的类型发送特定的控制命令给发生故障的区域的服务器。具体的,此处与步骤23的不同之处在于,报警信息除包含发生故障的区域之外还包含了发生故障的基础设备的类型,此时服务器监控系统可以根据发生故障的基础设备的类型不同发送不同的控制命令,更加有效地对发生故障区域的服务器进行保护。
[0038]实施例三
[0039]本实施例主要涉及服务器的运行环境监控系统,图4为本发明实施例三的服务器的运行环境监控系统的结构示意图,如图4所示,其包括:
[0040]采集设备31,用于采集基础设备的运行状态信息。
[0041]故障区域确定设备32,用于根据运行状态信息确定发生故障的区域。
[0042]数据交换设备33,用于将包含发生故障的区域的报警信息发送给服务器监控系统。
[0043]通过该运行环境监控系统,能够实现对服务器的运行环境监控,在基础设备出现故障或温湿度过高时,能够及时的发出报警信息给服务器监控系统,从而为服务器的业务运行不中断提供保障。
[0044]进一步地,基础设备包括不间断电源、温湿度设备和空调。
[0045]进一步地,运行状态信息包括正常运行状态或故障运行状态的信息,或者基础设备的运行参数信息。
[0046]进一步地,故障区域确定设备具体用于:根据运行状态信息确定发生故障的基础设备;根据确定发生故障的基础设备获取与基础设备相对应的发生故障的区域。
[0047]进一步地,数据交换设备还用于将确定的发生故障的基础设备的类型发送给服务器监控系统。
[0048]进一步地,采集基础设备的运行状态信息包括:通过嵌入式采集设备来采集基础设备的运行状态信息。
[0049]进一步地,数据交换设备是基于MODBUS-TCP/IP、OPC、SOCKET中任意一种协议发送报警信息的。
[0050]实施例四
[0051]本实施例主要涉及服务器的保护装置,图5为本发明实施例四的服务器的保护装置的结构示意图。如图5所示,所述保护装置包括:
[0052]接收模块41,用于接收包含发生故障的区域的报警信息。
[0053]确定模块42,用于根据报警信息中的发生故障的区域确定需要保护的服务器。
[0054]发送模块43,用于发送控制命令给发生故障的区域的服务器。
[0055]通过该保护装置,能够根据接收到的报警信息中的发生故障的区域确定需要保护的服务器,并向需要保护的服务器发送降频的命令,从而完成对服务器的保护,另外,在工程上无需增加冗余设备,使得工程费用有了明显的降低。
[0056]进一步地,控制命令为用于指示服务器降低运行频率的命令。
[0057]进一步地,报警信息还包括发生故障的基础设备的类型,其中,发送模块还用于根据发生故障的基础设备的类型发送特定的控制命令给发生故障的区域的服务器。
[0058]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【权利要求】
1.一种服务器的运行环境监控方法,其特征在于,所述方法包括: 采集基础设备的运行状态信息; 根据所述运行状态信息确定发生故障的区域; 将包含所述发生故障的区域的报警信息发送给服务器监控系统。
2.根据权利要求1所述的方法,其特征在于,所述基础设备包括不间断电源、温湿度设备和空调。
3.根据权利要求2所述的方法,其特征在于,所述运行状态信息包括正常运行状态或故障运行状态的信息,或者所述基础设备的运行参数信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述运行状态信息确定发生故障的区域的处理包括: 根据所述运行状态信息确定发生故障的基础设备; 根据确定发生故障的基础设备获取与所述基础设备相对应的所述发生故障的区域。
5.根据权利要求4所述的方法,其特征在于,所述将包含所述发生故障的区域的报警信息发送给服务器监控系统的处理还包括: 将确定的发生故障的基础设备的类型发送给所述服务器监控系统。
6.根据权利要求5所述的方法,其特征在于,所述采集基础设备的运行状态信息的处理包括: 通过嵌入式采集设备来采集基础设备的运行状态信息。
7.根据权利要求1?6中任一项所述的方法,其特征在于,所述将包含所述发生故障的区域的报警信息发送给服务器监控系统的处理是基于用于工业现场的传输控制协议/因特网互联协议MODBUS-TCP/IP、用于过程控制的对象连接与嵌入OPC、套接字SOCKET中任意一种协议发送的。
8.一种服务器的保护方法,其特征在于,所述方法包括: 接收包含发生故障的区域的报警信息; 根据所述报警信息中的发生故障的区域确定需要保护的服务器; 发送控制命令给所述发生故障的区域的服务器。
9.根据权利要求8所述的方法,其特征在于,所述控制命令为用于指示服务器降低运行频率的命令。
10.根据权利要求9所述的方法,其特征在于,所述报警信息还包括发生故障的基础设备的类型,其中,所述发送控制命令给所述发生故障的区域的服务器的处理包括:根据所述发生故障的基础设备的类型发送特定的控制命令给所述发生故障的区域的服务器。
11.一种服务器的运行环境监控系统,其特征在于,所述系统包括: 采集设备,用于采集基础设备的运行状态信息; 故障区域确定设备,用于根据所述运行状态信息确定发生故障的区域; 数据交换设备,用于将包含所述发生故障的区域的报警信息发送给服务器监控系统。
12.根据权利要求11所述的系统,其特征在于,所述基础设备包括不间断电源、温湿度设备和空调。
13.根据权利要求12所述的系统,其特征在于,所述运行状态信息包括正常运行状态或故障运行状态的信息,或者所述基础设备的运行参数信息。
14.根据权利要求13所述的系统,其特征在于,所述故障区域确定设备用于: 根据所述运行状态信息确定发生故障的基础设备; 根据确定发生故障的基础设备获取与所述基础设备相对应的所述发生故障的区域。
15.根据权利要求14所述的系统,其特征在于,所述数据交换设备还用于将确定的发生故障的基础设备的类型发送给所述服务器监控系统。
16.根据权利要求15所述的系统,其特征在于,所述采集基础设备的运行状态信息包括: 通过嵌入式采集设备来采集基础设备的运行状态信息。
17.根据权利要求11?16中任一项所述的系统,其特征在于,所述数据交换设备是基于MODBUS-TCP/IP、OPC、SOCKET中任意一种协议发送报警信息的。
18.一种服务器的保护装置,其特征在于,所述装置包括: 接收模块,用于接收包含发生故障的区域的报警信息; 确定模块,用于根据所述报警信息中的发生故障的区域确定需要保护的服务器; 发送模块,用于发送控制命令给所述发生故障的区域的服务器。
19.根据权利要求18所述的装置,其特征在于,所述控制命令为用于指示服务器降低运行频率的命令。
20.根据权利要求19所述的装置,其特征在于,所述报警信息还包括发生故障的基础设备的类型,其中,所述发送模块还用于根据所述发生故障的基础设备的类型发送特定的控制命令给所述发生故障的区域的服务器。
【文档编号】H04L12/24GK104363120SQ201410645268
【公开日】2015年2月18日 申请日期:2014年11月12日 优先权日:2014年11月12日
【发明者】宋维维 申请人:北京百度网讯科技有限公司