专利名称:一种智能化计算机机群监控方法
技术领域:
本发明涉及一种计算机机群系统监控及管理方法,特别是涉及一种计算机机群系统的软硬件信息监控方法。
背景技术:
机群是通过高性能广域网络或/及局域网络将一组计算机系统(节点)互联,形成的具有单一系统映像的高性能、高可用性、高扩展性的计算机集群系统。由于机群系统结构松散、结点独立性强、网络连接复杂,因此机群系统有必要有一套安全方便的监控方法对其软硬件进行监控,以随时发现、排除故障。
目前采用的监控方法主要是采集到结点设备信息后,对此信息进行直接的比较,当发现采集到的信息为临近机群系统故障状况值时,这时再发布系统告警提示或执行设备关机操作,而此时已在机群系统中产生了一定的不良作用,有些甚至是已发生了较严重的故障现象,对机群系统已产生了严重的影响。现有技术的这种机群系统监控方法是一种事后监控处理方法,为了更好地对计算机机群系统进行监控处理,迫切需要一种计算机机群事前预警处理方法。
发明内容
本发明的目的是提供一种计算机机群监控方法,它不仅能够提供对整个计算机机群系统节点设备软硬件信息的采集、存贮、分析报警及节点机危情关机,而且还能提供对计算机机群系统节点设备软硬件信息的预警发布。
为了实现本发明的上述目的,本发明采用的技术方案如下一种智能化计算机机群系统监控方法,其中,包括如下操作步骤A、采集机群中节点设备信息;B、将采集到的设备信息存入机群监控信息数据库;
C、从采集到的设备信息中过滤出报警信息并报警或关机;D、根据采集到的设备信息发布预警信息及进行历史信息分析统计。
其中,所述步骤A执行如下具体步骤A1、采集计算机机群节点机的如下软件信息节点ID、主机名、操作系统名称、操作系统版、CPU类型、CPU主频、CPU数量、内存容量、磁盘容量、网卡数量、IP地址、CPU的使用率、内存使用率;A2、采集计算机机群节点机的如下硬件信息CPU电压、主板电压、CPU温度、机箱温度、风扇转速;A3、在SNMP协议层采集如下交换机信息交换机厂商、交换机型号、IP地址、交换机端口数、交换机VLAN数、端口带宽、VLAN编号、流入速度、流出速度、端口类型;A4、在SNMP协议层采集如下磁盘阵列信息磁盘阵列序列号、CPU类型、缓存容量、IP地址、磁盘个数、逻辑盘个数、逻辑卷个数、逻辑盘ID、逻辑盘容量、RAID类型、逻辑盘在线状态、磁盘容量、SCSI ID、磁盘运行状态。
其中,所述步骤B执行如下具体步骤B1、在机群监控软件信息数据库中存入采集到的软件信息;B2、在机群监控硬件信息数据库中存入采集到的硬件信息;B3、在机群监控磁盘信息数据库中存入采集到的磁盘信息;B4、在机群监控交换机信息数据库中存入采集到的交换机信息。
其中,所述步骤C执行如下具体步骤C1、根据报警开关状态信息过滤采集到的节点设备信息;C2、对超过报警阀值的节点设备信息,发布警示报警信息;C3、对超过关机阀值的节点机硬件信息,发布故障报警信息并关闭节点机。
其中,所述步骤D包括如下具体步骤
D1、从机群监控信息数据库中提取历史节点设备信息;D2、根据提取的历史节点设备信息及采集到的当前节点设备信息预测下一时间段的发生值,并发布预警信息;D3、对历史节点信息进行分析统计。
其中,所述步骤C2执行如下具体步骤C21、将大于上限报警阀值并小于上限关机阀值的节点设备信息作为警示报警信息发布短信息、电子邮件及在管理主机上告警;C22、将小于下限报警阀值并大于下限关机阀值的节点设备信息作为警示报警信息发布短信息、电子邮件及在管理主机上告警。
其中,所述步骤C3执行如下具体步骤C31、将大于上限关机阀值的节点机硬件信息作为故障报警信息发布短信息、电子邮件及在管理主机上告警,并关闭此节点机;C32、将小于下限关机阀值的节点机硬件信息作为故障报警信息发布短信息、电子邮件及在管理主机上告警,并关闭此节点机。
本发明提供的一种计算机机群监控方法,具有如下有益效果它不仅能够提供对整个计算机机群系统节点设备软硬件信息的采集、存贮、分析报警及节点机危情关机,而且还能提供对计算机机群系统节点设备软硬件信息的预警发布及历史信息分析统计。
图1为智能化计算机机群系统监控步骤示意图;图2为采集节点设备信息执行步骤示意图;图3为将设备信息存入机群监控数据库执行步骤示意图;图4为过滤出报警信息并报警或关机操作步骤示意图;图5为根据采集到的设备信息发布预警信息操作步骤示意图;
图6为对超过报警阀值的节点设备信息,发布报警信息操作步骤示意图;图7为对超过关机阀值的节点机硬件信息,关闭节点机操作步骤示意图;图8为节点卡结构示意图;图9为采集卡结构示意图。
具体实施例方式
在本发明上述技术方案的设计思想下,如图1所示,采取以下操作步骤予以实施A、集机群中节点设备信息;B、将采集到的设备信息存入机群监控信息数据库;C、从采集到的设备信息中过滤出报警信息并报警或关机;D、根据采集到的设备信息发布预警信息及进行历史信息分析统计。
本发明可以有多种,下面通过具体实施例予以说明。
实施例一本实施例为本发明的一种优选实施方式,如图1、图2所示,采用以下操作步骤A1、采集计算机机群节点机的如下软件信息节点ID、主机名、操作系统名称、操作系统版、CPU类型、CPU主频、CPU数量、内存容量、磁盘容量、网卡数量、IP地址、CPU的使用率、内存使用率;A2、采集计算机机群节点机的如下硬件信息CPU电压、主板电压、CPU温度、机箱温度、风扇转速;A3、在SNMP协议层采集如下交换机信息交换机厂商、交换机型号、IP地址、交换机端口数、交换机VLAN数、端口带宽、VLAN编号、流入速度、流出速度、端口类型;A4、在SNMP协议层采集如下磁盘阵列信息磁盘阵列序列号、CPU类型、缓存容量、IP地址、磁盘个数、逻辑盘个数、逻辑卷个数、逻辑盘ID、逻辑盘容量、RAID类型、逻辑盘在线状态、磁盘容量、SCSI ID、磁盘运行状态。
B、将采集到的设备信息存入机群监控信息数据库;C、从采集到的设备信息中过滤出报警信息并报警或关机;D、根据采集到的设备信息发布预警信息及进行历史信息分析统计。
在本实施例中,监控主机在网络上发布软件采集命令,节点机采集本机软件信息,并通过网络传给监控主机;节点机的硬件信息通过设置于节点机上的节点卡采集硬件信息,并通过节点机之间的菊花链连接方式传给监控主机的采集卡,监控主机从其采集卡上提取各节点机的硬件信息。节点卡的结构如图8所示,节点卡上设有微控制器(MCU)芯片、监控芯片、RS232和RS485串口电路,RS485以菊花链的连接方式连接到采集卡的RS485串口;采集卡的结构如图9所示,采集卡上设有转换电路、RS232串口电路,接收节点卡信息的RS485串口电路。网络中的交换机及磁盘阵列信息,是在SNMP协议层下通过普通网络采集信息。
实施例二本实施例为本发明的进一步优选实施方式,如图1、图2、图3所示,采用以下操作步骤A1、采集计算机机群节点机的如下软件信息节点ID、主机名、操作系统名称、操作系统版、CPU类型、CPU主频、CPU数量、内存容量、磁盘容量、网卡数量、IP地址、CPU的使用率、内存使用率;A2、采集计算机机群节点机的如下硬件信息CPU电压、主板电压、CPU温度、机箱温度、风扇转速;A3、在SNMP协议层采集如下交换机信息交换机厂商、交换机型号、IP地址、交换机端口数、交换机VLAN数、端口带宽、VLAN编号、流入速度、流出速度、端口类型;A4、在SNMP协议层采集如下磁盘阵列信息磁盘阵列序列号、CPU类型、缓存容量、IP地址、磁盘个数、逻辑盘个数、逻辑卷个数、逻辑盘ID、逻辑盘容量、RAID类型、逻辑盘在线状态、磁盘容量、SCSI ID、磁盘运行状态。
B1、在机群监控软件信息数据库中存入采集到的软件信息;B2、在机群监控硬件信息数据库中存入采集到的硬件信息;B3、在机群监控磁盘信息数据库中存入采集到的磁盘信息;B4、在机群监控交换机信息数据库中存入采集到的交换机信息。
C、从采集到的设备信息中过滤出报警信息并报警或关机;D、根据采集到的设备信息发布预警信息及进行历史信息分析统计。
在本实施例中,与实施例一相比,机群监控软件信息数据库、机群监控硬件信息数据库、机群监控磁盘信息数据库及机群监控交换机信息数据库采用MySQL数据库系统。
实施例三本实施例为本发明的更进一步优选实施方式,如图1、图2、图3、图4所示,采用以下操作步骤A1、采集计算机机群节点机的如下软件信息节点ID、主机名、操作系统名称、操作系统版、CPU类型、CPU主频、CPU数量、内存容量、磁盘容量、网卡数量、IP地址、CPU的使用率、内存使用率;A2、采集计算机机群节点机的如下硬件信息CPU电压、主板电压、CPU温度、机箱温度、风扇转速;A3、在SNMP协议层采集如下交换机信息交换机厂商、交换机型号、IP地址、交换机端口数、交换机VLAN数、端口带宽、VLAN编号、流入速度、流出速度、端口类型;A4、在SNMP协议层采集如下磁盘阵列信息磁盘阵列序列号、CPU类型、缓存容量、IP地址、磁盘个数、逻辑盘个数、逻辑卷个数、逻辑盘ID、逻辑盘容量、RAID类型、逻辑盘在线状态、磁盘容量、SCSI ID、磁盘运行状态。
B1、在机群监控软件信息数据库中存入采集到的软件信息;
B2、在机群监控硬件信息数据库中存入采集到的硬件信息;B3、在机群监控磁盘信息数据库中存入采集到的磁盘信息;B4、在机群监控交换机信息数据库中存入采集到的交换机信息。
C1、根据报警开关状态信息过滤采集到的节点设备信息;C2、对超过报警阀值的节点设备信息,发布警示报警信息;C3、对超过关机阀值的节点机硬件信息,发布故障报警信息并关闭节点机。
D、根据采集到的设备信息发布预警信息及进行历史信息分析统计。
在本实施例中,与实施例二相比,电压警示报警阀值为正常工作电压的±20%、电压故障关机阀值为正常工作电压的±30%、CPU及机箱警示报警温度为62℃、CPU及机箱故障报警温度为65℃。
实施例四本实施例为本发明的又一优选实施方式,如图1、图2、图3、图4、图5所示,采用以下操作步骤A1、采集计算机机群节点机的如下软件信息节点ID、主机名、操作系统名称、操作系统版、CPU类型、CPU主频、CPU数量、内存容量、磁盘容量、网卡数量、IP地址、CPU的使用率、内存使用率;A2、采集计算机机群节点机的如下硬件信息CPU电压、主板电压、CPU温度、机箱温度、风扇转速;A3、在SNMP协议层采集如下交换机信息交换机厂商、交换机型号、IP地址、交换机端口数、交换机VLAN数、端口带宽、VLAN编号、流入速度、流出速度、端口类型;A4、在SNMP协议层采集如下磁盘阵列信息磁盘阵列序列号、CPU类型、缓存容量、IP地址、磁盘个数、逻辑盘个数、逻辑卷个数、逻辑盘ID、逻辑盘容量、RAID类型、逻辑盘在线状态、磁盘容量、SCSI ID、磁盘运行状态。
B1、在机群监控软件信息数据库中存入采集到的软件信息;B2、在机群监控硬件信息数据库中存入采集到的硬件信息;B3、在机群监控磁盘信息数据库中存入采集到的磁盘信息;B4、在机群监控交换机信息数据库中存入采集到的交换机信息。
C1、根据报警开关状态信息过滤采集到的节点设备信息;C2、对超过报警阀值的节点设备信息,警示发布报警信息;C3、对超过关机阀值的节点机硬件信息,发布故障报警信息并关闭节点机。
D1、从机群监控信息数据库中提取历史节点设备信息;D2、根据提取的历史节点设备信息及采集到的当前节点设备信息预测下一时间段的发生值,并发布预警信息;D3、对历史节点信息进行分析统计。
在本实施例中,与实施例三相比,下一预测样本值X由下述公式计算得出X=Σn=MM-N+1ωnXn+ΔX]]>其中历史节点信息样本个数N=10,样本信息采集时间间隔为1秒,第M样本为当前值,其中ωn是经验值,一般我们认为当前样本对预测值的影响最大,ωM取值在0.8~0.9之间,而Σn=MM-N+1ωn=1.]]>ΔX的计算方法为1、利用式1-1的差分公式得到差分集合{ΔXn|n=M,...,M-N+1}。
ΔXn=Xn-Xn-1(1-1)2、利用{ΔXn|n=M,...,M-N+1}得到预测偏移ΔX,计算公式如下ΔX=2(N-1)2(N-1)ΔXM+2(N-1)-32(N-1)ΔXM-1+···+12(N-1)ΔXM-N+1]]>在本实施例中,对历史节点信息的统计分统计,采用按小时、日、周、月的方式进行报表统计。
实施例五本实施例为本发明的又一优选实施方式,如图1、图2、图3、图4、图5、图6所示,采用以下操作步骤A1、采集计算机机群节点机的如下软件信息节点ID、主机名、操作系统名称、操作系统版、CPU类型、CPU主频、CPU数量、内存容量、磁盘容量、网卡数量、IP地址、CPU的使用率、内存使用率;A2、采集计算机机群节点机的如下硬件信息CPU电压、主板电压、CPU温度、机箱温度、风扇转速;A3、在SNMP协议层采集如下交换机信息交换机厂商、交换机型号、IP地址、交换机端口数、交换机VLAN数、端口带宽、VLAN编号、流入速度、流出速度、端口类型;A4、在SNMP协议层采集如下磁盘阵列信息磁盘阵列序列号、CPU类型、缓存容量、IP地址、磁盘个数、逻辑盘个数、逻辑卷个数、逻辑盘ID、逻辑盘容量、RAID类型、逻辑盘在线状态、磁盘容量、SCSI ID、磁盘运行状态。
B1、在机群监控软件信息数据库中存入采集到的软件信息;B2、在机群监控硬件信息数据库中存入采集到的硬件信息;B3、在机群监控磁盘信息数据库中存入采集到的磁盘信息;B4、在机群监控交换机信息数据库中存入采集到的交换机信息。
C1、根据报警开关状态信息过滤采集到的节点设备信息;C21、将大于上限报警阀值并小于上限关机阀值的节点设备信息作为警示报警信息发布短信息、电子邮件及在管理主机上告警;C22、将小于下限报警阀值并大于下限关机阀值的节点设备信息作为警示报警信息发布短信息、电子邮件及在管理主机上告警。
C3、对超过关机阀值的节点机硬件信息,发布故障报警信息并关闭节点机。
D1、从机群监控信息数据库中提取历史节点设备信息;D2、根据提取的历史节点设备信息及采集到的当前节点设备信息预测下一时间段的发生值,并发布预警信息;D3、对历史节点信息进行分析统计。
在本实施例中,与实施例四相比,警示报警信息以通过向指定手机发送短信、向指定地址发送电子邮件及在监控主机上显示报警信息,三种方式发布。
实施例六本实施例为本发明的又一优选实施方式,如图1、图2、图3、图4、图5、图6、图7所示,采用以下操作步骤A1、采集计算机机群节点机的如下软件信息节点ID、主机名、操作系统名称、操作系统版、CPU类型、CPU主频、CPU数量、内存容量、磁盘容量、网卡数量、IP地址、CPU的使用率、内存使用率;A2、采集计算机机群节点机的如下硬件信息CPU电压、主板电压、CPU温度、机箱温度、风扇转速;A3、在SNMP协议层采集如下交换机信息交换机厂商、交换机型号、IP地址、交换机端口数、交换机VLAN数、端口带宽、VLAN编号、流入速度、流出速度、端口类型;A4、在SNMP协议层采集如下磁盘阵列信息磁盘阵列序列号、CPU类型、缓存容量、IP地址、磁盘个数、逻辑盘个数、逻辑卷个数、逻辑盘ID、逻辑盘容量、RAID类型、逻辑盘在线状态、磁盘容量、SCSI ID、磁盘运行状态。
B1、在机群监控软件信息数据库中存入采集到的软件信息;B2、在机群监控硬件信息数据库中存入采集到的硬件信息;B3、在机群监控磁盘信息数据库中存入采集到的磁盘信息;
B4、在机群监控交换机信息数据库中存入采集到的交换机信息。
C1、根据报警开关状态信息过滤采集到的节点设备信息;C21、将大于上限报警阀值并小于上限关机阀值的节点设备信息作为警示报警信息发布短信息、电子邮件及在管理主机上告警;C22、将小于下限报警阀值并大于下限关机阀值的节点设备信息作为警示报警信息发布短信息、电子邮件及在管理主机上告警。
C31、将大于上限关机阀值的节点机硬件信息作为故障报警信息发布短信息、电子邮件及在管理主机上告警,并关闭此节点机;C32、将小于下限关机阀值的节点机硬件信息作为故障报警信息发布短信息、电子邮件及在管理主机上告警,并关闭此节点机。
D1、从机群监控信息数据库中提取历史节点设备信息;D2、根据提取的历史节点设备信息及采集到的当前节点设备信息预测下一时间段的发生值,并发布预警信息。
D3、对历史节点信息进行分析统计。
在本实施例中,与实施例五相比,关机故障报警信息以通过向指定手机发送短信、向指定地址发送电子邮件及在监控主机上显示故障报警信息,三种方式发布。
最后应当说明的是以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解依然可以对本发明的具体实施方式
进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
权利要求
1.一种智能化计算机机群系统监控方法,其特征在于,包括如下操作步骤A、采集机群中节点设备信息;B、将采集到的设备信息存入机群监控信息数据库;C、从采集到的设备信息中过滤出报警信息并报警或关机;D、根据采集到的设备信息发布预警信息及进行历史信息分析统计。
2.如权利要求1所述的智能化计算机机群系统监控方法,其特征在于,所述步骤A执行如下具体步骤A1、采集计算机机群节点机的如下软件信息节点ID、主机名、操作系统名称、操作系统版、CPU类型、CPU主频、CPU数量、内存容量、磁盘容量、网卡数量、IP地址、CPU的使用率、内存使用率;A2、采集计算机机群节点机的如下硬件信息CPU电压、主板电压、CPU温度、机箱温度、风扇转速;A3、在SNMP协议层采集如下交换机信息交换机厂商、交换机型号、IP地址、交换机端口数、交换机VLAN数、端口带宽、VLAN编号、流入速度、流出速度、端口类型;A4、在SNMP协议层采集如下磁盘阵列信息磁盘阵列序列号、CPU类型、缓存容量、IP地址、磁盘个数、逻辑盘个数、逻辑卷个数、逻辑盘ID、逻辑盘容量、RAID类型、逻辑盘在线状态、磁盘容量、SCSI ID、磁盘运行状态。
3.如权利要求1所述的智能化计算机机群系统监控方法,其特征在于,所述步骤B执行如下具体步骤B1、在机群监控软件信息数据库中存入采集到的软件信息;B2、在机群监控硬件信息数据库中存入采集到的硬件信息;B3、在机群监控磁盘信息数据库中存入采集到的磁盘信息;B4、在机群监控交换机信息数据库中存入采集到的交换机信息。
4.如权利要求1所述的智能化计算机机群系统监控方法,其特征在于,所述步骤C执行如下具体步骤C1、根据报警开关状态信息过滤采集到的节点设备信息;C2、对超过报警阀值的节点设备信息,发布警示报警信息;C3、对超过关机阀值的节点机硬件信息,发布故障报警信息并关闭节点机。
5.如权利要求1所述的智能化计算机机群系统监控方法,其特征在于,所述步骤D包括如下具体步骤D1、从机群监控信息数据库中提取历史节点设备信息;D2、根据提取的历史节点设备信息及采集到的当前节点设备信息预测下一时间段的发生值,并发布预警信息;D3、对历史节点信息进行分析统计。
6.如权利要求1或4所述的智能化计算机机群系统监控方法,其特征在于,所述步骤C2执行如下具体步骤C21、将大于上限报警阀值并小于上限关机阀值的节点设备信息作为警示报警信息发布短信息、电子邮件及在管理主机上告警;C22、将小于下限报警阀值并大于下限关机阀值的节点设备信息作为警示报警信息发布短信息、电子邮件及在管理主机上告警。
7.如权利要求1或4所述的智能化计算机机群系统监控方法,其特征在于,所述步骤C3执行如下具体步骤C31、将大于上限关机阀值的节点机硬件信息作为故障报警信息发布短信息、电子邮件及在管理主机上告警,并关闭此节点机;C32、将小于下限关机阀值的节点机硬件信息作为故障报警信息发布短信息、电子邮件及在管理主机上告警,并关闭此节点机。
全文摘要
本发明公开了一种智能化计算机机群监控方法,涉及计算机机群监控软件控制领域,它不仅能够提供对整个计算机机群系统节点设备软硬件信息的采集、存贮、分析报警及节点机危情关机,而且还能提供对计算机机群系统节点设备软硬件信息的预警发布及历史信息分析统计。包括如下操作步骤A.采集机群中节点设备信息;B.将采集到的设备信息存入机群监控信息数据库;C.从采集到的设备信息中过滤出报警信息并报警或关机;D.根据采集到的设备信息发布预警信息及进行历史信息分析统计。本发明公开的智能化计算机机群监控方法,用于对计算机机群系统实施监控,使计算机机群系统工作更加安全可靠。
文档编号H04L12/24GK1929411SQ20061011238
公开日2007年3月14日 申请日期2006年9月4日 优先权日2006年9月4日
发明者孙东明, 倪素萍, 何国才 申请人:曙光信息产业(北京)有限公司