专利名称:一种面向网格的监控系统及方法
技术领域:
本发明涉及网格计算机环境和高性能机群服务器技术领域,特别是一种面向网格的监控系统及方法。
背景技术:
网格的出现是为了满足当今日益膨胀的计算需求。机群是当今高性能计算中一种质优价廉的解决方案,机群加入网格,大大增强了网格的计算能力,同时,网格环境中大量的计算资源都需要及时有效的了解它们的状态,这对于一个计算环境能否正常运行和形成计算能力有着重要的意义,所以,这就要求我们能够有一套有效的监控系统来监控大规模的计算资源。
以往的机群监控系统有着一些不足,首先,以往的机群监控系统往往只是对自身状态的监控,并不支持新生的网格技术,其次,以往的机群监控系统一般采用Client/Server(客户机/服务器)模式的两层结构,这样一来对机群本身规模限制过多,一旦机群规模发生变化,特别是规模增长数倍的时候,监控系统很难适应,第三,以往的监控系统大多是从物理视图的角度对机群内部某个(些)节点的运行状态进行描述,而不能从逻辑视图的角度对机群内部某一类资源的状态进行描述。
发明内容
鉴于现有的机群监控系统及方法的不足,本发明提供了一种新的面向网格的监控系统及方法。为网格环境管理人员提供了一套对网格环境中成员的工作状态进行监控的工具,系统及方法提供了一套对加入网格的机群服务器工作状态进行监控的工具,也同时构造了一个多层次的监控环境,在网络环境中实现了对被监控机群服务器进行状态信息采集、状态信息汇总、状态信息整理、状态信息存储、状态信息显示的功能。
本发明的技术方案a.分为5个层次的框架结构监控系统整体从结构上分为5个层次,它们分别为结点信息采集层、组信息管理层、机群信息管理层、网格信息管理层、网格监控层。见面向网格的机群监控系统结构示意图。这种多层次的系统构架使得本监控系统很容易适应各种规模的机群,从几个结点的规模到上千个结点的规模,都可以完成对它们的监控。
b.结点信息采集层采集资源状态信息结点信息采集层由软件信息采集器和硬件信息采集器构成。
软件信息采集器通过定时读取系统参数获取系统数据,并通过通信接口将所测量的当前系统软件信息传递给组信息管理器。它与组信息管理器间通过握手协议建立连接,并确认所传递的数据信息。软件监控模块所需要监控的数据主要包括中央处理器使用情况、系统内存容量及使用情况、系统交互分区大小及使用情况、磁盘使用情况(读写操作的繁忙程度)、各套网络的状态(通断)、收发包情况、丢包率、应用程序运行的状态。
硬件信息采集器是个硬件设备,它通过I2C协议将系统硬件状态数据由串行口传递到组信息管理器。硬件信息采集器所采集的数据主要包括各个硬件设备的电压值和工作温度、各个风扇转速等。
c.组信息管理层整理、显示、传输资源状态信息组信息管理层由组信息管理器构成。
组信息管理器管理着组内(不超过128个结点)所有结点的状态信息,包括各个软件侦测项目和硬件侦测项目。每隔一个采集周期,它会向每个结点上的软件和硬件信息采集器索要采集结果,然后将所收集到的数据整理,传递给机群管理器,同时,每个组管理器也配备有液晶显示屏,组内成员的状态信息也会同时显示在上面。它与机群管理器间通过握手协议建立连接,并确认所传递的数据内容。
d.机群信息管理层汇总整理、传输资源状态信息机群信息管理层由机群信息管理器构成。
机群管理器负责收集、管理、传递机群内部所有结点的信息,它通过握手协议通知组信息管理器定期将所监控的数据传递过来,整理出当前最新数据集合后传递给网格服务器。考虑到机群服务器与网格服务器之间的操作系统平台可能为异构,所以在本系统中,采用符合XML(Extensible Markup Language可扩展标记语言)标准格式的字符串数据流传递信息。在机群信息管理器和网格服务器通过握手协议建立连接后,将此数据流传递给网格服务器。
e.网格信息管理层管理(利用数据库)所有机群资源状态信息网格信息管理层由网格信息管理器和数据库服务器构成。
网格服务器通过握手协议通知网格所管理的机群管理器将该机群系统的当前监测数据集传递过来,然后通过网格服务器内部的XML解释器将机群信息管理器传递过来的机群状态信息(XML标准格式的文本块)还原并做相应的检查,状态值符合报警条件的要做报警通知,再将整理好的状态数据标记上时间戳和报警标记,利用数据库服务器存入相应的数据库表中。此外,网格服务器将根据配置信息定期备份历史记录信息,以保证数据库正常运行。
f.网格监控层显示被监控机群的各类资源状态信息网格监控显示层由网格视图终端构成。
网格视图终端的界面由一组视图组成,它包括静态信息视图、实时信息视图和历史数据分析视图三类。通过图形的方式将网格中各个机群的信息表示出来,网格视图终端的数据来源于数据库服务器。静态信息视图按照网格上每个机群为单位显示其中央处理器信息、内存大小、硬盘容量等。实时信息视图以柱状图或者折线图形式动态显示机群中各节点中央处理器利用率、内存利用率、交互分区利用率、硬盘利用率,以及硬件故障情况,包括电压、电流不稳,风扇停转,温度异常等。历史数据分析视图以时间为序、机群整体为分析对象,给出机群内所有节点的中央处理器使用情况、硬盘工作状态、内存利用率、交互分区利用率的变化趋势,分析当前网格内机群的性能是否能满足当前应用的需求,同时,以时间为序,统计软、硬件故障点及故障频率,以便协助进行软、硬件的升级。视图也是以柱状图和折线图的形式显示。
图1是本发明的面向网格的监控系统结构示意图;图2是本发明的图1的面向网格的监控系统的部署示意图;图3是本发明的面向网格的监控系统流程图。
具体实施例方式
如图1中所示,将面向网格的监控系统从结构上分为5个层次、6个器件,它们分别为结点信息采集层1、组信息管理层2、机群信息管理层3、网格信息管理层4、网格监控层5。结点信息采集层1连接于组信息管理层2,组信息管理层2连接于机群信息管理层3,机群信息管理层3连接于网格信息管理层4,网格信息管理层4连接于网格监控层5。
结点信息采集层1包括软件信息采集器、硬件信息采集器,组信息管理层2包括组信息管理器,机群信息管理层3包括机群信息管理器,网格信息管理层4包括网格信息管理器,网格监控层5包括网格视图终端。
面向网格的监控系统总体上讲由机群监控和网格监控两个部分组成,其中机群监控由结点信息采集、组信息管理和机群信息管理三部分组成。结点信息采集分为软件信息采集和硬件信息采集两个部分。每个结点上的软、硬件信息采集器把收集到的结点软、硬件信息传递到组信息管理器,组信息管理器管理组内所有成员(结点)的当前状态信息,若干个组信息管理器的信息汇总到机群信息管理器内,机群信息管理器是机群与网格信息管理器之间联系的桥梁,它向网格信息管理器提供着该机群的状态及系统信息。来自各个机群的信息在网格信息管理器汇总,网格信息管理器要收集、处理并利用数据库保存这些不断发送过来的数据,为管理员监控网格上的每个格点状态,了解格点的历史运行信息提供了数据。网格视图终端是一组图形化界面管理工具,它通过从数据库中获取格点当前以及历史状态信息,并以图形化的界面展示给管理员方式,使得管理员直观、及时、准确的获取被监测格点的当前及历史状态信息。
图2面向网格的监控系统的部署示意图如图2中所示,应用了本方法的监控系统将每个模块部署在网格环境中相应的结点上,形成一套完整的监控系统,并协调工作。
软、硬件信息采集器部署在机群内部各个计算结点上,负责收集该结点的软、硬件状态信息;组信息管理器部署在机群内部组管理结点上,负责汇总组内各个结点的状态信息;机群信息管理器部署在机群网络出口(同时拥有外网和内网)的结点上,负责汇总各个组的状态信息;网格信息管理器部署在机群外部的网格信息管理服务器上,负责和各个机群通信,并从各个机群信息管理器处获得各个机器的状态信息,同时将数据存入数据库;网格视图终端部署在和数据库有网络连接的终端上,对数据库中的各种状态信息进行显示。
图3是本发明的面向网格的监控系统流程图。其步骤S1软件信息采集器和硬件信息采集器分别周期性的收集该结点的软件和硬件的运行状态信息,各个结点的状态信息周期性的汇总于所属组信息管理器,步骤S2各个组信息管理器收集、整理管理的各个结点状态信息周期性的汇总于机群信息管理器,步骤S3各个机群信息管理器收集、整理管理的各个组状态信息周期性的汇总于网格信息管理器,步骤S4网格信息管理器周期性的将所管理的所有机群状态信息整理并存入数据库,步骤S5网格视图终端从数据库中取得所需信息进行显示。
本发明的效果体现在1.现有的机群监控系统并不支持网格技术,本发明提出了机群监控系统对网格技术的支持,具有很高的现实意义。
2.本监控系统和方法的多层次的体系结构更容易适应不通规模的机群,较之以往机群监控系统采用的Client/Server模式的两层结构有着更好的克扩展性。
3.本监控系统和方法利用数据库技术对大量的状态数据进行管理,定期备份,并为数据分析工具提供源数据,极大的方便了管理人员对被监控机群历史运行状态数据的分析。
4.本监控系统和方法提出了视图逻辑层次的可缩放性,为管理员提供了不同的视角来观察被监测格点的各种资源的状态,管理员既可以将格点内所有结点当作一个整体来观察它的某类资源状态,也可以查看格点内任意结点的某种资源使用状况。
5.本监控系统和方法在数据在从机群传递到网格服务器的时候,使用了XML技术,避免了一些异构平台之间数据交换时容易产生的错误。
权利要求
1.一种面向网格的监控系统及方法,为网格环境管理人员提供了一套对网格环境中成员的工作状态进行监控的工具,其特征在于该方法将监控系统分为五个层次、六个器件,包括结点信息采集层(软件信息采集器、硬件信息采集器)、组信息管理层(组信息管理器)、机群信息管理层(机群信息管理器)、网格信息管理层(网格信息管理器)、网格监控层(网格视图终端),本方法通过由软件信息采集器、硬件信息采集器周期性采集底层结点系统状态信息,组信息管理器周期性的从软、硬件信息采集器收集、整理每个组成员(结点)的状态信息,机群信息管理器周期性的从每个组信息管理器收集、整理每个组信息管理器管理的状态数据,然后由网格信息管理器负责收集、整理、保存(利用MySQL数据库)所有加入网格监控的机群的状态数据集合,所有的机群状态数据入库后,网格视图会终端从MySQL数据库中将这些状态数据读取出来,并用图形的方式将各种类型的被监控对象的状态数据显示给管理员,从而达到对网格环境中成员运行状态进行监控的目的,在本方法中,网格视图终端与MySQL数据库之间的通信方式采用基于JDBC(Java DataBase Connectivity-Java数据库连接)的通信模式,除此以外不同层次的模块间通信采用基于socket(套接字)的通信模式来完成。
2.如权利要求1所述的面向网格的监控系统及方法,其特征在于为网格环境管理人员提供了一套对网格环境中成员的工作状态进行监控的工具,使得网格管理人员可以随时了解到网格环境中各种机群的当前运行状态和历史运行状态。
3.如权利要求1所述的面向网格的监控系统及方法,其特征在于本方法将监控系统分为五个层次、六个功能模块,包括结点信息采集层(软件信息采集器、硬件信息采集器)、组信息管理层(组信息管理器)、机群信息管理层(机群信息管理器)、网格信息管理层(网格信息管理器)、网格监控层(网格视图终端)。
4.如权利要求1所述的面向网格的监控系统及方法,其特征在于由软件信息采集器周期性采集底层结点软件状态信息。
5.如权利要求1所述的面向网格的监控系统及方法,其特征在于由硬件信息采集器周期性采集底层结点硬件状态信息。
6.如权利要求1所述的面向网格的监控系统及方法,其特征在于组信息管理器周期性的从软、硬件信息采集器收集、整理每个组成员(结点)的状态信息。
7.如权利要求1所述的面向网格的监控系统及方法,其特征在于组信息管理器与下层软件信息管理器的通信采用基于socket的通信方式。
8.如权利要求1所述的面向网格的监控系统及方法,其特征在于机群信息管理器周期性的从每个组信息管理器收集、整理每个组信息管理器管理的状态数据。
9.如权利要求1所述的面向网格的监控系统及方法,其特征在于机群信息管理器与下层组信息管理器的通信采用基于socket的通信方式。
10.如权利要求1所述的面向网格的监控系统及方法,其特征在于网格信息管理器负责收集、整理、保存(利用MySQL数据库)所有加入网格监控的机群的状态数据集合。
11.如权利要求1所述的面向网格的监控系统及方法,其特征在于网格信息管理器与下层机群信息管理器的通信采用基于socket的通信方式。
12.如权利要求1所述的面向网格的监控系统及方法,其特征在于由网格视图终端从MySQL数据库中将相应机群的状态数据读取出来,并用图形的方式将各种类型的被监控对象的状态数据显示给管理员。
13.如权利要求1所述的面向网格的监控系统及方法,其特征在于由网格视图终端从MySQL数据库中将这些状态数据读取出来,并从机群资源的逻辑视角将这些资源的状态数据显示给管理员。
14.如权利要求1所述的面向网格的监控系统及方法,其特征在于网格视图终端与下层MySQL数据库间通信采用基于JDBC的通信模式来完成。
15.一种面向网格的监控系统,由五个层次和六个器件组成,包括结点信息采集层、组信息管理层、机群信息管理层、网格信息管理层和网格监控层,其特征在于,结点信息采集层连接于组信息管理层,组信息管理层连接于机群信息管理层,机群信息管理层连接于网格信息管理层,网格信息管理层连接于网格监控层。
16.根据权利要求15的面向网格的监控系统,其特征在于,结点信息采集层包括软件信息采集器、硬件信息采集器,组信息管理层包括组信息管理器,机群信息管理层包括机群信息管理器,网格信息管理层包括网格信息管理器和数据库,网格监控层包括网格视图终端。
17.一种面向网格的监控系统的方法,其步骤如下步骤S1软件信息采集器和硬件信息采集器分别周期性的收集该结点的软件和硬件的运行状态信息,各个结点的状态信息周期性的汇总于所属组信息管理器,步骤S2各个组信息管理器收集、整理管理的各个结点状态信息周期性的汇总于机群信息管理器,步骤S3各个机群信息管理器收集、整理管理的各个组状态信息周期性的汇总于网格信息管理器,步骤S4网格信息管理器周期性的将所管理的所有机群状态信息整理并存入数据库,步骤S5网格视图终端从数据库中取得所需信息进行显示。
全文摘要
本发明涉及网格计算机的面向网格的监控系统及方法。将监控系统分为五个层次、六个器件。包括结点信息采集层、组信息管理层、机群信息管理层、网格信息管理层和网格监控层。本方法通过由软、硬件信息采集器定期采集系统状态信息,组信息管理器定期从软、硬件信息采集器收集、整理每个结点状态信息,机群信息管理器定期从每个组信息管理器收集、整理每个组信息管理器管理的状态数据,网格信息管理器定期收集、整理、保存所有加入网格监控的机群状态数据,所有机群状态数据入库后,网格视图终端从数据库中将这些状态数据读取出来,以图形方式将各种类型的状态数据显示给管理员,达到对网格环境中成员运行状态监控的目的。
文档编号H04L12/24GK1547356SQ20031011940
公开日2004年11月17日 申请日期2003年12月10日 优先权日2003年12月10日
发明者李博, 马捷, 李 博 申请人:中国科学院计算技术研究所