一种用于并行系统的监测方法

文档序号:6624171阅读:341来源:国知局
一种用于并行系统的监测方法
【专利摘要】本发明公开了一种用于并行系统的监测方法,在并行系统中增加一个监测进程,通过这个监测进程实时收集、监测并行系统中的各个进程的状态,根据收集到的状态对并行系统进行状态统计,一旦发现并行系统中进程异常以及进程处理业务出现异常,马上进行告警处理,把异常信息输出到指定桌面系统,严重信息通过电话或短信直接通知到负责人,使得问题能够得到及时发现,减少系统出现异常时带来的损失,通过监测进程定时统计监测并进行告警,能够实时掌握并行系统的进程状态,对整个并行系统维护带来方便。
【专利说明】-种用于并行系统的监测方法

【技术领域】
[0001] 本发明涉及计算机的领域,尤其涉及一种用于并行系统的监测方法。

【背景技术】
[0002] 在大数据分析等并行系统中,系统的稳定性、系统各个进程的运行状态以及数据 处理状态一般很难进行计算与统计,这样就不能实时知道整个并行系统的运行、处理情况, 基于这种现状,当发现并行系统出现问题时,往往已经造成了较严重的后果,尤其是基于实 时大数据处理的并行系统而言,造成的损失更大。


【发明内容】

[0003] 本发明主要解决的技术问题是提供一种用于并行系统的监测方法,在并行系统中 增加一个监测进程,通过这个监测进程实时收集、监测并行系统中的各个进程的状态,根据 收集到的状态对并行系统进行状态统计,一旦发现并行系统中进程异常以及进程处理业务 出现异常,马上进行告警处理,把异常信息输出到指定桌面系统,严重信息通过电话或短信 直接通知到负责人,使得问题能够得到及时发现,减少系统出现异常时带来的损失,通过监 测进程定时统计监测并进行告警,能够实时掌握并行系统的进程状态,对整个并行系统维 护带来方便。
[0004] 为解决上述技术问题,本发明采用的一个技术方案是:提供了一种用于并行系统 的监测方法,包括以下步骤: a、 在分布式主机部署监测进程,各个分布式进程启动时,获取分布式进程的唯一标识 号; b、 分布式进程启动时,向分布式主机中的监测进程注册,分布式主机中的监测进程收 到注册信息后,把请求注册信息与请求进程的主机IP地址对应起来保存在内存Μ中; c、 分布式主机中的监测进程定时轮询Μ,向各个分布式进程发送握手信息,分布式进程 收到握手信息后,把各自进程所在机器的情况信息反馈给分布式主机中的监测进程,监测 进程统计收到的各个分布式进程的反馈信息,发现异常进行告警处理; d、 分布式进程向监测进程注册成功后,动分布式进程与监测进程之间保活的心跳线 程,定时向主机监测进程发送心跳消息,主机监测进程及时响应分布式进程的心跳消息,一 旦心跳消息出现异常后,分布式进程定时向主机监测进程重新注册,直到注册成功。
[0005] 在本发明一个较佳实施例中,所述的步骤a中唯一标识号的构成为:进程所在机 器的MAC地址+进程名称。
[0006] 在本发明一个较佳实施例中,所述的步骤b中注册信息的格式构成:进程唯一标 识号&&进程类型。
[0007] 在本发明一个较佳实施例中,所述的步骤c中的情况信息包括cpu利用率、进程占 用内存大小以及进程空闲时间信息。
[0008] 在本发明一个较佳实施例中,所述的步骤d中心跳消息出现异常的情况为连续3 次没有收到心跳消息的响应。
[0009] 在本发明一个较佳实施例中,所述的监测方法采用双轮询机制。
[0010] 本发明的有益效果是:本发明的用于并行系统的监测方法,在并行系统中增加一 个监测进程,通过这个监测进程实时收集、监测并行系统中的各个进程的状态,根据收集到 的状态对并行系统进行状态统计,一旦发现并行系统中进程异常以及进程处理业务出现异 常,马上进行告警处理,把异常信息输出到指定桌面系统,严重信息通过电话或短信直接通 知到负责人,使得问题能够得到及时发现,减少系统出现异常时带来的损失,通过监测进程 定时统计监测并进行告警,能够实时掌握并行系统的进程状态,对整个并行系统维护带来 方便。

【专利附图】

【附图说明】
[0011] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它 的附图,其中: 图1是本发明用于并行系统的监测方法的一较佳实施例的流程图; 图2主机监测进程流程图; 图3分布式进程注册与保活流程图。

【具体实施方式】
[0012] 下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施 例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通 技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范 围。
[0013] 如图1至图3所示,本发明实施例包括: 一种用于并行系统的监测方法,包括以下步骤: a、 在分布式主机部署监测进程,各个分布式进程启动时,获取分布式进程的唯一标识 号; b、 分布式进程启动时,向分布式主机中的监测进程注册,分布式主机中的监测进程收 到注册信息后,把请求注册信息与请求进程的主机IP地址对应起来保存在内存Μ中; c、 分布式主机中的监测进程定时轮询Μ,向各个分布式进程发送握手信息,分布式进程 收到握手信息后,把各自进程所在机器的情况信息反馈给分布式主机中的监测进程,监测 进程统计收到的各个分布式进程的反馈信息,发现异常进行告警处理; d、 分布式进程向监测进程注册成功后,动分布式进程与监测进程之间保活的心跳线 程,定时向主机监测进程发送心跳消息,主机监测进程及时响应分布式进程的心跳消息,一 旦心跳消息出现异常后,分布式进程定时向主机监测进程重新注册,直到注册成功。
[0014] 上述中,所述的步骤a中唯一标识号的构成为:进程所在机器的MAC地址+进程名 称;所述的步骤b中注册信息的格式构成:进程唯一标识号&&进程类型;所述的步骤c中 的情况信息包括CPU利用率、进程占用内存大小以及进程空闲时间信息;所述的步骤d中心 跳消息出现异常的情况为连续3次没有收到心跳消息的响应。
[0015] 进一步的,所述的监测方法采用双轮询机制。双轮询机制确保网络暂时中断时,分 布式进程在网络恢复时动态注册。
[0016] 具体方法为: 在分布式主机中部署分布式监测进程,各个分布式进程启动时,获取自己所在机器的 MAC地址以及进程名,向分布式主机上的分布式监测进程进行注册,注册协议格式为:MAC 地址&&进程名称;分布式主机上的监测进程接收分布式进程的注册信息,同时获取分布式 进程所在的IP地址,依据协议格式解析请求信息,把请求信息以及IP地址放入如下处理协 议结构中: 处理协议结构 { 主机IP地址; 主机物理MAC地址; 进程名称 } 然后把处理协议结构对应的一个分布式进程信息的一个实例放入到容器类型的中间 处理协议结构变量(假设变量名称为:vP)中。
[0017] 分布式主机上的监测进程定时轮询变量vP,获取vP中的分布式进程注册信息,通 过IP地址向分布式进程发握手信息,分布式进程收到握手信息后,收集该进程所在机器的 cpu利用率、进程占用内存大小以及进程空闲时间信息,把这些信息按照协议格式发送给分 布式主机上的监测进程,监测进程收到握手反馈后,按照协议格式进行解析,把解析结果放 入如下结构中: 处理状态结构 { 主机IP地址; 主机物理MAC地址; 进程名称; CPU使用率; 所占内存大小; 所占线程; 响应日期 } 然后监测进程把进程状态结构对应的一个实例放入到容器类型的处理状态结变量(假 设变量名称为:VPS)中。
[0018] 如果监测进程向一个分布式进程发送握手信息3次仍然没有收到反馈,则表明该 分布式进程存在异常或网络异常,主机监测进程就向特定机器告警,同时删除vPS变量与 vP变量中出现异常的分布式进程的信息,并把删除信息写入日志文件,同时特定机器把告 警信息实时显示在桌面,紧急信息通过短信、声音与邮件进行提醒。
[0019] 分布式进程注册成功后,定时向主机监测进程发送心跳信息,主机监测进程及时 响应分布式进程的心跳请求,分布式进程向监测进程发送心跳消息连续3次没有收到心跳 响应,则自动判断网络异常或主机监测进程异常,启动定时注册线程,定时向主机监测进程 注册,一旦网络恢复正常或主机监测进程恢复正常,则分布式进程重新注册成功,通过这种 心跳与握手双向机制,确保网络异常情况下,分布式进程与监测进程不重新启动的情况下, 分布式进程与监测进程能够有效保持畅通。
[0020] 实施例1 : 在分布式主机启动监测进程,监测进程进入工作态后,通过端口监测分布式进程的注 册信息; 分布式进程启动时,进程进入工作态后,获取本进程所在机器的MAC地址与进程名,根 据注册协议格式构造注册信息,注册协议格式为:MAC地址&&进程名,注册交换逻辑为:分 布式发送注册信息给主机监测进程,主机监测进程收到注册信息后,回复注册成功信息给 注册的进程,这样注册流程完成; 主机监测进程接收到分布式进程的注册信息后,按照协议格式进行解码,把注册的分 布式进程信息放入处理协议结构,并把结构实例放入到容器类型的处理协议变量中; 处理协议结构 { 主机IP地址; 主机物理MAC地址; 进程名称 } 监控主机定时轮询处理协议结构变量,根据该变量向对应的分布式进程发送握手消 息,分布式进程在握手响应中携带分布式主机的CPU占用率、内存利用情况等信息,监测进 程解析分布式进程的握手响应,并把信息放入到处理状态结构,把存放分布式进程信息对 应的处理状态实例放入到容器类型变量处理状态中,同时根据处理状态中的信息,计算、统 计各个分布式进程的进程状态与系统状态。
[0021] 监测进程如果连续3次收不到对应分布式进程的握手响应,则认为分布式进程异 常或网络异常,通过使用linux系统的ping命令监测网络状态,如果ping命令返回网络异 常,则发送网络异常告警,如果网络正常,则发送分布式进程异常告警,把异常的分布式进 程的信息保存在日志文件中,同时从处理状态中移除该进程的状态信息以及从处理协议中 移除该进程的注册信息; 告警主机收到分布式进程的告警信息,根据告警级别选择告警行为,严重告警级别发 送短信、声音以及邮件及时提醒,同时向告警监控屏幕输出告警信息,一般告警信息直接向 告警监控屏幕输出告警信息。
[0022] 分布式进程收到注册响应后,启动分布式进程与监测进程之间保活的心跳线程, 定时向监测进程发送心跳信息,监测进程收到分布式进程的心跳消息后,实时回应心跳响 应给对应分布式进程; 分布式进程如果连续3次收不到监测进程的心跳响应,则认为网络异常或监测进程异 常,记录异常日志到日志文件,启动注册流程,定时重新注册,直到收到注册响应。
[0023] 综上所述,本发明的揭示用于并行系统的监测方法,在并行系统中增加一个监测 进程,通过这个监测进程实时收集、监测并行系统中的各个进程的状态,根据收集到的状态 对并行系统进行状态统计,一旦发现并行系统中进程异常以及进程处理业务出现异常,马 上进行告警处理,把异常信息输出到指定桌面系统,严重信息通过电话或短信直接通知到 负责人,使得问题能够得到及时发现,减少系统出现异常时带来的损失,通过监测进程定时 统计监测并进行告警,能够实时掌握并行系统的进程状态,对整个并行系统维护带来方便。
[0024] 以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发 明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领 域,均同理包括在本发明的专利保护范围内。
【权利要求】
1. 一种用于并行系统的监测方法,其特征在于,包括以下步骤: a、 在分布式主机部署监测进程,各个分布式进程启动时,获取分布式进程的唯一标识 号; b、 分布式进程启动时,向分布式主机中的监测进程注册,分布式主机中的监测进程收 到注册信息后,把请求注册信息与请求进程的主机IP地址对应起来保存在内存Μ中; c、 分布式主机中的监测进程定时轮询Μ,向各个分布式进程发送握手信息,分布式进程 收到握手信息后,把各自进程所在机器的情况信息反馈给分布式主机中的监测进程,监测 进程统计收到的各个分布式进程的反馈信息,发现异常进行告警处理; d、 分布式进程向监测进程注册成功后,动分布式进程与监测进程之间保活的心跳线 程,定时向主机监测进程发送心跳消息,主机监测进程及时响应分布式进程的心跳消息,一 旦心跳消息出现异常后,分布式进程定时向主机监测进程重新注册,直到注册成功。
2. 根据权利要求1所述的用于并行系统的监测方法,其特征在于,所述的步骤a中唯一 标识号的构成为:进程所在机器的MAC地址+进程名称。
3. 根据权利要求1所述的用于并行系统的监测方法,其特征在于,所述的步骤b中注册 信息的格式构成:进程唯一标识号&&进程类型。
4. 根据权利要求1所述的用于并行系统的监测方法,其特征在于,所述的步骤c中的情 况信息包括cpu利用率、进程占用内存大小以及进程空闲时间信息。
5. 根据权利要求1所述的用于并行系统的监测方法,其特征在于,所述的步骤d中心跳 消息出现异常的情况为连续3次没有收到心跳消息的响应。
6. 根据权利要求1所述的用于并行系统的监测方法,其特征在于,所述的监测方法采 用双轮询机制。
【文档编号】G06F11/32GK104156299SQ201410412938
【公开日】2014年11月19日 申请日期:2014年8月21日 优先权日:2014年8月21日
【发明者】王峰 申请人:江苏惠居乐信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1