专利名称:一种网管系统自监控方法
技术领域:
本发明涉及网络技术领域,尤其涉及一种网管系统自监控方法。
背景技术:
随着通信技术的迅猛发展、网络环境日益复杂,为了实时掌握整个网络的运行状况,及时发现网络问题,优化网络性能和服务,网管系统顺势而生。网管系统及运维管理在多年的行业运作中有了自己一套完善理论基础及最佳实践方法,但作为网管自身的性能监控却没有一套可以支持的理论及方法,本发明公布了一种通用的网络管理系统自监控方法。目前多数网管系统需要定期对网管系统进行重启,以释放由于长时间运行出现的系统占用较大内存、CUP使用率过高等问题或者避免由于线程数过高或内存过高造成主程序卡死现象,无法满足7x24持续运行的客户需求。因为缺乏一套完善的自监控方法及措施,在网管系统发生异常时,很难进行故障排查及问题定位。为了解决上述问题,保证网管系统的正常运行,就需要知道如下问题:系统内部具体的内存是如何分配?是否为合理占用?系统线程数是否过高?线程数过高是否合理?线程数是否一直持续上升?都哪些线程在启动?这其中哪些线程是应该关闭而未关?系统所在服务器是否存在网络问题?网管系统所监控的网络接口状态是否正常?是否可以正常接收网管信息?系统所在磁盘是否拥有充足的使用空间?所使用数据库是否正常可用。只有掌握了这些问题的答案,当系统发生故障时我们才能快速定位问题所在:1、网管系统自身的问题;2、网管系统所在服务器性能无法满足系统正常运行;3、网管系统内部是否存在内存溢出;4、网管系统所在服务器的剩余空间是否足以存储系统运行所产生的信息;5、网管系统所在服务器是否存在网络问题造成网管系统无法进行正常网络管理等问题。
发明内容
本发明的目的在于提供一种网管系统自监控方法,通过监控网管系统运行中所产生的各种资源占用情况,监控网管系统所在服务器性能,不仅使得网管系统本身具有了自监控功能,能及时准确的监控网管系统的运行状态、详细告警故障信息,而且监控负载小、监控效率高,采用这种方法的系统可以帮助运维工程师更快的解决问题和对服务器进行优化。本方法建议对自监控功能进行可配置操作,在系统试运行阶段进行全面自监控,在正式运行时采用部分自监控模式,避免由于全面自监控的资源消耗而影响网管系统的正常性能。为了实现上述目的,本方法采用如下方案:一种网管系统自监控方法,该方法包括以下步骤。
A、网管系统对系统内部线程进行监控。步骤A具体可以是,内部线程监控主要为三类:主线程监控、依存线程监控、临时线程监控。主线程监控,监控网管系统中各模块主线程是否持续运行没有中断、卡死、重启等现象,监控方式采用心跳模式,连续3次未收到心跳信息,发送中级故障告警;连续15次未收到心跳信息,发送重大故障告警;线程心跳时断时续,但连续中断次数都不足3次,当此现象持续一定次数或时间后发送中级故障告警,说明该线程存在性能问题,具体次数可配。依存线程监控,监控网管系统中各线程依附情况,记录各临时线程的上级线程及其与上级类依附状态;当某一线程关闭时,查看所有由该线程调用或开启并与其存在依附关系的下级线程,是否随线程的关闭而在规定的延迟时间内正常关闭。临时线程监控,监控网管系统中所有临时开启的线程,记录并监控临时线程是否在规定的存活时间内正常关闭。内部线程监控应记录并监控线程创建时间、关闭时间、上级线程、调用方法及其已存活时间,并记录网管系统线程总数。线程类型:永久线程;临时线程。各模块主线程属于永久线程;临时线程可以设置线程存活时间阀值。对线程监控应按照系统模块、线程类型进行分类,以便在发现问题是迅速定位及方便实际工作中监控权限设置。B、监控网管系统所在服务器内存。步骤B具体可以是,监控网管系统所在服务器内存;对监控网管系统所在服务器的内存利用率进行监控,并设置内存利用率阀值,监控内存利用率超过阀值发送告警,当内存利用率持续超过阀值一段时间后仍未处理,自动提升告警级别并发送新告警;根据实际情况对网管系统进行优化或者对设备内存进行扩容。C、监控网管系统所在服务器CPU ;
步骤C具体可以是,监控网管系统所在服务器CPU ;对监控网管系统所在服务器CPU利用率进行监控,并设置CPU利用率阀值,监控CPU利用率超过阀值发送告警,当CPU利用率持续超过阀值一段时间后仍未处理,自动提升告警级别并发送新告警;根据实际情况对网管系统进行优化或者更换具有较高处理能力的宿主机器。D、监控网络系统所在服务器网络接口。步骤D具体可以是,监控网络系统所在服务器网络接口 ;主要监控接口管理状态和操作状态,出入流量数,丢包数,错包数,出入流量利用率,丢包率,错包率等信息。避免由于接口网络或物理问题影响网管系统正常的网络管理信息通讯。E、监控网管系统磁盘占用情况。步骤E具体可以是,磁盘占用情况;监控系统日志所在磁盘、系统运行目录所在磁盘占用及数据存储所在磁盘的磁盘利用率、剩余空间和磁盘总大小。对系统所在磁盘分区中的磁盘使用率进行监控,时刻了解磁盘运行状况,避免由于物理磁盘分区不足而造成日志、临时文件、数据等信息无法存入或无法创建的情况。根据监控情况进行自告警,建议用户修改日志清理策略、临时文件删除策略及数据归并策略等;或者添加物理磁盘对原设备进行扩容。
F、监控网管系统所使用的数据库。步骤F具体可以是,监控网管系统所使用的数据库;监控数据库数据库读写次数、数据库会话数,数据库回滚次数,内存写命中率、死锁数、存储失效数、当前连接数、日志大小等进行监控。实时了解数据库动态,避免由于数据库异常影响网管系统正常运行。G、网管系统进行自告警。步骤G具体可以是,网管系统进行自告警;根据步骤A、B、C、D、E、F各步骤的监控数据,是否存在异常及超出阀值发布告警事件,网管系统采用自身已用的告警方式如:声光、短信、邮件等方式进行自告警。采用本方法的网管系统,可保证监控网络环境其他设备正常运行的同时,保证网管系统自身的正常运行,网管系统本身具有了自监控功能,能及时准确的监控网管系统的运行状态、详细告警故障信息,而且监控负载小、监控效率高,可广泛使用在各种网管系统中。
图1:本发明方法工作流程总图。图2:线程自监控方法示意图。图3:磁盘自监控方法示意图。
具体实施例方式本说明书中公开的所有特征、所有方法或过程中的步骤,除了互相排斥的特征或步骤以外,均可以以任何方式组合。本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。下面将结合附图对本发明做进一步的说明
如图1、本发明方法基本流程如下:网管系统在对外管理的同时进行自监控,监控内部线程运行状况、内存、CPU占用情况、网络接口运行状况、所访问数据库的运行状况以及系统所做磁盘的可用空间的监控,保证网管系统自身的正常运行。关于内部线程监控如图2所示:
1、监控网管系统内部各模块中主线程,此类线程相对于网管系统永久性存活,对此类线程采用心跳式进行监控;一般采取5秒钟一次心跳脉冲反应,若连续3个周期即15秒未收到线程心跳脉冲,应及时发送中级故障告警,表明该模块主线程可能存在异常问题造成线程卡住或可能存在线程已异常关闭;若连续15个周期即75秒仍未收到心跳脉冲,应立刻发送重大故障告警,表明线程内部遇到重大问题卡死线程或线程已异常关闭;若线程心跳脉冲时断时续,但连续中断都不满3次,应发送故障告警,说明该模块存在性能问题。2、监控网管系统中临时线程间的依存线程:此类线程都属于系统临时线程,为某一业务而临时开启的线程;在多线程的环境下,一般都会由一个上级线程开启多个下级子线程,成树状结构。其中有可能存在这样的几种依存关系:a、当上级线程被通知关闭后,下级线程应随之关闭;b、当下级子线程全部正常关闭后,上级线程应关闭。本步骤主要对这两种依存线程进行监控,当上级线程被通知关闭后,下级应随之关闭线程是否收到关闭指令;当上级线程被通知关闭,下级线程收到关闭指令后是否都在规定延迟时间内关闭;当下级线程全部正常关闭,应随之关闭的上级线程是否正常关闭。3、监控网管系统中临时线程关闭情况:首先根据系统业务对内部临时线程进行分级,不同级别的线程的存活时间阀值可配,当临时线程在阀值规定时间内未关闭,发送故障
生敬口目。关于服务器内存、CPU监控如下:
网管系统监控所在服务器的内存及CPU利用率进行监控,并设置各级别告警阀值,当服务器内存或CPU利用率超过阀值发送相应告警;同时允许设置持续高峰时间阀值,当系统内存或CPU利用率超过阀值的持续时间超过所设持续高峰时间,自动提升告警级别发送
新告警。 关于磁盘自监控如图3
网管系统对自身所使用的磁盘进行监控,主要监控:系统运行目录所在磁盘,系统日志所在磁盘、系统数据存储所在磁盘,当磁盘剩余空间无法满足系统产生数据的持续增长,发送告警,运维人员可以及时的修改数据存储压缩及清理策略或对硬件进行扩容。对于网络接口运行状况、所访问数据库的运行状况的监控,建议采用网管系统通用的数据库监控方案及网络接口监控方案,进行自身监控。
权利要求
1.一种网管系统自监控方法,该方法包括以下步骤: A、网管系统对系统内部线程进行监控; B、监控网管系统所在服务器内存; C、监控网管系统所在服务器CPU; D、监控网络系统所在服务器网络接口; E、监控网管系统所在磁盘; F、监控网管系统所使用的数据库; G、网管系统进行自告警。
2.根据权利要求1所述的一种网管系统自监控方法,其特征在于:所述步骤A网管系统对系统内部线程进行监控,内部线程主要为三类:主线程监控、依存线程监控、临时线程监控;内部线程监控应记录并监控线程创建时间、关闭时间、上级线程、调用方法及其已存活时间,并记录网管系统线程总数。
3.根据权利要求2中所述的一种网管系统自监控方法,其特征在于:主线程监控,监控网管系统中各模块主线程是否持续运行没有中断、卡死、重启等现象,监控方式采用心跳模式,连续3次未收到心跳信息,发送中级故障告警;连续15次未收到心跳信息,发送重大故障告警;线程心跳时断时续,但连续中断次数都不足3次,当此现象持续一定次数或时间后发送中级故障告警,说明该线程存在性能问题,具体次数可配。
4.根据权利要求2或3所述的一种网管系统自监控方法,其特征在于:依存线程监控,监控网管系统中各线程依附情况,记录各临时线程的上级线程及其与上级类依附状态;当某一线程关闭时,查看所有由该线程调用或开启并与其存在依附关系的下级线程,是否随线程的关闭而在规定的延迟时间内正常关闭。
5.根据权利要求4所述的一种网管系统自监控方法,其特征在于:临时线程监控,监控网管系统中所有临时开启的线程,记录并监控临时线程是否在规定的存活时间内正常关闭。
6.根据权利要求1所述的一种网管系统自监控方法,其特征在于:步骤D监控网络系统所在服务器网络接口 ;主要监控接口管理状态和操作状态,出入流量,丢包数,错包数,出入流量利用率,丢包率,错包率等信息。
7.根据权利要求1所述的一种网管系统自监控方法,其特征在于:所述步骤E监控网管系统所在磁盘,监控系统日志所在磁盘、系统运行目录所在磁盘占用及数据存储所在磁盘的磁盘利用率、剩余空间和磁盘总大小。
8.根据权利要求1所述的一种网管系统自监控方法,其特征在于:所述步骤F监控网管系统所使用的数据库,监控数据库数据库读写次数、数据库会话数,数据库回滚次数,内存写命中率、死锁数、存储失效数、当前连接数、日志大小等进行监控。
9.根据权利要求1所述的一种网管系统自监控方法,其特征在于:所述步骤G网管系统进行自告警,网管系统采用自身已用的告警方式如:声光、短信、邮件等方式进行自告警。
全文摘要
本发明公开了一种网管系统自监控方法,该方法包括以下步骤A、网管系统对系统内部线程进行监控;B、监控网管系统所在服务器内存;C、监控网管系统所在服务器CPU;D、监控网络系统所在服务器网络接口;E、监控网管系统所在磁盘;F、监控网管系统所使用的数据库;G、网管系统进行自告警,在网管系统保证监控网络环境其他设备正常运行的同时,通过本发明公开的一种通用的网管系统自监控方法,保证网管系统自身的正常运行。
文档编号H04L12/26GK103188103SQ20111045836
公开日2013年7月3日 申请日期2011年12月31日 优先权日2011年12月31日
发明者周关力, 廖昕, 杨涛, 陈松 申请人:成都勤智数码科技股份有限公司