本发明涉及一种IT运维监控系统,尤其涉及一种IT软硬件运行状态监控系统。
背景技术:
:随着企业信息化的不断发展和深入,IT监控告警系统的建设,综合了多种信息设备、多层次业务的监控。随着业务的发展,进入监控系统的告警信息日趋庞大且复杂。为及时发现系统故障、识别潜在风险及安全隐患,企业内部通常设定专门的运维部门和运维人员监管企业的IT系统,维护企业IT系统正常、稳定运行,保障企业业务正常开展和运营。传统IT监控系统的监控方法通常为:信息技术部门提出系统运行目标,运维部门将系统运行目标转化为系统监控指标,并在IT监控系统中通过定义监控指标、设定监控数据源、配置监控校验规则、部署监控调度作业实现系统监控,其中监控校验规则配置采用最小值、最大值的值域配置或采用百分比的波动配置等方式。当系统的某个部件运行状况超出预设阈值时,监控系统识别告警并发送相关的告警通知。这种告警识别机制通常无法做到趋势的预警以及告警间的相互关联。现有技术具有以下缺点:一、传统监控系统通常以告警为驱动,当有告警时才会介入处理,并且需要人为登录到系统中,根据告警相关信息查询系统情况并处理,而且判断与确认的时间会增加告警处理时长。二、传统监控系统只单独监控各网元各个指标的告警信息,没有对同一网元引起的多条相关告警做关联分析。这种监控技术降低了多维告警的质量,弱化了故障定位能力,增加了故障分析难度。三、传统的监控系统在监控成百上千个网元时,只有当告警出现时才会被动接收告警,而不能通过某种界面或者工具简单直观的看到被监控网元的运行情况。由上可见,以上设计缺陷使告警信息较难管理,告警事件较难追述,在处理告警时对问题与故障根源分析时间花费较长,不能及时响应与解决故障,从而导致用户体验不佳,同时在多网元多告警指标监控时,无法做到关联,同时也没有统一、简洁的视图纵观整个系统运行现状。技术实现要素:本发明所要解决的技术问题是提供一种IT软硬件运行状态监控系统,能够灵活调整监控规则,并根据配置引擎中的规则自动关联告警关系;不仅能根据业务规则精准定位故障根源,并能预处理客户非感知故障而避免感知故障发生,使IT监控系统更好地适应用户的不同需求。本发明为解决上述技术问题而采用的技术方案是提供一种IT软硬件运行状态监控系统,包括规则引擎:维护系统所有的配置数据,包括被采集网元的配置数据、计算引擎评分时所需的规则数据、展示引擎显示数据时业务与平台网元的对应关系以及网元与指标的对应关系;采集引擎:通过规则引擎的配置数据采集被监控网元的运行状态数据;计算引擎:根据网元多个指标计算出单个网元的健康度得分,并且生成相关事件;展示引擎:按照规则引擎中配置的业务域关系对外显示。上述的IT软硬件运行状态监控系统,其中,所述规则引擎通过在前台页面增加、修改、删除规则维护系统所有的配置数据,并且保存计算引擎所产生的动态评分规则用以下次评分时作为参照。上述的IT软硬件运行状态监控系统,其中,所述采集引擎包括采集模块和规整模块,所述采集模块从规则引擎中读取被监控网元的配置信息与所需采集的指标信息,根据配置规则周期性地从被监控网元侧采集运行数据;所述规整模块将采集模块所采集的数据合并到同一个时间版本内,并且对所采集的数据进行有效性检查,如果存在数据未采集到则通知采集模块再次发起采集,在预设次数内未采集到有效数据,则采用默认值合并,保证数据时间版本的统一。上述的IT软硬件运行状态监控系统,其中,所述采集引擎首先读取配置引擎中被监控网元列表,获取有效被监控网元类型ID与网元地址、网元数据库连接串,通过多线程方式对被采集网元进行批量处理;每个采集线程根据被采集网元ID与网元类型ID读取规则引擎中的预设指标,所述预设指标包括指标ID、指标名称、指标说明和采集周期;每个采集线程判断是否满足采集周期,如是则连接被采集网元进行相关数据的采集,通过规整模块将数据按照时间标签整理完毕后发送给消息模块并入库;所述消息模块提供一个数据流的通道,并供订阅相关消息的模块读取消费。上述的IT软硬件运行状态监控系统,其中,所述计算引擎包括:评分模块:将规整模块整理后的网元运行数据与规则引擎中的配置进行匹配,并按100分制给每个网元的运行健康度打分;事件模块:根据配置引擎中的规则,对评分模块产生的分数匹配生成事件,当低于80分时产生预警事件,当低于60分时产生告警事件;下钻模块:根据事件模块产生的事件匹配规则引擎中配置的规则对相关指标进行下钻数据抓取,下钻所要采集的数据以及格式均通过场景化设计产生,当未有事件产生时,每个指标周期性会进行一次常规下钻,用以与异常事件进行对比分析;诊断模块:根据下钻模块中采集的信息与正常时间点采集的下钻数据进行对比,自动分析诊断引起指标事件产生的原因;自动处理模块:当诊断模块确认事件原因后通知自动处理模块,所述自动处理模块根据事件原因匹配调用引擎中预先配置的相关自动处理脚本。上述的IT软硬件运行状态监控系统,其中,对于系统性能问题引起的事件,所述诊断模块查找得出需要被KILL的进程列表或者重启操作命令,所述自动处理模块通过调用KILL或者重启命令解决性能问题;对于主机文件系统和数据表空间异常引起的事件,所述自动处理模块通过调用预设方案进行恢复,所述预设方案为根据被监控网元与指标名称以及系统运行情况设置的可恢复异常情况的脚本或者命令。上述的IT软硬件运行状态监控系统,其中,所述展示引擎包括:业务域展示模块:展示业务网元和平台网元,每个业务网元设置有需要展示的指标,所有的业务网元均在同一块区域中展示,并通过不同颜色突出显示的策略进行滚动展示;所述平台网元按照设备类型划分为主机、存储、数据库、网路和负载均衡,同时平台网元展示还包含了该业务域所包含的所有网元所触发的事件,所有事件按照事件发生先后进行排序;当业务网元展示区域选择事件范围和时间点后,默认平台网元数据展示为选中时间点的镜像数据;平台域展示模块:将平台网元按照设备类型进行展示,每一种设备类型均包含了所有被监控网元下同类型的网元组件,并可在页面上搜索网元名称找到被监控网元;网元展示模块:展示单个网元的运行情况,根据网元类型定义多种指标反映网元的运行状态,显示各指标项得分及扣分情况,同时根据扣分情况生成相关事件;下钻展示模块:通过业务域展示模块中的事件列表或者网元展示模块中事件列表进入,主要展示计算引擎中下钻模块所采集的数据与诊断模块所分析的结论,通过场景化的数据采集与展示,在页面上直观显示系统存在的问题、问题导致的原因、问题时间点与之前时间点运行状态的对比,以及系统故障的定位方向。本发明对比现有技术有如下的有益效果:本发明提供的IT软硬件运行状态监控系统,采用基于健康度的监控系统分析方法,以客户的业务需求、网元为管理对象,根据对网元指标的监控与关联计算出该网元的健康运行情况,并将告警规则引擎从监控逻辑中解耦出来,使监控人员也能参与监控规则的修改和管理,实现前台动态修改监控规则,以快速响应监控需求的变化;同时加入了统一视图与监控域,将同一业务的相关的监控网元集成到同一视窗中,以提高故障排除的效率和提升用户的满意度。附图说明图1为本发明IT软硬件运行状态监控系统架构示意图;图2为本发明IT软硬件运行状态监控流程图。具体实施方式下面结合附图和实施例对本发明作进一步的描述。图1为本发明IT软硬件运行状态监控系统架构示意图。请参见图1,本发明提供的IT软硬件运行状态监控系统包括采集引擎、规则引擎、计算引擎、展示引擎,最终在统一界面中以评分的简洁方式展示该网元的运行状态。本发明的计算引擎中的评分模块,它与计算逻辑松耦合,并且该引擎可以直接通过前台页面进行编辑和维护。评分模块不仅能根据既定匹配规则存放于资料库中,准确高效地匹配到可能引起事件的指标异常,而且还能根据实际需求在前台页面动态修改,挖掘监控系统中最优的评分规则并保存于资料库,以便今后使用。评分引擎有利于高效评估被监控设备的运行健康状态,并辅助计算引擎中事件模块、下钻模块、诊断模块以及自动化模块自动定位故障原因,协助技术人员或自动及时处理问题并将可能出现的问题扼杀于襁褓中,提高客户满意度。本发明只需在一个电脑屏幕中即可管理上千台网元,通过可以在业务视角窗口与平台视角窗口随意切换,同时可视化展示、自动化分析与处理帮助维护人员在前台页面即快速的定位甚至解决问题。本发明颠覆了传统监控单网元、单指标的监控方式,通过灵活的计算引擎与可配置的展示引擎,实现了在业务视角统一展示所涉及的网元设备运行健康情况,并且通过计算模型实现了事件预警、动态规则、指标、网元关联、前台可调整的能力,通过采集引擎将原始数据清洗后送入计算引擎,匹配规则调用算法计算该网元指标的健康情况,综合评估网元多个指标后计算出该网元的健康度情况,并且生成相关事件、甚至调用下钻、自动化处理模块介入处理。最终通过展示引擎根据配置的规则可从业务视角、平台视角对监控的网元进行统一管理。下面给出本发明各模块的功能及实现过程。一、规则引擎本引擎管理了采集引擎、计算引擎、展示引擎所依赖的规则数据,包括被采集网元的配置数据、计算引擎评分时所需的规则数据、展示引擎显示数据时业务与平台网元的对应关系以及网元与指标的对应关系等等。规则引擎维护了本发明所有的配置数据,可以在前台增加、修改、删除规则,并且规则引擎也将保存计算引擎所产生的动态评分规则用以下次评分时作为参照。二、采集引擎本引擎主要通过规则引擎采集被监控网元的运行状态数据。本引擎分为两个模块:1)采集模块,本模块负责从规则引擎中读取被监控网元的配置信息与所需采集的指标信息,根据配置规则周期性的从被监控网元侧采集运行数据;2)规整模块,本模块负责将采集模块所采集的数据合并到同一个时间版本内,并且对所采集的数据进行规则稽核,如果存在数据未采集到则通知采集模块再次发起采集,在多次未采集到时采取默认值合并,保证数据时间版本的统一。三、计算引擎本引擎是本发明中最为重要的引擎,负责网元运行健康度的计算与问题的诊断,主要包括1)评分模块,本模块主要负责将规整模块整理后的网元运行数据与规则引擎中的配置进行匹配,并且根据本发明的核心健康度算法计算该网元的运行健康度得分;2)事件模块,本模块根据配置引擎中的规则,对评分模块产生的分数匹配生成事件,当低于80分时产生预警事件,当低于60分时产生告警事件;3)下钻模块,本模块根据事件模块产生的事件匹配规则引擎中配置的规则对相关指标进行下钻数据抓取,下钻所要采集的数据以及格式均是通过场景化设计产生,当未有事件产生时每个指标周期性会进行一次常规下钻,用以与异常事件进行对比分析;4)诊断模块,本模块根据下钻模块中采集的信息与正常时间点采集的下钻数据进行对比,自动分析诊断可能引起指标事件产生的原因;5)自动处理模块,本模块作用是调用自动化处理脚本,当诊断模块确认事件原因会通知本模块,本模块根据配置引擎中的自动化脚本自动调用处理。四、展示引擎本引擎主要负责按照规则引擎中配置的业务域关系进行对外展示。1)业务角度展示业务所属网元的运行健康度;2)以平台角度展示平台包含网元的运行健康度;3)以网元角度展示网元包含指标的运行健康度;4)以指标维度展示当指标异常时产生事件并伴随下钻模块收集异常指标产生的相关信息。本发明所包含的四大引擎主要涉及3个流程,采集流程对应采集引擎,计算流程对应计算引擎,展示流程对应展示引擎,下面对本发明的三大流程进行详细说明:1、采集流程本流程首先读取配置引擎中被监控网元列表,根据是否有效等于是拉取被监控网元类型ID与网元地址、网元数据库连接串,将此信息保存在程序中,通过多线程方式对采集网元进行批量处理。网元ID网元类型ID网元名称网元地址网元数据库连接串是否有效随后该线程根据被采集网元ID与网元类型ID读取规则引擎中的指标相关是否有效为是的配置数据:指标ID、指标名称、指标说明、采集周期。网元类型ID指标ID是否有效指标ID指标名称指标说明采集周期是否有效采集线程判断是否满足采集周期,如是则连接被采集网元进行相关数据的采集,通过规整模块将数据按照时间标签整理完毕后发送给消息模块并入库。消息模块是一个数据流的通道,在数据推送到消息模块后可以被任意订阅消息的模块读取消费。2、计算流程关键术语说明:T_Score:单个网元总分即100分。N_Score:网元评分得分,即满分100扣除所有指标扣分后的得分。L_Affect_Total_Score:标签影响网元总分,在最终计算评分得分时,网元总分会取此值与T_Score中较小的一个。L_Lost_Score:标签扣分值。L_Group_Ratio:网元对应的组件类型分为多个指标组,此名词代表该指标组所占所有指标组的比重,同一网元所有值之和等于1。L_Ratio:指标所占指标组的比重,同一组内所有指标该值之和等于1。L_Lost_Score_Ratio:指标扣分比率,该值在0-1之间,小数点后2位,在指标值越健康时越接近于0。L_Base_Value:指标基准值,当算法计算时先与该值匹配获得当前L_Affect_Total_Score与Score_Ratio。3、评分模块本模块通过多进程处理,读取采集流程中写入消息模块的被监控网元状态数据:网元ID指标ID状态数值采集时间通过与规则引擎中的配置数据进行匹配,并且结合本发明最核心的评分算法进行打分:指标ID指标名称L_Base_ValueScore_RatioL_Affect_Total_ScoreC0001CPU使用率700.5380C0001CPU使用率800.6860C0001CPU使用率900.7630C0001CPU使用率980.9310以CPU使用率为例当前状态数值为71,对应匹配到L_Base_Value为70,Score_Ratio为0.73,L_Affect_Total_Score为80。此时该指标扣分值:L_Lost_Score(cpu)=L_Group_Ratio(res)*L_Ratio(cpu)*L_Lost_Score_Ratio(cpu)*min(L_Affect_Total_Score(cpu),L_Affect_Total_Score(…))+((100-L_Affect_Total_Score(cpu))/(L_Affect_Total_Score(cpu)+L_Affect_Total_Score(…)))*(100-min(L_Affect_Total_Score(cpu),L_Affect_Total_Score(…))网元得分:N_Score=min(T_Score,min(L_Affect_Total_Score(cpu),L_Affect_Total_Score(…)))-sum(L_Lost_Score(cpu),L_Lost_Score(…))4、事件模块本模块根据评分模块计算的得分与配置引擎中的规则进行匹配产生,如果匹配成功则产生一例事件,事件是被监控网元状态异常的记录标签,也是下钻模块的入口,本发明中事件有三个等级:一级事件:存在对被监控网元产生致命威胁的异常情况,则生成为一级事件,通常情况下此时N_Score<=40。二级事件:存在有可能会对被监控网元产生威胁的异常情况,则生成为二级事件,通常情况下此时N_Score<=60&N_Score>40。三级事件:存在对被监控网元产生轻微影响的情况,则生成为三级事件,通常情况下此时N_Score<=80&N_Score>60事件等级指标ID事件内容生成时间一级事件C0001N_Score=21,L_Lost_Score=78,CPU使用率>95%10:28二级事件C0001N_Score=56,L_Lost_Score=42,CPU使用率>81%13:26三级事件C0001N_Score=78,L_Lost_Score=22,CPU使用率>95%02:07一级事件需要立即处理,二级事件需要持续关注,三级事件主要用于提醒作用。5、下钻模块本模块根据预设方案进行下钻数据抓取,抓取时间分为两种:1)间隔N分钟(预设10分钟);2)事件触发。预设方案根据网元类型与指标名称进行设定,预设方案设定了根据特定指标诊断所需的明细数据,因此网元类型或指标名称的差异所需的明细数据也不尽相同,下钻模块预设方案所抓取的明细数据除了用于问题诊断分析,还可以用于趋势分析与展示,通过展示引擎在前台直观的展示网元运行历史状态。6、诊断模块本模块的用途为根据事件模块的事件产生自动诊断信号,结合下钻模块根据预设方案所采集的信息进行自动诊断分析。诊断模块主要通过对比异常事件产生时收集的下钻数据与前一时刻(N分钟间隔)的正常数据,对比两份数据之间的差异并且结合事件发生的时间、规则引擎中配置的事件关系自动的诊断出可能导致问题产生的方向与原因,并给出该因素产生的概率百分比。例如:当数据库运行的主机CPU使用率从50%升高导80%时产生一个事件,同时也会采集数据库中SQL预计运行的CPU时间,发现该时间也上升30%左右,并且该资源消耗主要集中在一条新载入的SQL上,因此诊断模块给出的结论为XXX主机CPU使用率由50%上升到80%主要原因为数据库中XXXSQL执行计划不合理导致,确定性为93%。同时当问题诊断确定性为90%以上时,且出现问题的指标存在相应的自动处理预案,此时诊断模块将调用该预案尝试恢复事件。7、自动处理模块自动处理模块包含两部分:性能问题:性能问题自动处理主要通过KILL相关进程与重启处理,模块诊断根据评估计算得出需要被KILL的进程列表或者重启操作命令,自动处理模块通过调用KILL或者重启命令解决性能问题。非性能问题:非性能问题主要指:主机文件系统、数据表空间等类似情况的处理,通过调用预设方案进行恢复。这里所指预设方案是根据被监控网元与指标名称以及系统运行情况设置的可以恢复异常情况的脚本或者命令,通常情况下是由维护人员根据维护经验总结出来的一套方法。8、展示流程本流程的主要作用是将采集引擎与计算引擎中相关的数据根据配置引擎中定义的规则按照使用者易于理解与使用的方式进行展示。本流程一共分为四大模块,以下逐一说明:I、业务域展示模块本模块以业务域角度展示系统的运行情况,其中此处定义的业务域为同类型业务的最大集合,此类业务均运行在相同的集群、数据库、存储、中间件等组件之上。本模块包含了两部分内容:1)业务网元展示,每个业务网元都可以定义需要展示的指标,例如:业务量、成功率、失败率等等,所有业务网元均在同一块区域中展示,通过高分绿色,低分红色颜色突出显示的策略进行滚动展示。2)平台网元展示,平台网元按照设备类型分为主机、存储、数据库、网路、负载均衡等类型,该类型展示的区域聚合了所包含网元的健康度评分数值,点击该区域后下方显示包含网元的信息,同时平台网元展示还包含了该业务域所包含的所有网元(包括业务与平台)所触发的事件,所有事件按照事件发生先后进行排序。当业务网元展示区域选择事件范围和时间点后,默认平台网元数据展示为选中时间点的镜像数据,事件展示该时间点开始1小时内的事件数据。II、平台域展示模块本模块以平台域角度展示系统运行情况,其中此处定义的平台域即业务域展示模块中提到的“平台网元展示”,平台网元按照设备类型分为主机、存储、数据库、网路、负载均衡等类型。平台域展示模块中任意一种设备类型均包含了所有被监控网元下同类型的网元组件,可以在页面上搜索所寻找的网元名称,更加直观有效的找到被监控网元。III、网元展示模块本模块展示了单个网元的运行情况,根据网元类型可以定义多种指标体现网元的运行状态,计算引擎将采集引擎采集的网元指标数据与配置引擎中定义的规则进行匹配,并结合本发明的健康度算法给网元指标进行打分,并显示在指标项之后,通过该方法可以直观的显示引起网元扣分的指标是什么,同时指标扣分后也会根据扣分情况生成相关事件。IV、下钻展示模块本模块通过业务域展示模块中的事件列表或者网元展示模块中事件列表进入,本模块主要展示计算引擎中下钻模块所采集的数据与诊断模块所分析的结论,通过场景化的数据采集与展示,用户可以直观的在页面上看到系统存在的问题、问题可能导致的原因、问题时间点与之前时间点运行状态的对比,以及系统诊断的问题方向。本模块大大的节省了使用者对故障问题的分析定位,甚至可以自动恢复故障。现有技术方案中采用定义监控指标、设定监控数据源、配置监控校验规则、部署监控调度作业实现系统监控,其中监控校验规则配置采用最小值、最大值的值域配置或采用百分比的波动配置等方式。当系统的某个部件运行状况超出预设阈值时,监控系统识别告警并发送相关的告警通知的方式来进行网元的监控。本发明通过采集引擎的采集模块从各个网元中采集相关的指标数据,规整模块将数据整理完毕后送入计算引擎中,计算引擎访问配置引擎,读取相关规则将指标数据进行处理生成评分与事件,事件根据等级可以触发下钻与自动化处理模块,最终由展示引擎展示读取配置引擎中的规则进行展示。由于本发明的计算引擎与展示引擎解耦合于监控逻辑,使IT监控系统能完全适应用户的不同需求,灵活调整监控规则,并根据配置引擎中的规则自动关联告警关系。不仅能根据业务规则精准定位故障根源,并能预处理客户非感知故障而避免感知故障发生。同时,展示引擎对计算引擎输出的分析结论进行场景化展示,按照业务类型包含的系统平台组件进行分组并进行统一展示,提高了故障排除的效率和提升了客户的满意度。虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。当前第1页1 2 3