本发明涉及智能运维技术领域,具体涉及一种it信息机房智能运维系统及方法。
背景技术:
随着it建设的不断深入和完善,计算机硬软件系统的运行维护已经成为了各行各业各单位领导和信息服务部门普遍关注和不堪重负的问题。所谓it运维管理,是指单位it部门采用相关的方法、手段、技术、制度、流程和文档等,对it如硬运行环境(软件环境、网络环境等)、it业务系统和it运维人员进行的综合管理。
传统的it运维仍然是等到故障出现后再由运维人员采取相应的补救措施。
这种被动、孤立、半自动式的it运维管理模式经常让it部门疲惫不堪,主要表现在以下三个方面:(1)运维人员被动、效率低。在it运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使it运维人员终日忙碌,也使it运维本身质量很难提高,导致it部门和业务部门对it运维的服务满意度都不高。(2)缺乏一套高效的it运维机制。目前许多企业在it运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。(3)缺乏高效的it运维技术工具。随着信息化建设的深入,企业it系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让it运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等it运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速的处理。
技术实现要素:
本发明提供一种it信息机房智能运维系统及方法,能够实现让计算机软件系统代替人工对it信息系统的软件、设备、环境的运行进行连续监控、定制分析、异常告警、信息发布、智能部署及修复等,大大提高了it运维效率,减轻人员负担。
本发明的技术方案如下:一种it信息机房智能运维系统,包括:
采集终端,包括传感设备和软件探针;所述传感设备用于收集机房环境特征值和机房硬件设备信息,所述软件探针用于收集设备操作系统运行状态信息及应用软件运行状态信息;
信息分析处理系统,包括分析处理软件和基础数据库;所述分析处理软件用于将采集终端采集的数据存入基础数据库、对存储数据进行集中展现、对存储数据进行分类展现、对存储数据进行查询分析和导出、高级部署以及问题处理,所述基础数据库用于存储采集终端采集的数据;
移动客户端,用于人工通过手机app进行数据发布和查询。
其中,所述传感设备包括温度传感器、湿度传感器、电压互感器、电流互感器、光敏传感器;
其中,所述机房环境特征值包括机房温度、机房湿度、机房光照条件和机房电源总负载;所述机房硬件设备信息包括机柜温度、机柜湿度、设备温度、机柜电源负载、设备硬件部件状态和设备报警状态;所述设备操作系统运行状态信息包括各部件逻辑使用负载、各种系统日志、系统基础配置信息;所述应用软件运行状态信息包括应用软件基础配置信息、各种运行日志、应用软件使用的系统负载情况。
其中,所述分析处理软件可以按照时间、设备分类、应用分类等分类标准对存储数据进行分类展现。
其中,所述基础数据库存储数据的方式为实时数据库和关系数据库相结合;所述基础数据库还具有历史数据压缩及备份功能。
本发明还提供一种it信息机房智能运维方法,包含如下步骤:
步骤一、传感设备采集机房环境特征值及机房设备硬件信息并将数据传输到信息分析处理系统;软件探针侦测设备操作系统运行状态信息及应用软件运行状态信息并将数据传输到信息分析处理系统;
步骤二、信息分析处理系统中的分析处理软件根据预设的运行指标及运行告警条件对采集数据进行分析比对,并判定是否存在异常——如果不存在异常,则执行步骤三;如果存在异常,则执行步骤四;
步骤三、分析处理软件将采集数据存入基础数据库中,并对采集数据进行集中或分类展现;
步骤四、分析处理软件分析各种修复条件,并判定异常状态是否满足修复条件;如果满足,则执行步骤五;如果不满足,则执行步骤六;
步骤五、分析处理软件判断是软件故障还是硬件故障,如果是软件故障,则控制计算机进行系统问题修复;如果是硬件故障,则执行步骤六;
步骤六、分析处理软件进行信息发布和安装部署,等待人工处理。
本发明的it信息机房智能运维系统具有智能采集、智能存储、智能分析比对、智能判定以及智能修复的功能,在不能自动修复的极限情况下,本发明的it信息机房智能运维系统还可以智能发布信息并进行安装部署,减轻人工处理的工作量,能够大大提升it运维效率,减轻人员负担,降低人工成本。
附图说明
图1是本发明的一个实施例的it信息机房智能运维系统的模块组成图;
图2是本发明的一个实施例的it信息机房智能运维方法流程图。
具体实施方式
下面将结合附图和具体实施例对本发明的技术方案进行清楚、完整地描述。
实施例1:
本实施例是依据本发明的技术方案的一种it信息机房智能运维系统,附图1是本实施例智能运维系统的模块组成图,由附图可以看出,本实施例的一种it信息机房智能运维系统包括:
采集终端1,包括传感设备11和软件探针12;所述传感设备11用于收集机房环境特征值和机房硬件设备信息,所述软件探针12用于收集设备操作系统运行状态信息及应用软件运行状态信息;
信息分析处理系统2,包括分析处理软件21和基础数据库22;所述分析处理软件21用于将采集终端1采集的数据存入基础数据库22、对存储数据进行集中展现、对存储数据进行分类展现、对存储数据进行查询分析和导出、高级部署以及问题处理,所述基础数据库2用于存储采集终端采集的数据;
移动客户端3,用于人工通过手机app进行数据发布和查询。
其中,传感设备11包括温度传感器、湿度传感器、电压互感器、电流互感器、光敏传感器,用于探测温度值、湿度值、电源负载等。本实施例中采用传感设备能感受到被测量的信息并能将感受到的信息按一定规律变换成为电信号,以满足信息的传输、处理、存储、显示、记录和控制等要求。
由于传感器仅适用于有载体的信息源,对于软件和操作系统的状态信息则无法作用。本实施例中采用软件探针12部署在相应终端上,实现对操作系统和软件操作状态的监控。
通过传感设备和软件探针,本实施例的智能运维系统可实现对以下信息的监测:(1)机房环境特征值:包括机房温度、机房湿度、机房光照条件和机房电源总负载等;(2)所述机房硬件设备信息:包括机柜温度、机柜湿度、设备温度、机柜电源负载、设备硬件部件状态和设备报警状态等;(3)所述设备操作系统运行状态信息:包括各部件逻辑使用负载、各种系统日志、系统基础配置信息等;
(4)所述应用软件运行状态信息:包括应用软件基础配置信息、各种运行日志、应用软件使用的系统负载情况等。
本实施例中的分析处理软件(21)主要负责将采集终端(1)采集的数据存入基础数据库(22)中;分析处理软件(21)还会按照时间、设备分类、应用分类等一系列条件对采集数据进行集中或分类展现;分析处理软件(21)还可以实现人机交互,具有高级部署和问题处理功能;分析处理软件(21)还可以提供条件查询分析和数据导出功能,为信息运维辅助分析、决策提供数据支撑。
本实施例中的基础数据库(22)存储基础信息数据,由于基础信息数据量非常大而且复杂,数据存储采用实时数据库和关系数据库相结合的方式,保证数据存储及高效查询;此外,为保障无限增长的数据,基础信息数据库还具备历史数据压缩及备份功能。
本实施例中的移动客户端主要是应用于信息运维人员的移动办公,实现通过手机app进行数据发布和查询。
实施例2:
本实施例是本发明的一个实施例的it信息机房智能运维方法的流程图,附图2是本实施例智能运维方法的流程图,由附图可以看出,本实施例的一种it信息机房智能运维方法包括如下步骤:
步骤一、传感设备11采集机房环境特征值及机房设备硬件信息并将数据传输到信息分析处理系统2;软件探针12侦测设备操作系统运行状态信息及应用软件运行状态信息并将数据传输到信息分析处理系统2;
步骤二、信息分析处理系统2中的分析处理软件21根据预设的运行指标及运行告警条件对采集数据进行分析比对,并判定是否存在异常——如果不存在异常,则执行步骤三;如果存在异常,则执行步骤四;
步骤三、分析处理软件21将采集数据存入基础数据库22中,并对采集数据进行集中或分类展现;
步骤四、分析处理软件21分析各种修复条件,并判定异常状态是否满足修复条件;如果满足,则执行步骤五;如果不满足,则执行步骤六;
步骤五、分析处理软件22判断是软件故障还是硬件故障,如果是软件故障,则控制计算机进行系统问题修复;如果是硬件故障,则执行步骤六;
步骤六、分析处理软件22进行信息发布和安装部署,等待人工处理。
其中,步骤二中分析处理软件21进行数据分析比对时作为参考的预设运行指标及运行告警条件是根据已有的运维经验将it信息系统运维的日常工作进行分类、梳理,将各种硬件、软件的部署、优化、故障判断及处理、配置变更等利用命令、脚本、服务协议等计算机技术手段实现,并明确各种问题判断的方法及条件。
在进行数据分析比对后,分析处理软件21会按要求发布这些信息;对于常规的系统问题修复工作,分析处理软件21可以自动分析各种修复条件,当满足修复条件时,分析处理软件21将自动控制计算机进行系统问题修复;当然分析处理软件21也可以通过各种定制化的条件组合分析,对设备和软件系统的运行状态进行发布、安装部署和人工交互处理等。需要注意的是,分析处理软件21对软件类故障的处理修复能力较强,对于硬件类故障则可能要依赖于人工处理。
步骤六中分析处理软件22进行信息发布包括推送待修复问题到移动客户端,此时运维人员通过手机app获取相关信息后可以及时解决问题;在等待问题解决的时段内,分析处理软件22自动进行一些安装部署,如停止程序、自动调试、生成错误日志等操作,为人工处理提供参考依据。
以上实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。同时,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。