一种基于Android系统的服务器运维系统及方法与流程

文档序号:18751733发布日期:2019-09-24 21:12阅读:197来源:国知局
一种基于Android系统的服务器运维系统及方法与流程

本发明涉及一种服务器运维系统及方法,特别涉及一种基于android系统的服务器运维系统及方法,属于服务器运维领域。



背景技术:

目前,运维监控系统越来越广泛地应用在金融、电信、电子等大中型企业,对当前运行的计算机系统进行全方位监控,可以监控计算机系统、应用、中间件、网络设备、数据库、操作系统、机房环境等运行的性能指标及可用性指标,并对监控指标进行阀值设备,对故障进行告警,以邮件或短信等方式进行通知。随着技术的发展完善,监控系统的功能越来越多地被开发出来,如健康度监控、可用性监控、机房机柜服务器的监控、应用服务监控、网络拓朴图监控、机房环境设备的监控等。另一方面,大型企业一般都有很多套监控系统,希望通过建设集中监控系统,对已经有的监控系统实现对接,统一监控整个系统,在一个平台中监控资源、应用、日志、服务。

另一方面,服务流程管理系统也得到了广泛的应用。服务流程管理是完全基于itil架构的itsm(it服务管理)软件,全面集成了事件管理、问题管理、变更管理、发布管理、资产管理、知识库等功能模块。并提供了灵活的流程和表单设计工具,帮助企业根据自身特点定制各种业务流程,从而彻底改变错综无序的it服务现状,提高it团队的生产效率,改善终端用户的满意度。

运维监控及服务流程管理系统虽然得到了广泛的应用,但是大都集中在pc电脑上操作,因此存在以下不足:⑴使用不够方便,随着智能手机的广泛使用,运维人员希望在任务时间、任务地点,能够实时查看监控对象的监控指标,并及时创建工单,并进行事件跟踪处理。⑵工作效率不高,运维人员一旦离开运维区域,就不能及时查看监控指标,不能及时提交工单,及时处理工单,在一些人力紧张的运维部门,运维工程师必须在现场办公,而无法在现场外处理事情。



技术实现要素:

本发明基于android系统的服务器运维系统及方法公开了新的方案,采用基于android系统移动平台上的运维系统,解决了现有方案使用不方便以及工作效率不高的问题。

本发明基于android系统的服务器运维系统包括系统后台、用户交互界面,系统后台获取主机群的运维信息经处理后通过用户交互界面与用户进行信息交互。系统后台包括用户登录管理模块、统一监控模块、配置管理模块、服务管理模块、监控数据库、配置管理数据库、信息技术基础架构库,统一监控模块包括资源总览模块、告警总览模块、区域总览模块、虚机总览模块、机柜展示模块、环境监控模块、地图总览模块、网络拓扑图模块,资源总览模块用于管理主机群的运行状态信息,告警总览模块用于管理主机群的告警信息,区域总览模块用于管理主机群的区域分布及告警列表信息,虚机总览模块用于根据物理机ip分类管理虚机信息,机柜展示模块用于根据主机群的区域分类管理机柜信息,环境监控模块用于管理主机的物理环境参数信息,地图总览模块用于根据主机分布的地理区域管理主机群的告警信息,网络拓扑图模块用于管理主机网络拓扑图信息,配置管理模块包括服务器资产管理模块,服务器资产管理模块用于管理物理机服务器、虚拟机服务器的资产信息,服务管理模块包括事件工单模块,事件工单模块用于管理任务处理过程信息。用户交互界面包括用户登录界面、统一监控界面、配置管理界面、服务管理界面,用户通过统一监控界面、配置管理界面、服务管理界面与系统后台进行系统运维信息交互。

进一步,本方案的统一监控界面包括资源总揽按钮图标、告警总览按钮图标、区域总览按钮图标、虚机总览按钮图标、机柜展示按钮图标、环境监控按钮图标、地图总览按钮图标、网络拓扑图按钮图标。资源总揽按钮图标用于调出资源总揽界面,资源总揽界面包括资源摘要信息页面、主机内存使用情况排行信息页面、严重告警主机信息页面、告警主机时序图信息页面。告警总览按钮图标用于调出告警总览界面,告警总览界面包括告警级别摘要信息页面、告警时序图信息页面、告警级别时序图信息页面、告警主机信息排序页面。区域总览按钮图标用于调出区域总览界面,区域总览界面包括主机区域分类排序信息页面、区域主机告警列表信息页面。虚机总览按钮图标用于调出虚机总览界面,虚机总览界面包括主机ip分类排序信息页面。机柜展示按钮图标用于调出机柜展示界面,机柜展示界面包括主机机柜区域分类信息页面。环境监控按钮图标用于调出环境监控界面,环境监控界面包括主机物理环境参数信息页面。地图总览按钮图标用于调出地图总览界面,地图总览界面包括主机分布地理区域分类告警信息页面。网络拓扑图按钮图标用于调出网络拓扑图界面,网络拓扑图界面包括主机网络拓扑图信息页面。

进一步,本方案的配置管理界面包括服务器物理机资产信息列表界面、服务器虚拟机资产信息列表界面,服务器物理机资产信息列表界面包括物理机资产信息页面,服务器虚拟机资产信息列表界面包括虚拟机资产信息页面。

进一步,本方案的服务管理界面包括事件工单界面,事件工单界面包括下拉菜单、当前登录用户事件列表界面、签收任务列表界面、待办任务列表界面、已办任务列表界面,下拉菜单包括添加事件按钮、查询按钮,添加事件按钮用于调出添加事件页面,查询按钮用于调出查询页面,当前登录用户事件列表界面包括未提交事件信息窗口、已提交事件信息窗口,未提交事件信息窗口包括编辑按钮、提交申请按钮,编辑按钮用于调出事件编辑页面,提交申请按钮用于将未提交事件变成已提交事件,已提交事件信息窗口包括查看按钮,查看按钮用于调出已提交事件信息页面。

本发明还公开了一种基于android系统的服务器运维方法,服务器运维方法基于服务器运维系统实现,服务器运维系统包括系统后台、用户交互界面,系统后台获取主机群的运维信息经处理后通过用户交互界面与用户进行信息交互。系统后台包括用户登录管理模块、统一监控模块、配置管理模块、服务管理模块、监控数据库、配置管理数据库、信息技术基础架构库,统一监控模块包括资源总览模块、告警总览模块、区域总览模块、虚机总览模块、机柜展示模块、环境监控模块、地图总览模块、网络拓扑图模块,配置管理模块包括服务器资产管理模块,服务管理模块包括事件工单模块。用户交互界面包括用户登录界面、统一监控界面、配置管理界面、服务管理界面,用户通过统一监控界面、配置管理界面、服务管理界面与系统后台进行系统运维信息交互,包括过程:用户通过用户登录界面登录系统。用户通过统一监控界面与统一监控模块信息交互,用户通过点击调用资源总览模块查阅资源摘要信息页面、主机内存使用情况排行信息页面、严重告警主机信息页面、告警主机时序图信息页面,用户通过点击调用告警总览模块查阅告警级别摘要信息页面、告警时序图信息页面、告警级别时序图信息页面、告警主机信息排序页面,用户通过点击调用区域总览模块查阅主机区域分类排序信息页面、区域主机告警列表信息页面,用户通过点击调用虚机总览模块查阅主机ip分类排序信息页面,用户通过点击调用机柜展示模块查阅主机机柜区域分类信息页面,用户通过点击调用环境监控模块查阅主机物理环境参数信息页面,用户通过点击调用地图总览模块查阅主机分布地理区域分类告警信息页面,用户通过点击调用网络拓扑图模块查阅主机网络拓扑图信息页面。用户通过配置管理界面与配置管理模块信息交互,用户通过点击调用服务器资产管理模块查阅物理机资产信息页面、虚拟机资产信息页面。用户通过服务管理界面与服务管理模块信息交互,用户通过点击调用事件工单模块查阅事件信息、任务进度信息,编辑事件信息。

进一步,本方案的方法的过程还包括事件工单模块的处理过程:⑴检测与记录:收集创建事件记录所需的信息,用户将检测得到的告警、故障信息进行记录形成事件信息;⑵分类与初步支持:结合配置管理数据信息对事件进行初步诊断,对每个事件进行分类,定义优先级,若通过初步诊断能够解决事件,则借助知识库查询可用解决方案,若不能解决事件,需要指派给适合的技术团队和二线支持,并且设定工单责任人;⑶调查与诊断:结合配置管理数据,尝试定位事件发生的根本原因;⑷解决与恢复:根据定位的事件原因,将事件与配置项进行关联,并结合知识管理数据库提供解决方案对事件进行处理,对事件解决过程和方案进行记录;⑸事件关闭:在一段时间内无相关事件再次出现,创建问题请求或知识库入库请求,关闭该事件。

本发明基于android系统的服务器运维系统及方法采用基于android系统移动平台上的运维系统,具有使用方便以及工作效率高的特点。

附图说明

图1是本发明基于android系统的服务器运维系统的模块原理图。

图2是系统硬件部署示意图。

图3是事件管理的流程图。

具体实施方式

本发明基于android系统的服务器运维系统包括系统后台、用户交互界面,系统后台获取主机群的运维信息经处理后通过用户交互界面与用户进行信息交互。系统后台包括用户登录管理模块、统一监控模块、配置管理模块、服务管理模块、监控数据库、配置管理数据库、信息技术基础架构库,统一监控模块包括资源总览模块、告警总览模块、区域总览模块、虚机总览模块、机柜展示模块、环境监控模块、地图总览模块、网络拓扑图模块,资源总览模块用于管理主机群的运行状态信息,告警总览模块用于管理主机群的告警信息,区域总览模块用于管理主机群的区域分布及告警列表信息,虚机总览模块用于根据物理机ip分类管理虚机信息,机柜展示模块用于根据主机群的区域分类管理机柜信息,环境监控模块用于管理主机的物理环境参数信息,地图总览模块用于根据主机分布的地理区域管理主机群的告警信息,网络拓扑图模块用于管理主机网络拓扑图信息,配置管理模块包括服务器资产管理模块,服务器资产管理模块用于管理物理机服务器、虚拟机服务器的资产信息,服务管理模块包括事件工单模块,事件工单模块用于管理任务处理过程信息。用户交互界面包括用户登录界面、统一监控界面、配置管理界面、服务管理界面,用户通过统一监控界面、配置管理界面、服务管理界面与系统后台进行系统运维信息交互。上述方案采用基于android系统移动平台上的运维系统,大幅提高了运维人员的工作效率。

为了实现用户与系统后台的数据信息交互,本方案设计了多种信息交互界面,具体包括了以下三方面。

其一,本方案的统一监控界面包括资源总揽按钮图标、告警总览按钮图标、区域总览按钮图标、虚机总览按钮图标、机柜展示按钮图标、环境监控按钮图标、地图总览按钮图标、网络拓扑图按钮图标。资源总揽按钮图标用于调出资源总揽界面,资源总揽界面包括资源摘要信息页面、主机内存使用情况排行信息页面、严重告警主机信息页面、告警主机时序图信息页面。告警总览按钮图标用于调出告警总览界面,告警总览界面包括告警级别摘要信息页面、告警时序图信息页面、告警级别时序图信息页面、告警主机信息排序页面。区域总览按钮图标用于调出区域总览界面,区域总览界面包括主机区域分类排序信息页面、区域主机告警列表信息页面。虚机总览按钮图标用于调出虚机总览界面,虚机总览界面包括主机ip分类排序信息页面。机柜展示按钮图标用于调出机柜展示界面,机柜展示界面包括主机机柜区域分类信息页面。环境监控按钮图标用于调出环境监控界面,环境监控界面包括主机物理环境参数信息页面。地图总览按钮图标用于调出地图总览界面,地图总览界面包括主机分布地理区域分类告警信息页面。网络拓扑图按钮图标用于调出网络拓扑图界面,网络拓扑图界面包括主机网络拓扑图信息页面。

其二,本方案的配置管理界面包括服务器物理机资产信息列表界面、服务器虚拟机资产信息列表界面,服务器物理机资产信息列表界面包括物理机资产信息页面,服务器虚拟机资产信息列表界面包括虚拟机资产信息页面。

其三,本方案的服务管理界面包括事件工单界面,事件工单界面包括下拉菜单、当前登录用户事件列表界面、签收任务列表界面、待办任务列表界面、已办任务列表界面,下拉菜单包括添加事件按钮、查询按钮,添加事件按钮用于调出添加事件页面,查询按钮用于调出查询页面,当前登录用户事件列表界面包括未提交事件信息窗口、已提交事件信息窗口,未提交事件信息窗口包括编辑按钮、提交申请按钮,编辑按钮用于调出事件编辑页面,提交申请按钮用于将未提交事件变成已提交事件,已提交事件信息窗口包括查看按钮,查看按钮用于调出已提交事件信息页面。

本发明还公开了一种基于android系统的服务器运维方法,服务器运维方法基于服务器运维系统实现,服务器运维系统包括系统后台、用户交互界面,系统后台获取主机群的运维信息经处理后通过用户交互界面与用户进行信息交互。系统后台包括用户登录管理模块、统一监控模块、配置管理模块、服务管理模块、监控数据库、配置管理数据库、信息技术基础架构库,统一监控模块包括资源总览模块、告警总览模块、区域总览模块、虚机总览模块、机柜展示模块、环境监控模块、地图总览模块、网络拓扑图模块,配置管理模块包括服务器资产管理模块,服务管理模块包括事件工单模块。用户交互界面包括用户登录界面、统一监控界面、配置管理界面、服务管理界面,用户通过统一监控界面、配置管理界面、服务管理界面与系统后台进行系统运维信息交互,包括过程:用户通过用户登录界面登录系统。用户通过统一监控界面与统一监控模块信息交互,用户通过点击调用资源总览模块查阅资源摘要信息页面、主机内存使用情况排行信息页面、严重告警主机信息页面、告警主机时序图信息页面,用户通过点击调用告警总览模块查阅告警级别摘要信息页面、告警时序图信息页面、告警级别时序图信息页面、告警主机信息排序页面,用户通过点击调用区域总览模块查阅主机区域分类排序信息页面、区域主机告警列表信息页面,用户通过点击调用虚机总览模块查阅主机ip分类排序信息页面,用户通过点击调用机柜展示模块查阅主机机柜区域分类信息页面,用户通过点击调用环境监控模块查阅主机物理环境参数信息页面,用户通过点击调用地图总览模块查阅主机分布地理区域分类告警信息页面,用户通过点击调用网络拓扑图模块查阅主机网络拓扑图信息页面。用户通过配置管理界面与配置管理模块信息交互,用户通过点击调用服务器资产管理模块查阅物理机资产信息页面、虚拟机资产信息页面。用户通过服务管理界面与服务管理模块信息交互,用户通过点击调用事件工单模块查阅事件信息、任务进度信息,编辑事件信息。

为了说明事件工单的处理过程,本方案还公开了一种可行的步骤过程,具体是本方案的方法的过程还包括事件工单模块的处理过程:⑴检测与记录:收集创建事件记录所需的信息,用户将检测得到的告警、故障信息进行记录形成事件信息;⑵分类与初步支持:结合配置管理数据信息对事件进行初步诊断,对每个事件进行分类,定义优先级,若通过初步诊断能够解决事件,则借助知识库查询可用解决方案,若不能解决事件,需要指派给适合的技术团队和二线支持,并且设定工单责任人;⑶调查与诊断:结合配置管理数据,尝试定位事件发生的根本原因;⑷解决与恢复:根据定位的事件原因,将事件与配置项进行关联,并结合知识管理数据库提供解决方案对事件进行处理,对事件解决过程和方案进行记录;⑸事件关闭:在一段时间内无相关事件再次出现,创建问题请求或知识库入库请求,关闭该事件。

本方案公开了一种用于手机app的运维监控及服务流程管理系统及其实现方法,提供一个安卓手机上运行的监控及服务管理(android版)的应用系统。运维人员能通过这个手机app,进行集中的系统监控,查看监控服务器的状态及告警事件,对资产配置信息进行查看、维护,服务管理的工单查询及处理。如图2所示,系统的拓扑结构包括以下内容。

监控服务器:安装监控引擎服务器,负责监控数据存储,阀值设置及告警,提供api接口,提供图形化web界面。

itil管理:实现事件管理、问题管理、变更管理、发布管理、知识库、配置管理等功能。

数据库服务器:安装mysql,存储系统数据。

agent客户端:负责采集监控数据,发送给监控服务器或proxy。

其它客户端:通过snmp、ipmi等其它协议采集监控数据,并发送给监控服务器或proxy。

proxy代理:代理服务器,收集隔离网的监控数据,并进行缓存,发送给zabbixserver,每个隔离网部署一个proxy服务器。

告警:支持邮件、短信、微信告警。

监控及服务管理(android版)app:通过app监控系统,查看监控指标及告警事件,以及itil管理操作及资产管理。

整个运维平台包括:前端app、数据库系统、运维平台子系统。资产管理库:存储企业的资产ci配置项信息,是系统的核心数据库。监控数据库:存储监控子系统收集的指标数据。流程支撑库:存储itil流程管理的流程数据。综合监控子系统:实现从主机到应用的综合监控及展示。资产管理子系统:实现资产配置项ci的收集及管理。流程管理子系统:实现itil的流程管理:包括事件管理、问题管理、变更管理、服务请求等等。自动化运维子系统:实现应用发布、任务跟踪管理、自动化部署、配置ci项的自动收集等等。

基于此,本方案的系统工作原理以及技术架构说明如下。

展示层:运维人员通过手机app访问系统,监控系统运行的状况,展示层采用先进的开发技术,包括angularjs、html5、jquery、echarts、bootstrap等先进技术。

核心处理层:主要完成统计监控的相关功能,包括:登录及权限控制、配置管理、安全事件审计、应用日志审计、应用变更审计、运维管理控制、报表功能、邮件及短信通知、手持设备运维、总体指标运算、监控任务管理等等功能。实现的技术采用业界成熟的springmvc架构及java开发语言。

数据接口层:主要完成数据的交互接口,通过jdbc、restful/soap、sdk、socket等等与基础监控平台进行连接,实时获取基础监控数据。

工具层:主要是基础监控分析工具,包括资源类监控工具、日志类监控分析工具、性能管理类监控工具、自动化部署类工具、配置管理类工具等,资源类监控工具收集资源性能数据,如cpu、内存、硬盘等使用情况,日志类监控分析工具主要收集日志并进行监控分析,性能管理类监控工具主要是监控应用各个阶段的性能指标,如响应时间、交易量等指标,监控引擎对统一监控提供支持,收集并监控所有应用系统的性能数据及日志,自动化部署类工具主要是实现客户端的规模化自动部署,如监控引擎的客户端的自动化部署。cmdb是配置管理的数据中心,存放整个系统的配置管理信息,如服务器的管理信息、应用的信息、数据库的管理信息及其相关联的信息。

it系统层:或称被监控系统,包括各种应用业务系统,每个系统都包括服务器、网络、应用软件系统、数据库系统、业务软件系统等等,这些都是被监控的对象。

本方案的实现方法详细说明如下。

登录退出

该功能用于用户登录和退出app,输入用户输入用户名和密码,点击login,登陆成功进入app主页,用户名或密码输入错误提示登录失败。未输入用户名或者密码时提示请输入用户名或者请输入密码。退出页面,用户在手机屏幕最左边往右滑动然后出现有退出登录的页面则点击退出登录,或者用户可点击手机屏幕左上角的按钮然后出现有退出登录的页面则点击退出登录,退出成功则返回登录页面。

统一监控

资源总览,该页面主要可通过点击监控主机数和异常设备数和告警数跳转到对应的页面进行展示具体告警信息,然后通过图表形式展示内存使用率前十机器、实际使用内存前十机器、实际内存使用率前十机器、严重告警机器、告警主机是时序图。

告警总览,该页面主要可通过点击告警级别:灾难、严重、一般严重和当前告警数跳转到对应的页面进行展示具体告警信息,然后通过图表形式展示告警时序图、告警级别时序图、前十告警机器、前十告警名。

区域总览,该页面主要以图形化展示主机区域图和主机告警列表信息。

虚机总览,该页面主要根据物理机的ip来分类展示虚机信息,绿色为正常,红色为异常,可通过点击某个虚机展示虚拟机具体信息,并且把有问题的数据整行标记为红色。

机柜展示,该页面主要根据机房名称来分类展示机柜,机柜中有异常数据时则用红框标记。用户点击主页面的机柜展示则跳转至机柜展示页面,用户点击某个机柜则可查看这个机柜中的机器,正常机器是绿灯闪烁,异常机器是红色闪烁。

环境监控,用户点击主页面的环境监测则跳转至环境监测页面,机房温度湿度异常时会在图中显示具体的温度和湿度,其他指标异常时对应的指示灯则变红。

地图总览,用户点击主页面的地图总览则跳转至地图总览页面,地图总览显示告警时序图和告警级别直方图,显示每个机房的机器数和告警总数。

网络拓扑图,用户点击主页面的网络拓扑图则跳转至网络拓扑图页面,用户点击左上角可选择要显示的网络拓扑图。

配置管理

用户在主页面点击配置管理则可以看到资产信息,用户可点击查看按钮查看数据,显示数据时只显示前四个字段的数据,点击某一条数据则可查看一整条数据信息。

服务管理

我的事件页面用来展示现登录账号所提交的所有的事件,可以添加事件和查询事件。用户在主页面点击服务管理则显示我的事件页面,点击查看按钮则可以显示该事件的全部信息。用户可点击右上角的加号选择增加,进行添加事件,新添加的事件为未提交状态,则在该条事件上面有个未提交的标志,新添加的事件在为提交申请前可进行修改,点击编辑按钮即可,用户可点击提交申请进行启动流程,提交成功后未提交的提示则消失,但是必须要下拉刷新一下。用户可点击右上角的加号选择查询,进行查询事件。事件工单处理流程可以包括如下步骤:

⑴检测与记录

这个环节是事件管理流程的起点。所有用户报告的it事件必须报到服务台,服务台由此步骤开始进行事件处理,同时,监控系统发现的告警以及二线人员主动发现的故障,也要由二线人员进行事件的记录。此步骤的目的是在事件发生时快速准确地发现,以协助事件的诊断和解决并通知相关人员。在此步骤中将会收集创建事件记录所需的信息。

⑵分类与初步支持

该步骤的目的是结合配置管理数据信息,对事件进行初步诊断,并对每个事件进行正确的分类,然后为每个事件定义优先级。若通过初步诊断能够解决事件,则借助知识库查询可用解决方案,解决事件,若不能解决,该事件需要指派给适合的技术团队和二线支持,并且设定工单责任人。

⑶调查与诊断

这个步骤的目标是进行深入的调查,结合配置管理数据,尝试定位事件发生的根本原因,各个技能组和技术水平的二线人员将会参与寻找一个解决方案或变通方案。如果解决事件需要跨部门的技能组进行处理,可由工单责任人对事件进行转派,转派后事件仍由工单责任人负责对事件后续处理的协调和跟踪。二线支持人员也可以协调第三方厂商参与事件的调查和诊断,并给出事件解决方案。

⑷解决与恢复

技术支持人员根据定位的事件原因,将事件与配置项进行关联,并结合知识管理数据库提供解决方案对事件进行处理,并恢复业务正常运行,事件解决后,技术人员对事件解决过程和方案进行记录。若事件的解决需要创建变更请求,需遵循变更管理流程控制。

⑸事件关闭

针对用户申告的事件,服务台与用户确认事件解决,并进行满意度调查,针对监控系统推送的事件或二线人员自发现的事件,在一段时间内无相关事件再次出现,由工单责任人关闭该事件。事件关闭前,可根据需要创建问题请求或知识库入库请求。

本方案通过智能手机查看监控的状态及告警信息,查看运维的配置项信息,查看服务流程处理工单,同时跟踪告警事件的处理情况,对工单进行处理和跟踪,具有以下技术效果:⑴提高运维人员的工作效率,降低劳动力成本,运维人员不再需要一直在所运维的区域内工作,可以在办公室之外的地方工作,拥有了移动办公的有效工具,运维人员提高了工作效率,运维部门可以承担更多的运维工作;⑵使用方便,加快故障处理的速度,提高工作质量,相比较于使用pc端系统,通过利用手机端app及时查看监控状态及事件,及时发起工单及处理,使得故障处理的速度加快了,提高了工作质量。基于以上特点,本方案的基于android系统的服务器运维系统及方法相比现有方案具有突出的实质性特点和显著的进步。

本方案的基于android系统的服务器运维系统及方法并不限于具体实施方式中公开的内容,实施例中出现的技术方案可以基于本领域技术人员的理解而延伸,本领域技术人员根据本方案结合公知常识作出的简单替换方案也属于本方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1