铁路编组站综合自动化综合运维监控系统的制作方法

文档序号:24876540发布日期:2021-04-30 12:52阅读:168来源:国知局
铁路编组站综合自动化综合运维监控系统的制作方法

本发明涉及轨道交通技术领域,尤其涉及一种铁路编组站综合自动化综合运维监控系统。



背景技术:

编组站综合自动化系统集成了计算机联锁、驼峰自动化控制、停车器自动控制、调机监控、tdcs、管理信息等众多系统,集成度较高、设备、接口、功能模块与业务流程繁杂,导致系统维护工作技术含量高、工作量大。

目前全路范围内已投入使用的综合自动化项目已达到20余个,现有条件下无法对系统网络安全设备及网络攻击有效监测及预警,设备台账等基础数据也没有进行集中统一管理,系统运行日志、流量、性能等安全相关信息也无法进行实时分析管理,由于不同厂家不同设备及多种网络协议等形成的异构网络,使得对编组站设备的维护管理难度加大,仅靠人工的重复劳动已远不能满足设备的高安全性及高可靠性。由此产生的系统维护压力对系统的综合维护水平提出了更高的要求,同时对保障系统的安全稳定运行提出了日益严峻的考验。



技术实现要素:

本发明的目的是提供一种铁路编组站综合自动化综合运维监控系统,能够实时、不间断的监控各类型设备的铁路编组站综合自动化系统,大幅度提升系统综合维护水平。

本发明的目的是通过以下技术方案实现的:

一种铁路编组站综合自动化综合运维监控系统,包括:关键设备层、数据采集层、数据处理层、以及综合运维层;其中:

所述关键设备层中包含了被监测设备与被监测软件;所述数据采集层设有多种协议适配器,从关键设备层中采集各种数据信息;所述数据处理层针对数据采集层所采集的各种数据信息进行综合处理后,进行实时性能分析与告警关联分析;所述综合运维层中设有多个与监控内容相关的处理模块,用来显示数据处理层输出的分析结果,或者结合相关的分析结果进行信息编辑。

由上述本发明提供的技术方案可以看出,通过综合运维监控系统能够有效预防设备系统故障发生,能够对网络攻击有效监测并实时预警提示,能够帮助运维人员实时了解设备与业务系统运行状况并同步对设备台账等基础数据进行集中管理,系统运行日志、流量、性能等安全相关信息实时获取并辅助运维管理人员进行精准决策和有效应急处置,大幅度提升系统综合维护水平。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种铁路编组站综合自动化综合运维监控系统架构示意图;

图2为本发明实施例提供的一种铁路编组站综合自动化综合运维监控系统的软件架构示意图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

考虑到现有技术所存在的问题,本发明实施例提供一种铁路编组站综合自动化综合运维监控系统,实现电务段、电务车间、电务工区三级立体化的维护管理要求。通过综合运维监控系统能够有效预防并避免设备系统事故发生,能够对网络攻击有效监测并实时预警提示,能够帮助运维人员实时了解设备与业务系统运行状况并同步对设备台账等基础数据进行集中管理,系统运行日志、流量、性能等安全相关信息实时获取并辅助运维管理人员进行精准决策和有效应急处置,大幅度提升系统综合维护水平。

本发明采用先进的体系架构来提升系统的可扩展性及高可靠性,具体来说:系统采用最新的j2ee体系结构提供中间层集成框架,完成不同品牌、不同平台、不同协议的设备监控,实现多种类设备统一管理,并对个别设备进行定制化扩展;为了保证设备安全性及可靠性,避免对正常运行的应用产生影响,系统的数据采集层采用安全可靠无代理数据采集模式对底层数据进行有效采集,杜绝在被监测设备上部署任何第三方程序,保证被监测设备的安全稳定运行。此外,系统设置自学习告警知识库,告警知识库通过收集和整理现场运维人员日常的故障分析处理案例,整理出一套完善成熟的告警知识专家库,其主要功能是系统日常接收到新的告警信息时,首先对告警知识库进行关联,若是知识库中存在类似的处理过的案例,告警处理引擎自动将告警进行翻译并及时给出最优的处理建议,指导现场维护人员快速准确进行故障处理。

本发明实施例提供的铁路编组站综合自动化综合运维监控系统是对编组站网络、硬件设备性能及状态进行实时监测、真实反映设备运行质量的管理平台。涵盖网络、主机、pc服务器、中间件、数据库、业务监控等;旨在能全面掌握编组站网络设备、服务器设备、工控机设备、数据库设备的运行状况,及时发现设备及网络安全隐患,消除故障,为运维人员提供全面可靠的,可视化维护管理平台。

该系统的技术要求主要包括:

(1)采用j2ee体系结构提供中间层集成框架满足资源低耗费而又需高可用性、高可靠性以及可扩展性的应用的需求。

(2)系统实现统一的安全集成和身份认证,即“统一管理、统一授权、统一认证、集中审计”。系统对监控范围内的网络设备、服务器设备、工控机设备、数据库设备等进行初始化统一授权、统一认证,运行过程中进行定期集中审计管理,对监控范围内的未授权认证的设备及时进行安全提示。

(3)系统支持把开放的业务功能封装为web服务的方式,支持部署web服务,对ws-security标准提供支持。并完全实现对uddi、wsdl、soap等技术的支持,使用soap与其它系统实现互操作,体现松耦合的设计思想。

(4)整个系统基于组件的开发模式,使应用组件具有预制性、封装性、透明性、互操作性、通用性等特征,便于快速地组装成新的应用,更加有利于系统的后续升级及扩展。

如图1~图2所示,为系统架构及系统的软件架构,该系统主要包括:关键设备层、数据采集层、数据处理层、以及综合运维层;其中:

所述关键设备层中包含了被监测设备与被监测软件;所述数据采集层设有多种协议适配器,从关键设备层中采集各种数据信息;所述数据处理层针对数据采集层所采集的各种数据信息进行综合处理后,进行实时性能分析与告警关联分析;所述综合运维层中设有多个与监控内容相关的处理模块,用来显示数据处理层输出的分析结果,或者结合相关的分析结果进行信息编辑。

下面针对图1与图2分别进行详细的介绍。

如图1所示,为铁路编组站综合自动化综合运维监控系统使用现有的编组站综合自动化系统业务网络。综合运维层部署于维护终端,数据处理层部署于综合维护应用服务器,数据采集层部署于磁盘阵列,关键设备层则部署于数据库服务器和汇聚交换机。

1)综合运维监控系统汇聚交换机:接入现有铁路编组站综合自动化系统业务网络中的核心交换机,实现现有铁路编组站综合自动化系统网络与综合运维监控系统互通。将主机设备管理口(即,图1中的imm管理口)单独组网接入到综合运维监控系统交换机,实现综合运维监控系统与设备管理口互通,实现设备syslog告警信息的获取。

2)综合运维监控系统应用服务器:部署数据采集器软件,获取设备的性能和告警信息。部署综合运维监控系统展示软件,实现综合运维监控系统平台界面展示。

3)数据库服务器:部署mysql数据库,实现数据存储。

4)磁盘阵列:实现采集数据的存储和备份。

5)综合运维监控系统维护终端:实现综合运维监控系统的访问。

如图2所示,系统软件架构主要分为:关键设备层,数据采集层,数据处理层,综合运维层。系统使用mysql数据库进行统一的数据存储,并且接入铁路编组站综合自动化系统业务状态信息。

1)关键设备层:在机房网络中,接入被监测对象,主要包括主机设备(服务器、工控机)、网络设备(路由器,交换机)、数据库(oracle数据库)、运行软件(软件进程状态),还可以接入第三方系统的软件状态(铁路编组站综合自动化系统业务软件,主要监控软件状态、软件主备机状态、软件运行状态、smc状态、tdcsi外部接口状态)。主机设备与网络设备可以统称为被监测设备,数据库、运行软件以及第三方系统的软件都可以统称为被监测软件。

2)数据采集层:获取相关性能、告警、状态信息所使用的协议,从而基于相关协议从网络设备层进行相关信息的采集。

snmp协议:主要获取工控机设备、网络设备的性能信息(包括cpu、内存、磁盘、网络流量等信息)。

syslog协议:主要获取服务器管理口告警日志(syslog告警信息),被监测设备如果发生告警时,会把syslog告警信息主动推送给综合运维监控系统。

ssh协议:主要获取服务器设备的性能信息(包括cpu、内存、磁盘、端口流量)。

jdbc协议:主要获取oracle数据库的状态信息(包括表空间使用率、会话连接数等)。

私有协议:获取铁路编组站综合自动化系统业务状态信息。

3)数据处理层:将采集得到的性能信息、状态信息、syslog告警信息、业务状态信息,进行性能数据的归并、告警信息的处理,供综合运维层调用。

4)综合运维层:主要实现系统所展示的功能,包括资产管理、设备状态监测、数据库监测、配置管理、机柜管理、告警管理、历史记录查询、权限管理。

本发明实施例中,设于综合运维层,且与监控内容相关的处理模块主要包括:业务软件监控模块、资产硬件监控模块、资产管理模块、机柜管理模块、数据库监测模块、配置管理模块、告警管理模块、以及历史查询模块;上述模块各自用于被监测设备与被监测软件的状态监测、被监测设备的监测、被监测设备的管理、放置被监测设备的机柜的管理、数据库监测、配置管理、告警管理、历史记录查询、权限管理。

下面针对上述模块分别进行相关介绍。

一、业务软件监控模块。

业务软件监控模块,用于结合数据处理层的输出结果,展示编组站综合自动化系统中各被监测设备的性能信息及被监测软件的状态信息及相关业务状态信息。

本发明实施例中,业务软件监控模块对应的展示页面中,可以直接查询被监测软件的运行状态,被监测设备的性能信息(包括cpu使用率、内存使用率)以及syslog告警信息。

二、资产硬件监控模块。

本发明实施例中,资产硬件监控模块,包括:机柜展示模块、机柜详情展示模块、以及设备详情展示模块。

基于数据处理层的输出结果,资产硬件监控模块能够展示全部机柜及机柜内资产详情信息、资产性能等信息;主要为:机柜展示模块能够展示全部机柜的信息,每一机柜中设有若干被监测设备(也即,资产);机柜详情展示模块能够展示机柜内资产详情信息,包括:被监测设备的相关数据信息与汇总机柜中被监测设备的性能信息(例如,设备状态、网卡状态、磁盘使用情况等)与相应的syslog告警信息;设备详情展示模块能够展示单个被监测设备的性能信息与相应的syslog告警信息。

具体来说:

1、资产详情:用于展示设备名称、系统启动时长、资产ip、资产类型、位置、设备厂商、操作系统的详细数据。

2、资产性能:展示采集的cpu数据包含:cpu个数、核数、型号、主频,及一定时间段内cpu使用率折线图。展示采集的内存数据包含:总容量、内存空闲、使用率,及一定时间段内的内存使用率折线图。

3、历史查看:用于展示cpu、内存、空间折线在一定时间内使用率的折线图和一定时间内的平均使用率,均支持按今天、三天、一周和选择某时间段查询。

4、磁盘使用情况:展示采集的所有磁盘数据,包含:磁盘位置、总容量、可用、使用率的数据。

5、网卡状态:用于展示该设备所有的网卡信息包含:网卡名称、网卡状态、ip地址、最新采集时间。

6、关键进程:用于展示该设备已配置采集的进程占cpu使用率、占内存使用率。

7、资产告警:用户展示该资产的告警信息。

三、资产管理模块。

所述资产管理模块可以进行如下编辑操作,编辑完毕后更新资产硬件监控模块中所展示的相关信息:

1、新增资产:添加新的被监测设备,包括:服务器、路由器、交换机、工控机四种类型硬件设备中的任一种或多种,并设置新的被监测设备的存放机柜及位置。

2、编辑资产:对已添加的资产详情信息进行修改。

3、删除资产:对已添加的被监测设备进行删除。

4、查询与导出:对资产列表中的被监测设备进行查询及导出。

5、阈值设置:对全部被监测设备阈值进行统一设置,或针对单台被监测设备进行单独设置,阈值类型包括:cpu占用百分比、内存占用百分比、磁盘占用百分比、通信误码占用百分比、通信丢包占用百分比。

6、业务配置:配置被检测软件业务监控,包括:软件运行状态与smc心跳状态监控。

7、tdcsi配置:配置tdcsi软件间的通讯ip地址,用于接收软件通讯状态。

四、机柜管理模块。

所述机柜管理模块能够进行如下编辑操作,编辑完毕后更新资产硬件监控模块中所展示的相关信息:

新增机柜:添加机柜,用于线上记录被监测设备存放所属机柜及位置(新增资产时可选择存放机柜及位置),方便线下运维人员查找。

编辑机柜:对已添加机柜信息进行修改;

删除机柜:对已添加机柜进行删除;

查询机柜:对已添加机柜进行查询。

五、数据库监测模块。

所述据库监测模块,根据数据采集层获取的数据库的状态信息,进行数据库的基础性能展示与表空间性能展示;其中:

数据库的基础性能展示包括:锁利用率、锁等待率、锁使用率、共享池命中率、缓存池命中率、以及繁忙比率;

表空间性能展示,包括:表空间名称、总大小、空间大小、以及使用率。

六、告警管理模块。

所述告警管理模块,根据数据采集层获取的syslog告警信息,进行告警信息展示以及对各类与各级告警进行综合处理;具体来说:

1、能够通过输入筛选条件进行告警信息的查询与展示,筛选条件为被监测设备ip、被监测设备别名、处理状况、标题、告警级别、告警类型、告警时间一种或多种。

2、支持告警处理,并能够通过一键处理的方式,处理全部被监测设备的软件未处理状态的告警信息。

七、历史查询模块。

所述历史查询模块,用于根据输入信息进行被监测设备的操作、铁路编组站综合自动化系统运行过程数据、以及现场维护人员设备维护记录的查询与导出。

八、配置管理模块。

所述配置管理模块包括:数据库管理子模块、告警匹配库子模块、进程管理子模块、telnet端口管理子模块、文件收集子模块、以及用户管理子模块;具体来说:

1、数据库管理子模块,用于增加新增、编辑及删除数据库;具体来说:

1)新增数据库:可添加oracle数据库,用于监测数据库使用情况。添加完成后可进入数据库监测模块查询该数据库详情信息。

2)编辑数据库:可对已添加数据库信息进行修改。

3)删除数据库:可对已添加的数据库进行删除,删除后数据库监测模块下的该数据库消失不监控。

2、告警匹配库子模块,用于新增、编辑、删除及查询告警匹配信息;具体来说:

1)新增告警匹配信息:可用于自定义添加告警匹配信息。

2)编辑告警匹配信息:可对已添加的告警匹配信息进行修改。

3)删除告警匹配信息:可对已添加的告警匹配信息进行删除。

4)查询告警匹配信息:可对已添加告警匹配信息进行查询。

3、进程管理子模块,用于配置采集进程,能够对已添加的被监测设备配置相关进程并设置进程阈值,阈值类型包括占cpu使用率、占内存使率;还用于查询进程,能够通过条件查询到对应被监测设备的进程采集列表及采集状态,所述条件为被监测设备名称、被监测设备编号、被监测设备ip中的一种或多种。

4、telnet端口管理子模块,用于检测被监测设备端口是否可用,包括:通过选择被监测设备名称查询到目标主机,输入对应端口号检测相应端口号对目标主机是否可用;或者,输入单个端口、多个端口、端口区间,以检测相关端口号是否可用;通常,端口号之间、端口号与端口区间均使用逗号隔开,例如,20,30,50-60。

5、用户管理子模块,用于新增、编辑与删除用户;具体来说:

1)新增用户:可添加管理员用户,普通用户角色,管理员用户包含系统全部操作维护权限,普通用户只有部分查询、导出及处理告警权限。

2)编辑用户:可对已添加的管理员用户及普通用户账号密码等信息进行修改。

3)删除用户:可对已添加的管理员用户及普通用户进行删除。

本发明实施例提供的上述系统能够明显降低人员成本、提升运维效率,具体来说:

既有模式下铁路编组站综合自动化运维主要技术指标为:

1)现场维护人员设置为8人/站,人员成本为120万/年·站。

2)系统故障的平均处置响应时间30分钟/次。

铁路编组站综合自动化综合运维监控系统主要技术经济指标为:

1)现场维护人员设置为4人/站,人员成本为60万/年·站。

2)系统故障的平均处置响应时间15分钟/次

由此可见,本发明上述系统和既有模式相比,一方面可以减少一半人员成本,另一方面处置响应时间缩短了一半。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1