一种故障分析方法及装置与流程

文档序号:31634517发布日期:2022-09-24 03:10阅读:60来源:国知局
一种故障分析方法及装置与流程

1.本发明属于it(information technology,信息技术)故障检测技术领域,具体涉及一种故障分析方法及装置。


背景技术:

2.对于制造企业而言,mes(manufacturing execution system,制造执行系统)系统是负责现场生产制造过程的系统,当mes系统出现问题时,现场产线便不可生产,这对企业影响巨大。
3.mes系统是个庞大的系统,从产线工站、现场网络交换机、汇聚交换机、核心骨干网络到应用服务器、数据库和服务器网络,整个故障分析排查的链条特别长,当mes系统出现故障问题时,无法快速准确地定位哪个环节出现问题。
4.因此,如何在mes系统出现故障问题时,如何快速定位故障就显得尤其重要。


技术实现要素:

5.为了解决上述技术问题,本发明的实施例在于提供一种故障分析方法,能够通过配置mes拓扑图,快速判断故障点,节省故障分析排查时间。
6.为此,本发明所提出如下技术方案予以解决:本技术涉及一种故障分析方法,其特征在于,包括:配置mes系统、数据中心、核心骨干网络和现场网络之间的拓扑图;获取拓扑图中涉及服务器、数据库和网络设备的节点的性能指标;获取拓扑图中涉及网络设备和应用服务器的节点的日志;获取拓扑图中涉及工站、服务器和网络设备的节点的连通性和丢包率;在拓扑图中展示对应节点的性能指标、日志、连通性和丢包率;分析所述性能指标、日志、连通性和丢包率,并在所述性能指标、日志、连通性和丢包率出现异常时,在所述拓扑图中发出告警信息。
7.在本技术的一些实施例中,获取拓扑图中涉及服务器、数据库和网络设备的节点的性能指标,具体包括:通过zabbix采集拓扑图中涉及服务器、数据库和网络设备的节点的性能指标。
8.在本技术的一些实施例中,获取拓扑图中涉及网络设备和应用服务器的节点的日志,具体包括:通过clickhouse采集拓扑图中涉及网络设备和应用服务器的节点的日志。
9.在本技术的一些实施例中,获取拓扑图中涉及工站、服务器和网络设备的节点的连通性和丢包率,具体包括:通过smokeping采集拓扑图中涉及工站、服务器和网络设备的节点的连通性和丢包率。
10.在本技术的一些实施例中,在拓扑图中展示对应节点的性能指标、日志、连通性和丢包率,具体包括:通过grafana在拓扑图中展示对应节点的性能指标、日志、连通性和丢包
率。
11.在本技术的一些实施例中,在节点发出告警信息时,改变所述拓扑图中对应所述节点的图标的颜色,且同时弹出告警窗口。
12.在本技术的一些实施例中,所述故障分析方法还包括:根据用户的注册账户及所在的组织,查看对应所述组织下的拓扑图。
13.在本技术的一些实施例中,所述故障分析方法还包括:根据注册账户确定对应用户的不同等级,根据不同等级,确定对应用户的对所述拓扑图进行管理的不同的权限。
14.在本技术的一些实施例中,所述权限至少包括只读权限和配置权限。
15.相比现有技术,本发明提供的故障分析方法,具有如下有益效果和优点:通过配置mes系统、数据中心、核心骨干网络和现场网络之间的拓扑图,将物理世界的链路拓扑图还原在数据世界中,并在拓扑图上展示性能指标、日志、连通性和丢包率,方便mes运维人员直观查看各节点的情况;在节点的性能指标、日志、连通性和丢包率出现异常时,在拓扑图上进行告警,方便mes运维人员能够根据拓扑图快速定位存在故障的节点,节省了故障分析排查的时间。
16.本发明的实施例还在于提供一种故障分析装置,能够通过配置mes拓扑图,易于mes运维人员快速判定位故障点,节省了故障分析排查的时间。
17.为此,本发明所提出如下技术方案予以解决:本技术涉及一种故障分析装置,其特征在于,配置模块,其用于配置mes系统、数据中心、核心骨干网络和现场网络之间的拓扑图;第一获取模块,其用于获取拓扑图中涉及服务器、数据库和网络设备的节点的性能指标;第一获取模块,其用于获取拓扑图中涉及网络设备和应用服务器的节点的日志;第一获取模块,其用于获取拓扑图中涉及工站、服务器和网络设备的节点的连通性和丢包率;展示模块,其用于在拓扑图中展示对应节点的性能指标、日志、连通性和丢包率;故障分析及告警模块,其用于分析所述性能指标、日志、连通性和丢包率,并在所述性能指标、日志、连通性和丢包率出现异常时,在所述拓扑图中发出告警信息。
附图说明
18.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明实施例或现有技术描述中所需要使用的附图作一简要介绍,显而易见地,下面描述的附图是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
19.图1为本发明提出的故障分析方法实施例的流程图;图2为本发明提出的故障分析方法实施例中获取数据的示意图。
具体实施方式
20.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例
中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.实施例一为了便于mes运维人员快速定位故障节点,本技术提供一种故障分析方法,用于在拓扑图上展示节点的信息,并发出告警。
22.参见图1,其示出故障分析方法的流程图。
23.s1:配置mes系统、数据中心、核心骨干网络和现场网络之间的拓扑图。
24.mes系统包括数据库和应用服务器,其中数据库分为主库和备库,主库监控mes系统的负载情况,备库查看mes系统的产能大小及延迟情况。
25.数据中心包括服务器、san(storage area network,存储区域网络)交换机和存储等设备。
26.核心骨干网络包括骨干路由器、防火墙和核心交换机等设备。
27.现场网络包括现场工站、汇聚交换机、接入交换机和现场交换机。
28.在s1中配置拓扑图时,需要进行如下设置:基本设置、节点设置、连线设置和监控项设置。
29.基本设置主要指创建拓扑图,并填写基本的系统信息,例如,所属组织、是否停线、是否eol(end of life,项目终止)等。
30.其中该所属组织指该拓扑图涉及哪个组织(例如,第一生产部门、第二生产部分)。
31.节点设置通过同步cmdb(configuration management database,配置管理数据库)信息,将拓扑图中的节点自动同步至故障分析平台(描述参见如下),以进行自动的排布。
32.连线设置可支持在拓扑图通过鼠标点击连线和后台web页面配置。
33.监控项设置指可支持自定义监控项,监控项例如为cpu使用率等。
34.此s1部分通过配置模块来实现。
35.s2:获取拓扑图中涉及服务器、数据库和网络设备的节点的性能指标,获取拓扑图中涉及网络设备和应用服务器的节点的日志,获取拓扑图中涉及工站、服务器和网络设备的节点的连通性和丢包率。
36.参见图2,描述上述数据的来源。
37.如在s1中示出的,拓扑图中mes系统、数据中心、核心骨干网络和现场网络中节点有的涉及服务器,有的涉及数据库,有的涉及网络设备,有的涉及工站,因此,对拓扑图中不同节点对应获取不同的数据,具体描述如下。
38.参见图2中粗实线部分,通过zabbix采集拓扑图中涉及服务器、数据库和网络设备的节点的性能指标,例如cpu使用率、磁盘剩余空间等。
39.参见图2中细实线部分,通过clickhouse采集拓扑图中涉及网络设备和应用服务器的节点的日志。
40.此处的应用服务器对应mes系统中应用服务器,日志对应所述应用服务器的日志。
41.所采集的日志包括两个部分:(1)mes系统中应用服务器的日志,记为mes iis日志;(2)对应网络设备的交换机日志。
42.参见图2中长划线虚线部分,通过smokeping采集拓扑图中涉及工站、服务器和网络设备的节点的连通性和丢包率。
43.此外,参见图2中短划线虚线部分,通过smokeping采集到的连通性和丢包率等指标,可以由clickhouse采集到。
44.需要说明的是,zabbix为业界较为经典的开源监控软件,可对服务器、网络、存储和数据库等信息进行负载情况的监控;clickhouse为业界最快的开源列式数据库,现在多用于存储日志等信息,可实现日志的快速查询和压缩等功能;smokeping为业界常用的用于进行网络连通性及延迟情况的监控工具。
45.此s2中,获取拓扑图中涉及服务器、数据库和网络设备的节点的性能指标由第一获取模块实现。
46.获取拓扑图中涉及网络设备和应用服务器的节点的日志由第二获取模块实现。
47.获取拓扑图中涉及工站、服务器和网络设备的节点的连通性和丢包率由第三获取模块实现。
48.在替代性实施例中,s2中数据的获取方式也可以采用软件程序的方式进行获取。
49.s3:在拓扑图中展示对应节点的性能指标、日志、连通性和丢包率。
50.如s2中所述的,日志、连通性和丢包率存储在clickhouse中,性能指标可由zabbix获取。
51.因此,参见图2中双点划线,如上所述的性能指标、日志、连通性和丢包率,会通过grafana在拓扑图中进行展示。
52.需要说明的是,grafana为业界经典的开源数据展示工具,可支持多种数据源,且图表内容丰富。
53.在拓扑图中,通过点击节点的图标查看对应节点的信息,例如性能指标、日志、连通性和丢包率。
54.通过拓扑图能够直观展示各节点的信息,便于mes运维人员进行故障排查及信息查看。
55.此s3中的显示可以由显示模块实现。
56.s4:分析性能指标、日志、连通性和丢包率,并在性能指标、日志、连通性和丢包率出现异常时,在拓扑图中发出告警信息。
57.参见图2中单点划线,如s2中所述通过zabbix采集到的性能指标,分析该性能指标,并通过抓取进程抓取到告警信息,并可进一步传入故障中间表进行集合汇总。
58.例如,在性能指标指cpu使用率时,若分析到所采集到的cpu使用率大于触发警告的限值(例如80%)时,则发出告警信息。
59.具体通过抓取进程抓取该告警信息并传入故障中间表进行集合汇总。
60.参见图2中单点划线,如s2中所述clickhouse存储的日志,分析该日志,并通过分析进程获取到日志的告警信息,并可进一步传入故障中间表进行集合汇总。
61.例如,根据网络交换机的日志,进行告警,例如网络环路。
62.参见图2中单点划线,如s2中所述通过smokeping采集的数据(包括连通性和丢包率),分析所采集的数据,并通过告警进程获取告警信息,并可进一步传入故障中间表进行集合汇总。
63.故障中间表汇总的告警信息通过故障分析平台可进行告警提示,以便mes运维人员能够快速定位故障点,节省故障排查时间。
64.并且,参见图2中单点划线,故障分析平台也能够将grafana的信息进行展示,以便mes运维人员能够直观地查询各节点的信息,提前发现故障隐患点,从而能够对各节点进行有效维护。
65.s3中采用故障分析及告警模块来实现。
66.在故障分析平台上,能够查看对应节点的性能指标、日志、连通性和丢包率,且在节点发出告警信息时,对应节点的图标会变色(例如,红色),且同时弹出告警窗口。
67.在该告警窗口中,可以具体显示告警内容(例如,cpu使用率达到90%,已超过触发告警的限值80%),辅助mes运维人员对节点的有效维护。
68.为了实现对拓扑图的管理,在本技术中,用户申请注册账号,根据用户的注册账号及用户所在组织,查看对应组织下的拓扑图。
69.为了方便集中且统一管理,将注册账号和ad(active directory,活动目录)域做集成。
70.根据用户等级不同,可访问的拓扑图也不同,且权限也不完全一样。
71.具体地,用户可以在界面端进行账号注册时,根据所填写的账号注册信息,后台会自动识别用户等级并激活后该账号生效。
72.用户通过公网访问登录界面,输入账号及密码后,准许进入故障分析平台,后台会向用户反馈其权限范围内的拓扑图,并将拓扑图中的节点同步至故障分析平台,因此,可以在故障分析平台上查看相关的拓扑图中节点的数据及告警信息。
73.不同的用户等级具有不同的权限,以提高用户使用的便捷性。
74.该权限至少包括只读权限和配置权限。
75.举例说明,用户可以分为三个等级:一级、二级和三级,且三个等级具有不同的权限,说明如下。
76.一级用户的用户权限对所有系统的拓扑图均具有只读权限,但不具有配置权限。
77.二级用户的用户权限仅对所属组织的拓扑图具有只读权限,但不具有配置权限。
78.三级用户的用户权限对所属组织的拓扑图具有只读权限和配置权限。
79.因此,权限可以根据不同需求进行自由设置,在此不做限制。
80.通过分级管理,能够更好地服务系统,实现智能化监控系统运行情况。
81.本技术提供的故障分析方法及装置,通过对各节点的故障进行告警提示,能够使it类系统的平均故障分析时间从60分钟降为1分钟,极大缩短了故障分析实现,实现快速定位故障点,有助于缩短产线停线的时间。
82.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1