一种集中运维系统的故障分级处理方法
【专利摘要】本发明涉及电力系统领域的处理方法,具体涉及一种集中运维系统的故障分级处理方法。集中运维系统监视国调、分调和省调的智能电网调度技术支持系统运行工况类、电网基本数据类、安全防护系统类和环境及辅助设备类数据。针对各级网省调度中心监视的大量数据,运维中心为提高故障处理效率,通过对故障进行分级,定义不同级别的故障解除所需的响应时间,启动相应级别的故障处理预案,在运维中心实现即时开展各级故障的处理工作,减轻各级网省调度中心的运维压力,提高系统运行的可靠性和安全性。
【专利说明】一种集中运维系统的故障分级处理方法
【技术领域】
[0001]本发明涉及电力系统领域的处理方法,具体涉及一种集中运维系统的故障分级处
理方法。
【背景技术】
[0002]智能电网调度技术支持系统在一体化基础平台的基础上对大电网运行进行全景监控,提供在线综合预警及智能决策,提升了驾驭大电网能力,因此智能电网调度技术支持系统的正常运行事关重大。各级调度中心都对本地智能电网调度技术支持系统的运行状态进行实时监控,但是各地维护人员对系统故障的诊断和定位问题往往缺乏专业经验,一旦出现问题就需要及时联系各方厂家进行定位,对人力资源造成浪费;在维护过程中运维人员也经常遇到同一故障在不同地区发生,需要奔波各地,重复处理,大大提高了运维的成本,降低了维护工作的效率。因此通过集中运维中心对各地系统进行统一监控和故障处理和备案的工作就会减轻各级网省调度中心的维护工作压力,并且能够提高运维工作的效率。
[0003]集中运维中心监控了国调、分调和省调智能电网调度技术支持系统各功能是否正常运行,无论是维护的工作量还是监视的数据量都是复杂和庞大的。如果按照常规维护方法,哪里出现问题,就到哪里解决的方式,无论从人力和物力的投入都将是网省公司投入的倍数关系,因此对当前各网省在线运行系统的集中监控和维护方式就提出了更高的要求。
【发明内容】
[0004]针对现有技术的不足,本发明的目的是提供一种集中运维系统的故障分级处理方法,在调度数据网信息量不断增加的环境下做出事故判断和应急启动解决方案是极为重要的工作。对事故进行有效地判断,能够帮助运维值班人员在繁杂的系统运行信息处理工作中变得快捷,提高系统故障处理的能力和效率,从而保障各级网省智能电网调度技术支持系统的安全可靠运行。
[0005]本发明的目的是采用下述技术方案实现的:
[0006]本发明提供一种集中运维系统的故障分级处理方法,其改进之处在于,所述方法用于实现对国调、分调及省调智能电网调度技术支持系统的软、硬件集中监视、集中维护和集中管理;所述方法包括下述步骤:
[0007]( I)明确日常故障监视对象;
[0008](2)定义调度技术支持系统的故障分级和响应时间;
[0009](3)定义不同级别的故障对应的告警级别;
[0010](4)对不同级别的故障按照对应的处理预案进行处理;
[0011](5)集中运维系统故障分级处理,包括系统故障监控环节和故障分级处理环节两个步骤;
[0012](6)记录故障处理内容和结果,对故障处理进行备案并通告。[0013]优选的,所述步骤(I)中,集中运维中心日常故障监视对象包括:
[0014]集中运维系统采集国调、分调和省调的智能电网调度技术支持系统中的数据;所述数据包括系统运行工况类、电网基本数据类、安全防护系统类和环境及辅助设备类数据;对这四类数据进行日常轮询监视,若发现异常状况,依据故障级别分别提供分级告警服务,并进入处理流程。
[0015]优选的,所述步骤(2)中,调度技术支持系统监视的故障分级和响应时间包括:
[0016]1)1级故障:系统崩溃导致业务停止、数据丢失;响应时间为10分钟内提交故障处
理方案;
[0017]2) II级故障:出现部分部件失效、系统性能下降但能正常运行,不影响正常业务运作;响应时间为I小时内提交故障处理方案;
[0018]3) III级故障:出现系统报错或警告,但业务系统能继续运行且性能不受影响;响应时间为6小时内提交故障处理方案。
[0019]优选的,所述步骤(3)中,对应于故障级别定义的告警级别包括:
[0020]A、I级告警:连续提示告警,并通过值班手机转发告警给当地值班员,直到故障消除后,告警消除;
[0021]B、II级告警:周期弹出告警窗,直到故障消除后,告警消除;
[0022]C、III级告警:告警记录,告警灯闪烁,直到故障消除后,告警消除。
[0023]优选的,所述步骤(4)中,不同级别的故障对应的处理预案包括:
[0024]①常规维护:若获取的异常信息达不到故障级别,则依照厂家提供的维护预案进行常规维护,若该异常仍然存在,则联系相关厂家进一步处理;
[0025]②故障处理:通过日常监视和故障告警发现系统故障,或接到各系统当地值班人员的系统故障处理请求时,对故障进行及时处理,若该故障存在将影响系统稳定运行及生产安全,则判定为重大故障,转入紧急响应处理流程;对于不影响系统稳定运行及生产安全的故障,进入普通故障处理流程进行处理,在规定的故障处理响应时间之内给出解决方案;
[0026]③紧急响应:发现重大故障后,对故障进行记录并上报值班负责人和故障现场负责人,依照预案组织人员进行故障定位及排除工作,问题解决后协调各功能开发人员分析故障原因,形成故障报告;若不能规定的故障处理响应时间之内解决故障,则根据预案采取临时措施用于防止故障影响扩大,并协调厂家到运维中心或事故现场进行处理;
[0027]④临时措施:如果运维中心在监视过程中遇到特殊情况,根据维护预案不能在故障处理响应时间内解决故障问题时,特制定了临时措施;此临时措施由各功能的开发厂商提供。制定的原则如下:
[0028]第一、在不影响系统其它功能正常运行的情况下,如能防止故障影响扩大化,可先停止导致故障出现的功能;及时通知该功能的开发厂商,并向上级主管部门汇报情况,由主管部门、开发厂商和运维中心三方协作处理;
[0029]第二、如果导致该故障出现的原因一时难以确定,而故障所产生的影响只限于该应用自身,则可以先不停止该功能的运行,备份故障断面;及时通知该功能的开发厂商,并向上级主管部门汇报情况,由主管部门、开发厂商和运维中心三方协作处理;
[0030]第三、如果在解决故障的过程中,由于复杂原因,导致处理时出现新的故障问题,则及时通知该功能的开发厂商,并向上级主管部门汇报情况,由主管部门、开发厂商和运维中心三方协作处理。
[0031]优选的,所述步骤(5)中,运维系统故障监控环节包括下述步骤:
[0032]<1>集中运维系统采集和监视国调、分调和省级调度中心的系统统运行工况、电网基本数据、安全防护系统的运行状态和环境及辅助设备参数;
[0033]〈2>对以上四类数据的监视提供故障分类告警服务,系统分别对接收的数据进行状态诊断,正常情况下不发出告警消息,当系统判断出数据异常时,根据故障定义的故障级另Ij,发送不同的告警服务;
[0034]〈3>集中运维系统提供智能电网调度技术支持系统运行状态诊断工具,通过三种方式对监测的数据进行分类汇总:
[0035]a、定时扫描系统接收的各类数据,如果数据有异常会提示运维人员,同时监控系统会进行故障识别;
[0036]b、如果接收到的数据和运行状态有异常,集中运维系统运行状态诊断工具会进行故障识别,同时自动进行故障分级告警;
[0037]C、运维人员对各级智能电网调度技术支持系统运行状态进行人工监视,根据集中运维系统对故障识别的结果做出相应的判断,并进入故障分级处理环节;
[0038]<4>客户通过电话请求加急处理,直接启动应急预案。
[0039]优选的,所述步骤(5)中,运维系统的故障分级处理环节,包括下述步骤:
[0040]1、当集中运维系统发出告警消息时,和发生系统故障的当地负责人员确认告警消息;
[0041]I1、一经确认告警没有误报时后,按照故障级别,启动故障处理的处理预案;并且向上级领导汇报事故处理进展;
[0042]II1、向当地故障的智能电网调度技术支持系统在规定的故障处理响应时间及时提供解决方案,并随时提供远程技术支持;
[0043]IV、如果确认为告警误报,关闭告警消息,检查告警误报的原因,进行技术处理和备案,并通告各级调度部门;
[0044]V、跟进故障处理的过程,当故障解决后关闭告警消息;
[0045]V1、对故障原因进行分析,并记录故障处理方案和结果,对故障记录进行备案,并发送给各级调度自动化部门保存;
[0046]VI1、故障记录备案定时导出,提供给软件检测中心和系统仿真中心。
[0047]优选的,所述步骤(5)中系统故障监控环节采用集中运维系统三级智能告警监视方法实现,步骤(5)中故障分级处理环节为运维人员根据具体的告警级别进行人工维护方式。
[0048]优选的,所述步骤(6)中,根据事件类型将事件进行分类,并制定不同的问题记录模板,事件分为硬件问题、系统软件类和系统缺陷类问题;
[0049]对于硬件问题、系统软件类一般问题(例如硬件故障、软件在线计算程序非正常退出等)的处理流程为问题记录、问题提交或处理,使该类问题问题解决具备直接、快速和实时的特点;
[0050]系统功能缺陷类问题(例如人机界面响应时间过长,或在软件测试过程中出现的各种未能按设计规范进行实现的功能)需要经过逐级提交、诊断、确认、处理和回复等环节,处理解决需要有专门项目组的分析确认,问题有解决方案后,将解决方案反馈给用户,该类问题的处理需严谨、规范、标准,保证系统的安全稳定运行。
[0051]对于出现频率较高或影响比较大或争论比较多的问题及时提交统计分析报告,便于发现系统的共性问题及缺陷,提高协助运维中心的工作效率。统计分析报告的编写要求主题突出,结构严谨,条理清晰,文字简洁,且具备准确性、时效性、针对性、逻辑性的标准。
[0052]与现有技术比,本发明达到的有益效果是:
[0053]1、本发明的提供的集中运维系统的故障分级处理方法,实现对国调、分调及省调智能电网调度技术支持系统的软、硬件集中监视、集中维护、集中管理;提供高效的远程维护技术手段,协助各地调度自动化部门快速诊断、处理系统应用软件的异常和故障;建立与生产厂家、科研机构和检测中心的联动接口,为科研开发、仿真试验及系统检测提供了技术支撑;建立厂家横向联动机制,大大突显了集中运维系统应急响应的优越性,与国调、分调和省调智能电网调度技术支持系统的维护工作形成联动、互备的关系;
[0054]2、定义了调度技术支持系统的故障分级、响应时间和分级告警;
[0055]3、制定不同级别的故障对应的处理预案,规范了故障处理的流程;
[0056]4、记录故障处理内容和结果,为仿真试验和软件检测提供了依据;
[0057]5、为各级调度自动化部门及时提供远程技术服务,加强了调度自动化支持系统在线运行的稳定性;
[0058]6、规范了调度自动化支持系统技术服务,提高了技术服务的效率。
【专利附图】
【附图说明】
[0059]图1是本发明提供的集中运维系统的故障分级处理方法的流程图;
[0060]图2是本发明提供的系统故障监控环节流程图;
[0061]图3是本发明提供的故障分级处理环节流程图。
【具体实施方式】
[0062]下面结合附图对本发明的【具体实施方式】作进一步的详细说明。
[0063]本方法针对省网调度中心同时送发的大量数据进行统一监控,为了满足集中运维故障处理迅速响应的要求,需要对各种故障进行分类、分级、报警,制定不同的故障处理应急预案。当故障出现的时候,监控软件发出告警信息,运维人员可以针对故障级别和告警级别即时启动相应的预案进行统一处理,大大提高故障处理的效率。同时对各级网省调度技术支持系统是同时监控的,多地系统(两地以上)同时出现一级故障的机率非常小,因此应急预案可以不做顺序考虑,根据告警的时间顺序和级别运维人员分别进行处理,因此即使多地系统同时出现故障,启动预案解决故障的时间也不会有延误,可以满足集中运维系统的要求。
[0064]集中运维系统的功能包括:
[0065]硬件部署:包括调度数据网介入和集中运维业务;
[0066]软件应用:包括系统运行监视、维护信息管理、工作站常用软件的安装和可视化综合展示;[0067]人员组织:包括运维工作人员组织和厂家维护人员组织,其中运维工作人员包括管理人员、值班人员和维护人员;
[0068]运维流程:包括日常监视、常规维护、故障处理、紧急响应以及统计分析报告;
[0069]安全保障:包括安全管理制度和安全技术措施,其中安全管理制度包括人员管理制度和设备管理制度;其中设备安全措施和操作安全措施。
[0070]本发明提供的集中运维系统的故障分级处理方法的流程图如图1所示,包括下述步骤:
[0071 ] ( I)明确日常故障监视对象:
[0072]集中运维系统采集国调、分调和省调的智能电网调度技术支持系统中的数据主要包括系统运行工况类、电网基本数据类、安全防护系统类和环境及辅助设备类。对这四类数据采用的监视过程分为系统故障监控环节和,系统故障监控环节主要依靠智能告警的方法实现,依据故障级别分别提供分级告警服务,若发现需要处理的异常状况,进入故障分级处理环节,并进入相应人工处理流程。
[0073](2)定义调度技术支持系统的故障分级和响应时间:
[0074]I) I级故障:其具体现象为:系统崩溃导致业务停止、数据丢失。
[0075]2) II级故障:其具体现象为:出现部分部件失效、系统性能下降但能正常运行,不影响正常业务运作。
[0076]3) III级故障:其具体现象为:出现系统报错或警告,但业务系统能继续运行且性能不受影响。故障分级和响应 时间如表1所示。
[0077]表1故障分级和响应时间表
[0078]
【权利要求】
1.一种集中运维系统的故障分级处理方法,其特征在于,所述方法用于实现对国调、分调及省调智能电网调度技术支持系统的软、硬件集中监视、集中维护和集中管理;所述方法包括下述步骤: (1)明确日常故障监视对象; (2)定义调度技术支持系统的故障分级和响应时间; (3)定义不同级别的故障对应的告警级别; (4)对不同级别的故障按照对应的处理预案进行处理; (5)集中运维系统故障分级处理,包括系统故障监控环节和故障分级处理环节两个步骤; (6)记录故障处理内容和结果,对故障处理进行备案并通告。
2.如权利要求1所述的故障分级处理方法,其特征在于,所述步骤(I)中,集中运维中心日常故障监视对象包括: 集中运维系统采集国调、分调和省调的智能电网调度技术支持系统中的数据;所述数据包括系统运行工况类、电网基本数据类、安全防护系统类和环境及辅助设备类数据;对这四类数据进行日常轮询监视,若发现异常状况,依据故障级别分别提供分级告警服务,并进入处理流程。
3.如权利要求1所述的故障分级处理方法,其特征在于,所述步骤(2)中,调度技术支持系统监视的故障分级和响应时间包括: 1)1级故障:系统崩溃导致业务停止、数据丢失;响应时间为10分钟内提交故障处理方案; 2)II级故障:出现部分部件失效、系统性能下降但能正常运行,不影响正常业务运作;响应时间为I小时内提交故障处理方案; 3)III级故障:出现系统报错或警告,但业务系统能继续运行且性能不受影响;响应时间为6小时内提交故障处理方案。
4.如权利要求1所述的故障分级处理方法,其特征在于,所述步骤(3)中,对应于故障级别定义的告警级别包括: A、I级告警:连续提示告警,并通过值班手机转发告警给当地值班员,直到故障消除后,告警消除; B、II级告警:周期弹出告警窗,直到故障消除后,告警消除; C、III级告警:告警记录,告警灯闪烁,直到故障消除后,告警消除。
5.如权利要求1所述的故障分级处理方法,其特征在于,所述步骤(4)中,不同级别的故障对应的处理预案包括: ①常规维护:若获取的异常信息达不到故障级别,则依照厂家提供的维护预案进行常规维护,若该异常仍然存在,则联系相关厂家进一步处理; ②故障处理:通过日常监视和故障告警发现系统故障,或接到各系统当地值班人员的系统故障处理请求时,对故障进行及时处理,若该故障存在将影响系统稳定运行及生产安全,则判定为重大故障,转入紧急响应处理流程;对于不影响系统稳定运行及生产安全的故障,进入普通故障处理流程进行处理,在规定的故障处理响应时间之内给出解决方案; ③紧急响应:发现重大故障后,对故障进行记录并上报值班负责人和故障现场负责人,依照预案组织人员进行故障定位及排除工作,问题解决后协调各功能开发人员分析故障原因,形成故障报告;若不能规定的故障处理响应时间之内解决故障,则根据预案采取临时措施用于防止故障影响扩大,并协调厂家到运维中心或事故现场进行处理; ④临时措施:如果运维中心在监视过程中遇到特殊情况,根据维护预案不能在故障处理响应时间内解决故障问题时,特制定了临时措施;此临时措施由各功能的开发厂商提供。
6.如权利要求1所述的故障分级处理方法,其特征在于,所述步骤(5)中,运维系统故障监控环节包括下述步骤: <1>集中运维系统采集和监视国调、分调和省级调度中心的系统统运行工况、电网基本数据、安全防护系统的运行状态和环境及辅助设备参数; 〈2>对以上四类数据的监视提供故障分类告警服务,系统分别对接收的数据进行状态诊断,正常情况下不发出告警消息,当系统判断出数据异常时,根据故障定义的故障级别,发送不同的告警服务; 〈3>集中运维系统提供智能电网调度技术支持系统运行状态诊断工具,通过三种方式对监测的数据进行分类汇总: a、定时扫描系统接收的各类数据,如果数据有异常会提示运维人员,同时监控系统会进行故障识别; b、如果接收到的数据和运行状态有异常,集中运维系统运行状态诊断工具会进行故障识别,同时自动进行故障分级告警; C、运维人员对各级智能电网调度技术支持系统运行状态进行人工监视,根据集中运维系统对故障识别的结果做出相应的判断,并进入故障分级处理环节; <4>客户通过电话请求加急处理,直接启动应急预案。
7.如权利要求1所述的故障分级处理方法,其特征在于,所述步骤(5)中,运维系统的故障分级处理环节,包括下述步骤: 1、当集中运维系统发出告警消息时,和发生系统故障的当地负责人员确认告警消息; I1、一经确认告警没有误报时后,按照故障级别,启动故障处理的处理预案;并且向上级领导汇报事故处理进展; II1、向当地故障的智能电网调度技术支持系统在规定的故障处理响应时间及时提供解决方案,并随时提供远程技术支持; IV、如果确认为告警误报,关闭告警消息,检查告警误报的原因,进行技术处理和备案,并通告各级调度部门; V、跟进故障处理的过程,当故障解决后关闭告警消息; V1、对故障原因进行分析,并记录故障处理方案和结果,对故障记录进行备案,并发送给各级调度自动化部门保存; VI1、故障记录备案定时导出,提供给软件检测中心和系统仿真中心。
8.如权利要求1所述的故障分级处理方法,其特征在于,所述步骤(5)中系统故障监控环节采用集中运维系统三级智能告警监视方法实现,步骤(5)中故障分级处理环节为运维人员根据具体的告警级别进行人工维护方式。
9.如权利要求1所述的故障分级处理方法,其特征在于,所述步骤(6)中,根据事件类型将事件进行分类,并制定不同的问题记录模板,事件分为硬件问题、系统软件类和系统缺陷类问题。
【文档编号】G06Q50/06GK103473710SQ201310364614
【公开日】2013年12月25日 申请日期:2013年8月20日 优先权日:2013年8月20日
【发明者】郎燕生, 邢颖, 张印, 白洋, 刘升, 王少芳, 邹昱, 窦成龙 申请人:国家电网公司, 中国电力科学研究院