基于AIOps智慧运营中心的故障监测分析方法与流程

文档序号:30449236发布日期:2022-06-18 01:28阅读:253来源:国知局
基于AIOps智慧运营中心的故障监测分析方法与流程
基于aiops智慧运营中心的故障监测分析方法
技术领域
1.本发明涉及故障分析技术领域,尤其涉及一种基于aiops智慧运营中心的故障监测分析方法。


背景技术:

2.aiops,即ai+operations,可以直观理解为用ai解决运维问题的技术。ai是由机器模拟人类行为的复杂过程;由此推及,aiops可以定义为“任何模拟运维人员行为的计算机技术”;基于运维领域专家知识的、专家经验的、自动化、深度学习的,或基于它们的某种组合的人工智能技术,都可称为aiops。
3.中国发明专利公开号cn106951465a公开了一种系统故障定位用数据分析方法及装置。该方法包括:获取在线数据和离线数据,根据离线数据,确定不同维度下的指标和每个指标的指标阈值,根据每个指标阈值,实时监控在线数据,获取异常指标,将异常指标所对应的在线数据进行划分切片,定位异常指标的位置,根据异常指标和关联方式,获取关联事件,根据异常指标的位置或关联事件,确定系统故障位置。
4.由此可见,所述系统故障定位用数据分析方法及装置存在以下问题:单一的对故障的类型进行判定,对海量的故障均进行上报,而没有通过算法对故障内容进行甄别,且无法直观的获取故障内容,导致人员无法针对重要故障进行维修处理,增加了人员进行运维的时间成本,降低了企业的运维效率。


技术实现要素:

5.为此,本发明提供一种基于aiops智慧运营中心的故障监测分析方法,用以克服现有技术中无法直观的获取故障内容的问题。
6.为实现上述目的,本发明提供一种基于aiops智慧运营中心的故障监测分析方法,其中,包括以下步骤:
7.步骤s1,将检测单元与传输单元中的各部件相连,将分析单元与检测单元相连;
8.步骤s2,所述检测单元对所述传输单元中的运行状态参数进行检测并将结果记录至所述分析单元中的记录模块,分析单元中的辨析模块对记录模块中的运行状态参数数据进行分析以判定传输单元的运行状态是否正常,若是,则转至步骤s4,若否,则转至步骤s3;
9.步骤s3,所述辨析模块根据分析结果控制所述检测单元对所述传输单元中各部件的工作参数进行检测,检测单元将结果记录至所述记录模块,辨析模块对记录模块中的工作参数数据进行分析以判定传输单元运行不正常的具体原因并结合运行状态参数对故障进行分级;
10.步骤s4,所述辨析模块对所述传输单元的故障情况进行统计分析并根据统计分析结果对故障的根因进行分析,所述分析单元中的显示模块以直观的形式对辨析模块的分析结果进行显示。
11.进一步地,在所述步骤s2中,所述检测单元测得所述传输单元的数据传输速率η并
将检测结果上传至所述记录模块,所述辨析模块根据η判定传输单元的数据传输速率是否符合标准,辨析模块中设有预设传输速率η0;
12.若η≥η0,所述辨析模块判定所述传输单元的数据传输速率符合标准并转至所述步骤s4;
13.若η<η0,所述辨析模块判定所述传输单元的数据传输速率不符合标准并转至所述步骤s3,辨析模块根据测得的上游和下游的数据发送量判定数据传输速率不符合标准的原因。
14.进一步地,在所述步骤s3中,当所述辨析模块判定所述传输单元的数据传输速率不符合标准时,辨析模块控制所述检测单元依次测得传输单元中处理器的上游数据发送量b1和下游数据接受量b2,辨析模块将b1与b2进行比较、根据比较结果判定上下游数据关系并根据上下游数据关系分情况判定处理器的故障原因;
15.若b1<b2,所述辨析模块判定上游数据发送量小于下游数据接受量并控制所述检测单元测得处理器的数据传输负载量l、将l与l0进行比较并根据比较结果判定处理器的输送电缆是否故障;所述辨析模块中设有预设数据传输负载量l0,若l≥l0,辨析模块判定所述处理器的输送电缆运行正常,若l<l0,辨析模块判定处理器的输送电缆故障并判定其故障等级为3级故障;
16.若b1≥b2,所述辨析模块判定上游数据发送量大于下游数据接受量并计算上游数据发送量和下游数据接受量的数据传输差值δb,设定δb=b1-b2,辨析模块将δb与δb0进行比较并根据比较结果判定所述处理器的输送数据量是否正常;所述辨析模块中设有预设数据传输差值量δb0,若δb<δb0,辨析模块判定所述处理器的输送数据量正常,若δb≥δb0,辨析模块判定处理器的输送数据量异常。
17.进一步地,当所述辨析模块判定所述处理器的输送数据量异常时,辨析模块控制所述检测单元测得上游端口的预设数据发送量b1’和下游端口的预设数据接受量b2’,辨析模块分别将b1与b1’进行比较、将b2与b2’进行比较并根据比较结果判定端口是否故障;
18.若b1<b1’,所述辨析模块判定所述上游端口故障并判定其故障等级为1级故障;
19.若b2>b2’,所述辨析模块判定所述下游端口故障并判定其故障等级为1级故障;
20.若b1≥b1’或b2≤b2’,所述辨析模块判定端口与所述处理器的连接发生故障并根据测得的网络延迟率对端口与处理器之间连接的具体故障位置进行判定。
21.进一步地,当所述辨析模块判定端口与所述处理器的连接发生故障时,辨析模块控制所述检测单元测得网络延迟率p、将p分别与p1和p2进行比较并根据比较结果判定端口与处理器之间连接的具体故障位置;所述辨析模块中设有第一预设网络延迟率p1和第二预设网络延迟率p2,其中,p1<p2;
22.若p≤p1,所述辨析模块判定所述上游端口或下游端口与所述处理器之间的连接出现故障并判定其故障等级为1级故障;
23.若p1<p≤p2,所述辨析模块判定网络与所述处理器之间的连接出现故障并判定其故障等级为2级故障;
24.若p>p2,所述辨析模块判定端口与所述处理器之间没有故障、判定网络波动并判定其故障等级为2级故障。
25.进一步地,在所述步骤s3中,所述辨析模块根据η对传输等级进行判定,辨析模块
中设有第一预设传输速率临界值η1和第二预设传输速率临界值η2,其中,η1<η2;
26.若η<η1,所述辨析模块判定当前传输等级为1级传输速率;
27.若η1≤η<η2,所述辨析模块判定当前传输等级为2级传输速率;
28.若η≥η2,所述辨析模块判定当前传输等级为3级传输速率。
29.进一步地,在所述步骤s3中,在将故障等级和传输等级的分级过程完成时,所述辨析模块计算故障优先级y,辨析模块将故障等级记为g并将传输等级记为s,设定y=g
×
s,其中,g=1,2,3,s=1,2,3。
30.进一步地,在所述步骤s4中,所述辨析模块控制所述检测单元对每次故障的时间节点和持续时间进行检测并将检测结果上传至所述记录模块,辨析模块根据记录模块中的故障时间、持续时间和故障类型生成故障类型时序图,故障类型时序图的横坐标为时间、纵坐标为故障类型,辨析模块根据记录模块中的故障类型及其发生次数生成故障类型饼状图,所述显示模块以直观的形式对辨析模块的分析生成的故障类型时序图和故障类型饼状图进行显示。
31.进一步地,在生成故障时序图的过程完成时,所述辨析模块计算同一时间段内故障的故障系数c,设定c为同一时段内存在故障的故障优先级之和,辨析模块将c与辨析模块中设置的预设故障系数临界值c0进行比较并根据比较结果判定该时段内的数据传输有效率是否符合标准;
32.若c≤c0,所述辨析模块判定当前时段内所述传输单元的数据传输有效率符合标准;
33.若c>c0,所述辨析模块判定当前时段内所述传输单元的数据传输有效率不符合标准。
34.进一步地,在生成故障类型饼状图的过程完成时,所述辨析模块计算发生次数最多的故障类型并将该故障类型标记为根因,辨析模块根据故障的发生次数以及持续时间的排序以根因为中心生成告警瞭望塔,所述显示模块以直观的形式对告警瞭望塔进行显示。
35.与现有技术相比,本发明的有益效果在于,本发明在完成对海量的故障进行检测后,通过算法对故障内容进行甄别并对故障类型进行统计分析,在分析完成后以直观的图表的形式展示故障内容,使人员可以针对重要故障进行集中维修处理,从而减小了人员进行运维的时间成本,进一步提高了企业的运维效率。
36.进一步地,本发明所述检测单元对所述传输单元中的运行状态参数进行检测并将结果记录至所述分析单元中的记录模块,便于人员在维修过程中查看传输单元的历史运行情况,使人员在aiops无法判断故障原因时进行人工参与,提高了aiops智慧运营中心的应用广泛性,进一步提高了企业的运维效率。
37.进一步地,本发明使用实时的数据传输速率作为判定数据传输单元是否故障的标准,数据传输速率受到各种因素的影响,不光对数据传输量进行了监测还对传输单位数据量的传输时间进行了监测,提高了aiops智慧运营中心对故障判定的准确性,进一步提高了企业的运维效率。
38.进一步地,本发明辨析模块从传输单元的主要部件处理器为出发点对传输数据的具体故障位置进行判定,先对处理器本身的运行情况进行监测,更为快速的对主要故障进行定位,缩短了人员进行运维的时间成本,进一步提高了企业的运维效率。
39.进一步地,本发明辨析模块不光考虑到了各部件本身的故障问题,还考虑到了各部件连接之间的故障问题,并通过逐级检测的方式以最快的速度定位到具体故障原因,缩短了人员进行运维的时间成本,进一步提高了企业的运维效率。
40.进一步地,本发明对故障划分优先级,在传输量较大的时期为故障定义较高的优先级,在及时维护的基础上减小了故障对数据的总体传输量的影响,减少了企业因故障导致的损失,提高了人员对故障的解决效率。
41.进一步地,本发明通过多种方式对分析后的故障情况进行概述和展示,且通过时序图、饼状图和告警瞭望塔等直观的形式对故障内容进行展示,使人员可以针对重要故障进行集中维修处理,从而减小了人员进行运维的时间成本,进一步提高了企业的运维效率。
42.进一步地,本发明智能对分析后的故障内容进行更进一步分析,节省了人员对图表分析的时间,使aiops智慧运营中心对故障的监测分析更为彻底,进一步提高了aiops智慧运营中心的智能化水平。
附图说明
43.图1为本发明实施例基于aiops智慧运营中心的故障监测分析方法的系统流程图;
44.图2为本发明实施例传输单元、检测单元和分析单元的结构示意图;
45.图3为本发明实施例故障类型时序图的结构示意图;
46.图4为本发明实施例告警瞭望塔的结构示意图。
具体实施方式
47.为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
48.下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
49.需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
50.此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
51.请参阅图1和图2所示,图1为本发明实施例基于aiops智慧运营中心的故障监测分析方法的系统流程图,图2为本发明实施例传输单元、检测单元和分析单元的结构示意图,本发明提供一种基于aiops智慧运营中心的故障监测分析方法,包括以下步骤:
52.步骤s1,将检测单元与传输单元中的各部件相连,将分析单元与检测单元相连;
53.步骤s2,所述检测单元对所述传输单元中的运行状态参数进行检测并将结果记录至所述分析单元中的记录模块,分析单元中的辨析模块对记录模块中的运行状态参数数据
进行分析以判定传输单元的运行状态是否正常,若是,则转至步骤s4,若否,则转至步骤s3;
54.步骤s3,所述辨析模块根据分析结果控制所述检测单元对所述传输单元中各部件的工作参数进行检测,检测单元将结果记录至所述记录模块,辨析模块对记录模块中的工作参数数据进行分析以判定传输单元运行不正常的具体原因并结合运行状态参数对故障进行分级;
55.步骤s4,所述辨析模块对所述传输单元的故障情况进行统计分析并根据统计分析结果对故障的根因进行分析,所述分析单元中的显示模块以直观的形式对辨析模块的分析结果进行显示。
56.具体而言,本发明在完成对海量的故障进行检测后,通过算法对故障内容进行甄别并对故障类型进行统计分析,在分析完成后以直观的图表的形式展示故障内容,使人员可以针对重要故障进行集中维修处理,从而减小了人员进行运维的时间成本,进一步提高了企业的运维效率。
57.具体而言,本发明所述检测单元对所述传输单元中的运行状态参数进行检测并将结果记录至所述分析单元中的记录模块,便于人员在维修过程中查看传输单元的历史运行情况,使人员在aiops无法判断故障原因时进行人工参与,提高了aiops智慧运营中心的应用广泛性,进一步提高了企业的运维效率。
58.具体而言,请继续参阅图1所示,在所述步骤s2中,所述检测单元测得所述传输单元的数据传输速率η并将检测结果上传至所述记录模块,所述辨析模块将η与η0进行比较并根据比较结果判定传输单元的数据传输速率是否符合标准,辨析模块中设有预设传输速率η0;
59.若η≥η0,所述辨析模块判定所述传输单元的数据传输速率符合标准并转至步骤s4;
60.若η<η0,所述辨析模块判定所述传输单元的数据传输速率不符合标准并转至步骤s3,辨析模块根据测得的上游和下游的数据发送量判定数据传输速率不符合标准的原因。
61.具体而言,本发明使用实时的数据传输速率作为判定数据传输单元是否故障的标准,数据传输速率受到各种因素的影响,不光对数据传输量进行了监测还对传输单位数据量的传输时间进行了监测,提高了aiops智慧运营中心对故障判定的准确性,进一步提高了企业的运维效率。
62.具体而言,在所述步骤s3中,当所述辨析模块判定所述传输单元的数据传输速率不符合标准时,辨析模块控制所述检测单元测得传输单元中处理器的上游数据发送量b1和下游数据接受量b2,辨析模块将b1与b2进行比较、根据比较结果判定上下游数据关系并根据上下游数据关系分情况判定处理器的故障原因;
63.若b1<b2,所述辨析模块判定上游数据发送量小于下游数据接受量并控制所述检测单元测得处理器的数据传输负载量l,辨析模块将l与l0进行比较并根据比较结果判定处理器的输送电缆是否故障,辨析模块中设有预设数据传输负载量l0;若l≥l0,所述辨析模块判定所述处理器的输送电缆运行正常;若l<l0,所述辨析模块判定所述处理器的输送电缆故障并判定其故障等级为3级故障;
64.若b1≥b2,所述辨析模块判定上游数据发送量大于下游数据接受量并计算上游数
据发送量和下游数据接受量的数据传输差值δb,设定δb=b1-b2,辨析模块将δb与δb0进行比较并根据比较结果判定所述处理器的输送数据量是否正常,辨析模块中设有预设数据传输差值量δb0;若δb<δb0,所述辨析模块判定所述处理器的输送数据量正常;若δb≥δb0,所述辨析模块判定所述处理器的输送数据量异常。
65.具体而言,本发明辨析模块从传输单元的主要部件处理器为出发点对传输数据的具体故障位置进行判定,先对处理器本身的运行情况进行监测,更为快速的对主要故障进行定位,缩短了人员进行运维的时间成本,进一步提高了企业的运维效率。
66.具体而言,当所述辨析模块判定所述处理器的输送数据量异常时,辨析模块控制所述检测单元测得上游端口的预设数据发送量b1’和下游端口的预设数据接受量b2’,辨析模块分别将b1与b1’和b2与b2’进行比较并根据比较结果判定端口是否故障;
67.若b1<b1’,所述辨析模块判定所述上游端口故障并判定其故障等级为1级故障;
68.若b2>b2’,所述辨析模块判定所述下游端口故障并判定其故障等级为1级故障;
69.若b1≥b1’或b2≤b2’,所述辨析模块判定端口与所述处理器的连接发生故障并根据测得的网络延迟率对端口与处理器之间连接的具体故障位置进行判定。
70.具体而言,当所述辨析模块判定端口与所述处理器的连接发生故障时,辨析模块控制所述检测单元测得网络延迟率p、将p分别与p1和p2进行比较并根据比较结果判定端口与处理器之间连接的具体故障位置,辨析模块中设有第一预设网络延迟率p1和第二预设网络延迟率p2,其中,p1<p2;
71.若p≤p1,所述辨析模块判定所述上游端口或下游端口与所述处理器之间的连接出现故障并判定其故障等级为1级故障;
72.若p1<p≤p2,所述辨析模块判定网络与所述处理器之间的连接出现故障并判定其故障等级为2级故障;
73.若p>p2,所述辨析模块判定端口与所述处理器之间没有故障、判定网络波动并判定其故障等级为2级故障。
74.具体而言,本发明辨析模块不光考虑到了各部件本身的故障问题,还考虑到了各部件连接之间的故障问题,并通过逐级检测的方式以最快的速度定位到具体故障原因,缩短了人员进行运维的时间成本,进一步提高了企业的运维效率。
75.具体而言,在所述步骤s3中,所述辨析模块将η分别与η1和η2进行比较并根据比较结果对传输等级进行判定,辨析模块中设有第一预设传输速率临界值η1和第二预设传输速率临界值η2,其中,η1<η2<η0;
76.若η<η1,所述辨析模块判定当前传输等级为1级传输速率;
77.若η1≤η<η2,所述辨析模块判定当前传输等级为2级传输速率;
78.若η≥η2,所述辨析模块判定当前传输等级为3级传输速率。
79.具体而言,在所述步骤s3中,在将故障等级和传输等级的分级过程完成时,所述辨析模块计算故障优先级y,辨析模块将故障等级记为g并将传输等级记为s,设定y=g
×
s,其中,g=1,2,3,s=1,2,3,若故障等级为i级,则g=i,若传输等级为j级,则g=j,辨析模块将计算出的故障优先级上传至所述记录模块。
80.具体而言,本发明对故障划分优先级,在传输量较大的时期为故障定义较高的优先级,在及时维护的基础上减小了故障对数据的总体传输量的影响,减少了企业因故障导
致的损失,提高了人员对故障的解决效率。
81.具体而言,请参阅图3所示,其为本发明实施例故障类型时序图的结构示意图,在所述步骤s4中,所述辨析模块控制所述检测单元对每次故障的时间节点和持续时间进行检测并将检测结果上传至所述记录模块,辨析模块根据记录模块中的故障时间、持续时间和故障类型生成故障类型时序图,故障类型时序图的横坐标为时间、纵坐标为故障类型,辨析模块根据记录模块中的故障类型及其发生次数生成故障类型饼状图,所述显示模块以直观的形式对辨析模块的分析生成的故障类型时序图和故障类型饼状图进行显示。
82.具体而言,在生成故障时序图的过程完成时,所述辨析模块计算同一时间段内故障的故障系数c,设定c为同一时段内存在故障的故障优先级之和,辨析模块将c与c0进行比较并根据比较结果判定该时段内的数据传输有效率是否符合标准,辨析模块中设有预设故障系数临界值c0;
83.若c≤c0,所述辨析模块判定当前时段内所述传输单元的数据传输有效率符合标准;
84.若c>c0,所述辨析模块判定当前时段内所述传输单元的数据传输有效率不符合标准。
85.具体而言,本发明智能对分析后的故障内容进行更进一步分析,节省了人员对图表分析的时间,使aiops智慧运营中心对故障的监测分析更为彻底,进一步提高了aiops智慧运营中心的智能化水平。
86.具体而言,请参阅图4所示,其为本发明实施例告警瞭望塔的结构示意图,在生成故障类型饼状图的过程完成时,所述辨析模块计算发生次数最多的故障类型并将该故障类型标记为根因,辨析模块根据故障的发生次数以及持续时间的排序以根因为中心生成告警瞭望塔,所述显示模块以直观的形式对告警瞭望塔进行显示。
87.具体而言,本发明通过多种方式对分析后的故障情况进行概述和展示,且通过时序图、饼状图和告警瞭望塔等直观的形式对故障内容进行展示,使人员可以针对重要故障进行集中维修处理,从而减小了人员进行运维的时间成本,进一步提高了企业的运维效率。
88.至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1