一种节点异常检测方法、装置及介质与流程

文档序号:25821332发布日期:2021-07-09 14:44阅读:85来源:国知局
一种节点异常检测方法、装置及介质与流程

1.本申请涉及云计算技术领域,特别是涉及一种节点异常检测方法、装置及介质。


背景技术:

2.随着云计算技术的日益发展,业务系统越来越庞大,为了保证业务系统的稳定运行,对业务系统中的节点进行故障分析是至关重要的。目前,节点异常检测方法是根据节点单特征历史数据(例如cpu利用率)构建检测模型后,获取待检测节点的单特征数据,根据监测模型进行判断。由于节点故障存在多方面原因,仅从单特征数据对节点进行异常检测,提高了节点异常检测的误报率,降低了节点异常检测的准确性。
3.由此可见,如何降低节点异常检测的误报率、提高节点异常检测的准确性是本领域技术人员亟待解决的问题。


技术实现要素:

4.本申请的目的是提供一种节点异常检测方法,用以降低节点异常检测的误报率、提高节点异常检测的准确性。本申请的目的是还提供一种节点异常检测装置及介质。
5.为解决上述技术问题,本申请提供一种节点异常检测方法,包括:
6.根据历史性能指标数据构建第一检测模型,其中所述历史性能指标数据包括历史节点性能指标数据和历史业务性能指标数据;
7.获取目标节点的目标性能指标数据;
8.根据所述第一检测模型确定与所述目标性能指标对应的目标检测结果;
9.根据所述目标检测结果确定所述目标节点是否异常。
10.优选的,还包括:
11.根据所述历史性能指标数据中各性能指标数据构建对应的第二检测模型;
12.在所述目标节点异常的情况下,根据各所述第二检测模型确定与所述目标性能指标数据中各目标性能指标数据对应的各检测结果;
13.根据各所述检测结果确定目标异常指标。
14.优选的,还包括:
15.根据预先建立的各所述性能指标数据与各分值的对应关系确定对应的目标分值;
16.根据预设初始分值与所述目标分值计算所述目标节点的目标健康分值;
17.根据预先建立的各健康分值与各健康等级的对应关系,确定与所述目标健康分值对应的目标健康等级。
18.优选的,所述根据所述第一检测模型确定与所述目标性能指标对应的目标检测结果前,还包括:
19.获取所述目标节点的硬件运行数据;
20.根据所述硬件运行数据对所述目标性能指标数据进行筛选;
21.则,所述根据所述第一检测模型确定与所述目标性能指标对应的目标检测结果,
具体为:
22.根据所述第一检测模型确定与筛选后的所述目标性能指标数据对应的所述目标检测结果。
23.优选的,所述根据历史性能指标数据构建第一检测模型,具体为:
24.根据距离当前预设周期内的所述历史性能指标数据构建所述第一检测模型。
25.优选的,所述历史节点性能指标数据包括:cpu使用率、内存使用率、io读写、网络流量、打开文件数、文件运行状态数据、df命令执行卡住数据、内存溢出数据、cpu软锁数据和网卡连接数据。
26.优选的,所述历史业务性能指标数据还包括:ha曲线连接数、进程连接数、5xx故障错误率、所述目标节点配置文件的配置出错率、所述目标节点配置更新出错时间、所述目标节点到源点的访问时长和目标节点配置的生效时长。
27.为解决上述技术问题,本申请还提供一种节点异常检测装置,包括:
28.第一构建模块,用于根据历史性能指标数据构建第一检测模型,其中所述历史性能指标数据包括历史节点性能指标数据和历史业务性能指标数据;
29.第一获取模块,用于获取目标节点的目标性能指标数据;
30.第一确定模块,用于根据所述第一检测模型确定与所述目标性能指标对应的目标检测结果;
31.第二确定模块,用于根据所述目标检测结果确定所述目标节点是否异常。
32.为解决上述技术问题,本申请还提供一种节点异常检测装置,包括:
33.存储器,用于存储计算机程序;
34.处理器,用于执行所述计算机程序时实现如上所述的节点异常检测方法的步骤。
35.为解决上述技术问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的节点异常检测方法的步骤。
36.本申请所提供的节点异常检测方法,根据历史性能指标数据构建第一检测模型,其中历史性能指标数据包括历史节点性能指标数据和历史业务性能指标数据,获取目标节点的目标性能指标数据,利用检测模型确定目标节点是否异常。由于第一检测模型基于历史节点性能指标数据和历史业务性能指标数据中的多特征数据构建,使得第一检测模型能够更全面的对目标节点进行综合检测,因此降低了节点异常检测的误报率、提高了节点异常检测的准确性。
37.此外,本申请提供的一种节点异常检测装置及介质,与上述节点异常检测方法对应,效果同上。
附图说明
38.为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1为本申请实施例提供的一种节点异常检测方法的流程图;
40.图2为本申请实施例提供的一种sigmoid函数的函数图像;
41.图3为本申请实施例提供的一种节点异常检测装置的结构示意图;
42.图4为本申请实施例提供的另一种节点异常检测装置的结构示意图。
具体实施方式
43.下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
44.本申请的核心是提供一种节点异常检测方法,用以降低节点异常检测的误报率、提高节点异常检测的准确性。本申请的核心是还提供一种节点异常检测装置及介质。
45.为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
46.图1为本申请实施例提供的一种节点异常检测方法的流程图。如图1所示,该方法包括:
47.s10:根据历史性能指标数据构建第一检测模型。
48.其中,历史性能指标数据包括历史节点性能指标数据和历史业务性能指标数据,历史节点性能指标数据包含有中央处理器(cpu)使用率、内存使用率、输入输出(io)读写和网络流量,历史业务性能指标数据包含有集群架构(ha)的曲线连接数、进程连接数和服务器出错(5xx)的故障错误率。
49.在具体实施中,可采用逻辑回归算法构建第一检测模型。具体算法如下所示:
50.选择sigmoid函数作为预测函数。图2为本申请实施例提供的一种sigmoid函数的函数图像,如图2所示,sigmoid函数的输出值(纵坐标)在[0,1]之间,当横坐标远离0时,纵坐标趋近0或1,sigmoid函数的函数表达式如下所示:
[0051][0052]
根据决策边界函数和sigmoid函数计算逻辑回归算法的预测函数。决策边界函数的函数表达式如下所示:
[0053][0054]
其中,n表示样本的特征数,x
i
表示第i个特征,θ
i
表示第i个特征的权重。
[0055]
逻辑回归算法的预测函数的表达式如下所示:
[0056][0057]
根据极大似然构造损失函数。损失函数的函数表达式如下所示:
[0058][0059]
其中,m为样本总数,y
i
表示第i个特征的类别。
[0060]
根据梯度下降算法推导故障结果。故障结果的公式如下所示:
[0061][0062]
其中,α为学习率,θ
j
为故障结果。
[0063]
为了提高第一检测模型的实时性,作为优选的实施例,s10具体为:根据距离当前预设周期内的历史性能指标数据构建第一检测模型。
[0064]
其中预设周期不做限制,具体的,可以选择15天为一个周期。
[0065]
s11:获取目标节点的目标性能指标数据。
[0066]
s12:根据第一检测模型确定与目标性能指标对应的目标检测结果。
[0067]
s13:根据目标检测结果确定目标节点是否异常。
[0068]
为了进一步降低节点异常检测的误报率、提高节点异常检测的准确性,作为优选的实施例,历史节点性能指标数据还包括:打开文件数、文件运行状态数据、df命令执行卡住数据、内存溢出数据、cpu软锁数据和网卡连接数据;历史业务性能指标数据还包括:目标节点配置文件的配置出错率、目标节点配置更新出错时间、目标节点到源点的访问时长和目标节点配置的生效时长。
[0069]
在具体实施中,可通过部署在节点、包含有配置文件、性能采集程序和日志采集程序的代理程序(agent)获取历史性能指标数据和目标性能指标数据。需要说明的是,配置文件中定义了业务节点ip地址、业务属性、服务器地址、数据传输的端口号等;性能采集程序用于采集主机性能指标以及业务性能指标,主机性能指标包括cpu使用率、内存使用率、io读写、网络流量、打开文件数、文件运行状态数据、df命令执行卡住数据,业务性能指标包括ha曲线连接数、进程连接数、5xx故障错误率、配置出错率、更新出错时间、访问时长和生效时长;日志采集程序用于采集系统的日志,并通过定义关键字的方式,将日志中的数据提取并形成指标,例如:内存溢出数据、cpu软锁数据和网卡连接数据。
[0070]
本申请实施例所提供的节点异常检测方法,根据历史性能指标数据构建第一检测模型,其中历史性能指标数据包括历史节点性能指标数据和历史业务性能指标数据,获取目标节点的目标性能指标数据,利用检测模型确定目标节点是否异常。由于第一检测模型基于历史节点性能指标数据和历史业务性能指标数据中的多特征数据构建,使得第一检测模型能够更全面的对目标节点进行综合检测,因此降低了节点异常检测的误报率、提高了节点异常检测的准确性。
[0071]
在实施例的基础上,节点异常检测方法还包括:
[0072]
根据历史性能指标数据中各性能指标数据构建对应的第二检测模型。
[0073]
在目标节点异常的情况下,根据各第二检测模型确定与目标性能指标数据中各目标性能指标数据对应的各检测结果。
[0074]
根据各检测结果确定目标异常指标。
[0075]
可以理解的是,在目标节点异常时,通过建立的第二检测模型能够准确的确定异常指标,从而更加直观的确定节点的异常原因,从而能够根据异常原因快速准确的进行检修,保证了整个业务系统的稳定性,提高了故障处理的快速性。
[0076]
在上述实施例的基础上,节点异常检测方法还包括:
[0077]
根据预先建立的各性能指标数据与各分值的对应关系确定对应的目标分值。
[0078]
根据预设初始分值与目标分值计算目标节点的目标健康分值。
[0079]
根据预先建立的各健康分值与各健康等级的对应关系,确定与目标健康分值对应的目标健康等级。
[0080]
需要说明的是,目标健康分值具体为预设初始分值与目标分值的差值。
[0081]
在具体实施中,健康分值处于20分以下的对应第一健康等级,采取灾难告警的方式进行告警,处于20分至60分对应第二健康等级,采取中度告警的方式进行告警,处于60分至80分对应第三健康等级,采取一般告警的方式进行告警,处于80分至100对应第四健康等级,可以按照用户需求选择不告警或轻微告警的方式进行告警。
[0082]
还需要说明的是,各性能指标数据与各分值的对应关系具体可通过静态告警阈值和基于回归模型(logistic regression,lr)算法计算的告警阈值。其中,静态告警阈值具体为由硬件自身故障(例如:主板故障、网络适配器故障)产生的阈值;基于lr算法计算的告警阈值包括:以关键业务为基准,合并相同或相近时间相关的主机性能指标,以玄武盾故障告警为基准,创建不同业务的检测项特征,以预设周期(可以是15天)计算告警数量和节点性能变化,基于告警数量和节点性能变化计算与各性能指标数据对应的各分值。
[0083]
本申请实施例所提供的节点异常检测方法,基于各性能指标数据对节点进行健康分值计算,因此能够基于不同的健康等级,对所有节点故障处理进行优先等级的判断,例如针对第一健康等级的节点采取最高优先级的故障处理,在保证故障处理的速度的同时,提高了节点所在业务系统运行的稳定性。
[0084]
在上述实施例的基础上,s12前,还包括:
[0085]
获取目标节点的硬件运行数据。
[0086]
根据硬件运行数据对目标性能指标数据进行筛选。
[0087]
则,s12具体为:
[0088]
根据第一检测模型确定与筛选后的目标性能指标数据对应的目标检测结果。
[0089]
为了便于本领域技术人员理解,以硬件运行数据是网络连接状态数据为例子进行说明:假设节点上连接有四个网络,在节点运行过程中,其中一个网络的网络接口处于自动关闭的状态,因此可以将该网络对应的性能指标数据从目标性能指标数据筛除,从而进一步提高节点检测的效率。
[0090]
在具体实施中,为了进一步提高节点检测的效率、降低节点的工作量,在获取目标节点的目标性能指标数据时,即可根据硬件运行数据选择性的获取指标,例如,节点上连接有四个网络,在节点运行过程中,其中一个网络的网络接口处于自动关闭的状态,在获取目标性能指标数据时,则不获取该网络对应的性能指标数据。
[0091]
在上述实施例中,对于节点异常检测方法进行了详细描述,本申请还提供节点异常检测装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
[0092]
图3为本申请实施例提供的一种节点异常检测装置的结构示意图。如图3所示,基于功能模块的角度,该装置包括:
[0093]
第一构建模块10,用于根据历史性能指标数据构建第一检测模型,其中历史性能指标数据包括历史节点性能指标数据和历史业务性能指标数据。
[0094]
第一获取模块11,用于获取目标节点的目标性能指标数据。
[0095]
第一确定模块12,用于根据第一检测模型确定与目标性能指标对应的目标检测结果。
[0096]
第二确定模块13,用于根据目标检测结果确定目标节点是否异常。
[0097]
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
[0098]
作为优选的实施例,还包括:
[0099]
第二构建模块,用于根据历史性能指标数据中各性能指标数据构建对应的第二检测模型。
[0100]
第三确定模块,用于在目标节点异常的情况下,根据各第二检测模型确定目标性能指标数据中各目标性能指标数据对应的各检测结果。
[0101]
第四确定模块,用于根据各检测结果确定目标异常指标。
[0102]
还包括:
[0103]
第五确定模块,用于根据预先建立的各性能指标数据与各分值的对应关系确定对应的目标分值。
[0104]
计算模块,用于根据预设初始分值与目标分值计算目标节点的目标健康分值。
[0105]
第六确定模块,用于根据预先建立的各健康分值与各健康等级的对应关系,确定与目标健康分值对应的目标健康等级。
[0106]
还包括:
[0107]
第二获取模块,用于获取目标节点的硬件运行数据。
[0108]
筛选模块,用于根据硬件运行数据对目标性能指标数据进行筛选。
[0109]
则,第一确定模块12具体为:第七确定模块,用于根据第一检测模型确定与筛选后的目标性能指标数据对应的目标检测结果。
[0110]
第一构建模块10具体为:第三构建模块,用于根据距离当前预设周期内的历史性能指标数据构建第一检测模型。
[0111]
本申请实施例所提供的节点异常检测装置,根据历史性能指标数据构建第一检测模型,其中历史性能指标数据包括历史节点性能指标数据和历史业务性能指标数据,获取目标节点的目标性能指标数据,利用检测模型确定目标节点是否异常。由于第一检测模型基于历史节点性能指标数据和历史业务性能指标数据中的多特征数据构建,使得第一检测模型能够更全面的对目标节点进行综合检测,因此降低了节点异常检测的误报率、提高了节点异常检测的准确性。
[0112]
图4为本申请实施例提供的另一种节点异常检测装置的结构示意图。如图4所示,
基于硬件结构的角度,该装置包括:
[0113]
存储器20,用于存储计算机程序;
[0114]
处理器21,用于执行计算机程序时实现如上述实施例中节点异常检测方法的步骤。
[0115]
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu;协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有图像处理器(graphics processing unit,gpu),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(artificial intelligence,ai)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0116]
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序201被处理器21加载并执行之后,能够实现前述任一实施例公开的节点异常检测方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括windows、unix、linux等。数据203可以包括但不限于节点异常检测方法中涉及的数据等。
[0117]
在一些实施例中,节点异常检测装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
[0118]
本领域技术人员可以理解,图4中示出的结构并不构成对节点异常检测装置的限定,可以包括比图示更多或更少的组件。
[0119]
本申请实施例提供的节点异常检测装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:根据历史性能指标数据构建第一检测模型,其中历史性能指标数据包括历史节点性能指标数据和历史业务性能指标数据,获取目标节点的目标性能指标数据,利用检测模型确定目标节点是否异常。由于第一检测模型基于历史节点性能指标数据和历史业务性能指标数据中的多特征数据构建,使得第一检测模型能够更全面的对目标节点进行综合检测,因此降低了节点异常检测的误报率、提高了节点异常检测的准确性。
[0120]
最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
[0121]
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存
储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0122]
以上对本申请所提供的一种节点异常检测方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
[0123]
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1