一种服务器异常检测方法、装置、设备及可读存储介质与流程

文档序号:30920517发布日期:2022-07-29 22:51阅读:152来源:国知局
一种服务器异常检测方法、装置、设备及可读存储介质与流程

1.本发明涉及人工智能与异常检测技术领域,特别是涉及一种服务器异常检测方法、装置、设备及计算机可读存储介质。


背景技术:

2.异常检测是检测数据集中不符合逻辑的异常数据,即离群点、不一致点、特殊点,适用于系统健康检测、传感器网络事件检测、故障检测等,保障系统生态的正常运作。异常检测属于机器学习的应用之一,概括来说,算法原理基于概率统计、基于最近邻、基于聚类等角度,有许多经典算法及衍生算法,又可分为有监督学习、无监督学习和半监督学习等。
3.bmc(baseboard management controller,基板管理控制器),是整个服务器系统的“大管家”,具有一系列的监视和控制功能,利用传感器监视系统部件温度、湿度、电压、风扇、电源、通信参数、操作系统函数等,做适合的调节,保持系统处于健康状态。bmc 具有丰富的解决方案,服务器带内与带外的联合监控方式,可以调取任何系统的状态信息,如 cpu(central processing unit,中央处理器)负载、内存使用率、网络流量、扇区磁盘通道数量等。
4.当前,bmc 在服务器系统的检测中,一般使用阈值作为判断条件,当温度超出阈值后,利用风扇将温度降下来,保持系统处于健康状态。然而,这种条件反射略有滞后,高温对部件的损害是不可逆的,会降低部件寿命。当服务器发生重大系统风险时,风扇降温的效果微弱,待机、死机等不良后果,若未能做出合理的反应及调整,会造成文件丢失等情况,带来重大的经济损失,也给生产安全带来隐患。在预研的 bmc 方案中,传统基于机器学习的异常检测,尤其基于距离,易发生计算爆炸。
5.综上所述,如何有效地解决现有的服务器异常检测方法条件反射滞后,降低部件寿命,易发生计算爆炸等问题,是目前本领域技术人员急需解决的问题。


技术实现要素:

6.本发明的目的是提供一种服务器异常检测方法,该方法通过双端协同异常检测,可以科学分配计算资源,防止计算量爆炸,提高检测效率,有效规避一般基于距离异常检测等高负荷计算的弊端;本发明的另一目的是提供一种服务器异常检测装置、设备及计算机可读存储介质。
7.为解决上述技术问题,本发明提供如下技术方案:一种服务器异常检测方法,包括:接收各服务器系统数据;对各所述服务器系统数据进行特征提取,得到各特征数据;根据各所述特征数据进行二叉树构建,得到各二叉树;计算在由各所述二叉树构成的二叉树群中各所述服务器系统数据分别对应的平均路径长度;
当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据;基于各所述正常数据建立第一多元高斯分布模型,并基于各所述异常数据建立第二多元高斯分布模型;结合所述第一多元高斯分布模型和所述第二多元高斯分布模型对各所述服务器系统数据进行叠加异常检测。
8.在本发明的一种具体实施方式中,结合所述第一多元高斯分布模型和所述第二多元高斯分布模型对各所述服务器系统数据进行叠加异常检测,包括:利用所述第一多元高斯分布模型计算各所述服务器系统数据分别对应的正常概率,并利用所述第二多元高斯分布模型计算各所述服务器系统数据分别对应的异常概率;获取预设的正常概率阈值和异常概率阈值,针对每个服务器系统数据,结合所述正常概率阈值、所述异常概率阈值以及所述服务器系统数据对应的正常概率和异常概率进行叠加异常检测。
9.在本发明的一种具体实施方式中,当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,还包括:获取第一异常检测结果;将所述第一异常检测结果反馈至基板管理控制器,以使所述基板管理控制器控制风扇对相应系统部件进行降温操作。
10.在本发明的一种具体实施方式中,在针对每个服务器系统数据,结合所述正常概率阈值、所述异常概率阈值以及所述服务器系统数据对应的正常概率和异常概率进行叠加异常检测之后,还包括:获取叠加异常检测得到的第二异常检测结果;结合所述第一异常检测结果和所述第二异常检测结果进行服务器异常维护操作。
11.在本发明的一种具体实施方式中,结合所述第一异常检测结果和所述第二异常检测结果进行服务器异常维护操作,包括:当所述第一异常检测结果为存在异常数据,且所述第二异常检测结果为存在正常概率不在所述正常概率阈值内且异常概率在所述异常概率阈值内的服务器系统数据时,向所述基板管理控制器发送磁盘封存指令,以使所述基板管理控制器进行磁盘封存操作,并向上级发送异常检测报告;当所述第一异常检测结果为存在异常数据且所述第二异常检测结果为不存在异常概率在所述异常概率阈值内的服务器系统数据时,向所述基板管理控制器发送风扇控制指令,以使所述基板管理控制器控制风扇对相应系统部件进行降温操作;当所述第一异常检测结果为存在异常数据,且所述第二异常检测结果为存在正常概率在所述正常概率阈值内且异常概率在所述异常概率阈值内的服务器系统数据时,向所述基板管理控制器发送风扇控制指令,以使所述基板管理控制器控制风扇对相应系统部件进行降温操作。
12.在本发明的一种具体实施方式中,根据各所述特征数据进行二叉树构建,包括:利用所述基板管理控制器中各分布式计算结构单元根据各所述特征数据并行进行预设数量的二叉树构建。
13.在本发明的一种具体实施方式中,当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据,包括:根据各所述平均路径长度分别计算各所述服务器系统数据在所述二叉树群中的异常得分;当根据各所述异常得分检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据。
14.在本发明的一种具体实施方式中,在接收各服务器系统数据之后,还包括:将各所述服务器系统数据存储至具有队列属性的临时储存模块中;对各所述服务器系统数据进行特征提取,包括:从所述临时储存模块中获取各所述服务器系统数据,并对各所述服务器系统数据进行特征提取。
15.在本发明的一种具体实施方式中,在结合所述第一多元高斯分布模型和所述第二多元高斯分布模型对各所述服务器系统数据进行叠加异常检测之后,还包括:当各所述服务器系统数据中存在异常数据时,对所述临时储存模块中的异常数据进行剔除操作。
16.在本发明的一种具体实施方式中,对各所述服务器系统数据进行特征提取,包括:从各服务器系统数据中随机选取预设数量的服务器系统数据;对选取到的各所述服务器系统数据进行特征提取。
17.在本发明的一种具体实施方式中,计算在由各所述二叉树构成的二叉树群中各所述服务器系统数据分别对应的平均路径长度,包括:在由各所述二叉树构成的二叉树群中,针对每个服务器系统数据计算所述服务器系统数据在每个二叉树中所在叶子节点到根节点的距离,得到所述服务器系统数据在每个二叉树上的路径长;对各二叉树上的路径长进行均值计算,得到所述服务器系统数据对应的平均路径长度。
18.在本发明的一种具体实施方式中,当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据,包括:当确定存在小于预设异常路径长度阈值的平均路径长度时,获取远端对各所述服务器系统数据进行分流得到的各所述正常数据和各所述异常数据。
19.一种服务器异常检测装置,包括:数据接收模块,用于接收各服务器系统数据;特征提取模块,用于对各所述服务器系统数据进行特征提取,得到各特征数据;二叉树构建模块,用于根据各所述特征数据进行二叉树构建,得到各二叉树;路径长度计算模块,用于计算在由各所述二叉树构成的二叉树群中各所述服务器系统数据分别对应的平均路径长度;数据获取模块,用于当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常
数据;模型建立模块,用于基于各所述正常数据建立第一多元高斯分布模型,并基于各所述异常数据建立第二多元高斯分布模型;叠加异常检测模块,用于结合所述第一多元高斯分布模型和所述第二多元高斯分布模型对各所述服务器系统数据进行叠加异常检测。
20.一种服务器异常检测设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如前所述服务器异常检测方法的步骤。
21.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述服务器异常检测方法的步骤。
22.本发明所提供的服务器异常检测方法,接收各服务器系统数据;对各服务器系统数据进行特征提取,得到各特征数据;根据各特征数据进行二叉树构建,得到各二叉树;计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度;当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据;基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型;结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测。
23.由上述技术方案可知,通过在近端对接收到的各服务器系统数据进行特征提取,根据提取到的各特征数据构建得到各二叉树,计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度,根据各平均路径长度对各服务器系统数据进行初始异常检测。远端在接收到各服务器系统数据时,会预先将各服务器系统数据分流为各正常数据和各异常数据,当在近端进行初始异常检测的检测结果为存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据,并基于各正常数据和各异常数据分别进行建立多元高斯分布模型,从而在远端对各服务器系统数据进行叠加异常检测。近端异常检测具有边缘计算的特点,省略数据传输过程,反应速度更快。当近端检测到服务器系统数据发生异常后,可以及时在系统部件升温之初或未升温前对部件进行保护,防止高温对部件的损坏,也可保持系统的最优工作状态,高效输出。远端使用多元高斯分布模型进行全局异常检测,由近端异常检测触发,作叠加异常检测,预知服务器待机、死机等重大风险,进而可以提前采取维护措施。通过双端协同异常检测,可以科学分配计算资源,防止计算量爆炸,提高检测效率,有效规避一般基于距离异常检测等高负荷计算的弊端。
24.相应的,本发明还提供了与上述服务器异常检测方法相对应的服务器异常检测装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
25.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
26.图1为本发明实施例中服务器异常检测方法的一种实施流程图;
图2为本发明实施例中服务器异常检测方法的另一种实施流程图;图3为本发明实施例中一种服务器异常检测装置的结构框图;图4为本发明实施例中一种服务器异常检测设备的结构框图;图5为本实施例提供的一种服务器异常检测设备的具体结构示意图。
具体实施方式
27.为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.参见图1,图1为本发明实施例中服务器异常检测方法的一种实施流程图,该方法可以包括以下步骤:s101:接收各服务器系统数据。
29.在服务器运行过程中,会生成各系统部件分别对应的服务器系统数据,基板管理控制器接收各服务器系统数据。
30.s102:对各服务器系统数据进行特征提取,得到各特征数据。
31.在接收到各服务器系统数据之后,对各服务器系统数据进行特征提取,得到各特征数据。特征数据可以包括cpu温度、电压、内存使用率、cpu负载、网络流量等。
32.在本发明的一种具体实施方式中,在步骤s101之后,该方法还可以包括以下步骤:将各服务器系统数据存储至具有队列属性的临时储存模块中;相应的,对各服务器系统数据进行特征提取,可以包括以下步骤:从临时储存模块中获取各服务器系统数据,并对各服务器系统数据进行特征提取。
33.基板管理控制器中包含集成在芯片内部的临时储存模块,基板管理控制器在接收到各服务器系统数据之后,可以将各服务器系统数据存储至临时储存模块。临时储存模块可以设置为具有队列属性的储存单元,即数据先入先出,用于临时储存服务器系统数据。当临时储存模块饱和后,数据滑动储存,左端滑入一个单位数据,右端滑出一个单位数据,新滑入的单位数据标记为待检测数据点。初始期存在数据收集过程,当临时储存模块饱和后,边缘端(即近端)异常检测环境就绪。假定服务器系统每 15 分钟产生一个状态信息,即一个单位数据,临时储存模块滑入一个单位数据。
34.在本发明的一种具体实施方式中,对各服务器系统数据进行特征提取,可以包括以下步骤:步骤一:从各服务器系统数据中随机选取预设数量的服务器系统数据;步骤二:对选取到的各服务器系统数据进行特征提取。
35.为方便描述,可以将上述两个步骤结合起来进行说明。
36.还可以在接收到各服务器系统数据之后,先从所有的服务器系统数据中随机选取预设数量的服务器系统数据,即随机选择出一部分服务器系统数据,仅对选取的各服务器系统数据进行特征提取。通过随机选取一部分服务器系统数据进行特征提取,并从提取到的所有特征中选择出一部分特征进行二叉树构建,既可以保证每棵树上服务器系统数据的
多样性,还可以减少内存的消耗,可避免维度灾难。选择特征时,可以通过随机选择方式进行特征选择,充分利用随机选择速度快的优势,也可以通过使用峰度检验的方式进行特征选择,从而保证有较好的特征选取效果。
37.s103:根据各特征数据进行二叉树构建,得到各二叉树。
38.在从各服务器系统数据中提取到各特征数据之后,根据各特征数据进行二叉树构建,如可以利用袋装法进行二叉树构建,得到各二叉树。
39.在构建二叉树时,将选取的各服务器系统数据放到根节点,随机从预先选择的各特征数据中选择一个特征,在当前特征中随机产生一个切割点c,切割点c产生于该特征的最小值和最大值之间,以此切割点生成一个超平面,将服务器系统数据空间切分成两个子空间,将该特征下小于c的服务器系统数据放在左子树,将该特征下大于等于c的服务器系统数据放在右子树。各子树递归步骤分割服务器系统数据,不断构造新的子树,直到遇到满足终止条件。
40.终止条件可以包括:(1)分割出待检测点;(2)子树已到达限定高度,其中,为预先选取的服务器系统数据总数;(3)子树上的服务器系统数据所有特征值相同;(4)子树无法继续分割。
41.s104:计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度。
42.在构建得到各二叉树之后,计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度。
43.在本发明的一种具体实施方式中,步骤s104可以包括以下步骤:步骤一:在由各二叉树构成的二叉树群中,针对每个服务器系统数据计算服务器系统数据在每个二叉树中所在叶子节点到根节点的距离,得到服务器系统数据在每个二叉树上的路径长;步骤二:对各二叉树上的路径长进行均值计算,得到服务器系统数据对应的平均路径长度。
44.为方便描述,可以将上述两个步骤结合起来进行说明。
45.在计算各服务器系统数据分别对应的平均路径长度时,首先针对每个服务器系统数据计算其在每个二叉树中所在叶子节点到根节点的距离,分别得到该服务器系统数据在每个二叉树上的路径长。再对各二叉树上的路径长进行均值计算,得到该服务器系统数据对应的平均路径长度。
46.s105:当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
47.在计算得到在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度之后,根据各平均路径长度判断各服务器系统数据中是否存在异常数据。服务器系统数据在发送至近端的同时,也会将相同的服务器系统数据发送至远端(如云平台),远
端会将各服务器系统数据分流为各正常数据和各异常数据。当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,触发远端异常检测,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
48.在本发明的一种具体实施方式中,步骤s105可以包括以下步骤:步骤一:根据各平均路径长度分别计算各服务器系统数据在二叉树群中的异常得分;步骤二:当根据各异常得分检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
49.为方便描述,可以将上述两个步骤结合起来进行说明。
50.在计算得到在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度之后,可以根据各平均路径长度分别计算各服务器系统数据在二叉树群中的异常得分。当根据各异常得分检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
51.可以根据异常得分与平均路径长度及二叉树高度之间的关系,进行异常得分计算。给定一个n个样本的数据集,二叉树的高度为:;其中,为调和数。
52.异常得分可以将异常概念映射到[0,1]区间,定义如下:;设置阈值,和是映射关系,即一一对应,映射公式为:。当且仅当时,待检测服务器系统数据被判定为异常。
[0053]
一般,当趋向于1时,待检测服务器系统数据被判定为异常,当趋向于0时,待检测服务器系统数据被判定为正常。
[0054]
在本发明的一种具体实施方式中,步骤s105可以包括以下步骤:当确定存在小于预设异常路径长度阈值的平均路径长度时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
[0055]
一般情况下,异常数据的平均路径长度偏短,易分割出去。可以预先设定异常路径长度阈值,当确定存在小于预设异常路径长度阈值的平均路径长度时,如当存在服务器系统数据的平均路径长时,样本被判定为异常。在这种情况下,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
[0056]
s106:基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型。
[0057]
在获取到远端对各服务器系统数据进行分流得到的各正常数据和各异常数据之后,基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分
布模型。
[0058]
在对第一多元高斯分布模型建立的过程中,通过以下公式计算个正常数据的均值和协方差:;;可得正常数据的第一多元高斯分布模型:;在对第二多元高斯分布模型建立的过程中,通过以下公式计算个正常数据的均值和协方差:;;可得异常数据的概率模型第二多元高斯分布模型:;从而得到分别基于各正常数据建立的第一多元高斯分布模型和基于各异常数据建立的第二多元高斯分布模型。
[0059]
s107:结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测。
[0060]
在基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型之后,结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测。
[0061]
在本发明的一种具体实施方式中,在步骤s107之后,该方法还可以包括以下步骤:当各服务器系统数据中存在异常数据时,对临时储存模块中的异常数据进行剔除操作。
[0062]
当各服务器系统数据中存在异常数据时,对临时储存模块中的异常数据进行剔除操作。
[0063]
承接上述举例,当待检测数据点异常时,临时储存模块中数据流不进行滑动,而直接剔除。从而实现对正常数据和异常数据的分离。
[0064]
由上述技术方案可知,通过在近端对接收到的各服务器系统数据进行特征提取,根据提取到的各特征数据构建得到各二叉树,计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度,根据各平均路径长度对各服务器系统数据进行初始
异常检测。远端在接收到各服务器系统数据时,会预先将各服务器系统数据分流为各正常数据和各异常数据,当在近端进行初始异常检测的检测结果为存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据,并基于各正常数据和各异常数据分别进行建立多元高斯分布模型,从而在远端对各服务器系统数据进行叠加异常检测。近端异常检测具有边缘计算的特点,省略数据传输过程,反应速度更快。当近端检测到服务器系统数据发生异常后,可以及时在系统部件升温之初或未升温前对部件进行保护,防止高温对部件的损坏,也可保持系统的最优工作状态,高效输出。远端使用多元高斯分布模型进行全局异常检测,由近端异常检测触发,作叠加异常检测,预知服务器待机、死机等重大风险,进而可以提前采取维护措施。通过双端协同异常检测,可以科学分配计算资源,防止计算量爆炸,提高检测效率,有效规避一般基于距离异常检测等高负荷计算的弊端。
[0065]
需要说明的是,基于上述实施例,本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在下文的改进实施例中不再一一赘述。
[0066]
参见图2,图2为本发明实施例中服务器异常检测方法的另一种实施流程图,该方法可以包括以下步骤:s201:接收各服务器系统数据。
[0067]
s202:对各服务器系统数据进行特征提取,得到各特征数据。
[0068]
s203:根据各特征数据进行二叉树构建,得到各二叉树。
[0069]
在本发明的一种具体实施方式中,根据各特征数据进行二叉树构建,可以包括以下步骤:利用基板管理控制器中各分布式计算结构单元根据各特征数据并行进行预设数量的二叉树构建。
[0070]
基板管理控制器中存在多个分布式计算结构单元,预先设置待构建的二叉树数量,在二叉树构建时,利用基板管理控制器中各分布式计算结构单元根据各特征数据并行进行预设数量的二叉树构建。通过利用各分布式计算结构单元对各二叉树进行并行构建,较大地提升了二叉树构建效率。
[0071]
在二叉树的构建过程中加入注意力机制,只关心待检测点的分割情况,所以二叉树并不需要分割所有数据点,可以提前停止,提升效率。
[0072]
s204:计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度。
[0073]
s205:当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取第一异常检测结果。
[0074]
当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取第一异常检测结果。第一异常检测结果中可以包含具体的是哪个部件出现了异常。
[0075]
s206:将第一异常检测结果反馈至基板管理控制器,以使基板管理控制器控制风扇对相应系统部件进行降温操作。
[0076]
在获取到第一异常检测结果之后,将第一异常检测结果反馈至基板管理控制器,基板管理控制器在接收到第一异常检测结果之后,可以解析出具体是哪个系统部件出现了异常,进而控制风扇对相应系统部件进行降温操作,从而当近端检测(或预测)到服务器系
统数据发生异常后,可在系统部件升温之初(或未升温前)对部件进行保护,防止高温对部件的损坏,也可保持系统的最优工作状态,高效输出。
[0077]
s207:获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
[0078]
s208:基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型。
[0079]
s209:利用第一多元高斯分布模型计算各服务器系统数据分别对应的正常概率,并利用第二多元高斯分布模型计算各服务器系统数据分别对应的异常概率。
[0080]
在建立得到第一多元高斯分布模型和第二多元高斯分布模型之后,利用第一多元高斯分布模型计算各服务器系统数据分别对应的正常概率,并利用第二多元高斯分布模型计算各服务器系统数据分别对应的异常概率。
[0081]
s210:获取预设的正常概率阈值和异常概率阈值,针对每个服务器系统数据,结合正常概率阈值、异常概率阈值以及服务器系统数据对应的正常概率和异常概率进行叠加异常检测。
[0082]
预先设置正常概率阈值和异常概率阈值,获取预设的正常概率阈值和异常概率阈值,针对每个服务器系统数据,结合正常概率阈值、异常概率阈值以及服务器系统数据对应的正常概率和异常概率进行叠加异常检测。
[0083]
承接步骤s106,可以设置阈值和,对于待检测服务器系统数据,当且仅当且时,模型会判断服务器出现(或即将出现)异常,反馈基板管理控制器封存磁盘,并向上级发送报告,以使作业人员合理制定工作计划,保证工作的完整性。
[0084]
s211:获取叠加异常检测得到的第二异常检测结果。
[0085]
在结合正常概率阈值、异常概率阈值以及服务器系统数据对应的正常概率和异常概率进行叠加异常检测之后,获取叠加异常检测得到的第二异常检测结果。即,通过将服务器系统数据对应的正常概率与正常概率阈值进行对比,并将服务器系统数据对应的异常概率与异常概率阈值进行对比,通过两个对比结果得到第二异常检测结果。
[0086]
s212:结合第一异常检测结果和第二异常检测结果进行服务器异常维护操作。
[0087]
在得到第一异常检测结果和第二异常检测结果之后,结合第一异常检测结果和第二异常检测结果进行服务器异常维护操作。
[0088]
在本发明的一种具体实施方式中,步骤s212可以包括以下步骤:步骤一:当第一异常检测结果为存在异常数据,且第二异常检测结果为存在正常概率不在正常概率阈值内且异常概率在异常概率阈值内的服务器系统数据时,向基板管理控制器发送磁盘封存指令,以使基板管理控制器进行磁盘封存操作,并向上级发送异常检测报告;步骤二:当第一异常检测结果为存在异常数据且第二异常检测结果为不存在异常概率在异常概率阈值内的服务器系统数据时,向基板管理控制器发送风扇控制指令,以使基板管理控制器控制风扇对相应系统部件进行降温操作;步骤三:当第一异常检测结果为存在异常数据,且第二异常检测结果为存在正常概率在正常概率阈值内且异常概率在异常概率阈值内的服务器系统数据时,向基板管理控制器发送风扇控制指令,以使基板管理控制器控制风扇对相应系统部件进行降温操作。
[0089]
为方便描述,可以将上述三个步骤结合起来进行说明。
[0090]
当第一异常检测结果为存在异常数据,且第二异常检测结果为存在正常概率不在正常概率阈值内且异常概率在异常概率阈值内的服务器系统数据时,以正常概率值大于等于为正常概率阈值范围,异常概率值小于为异常概率阈值范围,即当或者时,说明存在系统部件出现较严重的异常,向基板管理控制器发送磁盘封存指令,基板管理控制器根据磁盘封存指令进行磁盘封存操作,并向上级发送异常检测报告。
[0091]
当第一异常检测结果为存在异常数据且第二异常检测结果为不存在异常概率在异常概率阈值内的服务器系统数据时,即以正常概率值大于等于为正常概率阈值范围,异常概率值小于为异常概率阈值范围,当或者时,说明存在系统部件出现较轻的异常,向基板管理控制器发送风扇控制指令,基板管理控制器根据风扇控制指令控制风扇对相应系统部件进行降温操作。
[0092]
当第一异常检测结果为存在异常数据,且第二异常检测结果为存在正常概率在正常概率阈值内且异常概率在异常概率阈值内的服务器系统数据时,即以正常概率值大于等于为正常概率阈值范围,异常概率值小于为异常概率阈值范围,当或者时,说明存在系统部件出现较轻的异常,向基板管理控制器发送风扇控制指令,以使基板管理控制器控制风扇对相应系统部件进行降温操作。
[0093]
若是考虑工程应用场景,也可合理修改模型的计算方式,达到预期效果且计算廉价。假设服务器系统数据特征具有独立性,那么:;其中,是服务器系统任意特征数据,便有:;;那么:;其中,设置阈值,当且仅当时,服务器系统数据判断为异常。
[0094]
相应于上面的方法实施例,本发明还提供了一种服务器异常检测装置,下文描述的服务器异常检测装置与上文描述的服务器异常检测方法可相互对应参照。
[0095]
参见图3,图3为本发明实施例中一种服务器异常检测装置的结构框图,该装置可
以包括:数据接收模块31,用于接收各服务器系统数据;特征提取模块32,用于对各服务器系统数据进行特征提取,得到各特征数据;二叉树构建模块33,用于根据各特征数据进行二叉树构建,得到各二叉树;路径长度计算模块34,用于计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度;数据获取模块35,用于当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据;模型建立模块36,用于基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型;叠加异常检测模块37,用于结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测。
[0096]
由上述技术方案可知,通过在近端对接收到的各服务器系统数据进行特征提取,根据提取到的各特征数据构建得到各二叉树,计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度,根据各平均路径长度对各服务器系统数据进行初始异常检测。远端在接收到各服务器系统数据时,会预先将各服务器系统数据分流为各正常数据和各异常数据,当在近端进行初始异常检测的检测结果为存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据,并基于各正常数据和各异常数据分别进行建立多元高斯分布模型,从而在远端对各服务器系统数据进行叠加异常检测。近端异常检测具有边缘计算的特点,省略数据传输过程,反应速度更快。当近端检测到服务器系统数据发生异常后,可以及时在系统部件升温之初或未升温前对部件进行保护,防止高温对部件的损坏,也可保持系统的最优工作状态,高效输出。远端使用多元高斯分布模型进行全局异常检测,由近端异常检测触发,作叠加异常检测,预知服务器待机、死机等重大风险,进而可以提前采取维护措施。通过双端协同异常检测,可以科学分配计算资源,防止计算量爆炸,提高检测效率,有效规避一般基于距离异常检测等高负荷计算的弊端。
[0097]
在本发明的一种具体实施方式中,叠加异常检测模块37包括:概率计算子模块,用于利用第一多元高斯分布模型计算各服务器系统数据分别对应的正常概率,并利用第二多元高斯分布模型计算各服务器系统数据分别对应的异常概率;叠加异常检测子模块,用于获取预设的正常概率阈值和异常概率阈值,针对每个服务器系统数据,结合正常概率阈值、异常概率阈值以及服务器系统数据对应的正常概率和异常概率进行叠加异常检测。
[0098]
在本发明的一种具体实施方式中,该装置还可以包括:第一结果获得模块,用于当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取第一异常检测结果;部件降温模块,用于将第一异常检测结果反馈至基板管理控制器,以使基板管理控制器控制风扇对相应系统部件进行降温操作。
[0099]
在本发明的一种具体实施方式中,该装置还可以包括:第一结果获得模块,在针对每个服务器系统数据,结合正常概率阈值、异常概率阈
值以及服务器系统数据对应的正常概率和异常概率进行叠加异常检测之后,获取叠加异常检测得到的第二异常检测结果;服务器异常维护模块,用于结合第一异常检测结果和第二异常检测结果进行服务器异常维护操作。
[0100]
在本发明的一种具体实施方式中,服务器异常维护模块包括:磁盘封存及报告发送子模块,用于当第一异常检测结果为存在异常数据,且第二异常检测结果为存在正常概率不在正常概率阈值内且异常概率在异常概率阈值内的服务器系统数据时,向基板管理控制器发送磁盘封存指令,以使基板管理控制器进行磁盘封存操作,并向上级发送异常检测报告;第一部件降温子模块,用于当第一异常检测结果为存在异常数据且第二异常检测结果为不存在异常概率在异常概率阈值内的服务器系统数据时,向基板管理控制器发送风扇控制指令,以使基板管理控制器控制风扇对相应系统部件进行降温操作;第二部件降温子模块,用于当第一异常检测结果为存在异常数据,且第二异常检测结果为存在正常概率在正常概率阈值内且异常概率在异常概率阈值内的服务器系统数据时,向基板管理控制器发送风扇控制指令,以使基板管理控制器控制风扇对相应系统部件进行降温操作。
[0101]
在本发明的一种具体实施方式中,数据获取模块35包括:异常得分计算子模块,用于根据各平均路径长度分别计算各服务器系统数据在二叉树群中的异常得分;数据获取子模块,用于当根据各异常得分检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
[0102]
在本发明的一种具体实施方式中,该装置还可以包括:数据存储模块,用于在接收各服务器系统数据之后,将各服务器系统数据存储至具有队列属性的临时储存模块中;特征提取模块32具体为从临时储存模块中获取各服务器系统数据,并对各服务器系统数据进行特征提取的模块。
[0103]
在本发明的一种具体实施方式中,该装置还可以包括:数据剔除模块,用于在结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测之后,当各服务器系统数据中存在异常数据时,对临时储存模块中的异常数据进行剔除操作。
[0104]
在本发明的一种具体实施方式中,特征提取模块32包括:数据选取子模块,用于从各服务器系统数据中随机选取预设数量的服务器系统数据;特征提取子模块,用于对选取到的各服务器系统数据进行特征提取。
[0105]
在本发明的一种具体实施方式中,路径长度计算模块34包括:路径长计算子模块,用于在由各二叉树构成的二叉树群中,针对每个服务器系统数据计算服务器系统数据在每个二叉树中所在叶子节点到根节点的距离,得到服务器系统数据在每个二叉树上的路径长;均值计算子模块,用于对各二叉树上的路径长进行均值计算,得到服务器系统数
据对应的平均路径长度。
[0106]
在本发明的一种具体实施方式中,数据获取模块35具体为当确定存在小于预设异常路径长度阈值的平均路径长度时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据的模块。
[0107]
相应于上面的方法实施例,参见图4,图4为本发明所提供的服务器异常检测设备的示意图,该设备可以包括:存储器332,用于存储计算机程序;处理器322,用于执行计算机程序时实现上述方法实施例的服务器异常检测方法的步骤。
[0108]
具体的,请参考图5,图5为本实施例提供的一种服务器异常检测设备的具体结构示意图,该服务器异常检测设备可因配置或性能不同而产生比较大的差异,可以包括处理器(central processing units,cpu)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,处理器322可以设置为与存储器332通信,在服务器异常检测设备301上执行存储器332中的一系列指令操作。
[0109]
服务器异常检测设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
[0110]
上文所描述的服务器异常检测方法中的步骤可以由服务器异常检测设备的结构实现。
[0111]
相应于上面的方法实施例,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:接收各服务器系统数据;对各服务器系统数据进行特征提取,得到各特征数据;根据各特征数据进行二叉树构建,得到各二叉树;计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度;当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据;基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型;结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测。
[0112]
该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0113]
对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
[0114]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较
简单,相关之处参见方法部分说明即可。
[0115]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1