数据异常检测方法和装置与流程

文档序号:18213875发布日期:2019-07-19 22:30阅读:187来源:国知局
数据异常检测方法和装置与流程

本申请涉及计算机技术领域,尤其涉及一种数据异常检测方法和装置。



背景技术:

在产品运维过程中,当产品出现故障需要排查原因时,通常有成百上千个指标需要排查,这些指标可能来源于产品的各个模块,用于描述产品的不同层面的性能,常见的指标包括响应时间、错误率、资源使用率、流量大小等等。这些指标在数学上都可以被表达为时序数据的形式。为便于工作人员准确确定产品故障原因,有必要提供一种技术方案,以自动确定指标数据是否出现异常,提高指标排查效率。



技术实现要素:

本申请实施例的目的是提供一种数据异常检测方法和装置,以自动确定指标数据是否出现异常,提高指标排查效率。

为达到上述技术目的,本申请实施例是这样实现的:

本申请实施例提供了一种数据异常检测方法,包括:

获取待检测指标对应的指标时序数据;其中,所述指标时序数据包括多个监控时间点和各个所述监控时间点分别对应的指标值;

通过数据聚类的方式,在所述指标值中确定问题指标值;

若所述问题指标值对应的监控时间点满足所述待检测指标对应的异常值时间分布规律,则确定所述待检测指标异常,将所述问题指标值作为所述待检测指标的异常指标值。

本申请实施例提供了一种数据异常检测装置,包括:

数据获取模块,用于获取待检测指标对应的指标时序数据;其中,所述指标时序数据包括多个监控时间点和各个所述监控时间点分别对应的指标值;

问题确定模块,用于通过数据聚类的方式,在所述指标值中确定问题指标值;

第一异常判断模块,用于若所述问题指标值对应的监控时间点满足所述待检测指标对应的异常值时间分布规律,则确定所述待检测指标异常,将所述问题指标值作为所述待检测指标的异常指标值。

本申请实施例提供了一种数据异常检测设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现上述的数据异常检测方法的步骤。

本申请实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现上述的数据异常检测方法的步骤。

本申请实施例中,首先,获取待检测指标对应的指标时序数据,其中,指标时序数据包括多个监控时间点和各个监控时间点分别对应的指标值,然后,通过数据聚类的方式,在上述指标值中确定问题指标值,最后,若问题指标值对应的监控时间点满足待检测指标对应的异常值时间分布规律,则确定待检测指标异常,将问题指标值作为待检测指标的异常指标值。可见,通过本实施例,能够自动确定指标数据是否出现异常,从而提高指标排查效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的数据异常检测方法的流程示意图;

图2为本申请一实施例提供的指标时序数据的示意图;

图3为本申请另一实施例提供的数据异常检测方法的流程示意图;

图4为本申请一实施例提供的指标时序数据的示意图;

图5为本申请一实施例提供的指标时序数据的示意图;

图6为本申请另一实施例提供的数据异常检测方法的流程示意图;

图7为本申请一实施例提供的数据异常检测装置的模块组成示意图;

图8为本申请一实施例提供的数据异常检测设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

首先对本实施例中可能出现的专有名词进行解释。k-means:一种基于划分的聚类算法,k-means算法的基本思想是以空间中k个点为形心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各簇的中心的值,直至得到最好的聚类结果。时序数据:时序数据是指时间序列数据,时间序列数据是同一指标按时间顺序记录的数据列。

本申请实施例的目的是提供一种数据异常检测方法和装置,以自动确定指标数据是否出现异常,提高指标排查效率。本实施例中的数据异常检测方法可以由特定设备如数据异常检测设备执行。

图1为本申请一实施例提供的数据异常检测方法的流程示意图,如图1所示,该流程包括:

步骤s102,获取待检测指标对应的指标时序数据;其中,指标时序数据包括多个监控时间点和各个监控时间点分别对应的指标值;

步骤s104,通过数据聚类的方式,在上述指标值中确定问题指标值;

步骤s106,若问题指标值对应的监控时间点满足待检测指标对应的异常值时间分布规律,则确定待检测指标异常,将问题指标值作为待检测指标的异常指标值。

本申请实施例中,首先,获取待检测指标对应的指标时序数据,其中,指标时序数据包括多个监控时间点和各个监控时间点分别对应的指标值,然后,通过数据聚类的方式,在上述指标值中确定问题指标值,最后,若问题指标值对应的监控时间点满足待检测指标对应的异常值时间分布规律,则确定待检测指标异常,将问题指标值作为待检测指标的异常指标值。可见,通过本实施例,能够自动确定指标数据是否出现异常,从而提高指标排查效率。

上述步骤s102中,获取待检测指标对应的指标时序数据,指标时序数据包括多个监控时间点和各个监控时间点分别对应的指标值。具体地,待检测指标可以为响应时间、错误率、资源使用率、流量大小等指标。指标时序数据中,各个监控时间点可以为连续的时间点,各个监控时间点分别对应的指标值为待检测指标的值。

图2为本申请一实施例提供的指标时序数据的示意图,如图2所示,该指标时序数据能够表示上午10点到11点之间错误率的值,其中,在10点30分之后,错误率的值明显升高。

上述步骤s104中,通过数据聚类的方式,在上述指标值中确定问题指标值,具体为:

(a1)以上述指标值中的最大指标值和最小指标值作为聚类中心,利用数据聚类算法将上述指标值聚类为第一指标值集合和第二指标值集合;

(a2)根据待检测指标的指标类型、第一指标值集合的集合中心值大小和第二指标值集合的集合中心值大小,在第一指标值集合和第二指标值集合中确定问题指标值集合;

(a3)将问题指标值集合中的指标值确定为问题指标值。

具体地,上述动作(a1)中,以上述指标值中的最大指标值和最小指标值作为聚类中心,利用数据聚类算法将上述指标值聚类为第一指标值集合和第二指标值集合。一个具体的实施例中,设置k-means算法中的k等于2,通过k-means算法以上述指标值中的最大指标值和最小指标值作为初始的聚类中心,将上述指标值聚类为第一指标值集合和第二指标值集合。

能够理解,由于本实施例中以上述指标值中的最大指标值和最小指标值作为聚类中心得到第一指标值集合和第二指标值集合,因此可能存在以下两种情况:1、第一指标值集合中包含的都是较大的指标值,第二指标值集合中包含的都是较小的指标值,2、第一指标值集合中包含的都是较小的指标值,第二指标值集合中包含的都是较大的指标值。

当然,本实施例中也可以在各个指标值中随机选取聚类中心,通过数据聚类算法将上述指标值聚类为第一指标值集合和第二指标值集合。

上述动作(a2)中,根据待检测指标的指标类型、第一指标值集合的集合中心值大小和第二指标值集合的集合中心值大小,在第一指标值集合和第二指标值集合中确定问题指标值集合。其中,待检测指标的指标类型包括第一类型和第二类型,第一类型为指标异常时指标值变大的指标类型,第二类型为指标异常时指标值变小的指标类型。第一指标值集合的集合中心值可以为第一指标值集合中各个指标值的平均值,第二指标值集合的集合中心值可以为第二指标值集合中各个指标值的平均值。

上述动作(a2)具体可以为:

(a21)若待检测指标的指标类型为第一类型,则在第一指标值集合和第二指标值集合中,将集合中心值较大的集合确定为问题指标值集合;

(a22)若待检测指标的指标类型为第二类型,则在第一指标值集合和第二指标值集合中,将集合中心值较小的集合确定为问题指标值集合;

其中,第一类型为指标异常时指标值变大的指标类型,第二类型为指标异常时指标值变小的指标类型。

具体地,若待检测指标的指标类型为第一类型,则说明指标异常时指标值会变大,因此在第一指标值集合和第二指标值集合中,将集合中心值较大的集合确定为问题指标值集合,第一类型的指标可以举例为业务处理的响应时间等。同样地,若待检测指标的指标类型为第二类型,则说明指标异常时指标值会变小,因此在第一指标值集合和第二指标值集合中,将集合中心值较小的集合确定为问题指标值集合,第二类型的指标可以举例为系统的资源使用率等。

(a3)将问题指标值集合中的指标值确定为问题指标值。

具体地,在确定问题指标值集合之后,就可以将问题指标值集合中的指标值确定为问题指标值。相应地,本实施例中,在第一指标值集合和第二指标值集合中确定问题指标值集合后,第一指标值集合和第二指标值集合中剩余的指标值集合可以作为正常指标值集合,正常指标值集合中的指标值即为正常指标值。

在确定问题指标值之后,执行上述步骤s106。上述步骤s106中,若问题指标值对应的监控时间点满足待检测指标对应的异常值时间分布规律,则确定待检测指标异常,将问题指标值作为待检测指标的异常指标值。

具体地,由于指标时序数据包括多个监控时间点和各个监控时间点分别对应的指标值,并且该指标值中包括问题指标值,因此本实施例中,可以在指标时序数据中确定问题指标值对应的监控时间点,从而判断问题指标值对应的监控时间点是否满足待检测指标对应的异常值时间分布规律,待检测指标对应的异常值时间分布规律包括但不限于,异常值随时间连续分布、或者,异常值对应的时间点呈现特定周期性分布等。本实施例中,若问题指标值对应的监控时间点满足待检测指标对应的异常值时间分布规律,则确定待检测指标异常,并将问题指标值作为待检测指标的异常指标值。

一个具体的实施例中,上述步骤s106具体为:若问题指标值对应的监控时间点在时间维度上连续分布,则确定待检测指标异常。具体地,该实施例中,待检测指标对应的异常值时间分布规律为异常值随时间连续分布,因此判断问题指标值对应的监控时间点是否在时间维度上连续分布,若在时间维度上连续分布,则确定待检测指标异常,并将问题指标值作为待检测指标的异常指标值。

另一个具体的实施例中,上述步骤s106具体为:若问题指标值对应的监控时间点在时间维度上呈现特定周期性分布,则确定待检测指标异常。具体地,该实施例中,待检测指标对应的异常值时间分布规律为异常值对应的时间点呈现特定周期性分布,因此判断问题指标值对应的监控时间点是否在时间维度上呈现特定周期性分布,若在时间维度上呈现特定周期性分布,则确定待检测指标异常,并将问题指标值作为待检测指标的异常指标值。其中,特定周期性分布包括但不限于正弦分布、正态分布等等,特定周期性分布的具体分布形态可以与待检测指标相对应,由待检测指标的指标属性决定。

图3为本申请另一实施例提供的数据异常检测方法的流程示意图,如图3所示,该流程在图2的基础上,还包括:

步骤s108,若问题指标值对应的监控时间点不满足待检测指标对应的异常值时间分布规律,则确定问题指标值对应的监控时间点之间的时间间隔,根据监控时间点位于该时间间隔内的正常指标值的数量,判断待检测指标是否异常;其中,正常指标值为指标值中除问题指标值以外的指标值。

具体地,以待检测指标对应的异常值时间分布规律为异常值随时间连续分布为例,若问题指标值对应的监控时间点不满足待检测指标对应的异常值时间分布规律,也即若问题指标值对应的监控时间点在时间维度上不为连续分布,则根据待检测指标对应的指标时序数据,确定问题指标值对应的监控时间点之间的时间间隔,并根据待检测指标对应的指标时序数据,确定监控时间点位于该时间间隔内的正常指标值以及该正常指标值的数量,并根据该确定的正常指标值的数量判断待检测指标是否异常。其中,正常指标值为指标值中除问题指标值以外的指标值。

具体地,以待检测指标对应的异常值时间分布规律为异常值对应的时间点呈现特定周期性分布为例,若问题指标值对应的监控时间点不满足待检测指标对应的异常值时间分布规律,也即若问题指标值对应的监控时间点在时间维度上不呈现特定周期性分布,则根据待检测指标对应的指标时序数据,确定问题指标值对应的监控时间点之间的时间间隔,并根据待检测指标对应的指标时序数据,确定监控时间点位于该时间间隔内的正常指标值以及该正常指标值的数量,并根据该确定的正常指标值的数量判断待检测指标是否异常。其中,正常指标值为指标值中除问题指标值以外的指标值。

上述步骤s108中,根据监控时间点位于该时间间隔内的正常指标值的数量,判断待检测指标是否异常,具体为:若该正常指标值的数量大于数量阈值,则确定待检测指标正常,将问题指标值作为待检测指标的抖动值;若该正常指标值的数量不大于数量阈值,则确定待检测指标异常,并将问题指标值作为待检测指标的异常指标值。

具体地,以待检测指标对应的异常值时间分布规律为异常值随时间连续分布为例,若问题指标值对应的监控时间点在时间维度上不为连续分布,并且时间维度上问题指标值之间的正常指标值的数量大于数量阈值,则可以确定问题指标值为正常出现的抖动值,因此确定待检测指标正常,将问题指标值作为待检测指标的抖动值,反之,若时间维度上问题指标值之间的正常指标值的数量小于数量阈值,则可以确定待检测指标确实出现异常而导致正常指标值数量较少,因此确定待检测指标异常,并将问题指标值作为待检测指标的异常指标值。

具体地,以待检测指标对应的异常值时间分布规律为异常值对应的时间点呈现特定周期性分布为例,若问题指标值对应的监控时间点在时间维度上不呈现特定周期性分布,并且时间维度上问题指标值之间的正常指标值的数量大于数量阈值,则可以确定问题指标值为正常出现的抖动值,因此确定待检测指标正常,将问题指标值作为待检测指标的抖动值,反之,若时间维度上问题指标值之间的正常指标值的数量小于数量阈值,则可以确定待检测指标确实出现异常而导致正常指标值数量较少,因此确定待检测指标异常,并将问题指标值作为待检测指标的异常指标值。

下面以待检测指标对应的异常值时间分布规律为异常值随时间连续分布为例,具体说明本实施例中的方法过程。能够理解,待检测指标对应的异常值时间分布规律为异常值对应的时间点呈现特定周期性分布的具体过程与该过程类似,不再重复描述。

图4为本申请一实施例提供的指标时序数据的示意图,如图4所示,该指标时序数据中在14点40分之后,指标值明显升高,并且假定图4中的指标类型为上述的第一类型,也即指标异常时指标值变大的指标类型。因此,通过本实施例中的方法,能够将图4中的指标值聚类为第一指标值集合和第二指标值集合,其中第一指标值集合包含的指标值的大小较小,如图4中的左半部虚线框所示,第二指标值集合包含的指标值的大小较大,如图4中的右半部虚线框所示。由于图4中的指标类型为上述的第一类型,因此第二指标值集合中的指标值为问题指标值,由于问题指标值在时间维度上连续分布,因此确定待检测指标异常,问题指标值为待检测指标的异常指标值。

图5为本申请一实施例提供的指标时序数据的示意图,如图5所示,该指标时序数据中在14点40分之后,指标值存在明显升高,并且假定图5中的指标类型为上述的第一类型,也即指标异常时指标值变大的指标类型。因此,通过本实施例中的方法,能够将图5中的指标值聚类为第一指标值集合和第二指标值集合,其中第一指标值集合包含的指标值的大小较小,如图5中的下半部虚线框所示,第二指标值集合包含的指标值的大小较大,如图5中的上半部虚线框所示。由于图5中的指标类型为上述的第一类型,因此第二指标值集合中的指标值为问题指标值,第一指标值集合中的指标值为正常指标值,由于问题指标值在时间维度上不连续分布,并且问题指标值之间的正常指标值的数量大于数量阈值,因此确定待检测指标正常,将问题指标值作为待检测指标的抖动值。

可见,通过本实施例中的数据异常检测方法,能够基于待检测指标对应的异常值时间分布规律,自动确定指标数据是否出现异常,从而提高指标排查效率。

本实施例中,考虑到待检测指标的指标值平滑上升或平滑下降的情况可能为正常情况,为避免这种正常情况对上述方法流程的干扰,在上述步骤s104通过数据聚类的方式,在指标值中确定问题指标值之前,还可以:计算指标时序数据中监控时间点相邻的每两个指标值之间的数值大小变化率;通过数据聚类的方式,在指标值中确定问题指标值,具体为:若计算结果中包括大于变化率阈值的数值大小变化率,则通过数据聚类的方式,在指标值中确定问题指标值。

具体地,假设指标值a和指标值b为监控时间点相邻的两个指标值,其中,a的时间点在b的时间点之前,则数值大小变化率可以为(a-b)/b*100%。计算指标时序数据中监控时间点相邻的每两个指标值之间的数值大小变化率,若计算得到的每个数值大小变化率均不大于变化率阈值,如2%,则确定待检测指标的指标时序数据呈现平滑上升或平滑下降趋势,确定待检测指标正常,若计算得到的各个数值大小变化率中包括大于变化率阈值的数值大小变化率,则确定待检测指标可能出现异常,并执行步骤s104,进一步确定待检测指标是否异常。其中,变化率阈值为预先设置的值,可以为2%或其他值。

本实施例中,通过在步骤s104之前计算指标时序数据中监控时间点相邻的每两个指标值之间的数值大小变化率,能够排除待检测指标的指标值平滑上升或平滑下降的情况,从而准确确定待检测指标是否异常。

图6为本申请另一实施例提供的数据异常检测方法的流程示意图,如图6所示,该流程包括:

步骤s602,获取待检测指标对应的指标时序数据;其中,指标时序数据包括多个监控时间点和各个监控时间点分别对应的指标值;

步骤s604,计算指标时序数据中监控时间点相邻的每两个指标值之间的数值大小变化率;

步骤s606,检查计算结果中是否包含大于变化率阈值的数值大小变化率;

若包含,则执行步骤s608,否则执行步骤s616。

步骤s608,利用k-means数据聚类算法,将指标时序数据中的指标值聚类为第一指标值集合和第二指标值集合;

步骤s610,根据待检测指标的指标类型、第一指标值集合的集合中心值大小和第二指标值集合的集合中心值大小,在第一指标值集合和第二指标值集合中确定问题指标值集合和正常指标值集合;

步骤s612,根据指标时序数据判断问题指标值集合中的问题指标值对应的监控时间点在时间维度上是否连续分布;

若不是,执行步骤s614,否则,执行步骤s618。

步骤s614,根据指标时序数据判断时间维度上问题指标值之间的正常指标值的数量是否大于数量阈值;

若大于,则执行步骤s616,否则,执行步骤s618。

步骤s616,确定待检测指标正常。

步骤s618,确定待检测指标异常。

本实施例中,在确定待检测指标异常后,还能够在指标时序数据中分析得到时间维度上第一个异常值和第一个异常值对应的监控时间点,从而根据第一个异常值和第一个异常值对应的监控时间点分析产品故障。

综上,通过本实施例中的数据异常检测方法,不要求指标值满足正态分布,不需要对指标值进行人工标注,基于待检测指标对应的异常值时间分布规律,就能够自动确定指标数据是否出现异常,并且能够自动判断指标中的抖动噪声数据,从而提高数据异常检测效率和准确率,提高指标排查效率。

对应上述的数据异常检测方法,本申请实施例还提供了一种数据异常检测装置,用于实现上述的数据异常检测方法。图7为本申请一实施例提供的数据异常检测装置的模块组成示意图,如图7所示,该装置包括:

数据获取模块71,用于获取待检测指标对应的指标时序数据;其中,所述指标时序数据包括多个监控时间点和各个所述监控时间点分别对应的指标值;

问题确定模块72,用于通过数据聚类的方式,在所述指标值中确定问题指标值;

第一异常判断模块73,用于若所述问题指标值对应的监控时间点满足所述待检测指标对应的异常值时间分布规律,则确定所述待检测指标异常,将所述问题指标值作为所述待检测指标的异常指标值。

可选地,所述问题确定模块72具体用于:

以所述指标值中的最大指标值和最小指标值作为聚类中心,利用数据聚类算法将所述指标值聚类为第一指标值集合和第二指标值集合;

根据所述待检测指标的指标类型、所述第一指标值集合的集合中心值大小和所述第二指标值集合的集合中心值大小,在所述第一指标值集合和所述第二指标值集合中确定问题指标值集合;

将所述问题指标值集合中的指标值确定为问题指标值。

可选地,所述问题确定模块72还具体用于:

若所述待检测指标的指标类型为第一类型,则在所述第一指标值集合和所述第二指标值集合中,将集合中心值较大的集合确定为问题指标值集合;

若所述待检测指标的指标类型为第二类型,则在所述第一指标值集合和所述第二指标值集合中,将集合中心值较小的集合确定为问题指标值集合;

其中,所述第一类型为指标异常时指标值变大的指标类型,所述第二类型为指标异常时指标值变小的指标类型。

可选地,所述第一异常判断模块73具体用于:

若所述问题指标值对应的监控时间点在时间维度上连续分布,则确定所述待检测指标异常。

可选地,还包括第二异常判断模块,用于:

若所述问题指标值对应的监控时间点不满足所述待检测指标对应的异常值时间分布规律,则确定所述问题指标值对应的监控时间点之间的时间间隔,根据监控时间点位于所述时间间隔内的正常指标值的数量,判断所述待检测指标是否异常;其中,所述正常指标值为所述指标值中除所述问题指标值以外的指标值。

可选地,所述第二异常判断模块具体用于:

若所述正常指标值的数量大于数量阈值,则确定所述待检测指标正常,将所述问题指标值作为所述待检测指标的抖动值;

若所述正常指标值的数量不大于数量阈值,则确定所述待检测指标异常,并将所述问题指标值作为所述待检测指标的异常指标值。

可选地,还包括:变化率确定模块,用于:

在通过数据聚类的方式,在所述指标值中确定问题指标值之前,计算所述指标时序数据中监控时间点相邻的每两个指标值之间的数值大小变化率;

所述问题确定模块具体用于:

若计算结果中包括大于变化率阈值的所述数值大小变化率,则通过数据聚类的方式,在所述指标值中确定问题指标值。

本申请实施例中,首先,获取待检测指标对应的指标时序数据,其中,指标时序数据包括多个监控时间点和各个监控时间点分别对应的指标值,然后,通过数据聚类的方式,在上述指标值中确定问题指标值,最后,若问题指标值对应的监控时间点满足待检测指标对应的异常值时间分布规律,则确定待检测指标异常,将问题指标值作为待检测指标的异常指标值。可见,通过本实施例,能够自动确定指标数据是否出现异常,从而提高指标排查效率。

需要说明的是,本申请实施例中的数据异常检测装置能够实现前述的数据异常检测方法实施例中的各个过程,并达到相同的效果和功能,这里不再重复。

进一步地,本申请实施例还提供了一种数据异常检测设备,图8为本申请一实施例提供的数据异常检测设备的结构示意图,如图8所示,数据异常检测设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器901和存储器902,存储器902中可以存储有一个或一个以上存储应用程序或数据。其中,存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对数据异常检测设备中的一系列计算机可执行指令。更进一步地,处理器901可以设置为与存储器902通信,在数据异常检测设备上执行存储器902中的一系列计算机可执行指令。数据异常检测设备还可以包括一个或一个以上电源903,一个或一个以上有线或无线网络接口904,一个或一个以上输入输出接口905,一个或一个以上键盘906等。

本实施例中,数据异常检测设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现上述的数据异常检测方法的步骤。

在一个具体的实施例中,数据异常检测设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据异常检测设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:

获取待检测指标对应的指标时序数据;其中,所述指标时序数据包括多个监控时间点和各个所述监控时间点分别对应的指标值;

通过数据聚类的方式,在所述指标值中确定问题指标值;

若所述问题指标值对应的监控时间点满足所述待检测指标对应的异常值时间分布规律,则确定所述待检测指标异常,将所述问题指标值作为所述待检测指标的异常指标值。

可选地,计算机可执行指令在被执行时,通过数据聚类的方式,在所述指标值中确定问题指标值,包括:

以所述指标值中的最大指标值和最小指标值作为聚类中心,利用数据聚类算法将所述指标值聚类为第一指标值集合和第二指标值集合;

根据所述待检测指标的指标类型、所述第一指标值集合的集合中心值大小和所述第二指标值集合的集合中心值大小,在所述第一指标值集合和所述第二指标值集合中确定问题指标值集合;

将所述问题指标值集合中的指标值确定为问题指标值。

可选地,计算机可执行指令在被执行时,根据所述待检测指标的指标类型、所述第一指标值集合的集合中心值大小和所述第二指标值集合的集合中心值大小,在所述第一指标值集合和所述第二指标值集合中确定问题指标值集合,包括:

若所述待检测指标的指标类型为第一类型,则在所述第一指标值集合和所述第二指标值集合中,将集合中心值较大的集合确定为问题指标值集合;

若所述待检测指标的指标类型为第二类型,则在所述第一指标值集合和所述第二指标值集合中,将集合中心值较小的集合确定为问题指标值集合;

其中,所述第一类型为指标异常时指标值变大的指标类型,所述第二类型为指标异常时指标值变小的指标类型。

可选地,计算机可执行指令在被执行时,若所述问题指标值对应的监控时间点满足所述待检测指标对应的异常值时间分布规律,则确定所述待检测指标异常,包括:

若所述问题指标值对应的监控时间点在时间维度上连续分布,则确定所述待检测指标异常。

可选地,计算机可执行指令在被执行时,还包括:

若所述问题指标值对应的监控时间点不满足所述待检测指标对应的异常值时间分布规律,则确定所述问题指标值对应的监控时间点之间的时间间隔,根据监控时间点位于所述时间间隔内的正常指标值的数量,判断所述待检测指标是否异常;其中,所述正常指标值为所述指标值中除所述问题指标值以外的指标值。

可选地,计算机可执行指令在被执行时,根据监控时间点位于所述时间间隔内的正常指标值的数量,判断所述待检测指标是否异常,包括:

若所述正常指标值的数量大于数量阈值,则确定所述待检测指标正常,将所述问题指标值作为所述待检测指标的抖动值;

若所述正常指标值的数量不大于数量阈值,则确定所述待检测指标异常,并将所述问题指标值作为所述待检测指标的异常指标值。

可选地,计算机可执行指令在被执行时,在通过数据聚类的方式,在所述指标值中确定问题指标值之前,还包括:

计算所述指标时序数据中监控时间点相邻的每两个指标值之间的数值大小变化率;

通过数据聚类的方式,在所述指标值中确定问题指标值,包括:

若计算结果中包括大于变化率阈值的所述数值大小变化率,则通过数据聚类的方式,在所述指标值中确定问题指标值。

本申请实施例中,首先,获取待检测指标对应的指标时序数据,其中,指标时序数据包括多个监控时间点和各个监控时间点分别对应的指标值,然后,通过数据聚类的方式,在上述指标值中确定问题指标值,最后,若问题指标值对应的监控时间点满足待检测指标对应的异常值时间分布规律,则确定待检测指标异常,将问题指标值作为待检测指标的异常指标值。可见,通过本实施例,能够自动确定指标数据是否出现异常,从而提高指标排查效率。

需要说明的是,本申请实施例中的数据异常检测设备能够实现前述的数据异常检测方法实施例中的各个过程,并达到相同的效果和功能,这里不再重复。

进一步地,本申请实施例还提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现上述所述的数据异常检测方法的步骤。一种具体的实施例中,该存储介质可以为u盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:

获取待检测指标对应的指标时序数据;其中,所述指标时序数据包括多个监控时间点和各个所述监控时间点分别对应的指标值;

通过数据聚类的方式,在所述指标值中确定问题指标值;

若所述问题指标值对应的监控时间点满足所述待检测指标对应的异常值时间分布规律,则确定所述待检测指标异常,将所述问题指标值作为所述待检测指标的异常指标值。

可选地,该存储介质存储的计算机可执行指令在被处理器执行时,通过数据聚类的方式,在所述指标值中确定问题指标值,包括:

以所述指标值中的最大指标值和最小指标值作为聚类中心,利用数据聚类算法将所述指标值聚类为第一指标值集合和第二指标值集合;

根据所述待检测指标的指标类型、所述第一指标值集合的集合中心值大小和所述第二指标值集合的集合中心值大小,在所述第一指标值集合和所述第二指标值集合中确定问题指标值集合;

将所述问题指标值集合中的指标值确定为问题指标值。

可选地,该存储介质存储的计算机可执行指令在被处理器执行时,根据所述待检测指标的指标类型、所述第一指标值集合的集合中心值大小和所述第二指标值集合的集合中心值大小,在所述第一指标值集合和所述第二指标值集合中确定问题指标值集合,包括:

若所述待检测指标的指标类型为第一类型,则在所述第一指标值集合和所述第二指标值集合中,将集合中心值较大的集合确定为问题指标值集合;

若所述待检测指标的指标类型为第二类型,则在所述第一指标值集合和所述第二指标值集合中,将集合中心值较小的集合确定为问题指标值集合;

其中,所述第一类型为指标异常时指标值变大的指标类型,所述第二类型为指标异常时指标值变小的指标类型。

可选地,该存储介质存储的计算机可执行指令在被处理器执行时,若所述问题指标值对应的监控时间点满足所述待检测指标对应的异常值时间分布规律,则确定所述待检测指标异常,包括:

若所述问题指标值对应的监控时间点在时间维度上连续分布,则确定所述待检测指标异常。

可选地,该存储介质存储的计算机可执行指令在被处理器执行时,还包括:

若所述问题指标值对应的监控时间点不满足所述待检测指标对应的异常值时间分布规律,则确定所述问题指标值对应的监控时间点之间的时间间隔,根据监控时间点位于所述时间间隔内的正常指标值的数量,判断所述待检测指标是否异常;其中,所述正常指标值为所述指标值中除所述问题指标值以外的指标值。

可选地,该存储介质存储的计算机可执行指令在被处理器执行时,根据监控时间点位于所述时间间隔内的正常指标值的数量,判断所述待检测指标是否异常,包括:

若所述正常指标值的数量大于数量阈值,则确定所述待检测指标正常,将所述问题指标值作为所述待检测指标的抖动值;

若所述正常指标值的数量不大于数量阈值,则确定所述待检测指标异常,并将所述问题指标值作为所述待检测指标的异常指标值。

可选地,该存储介质存储的计算机可执行指令在被处理器执行时,在通过数据聚类的方式,在所述指标值中确定问题指标值之前,还包括:

计算所述指标时序数据中监控时间点相邻的每两个指标值之间的数值大小变化率;

通过数据聚类的方式,在所述指标值中确定问题指标值,包括:

若计算结果中包括大于变化率阈值的所述数值大小变化率,则通过数据聚类的方式,在所述指标值中确定问题指标值。

本申请实施例中,首先,获取待检测指标对应的指标时序数据,其中,指标时序数据包括多个监控时间点和各个监控时间点分别对应的指标值,然后,通过数据聚类的方式,在上述指标值中确定问题指标值,最后,若问题指标值对应的监控时间点满足待检测指标对应的异常值时间分布规律,则确定待检测指标异常,将问题指标值作为待检测指标的异常指标值。可见,通过本实施例,能够自动确定指标数据是否出现异常,从而提高指标排查效率。

需要说明的是,本申请实施例中的存储介质能够实现前述的数据异常检测方法实施例中的各个过程,并达到相同的效果和功能,这里不再重复。

在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegatearray,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardwaredescriptionlanguage,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等,目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1