作业异常检测方法、装置、电子设备及存储介质与流程

文档序号:31662219发布日期:2022-09-27 23:17阅读:56来源:国知局
作业异常检测方法、装置、电子设备及存储介质与流程

1.本技术涉及计算机技术领域,尤其涉及一种作业异常检测方法、装置、电子设备及存储介质。


背景技术:

2.随着作业系统的业务不断发展,业务数据量激增,调度作业量增长迅速,核心作业的延迟、失败、数据量异常都会直接或间接造成资损事故。例如,以每天业务峰值监控为例,若采用传统的静态阈值或同环比策略进行监控,在业务的趋势起伏周期性变化下会产生大量误报。随着调度作业质量要求越来越高,导致作业指标监控能力要求也越来越高。
3.现有传统作业异常监控基本都是基于规则,依靠人工和简单的同比环比等绝对值算法以判断作业是否异常,根据业务专家经验设定阈值报警。然而现有传统作业异常监控的通用性很差,难以适应业务发展,容易产生漏报,造成生产事故和大量误报增加运维成本,同时用户需要对每个调度作业的多个指标单独配置相应的规则,给运维和开发都带来巨大的挑战。


技术实现要素:

4.为了解决上述技术问题,本技术实施例提供了一种作业异常检测方法、装置、电子设备及存储介质。
5.第一方面,本技术实施例提供了一种作业异常检测方法,所述方法包括:
6.根据待训练指标获取待训练任务,获取所述待训练任务对应的待训练模型;
7.通过所述待训练模型加载所述待训练指标的时序元数据进行训练,得到异常检测模型;
8.通过数据分类模型判断待检测数据源是否具有周期性;
9.若所述待检测数据源具有周期性,则通过分解算法将所述待检测数据源分解为趋势信号、周期信号及残差信号;
10.基于滚动窗口提取所述待检测数据源的作业行数数据的统计学特征;
11.通过所述异常检测模型基于所述残差信号和所述统计学特征确定作业异常数据。
12.在一实施方式中,所述方法还包括:
13.判断所述作业异常数据对应的作业与已推送告警信息的作业之间是否存在最短路径;
14.若存在最短路径,则不针对所述作业异常数据对应的作业推送告警信息;
15.若不存在最短路径,则针对所述作业异常数据对应的作业推送告警信息。
16.在一实施方式中,所述判断所述作业异常数据对应的作业与已推送告警信息的作业之间是否存在最短路径,包括:
17.确定所述作业异常数据对应的作业与已推送告警信息的作业之间的作业依赖关系;
18.根据所述作业依赖关系判断所述作业异常数据对应的作业与已推送告警信息的作业之间是否存在最短路径;
19.若所述作业依赖关系为直接依赖关系,则确定所述作业异常数据对应的作业与已推送告警信息的作业之间存在最短路径。
20.在一实施方式中,所述根据待训练指标获取待训练任务,包括:
21.定时轮询指标表,从所述指标表中确定待训练指标;
22.根据所述待训练指标生成训练任务,将所述训练任务插入训练任务表;
23.调用服务启动所述训练任务表中的待训练任务。
24.在一实施方式中,所述方法还包括:
25.将所述异常检测模型存入分布式存储系统;
26.对所述训练任务表中的所述待训练任务的训练状态和指标类型进行更新。
27.在一实施方式中,获取所述待检测数据源,包括:
28.从接入方系统获取原始数据源,将所述原始数据源按照预设数据格式进行存储;
29.对所述原始数据源进行降噪处理,得到所述待检测数据源。
30.在一实施方式中,所述对所述原始数据源进行降噪处理,包括:
31.采用平滑函数对所述原始数据源进行平滑处理。
32.第二方面,本技术实施例提供了一种作业异常检测装置,所述装置包括:
33.获取模块,用于根据待训练指标获取待训练任务,获取所述待训练任务对应的待训练模型;
34.训练模块,用于通过所述待训练模型加载所述待训练指标的时序元数据进行训练,得到异常检测模型;
35.判断模块,用于通过数据分类模型判断待检测数据源是否具有周期性;
36.分解模块,用于若所述待检测数据源具有周期性,则通过分解算法将所述待检测数据源分解为趋势信号、周期信号及残差信号;
37.提取模块,用于基于滚动窗口提取所述待检测数据源的作业行数数据的统计学特征;
38.确定模块,用于通过所述异常检测模型基于所述残差信号和所述统计学特征确定作业异常数据。
39.第三方面,本技术实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的作业异常检测方法。
40.第四方面,本技术实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的作业异常检测方法。
41.上述本技术提供的作业异常检测方法,根据待训练指标获取待训练任务,获取所述待训练任务对应的待训练模型;通过所述待训练模型加载所述待训练指标的时序元数据进行训练,得到异常检测模型;通过数据分类模型判断待检测数据源是否具有周期性;若所述待检测数据源具有周期性,则通过分解算法将所述待检测数据源分解为趋势信号、周期信号及残差信号;基于滚动窗口提取所述待检测数据源的作业行数数据的统计学特征;通过所述异常检测模型基于所述残差信号和所述统计学特征确定作业异常数据。这样,可在
不降低漏报的情况下将误报率降低90%以上,采用方便快捷的推送方式,可使用户及时发现作业异常,避免生产问题。作业异常检测过程极具通用性,对任何接入方系统只需将数据映射到相应指标即可进行作业异常检测,提升作业异常监控的精召率,降低人工成本。
附图说明
42.为了更清楚地说明本技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对本技术保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
43.图1示出了本技术实施例提供的作业异常检测方法的一流程示意图;
44.图2示出了本技术实施例提供的作业异常检测方法的另一流程示意图;
45.图3示出了本技术实施例提供的作业异常检测装置的一结构示意图。
46.图标:300-作业异常检测装置,301-获取模块,302-训练模块,303-判断模块,304-分解模块,305-提取模块,306-确定模块。
具体实施方式
47.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。
48.通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
49.在下文中,可在本技术的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
50.此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
51.除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本技术的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本技术的各种实施例中被清楚地限定。
52.实施例1
53.本公开实施例提供了一种作业异常检测方法。
54.具体的,参见图1,作业异常检测方法包括:
55.步骤s101,根据待训练指标获取待训练任务,获取所述待训练任务对应的待训练模型。
56.在本实施例中,作业异常检测方法可以应用于作业异常检测系统,该作业异常检
测系统与接入方系统通信连接,可以对接入方系统的初始数据源进行作业异常检测。指标可以为预先设置的指标,例如,指标可以为作业时长,作业起始时间、作业结束时间、作业数量、作业效率等指标,待训练指标是指从预先设置的指标中确定的需要进行训练的指标。
57.在一实施方式中,步骤s101中的所述根据待训练指标获取待训练任务,包括:
58.定时轮询指标表,从所述指标表中确定待训练指标;
59.根据所述待训练指标生成训练任务,将所述训练任务插入训练任务表;
60.调用服务启动所述训练任务表中的待训练任务。
61.在本实施例中,指标表用于存储作业过程相关的各类指标。作业异常检测系统的管理平台定时轮询指标表,将需要训练的指标生成训练任务,并将训练任务插入训练任务表中,并调用服务启动训练任务。其中,服务是一个后台运行的组件,执行长时间运行且不需要用户交互的任务。即使应用被销毁也依然可以工作。在本实施例中,服务可以用于调用并执行待训练任务。
62.步骤s102,通过所述待训练模型加载所述待训练指标的时序元数据进行训练,得到异常检测模型。
63.在本实施例中,待训练指标的时序元数据可以为作业时长,作业起始时间、作业结束时间、作业数量等指标的时序元数据。根据各时间序列的历史数据,利用深度学习、统计学、频域分析、不平衡样本学习、迁移学习的思想训练一个或多个模型组合,可以在覆盖真实故障事件的基础上,减少规则所带来的误报率,同时提高运维人员的工作效率。
64.在一实施方式中,作业异常检测方法还包括:
65.将所述异常检测模型存入分布式存储系统;
66.对所述训练任务表中的所述待训练任务的训练状态和指标类型进行更新。
67.在本实施例中,分布式存储系统(hadoop distributed file system,hdfs)是一个高度容错性的系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。将所述异常检测模型存入分布式存储系统,便于读取异常检测模型。
68.在本实施例中,训练状态可以包括训练完成和未训练两种状态,指标类型可以根据用于训练的时序元数据确定,例如,用于训练的时序元数据为作业起始时间,则指标类型为作业起始时间。
69.步骤s103,通过数据分类模型判断待检测数据源是否具有周期性。
70.在本实施例中,将接入方系统的待测数据源输入数据分类模型,通过数据分类模型实时对待测数据源进行消费,识别数据源的周期性。例如,从作业起始时间至作业结束时间识别为一个周期。数据分类模型可以是支持向量机svm。
71.在一实施方式中,获取所述待检测数据源,包括:
72.从接入方系统获取原始数据源,将所述原始数据源按照预设数据格式进行存储;
73.对所述原始数据源进行降噪处理,得到所述待检测数据源。
74.可以理解的是,不同指标类型的原始数据源有不同的存储格式,可以按照不同预设数据格式存储对应的原始数据源。
75.在一实施方式中,所述对所述原始数据源进行降噪处理,包括:
76.采用平滑函数对所述原始数据源进行平滑处理。
77.这样,使用平滑函数对数据进行平滑处理,可以降低原始数据源的噪声,提升模型
的效果。
78.步骤s104,若所述待检测数据源具有周期性,则通过分解算法将所述待检测数据源分解为趋势信号、周期信号及残差信号。
79.在本实施例中,分解算法可以为经典分解算法(class decomposition)、加性模型分解算法、乘性模型分解算法、x11分解算法。
80.在本实施例中,对周期性时序元数据进行周期分解,通过分解算法将原始数据源分解成趋势信号、周期信号及残差信号共3项,最后获取残差信号作为输入,非周期的时序元数据不做处理。
81.步骤s105,基于滚动窗口提取所述待检测数据源的作业行数数据的统计学特征。
82.在本实施例中,采用特征工程,基于滚动窗口提取作业行数数据的统计学特征,滚动窗口的尺寸可以根据需求自定义设置,在此不做限制。
83.步骤s106,通过所述异常检测模型基于所述残差信号和所述统计学特征确定作业异常数据。
84.在本实施例中,作业行数数据的统计学特征包括均值、标准差等。使用异常检测模型对待检测数据进行预测,判断当前时刻数据是否异常,从而确定作业异常数据。作业异常检测系统可以为通过机器学习和神经网络算法自动检测时间序列中异常值的智能异常检测平台,作为监控系统的下游系统,提升作业告警精召率,同时可拓展运用到其他时序性的指标监控。
85.请参阅图2,作业异常检测方法还包括:
86.步骤s107,判断所述作业异常数据对应的作业与已推送告警信息的作业之间是否存在最短路径。
87.在本实施例中,可以根据作业依赖关系确定作业异常数据对应的作业与已推送告警信息的作业之间是否存在最短路径。
88.在一实施方式中,步骤s107可以包括:
89.确定所述作业异常数据对应的作业与已推送告警信息的作业之间的作业依赖关系;
90.根据所述作业依赖关系判断所述作业异常数据对应的作业与已推送告警信息的作业之间是否存在最短路径;
91.若所述作业依赖关系为直接依赖关系,则确定所述作业异常数据对应的作业与已推送告警信息的作业之间存在最短路径。
92.补充说明的是,若所述作业依赖关系为间接依赖关系,则确定所述作业异常数据对应的作业与已推送告警信息的作业之间不存在最短路径。作业依赖关系也可以称为作业血缘依赖。
93.步骤s108,若存在最短路径,则不针对所述作业异常数据对应的作业推送告警信息。
94.步骤s109,若不存在最短路径,则针对所述作业异常数据对应的作业推送告警信息。
95.在本实施例中,结合作业血缘依赖做告警聚合。告警聚合过程如下:循环遍历当天已触发告警的所有作业,查看当前的作业异常数据对应的作业与当天已告警的任意作业之
间是否存在最短路径,若存在最短路径则不推送告警信息。若不存在最短路径,则推送告警信息。告警信息输出到监控平台,并使用指定的推送方式发送给用户,具体的可以通过电话、短信和邮件等方式将告警信息通知相应用户。此外,还可以根据根据用户反馈的告警结果反馈优化异常检测模型。这样,告警聚合可进一步降低告警量,用户反馈数据反哺优化异常检测模型,提升异常检测模型的效果,可监控作业延迟、作业数据行数等符合时序特征的指标。
96.本实施例提供的作业异常检测方法,根据待训练指标获取待训练任务,获取所述待训练任务对应的待训练模型;通过所述待训练模型加载所述待训练指标的时序元数据进行训练,得到异常检测模型;通过数据分类模型判断待检测数据源是否具有周期性;若所述待检测数据源具有周期性,则通过分解算法将所述待检测数据源分解为趋势信号、周期信号及残差信号;基于滚动窗口提取所述待检测数据源的作业行数数据的统计学特征;通过所述异常检测模型基于所述残差信号和所述统计学特征确定作业异常数据。这样,可在不降低漏报的情况下将误报率降低90%以上,采用方便快捷的推送方式,可使用户及时发现作业异常,避免生产问题。作业异常检测过程极具通用性,对任何接入方系统只需将数据映射到相应指标即可进行作业异常检测,提升作业异常监控的精召率,降低人工成本。
97.实施例2
98.此外,本公开实施例提供了一种作业异常检测装置。
99.具体的,如图3所示,作业异常检测装置300包括:
100.获取模块301,用于根据待训练指标获取待训练任务,获取所述待训练任务对应的待训练模型;
101.训练模块302,用于通过所述待训练模型加载所述待训练指标的时序元数据进行训练,得到异常检测模型;
102.判断模块303,用于通过数据分类模型判断待检测数据源是否具有周期性;
103.分解模块304,用于若所述待检测数据源具有周期性,则通过分解算法将所述待检测数据源分解为趋势信号、周期信号及残差信号;
104.提取模块305,用于基于滚动窗口提取所述待检测数据源的作业行数数据的统计学特征;
105.确定模块306,用于通过所述异常检测模型基于所述残差信号和所述统计学特征确定作业异常数据。
106.在一实施方式中,判断模块303,还用于判断所述作业异常数据对应的作业与已推送告警信息的作业之间是否存在最短路径;
107.若存在最短路径,则不针对所述作业异常数据对应的作业推送告警信息;
108.若不存在最短路径,则针对所述作业异常数据对应的作业推送告警信息。
109.在一实施方式中,判断模块303,还用于确定所述作业异常数据对应的作业与已推送告警信息的作业之间的作业依赖关系;
110.根据所述作业依赖关系判断所述作业异常数据对应的作业与已推送告警信息的作业之间是否存在最短路径;
111.若所述作业依赖关系为直接依赖关系,则确定所述作业异常数据对应的作业与已推送告警信息的作业之间存在最短路径。
112.在一实施方式中,获取模块301,还用于定时轮询指标表,从所述指标表中确定待训练指标;
113.根据所述待训练指标生成训练任务,将所述训练任务插入训练任务表;
114.调用服务启动所述训练任务表中的待训练任务。
115.在一实施方式中,作业异常检测装置300还包括:
116.存储模块,用于将所述异常检测模型存入分布式存储系统;
117.更新模块,用于对所述训练任务表中的所述待训练任务的训练状态和指标类型进行更新。
118.在一实施方式中,作业异常检测装置300还包括:
119.降噪模块,用于从接入方系统获取原始数据源,将所述原始数据源按照预设数据格式进行存储;
120.对所述原始数据源进行降噪处理,得到所述待检测数据源。
121.在一实施方式中,降噪模块,还用于采用平滑函数对所述原始数据源进行平滑处理,得到所述待检测数据源。
122.本实施例提供的作业异常检测装置300可以实现实施例1所提供的作业异常检测方法,为避免重复,在此不再赘述。
123.本实施例提供的作业异常检测装置,根据待训练指标获取待训练任务,获取所述待训练任务对应的待训练模型;通过所述待训练模型加载所述待训练指标的时序元数据进行训练,得到异常检测模型;通过数据分类模型判断待检测数据源是否具有周期性;若所述待检测数据源具有周期性,则通过分解算法将所述待检测数据源分解为趋势信号、周期信号及残差信号;基于滚动窗口提取所述待检测数据源的作业行数数据的统计学特征;通过所述异常检测模型基于所述残差信号和所述统计学特征确定作业异常数据。这样,可在不降低漏报的情况下将误报率降低90%以上,采用方便快捷的推送方式,可使用户及时发现作业异常,避免生产问题。作业异常检测过程极具通用性,对任何接入方系统只需将数据映射到相应指标即可进行作业异常检测,提升作业异常监控的精召率,降低人工成本。
124.实施例3
125.此外,本公开实施例提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行实施例1所提供的作业异常检测方法。
126.本实施例提供的电子设备可以实现实施例1所提供的作业异常检测方法,为避免重复,在此不再赘述。
127.本实施例提供的电子设备,根据待训练指标获取待训练任务,获取所述待训练任务对应的待训练模型;通过所述待训练模型加载所述待训练指标的时序元数据进行训练,得到异常检测模型;通过数据分类模型判断待检测数据源是否具有周期性;若所述待检测数据源具有周期性,则通过分解算法将所述待检测数据源分解为趋势信号、周期信号及残差信号;基于滚动窗口提取所述待检测数据源的作业行数数据的统计学特征;通过所述异常检测模型基于所述残差信号和所述统计学特征确定作业异常数据。这样,可在不降低漏报的情况下将误报率降低90%以上,采用方便快捷的推送方式,可使用户及时发现作业异常,避免生产问题。作业异常检测过程极具通用性,对任何接入方系统只需将数据映射到相
应指标即可进行作业异常检测,提升作业异常监控的精召率,降低人工成本。
128.实施例4
129.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现实施例1所提供的作业异常检测方法。
130.在本实施例中,计算机可读存储介质可以为只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
131.本实施例提供的计算机可读存储介质可以实现实施例1所提供的作业异常检测方法,为避免重复,在此不再赘述。
132.本实施例提供的计算机可读存储介质,根据待训练指标获取待训练任务,获取所述待训练任务对应的待训练模型;通过所述待训练模型加载所述待训练指标的时序元数据进行训练,得到异常检测模型;通过数据分类模型判断待检测数据源是否具有周期性;若所述待检测数据源具有周期性,则通过分解算法将所述待检测数据源分解为趋势信号、周期信号及残差信号;基于滚动窗口提取所述待检测数据源的作业行数数据的统计学特征;通过所述异常检测模型基于所述残差信号和所述统计学特征确定作业异常数据。这样,可在不降低漏报的情况下将误报率降低90%以上,采用方便快捷的推送方式,可使用户及时发现作业异常,避免生产问题。作业异常检测过程极具通用性,对任何接入方系统只需将数据映射到相应指标即可进行作业异常检测,提升作业异常监控的精召率,降低人工成本。
133.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
134.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
135.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1