本技术涉及人工智能领域,尤其涉及一种数据处理方法、装置、设备以及存储介质。
背景技术:
1、随着互联网技术(internet technology,it)系统逐渐复杂,且其稳定性和可靠性对企业业务甚至社会生活的影响越来越大,因此需要更加高效和可靠的运维工具来保障系统的稳定性和安全性。
2、随着业务不断拓展,数据监测能力有极大挑战:不同的业务数据需要不同的监测指标和监测维度。同时不同业务数据具有不同的数据特征,这样导致传统监测方法效果不佳、人工配置阈值工作量极大、设定阈值需长时间人力优化等问题。
3、因此目前亟需提供一种在节省人力的情况下,还可以提高数据监测效果的方案。
技术实现思路
1、本技术实施例提供了一种数据处理方法、装置、设备以及存储介质,用于在节省人力的情况下,实现对数据进行精确监测和预警。
2、有鉴于此,本技术一方面提供一种数据处理方法,包括:获取历史业务数据;提取该历史业务数据对应的数据特征,该数据特征用于指示该历史业务数据的数据分布情况;根据该数据特征确定该历史业务数据对应的数据监测模型;利用该历史业务数据训练得到该数据监测模型的模型参数和预警参数,该预警参数为确定业务数据出现异常的评估阈值,该模型参数包括但不限于模型类型和监测方式;利用该模型参数和该预警参数对该业务数据进行异常检测。
3、本技术另一方面提供一种数据处理装置,包括:获取模块,用于获取历史业务数据;
4、处理模块,用于提取该历史业务数据对应的数据特征,该数据特征用于指示该历史业务数据的数据分布情况;根据该数据特征确定该历史业务数据对应的数据监测模型;
5、训练模块,用于利用该历史业务数据训练得到该数据监测模型的模型参数和预警参数,该预警参数为确定业务数据出现异常的评估阈值,该模型参数包括但不限于模型类型和监测方式;
6、该处理模块,用于利用该模型参数和该预警参数对该业务数据进行异常检测。
7、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该历史业务数据的数据特征至少包括脉冲型数据、锯齿型数据、连续波动型数据和连续稳定型数据,该处理模块,具体用于在该历史业务数据的数据特征为脉冲型数据时,确定该数据监测模型为单点阈值比较模型,该预警参数为该脉冲型数据的整体阈值范围,该单点阈值比较模型的监测方式为取当前数据点的取值与该脉冲型数据的整体阈值范围进行判断;
8、在该历史业务数据的数据特征为锯齿型数据时,确定该数据监测模型为单点阈值比较模型,该预警参数为该锯齿型数据中不同水位的阈值范围,该单点阈值比较模型的监测方式为取当前数据点的取值与其所处水位对应的阈值范围进行判断;
9、在该历史业务数据的数据特征为连续波动型数据或者连续稳定型数据时,确定该数据监测模型为突升突降分数比较模型,该预警参数为突升突降分数的阈值范围,该突升突降分数比较模型的监测方式为取当前数据点的环比前n个点进行突升突降分数判断。
10、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该训练模块,具体用于利用该历史业务数据训练得到该数据监测模型的阈值范围和/或上下水位以及该模型参数,将该阈值范围和/或上下水位作为该预警参数。
11、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该训练模块,具体用于对该历史业务数据进行预处理得到中间数据集合;对该中间数据集合进行平均处理得到第一总体均值,并对该中间数据集合进行标准差处理得到第一标准差;
12、对该第一总体均值和该第一标准差进行正态拟合,得到第一阈值范围;
13、删除超出该第一阈值范围内的异常点得到第二差值集合;
14、对该第二差值集合进行平均处理得到第二总体均值,并对该第二差值集合进行标准差处理得到第二标准差;
15、对该第二总体均值和该第二标准差进行正态拟合,得到第二阈值范围;
16、删除超出该第二阈值范围内的异常点得到第三差值集合;
17、重复上述操作,直至无异常点,以得到目标阈值范围,该目标阈值范围的上限值和下限值作为该阈值范围或者该突升空降分数的阈值范围。
18、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
19、该训练模块,用于获取该历史业务数据对应的预测值集合和真实值集合;
20、对该预测值集合和该真实值集合进行差值处理得到第一差值集合,该第一差值集合作为该中间数据集合;
21、或者,
22、该训练模块,用于将该历史业务数据对应的真实值集合作为该中间数据集合;
23、或者,
24、该训练模块,用于获取该历史业务数据对应的突升突降分数集合,该突升突降分数集合作为该中间数据集合。
25、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该训练模块,具体用于对该历史业务数据按照真实值由小大到的排序进行排序得到第一数据列;
26、以该第一数据列中的第k个数据点为切分点将该第一数据列分为第二数据列和第三数据列,该k为大于1的正整数;
27、对该第二数据列和该第三数据列分别进行方差处理得到第一方差值和第二方差值;
28、对该第一方差值和该第二方差值求和得到该第k个数据点的统计量;
29、重复上述操作得到该第一数据列对应的统计量集合;
30、基于该统计量集合中的最小统计量对应的数据点将该第一数据列进行切分,得到该历史业务数据对应的第一数据列和第二数据列,其中该第一数据列的最小值大于该第二数据列的最大值;确定该第一数据列所处的水位作为该历史业务数据的上水位,该第二数据列所处的水位作为该历史业务数据的下水位。
31、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该处理模块,还用于对该历史业务数据进行数据平滑处理,以剔除该历史业务数据的趋势特征得到第一数据,该第一数据保留该历史业务数据的波动特征;
32、对该第一数据进行面板数据处理得到第二数据;
33、对该第二数据基于方差切分处理,以剔除异常点得到第三数据,该第三数据为一维时间序列数据;
34、利用奇偶分组交叉验证对该第三数据进行时间分段,以得到该历史业务数据的至少两个数据段;
35、该训练模块,还用于利用该至少两个数据段分别训练得到该数据监测模型的至少两组模型参数和预警参数。
36、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,在该历史业务数据的数据特征为连续波动型数据或者连续稳定型数据时,该预警参数还包括同比阈值范围参数,该突升突降分数比较模型的监测方式为取当前数据点的环比前x个点进行突升突降分数判断,且取当前数据点的同比y个点进行同比阈值范围判断;
37、或者,
38、在该历史业务数据的数据特征为连续波动型数据或者连续稳定型数据时,该预警参数还包括同比阈值范围参数以及节假日阈值范围参数,该突升突降分数比较模型的监测方式为取当前数据点的环比前x个点进行突升突降分数判断,且取当前数据点的同比y个点进行同比阈值范围判断,且取节假日的同比z个点进行节假日阈值范围判断,该x、该y和该z为正整数。
39、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该处理模块,具体用于获取该历史业务数据中连续n个数据点对应的变点集合,该连续n个数据点为对目标数据点进行预测处理时的参考数据点,该目标数据点为该连续n个数据点中第n个数据点之后的第一个数据点,该n为正整数;
40、根据该变点集合中的各个变点对该连续n个数据点进行分段得到至少一个数据段;
41、对该至少一个数据段中的最后一个数据段进行线性回归处理得到该目标数据点的预测值;
42、根据该目标数据点的预测值与该目标数据点的真实值得到差值;
43、重复上述操作得到该历史业务数据对应的差值集合;
44、对该差值集合进行核密度估计算法和高斯混合模型处理得到对应的数据分布信息;
45、根据该数据分布信息确定该历史业务数据对应的数据特征。
46、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该处理模块,具体用于在该数据分布信息指示该差值集合中的差值符合白噪声分布时,确定该历史业务数据的数据特征为脉冲型数据;
47、在该数据分布信息指示该差值集合中的差值满足至少两种分布类型且该至少两种分布类型间隔排布且持续时长超过阈值,则确定该历史业务数据的数据特征为锯齿型数据;
48、在该数据分布信息指示该差值集合中的差值为至少两种正态分布,则确定该历史业务数据的数据特征为连续波动型数据;
49、在该数据分布信息指示该差值集合中的差值为一种正态分布,则确定该历史业务数据的数据特征为连续平稳型数据。
50、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该处理模块,具体用于对该至少一个数据段中的最后一个数据段进行去噪处理,删除该最后一个数据段中的异常数据点得到平滑数据段;
51、对该平滑数据段进行线性回归处理得到该目标数据点的预测值。
52、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该处理模块,具体用于获取该连续n个数据点中第i个数据点的第一分数,该第一分数为指示该第i个数据点在突升突降趋势的评价分数,其中,该第一分数大于0则指示该第i个数据点具有突升趋势,该第一分数小于0则指示该第i个数据点具有突降趋势;
53、根据该第一分数确定该第i个数据点的分类结果,该分类结果用于指示该第i个数据点是否为变点;
54、在该分类结果指示该第i个数据点为变点时,记录该第i个数据点为变点;
55、重复上述操作,遍历该连续n个数据点得到该连续n个数据点对应的候选变点集合;
56、利用该候选变点集合对该连续n个数据点进行分段得到至少一个数据段;
57、确定该至少一个数据段的水位落差以及斜率变化信息;
58、根据该水位落差以及该斜率变化信息对该候选变点集合中各个变点进行合并处理得到该变点集合。
59、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该处理模块,具体用于利用mad去噪删除该连续n个数据点中第一个数据点至第i-1个数据点的异常值得到平滑数据以及删除该第一数据点至该第i-1个数据点中的最大值和最小值之后的第一数据;
60、利用线性回归处理得到该平滑数据对应的预测值集合以及该第i个数据点的预测值;
61、对该平滑数据的预测值集合和该平滑数据的真实值集合进行残差处理得到残差标准差;
62、根据该残差标准差、该第i个数据点的真实值以及该第i个数据点的预测值确定该第一分数。
63、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该处理模块,具体用于获取该第i个数据点对应的当前段长度;
64、在该当前段长度小于2时,清空突升突降分数以及当前段长度;
65、在该当前段长度大于或等于2,该第一分数大于或等于上限值,或者小于或等于下限值,且该第i个数据点之前无变点或者变点之后的突升突降分数为0,则记录该第i个数据点的位置以及该第一分数,更新当前段长度为1;
66、在该当前段长度大于或等于2,该第一分数大于或等于该上限值,或者小于或等于该下限值,且该第i个数据点之前记载的突升突降分数的符号与该第一分数的符号相同时,更则将该当前段长度加1且确定该第i-1个数据点为变点;
67、在该当前段长度大于或等于2,该第一分数大于或等于该上限值,或者小于或等于该下限值,且该第i个数据点之前记载的突升突降分数的符号与该第一分数的符号不相同时,则记录该第i个数据点的位置以及该第一分数,更新该当前段长度为1;
68、在该当前段长度大于或等于2,该第一分数小于该上限值且大于该下限值,该第i个数据点之前记载的突升突降分数大于或等于该上限值,且该第i个数据点的取值大于该第一数据的最大值,则更新当前段长度为1;
69、在该当前段长度大于或等于2,该第一分数小于该上限值且大于该下限值,该第i个数据点之前记载的突升突降分数小于或等于该下限值,且该第i个数据点的取值小于该第一数据的最小值,则更新当前段长度为1;
70、在该当前段长度大于或等于2,该第一分数小于该上限值且大于该下限值,该第i个数据点之前记载的突升突降分数小于该上限值,或者该第i个数据点的取值小于或等于该第一数据的最大值,则更新突升突降分数和该当前段长度为0;
71、在该当前段长度大于或等于2,该第一分数小于该上限值且大于该下限值,该第i个数据点之前记载的突升突降分数大于该下限值,或者该第i个数据点的取值大于或等于该第一数据的最小值,则更新突升突降分数和该当前段长度为0。
72、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该处理模块,具体用于对该至少一个数据段中的第一数据段的相邻数据点的真实值进行差值处理得到第一间隔数据;
73、对该第一间隔数据进行去噪处理得到第二间隔数据;
74、对该第二间隔数据进行平均处理得到第三总体均值,并对该第二间隔数据集合中的每一个间隔数据进行差值处理得到第三标准差;
75、对该第三总体均值和该第三标准差进行正态拟合得到第三阈值范围;
76、根据该第三阈值范围删除该第二间隔数据中的异常点得到第三间隔数据;
77、根据该第三间隔数据得到数据间距标准统计量,该数据间隔标准统计量用于指示数据段间隔的基本量级;
78、根据该数据间隔标准统计量对该至第一数据段进行压缩处理得到第一压缩数列;
79、对该至少一个数据段中的其他数据段重复上述操作得到至少一个压缩数列;
80、对该至少一个压缩数据列分别进行线性回归处理得到压缩斜率集合,并对该至少一个压缩数据列分别进行均值处理得均值集合,将该压缩斜率集合作为该斜率变化信息,将该均值集合作为该水位落差。
81、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该候选变点集合中包括k个候选变点,该压缩斜率集合包括k+1个压缩斜率,该均值集合包括k+1个均值,该处理模块,具体用于遍历该压缩斜率集合中的第1个压缩斜率至第k个压缩斜率,在第i个压缩斜率的绝对值大于或等于1且该i等于该k时,将该第k个候选变点归于该变点集合;
82、在该第i个压缩斜率的绝对值大于或等于1,该i不等于该k,该第i个压缩斜率大于0且该第i-1个均值小于第i+1个均值时,将该第i个候选变点归于该变点集合;
83、在该第i个压缩斜率的绝对值大于或等于1,该i不等于该k,该第i个压缩斜率小于0且该第i-1个均值大于第i+1个均值时,将该第i个候选变点归于该变点集合;
84、在该第i个压缩斜率的绝对值小于1且该i等于该k时,获取第k-1个候选变点与第k个候选变点的第一数据段,以及该第k个变点之后的第二数据段;
85、获取该第一数据段中剔除极端值之后的第一最大值和第一最小值,以及该第二数据段中剔除极端值之后的第二最大值和第二最小值;
86、在该第一最大值小于该第二最小值或者该第一最小值大于该第二最大值时,将该第k个候选变点归于该变点集合。
87、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该获取模块,还用于获取实时业务数据;
88、该处理模块,还用于调用该实时业务数据对应的数据监测模型监测该实时业务数据;
89、在出现异常数据时,进行预警提示。
90、本技术另一方面提供一种计算机设备,包括:存储器、处理器以及总线系统;
91、其中,存储器用于存储程序;
92、处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面的方法;
93、总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
94、本技术的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
95、本技术的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
96、从以上技术方案可以看出,本技术实施例具有以下优点:针对不同的数据分布,采用不同的监测模型,同时,该数据监测模型可以根据历史数据训练得到模型参数和预警参数,这样使得模型参数和预警参数可以根据真实数据进行相应的调整,不再需要人工设置参数,这样可以更精确的对数据进行监测和告警。