数据漂移的检测方法、装置、终端及存储介质与流程

文档序号:34858303发布日期:2023-07-23 01:42阅读:19来源:国知局
数据漂移的检测方法、装置、终端及存储介质

本发明涉及数据,尤其涉及一种数据漂移的检测方法、装置、终端及存储介质。


背景技术:

1、随着大数据和机器学习技术的发展,很多相关模型被应用到实际生产环境当中处理实时数据。但随着数据模型的使用,数据模型的性能会发生退化,导致此现象的原因在于所处理数据的分布发生了变化,即数据漂移。

2、目前的大部分漂移检测方法需要依赖数据的真实标注,一些无监督的漂移检测算法又存在检测多维数据时计算开销大的问题,因此急需一种使用方便且节省计算资源的漂移检测方法。


技术实现思路

1、本发明实施例提供了一种数据漂移的检测方法、装置、终端及存储介质,以解决进行数据漂移检测的计算开销大的问题。

2、第一方面,本发明实施例提供了一种数据漂移的检测方法,包括:

3、通过参考窗口在历史数据中选取训练数据,通过检测窗口在实时数据中选取待检测数据;

4、通过训练数据和无监督学习算法对神经网络模型进行训练,得到经过训练的神经网络模型;其中,神经网络模型包括输入层、隐含层和输出层,用于提取待检测数据的标签;

5、采用经过训练的神经网络模型的输入层和隐含层对待检测数据进行特征提取,得到待检测数据的多项融合特征的值;

6、选取对于标签的重要性程度排名前m位的k项融合特征作为差异判断特征;其中,k为预设值,m小于等于k;

7、对各项差异判断特征进行假设检验,并基于假设检验结果得到数据漂移的检测结果。

8、在一种可能的实现方式中,在对各项差异判断特征进行假设检验,并基于假设检验结果得到数据漂移的检测结果之后,还包括:

9、若检测结果为未发生数据漂移,则在训练数据中随机剔除n条历史数据,并加入n条新的历史数据,得到更新后的训练数据,以及获取更新后的待检测数据;其中,n为预设值;

10、通过更新后的训练数据和无监督学习算法对神经网络模型进行训练,得到更新后的神经网络模型;

11、采用更新后的神经网络模型的输入层和隐含层对更新后的待检测数据进行特征提取,得到更新后的待检测数据的多项融合特征的值;

12、选取对于标签的重要性程度排名前m位的k项融合特征作为更新后的差异判断特征;

13、对各项更新后的差异判断特征进行假设检验,并基于假设检验结果得到数据漂移的检测结果。

14、在一种可能的实现方式中,在选取对于标签的重要性程度排名前m位的k项融合特征作为差异判断特征之前,还包括:

15、针对每条待检测数据,计算该条待检测数据的各项融合特征的shap值;

16、针对每项融合特征,基于该项融合特征的各shap值确定该项融合特征对于标签的重要性程度值;

17、按照重要性程度值从大到小的排序方式对各项融合特征进行排序。

18、在一种可能的实现方式中,针对每条待检测数据,计算该条待检测数据的各项融合特征的shap值包括:

19、将该条待检测数据的各项融合特征的值输入解释模型,得到该条待检测数据的各项融合特征的shap值;其中,解释模型以融合特征的值为输入,以融合特征的shap值为输出。

20、在一种可能的实现方式中,针对每项融合特征,基于该项融合特征的各shap值确定该项融合特征对于标签的重要性程度值包括:

21、针对每项融合特征,计算该项融合特征的各shap值的绝对值的平均值,作为该项融合特征对于标签的重要性程度值。

22、在一种可能的实现方式中,对各项差异判断特征进行假设检验,并基于假设检验结果得到数据漂移的检测结果包括:

23、采用ks假设检验方法对各项差异判断特征进行差异性检测,得到各项差异判断特征的差异值;

24、若存在差异判断特征的差异值大于预设阈值,则判定数据漂移的检测结果为存在数据漂移。

25、在一种可能的实现方式中,差异值为p值,预设阈值为显著性水平。

26、第二方面,本发明实施例提供了一种数据漂移的检测装置,包括:

27、获取模块,用于通过参考窗口在历史数据中选取训练数据,通过检测窗口在实时数据中选取待检测数据;

28、训练模块,用于通过训练数据和无监督学习算法对神经网络模型进行训练,得到经过训练的神经网络模型;其中,神经网络模型包括输入层、隐含层和输出层,用于提取待检测数据的标签;

29、提取模块,用于采用经过训练的神经网络模型的输入层和隐含层对待检测数据进行特征提取,得到待检测数据的多项融合特征的值;

30、选取模块,用于选取对于标签的重要性程度排名前m位的k项融合特征作为差异判断特征;其中,k为预设值,m小于等于k;

31、检测模块,用于对各项差异判断特征进行假设检验,并基于假设检验结果得到数据漂移的检测结果。

32、第三方面,本发明实施例提供了一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

33、第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

34、本发明实施例提供的基于可解释性的漂移检测方法、装置、终端及存储介质的有益效果在于:

35、本发明使用无监督学习算法对神经网络模型进行训练,无需使用经过标注的训练数据,然后通过神经网络模型的中间层提取待检测数据的特征,能够对待检测数据进行降维和特征融合,增强了特征之间的影响关系,最后利用特征的重要性程度对特征进行筛选,减少了特征的规模。与传统的有监督漂移检测算法相比,本发明利用了神经网络模型的中间层进行特征提取,以及利用特征对预测结果的重要性确定重要特征,通过重要特征的分布变化判断当前的数据是否出现漂移,从而以较低的计算开销进行数据漂移检测,同时能够摆脱对真实标注的依赖。



技术特征:

1.一种数据漂移的检测方法,其特征在于,包括:

2.根据权利要求1所述的数据漂移的检测方法,其特征在于,在所述对各项差异判断特征进行假设检验,并基于假设检验结果得到数据漂移的检测结果之后,还包括:

3.根据权利要求1所述的数据漂移的检测方法,其特征在于,在所述选取对于标签的重要性程度排名前m位的k项融合特征作为差异判断特征之前,还包括:

4.根据权利要求3所述的数据漂移的检测方法,其特征在于,所述针对每条待检测数据,计算该条待检测数据的各项融合特征的shap值包括:

5.根据权利要求3所述的数据漂移的检测方法,其特征在于,所述针对每项融合特征,基于该项融合特征的各shap值确定该项融合特征对于标签的重要性程度值包括:

6.根据权利要求1所述的数据漂移的检测方法,其特征在于,所述对各项差异判断特征进行假设检验,并基于假设检验结果得到数据漂移的检测结果包括:

7.根据权利要求6所述的数据漂移的检测方法,其特征在于,所述差异值为p值,所述预设阈值为显著性水平。

8.一种数据漂移的检测装置,其特征在于,包括:

9.一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上的权利要求1至7中任一项所述方法的步骤。


技术总结
本发明提供一种数据漂移的检测方法、装置、终端及存储介质。该方法包括:通过参考窗口在历史数据中选取训练数据,通过检测窗口在实时数据中选取待检测数据;通过训练数据和无监督学习算法对神经网络模型进行训练,得到经过训练的神经网络模型;采用经过训练的神经网络模型的输入层和隐含层对待检测数据进行特征提取,得到待检测数据的多项融合特征的值;选取对于标签的重要性程度排名前m位的k项融合特征作为差异判断特征;对各项差异判断特征进行假设检验,并基于假设检验结果得到数据漂移的检测结果。本发明能够以较低的计算开销进行数据漂移检测,同时能够摆脱对真实标注的依赖。

技术研发人员:郝亮,倪振兴,王磊,王凯军,鲍亮,魏晓飞,张周斌,张丛灿,刘丽冉
受保护的技术使用者:河钢数字技术股份有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1