一种基于差异性组件的时序异常检测方法

文档序号:35094136发布日期:2023-08-10 04:00阅读:160来源:国知局
一种基于差异性组件的时序异常检测方法

本发明属于深度学习,具体涉及一种基于差异性组件的时序异常检测方法,可以用于时序异常检测中。


背景技术:

1、早期的深度学习技术在图像分类、模式识别、目标跟踪等领域获得了很多优异的成绩,但是这些进展较为严重地依赖于人工标注的数据。在一些具体的应用场景中,比如时间序列异常检测、画作分类和医疗领域,会因为存在样本获取难度大或者样本数量本身较少和标注困难等问题,需要的时间和人力成本很大,这严重的阻碍了深度学习分类能力的发展。具体来说,由于一些任务中存在样本数量较少和网络过于复杂等原因,直接将深度学习技术用于这些任务容易产生过拟合现象,即训练准确率高而测试准确率低。选用合适的针对少量样本的深度学习模型,不仅可以降低训练的成本,并且缩短训练时间,还能够使一些复杂模型应用于新的类别,从而提高现有模型的应用范围。例如,在画作分类任务中,有些风格类型的画作由于历史原因,存世量较少,导致可用于分类训练的数据集样本较少,使得现有深度学习技术无法得到一个有效的分类模型去识别未知样本。这就需要建立针对少量样本的数据处理方法和分类学习模型。

2、目前已经有很多针对少样本分类的研究,主要有基于迁移学习的分类方法、基于数据增强和基于度量的分类方法的分类方法。

3、基于迁移学习的分类方法主要是先在标注好的大规模数据集上对基础网络进行训练,进而在小数据集上对训练好的模型参数进行微调。基于迁移学习的分类方法优点是:通过较大的数据集进行预训练,从而在小数据集上对模型进行微调,这样可以获得较好的分类结果。缺点是:当数据集中图像之间的类别差异较大时,就会导致模型分类的准确率降低。

4、基于数据增强的分类方法一般是通过对样本数据进行预处理,即旋转、变换等方式来达到扩充样本的目的。基于数据增强的分类方法优点是:可以在一定程度上扩大数据集中的样本数据量,缓解少样本学习中出现的过拟合问题。缺点是:由于整体标记数据量较小,导致数据扩充的方式有限,虽然能够在一定程度上提升训练效果,但也不能完全解决过拟合问题。

5、基于度量的方法更多的是基于卷积神经网络,图像的特征使用卷积神经网络进行提取,根据模型的度量规则以及样本类内与类间的距离或相似度进行样本类别的预测。基于度量的分类方法相较于前两种方法,度量学习能够快速、有效的进行学习。但是基于度量的分类方法在面对样本比较复杂、包含信息量较大的情况下,分类效果并不理想。

6、在时间序列数据中,异常数据与正常数据的分布往往是高度不平衡的,因此时间序列异常检测可以看作为不平衡数据集情况下的分类问题,使用深度学习算法对其进行学习训练时,由于异常数据和正常数据在数量上差异巨大,导致分类器对样本的关注度不足,无法学习到有效特征,分类结果倾向于大多数。

7、另外,在时间序列异常检测中必须处理少量带有标记数据的数据集,因此需要对时间序列数据进行扩充,但由于时间序列数据之间具有依赖关系、数据的非平稳性等特性,导致目前现有的数据增强方法并没有充分利用时间序列数据的内在特性。因此针对如何在少量带有标记的时间序列数据集中进行异常检测,仍然是一个挑战。

8、综上所述,需要本领域研究人员迫切解决的一个问题就是:在时序异常检测中,如何在仅有少量样本数据时,解决保证分类的准确率和分类效率。


技术实现思路

1、本发明克服现有技术存在的不足,所要解决的技术问题为:提供一种基于差异性组件的少量样本分类方法,可以应用于图像分类与时间序列异常检测中,并提高分类的准确性和分类效率。

2、为了解决上述技术问题,本发明采用的技术方案为:一种基于差异性组件的时序异常检测方法,包括以下步骤:

3、s1、获取已经标注好的时序数据样本,从中选择部分样本作为固定类型样本,并获取与其类型相同的同类样本和与其类型不同的异类样本,形成训练集和测试集;所述训练集和测试集中的样本不重复,且各个集合中同类样本和异类样本的数量相同;

4、s2、利用固定类型样本对训练集和测试集中的数据样本进行组合扩充,得到组合序列样本;

5、s3、将扩充后的训练集和测试集的组合序列数据样本分别输入差异性组件中对差异性组件进行训练和测试;所述差异性组件包括:

6、特征提取单元:用于对数据集中的组合序列样本中的各个样本分别进行特征提取得到特征图;

7、相似性计算单元:通过可学习的核对组合序列样本中的各个样本分通道进行距离相似性计算,得到各个通道的距离特征;

8、差异特征计算单元:通过各个通道的距离特征计算得到组合序列数据样本的差异特征;

9、s4、将差异性组件输出的差异特征图输入到前馈网络中进行训练得到时序异常分类器;

10、s5、将待测时序数据与固定类型样本组合得到待测类型样本,利用训练完成的差异性组件得到待测类型样本的差异性特征图,输入时序异常分类器中得到待测时序数据的类型。

11、优选地,所述步骤s2中,对数据样本进行扩充的方法为:

12、将各个集合中的各个时序样本与分别与固定类型样本中的每一个分别进行组合,得到包括两个样本的组合序列样本;

13、将两个序列样本同类的组合序列样本的标签设置为1,不同类的组合序列样本的标签设置为0。

14、优选地,所述步骤s3中,相似性计算单元进行距离相似性计算得到距离特征zi的计算公式为:

15、

16、其中,zi(u,v)表示距离特征zi在(u,v)位置的特征值,(x,y)表示像素位置坐标,表示随机选取项r中i通道(x,y)位置的像素值,ω(u-x,v-y)表示随机选取项r对应的可学习核w中(u-x,v-y)位置的参数值,t表示非r的项,表示项t中i通道(x,y)位置的像素值,ω(u-x',v-y)表示项t对应的可学习核w’中(u-x,v-y)位置的参数值,b为偏置,为激活函数,m表示通道数,n表示组合样本中项的个数。

17、优选地,所述步骤s3中,所述差异性组件通过交叉熵损失函数l来更新可学习核的参数,其表达式为:

18、

19、其中y表示真实标签,表示预测标签。

20、优选地,所述步骤s3中,差异特征计算单元通过距离特征计算得到差异特征的计算公式为:

21、

22、其中,u表示差异特征,q表示为距离系数,zi表示i通道的距离特征图。

23、优选地,所述步骤s2中,对数据样本进行扩充的方法为:将各个集合中的各个时序样本与分别与固定类型样本中的a个样本分别进行组合,得到包括a+1个样本的组合序列样本;所述a大于等于2;

24、所述步骤s3中,相似性计算单元计算各个通道的距离特征的方法为:

25、随机选取一个样本,利用距离公式分别计算其与剩余样本之间的距离,对结果求均值作为该通道的距离特征。

26、优选地,所述步骤s4中,所述步骤s4中,前馈网络采用的分类器为resnet分类器或mlp分类器。

27、优选地,所述步骤s1中,从正常时序数据样本中选取一部分作为固定类型样本,选取另一份部分样本作为同类样本,然后,从异常时序数据样本中选取一部分样本作为异类样本,选取同类样本和异类的样本数量相同。

28、本发明提出了一种基于差异性组件的时序异常检测方法。首先,对样本数据进行预处理,通过排列组合的方式构建多样本的新学习对象;其次,建立差异性组件,通过权重学习来缩小同类样本的差异,增大异类样本的差异,将组件结果传递给深度学习网络,使得后续网络中的输入特征能够被显著区分;最后,利用深度学习网络完成分类任务。本发明与现有技术相比具有以下有益效果:

29、(1)新的数据扩充方式:采用排列组合的方式,将原本的独立性样本变为相关性样本,扩充了样本数量的同时能够使模型学习到多个样本间的联系;

30、(2)本发明采用差异性组件提取组合样本的差异性特征,差异性组件可以与多种深度学习技术相结合,提高了分类的精度,并且能够实现在少样本学习中的应用;

31、(3)本发明有效的解决了目前少样本学习中所出现的复杂数据之间分类效果不理想的问题;

32、(4)本发明具有简单实用、分类准确率高的特点,其无需进行长时间的训练,能够高效的实现分类检测任务,还可以应用于绘画分类等其它少样本分类问题中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1