一种基于时空图神经网络的多时段时间序列的异常检测方法

文档序号:39997138发布日期:2024-11-15 14:54阅读:25来源:国知局
一种基于时空图神经网络的多时段时间序列的异常检测方法

本发明属于电子信息,尤其是一种基于时空图神经网络的多时段时间序列的异常检测方法。


背景技术:

1、时间序列异常检测是计算机科学和数据挖掘中一个非常重要的领域。在工业场景中,由于未检测到的故障可能导致严重损坏,因此必须要具备异常检测的能力。设备实体容易发生故障,这意味着有效的异常检测可以提高系统的可用性和可靠性。异常状态没有被检测到会直接影响生产效率,造成运营和维护成本上升。因此,在电力系统、网络设备、汽车、制造、能源或工业传感器网络等多个真实的工业场景中可以找到该主题的许多研究。

2、近年来,由于工业4.0和物联网的发展,技术为公司提供了更高效、更可靠的监控系统。通过这种方式,工业的设备实体配备了多个传感器,这些传感器形成了一个多传感器系统。这些系统使数据收集更加简单,所以现在可以获得更多数量和质量的数据。因此,用于时间序列异常检测的机器学习技术激增。然而工业的设备实体是复杂的,并且经常使用大量的传感器,并且这些设备实体中的许多执行动作由多个事件组成,这使得检测异常变得更加困难。因为必须考虑每个事件发生在时间序列的哪个部分。因此,在一个时间序列中可能存在不同的行为,它可以被视为单个动作中特定于上下文的异常。而且已知的故障可以被建模和检测,不可预见的问题没有定义,因此有很多更难检测的异常只能靠专业人员的经验来判断系统是否正常运行。

3、然而在已有的异常检测方案中,误报率居高与及时性不足依然存在。所以用户对于提高系统稳定性监控与异常提前预警的需求越来越高。当系统发生故障时,故障研判的快速性和准确性不仅影响到用户的使用体验和利益,还关系到系统运营者的经营业绩与服务水平,因此及时判断故障位置,最大限度缩短故障抢修时间,恢复服务,对减少用户等待时间、提升服务可靠性及用户满意度至关重要。

4、本发明在多时段预测结果融合算法时使用所属技术领域中常用的两个指标:准确率和皮尔逊相关系数,分别定义如下:

5、(1)准确率:本发明使用均方根误差衡量预测算法的准确率,该值表示算法预测结果与实际值的差距,准确率越高则算法预测效果越好,公式如下:

6、

7、其中,a表示引入了均方根误差的准确率,mse()表示均方根误差,yi表示第i个时刻的实际值,表示第i个时刻的预测值,n表示样本中时刻点的数量。

8、(2)皮尔逊相关系数:该指标由下列公式定义:

9、

10、其中,r为皮尔逊相关系数,xi为输入特征值,为输入特征平均数,yi为预测日数据特征值,为预测日数据特征值的平均数,m1为输入时刻值的个数。

11、综上所述,为了克服现有技术中存在的上述不足,即:

12、1.随着技术和生产关系的发展,各种网络状系统中的设备实体表现出数量多、种类杂、分布广、关联关系复杂的现状,因而数据常常会因为设备本体故障、传输数据丢失等原因,造成部分关键性信息缺失或异常,需要对相关数据进行识别、补充和调整。

13、2.单变量时间序列异常检测算法能够发现单个指标的异常,但是在判断整个系统是否正常运行时没有明确地捕捉不同时间序列之间的关系,会不可避免的出现误报。

14、3.传统模型仅仅采用近期数据进行研判,忽视系统运行的周期性,会出现将周期性的运行状态变动认作为系统运行异常,出现误报造成人力物力的损失。

15、综上所述,本领域技术人员急需要解决以上配网故障判断中的技术问题。


技术实现思路

1、本发明所要解决的技术问题是提供一种基于时间序列的异常检测方法。

2、为解决上述技术问题,本发明是通过以下技术方案实现的:

3、本发明提供一种基于时空图神经网络的多时段时间序列的异常检测方法,包括下列步骤:

4、步骤s1:将相互协作的设备实体构建图模型,采集每个设备实体的多变量时间序列并对每个单独的时间序列执行数据标准化和基于密度分布的异常值调整;

5、步骤s2:构建基于多时段的双残差时空图注意力网络模型,输入经过预处理的多变量时间序列数据分别得到基于不同历史周期数据的多分量预测结果;

6、步骤s3:将输入不同周期数据的多分量模型预测结果使用多时段预测结果融合算法得到最终的预测结果。

7、在该方法中,所述步骤s2中的基于多时段的双残差时空图注意力网络模型进一步包括:

8、步骤s21:构建基于残差网络的并行时空特征提取模型,学习多变量时间序列在特征和时间维度上的复杂依赖性;

9、步骤s22:构建基于双残差网络的长时间序列预测模型,使用门控突出重要信息,再根据系统的拓扑结构全局学习节点设备实体状态以增强特征,通过双残差加深网络以提高预测精度。

10、作为优选方案,所述基于密度分布的异常值调整算法具体如下:

11、

12、其中,xi为一个时间序列中第i个时刻点的数据,m()是取中位数的运算表达式,r是异常值检测的宽容距离,x′是时间序列数据x中数值前25%较大的数据,|x′|是x′中数据的个数,r是时间序列数据x中数值按升序排第75%的数值。

13、作为优选方案,所述基于多时段的双残差时空图注意力网络模型使用多组件结构作为学习不同周期时间模式的模型结构,该模型由三个具有相同结构的独立组件结构构成,分别输入近期数据、日周期数据和周周期数据。每个独立的组件结构都堆叠了相同数量的时空块,这使得模型能够获得相同级别的时空特征,并在稍后的融合过程中与其他两个组件结构的分量预测结果进行有效的融合得到最终的预测结果。每个独立组件包括两个部分:基于残差网络的并行时空特征提取模型和基于双残差网络的长时间序列预测模型。

14、近期数据是几乎所有预测模型都使用的一种常见历史数据,然而系统中实体设备往往会在时间模式上具有不同的强周期性,这种周期性数据对提高预测精度非常有帮助。因为天气及用户使用习惯会使得前一日的实体设备数据能为当前预测提供较好的参考价值,又考虑到工作日与休息日相比实体设备运行状态会存在一些差异,为了填补这一空白,有必要将每周的相同一天的实体设备数据也输入预测模型提高预测精度。所以本专利选取预测日临近时刻点实体设备数据为近期数据、预测日前一天的实体设备数据为日周期数据、预测日前第7天的实体设备数据为周周期数据。

15、在本模型中设t0、tp和s分别表示当前时间、预测窗口大小和单位日中实体数据的数量。取近期数据、日周期数据和周周期数据中当前时间前相同长度的时间序列作为每个独立组件的输入,分别记为tr,td,tw。以下详细介绍输入模型的三个时期数据:

16、(1)近期数据:指预测日当前时间附近的历史数据。由于实体的运行异常一般存在前兆,所以近期数据对于异常检测与预测结果将会提供重要的参考信息。

17、(2)日周期数据:指预测日当前时间前一天对应时间段的历史数据。因为实体运行可能会在相同的一段时间内显示出一致或相似的运行状态,所以本专利选择这一段数据作为共同预测的一部分,来捕获日周期数据与预测日的相似特征。

18、(3)周周期数据:指预测日当前时间前第七天对应时间段的历史数据。因为对于工作日与休息日,实体的运行状态会出现明显的变化,所以选择类似时间段的数据可以有效提高预测准确率。特别的,若周周期数据与预测日数据不属于相同的时间类型,则选择周周期数据最近的相同时间类型数据。

19、作为优选方案,所述基于残差网络的并行时空特征提取模型包括一个时间卷积网络层、平行的面向特征的图注意力网络和面向时间的informer网络以及一个残差卷积。首先将经过预处理的多变量时间序列数据输入到时间卷积网络中来提取每个时间序列的高层特征;时间卷积网络的输出由平行的面向特征的图注意力网络和面向时间的informer网络分别且同时处理,捕获充分且丰富的时空特征;将时间卷积网络的输出和平行层的输出进行拼接融合,输入到第一个残差网络中。面向特征的图注意力网络捕获多个特征之间的因果关系,将每个单变量时间序列视为一个单独的特征,并尝试明确地对不同特征之间的相关性进行建模。同时,面向时间的informer层强调时间维度上的依赖关系,对每个时间序列内的时间依赖性进行建模。通过这个平行的网络层来学习多变量时间序列在特征和时间维度上的复杂依赖性。残差网络连接到平行层与时间注意力层的融合层后。确保本模型不仅能够捕获类似于其他新兴网络的动态时空特征,而且能够加深它们。图注意力网络和时间卷积层提供了动态捕获功能,并使用残差卷积来有效地防止网络退化和梯度消失。此外,图注意力网络可以缓解网络加深过程中过度平滑的影响,而图神经卷积网络无法缓解该问题。为了提高模型的中长期预测能力,注意机制和时间序列预测的协同使用可以在大的感受野中提取有效的时空特征。注意力机制过滤掉不同数据中的冗余信息,从而让模型更好地扩大感受野。由于简单的堆叠方式,在网络加深过程中存在不可逆的信息丢失,导致网络退化和梯度消失。此外,由于单一特征,图神经网络可能会遇到过度平滑的问题。当简单叠加使用残差结构后造成残差不允许网络继续加深,因为残差结构在很大程度上缺乏衍生特征的丰富性。为了解决这些问题,本专利提出的基于残差网络的并行时空特征提取模型使网络既能抵抗加深的信息丢失又能增强特征,捕获到充分且丰富时空特征。

20、作为优选方案,所述基于双残差网络的长时间序列预测模型包括一个门控循环单元(gated recurrent unit,gru)层、一个面向全局的图注意力层和一个残差卷积,步骤s22中该模型的残差卷积与步骤s21中的残差共同构成双残差卷积。第一个卷积连接到融合层后的残差网络,第二个残差连接到整个独立组件的输出。gru的输入是步骤s22中第一个残差的输出,从长时间序列中突出重要信息,解决长时间序列中的长依赖问题。接着将gru的结果输入面向全局的图注意力层来学习整个系统的拓扑结构,根据该系统的各设备实体间协作关系,更新每个实体状态信息,减少单一设备实体数据可能存在的数据误报、漏报造成的研判错误。最后将面向全局的图注意力网络输出连接到第二个残差网络。

21、作为优选方案,所述多时段预测结果融合算法如下:

22、

23、其中,fr、fd、fw分别为使用近期数据、日周期数据和周周期数据模型得到的预测结果,wc为融合矩阵,wr、wd、ww分别为fr、fd、fw对应预测结果的融合权重参数矩阵,y是最终融合后的预测结果,α∈{r,d,w},分别计算三个模型预测结果的融合权重参数矩阵的初始值,aα是模型预测结果的历史准确率,rα是模型使用的历史数据与预测数据的皮尔逊相似度,j是和wα大小一致的全1矩阵。

24、总体来说,本发明的有益技术效果为:本发明提供的一种基于时空图神经网络的多时段时间序列的异常检测方法,建立了基于密度分布的异常值调整算法,有效的处理了设备实体数据的关键性信息缺失或异常;构建了基于多时段的双残差时空图注意力网络模型,包括基于残差网络的并行时空特征提取模型和基于双残差网络的长时间序列预测模型,提升了系统异常检测的及时性和准确率,有效辅助用户进行系统维护;提出了多时段预测结果融合算法,设置初始值并自适应地学习分量权重,以实现更准确的预测。其相较于现有技术的优点在于:

25、(1)本发明提出了基于密度分布的异常值调整算法。异常值可能会对模型的准确性和效率造成很大影响,本发明可以更好地提高数据质量,识别数据中的潜在问题,减少因异常值带来的错误分析和决策,也提高了数据分析的效率,从而提高模型的准确性和性能。

26、(2)本发明提出了基于多时段的双残差时空图注意力网络模型,相比传统模型使网络既能抵抗加深的信息丢失又能增强特征,捕获到充分且丰富时空特征。输入多元的历史周期数据增加了模型的泛化能力,充分考虑了系统运行状态的周期性,减少周期性变化带来的误报。

27、(3)本发明提出了多时段预测结果融合算法。当预测时间与使用的历史数据存在较高的匹配度时,需要突出对应模型的预测结果。该算法先确定融合矩阵的初始值并自适应地从数据中自主学习分量权重,相比随机初始化矩阵实现了更准确的预测和更快的训练速度。

28、(4)本发明在电网故障研判、网络设备运行状态监控等各种呈网络状的系统中具有广阔的应用前景。

29、下面结合附图对本发明的具体实施方式作进一步的描述。本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1