本发明涉及电力系统技术领域,具体为一种电力系统扰动分类方法,尤其涉及一种考虑pmu丢失数据的电力系统扰动分类方法。
背景技术:
随着电力系统规模的不断扩大以及大量电力电子设备的接入,使电网结构的复杂程度不断增加,电网安全问题也日渐突出。近年来,大停电事故频发,给社会经济发展和人们生活造成了巨大的影响。研究发现,大停电事故通常起始于单一故障,经过一系列连锁反应,最终导致电网崩溃。因此,对电力系统扰动的实时监测和分析,对电力系统安全稳定运行具有重要作用。同步相量测量单元(phasormeasurementunits,pmus)因其同步性、快速性和精确性,可为系统保护与闭环控制提供数据基础,使电力系统扰动实时监测成为可能。
目前,国内外学者对电力系统扰动分类的研究主要分为基于模型和基于数据的方法。基于模型的方法需要通过系统拓扑结构和参数来对电网建模,根据扰动触发机理,来实现扰动类型识别。然而对于复杂大系统而言,计算量很大,甚至可能无法解析。基于数据的方法通过对历史数据进行分析,得到数据与目标之间的非线性映射关系,来实现扰动类型识别。随着系统复杂程度的增加以及海量电力大数据的涌入,基于数据的方法逐渐成为更有效的分析方法。
现有方法大多是在pmu数据正常的假设上研究的,忽略了pmu数据质量的影响。然而,约有10%~17%的pmu数据存在不同程度的数据质量问题,这严重制约了其在电力系统扰动分类中的应用。
发明目的
本发明的目的是针对上述现有技术存在的不足,提供一种基于堆叠去噪自编码器和随机森林分类器的电力系统扰动分类方法,本方法相较于其他扰动分类方法相比,能够快速、准确地对包含丢失数据的pmu扰动数据进行分类,实现电力系统动态行为的实时监测。
技术实现要素:
本发明提供了一种基于堆叠去噪自编码器和随机森林分类器的电力系统扰动分类方法,包括以下步骤:
步骤1:利用离线的时域仿真法生成电力系统的扰动数据;
步骤2:将步骤1中通过离线仿真法所得到的扰动数据进行标准化处理;
步骤3:构造和训练堆叠去噪自编码器深度神经网络,以扰动发生后0.5s内的频率和电压有效值作为堆叠去噪自编码器的输入,对堆叠去噪自编码器进行训练;
步骤4:利用步骤3中训练后的堆叠去噪自编码器对数据特征提取,得到高层次的特征表达;
步骤5:构造和训练随机森林分类器,并通过训练后的随机森林分类器对步骤4中所提取的高层次的特征进行分类,实现扰动识别。
进一步地,步骤1中利用离线的时域仿真法生成扰动数据的过程具体为:分别选取三相短路3-φflt、单相接地故障φ-gflt、发电机出力降低gl、投负荷、切负荷、三相断线lt共6种扰动类型进行仿真,系统算例为ieee10机39系统,仿真软件为psd-bpa,仿真时间为30s,仿真步长设置为0.02s,5s后触发扰动,输出各母线频率与电压有效值。
再进一步地,步骤2中所述进行标准化处理的过程为:假设pmu上送频率为50hz,则0.5s内的频率和电压分别表示为f,
其中,
再进一步地,步骤3中所述堆叠去噪自编码器sdae是由去噪自编码器dae堆叠而成的深层网络模型,所述构造和训练堆叠去噪自编码器深度神经网络的过程包括以下子步骤:
s31:令
其中,w和w'分别是编码矩阵和解码矩阵;b和b'分别是编码偏置向量和偏置偏差向量;θ和θ'分别是用于编码和解码的参数;fθ和gθ'是激活函数,在此使用sigmoid函数:
s32:对sdea进行训练,在该过程中,以重建误差最小为目标对参数进行调整:
其中
其中,
通过误差的反向传播和梯度下降算法得到最优的模型参数,参数更新过程如下:
其中,η为学习率;
在训练过程中,sdae通过自监督学习来对模型进行优化,具体为,将sdae中的任意两个相邻层视为一个dae,并以最小化重构误差为目标,逐层对神经网络进行训练。
优选地,步骤4中,sdae是以上个dae的编码特征作为下一个dae的输入数据进行正向传播的。
更进一步地,所述步骤5中进一步包括:
所述随机森林分类器是以多个决策树dt作为弱分类器的一种集成算法分类器,其中,单个dt为分类回归树cart,对于给定的样本集合d,其基尼系数为
其中,|ck|是df中属于第k类的样本子集的个数,n为样本个数,k为类别个数;gini(df)表示中随机选择的样本被错误分类的概率,gini(df)越小,则表明df中选择的样本被错误分类的概率越低,即df的纯度越高;
样本特征集df根据特征f={f1,f2,…fk}中特征fj的特定值a分为d1和d2两部分:
d1={(x,y)∈df|a(x)=a},d2=df-d1
则在特征a的条件下,集合d的基尼系数为:
式中,|d1|和|d2|分别表示集合d1和d2中的样本数;n是样本数;
gini(df,fj=a)表示集合df以及fj=a划分后的不确定度;基尼指数的值越大,则样本集的不确定度越大;
使用bootstrap抽样的方法生成n个子数据集,并以基尼指数为分割准则生成n个子数据集以及对应的n个cart,从而构造随机森林分类器;
通过用sdae提取的高级特征训练随机森林分类器,实现扰动识别并分类。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为根据本发明实施例的一种基于堆叠去噪自编码器和随机森林分类器的电力系统扰动分类方法的流程图;
图2为根据本发明实施例的去噪自编码器的结构图;
图3为根据本发明实施例的堆叠去噪自编码器结构图;
图4为根据本发明实施例的不同堆叠去噪自编码器结构对应重构误差的示意图;
图5为根据本发明实施例的不同决策树深度和个数对应分类准确率的示意图;
图6为根据本发明实施例的在不同去噪自编码器神经网络深度下提取到的特征二维可视化示意图;
图7为根据本发明实施例的扰动分类方法的扰动识别混淆矩阵示意图;
图8为根据本发明实施例的扰动分类方法与其他方法在不同数据丢失水平下识别准确率对比示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,本领域技术人员应当理解,所描述的实施例仅用于示例性说明本发明的主旨和思想,不应被视为被本发明范围的限定。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他变体、组合的技术方案,都落入了本发明的保护范围之内。
如图1所示,为本根据本发明实施例的一种基于堆叠去噪自编码器和随机森林分类器的电力系统扰动分类方法的流程图,本发明所述扰动分类方法主要包括如下步骤:
步骤1:利用离线的时域仿真法生成扰动数据;
步骤2:利用标准化将离线仿真的数据进行标准化处理;
步骤3:构造和训练堆叠去噪自编码器深度神经网络。将扰动发生后0.5s内的频率和电压有效值作为堆叠去噪自编码器的输入对其进行训练。
步骤4:利用训练的堆叠去噪自编码器对数据特征提取,得到高层次的特征表达。
步骤5:构造和训练随机森林分类器,并通过训练的随机森林分类器对提取的特征进行分类,实现扰动识别。
在步骤1中,利用离线的时域仿真法生成扰动数据的过程具体为:
结合电力系统中扰动发生的概率与造成的危害,选取三相短路(3-φflt),单相接地故障(φ-gflt),发电机出力降低(gl),负荷投/切(l-on/off),三相断线(lt)6种扰动类型进行仿真。系统算例为ieee10机39系统,仿真软件为psd-bpa,仿真时间为30s,5s后触发扰动,输出各母线频率与电压有效值。考虑到pmu上送速率为50hz,仿真步长设置为0.02s。为模拟电力系统实际运行状态,在仿真中施加60db的高斯白噪声。
表1.不同扰动的仿真方法
在步骤2中,利用标准化将离线仿真的数据进行标准化处理的过程具体为:假设pmu上送频率为50hz,则0.5s内的频率和电压可以分别表示为f,
其中,
在对步骤3的具体过程介绍之前,首先针对堆叠去噪自编码器算法做相关介绍。
在步骤3中,构造和训练堆叠去噪自编码器深度神经网络的过程具体为:
去噪自编码器(denoisingautoencoders,dae)的网络结构如图2所示。令
其中,w和w'分别是编码矩阵和解码矩阵;b和b'分别是编码偏置向量和偏置偏差向量;θ和θ'分别是用于编码和解码的参数。fθ和gθ'是激活函数,这里使用sigmoid函数:
在训练过程中,dae以重建误差最小为目标对参数进行调整:
其中
对于预处理过的扰动数据集
其中,
通过误差的反向传播和梯度下降算法可以得到最优的模型参数。参数更新过程如下:
其中,η为学习率。
堆叠去噪自编码器(stackeddenoisingautoencoders,sdae)是由dae堆叠而成的深层网络模型,如图3所示。sdae是通过自监督学习来对模型进行优化的。首先,将sdae中的任意两个相邻层视为一个dae,并以最小化重构误差为目标,逐层对网络进行训练。基于sdae的特征提取方法见算法i:
在步骤4中,利用训练的sdae对数据特征提取的具体过程为:
sdae是以上个dae的编码特征作为下一个dae的输入数据进行正向传播的。因此,对于隐含层数目为l的sdae,其特征提取过程如下:
在步骤5中,构造和训练随机森林分类器的具体过程为:
随机森林(randomforest,rf)是以多个决策树作为弱分类器的一种集成算法。最终的分类结果是通过多棵决策树(decisiontree,dt)的多数投票实现的。本研究选取的单个dt为分类回归树(cart),它以基尼指数作为选择分割特征的准则,相关公式如下:
对于给定的样本集合d,其基尼系数为
其中,|ck|是df中属于第k类的样本子集的个数,n为样本个数,k为类别个数。gini(df)表示中随机选择的样本被错误分类的概率,gini(df)越小,则表明df中选择的样本被错误分类的概率越低,即df的纯度越高。
样本特征集df根据特征f={f1,f2,…fk}中特征fj的特定值a分为d1和d2两部分:
d1={(x,y)∈df|a(x)=a},d2=df-d1
则在特征a的条件下,集合d的基尼系数为:
式中,|d1|和|d2|分别表示集合d1和d2中的样本数;n是样本数。
gini(df,fj=a)表示集合df以及fj=a划分后的不确定度。基尼指数的值越大,样本集的不确定度越大。因此,选取基尼指数最小的特征及其对应的特征和特征值作为最佳分割特征和分割点。
我们使用bootstrap抽样的方法生成n个子数据集,并以基尼指数为分割准则生成n个子数据集以及对应的n个cart以构造随机森林分类器。
随机森林被用作分类器,以避免单个分类器的泛化性能低的问题。最终,通过用sdae提取的高级特征训练rf分类器来实现扰动识别。算法iii中总结了基于随机森林的事件分类算法,该算法描述了rf的生成和类别分类。
为了说明本发明实施例上述方案的效果,还通过实验进行了验证。
1、sdae模型结构及参数设置
将预处理后的数据作为sdae输入数据,逐层设置隐层神经元的数目。我们先确定第一层的最佳神经元数目,然后固定第一层神经元的数目,以确定第二层的最佳神经元数目。此过程继续进行,直到重构误差mse不再减小。图4显示了隐藏层数目和隐藏层神经元数目对mse的影响。对于ieee-39节点系统,当数据丢失水平为50%时,sdae识别电力系统扰动的最佳隐层数目为4层,每层的最佳隐层单元数为50、70、50和30。
采用相同的参数优化方法对不同损失水平的扰动数据进行训练,并计算出测试集的重建误差。不同数据丢失水平下的最优网络结构和测试结果如表2所示,当损失水平大于50%时,重建误差迅速增大,表明该模型可以重建原始数据的最大损失水平为50%。因此,对于ieee-39节点系统,基于sdae神经网络的扰动识别的最优隐层数目为4层,每层神经元的最佳数目为[50,70,50,30]。最大数据丢失承受度为50%。
表2.不同数据丢失水平下的最佳sdae结构
2、rf参数设置
基于sdae对扰动数据提取的特征来选择rf的最优参数。首先确定dt的最佳深度d,在最佳深度处,确定了最佳dt的数目n。通过比较验证集上10次交叉验证的平均精度来确定最佳深度d和n。
如图5所示,当d=6且n=40时,分类器具有最佳性能。
3、特征提取测试
为了评估该方法的性能,将原始数据和sdae提取的特征映射到二维空间,并在数据丢失率为50%的情况下对提取的特征进行可视化。可视化结果如图6所示,其中1、2、3、4、5和6分别对应于三相短路故障、单相接地故障、发动机出力降低、切负荷、投负荷以及三相断线。
如图6(a)所示,原始数据空间中每个类别的样本有太多重叠,无法分离类别。然而,当使用sdae提取的特征时,类别被很好地分离。图6(b)-(d)显示了sdae中不同数量隐藏层的提取特征的特征空间。随着层数的增加,不同类之间的重叠程度降低。
4、在不同数据丢失水平下的测试
我们假设用于扰动识别的pmu数据中存在数据丢失。图7显示了所提方法的混淆矩阵,其中数据丢失水平设置为50%。混淆矩阵是描述分类精度的一种标准格式。它是一个秩为k的方阵,其中k是类的数目。混淆矩阵的行是通过算法得到的扰动类别,列是实际的扰动类别。对角线上的值表示正确识别类别的概率。对角线两边的值表示第j类扰动被错误识别为第i类扰动的概率。
在图7所示的情况下,其中对于发电机出力降低事件的识别精度较低。这是因为投负荷事件和发电机出力降低事件的动态特征相似,导致了它们的错误分类。测试数据的总体准确率为98.73%,表明该方法对有缺失数据的电力系统扰动识别具有良好的性能。
此外,我们在不同数据丢失水平下,用不同的特征提取方法和分类器相结合来突出所提方法的优越性。选择的特征提取方法包括时域人工特征(mft)、频域人工特征(mff)、堆叠自动编码器(sae)和sdae。分类器包括softmax、极限学习机(elm)、线性支持向量机(lsvm)、高斯支持向量机(gsvm)、dt和rf。结果如图8所示。
从图中可以得到以下结果:
1)在所有的数据丢失水平下,四个不同特征空间中所有分类器的精度和micro-f1都呈上升趋势,表明基于深度神经网络的特征提取能力优于传统方法(mft和mff)。
2)随着数据丢失程度的增加,sdae方法与传统方法在精度上的差异也越来越大,说明传统方法对缺失数据非常敏感,但所提方法对缺失数据具有很强的鲁棒性。
3)在相同的数据丢失水平和相同的特征空间下,集成学习的rf分类器的识别率最高可达98.73%。
5、计算时间评估
在cpu为i7-8700k(3.7ghz)、gtx1080tigpu和16g内存的计算机上进行了仿真实验。计算过程包括特征提取和分类。表2显示了测试集中每个样本的平均计算时间。计算时间为3.507ms,特征提取时间为3.482ms,分类时间为0.025ms,结果表明该方法计算复杂度低,具有较高的实时性。
表2.所提方法的计算时间
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。