一种基于深度Q学习的变电站电容故障智能预警方法与流程

文档序号：33633855发布日期：2023-03-28 23:53阅读：53来源：国知局

一种基于深度q学习的变电站电容故障智能预警方法
技术领域
1.本发明涉及电网电力智能控制技术领域，尤其涉及一种基于深度q学习的变电站电容故障智能预警方法。

背景技术：

2.变电站作为电网系统的枢纽点，在电力供给中起到了重要作用，而变电站中的电容组对变电站的正常运行有着十分重要的意义；当电容损坏时，电容组的无功补偿与电压调节的作用就难以正常实现，从而对电力供给产生一定的影响。
3.目前，对变电站电容更换多采用人工更换的方式，但是由于电容体重量大且损坏电容可能位于变电站角钢架顶部，人工作业危险性高、劳动强度大；因此，为了避免电容故障以及频繁的更换，应加强变电站电容电流预警系统的研究；现如今变电站中设有消弧装置补充系统单相接地时的电容电流，而对于未安装消弧装置的变电站，需要通过电容电流预警来判断是否需要加装消弧装置，对于已经安装消弧装置的变电站，也需要通过预警的方式判断消弧装置容量是否满足补偿要求；所以，如何有效地对变电站电容故障进行预警是现阶段继续考虑的问题。
4.需要说明的是，在上述背景技术部分公开的信息只用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

5.本发明的目的在于克服现有技术的缺点，提供了一种基于深度q学习的变电站电容故障智能预警方法，解决了现有技术不能对变电站电容故障进行预警的问题。
6.本发明的目的通过以下技术方案来实现：一种基于深度q学习的变电站电容故障智能预警方法，所述智能预警方法包括：
7.s1、构建基于深度q学习的变电站电容故障智能预警平台，变电站电容故障智能预警平台包括基于深度信念网络的预测模块和基于深度q学习算法的预警模块；
8.s2、建立包括消弧装置检测出来的电容电流值i0与系统电容电流值i1的变电站电容指标体系，并通过指标体系根据深度神经网络对变电站电容的电流进行预测；
9.s3、构建基于强化学习的控制器，并依次将系统电容电流值i1、消弧装置检测出来的电容电流值i0作为状态空间，将控制器的判断动作作为动作空间，实现对变电站电容故障情况的准确预警。
10.步骤s2中的深度神经网络包括深度信念网络模型，由多层的非线性运算单元组成，其中高层特征或者因子的输入由低层的输出得到，深度信念网络模型包括深度信念网络、卷积神经网络和循环神经网络。
11.所述深度信念网络的训练过程包括预训练与反向微调，首先对最底层的受限玻尔兹曼机进行训练；其次将下一层受限玻尔兹曼机作为上一层受限玻尔兹曼机的输入数据，从底向上进行逐层训练，以获得深度置信网络的初始权值；最后在预训练结束后，利用带标
签的数据，对网络的参数进行反向微调，完成整个训练过程。
12.完成预测过程需要建立一个单输出结构的神经网络，即时段内每一步(预测点)对应一个神经网络，本发明的步长为1s，并可根据需要设计总时长。完成参数设计后，将历史数据集(电容电流值i0、系统电容电流值i1)与相对应的实际数据集作为训练集输入神经网络中，深度神经网络即可由此得大量数据之间的关联性。基于此，将实时监测数据作为测试集输入到训练完毕的深度神经网络中，即可输出预测值，若其与实际值误差符合要求，即可投入应用。
13.所述深度神经网络模型包括h层神经网络以及每层u个神经元，当隐藏层神经元个数u达到一定数量时，h＝1的单层隐藏层结构比增加更多隐藏层来提高训练精度更为便捷，因此通过试错法来对隐藏层神经元个数u进行试错，直到找到满足误差要求的最小神经元数；在完成深度神经网络的训练后，将监测得到数据作为预测的输入，即可得到预测结果，由此得到完整的状态集。
14.所述构建基于强化学习的控制器包括：
15.强化学习满足马尔可夫决策过程，服从马尔可夫性质，表示为p(s
t+1
|s0,a0,
…
,s
t
,a
t
)＝p(s
t+1
|s
t
,a
t
)，其中，p是状态转移概率，s
t+1
指下一时间阶段t+1的状态属性，s
t
指当前时刻t的状态属性，a
t
指当前时刻t的动作，s0指当前时刻t＝0的状态属性，a0指当前时刻t＝0的动作；
16.在每个时期，代理都会采取行动来更改其在环境中的状态并提供奖励，为了进一步处理奖励价值，提出了价值函数和最优策略，为了使当前时间t之后的长期累积奖励最大化，对于在时间t结束的有限时间范围，总收益r
t
为其中，折扣因子γ∈[0,1]，且γ仅在间歇性mdp中取值1，r
t
指时间阶段t的奖励函数值；
[0017]
通过基于值函数v(s)和策略π来表示代理达到给定状态s的有益程度，表示为进而动作值函数q在策略π下在状态s下采取动作a的值表示为
[0018]
在q学习算法中通过bellman方程将q函数表示为迭代形式q
π
(s
t
,a
t
)＝e[r
t+1
+γq
π
(s
t+1
,a
t+1
)s
t
,a
t
]，得到最佳策略π
*
为获得最大累积奖励的策略进而得到最佳价值函数和行动价值函数为
[0019]
s3步骤中将消弧装置检测出来的电容电流值i0与系统电容电流值i1、深度信念网络预测系统电容电流值i2设定状态空间为s＝{i
0 i
1 i2}；
[0020]
动作空间中的动作序号分别对应为0-2，即表示为a＝{0,1，2}，分别表示不预警、紧急预警和中断运行；如果监测器得到的变电站电容电流值实时数据，并预测出后续电流值将大于预设阈值a并位于[i
min
,i
max
)范围内；同时，变电站安装有消弧装置，预测电容电流值i2和消弧装置检测出来的电容电流值i0之间的差值位于(0，a]范围内时，说明变电站电容
电流在可控范围内，无需进行预警加装消弧装置，否则发出预警信号。
[0021]
所述智能预警方法还包括：设置不同幅值、不同类型函数进行叠加形成随机数据集，并将随机数据集作为训练数据集输入到变电站电容故障智能预警平台中，进行大量试错学习训练直到变电站电容故障智能预警平台达到收敛，则结束训练。
[0022]
本发明具有以下优点：一种基于深度q学习的变电站电容故障智能预警方法，利用人工智能、大数据等技术深挖历史信息数据价值，应用神经网络的预测能力与控制模型的自主学习能力，实现对变电站电容电流的故障预警。
附图说明
[0023]
图1为本发明的结构示意图；
[0024]
图2为本发明变电站电容故障智能预警平台的网络框架结构示意图；
[0025]
图3为本发明的深度信念网络结构图；
[0026]
图4为本发明的预训练期间奖励函数趋势图。
具体实施方式
[0027]
为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此，以下结合附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的保护范围，而是仅仅表示本技术的选定实施例。基于本技术的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。下面结合附图对本发明做进一步的描述。
[0028]
如图1和所示，本发明具体涉及一种基于深度q学习的变电站电容故障智能预警方法，其包括以下步骤：
[0029]
步骤1、针对变电站电流过高所引起的电容故障问题，本发明设计了基于深度q学习的变电站电容智能故障预警平台结构。
[0030]
其中，基于深度q学习的变电站电容智能故障预警平台结构包含由预测模块与预警模块分别构成，其中，预测模块基于深度信念网络，预警模块基于深度q学习算法。平台的数据来源为某地区的变电站实时运行电容电流海量数据。首先，为得到实时的变电站电容电流信息，应用集中模式设计信息采集终端的架构。其次，预警控制系统的网络结构包括监控层、数据层、决策层；各层之间包括状态信息与动作指令。进而，确定系统数据和模型的存储方法，确定变电站中所有电容系统的统一预警标准，实现数字化平台对变电站电容的在线管控。
[0031]
如图2所示，基于深度q学习的变电站电容智能故障预警平台结构包含由预测模块与预警模块分别构成，其中，预测模块基于深度信念网络，预警模块基于深度q学习算法。平台的数据来源为某地区的变电站实时运行电容电流海量数据。首先，为得到实时的变电站电容电流信息，应用集中模式设计信息采集终端的架构。其次，预警控制系统的网络结构包括监控层、数据层、决策层；各层之间包括状态信息与动作指令。进而，确定系统数据和模型的存储方法，确定变电站中所有电容系统的统一预警标准，实现数字化平台对变电站电容
的在线管控。
[0032]
步骤2、建立了全面的变电站电容指标体系，并通过指标体系，应用深度神经网络对变电站电容的电流进行预测；其中，变电站电容指标体系主要包含：消弧装置检测出来的电容电流值i0与系统电容电流值i1。
[0033]
进一步地，深度神经网络指的是深度信念网络模型，是由多层的非线性运算单元组成的，其中高层特征或因子的输入是由低层的输出所得到的。其主要包含深度信念网络(deep belief network，dbn)、卷积神经网络、循环神经网络等。dbn的训练过程包括预训练与反向微调。预训练在本质上为一种无监督的贪心逐层训练：首先对最底层的受限玻尔兹曼机(rbm)进行训练；其次将下一层rbm作为上一层rbm的输入数据，从底向上进行逐层训练，以获得深度置信网络的初始权值；最后在预训练结束后，利用带标签的数据，对网络的参数进行反向微调，完成整个训练过程。
[0034]
如图3所示，需要初始化深度信念网络模型的参数。深度神经网络有多输出和单输出两种模式。其中，多输出模式是指输出层有大量神经元，采用这种输出方式，只要建立一个包含n个输出神经元的网络，就可以得到变电站电容各指标的预测值。但这种输出模式的网络结构庞大，训练时间长，不适用于本发明的实际情况。因此，选择单输出结构，能够为n个预测点构建n个神经网络，该输出模型网络结构小，具有速度快、训练准确率高等优点。
[0035]
完成预测过程需要建立一个单输出结构的神经网络，即时段内每一步(预测点)对应一个神经网络，本发明的步长为1s，并可根据需要设计总时长。完成参数设计后，将历史数据集(电容电流值i0、系统电容电流值i1)与相对应的实际数据集作为训练集输入神经网络中，深度神经网络即可由此得大量数据之间的关联性。基于此，将实时监测数据作为测试集输入到训练完毕的深度神经网络中，即可输出预测值，若其与实际值误差符合要求，即可投入应用。
[0036]
所述深度神经网络模型包括h层神经网络以及每层u个神经元，当隐藏层神经元个数u达到一定数量时，h＝1的单层隐藏层结构比增加更多隐藏层来提高训练精度更为便捷，因此通过试错法来对隐藏层神经元个数u进行试错，直到找到满足误差要求的最小神经元数；在完成深度神经网络的训练后，将监测得到数据作为预测的输入，即可得到预测结果，由此得到完整的状态集。
[0037]
步骤3、基于变电站运行场景，设计了基于强化学习的控制器，并依次将系统电容电流值i1、消弧装置检测出来的电容电流值i0作为状态空间，将控制器的判断动作作为动作空间，以实现对变电站电容故障情况的准确预警。
[0038]
该步骤中中的控制算法以深度q学习为核心，而马尔可夫决策过程满足马尔可夫性质，是强化学习的基本形式主义。马尔可夫属性是其中流程的未来仅取决于当前状态的属性，并且代理对整个历史都没有兴趣。它可以描述为：
[0039]
p(s
t+1
|s0,a0,
…
,s
t
,a
t
)＝p(s
t+1
|s
t
,a
t
)
[0040]
式中，p是状态转移概率，s
t+1
指下一时间阶段t+1的状态属性，s
t
指当前时刻t的状态属性，a
t
指当前时刻t的动作，s0指当前时刻t＝0的状态属性，a0指当前时刻t＝0的动作。
[0041]
在每个时期，agent(代理)都会采取行动来更改其在环境中的状态并提供奖励。为了进一步处理奖励价值，提出了价值函数和最优策略。为了使当前时间t之后的长期累积奖励最大化，对于在时间t结束的有限时间范围，总收益r
t
等于：
[0042][0043]
式中，折扣因子γ∈[0,1]，且γ仅在间歇性mdp中可以取1，r
t
指时间阶段t的奖励函数值。
[0044]
因此，为了找到最佳策略，一些算法基于值函数v(s)，这表示agent达到给定状态s有多有益。这个函数取决于agent后面的实际策略π：
[0045][0046]
类似地，动作值函数q将在策略π下在状态s下采取动作a的值表示为：
[0047][0048]
在q学习算法中，可以通过bellman方程将q函数表示为迭代形式：
[0049]qπ
(s
t
,a
t
)＝e[r
t+1
+γq
π
(s
t+1
,a
t+1
)s
t
,a
t
]
[0050]
因此，最佳策略π
*
是从长远来看可以获得最大累积奖励的策略：
[0051][0052]
此时，最佳价值函数和行动价值函数将是：
[0053][0054]
智能体agent一开始是不具有“智能能力”的，只是一个黑盒控制器agent在时刻t，会根据当前的状态s，随意地输出动作a，且此时系统会根据事先设计的奖励函数对动作a进行评分，得到r从而以此类推，在t+1，t+2一直进行试错训练并不断打分，经过漫长的学习过程，智能体agent能够根据状态s，给出评分最高的动作a，从而获得最好的控制效果而在训练完成后，具有最高奖励值的的策略π，将蕴含在值函数q中，并得到输出，并称为最佳价值函数和行动价值函数。
[0055]
控制器状态集将消弧装置检测出来的电容电流值i0与系统电容电流值i1、深度信念网络预测系统电容电流值i2。而dqn优化系统的联合动作集a，即智能体决策后所采用的动作策略，应为本文所述问题中预警系统的动作序号：不预警、紧急预警、中断运行。由此，基于实际情况：监测器得到的系统电容电流值实时数据，并预测出后续电流值将大于预设阈值a并位于[i
min
,i
max
)范围内；同时，变电站安装有消弧装置，系统预测电容电流值i2和消弧装置检测出来的电容电流值i0之间的差值位于(0，a]范围内，上述条件均成立时，说明系统电流在可控范围内，无需进行预警加装消弧装置，否则发出预警信号。
[0056]
步骤4、最后，在完成预训练后，即可将预警平台投入使用；包括：设置不同幅值、不同类型函数进行叠加形成随机数据集，并将随机数据集作为训练数据集输入到变电站电容故障智能预警平台中，进行大量试错学习训练直到变电站电容故障智能预警平台达到收敛，则结束训练。
[0057]
在智能控制器使用之前均需要经过预训练阶段，才能得到最优值函数q网络
因此，完成预训练如图4所示。可见，控制器具有较高的在线学习能力，收敛特性较好，能应对变电站电容电流过高的智能预警场景。
[0058]
本发明在调控过程中，变电站电容与预警平台之间的信息采集终端之间能够以有线传输或无线通讯5g的方式进行联络，从而实现预警平台从变电站系统中获取状态信息，并通过预测实时运行状态，判断出系统利益最大化的动作，进而的得到预警结果。
[0059]
本发明利用q学习与深度学习结合形成的深度q学习，依次完成了状态空间、动作空间以及奖励函数的定义，并通过调节得到了最优超参数。该控制器具备在线学习和经验回放能力，收敛特性和模型适应性好，能很好地应对变电站电容电流过高的智能预警场景。
[0060]
以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁梁易洁
技术所有人：四川物通科技有限公司
我是此专利的发明人

上一篇：多工位点胶机构位移转化方法及多工位点胶装置与流程
上一篇：一种便携式口琴的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。