一种基于智能体均衡算法的智能发电控制方法

文档序号:7356351阅读:352来源:国知局
一种基于智能体均衡算法的智能发电控制方法
【专利摘要】本发明公开了一种基于智能体均衡算法的智能发电控制方法,包括以下步骤:步骤1.分析系统特性,确定状态离散集S;步骤2.确定联合动作离散集A;步骤3.在每个控制周期开始时采集各个区域电网的实时运行数据:Δf、ΔP,并计算各个区域ACEi(k)的瞬时值与CPSi(k)的瞬时值;步骤4.由当前状态s,获得区域电网i的立即奖励值Ri(k);步骤5.由线性均衡和选定的均衡选择函数求取相关均衡联动策略;步骤6.对所有区域电网j执行相应操作;步骤7.在下一次控制周期到来时,返回步骤3。具有在控制过程中能找到更优的均衡点,提高了各区域电网协调发电的能力,显著提高了电力系统的稳定性与鲁棒性等优点。
【专利说明】一种基于智能体均衡算法的智能发电控制方法【技术领域】
[0001]本发明涉及一种电力系统智能发电控制技术,特别涉及一种基于智能体均衡算法的智能发电控制方法。
【背景技术】
[0002]现代电网已发展成为在电力市场机制的基础上多控制区域的互联系统,自动发电控制(Automatic Generation Control, AGC)作为互联电网实现功率和频率控制的主要手段,其控制效果直接影响着电网品质。互联电力系统的联络线功率偏差与频率变化随着用户侧负荷的变化而变化。如何通过控制发电机有功出力来跟踪负荷的随机变化,提高电网频率质量是当今控制领域研究的热点问题。自动发电控制是建立在利用调度监控计算机、通道、远方终端、执行(分配)装置、发电机组自动化装置等组成的闭环控制系统。它是电力系统调度自动化的主要内容之一。
[0003]目前,AGC控制策略的设计多为经典PI控制结构。然而,由于电力系统运行点随日、月、季、年的不断变化,基于传统控制方法的固定增益控制器难以满足日益复杂的电力系统对控制性能的要求。神经网络方法、模糊控制、遗传方法等智能方法相继应用于AGC控制器的设计。传统PI控制和模糊控制可保证对受控对象存在的模型不确定性具有较高的鲁棒性,但在最优化设计方面还存在一定欠缺。随着间歇式新能源发电系统、电动汽车充电站和智能用户等会在未来几年内国家新能源政策大力支持下急剧增加,电网负荷发电平衡过程更接近于一个典型的非平稳强随机过程。已有理论研究表明,强化学习方法所具有的高度自学习与自寻优能力在解决调度端最优发电控制方面具有更好的协调性与鲁棒性。余涛,周斌,陈家荣在《基于Q学习的互联电网动态最优CPS控制》(中国电机工程学报)中提出了一种基于Q学习的CPS控制器设计方法,以解决系统镇定和快速收敛问题。此控制器能显著增强整个AGC系统的适应性,有效提高CPS的考核合格率。针对非马尔科夫环境下火电占优的互联电网AGC控制策略,余涛,周斌,陈家荣在《基于多步回溯Q( λ )学习的互联电网随机最优CPS控制》(电工技术学报)中提出了利用Q(X)学习的后向估计原理解决火电机组大时滞环节带来的延时回报问题。基于平均报酬模型R(X)模仿学习的CPS控制器避免了预学习阶段的盲目试错环节,提高了强化学习控制器在实际电力系统中的应用性。然而,这一类方法都属于单智能体学习方法,即在寻求最优策略时并未考虑其它区域电网的实际情况。
[0004]单智能体强化学习方法试错寻优在电力系统各种运行点之间表现了很好的适应性,其控制性能也优越于传统方法的固定增益控制器。但是,单智能体方法并未考虑其它区域互联电网实际情况,仅根据自身进行局部优化。当某些区域无法根据自身优化控制区域控制误差 (Area Control Error, ACE)在允许范围以内时,这类方法并不能实现不同区域的协作控制。并且,智能体之间对策博弈最终结果会形成各种稳定平衡点,即均衡点,对于强随机非马尔科夫环境的区域复杂互联电网,相对于传统PI控制和单智能体强化学习控制方法,多智能体均衡强化学习方法利用相关均衡去平衡探索与利用,至少在理论上可以预见具有更好的平稳性与控制效果。

【发明内容】

[0005]本发明的目的在于克服现有技术的缺点与不足,提供一种基于多智能体均衡算法的智能发电控制方法,该方法具有由测量智能体、集中控制智能体和分散控制智能体三类智能体组成的智能发电控制框架,该控制框架采用相关均衡强化学习方法分别实现AGC的集中控制与分散控制。集中控制中信任第三方在综合各智能体状态下联合分配各智能体稳定均衡点的动作值,控制方法采用多智能体相关均衡方法(Mu11iagent CorrelatedEquilibrium Q Learning, MCEQ);分散控制中各智能体采用各自计算的均衡动作值并互不干涉。针对相关均衡方法在不同目标函数下智能发电控制效果的不同,提出了一种变参数相关均衡方法的最优CPS控制策略。该策略同时引入了资格迹回溯方法以期望累积折扣报酬最大。多智能体相关均衡方法相对于经典PI方法、Q(X)方法在预学习阶段具有更快的收敛速度,并且在控制过程中能有效消除ACE与CPS瞬时值中的毛刺现象,显著提高电力系统的稳定性与鲁棒性。
[0006]测量智能体的数据输入为该区域的联络线功率偏差与频率偏差,输出为此区域的控制误差值和滚动CPS平均值。随后,各区域的ACE与CPS值传输到集中AGC控制器。如果各个区域的数据齐全且集中AGC控制器正常工作,则输出为各个区域的均衡动作值,采用方法为CMCEQ(Centralized MCEQ);否则,集中控制器传输所有已采集数据至各区域的分散AGC控制器。如果数据齐全,各分散AGC控制器分配各自计算的均衡动作并互不影响;如果数据不全,各分散控制器调入数据不齐全区域的上一次正常数据再行计算均衡动作值并分配动作,采用方法为DMCEQ (Decentralized MCEQ)。整个互联电网有且仅有一个集中AGC控制器,而测量智能体和分散AGC控制器在每一区域电网均有一个。
[0007]本控制框架所发明的方法MCEQ能弥补传统智能发电控制中各区域电网间缺少联动策略寻优的缺点,通过获取每一区域电网的ACE瞬时值和CPS滚动平均值,在线寻求最优联合动作策略以使CPS长期收益最大。MCEQ控制决策过程分为三个阶段:
[0008]( I)对所有智能体的状态-动作对利用相关均衡更新其Q值;
[0009](2)对所有联合动作策略利用相关均衡求取其最优发生概率;
[0010](3)执行随机最优联合策略,并观察系统响应,返回奖励值与当前状态。
[0011]本发明的目的通过下述技术方案实现:一种基于智能体均衡算法的智能发电控制方法,包括以下步骤:
[0012]步骤I、确定状态离散集S ;
[0013]步骤2、确定联合动作离散集A ;
[0014]步骤3、在每个控制周期开始时采集各个区域电网的实时运行数据,所述实时运行数据包括频率偏差Af和功率偏差Λ P,计算各个区域控制误差ACEiGO的瞬时值与控制性能标准CPSi (k)的瞬时值;
[0015]步骤4、由当前状态S,获得区域电网i的立即奖励值RiGO ;
[0016]步骤5、由线性均衡约束⑷
【权利要求】
1.一种基于智能体均衡算法的智能发电控制方法,其特征在于,包括以下步骤: 步骤I、确定状态离散集S ; 步骤2、确定联合动作离散集A ; 步骤3、在每个控制周期开始时采集各个区域电网的实时运行数据,所述实时运行数据包括频率偏差Af和功率偏差Λ P,计算各个区域控制误差ACEiGO的瞬时值与控制性能标准CPSi (k)的瞬时值; 步骤4、由当前状态S,获得区域电网i的立即奖励值RiGO ; 步骤5、由线性均衡约束
2.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤I的状态离散集S通过控制性能标准CPSl和区域控制误差ACE值的划分来确定。
3.如权利要求1所述的基于多智能体均衡算法的智能发电控制方法,其特征在于,所述步骤2的联合动作离散集A的表达式为: A=A1XA2X- X Ai X …XAn, 其中,Ai为智能体i的输出离散动作集,η为智能体个数。
4.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤3中,所述各个区域电网的实时运行数据通过计算机和监控系统来采集。
5.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤3中,所述区域i的区域控制误差ACEiGO的瞬时值计算方法如下:
ACE=Ta-Ts-IOB(Fa-Fs), 其中,Ta为联络线实际潮流值、Ts为联络线期望潮流值,B为频率偏差系数,Fa为系统实际频率值,Fs为系统期望频率值; 所述区域i的控制性能标准I的CPSiGO的瞬时值计算方法如下:
其中,
6.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤4中,根据区域电网i第k步ACE和CPSl的差分值以及功率调节值的线性组合来获得所述立即奖励值Ri (k)。
7.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤5中,采用相关均衡策略的线性约束和用于智能发电控制的均衡选择函数,控制智能体之间的协调联合动作。
8.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤6中,所述qj(s,a)值的迭代更新公式为:
9.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤6中,所述资格迹矩阵值的迭代更新公式为:
10.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤6包括以下步骤: (1)在引入资格迹情况下,对所有状态-动作对(s,a)的状态-动作值函数qj(s,a)值和资格迹矩阵ej(s,a)进行迭代更新; (2)如果当前状态S和下一状态S是同一状态,则由更新的Q值在此求取随机最优均衡联动策略; (3)由最优均衡联动策略;^选择各区域协作动作; (4)令:s=s,a = a,更新状态s和动作a。
【文档编号】H02J3/00GK103490413SQ201310451728
【公开日】2014年1月1日 申请日期:2013年9月27日 优先权日:2013年9月27日
【发明者】余涛, 王怀智, 张孝顺 申请人:华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1