基于具有时间隧道思想的多智能体强化学习的智能发电控制方法与流程

文档序号:12738381阅读:来源:国知局

技术特征:

1.基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于包括以下步骤:

步骤1、确定状态离散集S;

步骤2、确定联合动作离散集A;

步骤3、在每个控制周期开始时,采集各个电网的实时运行数据,所述实时运行数据包括频率偏差Δf和功率偏差ΔP,计算各个区域控制误差ACEi(k)的瞬时值与控制性能标准CPSi(k)的瞬时值,根据混合策略集合π(sk,ak)选择搜索动作ak

步骤4、在当前状态s,某区域电网i获得一个短期的奖励函数信号Ri(k);

步骤5、通过计算与估计获得值函数误差ρk、δk

步骤6、对所有区域电网,更新所有状态-动作(s,a)对应的Q函数表格和时间隧道矩阵e(sk,ak);

步骤7、更新的Q值和更新当前状态s下的混合策略合策略π(sk,ak);

步骤8、接着更新时间隧道元素e(sk,ak);

步骤9、选择变学习率

步骤10、根据函数更新决策改变率Δ(sk,ak)和决策空间估计斜率Δ2(sk,ak);

步骤11、返回步骤3。

2.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤1的状态离散集S,通过控制性能标准CPS和区域控制误差ACE值的划分来确定。

3.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤2的联合动作离散集A的表达式为:

A=A1×A2×…×Ai×…×An

其中,Ai为智能体i的输出离散动作集,n为智能体个数。

4.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:的短期奖励函数信号Ri(k)的表达式为:

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&sigma;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> <mtd> <mrow> <mi>C</mi> <mi>P</mi> <mi>S</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>200</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>&eta;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mo>&lsqb;</mo> <mo>|</mo> <msub> <mi>ACE</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mo>|</mo> <msub> <mi>ACE</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>|</mo> <mo>&rsqb;</mo> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>C</mi> <mi>P</mi> <mi>S</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>100</mn> <mo>,</mo> <mn>200</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>&eta;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> <mo>&lsqb;</mo> <mo>|</mo> <mi>C</mi> <mi>P</mi> <mi>S</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mn>200</mn> <mo>|</mo> <mo>-</mo> <mo>|</mo> <mi>C</mi> <mi>P</mi> <mi>S</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mn>200</mn> <mo>|</mo> <mo>&rsqb;</mo> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>C</mi> <mi>P</mi> <mi>S</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mn>100</mn> </mrow> </mtd> </mtr> </mtable> </mfenced>

式中,σi代表的是获得的非负奖励值;CPS1和ACE的平均值可以用来表示控制区的CPS1和CPS2指标,ACEi(k)、CPS1i(k)分别代表控制区域i第k次迭代的1min ACE和CPS1的平均值;ΔPi(k)是区域电网i调度中心第k次迭代功率调节值,η1i、η2i、μ1i和μ2i是区域电网i奖励函数的优化权值;ΔPi(k)的二次项的使用是为了减少控制动作的数量以减少发电机不必要的机动;此外,为了确保分段奖励函数的一致性和公平性,权重比值η1i2i和μ1i2i应该保持恒定不变,且它们的取值取决于状态变量CPS1/ACE和动作变量ΔP(k)的维数差异。

5.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤5的智能体在第k步迭代过程中的Q函数误差的ρk和Q函数误差的评估δk,它们的表达式为:

δk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ag)

ρk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ak),

式中,γ为折扣因子,为Q函数将来的奖励提供折扣;在热电厂为主导的LFC控制过程中,由于最新的奖励最重要,所以应该选取近似1的值;R(sk,sk+1,ak)为在选定的动作ak下,从状态sk转移到状态sk+1的智能体奖励函数;ag为贪婪动作;Q(sk,ak)为动作ak下,状态sk的Q函数;Q(sk,ag)为贪婪动作ag下,状态sk的Q函数。

6.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤6的Q函数的更新为:

Qk+1(sk,ak)=Qk(sk,ak)+αδkek(sk,ak)

Qk+1(sk,ak)=Qk+1(sk,ak)+αρk

式中,ek(sk,ak)为在状态s动作a下第k步迭代的时间隧道,α为Q学习率,设置为0<α<1,对Q函数的收敛速率即算法稳定性进行权衡;更大的α可以加快学习速度,而更小的α能提高系统的稳定性;在预学习过程中,选择α的初始值为0.1以获得总体的探索,然后为了逐渐提高系统的稳定性,它将以线性方式减少;ρk为第k步迭代过程中的Q函数误差;δk在第k步迭代过程中的Q函数误差的评估;Qk(sk,ak)为动作ak下,状态sk的第k个智能体的Q函数;Qk+1(sk,ak)为动作ak下,状态sk的第k+1个智能体的Q函数;

更新时间隧道ek(sk,ak)为:

<mrow> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&gamma;&lambda;e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> <mo>=</mo> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&gamma;&lambda;e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

式中,λ为时间隧道衰减因子设置为0<λ<1,其作用是在状态动作对间分配信誉;对于长时延系统,它影响收敛速度及非马尔可夫效果,一般来说,回溯法里λ能被看作为时间标度因素,对于Q函数误差来说,小的λ意味着很少的信誉被赋予到历史状态动作对,而大的λ表明分配到了更多的信誉;γ为折扣因子,为Q函数将来的奖励提供折扣;ek(s,a)为为在状态s动作a下第k步迭代的时间隧道;ek+1(s,a)为为在状态s动作a下第k+1步迭代的时间隧道。

7.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤7的混合策略π(s,a)更新为:

<mrow> <mi>&pi;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&LeftArrow;</mo> <mi>&pi;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&Delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> </mrow>

式中Δsa是策略更新时需要的增量变化量,它按照下面公式取值:

<mrow> <msub> <mi>&Delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <msub> <mi>&delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>&NotEqual;</mo> <mi>arg</mi> <mi> </mi> <msub> <mi>max</mi> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </msub> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>&Sigma;</mo> <msub> <mi>&delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> <mo>,</mo> </mrow> </msub> </mrow> </msub> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

一般情况下,δsa按照下面公式取值:

式中为变学习率,且δ为学习率,|Ai|为状态s下可选行动的个数。

8.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤8的更新时间隧道元素:e(sk,ak)←e(sk,ak)+1;e(sk,ak)为在状态s动作a下第k步迭代的时间隧道。

9.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤9的选择变学习率为:

通过引入决策变化率以及决策空间斜率值,作为评判因素,若决策变化率和决策空间斜率估计值的乘积小于0,游戏者便赢了,变学习率设置为根据动作值的最大化得到一个最优策略。

10.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤10的更新决策改变率Δ(sk,ak)和决策空间估计斜率Δ2(sk,ak)为:

<mrow> <mi>&Delta;</mi> <mn>2</mn> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&LeftArrow;</mo> <msub> <mi>&Delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>&Delta;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>&Delta;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&LeftArrow;</mo> <msub> <mi>&Delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> </mrow>

式中,Δsa是策略更新时需要的增量变化量,Δ(sk,ak)是决策改变率,Δ2(sk,ak)是决策空间估计斜率;通过引入增量变化量Δsa与决策改变率Δ(sk,ak),更新决策空间估计斜率Δ2(sk,ak),引入增量变化量Δsa,更新决策改变率Δ(sk,ak)。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1