一种基于深度强化学习的电力市场投标策略优化的方法

文档序号:31130843发布日期:2022-08-13 05:38阅读:321来源:国知局
一种基于深度强化学习的电力市场投标策略优化的方法

1.本发明涉及强化学习领域,更具体地,涉及一种基于深度强化学习的电力市场投标策略优化的方法。


背景技术:

2.针对寡头竞争的电力市场投标策略的模拟,在大多数文献中,所使用的电力市场投标模型大多数以单层的优化公式为主,例如文献《基于多代理的中长期电力市场竞价仿真研究》将发电侧和用电侧分开建模,调度中心(iso)以双方报价差额为利润,将投标策略建模为月度中长期集中竞价形式,模拟了单边竞价和双边竞价时市场主体的行为;同样地,《a3c强化学习的电力市场发电商报价策略研究》发电侧和用电侧分开建模,模拟中长期的投标策略。上述文献都是使用了单层优化模型,没有将发电商报价与用户需求直接挂钩,本专利侧重于用线性供给函数均衡模型(lsfe)对的电力市场的投标策略进行模拟,将供需双方的整合为一个双层优化的模型,能够体现发电公司的投标策略对用户侧的用电需求的实时影响。而在计算线性供给函数均衡模型(lsfe)的过程中,通常需要多次求解各发电公司个体所对应的双层优化问题,以社会效益最大化为目标对市场进行出清。下层优化主要解决市场出清的供求平衡问题,上层优化实现发电公司的利益最大化。
3.在其他使用双层优化的文献中,如《基于多智能体强化学习的电力现货市场定价机制研究》、《deep reinforcement learning for strategic bidding in electricity markets》都是以最小化机组运行成本为优化目标,而本专利的下层优化公式主要考虑了电力公司出清价格对每个公司的出清量和对用户侧用电量需求的影响,在参与者之间的相互博弈中寻找到最优策略。在多代理的电力市场中,不同发电公司属于竞争关系,发电公司的策略与出清价格挂钩,每个发电公司给出的不同的策略会影响调度中心(iso)偏向于购买哪个公司的电,用户的需求也会因为发电公司的策略而做出改变。如果发电公司的价格偏高就会使用电需求降低,利润随之减小;如果发电公司的策略差异过大就会出现调度中心完全偏向于购买某一发电公司的电,这种情况会导致其它发电公司的利润接近零。本专利的下层模型就是要通过发电公司之间的博弈选择合适的策略最大化所有公司的利润,达到均衡的状态。
4.针对具有平衡约束的数学规划(mpec)问题的求解,现在常用到的有分支界定法、内点法以及灵敏度法等传统方法,这些方法通过循环求解各发电商所对应的双层优化问题来获取均衡解,但此类方法通常十分复杂,且一般需要设置较好的初值。上述方法通常将需求解的模型看作一个单阶段博弈,然而,在每天或每小时运行的电力市场中,静态博弈模型可能无法充分反映市场参与者的行为特征。在实证研究中,发电商的行为更类似于默契共谋,而不是静态博弈。在默契共谋中,发电商之间没有明确的协议,市场价格的上涨仅仅是由于每个发电商对市场清算的看法。事实上,在博弈论建模的情况下,在一个无限重复的静态博弈中,一组数据可以支持许多不同的共谋结果,这在文献中通常被称为folk定理。虽然民间定理支持默契共谋的存在,但它不能描述共谋的程度和特征。此外,folk定理还局限于
完全信息博弈,不能严格反映不完全信息下的电力市场。
5.作为传统方法的替代方法,基于多智能体(mas)的市场模拟能够在信息不完全的情况下反映市场动态。强化学习(rl)是一种机器学习技术,常用于多智能体系统(mas),它使智能体能够在交互环境中通过尝试和报错的方式,利用自身行为和经验的反馈进行学习。电力市场中常用的rl算法有roth-erev学习、q-learning算法及其变体,它们将所有动作或状态动作对的估计值存储在表中,并与环境交互以更新表,因此其需要对状态和动作空间离散化。也因此,rl算法时常会遭受维数灾难的问题;随着所考虑的离散状态和动作的数量增加,计算负担呈指数增长,很快使问题变得棘手。另一方面,如果考虑了少量离散状态和行为,代理收到的关于其行为对环境影响的反馈会被扭曲,可行的行为空间会受到不利影响,从而导致次优投标决策。由于环境状态(市场清算价格和调度)和代理人行为(战略投标决策)不仅是连续的,而且是多维度的(由于问题的多阶段性),因此在设置所研究的市场建模问题时,这一现象更加严重。
6.现有算法中的与深度神经网络相结合的深度q学习(dqn)算法能够解决传统强化学习所遇到的困难。深度q学习是深度强化学习的开山之作,其将强化学习与深度学习原理相结合,用深度神经网络去逼近动作-值函数,并加入经验回放池储存将系统探索环境得到的数据储存起来,然后随机采样样本更新深度神经网络的参数。用dqn的方法去求解供给函数均衡模型,可以求出不完全信息下的电力市场的纳什均衡,考虑长期利益找出比常规方法更优的策略,可析电力市场的行为。
7.现有技术中公开了一种虚拟电厂参与日前电力市场的优化投标策略的专利,该专利针对虚拟电厂参与日前电力市场投标研究,建立了优化投标模型,提出了优化投标策略,为今后虚拟电厂参与日前电力市场提供了科学理论支持。所建立的成本容量模型,充分考虑了虚拟电厂内部多类型不同需求侧资源出力特性,生成的优化投标策略计及了投标主体内部不同需求侧资源在日前市场投标电量和投标电价,体现了投标策略的优越性。然而,该专利对如何解决电力市场的具有平衡约束的数学规划(mpec)问题鲜有报道。


技术实现要素:

8.本发明提供一种基于深度强化学习的电力市场投标策略优化的方法,该方法解决了电力市场的具有平衡约束的数学规划(mpec)问题。
9.为了达到上述技术效果,本发明的技术方案如下:
10.一种基于深度强化学习的电力市场投标策略优化的方法,包括以下步骤:
11.s1:建立市场电力市场仿真实验环境,包括发电公司投标函数即线性供给函数均衡模型和市场出清模型;
12.s2:将s1中模型构成一个具有平衡约束的数学规划mpec问题,这是一个双层优化的模型,供应侧需求直接受投标策略影响,下层优化主要解决市场出清的供求平衡问题,上层优化实现发电公司的利益最大化;市场出清模型为凸二次规划问题,其作为mpec的kkt条件等价于全局的最优解;
13.s3:mpec的模型用博弈论方法可以求出单阶段静态博弈的纳什均衡α
*
,此处的纳什均衡策略即是能够实现社会福利最大化的纳什均衡,其求解过程假设信息是完整的,每个发电公司在选择自己的策略时也知道其他发电公司的策略,将此处的纳什均衡α
*
作为指
标对算法的性能进行评估;
14.s4:对步骤s1所建立的mpec模型用深度q学习算法进行求解,得到最优的不考虑长期影响的静态博弈的纳什均衡策略α
*

15.s5:调整dqn算法的参数,使之得出考虑长期影响的动态博弈的纳什均衡策略;
16.s6:比较用dqn算法法与博弈论方法求解出的静态博弈的最优策略的拟合程度,并用dqn算法求出的动态博弈的最优策略分析市场行为和发电公司之间的默契合谋程度。
17.进一步地,所述步骤s1中建立市场电力市场仿真实验环境的过程是:
18.s11:用线性供给函数均衡模型isfe对发电公司的投标过程进行分析,其成本函数建模为其输出功率的二次函数:
[0019][0020][0021]
其中,p
gt
是时间间隔t时的输出功率,和分别为最大、最小的发电限制,代表一套发电机组,g表示发电机组中的第g个发电机;
[0022]
s12:发电公司的边际成本是输出功率的线性函数:
[0023][0024]
s13:在每个时间点,各发电公司向iso提交供货报价,供给函数可以描述为:
[0025][0026]
其中,α
gt
是供给函数的截距,作为策略变量,斜率保持不变;
[0027]
s14:在时间t,电力用户在负载d的需求曲线描述为:
[0028][0029]
其中,fd是斜率,不随时间变化,q
dt
是电力用户的需求量,是时间间隔的最大负荷需求;
[0030]
s15:iso以社会总效益最大化为目标,对市场进行出清,将上述公式进行整合,在时间t的市场清算用直流潮流模型来表示:
[0031][0032][0033]-f≤ptdf(p
t-q
t
)≤f
[0034][0035]
下层的mpec问题以支路流量、发电出力为约束,满足节点功率平衡,其中,p
t
和q
t
是所有节点的发电量和需求向量,分别是p
t
和q
t
的线性组合,ptdf是功率传输分布系数矩阵,f是线路最大流量限制向量;
[0036]
s16:在时间t,发电公司的利润为:
[0037][0038]
其中,λ
it
是节点i的节点价格。
[0039]
进一步地,以节点电价作为出清的价格,发电公司的投标策略影响出清的价格,进而影响着发电公司的利润和出清量,在下层保证市场供求平衡的情况下实现上层的发电公司利益最大化,使发电公司不能随意调整电价,静态博弈用步骤s1求出每个发电公司的最优策略,将其记为无限重复博弈建模为静态博弈的序列γ1,γ2,γ3,

,对于每个发电公司t时刻的利润为:
[0040][0041]
γ是所有发电公司共享的折扣因子,γ∈(0,1);γ越接近1,发电公司在博弈中越关注长期利益。
[0042]
进一步地,所述步骤s4中深度q学习算法包括以下步骤:
[0043]
s41:初始化容量为n的经验回放池d;
[0044]
s42:用随机权重θ初始化动作-价值函数q(s1,a);
[0045]
s43:初始化迭代次数为t=0,并设置最大迭代次数;
[0046]
s44:初始化事件的状态为s1;
[0047]
s45:通过预处理得到状态对应的特征输入;
[0048]
s46:将状态s输入神经网络,得到动作-价值函数q(s
t
,a;θ);
[0049]
s47:根据贪婪策略选择动作a
t

[0050]
s48:在电力市场环境中执行策略a
t
,返回下一步动作s
t+1
,回报r
t

[0051]
s49:将(s
t
,a
t
,r
t
,s
t+1
)放入经验回放池,其中,s
t
为t时刻节点价格,回报r
t
为t时刻的利润;
[0052]
s410:从经验回放池中随机选取一组样本记为(sj,aj,rj,s
j+1
);
[0053]
s411:计算目标网络:
[0054][0055]
s412:执行梯度下降算法(q_target-q(s_t,a;θ))2;
[0056]
s413:使用软更新更新动作值函数逼近的网络参数θ=τθ+(1-τ)θ

,其中τ为网络参数的软更新率,θ

目标网络的参数;
[0057]
s414:重复执行s42-s413,最终得到最优的策略a
*

[0058]
进一步地,所述步骤s47中的贪婪策略具体为:
[0059][0060]
其中,x是一个在[0,1]区间的随机数,ε表示探索率。
[0061]
进一步地,在不考虑长期影响的静态博弈中,步骤s411中的γ=0。
[0062]
进一步地,将α
*
作为性能指标,比较dqn得出的最优策略a
*
与α
*
的拟合程度,二者的拟合度越高,说明算法性能越好;如果α
*
能够拟合α
*
,说明dqn算法可以替代博弈论方法拟合
电力市场的纳什均衡策略,在不完全信息的市场环境下找到最优的策略使发电公司的利益最大化。
[0063]
进一步地,在考虑长期影响的无限重复博弈中,将γ逐渐增大使其接近1,分析代理之间默契合谋出现的时机,以及默契合谋的程度;当出现默契合谋时,发电公司会为了获得更高的利润共同抬高电价,在算法中体现为a
*
向上偏离纳什均衡,且会收敛到不同的均衡值。
[0064]
进一步地,所述f
dt
=[0.08,0.06];
[0065]
输入电力市场的环境的策略变量标准化为:
[0066][0067]
其中,a
gt
为动作空间,a
gt
∈(-0.5,0.5)。
[0068]
与现有技术相比,本发明技术方案的有益效果是:
[0069]
本发明方法使用的双层优化模型,以社会效益最大化为目标对市场进行出清,下层优化主要解决市场出清的供求平衡问题,上层优化实现发电公司的利益最大化。能够体现投标策略对用电侧需求的实时影响。针对电力市场的平衡约束的数学规划(mpec)问题的求解,常规的分支界定法、内点法以及灵敏度法等,必须在完全信息的情况下用到,并且其通常将需求解的模型看作一个单阶段博弈。然而,在每天或每小时运行的电力市场中,静态博弈模型可能无法充分反映市场参与者的行为特征。本方法可以在不完全信息的状态下、不知道其他代理的策略的情况下求解电力市场的带均衡约束(mpec)的数学规划问题,逼近纳什均衡,并可以考虑长期影响找出比常规方法更优的策略,模拟出市场行为,并且能够描述代理之间默契合谋的行为,反应默契共谋的行为和特征。
附图说明
[0070]
图1为一种基于深度强化学习的模拟电力市场投标策略的仿真流程图;
[0071]
图2为一种基于深度强化学习的模拟电力市场投标策略的仿真结果;
[0072]
图3为三节点电力系统示意图。
具体实施方式
[0073]
附图仅用于示例性说明,不能理解为对本专利的限制;
[0074]
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0075]
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0076]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0077]
实施例1
[0078]
如图1所示,一种基于深度强化学习的电力市场投标策略优化的方法,包括以下步骤:
[0079]
s1:建立市场电力市场仿真实验环境,包括发电公司投标函数即线性供给函数均
衡模型和市场出清模型;
[0080]
s2:将s1中模型构成一个具有平衡约束的数学规划mpec问题,这是一个双层优化的模型,供应侧需求直接受投标策略影响,下层优化主要解决市场出清的供求平衡问题,上层优化实现发电公司的利益最大化;市场出清模型为凸二次规划问题,其作为mpec的kkt条件等价于全局的最优解;
[0081]
s3:mpec的模型用博弈论方法可以求出单阶段静态博弈的纳什均衡α
*
,此处的纳什均衡策略即是能够实现社会福利最大化的纳什均衡,其求解过程假设信息是完整的,每个发电公司在选择自己的策略时也知道其他发电公司的策略,将此处的纳什均衡α
*
作为指标对算法的性能进行评估;
[0082]
s4:对步骤s1所建立的mpec模型用深度q学习算法进行求解,得到最优的不考虑长期影响的静态博弈的纳什均衡策略α
*

[0083]
s5:调整dqn算法的参数,使之得出考虑长期影响的动态博弈的纳什均衡策略;
[0084]
s6:比较用dqn算法法与博弈论方法求解出的静态博弈的最优策略的拟合程度,并用dqn算法求出的动态博弈的最优策略分析市场行为和发电公司之间的默契合谋程度。
[0085]
步骤s1中建立市场电力市场仿真实验环境的过程是:
[0086]
s11:用线性供给函数均衡模型isfe对发电公司的投标过程进行分析,其成本函数建模为其输出功率的二次函数:
[0087][0088][0089]
其中,p
gt
是时间间隔t时的输出功率,和分别为最大、最小的发电限制,代表一套发电机组,g表示发电机组中的第g个发电机;
[0090]
s12:发电公司的边际成本是输出功率的线性函数:
[0091][0092]
s13:在每个时间点,各发电公司向iso提交供货报价,供给函数可以描述为:
[0093][0094]
其中,α
gt
是供给函数的截距,作为策略变量,斜率保持不变;
[0095]
s14:在时间t,电力用户在负载d的需求曲线描述为:
[0096][0097]
其中,fd是斜率,不随时间变化,q
dt
是电力用户的需求量,是时间间隔的最大负荷需求;
[0098]
s15:iso以社会总效益最大化为目标,对市场进行出清,将上述公式进行整合,在时间t的市场清算用直流潮流模型来表示:
[0099]
[0100][0101]-f≤ptdf(p
t-q
t
)≤f
[0102][0103]
下层的mpec问题以支路流量、发电出力为约束,满足节点功率平衡,其中,p
t
和q
t
是所有节点的发电量和需求向量,分别是p
t
和q
t
的线性组合,ptdf是功率传输分布系数矩阵,f是线路最大流量限制向量;
[0104]
s16:在时间t,发电公司的利润为:
[0105][0106]
其中,λ
it
是节点i的节点价格。
[0107]
以节点电价作为出清的价格,发电公司的投标策略影响出清的价格,进而影响着发电公司的利润和出清量,在下层保证市场供求平衡的情况下实现上层的发电公司利益最大化,使发电公司不能随意调整电价,静态博弈用步骤s1求出每个发电公司的最优策略,将其记为无限重复博弈建模为静态博弈的序列γ1,γ2,γ3,

,对于每个发电公司t时刻的利润为:
[0108][0109]
γ是所有发电公司共享的折扣因子,γ∈(0,1);γ越接近1,发电公司在博弈中越关注长期利益。
[0110]
步骤s4中深度q学习算法包括以下步骤:
[0111]
s41:初始化容量为n的经验回放池d;
[0112]
s42:用随机权重θ初始化动作-价值函数q(s1,a);
[0113]
s43:初始化迭代次数为t=0,并设置最大迭代次数;
[0114]
s44:初始化事件的状态为s1;
[0115]
s45:通过预处理得到状态对应的特征输入;
[0116]
s46:将状态s输入神经网络,得到动作-价值函数q(s
t
,a;θ);
[0117]
s47:根据贪婪策略选择动作a
t

[0118]
s48:在电力市场环境中执行策略a
t
,返回下一步动作s
t+1
,回报r
t

[0119]
s49:将(s
t
,a
t
,r
t
,s
t+1
)放入经验回放池,其中,s
t
为t时刻节点价格,回报r
t
为t时刻的利润;
[0120]
s410:从经验回放池中随机选取一组样本记为(sj,aj,rj,s
j+1
);
[0121]
s411:计算目标网络:
[0122][0123]
s412:执行梯度下降算法(q_target-q(s_t,a;θ))2;
[0124]
s413:使用软更新更新动作值函数逼近的网络参数θ=τθ+(1-τ)θ

,其中τ为网络
参数的软更新率,θ

目标网络的参数;
[0125]
s414:重复执行s42-s413,最终得到最优的策略a
*

[0126]
步骤s47中的贪婪策略具体为:
[0127][0128]
其中,x是一个在[0,1]区间的随机数,ε表示探索率。
[0129]
在不考虑长期影响的静态博弈中,步骤s411中的γ=0;将α
*
作为性能指标,比较dqn得出的最优策略a
*
与α
*
的拟合程度,二者的拟合度越高,说明算法性能越好;如果a
*
能够拟合α
*
,说明dqn算法可以替代博弈论方法拟合电力市场的纳什均衡策略,在不完全信息的市场环境下找到最优的策略使发电公司的利益最大化;在考虑长期影响的无限重复博弈中,将γ逐渐增大使其接近1,分析代理之间默契合谋出现的时机,以及默契合谋的程度;当出现默契合谋时,发电公司会为了获得更高的利润共同抬高电价,在算法中体现为a
*
向上偏离纳什均衡,且会收敛到不同的均衡值;偏离纳什均衡,且会收敛到不同的均衡值;f
dt
=[0.08,0.06];
[0130]
输入电力市场的环境的策略变量标准化为:
[0131][0132]
其中,a
gt
为动作空间,a
gt
∈(-0.5,0.5)。
[0133]
实施例2
[0134]
采用图3所示的3节点电力系统作为实例。系统中节点2是负荷节点,节点3是发电节点,节点1既是负荷节点也是发电节点。各节点间联络线具有相同的电抗。实例将计算节点1、2处的纳什均衡策略。节点1、2处的逆负荷需求曲线分别为40-0.08q1和40-0.06q2$/(mw
·
h)。节点1、3处发电商的边际成本曲线分别为15+0.01p1和18+0.008p2$/(mw
·
h);出力上限分别为200和500mw。仅有一条关键支路l
12
,其传输极限为30mw。
[0135]
在本实例使用多个基于dqn的代理来模拟电力市场,其中每个代理独立学习自己的策略,将其他代理视为环境的一部分。
[0136]
假设策略变量α
gt
可以在的0-3倍范围内自由赋值,即
[0137]
将动作空间设置为a
gt
∈(-0.5,0.5);
[0138]
将输入电力市场的环境的策略变量标准化为将输入电力市场的环境的策略变量标准化为
[0139]
如图1-2所示,一种基于深度强化学习的电力市场投标策略优化的方法,包括以下步骤:
[0140]
s1、建立市场电力市场仿真实验环境,包括发电公司投标函数,市场出清模型。
[0141]
s2、将s1中函数描述成一个具有平衡约束的数学规划(mpec)问题,其函数是一个双层优化的模型。市场出清模型为凸二次规划问题,其作为mpec的kkt条件等价于全局的最优解。
[0142]
s3、mpec的模型用mpec优化器可以求出单阶段静态博弈的纳什均衡(α
1t*

2t*
),其求解过程假设信息是完整的,每个发电公司在选择自己的策略时也知道其他发电公司的策略,将其作为指标对算法的性能进行评估。
[0143]
s4、对步骤s1所建立的mpec模型用dqn学习的方法进行求解,得到两个节点的不考虑长期影响的静态博弈的纳什均衡策略(a
1t*
,a
2t*
)。
[0144]
s5、调整dqn算法的参数,使之得出考虑长期影响的动态博弈的纳什均衡策略。
[0145]
s6、比较用强化学习方法与博弈论方法所求解出的静态博弈最优策略的拟合程度,并用动态博弈的最优策略分析市场行为和发电公司之间的默契合谋程度。
[0146]
将步骤s1中的电力市场建模为,每个发电公司面临的mpec问题可表述为下列双层优化问题:
[0147]
上层优化:
[0148][0149][0150]
下层优化:
[0151][0152][0153]-f≤ptdf(p
t-q
t
)≤f
[0154][0155]
其中,上层优化以最大化利润为目标,将策略变量的上下限作为约束;下层优化以以总社会效益(即用电侧总收益-发电公司总收益)最大化为目标进行市场出清,将以支路流量、发电出力为约束,满足节点功率平衡。
[0156]
由于需求出两个节点的策略变量,所以所有的参数都是二维,分别对应两个节点,f
dt
=[0.08,0.06],=[0.08,0.06],
[0157]
步骤s4 dqn算法流程包括:
[0158]
s4.1、初始化容量为128的经验回放池d;
[0159]
s4.2、用随机权重θ初始化动作-价值函数q(s
g1
,a;θ);
[0160]
s4.3、初始化迭代次数为t=0,由于dqn的动作是离散的,所以需要设置较长的迭代次数,使t=30000;
[0161]
s4.4、初始化事件的状态为s1;
[0162]
s4.5、通过预处理得到状态对应的特征输入;
[0163]
s4.6、将状态s输入神经网络,得到动作-价值函数q(s
gt
,a;θ);
[0164]
s4.7、根据贪婪策略选择动作(a
1t
,a
2t
);
[0165]
s4.8、在电力市场环境中执行策略a
t
,返回下一步动作s
t+1
,回报r
t

[0166]
s4.9、将一组(sj,aj,rj,s
j+1
)放入经验回放池;
[0167]
s4.10、从经验回放池中随机选取一组样本记为(sj,aj,rj,s
j+1
);
[0168]
s4.11、计算目标网络:
[0169][0170]
s4.12、执行梯度下降算法(y
j-q(s
t
,a;θ))2;
[0171]
s4.13、使用软更新的方式更新动作值函数逼近的网络参数θ=τθ+(1-τ)θ


[0172]
s4.14、重复执行s4.2-s4.13,最终得到最优的策略(a
1t*
,a
2t*
)。
[0173]
s23、步骤s4.7的贪婪策略具体为:
[0174][0175]
其中,x是一个在[0,1]区间的随机数,ε表示探索率。
[0176]
ε按照下列式子衰减:
[0177][0178]
其中,令max_t=25000,max_ε=0.5,在静态博弈中设γ=0,观察其与用博弈论方法求出的最优策略(α
1t*

2t*
)的拟合情况;
[0179]
在无限重复博弈中逐渐增大γ直至接近1,观察市场出现默契合谋时的值,并分析默契合谋的程度。
[0180]
将用博弈论算法求出的纳什均衡(α
1t*

2t*
)作为性能指标,由图2可看出由dqn算法求出的静态博弈最优策略能够较好地拟合由博弈论算法其求出的最优策略,证明了dqn算法的有效性。
[0181]
改变算法参数,令γ=0.95,求出动态博弈的纳什均衡,分析市场行为和发电公司之间的默契合谋程度。
[0182]
为验证算法的性能,本专利还用了三十节点电力系统数据进行了实验,其结果同样证明了算法的有效性。
[0183]
实施例3
[0184]
如图1所示,一种基于深度强化学习的电力市场投标策略优化的方法,包括以下步骤:
[0185]
s1:建立市场电力市场仿真实验环境,包括发电公司投标函数即线性供给函数均衡模型和市场出清模型;
[0186]
s2:将s1中模型构成一个具有平衡约束的数学规划mpec问题,这是一个双层优化的模型,供应侧需求直接受投标策略影响,下层优化主要解决市场出清的供求平衡问题,上层优化实现发电公司的利益最大化;市场出清模型为凸二次规划问题,其作为mpec的kkt条件等价于全局的最优解;
[0187]
s3:mpec的模型用博弈论方法可以求出单阶段静态博弈的纳什均衡α
*
,此处的纳什均衡策略即是能够实现社会福利最大化的纳什均衡,其求解过程假设信息是完整的,每个发电公司在选择自己的策略时也知道其他发电公司的策略,将此处的纳什均衡α
*
作为指标对算法的性能进行评估;
[0188]
s4:对步骤s1所建立的mpec模型用深度q学习算法进行求解,得到最优的不考虑长期影响的静态博弈的纳什均衡策略α
*

[0189]
s5:调整dqn算法的参数,使之得出考虑长期影响的动态博弈的纳什均衡策略;
[0190]
s6:比较用dqn算法法与博弈论方法求解出的静态博弈的最优策略的拟合程度,并用dqn算法求出的动态博弈的最优策略分析市场行为和发电公司之间的默契合谋程度。
[0191]
将步骤s1中的电力市场建模为,每个发电公司面临的mpec问题可表述为下列双层优化问题:
[0192]
上层优化:
[0193][0194][0195]
下层优化:
[0196][0197][0198]-f≤ptdf(p
t-q
t
)≤f
[0199][0200]
其中,上层优化以最大化利润为目标,将策略变量的上下限作为约束;下层优化以以总社会效益(即用电侧总收益-发电公司总收益)最大化为目标进行市场出清,将以支路流量、发电出力为约束,满足节点功率平衡。
[0201]
由于需求出两个节点的策略变量,所以所有的参数都是二维,分别对应两个节点,f
dt
=[0.08,0.06],=[0.08,0.06],
[0202]
步骤s4 dqn算法流程包括:
[0203]
s4.1、初始化容量为128的经验回放池d;
[0204]
s4.2、用随机权重θ初始化动作-价值函数q(s
g1
,a;θ);
[0205]
s4.3、初始化迭代次数为t=0,由于dqn的动作是离散的,所以需要设置较长的迭代次数,使t=30000;
[0206]
s4.4、初始化事件的状态为s1;
[0207]
s4.5、通过预处理得到状态对应的特征输入;
[0208]
s4.6、将状态s输入神经网络,得到动作-价值函数q(s
gt
,a;θ);
[0209]
s4.7、根据贪婪策略选择动作(a
1t
,a
2t
);
[0210]
s4.8、在电力市场环境中执行策略a
t
,返回下一步动作s
t+1
,回报r
t

[0211]
s4.9、将一组(sj,aj,rj,s
j+1
)放入经验回放池;
[0212]
s4.10、从经验回放池中随机选取一组样本记为(sj,aj,rj,s
j+1
);
[0213]
s4.11、计算目标网络:
[0214][0215]
s4.12、执行梯度下降算法(y
j-q(s
t
,a;θ))2;
[0216]
s4.13、使用软更新的方式更新动作值函数逼近的网络参数θ=τθ+(1-τ)θ


[0217]
s4.14、重复执行s4.2-s4.13,最终得到最优的策略(a
1t*
,a
2t*
)。
[0218]
s23、步骤s4.7的贪婪策略具体为:
[0219][0220]
其中,x是一个在[0,1]区间的随机数,ε表示探索率。
[0221]
ε按照下列式子衰减:
[0222][0223]
其中,令max_t=25000,max_ε=0.5,在静态博弈中设γ=0,观察其与用博弈论方法求出的最优策略(α
1t*

2t*
)的拟合情况;
[0224]
在无限重复博弈中逐渐增大γ直至接近1,观察市场出现默契合谋时的值,并分析默契合谋的程度。
[0225]
将用博弈论算法求出的纳什均衡(α
1t*

2t*
)作为性能指标,由图2可看出由dqn算法求出的静态博弈最优策略能够较好地拟合由博弈论算法其求出的最优策略,证明了dqn算法的有效性。
[0226]
相同或相似的标号对应相同或相似的部件;
[0227]
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
[0228]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1