本发明属于电力负荷管理,具体涉及一种基于组合在线学习的低碳需求响应方法。
背景技术:
1、为了应对气候变化问题,能源系统的低碳化转型逐渐成为各国的共同目标。需求响应作为参与电网“双向互动”的主要形式,能够在提高系统稳定运行能力的同时减少碳排放量。现有的需求响应研究主要关注实现系统调峰调频、参与电力市场与提供辅助服务等场景,缺乏对减碳场景的分析。因此,有必要开展通过需求响应实现减碳的研究,这类研究被称为低碳需求响应(low carbon demand response,lcdr)。
2、让用户掌握其能源使用情况或减碳措施的有效性有助于提升减碳量。然而现有的低碳需求响应研究无法向用户提供其用电行为对应的碳排量或减碳措施的有效性,需要对用户用电行为对应的碳排量进行定量分析;同时,用户的响应行为具有随机性,使得需求响应存在响应规模偏小、用户响应意愿低的问题;此外,需求响应的用户优选方案仍依靠经验,如何对需求响应挑选用户策略进行优化和验证,引导用户积极、有效地参与需求响应,是现有需求响应研究中亟待解决的问题。
技术实现思路
1、针对现有技术的不足,本发明的目的在于提供一种基于组合在线学习的低碳需求响应方法。
2、本发明的目的可以通过以下技术方案实现:
3、一种低碳需求响应方法,包括:
4、根据电力系统碳排放流理论,构建用户用电行为对应的碳排放量模型;
5、求解所述碳排放量模型,在需求响应策略实施的设定时间计算得出各节点的动态碳势;
6、通过负荷聚合商将节点碳势影响下的低碳需求响应问题构建为组合在线学习模型;将所述组合在线学习模型拓展为上下文组合在线学习模型,根据所述动态碳势与用户响应情况更新用户优选策略,挑选符合设定规则的参与需求响应的用户并发送指令;
7、获得用户群总响应量,其中所述用户群总响应量是负荷聚合商根据接收到的用户发送的响应情况计算得到;
8、根据所述用户群总响应量确定低碳需求响应。
9、进一步地,所述各节点的动态碳势的计算方法如下:
10、假设有一确定的拓扑结构,由n个节点构成,在每个时段t∈[t]中,节点j∈[n]:{1,...,n}的碳势ej,t为:
11、
12、ρkj,t=ek,t
13、式中,表示流入j节点的其他节点的集合,表示接入j节点的火电机组节点集合,fkj,t表示由k节点注入j节点的实时有功功率,ρkj,t为支路k-j的实时碳排放流密度,其在数值上等于首节点k的碳势ek,t,pi,t、分别表示接入j节点的火电机组i的实时有功出力与实时碳排放强度;
14、zi,t表示被选中用户的响应情况,zi,t为遵守概率为pi,t的随机伯努利分布:
15、zi,t~b(pi,t)
16、用ri,t表示用户i在t时段因响应需求响应指令造成的减碳量,通过节点碳势ej,t来计算ri,t:
17、ri,t=ej,tdprezi,t
18、式中,dpre为用户i在t时段的预估响应量,本文假设所有用户的预估响应量是相同的,若用户响应需求响应指令则会在其原有的基线负荷基础上削减dpre,否则维持其基线负荷,用di,t表示用户i在t时段实际参与需求响应削减的负荷量di,t,即di,t=dprezi,t。
19、进一步地,所述需求响应中的组合在线学习模型的构建方法包括以下步骤:
20、负荷聚合商首先向用户发送指令,根据用户的响应情况计算出奖励rwi,t,用于反映用户在实际需求响应事件下的减碳量;再得到奖励后负荷聚合商根据奖励调整挑选用户策略,负荷聚合商的目标是最大化在多轮交互过程中获得的奖励的期望;
21、构建在线学习模型的目标函数:
22、rwi,t=di,tzi,tej,t
23、di,t表示用户i在t时段实际参与需求响应削减的负荷量di,t,即di,t=dprezi,t;ej,t表示在t时段内节点j的的碳势;zi,t表示被选中用户的响应情况;
24、根据所述的在线学习模型的目标函数获得在线学习模型。
25、进一步地,所述构建的上下文组合在线学习模型具体步骤如下:
26、将所述组合在线学习模型拓展为上下文组合在线学习模型,将ej,t通过碳表发送给用户;上下文组合在线学习模型学习了碳核算结果与环保意识对用户减碳量的影响情况,从而最大化需求响应的减碳量;
27、e(rwi,t|ej,t)=ej,tθi
28、其中,θi为一个有待学习的未知系数;
29、上下文组合在线学习的目标为最大化在多轮交互过程中获得的奖励的期望,目标函数为:
30、maxe(rwi,t|ej,t)=ej,tθi。
31、进一步地,所述组合在线学习模型的求解方法包括:
32、令gi为m*d维的矩阵,行数m表示用户i在历史动作中观察到的m个上下文信息,列数d表示影响所有用户的d列上下文信息,对训练参数(gi,bi)采用岭回归可以得到对参数θi的估计:
33、
34、式中,ci为m维历史奖励数据,上下文信息xi,i与奖励的期望e(ri,t|xi,t)满足:
35、
36、式中,α为一个大于1的常系数;
37、上述不等式为预期的奖励提供了上置信界,所述线性上置信界算法选取最优用户的策略为:
38、
39、进一步地,还包括构建用于评价所述用户群总响应的评价指标包括到位率与懊悔,其中
40、所述到位率ηt用于反应响应响应指令的用户占总签约用户的比例:
41、
42、
43、
44、式中,kt和ke,t分别为t时段挑选的用户总数与t时段总响应用户数,nj,t和nj,e,t分别为t时段节点j挑选的用户数与t时段节点j的响应用户数。
45、其中懊悔包括单步懊悔与累计懊悔两项指标,单步懊悔rt描述了每次挑选用户奖励离最优奖励的差距,累计懊悔yt则刻画出操作t次后累积的单步懊悔总量:
46、
47、
48、式中,rt、yt分别表示t时段控制策略的单步懊悔与累计懊悔,rwi*与rwi,t分别为t时段的最优奖励与实际奖励。
49、一种低碳需求响应系统,包括:
50、碳排放量模型构建模块:根据电力系统碳排放流理论,构建用户用电行为对应的碳排放量模型,求解此模型,在需求响应策略实施的设定时间计算得出各节点的动态碳势;
51、上下文组合在线学习模型构建模块,用于将节点碳势影响下的低碳需求响应问题构建为组合在线学习模型,将所述组合在线学习模型拓展为上下文组合在线学习模型,根据所述动态碳势与用户响应情况更新用户优选策略,挑选符合设定规则的参与需求响应的用户并发送指令;
52、用户群总响应量计算模块,用于通过负荷聚合商根据接收到的用户发送的响应情况计算获得用户群总响应量;
53、综合评价模块,用于根据所述用户群总响应量确定低碳需求响应。
54、一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述的方法。
55、一种计算设备,包括:一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述的方法的指令。
56、本发明的有益效果:
57、本发明通过碳排放流理论量化了用户用电行为对应的碳排放量,为科学合理的引导用户进行减碳提供了依据;通过上下文组合在线学习方法高效地解决用户响应行为的不确定性,提升了需求响应的减碳量与用户的到位率,可以实现更好地优化源侧电源出力结构,加速电力系统的低碳化转型。