适用于智能电网终端用户的用电零售套餐决策方法及系统与流程

文档序号:26543567发布日期:2021-09-07 22:46阅读:172来源:国知局
适用于智能电网终端用户的用电零售套餐决策方法及系统与流程

1.本发明涉及电力行业的用电零售套餐决策技术领域,尤其涉及一种适用于智能电网终端用户的用电零售套餐决策方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.随着电力零售市场和智能电网技术的迅速发展,各个电力公司能够在零售市场中平等竞争,提供不同的时变用电零售套餐。这使得终端用户,如住宅用户和小规模工/商业用户,有机会在各种用电零售套餐中进行自由选择和改变,以降低其电费成本。然而,个人终端用户在做出这些决定时面临着一些挑战:
4.个人终端用户很难理解过去和未来的用电零售套餐之间的关系,也无法比较和分析不同公司提供的各种用电零售套餐。在大多数情况下,用户不会花太多时间去浏览大量周期性变化的用电零售套餐,而只会选择一个没有足够决策支持的用电零售套餐,这通常会导致其电费成本提高但是满意度却不高。
5.现有技术通过强化学习方法进行用电零售套餐的选择,但是,这些方法也存在一定程度的预测和计算问题,比如:训练数据集是顺序的,其中连续时间段之间的样本是相关的;终端用户和零售电力市场之间的交互非常复杂,训练数据集很难从环境中采样;市场环境的状态空间大,增加了计算成本等。


技术实现要素:

6.为了解决上述问题,本发明提出了一种适用于智能电网终端用户的用电零售套餐决策方法及系统,将决策问题建模为改进的无转移概率马尔可夫决策过程(mdp),并使用核逼近器

集成批量q学习算法来对其进行求解,基于当前环境信息为单个电力用户选择下一个消费周期的最优用电零售套餐;能够提高预测和计算性能,为智能电网终端用户构建精确的预测策略,降低电费成本,提高用户满意度。
7.在一些实施方式中,采用如下技术方案:
8.适用于智能电网终端用户的用电零售套餐决策方法,包括:
9.获取当前各个用电零售套餐的价格信息、用户历史能耗数据信息以及用户消费偏好信息;分别建立用电零售套餐模型和用户能耗模型;
10.将两个所述模型构建的人工智能体的决策问题表述为一个改进的无转移概率的马尔可夫决策过程;
11.使用针对人工智能体的无模型强化学习方法来对所述马尔可夫决策过程进行求解,得到下一个消费周期的最优用电零售套餐。
12.在另一些实施方式中,采用如下技术方案:
13.适用于智能电网终端用户的用电零售套餐决策系统,包括:
14.模型构建模块,用于获取当前各个用电零售套餐的价格信息、用户历史能耗数据信息以及用户消费偏好信息;分别建立用电零售套餐模型和用户能耗模型;
15.模型变换模块,用于将两个所述模型构建的人工智能体的决策问题表述为一个改进的无转移概率的马尔可夫决策过程;
16.模型求解模块,用于使用针对人工智能体的无模型强化学习方法来对所述马尔可夫决策过程进行求解,得到下一个消费周期的最优用电零售套餐。
17.在另一些实施方式中,采用如下技术方案:
18.一种终端设备,其包括处理器和存储器,处理器用于实现各指令;存储器用于存储多条指令,所述指令适于由处理器加载并执行上述的适用于智能电网终端用户的用电零售套餐决策方法。
19.与现有技术相比,本发明的有益效果是:
20.本发明所提出的面向智能电网终端用户的创新用电零售套餐决策支持系统,可以帮助各个电力用户对其用电零售套餐做出决策。
21.结合采样和数据处理方法,本发明所提出的一种的改进的强化学习算法,可以适应所提出的复杂决策问题,提高预测和计算性能。
22.本发明的其他特征和附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本方面的实践了解到。
附图说明
23.图1是适用于智能电网终端用户的用电零售套餐决策过程示意图。
具体实施方式
24.应该指出,以下详细说明都是例示性的,旨在对本技术提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
25.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
26.实施例一
27.根据本发明的实施例,公开了一种适用于智能电网终端用户的用电零售套餐决策方法,包括以下过程:
28.(1)获取当前各个用电零售套餐的价格信息、用户历史能耗数据信息以及用户消费偏好信息;分别建立用电零售套餐模型和用户能耗模型;
29.(2)将两个模型构建的人工智能体的决策问题表述为一个改进的无转移概率的马尔可夫决策过程;
30.(3)使用针对人工智能体的无模型强化学习方法来对马尔可夫决策过程进行求解,得到下一个消费周期的最优用电零售套餐。
31.具体地,我们假设用电零售套餐决策系统能够基于当前环境信息为单个电力用户
选择下一个消费周期的最优用电零售套餐。所选套餐最大限度地减少了用户未来的电费成本和不满意度。用户可以调整决策系统中的几个设置,以确定最适合用户消费模式和满意度且节约成本的用电零售套餐。
32.作为一个人工智能体(aia),决策系统通过强化学习实现一个决策策略π,并利用这个策略与多个电力零售公司进行交易。强化学习可以模拟一个复杂的系统,在这个系统中,人工智能体需要模仿人脑,根据与复杂环境(如电力零售商和能源消耗的时变市场)的相互作用做出决策(如选择用电零售套餐)。图1说明了人工智能体、个人终端用户和零售市场之间的相互作用。在每个运行周期,人工智能体执行一个动作a
t
,就是从零售市场选择一个用电零售套餐。基于所选择的用电零售套餐,相应的零售商向终端用户收取电费,这会影响终端用户的用电量。一些环境信息,如用电零售套餐的服务费用和终端用户的消费模式,将被记录在系统状态s
t
中,作为对人工智能体动作的反馈之一。另一个反馈是奖励r
t
,由电费成本和用户的不满意度来表示。人工智能体的决策策略是通过与环境互动来实现未来奖励最大化从而学习得到的。
33.其中,s
t
代表t时刻的状态,其记录了一些环境信息,如用户用电零售套餐的服务费用和终端用户的消费模式。
34.本实施例中,用电零售套餐模型的构建过程具体为:
35.终端用户对用电零售套餐的选择在很大程度上取决于用电零售套餐的成本。我们将用电零售套餐i在t月的月成本用下式表示:
[0036][0037]
其中,表示用电零售套餐i在t月的月成本,表示终端用户在t月的能耗,表示输配电费用,表示用电零售套餐i在t月的能源单位费率,表示系统管理固定费率,c
b
表示每月基本费用。用电零售套餐i在t月的月成本的每一部分费用的具体表述如下:
[0038]
1)输配电费用:零售商代表提供输/配电服务的输/配电公司收取用电零售套餐中包含的输配电费用。输配电费用可以通过下式进行计算:
[0039][0040]
其中,表示输配电费用中的固定费用,它由电力公司提供的运维服务决定,表示在时间t的输配电单位费率,表示高峰需求期间电网调度工作更加繁重所导致的额外输配电费用。δt表示一段时间间隔。p
tdu
表示高峰需求期间的功率阈值。当客户的电力需求(单位为kw)超过阈值p
tdu
时,将收取额外的输配电费用。我们可以使用更多的分段来描述基于多个能耗间隔的不同输配电费用(例如,可以将能耗间隔分为0

500千瓦时、500

1000千瓦时和1000

2000千瓦时)。
[0041]
2)系统管理费用:我们假设以每年固定费率收取系统管理费用,通常在
[0.05,0.08]$/kwh的范围内。
[0042]
3)能源费用:作为用电零售套餐的主要部分,能源费用包含两种日费率和三种月费率。日费率分为分时费率和非分时费率,其中,分时费率在高峰时段和非高峰时段有所不同,而非分时费率在一天之内是固定的。每个分时套餐和非分时套餐又可以整合以下三种月费率:(a)可变费率,由电力零售商根据零售市场决定;(b)固定费率,在合同期限内保持不变;(c)指数费率,由天然气的最后结算价格决定。对于(a)和(c),大多数用电零售套餐允许至少一个月的合同期限,这意味着一旦终端用户选择了可变套餐或指数套餐,用户需要将该套餐保留至少一个月,然后才能更改为另一个套餐。
[0043]
在上述能源费用中,(a)和(c)是本发明的重点,我们使用了变量来表示这部分能源费用。可再生能源含量(即可再生能源渗透率)对的影响是复杂的,包括许多因素,如关税、公司政策等。
[0044]
4)基本费用和最低使用费用:基本费用c
b
是每个计费周期的固定费用。当用户一个月的能耗低于合同规定的最低能耗阈值时,将收取最低使用费用。我们假设任何合同条款都满足这个阈值。
[0045]
用户能耗模型的具体构建过程为:
[0046]
高级计量基础设施(ami)和智能控制器的日益普及使得基于用户偏好和价格信号来测量和管理终端用户的能耗成为可能。模拟用户的能耗有助于人工智能体进行更好的决策学习。
[0047]
每个月,用户都有一个累积的能源需求该需求包括用户在t月预计将消耗的电量和前几个月未满足的电量。当用户在第t个月实际消费时,一部分被抵消,而剩余部分将导致用户不满意,我们将其用不满意度函数来定义。这里引入了一个新的不满意度函数以表示大多数用户的月消费偏好,如下所示:
[0048][0049]
其中,
β
表示用户不满意度的敏感因数,它反映了用户的不满意度对能耗的敏感度,当用户消耗相同的能耗时,
β
越小的用户不满意度越高。具体地,当时,即用户对未满足的累积能耗需求不满意;随着的下降,不满意度函数值越来越大。当时,即用户对额外的能耗满意;随着的增加,负的不满意度值收敛到一个饱和水平。使用所提出的不满意度函数,可以获得精确的预测并降低成本。
[0050]
传统的用户消费不是按照月份灵活计算的。而智能电表和控制器可以通过每月重新调度将电力需求从一个月转移到另一个月。为了实现在未来由这些仪表和控制器进行智能重新调度,这里我们提出了一个负荷转移模型。固定负荷包含在之前的能源消费中,而t时的可移动负荷可结转至t+1,我们将可移动负荷定义为其中0≤α≤1(当α=0时,没有月度灵活性)。每个月,用户都会提出新的能源需求则累计能源需求可根据以下表达式进行迭代:
[0051]
[0052]
参数化的用户能耗模型可以应用于智能控制器,智能控制器可以与环境交互。人工智能体可以从互动中收集数据,并根据收集的数据更新其决策策略。
[0053]
本实施例中,马尔可夫决策过程(mdp)是一个用于在不确定情况下进行决策建模的数学公式。我们将人工智能体的决策问题表述为一个没有转移概率的mdp问题,它由一系列迭代步骤代表环境信息的一系列κ维状态每个状态的一组动作以及一个实值奖励函数来定义。mdp的目标是建立一个最优决策策略使任何s
t
的预期t步奖励最大化。其中,预期t步指的就是一系列迭代步骤中的第t步。
[0054]
估计策略π的一个有效方法是使用一个称为q函数的状态

动作值函数,它是π之后的起始点(s,a)的累积奖励。最优q函数是所有策略中q值最大的函数:
[0055][0056]
其中,s表示时间t时的系统状态,a表示时间t时采取的动作。
[0057]
给定每个s

a对的最佳q值,则π
*
的计算公式如下:
[0058][0059]
状态、动作和奖励的具体表述如下:
[0060]
1)状态向量
[0061]
状态向量由三部分组成:时间相关分量、反馈分量和外部因素分量。
[0062]
a.时间相关分量
[0063]
由于环境变量在不同的时间段不同,因此这里引入了与时间相关的变量。为了描述时间相关性,变量表示一年中的当前月t:
[0064][0065]
通过添加这个变量,用户和零售商的每月行为特征就可以通过人工智能体的q学习来获得。
[0066]
b.反馈分量
[0067]
状态向量的反应分量是局部测量的,并受动作a
t
的影响。变量记录在本地高级计量基础设施(ami)中,受用电零售套餐和用户消费偏好的影响。因此引入来描述反馈分量。
[0068]
c.外部因素分量
[0069]
状态向量的外部因素分量不受动作a
t
的影响,可以从用电零售套餐的配置中获得。根据等式(1)

(2),t月中的用电零售套餐i可以通过其状态元组来定义:
[0070][0071]
因此,电力零售市场的外部因素状态信息由下式给出:
[0072][0073]
其中,
[0074][0075]
综上,包括电力零售市场和用户在内的环境状态在时间t时是上述三个分量的组合:
[0076][0077]
其中,
[0078]
2)动作
[0079]
在mdp模型中,动作必须被限制在一组有限的可能动作中。人工智能体被设计成每次从一个选择函数的有限集中选择一个动作a
t
。动作是从电力零售市场不同服务提供商提供的各种用电零售套餐中选择一个用电零售套餐。
[0080]
为了设计选择函数引入了两个实值向量。
[0081]
一个向量是每个用电零售套餐每月成本的组合:
[0082][0083]
另一个向量是长度为的单位向量,且这个向量只包含一个非零分量:
[0084][0085]
其中,e的下标表示1在向量中的位置。
[0086]
因此,选择函数由下式给出:
[0087][0088]
选择函数的值是用电零售套餐i在时间t的月度成本。
[0089]
3)奖励
[0090]
奖励r是指导决策策略学习的重要指标。如果学习算法获得更高的奖励值,那么从策略π(s)中采取动作a
i
的可能性将更高。为了更好地描述环境的电费成本反馈信息,我们在所提出的奖励函数中集成了一个权重参数:
[0091][0092]
其中,和λ分别为用户消费满意度和电费成本的权重参数。当λ较小时,人工智能体看重用户消费满意度,而λ较大时,人工智能体更看重电费成本。该参数可由用户根据其消费偏好进行调整。
[0093]
本实施例中,采用针对人工智能体的无模型强化学习方法对用电零售套餐决策问题进行求解的过程包括:
[0094]
传统的mdp要求状态转移的概率分布,以便学习最优决策策略。然而,潜在的概率分布对于终端用户来说很难得到。为了解决所提出的转移概率未知的mdp问题,提出了一种针对人工智能体的无模型强化学习算法,从而可以从一批通过与环境交互获得的转移元组中学习最优决策策略。
[0095]
所提出的无模型强化学习算法基于一种批量q学习算法,该算法利用一个核逼近
器来估计q函数表示基于一批元组(s
t
,a
t
,r
t
,s

t
)的最优决策策略,其中s

t
=s
t+1
。在每个元组中,基于观察到的状态s
t
和执行的动作a
t
,根据与之相关的奖励r
t
得到下一个状态s

t
=s
t+1
,从而实现t到t+1的过渡。
[0096]
元组包括以下过渡样本:
[0097][0098]
其中,下标符号不同于单元组中的下标符号,因为l表示集合中的样本指数。
[0099]
以下描述了在与环境交互时获取状态向量的反馈分量的方法,以构建过渡样本。此外,为了降低算法的计算成本和提高预测精度,对状态向量的反馈分量和外部因素分量采用了多种数据处理方法。
[0100]
1)环境采样方法
[0101]
在元组q
t
=(s
t
,a
t
,r
t
,s

t
)在时间t的公式中,当系统处于状态s
t
时,所提出的q学习算法采取动作a
t
,即选择一个用电零售套餐。人工智能体随后确定该用电零售套餐下的电量以最大化当前奖励r
l
和预期的未来奖励。
[0102]
为了确定考虑了未来δ个月的情况,在此期间用电零售套餐的价格信息是已知的。由所提出的算法使用训练数据集来学习决策策略即可以获得未来的信息。
[0103]
对于终端用户,已知未来δ个月的用电零售套餐信息,则能耗可由以下优化问题决定:
[0104][0105][0106]
其中,e
max
由设备的物理限制决定。
[0107]
为了公式化过渡样本集对于每个时间周期t,元组q
t
中的反馈分量是通过求解在状态s
l
和当前策略π
(k)
下的动作a
t
=π
(k)
(s
t
)的优化问题(17)

(18)而获得的。与用户在真实环境中决定消费的方式不同,我们所提出的采样是通过优化完成的。原因是采样的目的是通过执行动作a
t
得到最好的结果(s

t
,r
t
)来训练人工智能体。这样,训练得到的人工智能体可以比真实用户做出更好的决策。
[0108]
2)状态向量的数据处理方法
[0109]
当在用电零售套餐决策系统中实现所提出的批量q学习算法时,存在两个挑战。首先,状态空间的维数很高,导致该算法占用很大的存储容量来存储状态

动作对,并且需要很长时间才能收敛。其次,决策策略中存在价格信号的预测误差,这会增加电费成本和用户不满意度。
[0110]
为了应对上述挑战,提出了三种数据处理方法。第一种用来降低计算成本,后两种用来提高预测精度。
[0111]
a.状态向量的降维:
[0112]
对于外部因素状态元组由于c
b
和p
tdu
是不随时间变化的,并且终端用户很难获得,因此可以将其消除。在公式(2)中,由于所以状态变
量和可由一个平均变量来代替。
[0113]
对于时变状态变量和反馈分量它们可以分别使用两个量化运算函数d1(
·
)和d2(
·
)离散成有限数量的成本水平和能量水平
[0114]
降维后,将新的环境状态表示如下:
[0115][0116][0117]
其中,新的环境状态将维度从降到并且也将内存复杂度从减少到了o(∏
i∈i
|m||d
e
||d
tdu
||c
i
||a|)。
[0118]
b.外部因素状态向量的观测记录:
[0119]
为了提高人工智能体的准确性和学习效率,可以在训练集中加入附加信息。在中加入历史能量费用的观测记录:
[0120][0121]
加入的观测记录作为价格波动指标,表示前几个月的价格变化和市场趋势。
[0122]
c.附加样本知识:
[0123]
虽然终端用户每月只能更改一次用电零售套餐,但实际上用电零售套餐的价格信息(即和)每周都会更新。每周更新的价格信息可以通过每月添加三种其他类型的元组和来扩大过渡样本集其中t
n
,0<n≤3,表示数据在t月月初n周后采样。我们以为例说明如何构建这些元组并将其集成到中。
[0124]
在附加元组中,定义为其中表示t月月初n周后更新的价格信息,根据公式(17)

(19),除了可用数据(即和)外,由确定,可由之和计算得出:
[0125][0126]
附加元组构成过渡样本集的子集
[0127][0128]
它们与原始样本集一起按顺序连接成过渡样本集
[0129][0130]
扩大的批量样本空间不仅可以使所提出的算法在每次迭代中学习更多的信息,而且可以提高收敛速度。
[0131]
3)核逼近器

集成批量q学习算法
[0132]
结合上述采样方法和数据处理方法,在算法1中概述了所提出的批量q学习算法,其中步骤2

10表示交互阶段,步骤11

13表示学习阶段,在学习阶段中通过用来自交互阶段
的信息迭代q函数来估计策略π:
[0133][0134]
其中,ω表示概率分布p
ω
(
·
|s)下的随机过程。这个随机过程基于s,并由a控制。一旦q函数迭代后收敛,则通过公式(5)

(6)学习得到最优策略π
*

[0135]
我们提出了一种核逼近器,用于将数据与估计的q函数进行匹配,逼近器函数定义如下:
[0136][0137]
其中,ρ用于调整逼近器的平滑度。τ(s
l
,s)作为加权算子,根据s和核函数υ(
·
)而变化。基于初始值所提出算法的每次迭代k最终导致在保证收敛的情况下求解精确的贝尔曼方程。
[0138]
人工智能体通过使用所提出的算法由学习得到最优决策策略之后,新状态的q函数由下式表示:
[0139][0140]
具体的算法实现如下所示:
[0141]
[0142][0143]
实施例二
[0144]
根据本发明的实施例,公开了一种适用于智能电网终端用户的用电零售套餐决策系统,包括:
[0145]
模型构建模块,用于获取当前各个用电零售套餐的价格信息、用户历史能耗数据信息以及用户消费偏好信息;分别建立用电零售套餐模型和用户能耗模型;
[0146]
模型变换模块,用于将两个所述模型构建的人工智能体的决策问题表述为一个改进的无转移概率的马尔可夫决策过程;
[0147]
模型求解模块,用于使用用于人工智能体的无模型强化学习方法来对所述马尔可
夫决策过程进行求解,得到下一个消费周期的最优用电零售套餐。
[0148]
需要说明的是,上述各模块的具体实现方式已经在实施例一中进行了详细的说明,不再赘述。
[0149]
实施例三
[0150]
根据本发明的实施例,公开了一种终端设备的实施例,其包括处理器和存储器,处理器用于实现各指令;存储器用于存储多条指令,所述指令适于由处理器加载并执行实施例一中所述的适用于智能电网终端用户的用电零售套餐决策方法。
[0151]
在另一些实施方式中,公开了一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行实施例一中所述的适用于智能电网终端用户的用电零售套餐决策方法。
[0152]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1