1.本技术实施例涉及调度技术领域,尤其涉及一种充电调度方法、装置、设备及存储介质。
背景技术:2.随着社会和经济的高速发展,大量使用化石能源导致环境污染、能源短缺等问题愈发严重。在这种背景下,新能源电动汽车(electric vehicle,电动汽车)受到广泛的关注和发展。
3.然而,大量电动汽车无序并网将增加配电网的供电压力,并且会加剧负荷功率的峰谷差,出现“峰上加峰”的现象,不利于电网的供电可靠性。现有技术通常通过建立电动汽车充电调度模型,构建相应的目标函数,以及列出相应的运行约束条件,并采用传统的数学规划方法(如动态规划算法)或仿生类智能算法(如遗传算法)进行求解,得出最优的电动汽车充电调度方案。然而由于电动汽车用户的行为预测难、不确定性强,该类数学规划方法和智能优化算法的模型在各种不同的应用场景下需要重新构建,不利于配电网对电动汽车的实时调度。
4.因此,针对现有技术中存在的问题,亟待进行完善。
技术实现要素:5.本技术提供一种充电调度方法、装置、设备及存储介质,以实现对电动汽车群充放电行为的快速实时优化。
6.第一方面,本技术实施例提供了一种充电调度方法,该方法包括:根据充电站的额定响应容量进行等分区间,构建状态空间;根据充电站的额定放电功率构建动作空间;确定所述状态空间中的当前状态元素,以及所述动作空间中的当前动作策略,构建当前状态动作对;根据电动汽车群的削峰填谷程度、充放电程度和违反运行约束的惩罚数据,确定所述当前状态动作对对应的奖励值,并确定所述状态空间中的下一状态元素;基于强化学习算法,根据每个当前状态动作对对应的奖励值,确定各所述当前状态动作对的得分数据,并根据各所述当前状态动作对的得分数据,从所述动作空间中选取目标动作策略。
7.第二方面,本技术实施例还提供了一种充电调度装置,该装置包括:状态空间构建模块,用于根据充电站的额定响应容量进行等分区间,构建状态空间;动作空间构建模块,用于根据充电站的额定放电功率构建动作空间;策略选取模块,用于确定所述状态空间中的当前状态元素,以及所述动作空间中的当前动作策略,构建当前状态动作对;奖励值确定模块,用于根据电动汽车群的削峰填谷程度、充放电程度和违反运行约束的惩罚数据,确定所述当前状态动作对对应的奖励值,并确定所述状态空间中的下一状态元素;目标策略选取模块,用于基于强化学习算法,根据每个当前状态动作对对应的奖励值,确定各所述当前状态动作对的得分数据,并根据各所述当前状态动作对的得分数据,从所述动作空间中选取目标动作策略。
8.第三方面,本技术实施例还提供了一种电子设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面实施例所提供的任意一种充电调度方法。
9.第四方面,本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所提供的任意一种充电调度方法。
10.本技术实施例通过根据充电站的额定响应容量进行等分区间,构建状态空间;根据充电站的额定放电功率构建动作空间;确定所述状态空间中的当前状态元素,以及所述动作空间中的当前动作策略,构建当前状态动作对;根据电动汽车群的削峰填谷程度、充放电程度和违反运行约束的惩罚数据,确定所述当前状态动作对对应的奖励值,并确定所述状态空间中的下一状态元素;基于强化学习算法,根据每个当前状态动作对对应的奖励值,确定各所述当前状态动作对的得分数据,并根据各所述当前状态动作对的得分数据,从所述动作空间中选取目标动作策略。通过上述技术方案,构建了基于强化学习的电动汽车群的充电调度模型,通过智能体在动作空间中选择各调度时段的动作策略,寻找不同调度时段状态元素的最优解,最后生成一系列的动作策略,求解出了鲁棒性强和实时性高的电动汽车调度方案。
附图说明
11.图1是本技术实施例一提供的一种充电调度方法的流程图;
12.图2是本技术实施例一提供的弹性计划充电群的充电过程的示意图;
13.图3是本技术实施例一提供的转移性计划充电群的充电过程的示意图;
14.图4是本技术实施例二提供的一种充电调度方法的流程图;
15.图5是本技术实施例三提供的一种充电调度方法的流程图;
16.图6是本技术实施例四提供的一种充电调度装置的示意图;
17.图7是本技术实施例五提供的一种电子设备的示意图。
具体实施方式
18.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本技术,而非对本技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本技术相关的部分而非全部结构。
19.实施例一
20.图1为本技术实施例一提供的一种充电调度方法的流程图。本技术实施例可适用于对电动汽车群的充放电行为进行调度的情况。该方法可以由一种充电调度装置来执行,该装置可以由软件和/或硬件的方式实现,并具体配置于电子设备中,该电子设备可以是移动终端或固定终端。
21.参见图1,本技术实施例提供的充电调度方法,包括:
22.s110、根据充电站的额定响应容量进行等分区间,构建状态空间。
23.具体地,可以根据预设等分区间的大小,对充电站的额定响应容量进行等分,如可以将充电站的额定响应容量进行三等分。
24.其中,状态空间包括电动汽车群所有可能的状态元素,状态空间用s表示。状态元素表征的状态信息代表了智能体所感知到的环境信息,以及因自身的动作策略带来的变化。
25.可以理解的是,由于电动汽车用户的充放电行为,会引起电动汽车群的响应容量发生改变。因此,通过观测电动汽车群的响应容量,将电动汽车群的响应容量与充电站的额定响应容量进行比较,可以知道电动汽车群的响应容量落在状态空间中的哪个等分区间中。
26.s120、根据充电站的额定放电功率构建动作空间。
27.其中,动作空间包括电动汽车群所有能采取的动作策略,也即各种充放电行为,所有能采取的动作策略构成动作空间,动作空间用a表示。
28.本实施例中,可以采用对充电站的额定放电功率进行离散化的方式,来构建电动汽车群的动作空间。
29.s130、确定状态空间中的当前状态元素,以及动作空间中的当前动作策略,构建当前状态动作对。
30.本实施例中,可以根据参与充电调度的电动汽车群的储能容量确定当前时段的当前状态元素,并采用贪婪策略从动作空间中选取当前动作策略。
31.可选地,考虑到电动汽车群中不同电动汽车用户的充放电行为存在的较大差异情况,为了准确地对各电动汽车用户的充放电行为进行描述,根据电动汽车用户的历史充放电数据,可以对电动汽车群中的电动汽车用户进行集群划分,对应可以将电动汽车用户划分到不同的集群,集群的类型可以包括非计划性充电汽车群和计划性充电汽车群。
32.其中,历史充放电数据包括电动汽车用户的充电方案和行驶特征两类历史充放电数据。例如,历史充放电数据包括电动汽车用户的电动汽车参数、并网时间、离网时间、充电电量和充电方案等。
33.具体地,非计划性充电汽车群中的电动汽车用户包括不接受配电网调度和出行不确定性的用户,该类用户可以即插即充,但电网不为该类用户提供经济补偿,该方案首先满足用户出行的电能需求,为用户提供单一充电服务。
34.计划性充电汽车群中的电动汽车用户包括有计划行驶、充电有规律的用户,该类用户可以配合电网进行削峰填谷,提高供电可靠性,并且可以为该类用户提供一定的经济补偿,降低充电费用,实现电网与用户双赢。
35.可选地,从电动汽车用户的电池损耗、充电经济性和电网可靠性三个维度考虑,又可以将计划性充电汽车群中的电动汽车用户,进一步划分到弹性计划充电群和转移性计划充电群。其中,弹性计划充电更侧重保障用户的电池损耗,转移性计划充电侧重于用户的充电经济性和电网的运行可靠性。
36.相应地,根据电动汽车用户的历史充放电数据,对应可以将电动汽车用户划分到非计划性充电汽车群、弹性计划充电群和转移性计划充电群。
37.其中,非计划性充电汽车群的充电方式为无序快充方式,在并网期间以额定功率对电动汽车充电,直到满足用户电量需求后停止充电。单台电动汽车的非计划性充电的响应模型表达式为:
[0038][0039]
其中,表示在t时段第k辆非计划充电的电动汽车功率;表示第k辆电动汽车的额定充放电功率;k1为非计划性充电汽车群中电动汽车用户的数量。相应地,非计划性充电汽车群的响应模型表达式为:
[0040][0041]
其中,表示在t时段非计划性充电的电动汽车群的充放电功率,非计划性充电汽车群无响应容量可调节。
[0042]
弹性计划充电群的充电方式为有序充电方式,在保证用户出行的电能需求前提下,电动汽车在并网期间可以全时段双向充放电,充放电功率大小由调度计划决定。单台电动汽车的弹性充电的响应模型表达式为:
[0043][0044]
其中,表示在t时段第k辆弹性计划充电的电动汽车功率;表示在t时段第k辆弹性计划充电的电动汽车充电功率;表示在t时段第k辆弹性计划充电的电动汽车放电功率;表示在t时段第k辆弹性计划充电的电动汽车控制变量,为二元变量(0和1);k2为弹性计划充电群中电动汽车用户的数量。相应地,弹性计划充电群的响应模型表达式为:
[0045][0046]
其中,表示在t时段弹性计划充电的电动汽车群的充放电功率;分别表示在t时段第k辆电动汽车的响应容量上、下限;分别为在t时段弹性计划充电的电动汽车群的响应容量上、下限。
[0047]
参见图2所示的一种弹性计划充电群的充电过程的示意图,弹性计划充电群的电动汽车响应容量的曲线如附图2中的虚线所示。图中,虚线表示为在t1到t2这一段时间里,弹性计划充电群的实际充电轨迹;在虚线上、下方的两条实线为弹性计划充电群的响应容量上、下限;eflp,max和eflp,min分别为弹性计划充电群所允许的最大、最小电量,eflp,s表示弹性计划充电群的初始电量,eflp,f表示弹性计划充电群充电结束后的电量,也即为弹性计划充电群的充电需求值,弹性计划充电群既有上行响应容量可调节,又有下行响应
容量可调节。
[0048]
转移性计划充电群的充电方式为有序充电方式,在保证用户出行的电能需求前提下,电动汽车在并网期间可以全时段转移充电功率,充电功率大小由调度计划决定。单台电动汽车转移性充电的响应模型表达式为:
[0049][0050]
其中,表示在t时段第k辆转移性计划充电的电动汽车功率;k3为转移性计划充电群中电动汽车用户的数量。相应地,弹性计划充电群的响应模型表达式为:
[0051][0052]
其中,表示在t时段转移性计划充电的电动汽车群的充放电功率;分别为在t时段转移性计划充电的电动汽车群的响应容量上、下限。
[0053]
参见图3所示的一种转移性计划充电群的充电过程的示意图,转移性计划充电群的电动汽车响应容量的曲线如附图3中的虚线所示。图中,虚线表示为在t1到t2这一段时间里,转移性计划充电群的实际充电轨迹;在虚线上、下方的两条实线为转移性计划充电群的响应容量上、下限;etrp,max和etrp,min分别为转移性计划充电群所允许的最大、最小电量,etrp,s表示转移性计划充电群的初始电量,etrp,f表示转移性计划充电群充电结束后的电量,也即为转移性计划充电群的充电需求值,转移性计划充电群只有上行响应容量可调节。
[0054]
本实施例中,可以根据在各个时段内充电站接入电动汽车的容量、电动汽车用户充电方式和电动汽车额定充放电功率等数据,对电动汽车进行集群分类,并构建非计划性充电汽车群、弹性计划充电群和转移性计划充电群的响应模型(包括在各个时段内三种电动汽车群的响应容量和充放电功率)。
[0055]
因此,在对电动汽车群进行集群划分之后,可以根据各电动汽车群的储能容量,分别确定各电动汽车群的当前状态元素,以及采用贪婪策略从动作空间中选取对应的当前动作策略。
[0056]
例如,可以根据t时段弹性计划充电群的响应容量q
ev,flp
(t)和转移性计划充电群的响应容量q
ev,trp
(t),分别确定弹性计划充电群和转移性计划充电群的当前状态元素s
1,m,t
和s
2,m,t
,其中,m表示属于状态空间中的哪个状态区间,m可以根据集群的响应容量进行确定,每种电动汽车群的响应容量在每个时段都有唯一的状态空间元素相对应;采用贪婪策略从弹性计划充电群和转移性计划充电群的动作空间中选取各自对应的当前动作策略a
flp
和a
trp
。
[0057]
需要注意的是,由于非计划性充电汽车群以额定功率对电动汽车进行充电,因此,非计划性充电汽车群的响应容量和充放电功率固定。
[0058]
s140、根据电动汽车群的削峰填谷程度、充放电程度和违反运行约束的惩罚数据,
确定当前状态动作对对应的奖励值,并确定状态空间中的下一状态元素。
[0059]
其中,电动汽车群可以包括非计划性充电汽车群、弹性计划充电群和转移性计划充电群。相应地,当前状态动作对可以包括非计划性充电汽车群、弹性计划充电群和转移性计划充电群的当前状态动作对。
[0060]
本实施例中,以配网负荷曲线的削峰填谷为目标,考虑电动汽车充放电等约束,来构建奖励值函数;根据确定出的奖励值函数,基于电动汽车群的削峰填谷程度、充放电程度和违反运行约束的惩罚数据,可以计算出当前状态动作对对应的奖励值r
t
。
[0061]
具体地,在确定出各集群的当前状态动作对后,可以根据各集群的当前状态动作对,来唯一确定各集群下一时段的状态元素,例如,可以分别确定出弹性计划充电群和转移性计划充电群的下一状态元素s
1,m,t+1
和s
2,m,t+1
,其中,m与各集群的响应容量有关。
[0062]
s150、基于强化学习算法,根据每个当前状态动作对对应的奖励值,确定各当前状态动作对的得分数据,并根据各当前状态动作对的得分数据,从动作空间中选取目标动作策略。
[0063]
其中,强化学习是一种数据驱动的机器学习方法,在不需要先验知识的情况下,可以构造充电调度问题相应的序列决策,训练智能体迭代完成对历史运行状态的动态学习,基于经验积累与回报分析得到问题的最优解。
[0064]
目标动作策略是指确定出的电动汽车群在各个时段的计划充放电功率,也即最优调度计划;若电动汽车群划分为非计划性充电汽车群、弹性计划充电群和转移性计划充电群,则可以分别确定出各集群在各个时段的计划充放电功率。
[0065]
本实施例中,在确定出电动汽车群的当前状态元素、当前动作策略,以及对应的奖励值后,可以基于强化学习算法的学习策略,进行在线学习。强化学习算法的核心公式为贝尔曼方程,其计算公式可以为:
[0066][0067]
其中,q(s
n,m,t
,a
t
)为状态
‑
动作值函数,用来计算得分数据,q(s
n,m,t
,a
t
)表示在状态元素s
n,m,t
下,选择动作策略a
t
后,获得的累计期望数值,a
t
∈a,s
n,m,t
∈s,其中n用于标识电动汽车群;α为学习步长因子;γ为折扣因子;表示在下一个状态元素s
k,m,t+1
下,可能获得的最大期望值,α
′
是对应的动作策略;r
t+1
表示下一时刻的奖励值。
[0068]
在计算出当前状态动作对的得分数据后,判断学习过程是否收敛,若不收敛,则返回重新从动作空间中选取当前动作策略,并通过贝尔曼方程不断迭代计算状态
‑
动作值函数;若收敛,则输出电动汽车群的最优调度计划。其中,收敛条件可以设置为是否超过预设学习时间或迭代次数是否达到预设次数。
[0069]
可以理解的是,在大量数据的驱动下,强化学习的鲁棒性更好,计算速率更快,更能适应电动汽车用户充放电行为的不确定性。
[0070]
本技术实施例通过根据充电站的额定响应容量进行等分区间,构建状态空间;根据充电站的额定放电功率构建动作空间;确定所述状态空间中的当前状态元素,以及所述动作空间中的当前动作策略,构建当前状态动作对;根据电动汽车群的削峰填谷程度、充放电程度和违反运行约束的惩罚数据,确定所述当前状态动作对对应的奖励值,并确定所述状态空间中的下一状态元素;基于强化学习算法,根据每个当前状态动作对对应的奖励值,
确定各所述当前状态动作对的得分数据,并根据各所述当前状态动作对的得分数据,从所述动作空间中选取目标动作策略。通过上述技术方案,构建了基于强化学习的电动汽车群的充电调度模型,通过智能体在动作空间中选择各调度时段的动作策略,寻找不同调度时段状态元素的最优解,最后生成一系列的动作策略,求解出了鲁棒性强和实时性高的电动汽车调度方案。
[0071]
实施例二
[0072]
图4为本技术实施例二提供的一种充电调度方法的流程图,本实施例是在上述实施例的基础上,对上述方案的优化。进一步地,将操作“根据充电站的额定响应容量进行等分区间,构建状态空间”,细化为“分别将弹性计划充电和转移性计划充电的电动汽车群响应容量的状态进行等分,并结合充电站的调度周期,生成至少一个状态元素;根据所述至少一个状态元素,构建所述状态空间”,以完善状态空间的构建过程。进一步地,将操作“根据充电站的额定放电功率构建动作空间”,细化为“根据所述充电站的调度频率和预设离散数量,对所述充电站的额定放电功率进行离散化处理,得到离散化尺度;根据所述离散化尺度,分别生成第一设定数量的弹性计划充电的弹性动作策略,以及第二设定数量的转移性计划充电的转移性动作策略;根据所述弹性动作策略和所述转移性动作策略,构建所述动作空间”,以完善动作空间的构建过程。其中与上述实施例相同或相应的术语的解释在此不再赘述。参见图4,本实施例提供的充电调度方法,包括:
[0073]
s210、分别将弹性计划充电和转移性计划充电的电动汽车群响应容量的状态进行等分,并结合充电站的调度周期,生成至少一个状态元素。
[0074]
本实施例中,根据电动汽车用户的历史充放电数据,将电动汽车群划分为非计划性充电汽车群、弹性计划充电群和转移性计划充电群三个集群。
[0075]
其中,非计划性充电汽车群的响应容量固定,而弹性计划充电群和转移性计划充电群的响应容量不固定。因此,可以构建弹性计划充电群和转移性计划充电群的状态空间。具体地,可以将充电站设定比例的额定响应容量进行m等分,建立相应的状态区间;各区间段尺度可以表示为:
[0076][0077]
其中,对充电站设定比例(如80%)的额定响应容量进行等分,使得充电站的储能容量留有一定的余地,保证充电调度的安全;等分后的状态区间为;m与调度计划求解的精度有关,可以根据需求进行设置。在得到等分后的状态区间后,可以观测弹性计划充电群和转移性计划充电群的响应容量,将各集群的响应容量与各状态区间进行比较,确定各集群的响应容量落在状态空间中的哪个等分区间中,从而确定各集群的状态元素。
[0078]
本实施例中,可以根据调度需求设置充电站的调度周期t,如可以将调度时长设置为24小时,将调度频率设置为1小时,则调度周期包括24个时段。
[0079]
s220、根据至少一个状态元素,构建状态空间。
[0080]
本实施例中,结合充电站的调度周期,可以构建弹性计划充电群和转移性计划充电群的状态空间,状态空间s可以表示为:
[0081]
s={s
1,1,1
,...,s
1,m,t
,s
2,1,1
,...,s
2,m,t
};
[0082]
其中,s
1,m,t
表示弹性计划充电群的状态空间,s
2,m,t
表示转移性计划充电群的状态空间;状态空间s包括n
×
m
×
t个状态元素,n表示集群个数,m表示每个时段内状态元素的个数,t表示充电调度的时段个数。
[0083]
s230、根据充电站的调度频率和预设离散数量,对充电站的额定放电功率进行离散化处理,得到离散化尺度。
[0084]
其中,预设离散数量与调度计划求解的精度有关,离散化尺度可以表示为:其中,n表示预设离散数量;δt表示调度频率,也即调度间隔,如调度间隔可以是1h;为了保证充电调度的安全,充电站的额定放电功率可以通过设定比例的充电站的额定容量除以调度频率进行计算得到。
[0085]
s240、根据离散化尺度,分别生成第一设定数量的弹性计划充电的弹性动作策略,以及第二设定数量的转移性计划充电的转移性动作策略。
[0086]
其中,第一设定数量和第二设定数量可以根据调度需求进行确定。本实施例中,非计划性充电汽车群的充电功率固定,而弹性计划充电群和转移性计划充电群的充放电功率不固定。因此,动作空间由弹性计划充电的动作策略a
flp
和转移性计划充电的动作策略a
trp
构成。其中,动作策略a
flp
可以表示为:a
flp
∈{
‑
nδp
ev
,...,
‑
δp
ev
,0,δp
ev
,...,nδp
ev
};动作策略a
trp
可以表示为:a
trp
∈{0,δp
ev
,...,nδp
ev
}。
[0087]
s250、根据弹性动作策略和转移性动作策略,构建动作空间。
[0088]
本实施例中,根据弹性动作策略和转移性动作策略,构建的动作空间可以包括(2n+1)
×
(n+1)个动作策略,动作空间a可以表示为:
[0089]
a={
‑
nδp
ev
,...,
‑
δp
ev
,0,δp
ev
,...,nδp
ev
,0,δp
ev
,...,nδp
ev
};
[0090]
s260、确定状态空间中的当前状态元素,以及动作空间中的当前动作策略,构建当前状态动作对。
[0091]
s270、根据电动汽车群的削峰填谷程度、充放电程度和违反运行约束的惩罚数据,确定当前状态动作对对应的奖励值,并确定状态空间中的下一状态元素。
[0092]
s280、基于强化学习算法,根据每个当前状态动作对对应的奖励值,确定各当前状态动作对的得分数据,并根据各当前状态动作对的得分数据,从动作空间中选取目标动作策略。
[0093]
本技术实施例在上述实施例的基础上,对状态空间和动作空间的构建过程进行了完善,考虑电动汽车用户的充电行为差异性,对大规模的电动汽车群采用先分类,后集群的方式构建群体的响应模型,根据简化的电动汽车群响应模型,通过强化学习理论,建立电动汽车群优化调度模型,求解出了各集群在各个时段的计划充放电功率,提高了调度模型的鲁棒性和实时性。
[0094]
实施例三
[0095]
图5为本技术实施例三提供的一种充电调度方法的流程图,本实施例是在上述实
施例的基础上,对上述方案的优化。进一步地,增加操作“根据配电网在当前时段的负荷功率、所述计划性充电的电动汽车群在所述当前时段的总充放电功率、以及所述配电网在所述当前时段的负荷功率平均值,确定所述电动汽车群的所述削峰填谷程度”,以完善对电动汽车群的削峰填谷程度的确定过程。进一步地,增加操作“根据所述计划性充电的电动汽车群在所述当前时段的总充放电功率和所述充电站的额定响应容量,确定所述电动汽车群的所述充放电程度”,以完善对电动汽车群的充放电程度的确定过程。进一步地,增加操作“分别确定所述电动汽车群的容量约束惩罚数据、功率约束惩罚数据和倒送功率约束惩罚数据;根据所述容量约束惩罚数据、所述功率约束惩罚数据和所述倒送功率约束惩罚数据,确定所述违反运行约束的惩罚数据”,以完善对违反运行约束的惩罚数据的确定过程。其中与上述实施例相同或相应的术语的解释在此不再赘述。参见图5,本实施例提供的充电调度方法,包括:
[0096]
s310、根据充电站的额定响应容量进行等分区间,构建状态空间。
[0097]
s320、根据充电站的额定放电功率构建动作空间。
[0098]
s330、确定状态空间中的当前状态元素,以及动作空间中的当前动作策略,构建当前状态动作对。
[0099]
s340、根据配电网在当前时段的负荷功率、计划性充电的电动汽车群在当前时段的总充放电功率、以及配电网在当前时段的负荷功率平均值,确定电动汽车群的削峰填谷程度。
[0100]
本实施例中,削峰填谷程度可以表示为:其中,f
sharp
表示电动汽车群的削峰填谷程度;p
l
(t)为配电网在t时段的负荷功率;为配电网在当前时段的负荷功率平均值;p
ev
(t)表示计划性充电的电动汽车群在t时段的总充放电功率,该值等于弹性计划充电群的充放电功率加上转移性计划充电群的充放电功率
[0101]
s350、根据计划性充电的电动汽车群在当前时段的总充放电功率和充电站的额定响应容量,确定电动汽车群的充放电程度。
[0102]
本实施例中,充放电程度可以表示为:其中,f
level
表示电动汽车群的充放电程度;p
ev
(t)表示计划性充电的电动汽车群在t时段的总充放电功率,该值等于弹性计划充电群的充放电功率加上转移性计划充电群的充放电功率δt表示各时段之间的间隔时间。
[0103]
s360、分别确定电动汽车群的容量约束惩罚数据、功率约束惩罚数据和倒送功率约束惩罚数据。
[0104]
本实施例中,在确定最优调度计划的过程中,会由于动作策略的实施,使得电动汽车的运行不符合实际要求,此时,可以通过罚函数法,将有约束最优化问题转化为求解无约束最优化问题。
[0105]
具体地,为了对破坏约束的情况进行全面刻画,需要同时确定电动汽车群的容量
约束惩罚数据、功率约束惩罚数据和倒送功率约束惩罚数据。
[0106]
可选地,所述容量约束惩罚数据的确定过程可以包括:根据所述当前时段的弹性计划充电和转移性计划充电的电动汽车群分别对应的蓄电池总容量的上下限数据和充放电功率、以及所述当前时段的相邻历史时段的弹性计划充电和转移性计划充电的电动汽车群分别对应的蓄电池总容量,确定所述电动汽车群的所述容量约束惩罚数据。
[0107]
具体地,电动汽车群的容量约束惩罚数据的计算公式可以为:
[0108][0109]
其中,q
ev,flp
(t
‑
1)和q
ev,trp
(t
‑
1)分别表示弹性计划充电群和转移性计划充电群在相邻历史时段的蓄电池总容量。
[0110]
可选地,所述功率约束惩罚数据的确定过程可以包括:根据弹性计划充电和转移性计划充电的电动汽车群分别在所述当前时段的充放电功率上限值和充放电功率,确定所述电动汽车群的所述功率约束惩罚数据。
[0111]
具体地,电动汽车群的功率约束惩罚数据的计算公式可以为:
[0112][0113]
其中,为弹性计划充电的电动汽车群在t时段的充放电功率上限值,该值等于弹性计划充电群中所有电动汽车的额定充放电功率之和;为转移性计划充电的电动汽车群在t时段的充放电功率上限值,该值等于转移性计划充电群中所有电动汽车的额定充放电功率之和。
[0114]
可选地,所述倒送功率约束惩罚数据的确定过程可以包括:根据所述弹性计划充电的电动汽车群在所述当前时段的充放电功率倒送功率最大限值,确定所述电动汽车群的所述倒送功率约束惩罚数据。
[0115]
具体地,电动汽车群的倒送功率约束惩罚数据的计算公式可以为:其中,表示电动汽车群的倒送功率的最大限值。
[0116]
s370、根据容量约束惩罚数据、功率约束惩罚数据和倒送功率约束惩罚数据,确定违反运行约束的惩罚数据。
[0117]
本实施例中,违反运行约束的惩罚数据可以表示为:其中,c
punish
表示违反运行约束的惩罚数据;
和分别表示电动汽车群的容量约束惩罚、功率约束惩罚和倒送功率约束惩罚。
[0118]
s380、根据电动汽车群的削峰填谷程度、充放电程度和违反运行约束的惩罚数据,确定当前状态动作对对应的奖励值,并确定状态空间中的下一状态元素。
[0119]
本实施例中,在确定出电动汽车群的削峰填谷程度、充放电程度和违反运行约束的惩罚数据后,可以构建强化学习模型的奖励值函数r
t
,奖励值函数表达式为:maxr
t
=αf
sharp
+βf
level
+γc
punish
;其中,奖励值函数r
t
为电动汽车群以削峰填谷为中心的目标函数;α为削峰填谷因子,β为充放电程度因子,α与β的和为1;γ为惩罚因子,γ可以设置为常数或与时间有关的函数。
[0120]
可选地,削峰填谷因子和充放电程度因子可以根据用户的输入数据进行确定。具体地,若用户更偏向于对电网负荷进行削峰填谷,则可以将削峰填谷因子设置为大于充放电程度因子;若用户更注重于电动汽车用户的充放电需求,则可以将充放电程度因子设置为大于削峰填谷因子。可以理解的是,削峰填谷因子和充放电程度因子用于平衡电动汽车群的充放电程度和削峰填谷程度。
[0121]
s390、基于强化学习算法,根据每个当前状态动作对对应的奖励值,确定各当前状态动作对的得分数据,并根据各当前状态动作对的得分数据,从动作空间中选取目标动作策略。
[0122]
本技术实施例在上述实施例的基础上,对电动汽车群的削峰填谷程度、充放电程度和违反运行约束的惩罚数据进行了明确,以配电网负荷曲线的削峰填谷为目标,考虑电动汽车群的容量约束、功率约束以及倒送功率约束,建立了基于强化学习的电动汽车群调度模型,实现了配电网与电动汽车群的联动、协同优化运行的功能,提高了配电网运行的经济性和供电可靠性。
[0123]
实施例四
[0124]
图6是本技术实施例四提供的一种充电调度装置的结构示意图。参见图6,本技术实施例提供的一种充电调度装置,该装置包括:状态空间构建模块410、动作空间构建模块420、策略选取模块430、奖励值确定模块440和目标策略选取模块450。状态空间构建模块410,用于根据充电站的额定响应容量进行等分区间,构建状态空间;动作空间构建模块420,用于根据充电站的额定放电功率构建动作空间;策略选取模块430,用于确定所述状态空间中的当前状态元素,以及所述动作空间中的当前动作策略,构建当前状态动作对;奖励值确定模块440,用于根据电动汽车群的削峰填谷程度、充放电程度和违反运行约束的惩罚数据,确定所述当前状态动作对对应的奖励值,并确定所述状态空间中的下一状态元素;目标策略选取模块450,用于基于强化学习算法,根据每个当前状态动作对对应的奖励值,确定各所述当前状态动作对的得分数据,并根据各所述当前状态动作对的得分数据,从所述动作空间中选取目标动作策略。
[0125]
本技术实施例通过上述技术方案,构建了基于强化学习的电动汽车群的充电调度模型,通过智能体在动作空间中选择各调度时段的动作策略,寻找不同调度时段状态元素的最优解,最后生成一系列的动作策略,求解出了鲁棒性强和实时性高的电动汽车调度方案。
[0126]
进一步地,所述状态空间构建模块410,包括:状态元素生成单元,用于分别将弹性计划充电和转移性计划充电的电动汽车群响应容量的状态进行等分,并结合充电站的调度周期,生成至少一个状态元素;状态空间构建单元,用于根据所述至少一个状态元素,构建所述状态空间。
[0127]
进一步地,所述动作空间构建模块420,包括:离散尺度确定单元,用于根据所述充电站的调度频率和预设离散数量,对所述充电站的额定放电功率进行离散化处理,得到离散化尺度;动作策略生成单元,用于根据所述离散化尺度,分别生成第一设定数量的弹性计划充电的弹性动作策略,以及第二设定数量的转移性计划充电的转移性动作策略;动作空间构建单元,用于根据所述弹性动作策略和所述转移性动作策略,构建所述动作空间。
[0128]
进一步地,所述装置还包括:削峰函数确定模块,用于根据配电网在当前时段的负荷功率、所述计划性充电的电动汽车群在所述当前时段的总充放电功率、以及所述配电网在所述当前时段的负荷功率平均值,确定所述电动汽车群的所述削峰填谷程度。
[0129]
进一步地,所述装置还包括:充放电函数确定模块,用于根据所述计划性充电的电动汽车群在所述当前时段的总充放电功率和所述充电站的额定响应容量,确定所述电动汽车群的所述充放电程度。
[0130]
进一步地,所述装置还包括:惩罚函数确定模块,所述惩罚函数确定模块包括:惩罚数据确定单元,用于分别确定所述电动汽车群的容量约束惩罚数据、功率约束惩罚数据和倒送功率约束惩罚数据;惩罚函数确定单元,用于根据所述容量约束惩罚数据、所述功率约束惩罚数据和所述倒送功率约束惩罚数据,确定所述违反运行约束的惩罚数据。
[0131]
进一步地,所述惩罚数据确定单元,包括:容量惩罚确定子单元,用于根据所述当前时段的弹性计划充电和转移性计划充电的电动汽车群分别对应的蓄电池总容量的上下限数据和充放电功率、以及所述当前时段的相邻历史时段的弹性计划充电和转移性计划充电的电动汽车群分别对应的蓄电池总容量,确定所述电动汽车群的所述容量约束惩罚数据。
[0132]
进一步地,所述惩罚数据确定单元,包括:功率惩罚子单元,用于根据弹性计划充电和转移性计划充电的电动汽车群分别在所述当前时段的充放电功率上限值和充放电功率,确定所述电动汽车群的所述功率约束惩罚数据。
[0133]
进一步地,所述惩罚数据确定单元,包括:倒送功率惩罚子单元,用于根据所述弹性计划充电的电动汽车群在所述当前时段的充放电功率倒送功率最大限值,确定所述电动汽车群的所述倒送功率约束惩罚数据。
[0134]
本技术实施例所提供的充电调度装置可执行本技术任意实施例所提供的充电调度方法,具备执行方法相应的功能模块和有益效果。
[0135]
实施例五
[0136]
图7是本技术实施例五提供的一种电子设备的结构图。图7示出了适于用来实现本技术实施方式的示例性电子设备512的框图。图7显示的电子设备512仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0137]
如图7所示,电子设备512以通用计算设备的形式表现。电子设备512的组件可以包括但不限于:一个或者多个处理器或者处理单元516,系统存储器528,连接不同系统组件(包括系统存储器528和处理单元516)的总线518。
[0138]
总线518表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mca)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
[0139]
电子设备512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备512访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0140]
系统存储器528可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)530和/或高速缓存存储器532。电子设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统534可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd
‑
rom,dvd
‑
rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线518相连。系统存储器528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本技术各实施例的功能。
[0141]
具有一组(至少一个)程序模块542的程序/实用工具540,可以存储在例如系统存储器528中,这样的程序模块542包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本技术所描述的实施例中的功能和/或方法。
[0142]
电子设备512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信,还可与一个或者多个使得用户能与该电子设备512交互的设备通信,和/或与使得该电子设备512能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口522进行。并且,电子设备512还可以通过网络适配器520与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器520通过总线518与电子设备512的其它模块通信。应当明白,尽管图7中未示出,可以结合电子设备512使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0143]
处理单元516通过运行存储在系统存储器528中的多个程序中其他程序的至少一个,从而执行各种功能应用以及数据处理,例如实现本技术实施例所提供的任意一种充电调度方法。
[0144]
实施例六
[0145]
本技术实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本技术任一实施例所提供的一种充电调度方法,包括:根据充电站的额定响应容量进行等分区间,构建状态空间;根据充电站的额定放电功率构建动作空间;确定状态空间中的当前状态元素,以及动作空间中的当前动作策略,构建当前状态动作对;根据电动汽车群的削峰填谷程度、充放电程度和违反运行约束的惩罚数据,确定当前状态动作对对应的奖励值,并确定状态空间中的下一状态元素;基于强化学习算法,根据每个当前状态动作对对应的奖励值,确定各当前状态动作对的得分数据,并根据各当前状态动
作对的得分数据,从动作空间中选取目标动作策略。
[0146]
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本技术可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器、随机存取存储器、闪存、硬盘或光盘等,包括若干指令用以使得一台计算机设备(如个人计算机、服务器或网络设备等)执行本技术各个实施例所述的方法。
[0147]
值得注意的是,上述充电调度装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。
[0148]
注意,上述仅为本技术的较佳实施例及所运用技术原理。本领域技术人员会理解,本技术不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本技术的保护范围。因此,虽然通过以上实施例对本技术进行了较为详细的说明,但是本技术不仅仅限于以上实施例,在不脱离本技术构思的情况下,还可以包括更多其他等效实施例,而本技术的范围由所附的权利要求范围决定。