一种基于马可夫决策过程的能源管理方法及系统

文档序号:28953798发布日期:2022-02-19 11:18阅读:187来源:国知局
一种基于马可夫决策过程的能源管理方法及系统

1.本发明主要涉及智能电表领域,具体涉及一种基于马可夫决策过程的能源管理方法及系统,实现兼顾智能电表数据的隐私保护和系统成本节约。


背景技术:

2.随着传统电网向智能电网的过渡,智能电网的普及程度越来越高。智能电表作为数据采集和传输装置,是现代智能电网发展中不可或缺的一部分:它以突出的可靠性、抗干扰性和高成本效益向能源供应商反映用户的实时用电信息,收集的数据可用于动态定价和提供更准确的负载预测。然而,这些数据包含了大量的个人信息,这些敏感信息极有可能对消费者隐私构成威胁。例如,非侵入性负载监测方法可以很容易获取到消费者的实时用电情况,由此推测出该用户的生活习惯或者当下居住情况。这些合法或非法的数据接收者都有可能利用或泄露这些数据,从而对用户的生活造成影响。
3.为此,国内外学者提出过多种方法来保护智能电表的数据。一类是通过使用模糊处理、匿名化和同态加密等方法,修改智能电表的原始信息,实现智能电表的隐私保护。但在对数据进行加密的过程中,数据精确度会降低;差分隐私是另一种防止隐私泄露的常用方法,差异隐私算法通常采用拉普拉斯机制或指数机制对查询的结果引入噪点,确保所需的统计信息不会因条目数据库中的个别偏差而发生明显变化的同时,简化了数学上的建模与分析。
4.在数据中添加噪点,伴随着数据精确度降低的同时,会带来一定程度上系统成本的提高,为此,我们引入了技术逐渐成熟的可充电电池来弥补这一不足,从物理层面上对隐私进行保护。此前,大量研究已经证明了可充电电池在这方面的优势性和可行性,通过利用可充电电池,家庭真实用电时长和具体时间段可以被很好地掩盖,实际的设备能耗情况会因能源供应和用户需求之间的差异而被掩盖。此外,考虑到电价的峰谷时段划分,可充电电池还可以根据用户的负荷需求和实时电价错峰进行充放电,降低系统的电价成本。
5.随着隐私保护程度提高,系统成本也随之提高。如何在两者之间找到一个平衡点,兼顾隐私保护的同时最小化系统成本,为用户设计一个能源的最优配置方案,是一个重要且有挑战性的问题。


技术实现要素:

6.为解决现有技术中的不足,本发明提出了一种基于马尔可夫决策过程的能源管理方法及系统,目的在于利用马尔可夫决策过程构造一个优化问题,并运用sarsa算法解决提出的问题,最终根据不同用户的个性化需求,找到一个独特的最优能量管理策略,解决隐私和成本之间的权衡问题。
7.本发明所采用的技术方案如下:
8.一种基于马尔可夫决策过程的能源管理系统,包括马可夫决策模块、能源管理模块、成本计算模块和隐私保护模块;
9.所述能源管理模块包括能源需求侧和能源管理单位,所述能源需求侧包括用电器和可充电电池;能源供应商通过智能电表连接能源需求侧,为家庭提供的电能;能源管理单位与用电器和可充电电池之间通过信号线相连接,通过能源管理单位实时监测电价和用户总需求,并控制可充电电池的充放电时长。
10.所述隐私保护模块是将一个时间段内智能电表收集到的数据分成若干组,采用差分隐私算法对数据组进行加噪处理;在隐私保护模块中定义隐私保护等级,量化分析不同的隐私保护程度;
11.所述成本计算模块分别与能源管理模块、隐私保护模块之间通过信号连接,在成本计算模块内结合实时电价、电池使用情况以及隐私预算,计算出能源管理系统的系统成本;
12.所述马可夫决策模块分别与成本计算模块、能源管理模块之间通过信号连接,将能源管理系统的系统成本以及隐私保护程度作为参数输入马可夫决策模型,输出最优的隐私保护程度和能源管理系统的系统成本并输入至能源管理模块。
13.一种基于马尔可夫决策过程的能源管理方法,包括如下步骤:
14.步骤1,基于用户个性化的隐私保护需求,选择差分隐私算法的隐私保护等级k;
15.步骤2,以一天为基本单位,遍历每一个可能的保护等级k,k≤k;以固定时间间隔,在智能电表向能源供应商传输数据的过程中,利用差分隐私算法对原始数据进行加密处理;
16.步骤3,计算能源管理系统的隐私保护程度以及系统成本;
17.步骤4,将系统成本和隐私保护程度输入到本模块的马可夫决策模型构造优化问题,并运用sarsa算法解决优化问题,进行马可夫决策过程,获得完整的价值表q;
18.步骤5:遍历整个价值表q,找到最适合该用户的隐私保护程度k
*
以及该保护程度相对应的成本并反馈给用户;如果没有找到符合条件的隐私保护程度k
*
以及该保护程度相对应的成本则返回步骤3。
19.进一步,所述步骤2中以6(11-k)为固定时间间隔,在智能电表向能源供应商传输数据的过程中,利用差分隐私算法对个原始数据进行加密处理;
20.进一步,所述步骤3中计算能源管理系统的隐私保护程度的方法为:
[0021][0022]
其中,p
sm
(t)和p

sm
(t)分别表示智能电表采集的原始数据和经过加密处理后的数据,k表示对原始数据集进行隐私保护的次数。
[0023]
进一步,所述步骤3中能源管理系统的系统成本包括可充电电池运行费用cb、电价成本ce以及隐私预算c
p
,故系统成本表示为:c
π
=ce+cb+c
p

[0024]
进一步,计算可充电电池运行费用:
[0025]
通过可充电电池自身费用除以预估电池的可充放电次数,定义得出电池的摊销成本q:
[0026][0027]
定义s(t)表示时间段δt中可充电电池的工作状态,如果可充电电池正在充电或者放电,则s(t)=1;如果没有使用可充电电池,则s(t)=0;由此,得到可充电电池运行费用:
[0028][0029]
其中,k为隐私保护等级,即在一个固定的时间段t内,根据当前隐私保护等级k划分成k个时间段δt,k=1,2,...,k;则将每个时间段内的电池成本相加,得到cb。
[0030]
进一步,计算电价成本:
[0031][0032]
通过控制端监控实时电价v
t
,根据电表读数p
sm
(t)可以直接计算出用户在时间段δt内的电价成本,将每个时间段内的实时电价相加,得到ce。
[0033]
进一步,不同用户隐私保护等级k下的隐私预算表示为:
[0034]cp
=k∈
[0035]
其中,∈为隐私预算。
[0036]
进一步,步骤4过程如下:
[0037]
步骤4.1:初始化马可夫决策的状态集s(d,d,y,p
sm
,c
π
),其中,d是隐私保护程度,d为用户隐私保护需求程度,是所有等级下的隐私保护程度集合的一个元素,y是一个二元参数,y=0表示当前隐私保护程度d不满足隐私保护的要求,y=1表示当前隐私保护程度d满足隐私保护的要求;p
sm
为智能电表采集的原始数据,c
π
表示当前状态下的系统成本;
[0038]
步骤4.2:基于ξ-贪心算法选择当前状态下一个可能的动作a,并根据下一时刻的电表数据更新下一个状态s

,同时得到一个即时的奖励r,确定下一个动作a


[0039]
步骤4.3:根据下一时刻的动作、状态对q(s

,a

)更新上一时刻的价值q(s,a),由此循环直到该等级下的所有当前动作全部结束;
[0040]
步骤4.4:重复上述过程,得到该保护等级k下的所有状态动作对的价值;
[0041]
步骤4.5:考虑所有可能符合用户需求的k,遍历每一个保护等级k,得到一张完整的价值表q。
[0042]
进一步,根据系统成本和隐私保护程度,设计如下奖励函数,并根据奖励函数确认奖励r:
[0043][0044]
其中,r为奖励集,r-是一个负常数,表示当系统成本超出成本预算时,负的即时奖励对当前价值有很大的削减,系数β和δ分别是隐私保护程度和系统成本的权重;当系统成本在以内时,对于当前状态,有两种可能的奖励:如果当前隐私保护程度d不满足隐私
保护的要求,即y=0,奖励为-βd-δc
π
;当前隐私保护程度d满足隐私保护的要求,即y=1,奖励则是r
+-δc
π
,r
+
为一个正常数。
[0045]
本发明的有益效果:
[0046]
本系统的各部分的功能以及工作原理如下:
[0047]
1.对智能家庭住宅进行建模,引入可充电电池,将能源供应商提供的电能拆分为供给电池和用电设备两部分,在能源管理单位的控制下对电池进行错峰充放电,掩盖用户原始负载曲线。
[0048]
2.根据智能电表中的原始数据和用户的个性化要求,在数据传输过程中采用差分隐私的算法给数据加噪点,根据加噪点数据的数量对隐私保护程度进行分类,并由此定义了数据保护的精确度衡量标准,量化分析不同的隐私保护程度并带入马可夫决策模型。
[0049]
3.考虑到可充电电池的情况下,根据不同程度的隐私保护预算和实时电价,建立了模型中一套独特的成本计算体系,计算出使用该系统后的具体成本,作为参数带入马可夫决策模型。
[0050]
4.本方法利用马可夫决策过程,利用马尔可夫决策过程将隐私和成本之间的权衡转化为一个优化问题,并运用sarsa算法解决并找到最优策略,本方法能够衡量隐私保护水平和系统成本,还可以根据用户的需求制定个性化需求,找到最恰当的能源管理策略,最佳地权衡系统成本和数据隐私保护。
附图说明
[0051]
图1是本发明设计的兼顾隐私保护和成本节约的能源管理系统模型图。
[0052]
图2是本发明设计的兼顾隐私保护和成本节约的能源管理系统流程图。
[0053]
图3是k=1、k=3以及k=10时原始数据和隐私保护后数据的对比图。
具体实施方式
[0054]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
[0055]
如图1所示,本技术提出了一种基于马尔可夫决策过程的能源管理系统,马可夫决策模块、能源管理模块、成本计算模块和隐私保护模块;在本能源管理系统中,能源管理模块和隐私保护模块都对用户的用电数据起到了保护作用,具体如下:
[0056]
能源管理模块是由能源需求侧和能源管理单位构成,能源需求侧包括用电器和可充电电池。能源供应商通过智能电表连接能源需求侧,由能源供应商为家庭提供的电能,一部分直接给用电器供电,其余储存在可充电电池中。能源管理单位与用电器、可充电电池和智能电表之间通过信号线相连接,通过能源管理单位实时监测电价和用户总需求,可以合理控制可充电电池的充放电时长。能源管理模块通过可充电电池在任意时刻的充放电来对用户的用电实际情况进行掩盖,属于物理层面上的隐私保护。
[0057]
隐私保护模块是将一个时间段内智能电表收集到的数据分成若干组,采用差分隐私算法对数据组进行加噪处理,防止每组数据中的重要信息在传输过程中被攻击者窃取。在隐私保护模块中定义隐私保护等级,量化分析不同的隐私保护程度。
[0058]
成本计算模块分别与能源管理模块、隐私保护模块之间通过信号连接,在成本计算模块内结合实时电价、电池使用情况以及隐私预算,计算出能源管理系统的系统成本。
[0059]
伴随着用户对隐私保护程度需求的提高,系统成本也会随之提高,为此本技术设计了马可夫决策模块,用于在隐私和成本两者之间进行权衡,为用户找到一个最优的能源管理策略。马可夫决策模块分别与成本计算模块、能源管理模块之间通过信号连接,将能源管理系统的系统成本以及隐私保护程度作为参数输入马可夫决策模型构造优化问题,并运用sarsa算法解决优化问题,输出最优的隐私保护程度和能源管理系统的系统成本输入至能源管理模块。
[0060]
基于本技术设计的一种基于马尔可夫决策过程的能源管理系统,本技术还提出了一种基于马尔可夫决策过程的能源管理方法,包括如下步骤:
[0061]
步骤1,基于用户个性化的隐私保护需求,选择差分隐私算法的隐私保护等级k;
[0062]
步骤2,以一天为基本单位,遍历每一个可能的保护等级k,k≤k;以6(11-k)为固定时间间隔,在智能电表向能源供应商传输数据的过程中,利用差分隐私算法对个原始数据进行加密处理;
[0063]
步骤3,计算能源管理系统的隐私保护程度以及系统成本;
[0064]
步骤3.1,隐私保护程度:
[0065]
隐私保护模块中具体使用拉普拉斯机制的差分隐私算法,根据用户对隐私的个性化需求,对原始数据集中不同个数的数据加噪点。
[0066]
根据差分隐私的定义,对于任意两个相邻的数据集x,x

,每组查询的结果s和随机机制m满足:
[0067]
pr[m(x)∈s]≤exp(∈)
×
pr[m(x

)∈s];
[0068]
其中,pr[.]是某个事件发生的概率,∈为隐私预算;通过引入参数∈可以控制修改前后数据集的隐私保护程度。随着隐私预算越小,数据保护程度也越高。
[0069]
对于任意查询f:x

r,拉普拉斯机制m有:
[0070]
m(x)=f(x)+y;
[0071]
其中,y为随机噪点,y~lap(δf/∈),δf是查询结果f的敏感度,函数的敏感性描述了单个个体在最坏情况下所带来的可能变化,δf的定义式:
[0072][0073]
在隐私保护模块中,为了能够准确地衡量隐私的保护程度,参考统计距离的概念,定义了该系统中隐私的精确度:
[0074][0075]
其中,p
sm
(t)和p

sm
(t)分别表示智能电表采集的原始数据和经过修改后的数据,k表示对原始数据集进行隐私保护的次数,k越大用户数据得到的保护就越好。
[0076]
步骤3.2,系统成本
[0077]
系统的成本包含三个部分:可充电电池运行费用、实时电价下用电器的用电成本和个性化的隐私预算。
[0078]
(1)可充电电池运行费用,通过可充电电池自身费用除以预估电池的可充放电次数定义得出电池的摊销成本q:
[0079][0080]
定义s(t)表示时间段δt中可充电电池的工作状态。如果可充电电池正在充电或者放电,则s(t)=1;如果没有使用可充电电池,则s(t)=0。由此,得到电池的运行费用:
[0081][0082]
(2)电价成本,通过控制端监控实时电价v
t
,根据电表读数p
sm
(t)可以直接计算出用户在时间段δt内的电价成本:
[0083][0084]
(3)隐私预算,利用差分隐私算法对用户数据进行保护,根据不同用户的需求确定个性化的隐私保护程度。根据差分隐私的定义,对每个数据加噪点的隐私预算为∈,不同用户隐私保护等级k下的隐私预算c
p
计算公式如下:
[0085]cp
=k∈;
[0086]
最后,将每段δt进行累加求和,系统中个性化的成本体系汇总如下:
[0087][0088]
步骤4,将系统成本和隐私的精确度d输入到本模块的马可夫决策模型,进行马可夫决策过程,获得完整的价值表q;过程如下:
[0089]
步骤4.1:定义了三元组为m=(s,a,r),s表示状态集,a表示动作集,r表示奖励集。具体如下:
[0090]
1)状态集:使用s(d,y,p
sm
,c
π
,d)来表示状态空间,它定义了所有可能的状态。在状态集中,d为用户隐私保护需求程度,是所有等级下的隐私保护程度集合的一个元素,y是一个二元参数,用于反映当前精确度d是否满足用户的预期需求,c
π
表示当前状态下的系统成本,p
sm
为智能电表采集的数据,d表示所有可取精确度的集合;
[0091]
2)动作集:动作集a是由状态集s后所有可能的动作组成。该系统中的具体动作是指利用差分隐私算法修改原始智能电表数据,不同程度的修改可能会导致不同等级的系统成本和数据准确性。基于用户个性化的隐私保护需求,定义的动作空间最多包含k个选择,这意味着原始数据集中最多k个元素可能被修改。
[0092]
3)奖励集:根据设计的个性化系统成本和隐私的精确度,奖励函数表达如下:
[0093][0094]
其中,r-是一个常数,表示一个很大的负值,系数β和δ分别是数据精确度和系统成本的权重。c
π
和d是当前状态下的系统成本和隐私精确度。当系统成本超出成本预算时,会对当前状态价值有一个很大的削减。当系统成本在以内时,对于当前状态,有两种可能
的奖励:如果当前精确度d不满足隐私保护的要求,即y=0,奖励为-βd-δc
π
;当前精确度d满足隐私保护的要求,即y=1,奖励则是r
+-δc
π
,r
+
为一个正常数。
[0095]
步骤4.2:基于ξ-贪心算法选择当前状态下一个可能的动作a,并根据下一时刻的电表数据更新下一个状态s

,同时得到一个即时的奖励r1,确定下一个动作a


[0096]
步骤4.3:根据下一时刻的动作状态对q(s

,a

)更新上一时刻的价值q(s,a),由此循环直到该等级下的所有当前动作全部结束。
[0097]
步骤4.4:重复上述过程,得到该保护等级k下的所有状态动作对的价值。
[0098]
步骤4.5:考虑所有可能符合用户需求的k,遍历每一个保护等级k,得到一张完整的价值表q。
[0099]
步骤5:查询整个价值表q,找到最适合该用户的隐私保护程度k
*
以及该保护程度相对应的成本将其反馈给用户;如果没有找到符合条件的隐私保护程度k
*
以及该保护程度相对应的成本则返回询问用户是否更改初始条件,再重复上述过程。
[0100]
如图2,以下结合sarsa算法应用于马可夫模型的具体过程,作进一步说明:
[0101]
[0102][0103]
sarsa中的细节如算法1所示。其中,第1-17行描述了sarsa的学习过程。我们首先根据智能电表采集的数据p
sm
对状态集s进行初始化,我们共循环k次来评估每个保护等级k下的序列价值。在每次循环中,我们遍历所有可能的动作状态对,得到该等级下所有的价值集合。具体做法是,我们首先在所有可能的隐私精确度集合d中随机挑选一个元素,根据状态集的定义和原始数据可以得到第一个状态s1。在每次迭代中,我们基于ξ-贪心算法选择我们的动作。具体来说,在动作集中以ξ的概率随机挑选一个动作,根据确定的状态s和行动a,我们可以更新下一个状态s

,与此同时我们可以得到一个及时的奖励r1,并且下一个动作a

也随之确定,在确定了下一个动作状态对q(s

,a

)的价值后,我们更新上一个时刻的价值q(s,a)。重复次后,我们可以得到当前保护等级下的整个q表。
[0104]
上表描述了sarsa算法的应用。通过搜索整个q表,我们可以计算出最佳隐私保护程度k
*
以及该保护程度相对应的成本。然后,我们将当前的隐私准确度与客户的需求进行比较。如果需求得到满足,我们将其输出;而如果不满足用户的需求,系统将向用户发送请求以确定是否更改需求。
[0105]
结合附图3,结合k=1、k=3以及k=10时原始数据和隐私保护后数据的对比图,可以看出当k=1时,我们观察到(a)图中两条负荷曲线差异很小,说明隐私保护的程度很低;当k=5时,从(b)图中可以看出,原始的负载曲线和经过修改的曲线存在明显的差异,用户的实时用电信息被一定程度掩盖,较好的保护了用户的隐私;当k=10时,(c)图中加密后的曲线变得更加平滑,不法分子很难窃取或利用这些数据,从而很好地达到保护用户隐私的目的。
[0106]
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1