本发明属于信息安全技术领域,尤其涉及泛在电力物联网动态数据发布方法。
背景技术:
伴随着云计算、物联网等信息技术的快速发展,智能电网变得越来越智能化、高效化。2019年泛在电力物联网概念被提出。泛在电力物联网充分应用移动互联、人工智能等现代信息技术、先进通信技术,实现电力系统各个环节万物互联、人机交互,具有状态全面感知、信息高效处理、应用便捷灵活的特征。泛在电力物联网的发展带来了海量电力数据,这些数据经过数据挖掘与分析技术后得到的分析结果,一方面,可以帮助电力企业改进生产、服务等各个环节,为电网企业建设起到决策与预测作用。另一方面,这些数据如果发布未处理或处理不当,可能会使用户的敏感信息暴露给攻击方,从而推测出用电客户的家庭人员情况、地理位置、生活作息规律等信息,从而造成数据隐私泄露。因此泛在电力物联网数据隐私保护成为研究的热点。
关于隐私保护数据发布的研究,逐渐形成了两个主要分支。一个是数据匿名技术,如k-匿名及其扩展,l-多样性,t-紧密度等。另一个是差分隐私技术及其扩展。
匿名化技术(anonymization)实现个人信息记录的匿名,理想情况下无法识别到具体的“自然人”,用来抵御数据库链接攻击等攻击方式。在学术研究上,经典模型为美国学者sweeney提出并设计的k匿名化模型(k-anonymity),模型通过对个人信息数据库的匿名化处理,可以使除隐私属性外,其他属性组合相同的值至少有k个记录。但是匿名化技术隐私保护模型的安全性与对手拥有的背景知识有关,而所有可能的背景知识都难以充分定义,因此,无法抵抗任何新型攻击。差分隐私技术可抵御上述的攻击,其防御策略是:对于两个具有最小差异的数据集,使它们之间的查询差异非常的有限,因此限制了攻击者的信息获取;同时,它建立在严格定义隐私且定量评估方法建立在坚实数学基础之上。所以差分隐私理论逐渐成为隐私保护研究的热门话题。但是目前的研究多开展于静态数据隐私保护上,动态的数据发布隐私保护是亟待研究的问题。
技术实现要素:
本发明的目的在于提供一种基于差分隐私的泛在电力物联网动态数据匿名发布方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于差分隐私的泛在电力物联网动态数据发布方法,包括下列步骤:
步骤1,在边缘层的边缘服务器间搭建基于联邦学习的循环神经网络(rnn)模型;
步骤2,边缘服务器的预测模块接收到来自发布出去的扰动数据,训练定制的预测模型,并用该模型计算出当前即将发布的数据的预测值
步骤3,电力物联网边缘端终端设备将原始数据发送到边缘服务器中,边缘服务器连续不断的将数据传送到自适应采样模块中,进行自适应采样;
步骤4,进行自适应隐私预算分配机制得到接下来的采样点分配的隐私预算的大小;
步骤5,通过分组合并模块将一些临近区块内的数据进行分组合并后降低噪声干扰带来的影响;
步骤6,对于加完噪声后的数据,安全发布处理后的数据。
进一步的,所述步骤2具体包括下列步骤:
步骤21,在远程云中的大规模数据中训练源神经网络;
步骤22,边缘服务器从远程云加载经过预训练的神经网络;
步骤23,经过预训练的网络通过采用新的层(而不是最后一层)来学习特定于目标域数据的特征来转换为定制的预测模型,然后从有关的边缘服务器进行训练;
步骤24,计算出当前即将发布的数据的预测值
进一步的,所述步骤3具体包括下列步骤:
步骤31,计算误差ei=|di-dj|,其中:di表示当前时间点ti下的采样点的真实数据,dj表示最近时间点tl发布出去的最新采样点的扰动数据;
步骤32,计算扰动误差λi=1/∈i,其中:∈i是可在时间戳ti处分配的隐私预算;
步骤33,如果ei>λi,分配隐私预算,并更新采样间隔i=ti-tl;否则不分配隐私预算。
进一步的,所述步骤4具体包括下列步骤:
步骤41,计算窗口[i-ω+1,i]的剩余预算
步骤42,计算p=min(φ·ln(i+1),pmax)用于确定当前采样点的预算,其中:φ是在(0,1)范围内变化的比例因子;
步骤43,计算分配给当前时间戳的预算∈i=min(p·∈r,∈max)。
进一步的,所述步骤5具体包括下列步骤:
步骤51,在采样时间点ti下,通过预测模块预测可以得到每个位置区域r={r1,r2,...,rm}的估计值
步骤52,找出区域rm的估计值
步骤53,对于集合gmerge中的每个元素,找出以该元素为中心的临近区域,构成新的集合gm;
步骤54,计算gm中rm与所有邻近区域的数据相似度,通过历史数据计算其每个区域之间的皮尔逊相关系数,找出和皮尔逊相关系数绝对值最大的两个区域rm,rk;若rk∈gmerge,则合并成新的区域rm,k,若rm,k≤τ,则加入到集合gmerge中,并除去rm,rk,返回步骤52中继续执行;若rm,k>τ,执行步骤55;若
步骤55,合并rm,rk这两个区域形成新的分组区域
进一步的,所述步骤6具体包括下列步骤:
步骤61,利用公式
步骤62,安全发布处理后的数据。
本发明的有益效果为:
对于电网数据的安全发布问题,引入差分隐私方法,将隐私预算作为衡量隐私保护程度的指标,在满足差分隐私的情况下提出新的动态数据发布方法并对有限的隐私预算进行合理分配。并且,提出了基于联邦学习的rnn模型,以准确预测统计值并提高已发布数据的实用性,该模型可以使用来自边缘设备的本地数据集进行分布式模型训练,仅共享模型更新而无需上传原始训练数据,可以保障边缘设备的隐私。而且,在进行动态发布的时分配合适的隐私预算ε计算其噪声值,在保护原数据发布、隐私不被泄露的同时提高发布数据的可用性。本发明实现了动态数据发布的目标。
附图说明
图1是一种基于差分隐私的泛在电力物联网动态数据发布方法的模型图;
图2是一种基于差分隐私的泛在电力物联网动态数据发布方法的模型流程图;
图3是rnn网络架构图。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本发明解决问题的思路是:引进差分隐私算法对泛在电力物联网数据进行处理,设计了一个动态数据预测机制,以及自适应采样方法和隐私预算自适应分配机制,将隐私预算的分配更加合理化,隐私预算利用最大化。此外对于采样点数据,通过分组合并机制减少注入噪声的干扰。实现动态数据安全发布。
实施例:
如图1所示,本实施例的基于差分隐私的泛在电力物联网动态数据发布方法的模型图,以联邦学习进行主体模型构造,搭建一个分布式rnn模型,用于基于当前发布的数据实时预测当前时间戳的统计信息,并使用预测值执行自适应采样和自适应隐私预算分配。
如图2所示,本实施例的一种基于差分隐私的泛在电力物联网动态数据发布方法,主要包括如下步骤:预测,自适应采样,隐私预算分配,分组合并,添加噪声,发布。
如图3所示,本实施例的基于rnn网络架构图,用于预测得到即将发布的数和数据预测值。
整个方法步骤如下:
1)准备泛在电力物联网数据:采用某地区配电台区实测的2019年8月份第1周的数据,初始采样间隔为15分钟,后面动态调整,每条样本数据的基本单位为天,将采集到的完整数据样本按一定比例分为模型训练数据和测试数据。
2)在边缘层的边缘服务器间搭建基于联邦学习的循环神经网络(rnn)模型。
泛在电力物联网构建“云-边-端”网络架构,这种网络架构比较之前中央云存储数据模型能够保障数据安全。基于此网络架构,构建基于联邦学习的rnn模型,在有限的网络带宽和边缘服务器的计算能力下最大化学习任务的数量。
3)边缘服务器的预测模块接收到来自发布出去的扰动数据,训练定制的预测模型,并用该模型计算出当前即将发布的数据的预测值
31)在远程云中的大规模电网历史数据中训练源神经网络;
32)边缘服务器从远程云加载经过预训练的神经网络;
33)经过预训练的网络通过采用新的层(而不是最后一层)来学习特定于目标域数据的特征来转换为定制的预测模型,然后从有关的边缘服务器进行训练;
34)如图3所示,我们使用训练好的rnn模型计算出当前即将发布的数据的预测值
具体来说,步骤34)具体又包括下列步骤:
341)用于预测的先前发布的扰动数据集为(rt-c,rt-c-1,...,rt-1);
342)如图3所示,对于隐藏层的神经元,例如q,q的输出为
343)由上式,对于输出层神经元,例如o可以计算出其最终输出即预测值
4)电力物联网边缘端终端设备将原始数据发送到边缘服务器中,边缘服务器连续不断的将数据传送到自适应采样模块中,进行自适应采样,引入pid控制机制去进行自适应采样过程。步骤4)具体包括以下步骤:
41)计算误差ei=|di-dj|,其中:di表示当前时间点ti下的采样点的真实数据,dj表示最近时间点tl发布出去的最新采样点的扰动数据;
42)计算扰动误差λi=1/∈i,其中:∈i是可在时间戳ti处分配的隐私预算;
43)如果ei>λi,分配隐私预算,并更新采样间隔i=ti-tl;否则不分配隐私预算。
5)进行自适应隐私预算分配机制得到接下来的采样点分配的隐私预算的大小。步骤5)具体包括以下步骤:
51)计算窗口[i-ω+1,i]的剩余预算
52)计算p=min(φ·ln(i+1),pmax)用于确定当前采样点的预算,其中:φ是在0,1范围内变化的比例因子;
53)计算分配给当前时间戳的预算∈i=min(p·εr,∈max)。
6)通过分组合并模块将一些临近区块内的数据进行分组合并后降低噪声干扰带来的影响。步骤6)具体包括以下步骤:
61)在采样时间点ti下,通过预测模块预测可以得到每个位置区域r={r1,r2,...,rm}的估计值
62)找出区域rm的估计值
63)对于集合gmerge中的每个元素,找出以该元素为中心的临近区域,构成新的集合gm,例如g1={r1,r2,…,rk}表示以区域r1为中心的邻近区域集合;
64)计算gm中rm与所有邻近区域的数据相似度,通过历史数据计算其每个区域之间的皮尔逊相关系数。找出和皮尔逊相关系数绝对值最大的两个区域rm,rk。若rk∈gmerge,则合并成新的区域rm,k,若rm,k≤τ,则加入到集合gmerge中,并除去rm,rk,返回步骤62)中继续执行;若rm,k>τ,执行步骤65);若
65)合并rm,rk这两个区域形成新的分组区域
7)对于加完噪声后的数据,安全发布处理后的数据。经过上面无论是初次发布数据还是动态更新数据,经过方法合理的差分隐私保护,实现数据匿名化,最终实现高效的动态数据安全发布。步骤7)具体包括以下步骤:
71)利用公式
72)安全发布处理后的数据。
本发明是一种基于差分隐私的泛在电力物联网动态数据发布方法,属于信息安全技术领域。该方法引入差分隐私引进差分隐私算法对泛在电力物联网数据进行处理。根据过去每天的历史数据,设计基于联邦学习的rnn模型,并且设计了一个动态数据预测机制得到即将发布的电网数据的预测值,设计了自适应采样模块判断原始数据是否扰动,通过隐私预算自适应分配机制,将隐私预算的分配更加合理化,隐私预算利用最大化。此外对于采样点数据,通过分组合并机制减少注入噪声的干扰。实现动态数据安全发布。整个动态数据发布方法保护了数据的隐私,同时高效的发布数据,最大限度保证数据的可用性,实现了预期的目标。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。