一种基于差分隐私的社交网络直方图发布方法及装置

文档序号:35210653发布日期:2023-08-24 04:47阅读:44来源:国知局
一种基于差分隐私的社交网络直方图发布方法及装置

本发明涉及图数据发布的隐私保护,尤其涉及一种基于差分隐私的社交网络直方图发布方法及装置。


背景技术:

1、随着互联网和大数据技术的迅速发展,社交网络蕴含的海量数据已经成为一种重要的信息资源。通过数据挖掘等方法,这些数据可以直接或间接地为社会生产和生活带来巨大的价值。但是,社交网络中包含着大量个人隐私信息,直接发布信息或进行数据挖掘很容易造成个人隐私泄露的问题。因此,在社交网络数据发布和挖掘过程中对个人敏感信息进行安全有效的保护至关重要,具有重要的研究意义。

2、随着移动设备的迅速普及和互联网技术快速发展,各种各样的社交网络已然和人们的日常生活紧紧联系在一起。社交网络概念最早见于barnes的论文,文中阐明人与人之间的相互关系是构成社交网络的基本形式。目前,各类社交网络平台(如微信,qq,微博,推特,facebook等)都在很大程度上改变着人们的沟通和交流方式。依托于强大的社交平台,用户可以在其中发送文本信息,语音信息和电子邮件等文件来进行分享信息。甚至有些人为了丰富和增强自己的社交信息和能力,他们会将一些比较敏感的数据(如手机号码,家庭住址,邮编,职业,年龄等)上传到社交网络中。

3、如今,国内外的社交网络体量和其中的用户量都达到了前所未有的程度,长时间社交网络积累的海量数据,在一定程度上反映社会的运行规律,具有重要的研究意义和社会价值。然而,通常在社交网络数据中包含着个人隐私信息(如医疗信息,消费记录信息和人际关系信息等),随着此类社交网络数据的不断发布和共享,个人隐私信息随时面临着被泄露的风险,此类事件对社会造成巨大的负面影响。因此,社交网络数据在进行分析、发布和共享之前需要对原始数据进行必要的隐私保护工作,让第三方人员(攻击者或数据分析者)不能够获取某一具体用户的相关隐私信息,从而使得在利用社交网络海量数据的同时,还能够保证用户的隐私不被泄露。例如,相关的隐私保护研究人员尝试着使用数据匿名化,数据加密和数据扰动等技术来提升社交网络发布和挖掘的安全性。

4、因此,社交网络数据在进行分析、发布和共享之前需要对原始数据进行必要的隐私保护工作,让第三方人员(攻击者或数据分析者)不能够获取某一具体用户的相关隐私信息,从而使得在利用社交网络海量数据的同时,还能够保证用户的隐私不被泄露。例如,相关的隐私保护研究人员尝试着使用数据匿名化,数据加密和数据扰动等技术来提升社交网络发布和挖掘的安全性。

5、综上所述,社交网络隐私泄露问题严重阻碍了社交网络自身发展及其数据共享的进程,给社会发展带来巨大阻碍,因此在社交网络中进行安全的数据发布和的数据挖掘显得尤为重要。只有不断提高和完善社交网络隐私保护机制,才能够让社交网给社会带来更大的价值,推动社会的进步。所以,如何在不泄露社交网络隐私信息前提下,做到安全的数据发布和有价值的数据挖掘是一个亟待解决的问题。

6、toredanlenius在1977年最早提出隐私保护概念,他从数据库的数据发布角度来阐述隐私保护问题,认为实现数据库中的隐私信息保护就是要让包括合法用户在内的所有用户都无法获取关于数据库中任意个体的唯一确定性信息。虽然这种观点具有较为主观和模糊的性质,但还是为后来的研究提供了理论指导。

7、实现隐私保护的目标就是保证在数据发布和数据分析的过程中不泄露关于个人的隐私信息的前提下,还能使数据仍然具备一定程度的有效性,处理好数据隐私性和数据可用性之间的平衡。随着对隐私保护研究的不断深入,目前隐私保护方案主要包括:数据匿名化技术,数据加密技术和数据扰动技术。

8、数据匿名化技术本质上是一种数据泛化技术,最早见于samaritan和sweeny在2002年提出k-anonymity隐私保护方法,该方法通过抽象的值代替原始数据的敏感信息,先将要发布的数据划分为若干等价类,并保证在等价类中至少存在以小于或等于1/k概率识别到目标对象,这使得攻击者无法准确定位具体记录。由于k-匿名无法抵御一致性攻击,为此machanavajjhala等人提出1-diversity方法,该方法可以对等价类中只有一种敏感信息的情况做到有效避免,但对相似性攻击的抵抗较弱。t-closeness方法可以有效地抵御相似性攻击,但该方法忽略了由于敏感属性的不稳定性造成的隐私泄露问题。数据匿名化技术的不足点在于:一方面,很难对攻击者的背景知识进行定义,基于匿名化模型只能抵抗大部分特定的背景知识攻击,具有明显的局限性。另一方面,早期基于匿名化技术实现的隐私保护模型无法保证可靠性,在模型中的参数发生变化时,无法对隐私性造成的影响做出定量的解释。

9、数据加密技术用于在研究数据挖掘的过程中对敏感数据的隐藏,同样可以用于对社交网络数据的隐私保护。agrawal等人基于多项式加密设计出一种适合于低功耗移动设备的椭圆曲线密码学隐私保护方案。为了解决多方拒绝数据共享的问题,yao等人提出了安全多方计算,随后便出现诸多数据加密算法。虽然加密方法可以保证数据的安全性和完整性,但是数据加密技术研究重点是如何更隐秘的隐藏信息让数据难以逆恢复,这和隐私保护的目标不符,并且基于数据加密的方案存在计算开销过高的特点。

10、数据扰动技术的基本思想是在确保数据若干统计信息不发生改变的前提下,通过添加随机噪声等方式实现对原始数据扰动,让数据失真以起到隐私保护的效果。实现数据扰动的方式众多,dp(differential privacy,差分隐私)模型就是其中一种重要且有效的方式。目前,差分隐私已被应用于社交网络隐私保护,该模型在保证不泄露个人隐私信息的前提下减小由于数据失真引起的误差,从而确保数据的有效性。sarathy等人分析了差分隐私针对数值型数据保护的优缺点,并将差分隐私与k-匿名方法结合,实现了具有自适应能力的应答系统。cormode等人针对基本的线性查询,利用噪声重构感兴趣的查询结果,做到精度和效率的平衡。

11、lan等人提出了基于差分隐私的随机扰动的方法,其主要思想是对社交网络中的边以及边的权重进行保护,保证接收数据的有效性。chen等人使用聚类方法对社交网络进行划分。xiao等人针对社交网络中节点与节点之间的连接概率对网络结构进行编码,以获取社交网络图中具备统计意义的数字特征参数。

12、虽然国内将差分隐私运用到社交网络隐私保护的研究相较于国外起步稍晚,但依然做出了突破并取得了一些研究成果。2013年,李杨等人提出了基于k-means的差分隐私保护方法以解决在聚类任务的执行过程中暴露的隐私泄露问题。2014年,熊平等人详细阐述了差分隐私的发展历程并致力于研究降低算法复杂度和细化数据精度。同年,张啸剑等人提出了基于差分隐私的“top-k”频繁模式数据挖掘算法,并重点剖析了差分隐私在数据发布,数据挖掘和机器学等诸多领域上的应用。宋健等人利用微聚集算法来进行划分等价类并引入sulq框架,提出了一种满足差分隐私的匿名化方案以解决由于计算等价类质心而导致的隐私泄露问题。彭慧丽等人针对匿名化方法中由于过度依赖知识背景假设而导致脆弱性问题,利用指数机制提出了基于k-中心点的边权重聚类方法。吴振强等人于2019年提出了一种满足差分隐私的不确定图边概率赋值算法和基于三元闭包的不确定图边概率分配算法,这两种算法较适合于实现对简单社交网络的隐私保护。2020年,黄海平等人基于单源最短路径约束模型来添加噪声,提出了一种基于差分隐私的非交互式带权值的“dp-noise”方法以解决社交网络图数据中社交关系敏感程度不均衡的问题。


技术实现思路

1、本发明针对如何在不泄露社交网络隐私信息前提下,做到安全的数据发布和有价值的数据挖掘的问题,提出了本发明。

2、为解决上述技术问题,本发明提供如下技术方案:

3、一方面,本发明提供了一种基于差分隐私的社交网络直方图发布方法,该方法由电子设备实现,该方法包括:

4、s1、将社交网络以图结构表示,得到原始社交网络图。

5、s2、采用图映射方法对原始社交网络图进行节点差分隐私处理。

6、s3、基于相邻桶分组划分算法agbd对处理后的社交网络图进行直方图发布。

7、s4、利用排列保序方法优化直方图发布,得到基于差分隐私的社交网络直方图发布结果。

8、可选地,s2中的采用图映射方法对原始社交网络图进行节点差分隐私处理,包括:

9、s21、删除原始社交网络图中的所有边,保留原始社交网络图中的节点,原始社交网络图中所有的节点度数均为0,得到删除边后的社交网络图。

10、s22、设定节点阈值,根据字典排序得到稳定的顺序边集。

11、s23、根据节点阈值以及稳定的顺序边集,对删除边后的社交网络图进行逐次加边。

12、其中,稳定的顺序边集为当且仅当输入社交网络图和输出社交网络图之间仅相差一个节点。

13、可选地,s3中的基于相邻桶分组划分算法agbd对处理后的社交网络图进行直方图发布,包括:

14、s31、根据处理后的社交网络图得到原始直方图。

15、s32、对原始直方图中相邻的桶进行分组合并以及划分。

16、s33、划分后,在满足全局敏感度上界约束下,向原始直方图中的各个区间添加服从独立同分布的拉普拉斯laplace噪声,并进行直方图发布。

17、可选地,s32中的对原始直方图中相邻的桶进行分组合并以及划分,包括:

18、s321、根据贪心策略对原始直方图中相邻的桶进行分组合并。

19、s322、根据定义的相邻桶划分误差、直方图误差以及桶合并划分误差,对原始直方图中相邻的桶进行划分。

20、可选地,s322中的相邻桶划分误差,如下式(1)所示:

21、  (1)

22、其中,,lefti表示桶bi的左边界值,righti表示bi右边界值,numi表示桶bi上的计数统计值,规定数据xi 装入桶bi需要满足lefti≤xi≤righti条件,hj表示在桶bj下的桶划分方式。

23、可选地,s322中的直方图误差,如下式(2)所示:

24、  (2)

25、其中,表示原始直方图,表示包含k个桶的划分方法,j∈(1,k) ,lefti表示桶bi的左边界值,righti表示bi右边界值,numi表示桶bi上的计数统计值,hj表示在桶bj下的桶划分方式。

26、可选地,s322中的桶合并划分误差,如下式(3)所示:

27、 (3)

28、其中,表示桶bi和桶bj 合并之后构成的新桶,新桶的误差记为,err(bi) 表示桶bi的误差,err(bi+1) 表示桶bi+1的误差。

29、另一方面,本发明提供了一种基于差分隐私的社交网络直方图发布装置,该装置应用于实现基于差分隐私的社交网络直方图发布方法,该装置包括:

30、构建模块,用于将社交网络以图结构表示,得到原始社交网络图。

31、图映射模块,用于采用图映射方法对原始社交网络图进行节点差分隐私处理。

32、发布模块,用于基于相邻桶分组划分算法agbd对处理后的社交网络图进行直方图发布。

33、优化模块,用于利用排列保序方法优化直方图发布,得到基于差分隐私的社交网络直方图发布结果。

34、可选地,图映射模块,进一步用于:

35、s21、删除原始社交网络图中的所有边,保留原始社交网络图中的节点,原始社交网络图中所有的节点度数均为0,得到删除边后的社交网络图。

36、s22、设定节点阈值,根据字典排序得到稳定的顺序边集。

37、s23、根据节点阈值以及稳定的顺序边集,对删除边后的社交网络图进行逐次加边。

38、其中,稳定的顺序边集为当且仅当输入社交网络图和输出社交网络图之间仅相差一个节点。

39、可选地,发布模块,进一步用于:

40、s31、根据处理后的社交网络图得到原始直方图。

41、s32、对原始直方图中相邻的桶进行分组合并以及划分。

42、s33、划分后,在满足全局敏感度上界约束下,向原始直方图中的各个区间添加服从独立同分布的拉普拉斯laplace噪声,并进行直方图发布。

43、可选地,发布模块,进一步用于:

44、s321、根据贪心策略对原始直方图中相邻的桶进行分组合并。

45、s322、根据定义的相邻桶划分误差、直方图误差以及桶合并划分误差,对原始直方图中相邻的桶进行划分。

46、可选地,相邻桶划分误差,如下式(1)所示:

47、  (1)

48、其中,,lefti表示桶bi的左边界值,righti表示bi右边界值,numi表示桶bi上的计数统计值,规定数据xi 装入桶bi需要满足lefti≤xi≤righti条件,hj表示在桶bj下的桶划分方式。

49、可选地,直方图误差,如下式(2)所示:

50、 (2)

51、其中,表示原始直方图,表示包含k个桶的划分方法,j∈(1,k) ,lefti表示桶bi的左边界值,righti表示bi右边界值,numi表示桶bi上的计数统计值,hj表示在桶bj下的桶划分方式。

52、可选地,桶合并划分误差,如下式(3)所示:

53、 (3)

54、其中,表示桶bi和桶bj 合并之后构成的新桶,新桶的误差记为,err(bi) 表示桶bi的误差,err(bi+1) 表示桶bi+1的误差。

55、一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于差分隐私的社交网络直方图发布方法。

56、一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于差分隐私的社交网络直方图发布方法。

57、上述技术方案,与现有技术相比至少具有如下有益效果:

58、上述方案,直方图发布作为一种重要的数据发布形式而被广泛应用在社交网络中,但社交网络数据在直方图发布过程中可能存在着隐私泄漏的问题。为缓解图映射方法在直方图发布过程中可能会引入过量噪声的问题,本发明提出了基于差分隐私的相邻桶分组划分方法agbd,其核心思想是使用贪心策略,并结合 laplace 机制对相邻桶进行分组划分以减少由于添加过量噪声对直方图发布质量的影响。同时利用排列保序方法优化直方图发布提升直方图发布查询的精确性。实验结果表明此方法可以提升直方图发布后的查询精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1