一种安全高效的隐私数据采集方法及系统与流程

文档序号:35419690发布日期:2023-09-13 00:29阅读:65来源:国知局
一种安全高效的隐私数据采集方法及系统与流程

本发明属于数据安全领域,涉及一种安全高效的隐私数据采集方法及系统。


背景技术:

1、在现代社会中,数据采集在各行各业中都扮演着不可替代的角色。随着信息技术的迅速发展和普及,大量的数据被生成、存储和传输,涉及到了各种各样的领域,包括但不限于金融、医疗、零售、交通、能源、农业等。这些数据对于进行业务分析、决策支持、科学研究等方面都具有重要的价值。数据采集作为数据处理的第一步,其准确性和效率对后续的数据分析和应用结果至关重要。然而,随着数据隐私保护法律法规的不断完善和人们对隐私保护意识的增强,数据采集过程中面临着越来越严格的隐私保护要求。在采集过程中,可能涉及到用户的个人身份、敏感信息、地理位置等隐私数据,如果这些数据在采集和传输过程中未经有效的保护,可能会导致隐私泄露和个人信息被滥用的风险。

2、为了保护用户的隐私,许多国家和地区制定了相关的法律法规,规定了数据采集和处理的合法性、合规性和安全性要求。在这样的背景下,数据采集方法需要满足严格的隐私保护要求。安全高效的数据采集方法应当采用加密技术保护数据在传输和存储过程中的安全,确保数据不被未授权的人员访问和窃取。本地差分隐私(localdifferentialprivacy,ldp)保护方法可以在数据采集的源头对数据进行隐私保护,不需要将原始数据传输到第三方或云端进行处理。这样可以有效减少数据泄露的风险,保护用户的隐私专利。并且它可以对数据进行差分化处理,添加噪音或扰动,使得数据不再直接关联到个体,从而保护个体的隐私。同时,本地差分隐私保护方法可以根据不同的需求和场景,灵活地设置隐私保护的强度,实现精细化的隐私保护。已经成为数据采集与隐私保护的重要技术手段。

3、目前,已有一些关于安全数据采集的研究工作。wang n,xiao x,yang y在“collecting and analyzing multidimensional data with local differentialprivacy”【in ieee 35th international conference on data engineering,pp.638-649,2019】研究了一种新的本地差分隐私机制,用于采集数字属性,其准确性至少不逊于现有解决方案,在最坏情况噪声方差方面通常表现更好。该机制还扩展到多维数据,且在最坏情况噪声方差方面始终优于现有解决方案。takagi s,cao y,yoshikawa m在“poster:datacollection via local differential privacy with secret parameters”【in acm asiaconference on computer and communications security,pp.910-912,2020】研究了隐私级别和实用程序如何随着数据提供者对隐私参数的保密而变化,并得出结论这种操作可以在效用损失较小的情况下增强隐私级别。通过将隐私参数视为公共信息或公共参数,数据提供者可以通过保密其首选隐私参数来放大隐私性并改善效用和隐私权衡。fatima z,yanl在“collective location statistics release with local differential privacy”【in future generation computer systems,vol:124,pp.147-186,2021】通过滑动窗口方法和隐私预算分配方法,可以发布集体位置统计数据并提供本地差分隐私证明。同时,还提出了近似策略来共享与当前时间最近的私有统计信息,可以解决在多个时间戳上发布具有本地差异隐私的位置统计信息的问题。

4、在数据采集过程中,虽然上述方法考虑了数据的安全采集,但却忽略了数据的高维性和维度间的关联关系,这可能导致一些潜在的问题。高维数据通常包含多个维度的信息,而这些维度之间可能存在着复杂的关联关系。忽略这些关联关系可能导致数据的分析和决策支持过程中出现偏差或错误的结论。为了保留高维数据维度间的相关性,一般有两个方法。一种是对每一维数据进行单独保护,后使用回归算法迭代恢复出数据间的关联关系;另一种是将高维数据编码成一维数据,对此进行保护处理。前者不仅面临着恢复关联关系准确性低的问题还有着较高的计算复杂度,后者则面临着整体保护的通信开销大问题。


技术实现思路

1、为了解决背景技术中存在的问题,本发明提供一种安全高效的隐私数据采集方法及系统,以提高采集效率、保护数据隐私,并减少通信开销,从而得到高质量的采集数据,并为后续的数据处理和分析提供可靠的基础。

2、为达到上述技术目的,本发明一方面提供一种安全高效的隐私数据采集方法,包括;

3、s1:利用z-curve编码算法将待采集的高维数据d编码到一维空间得到编码数据z;通过最优的细粒度γm将编码数据z划分为主段数据dp和子段数据ds;

4、s2:采用布隆计数器对主段数据dp进行隐私加密,采用本地差分隐私对子段数据进行加密;

5、s3:对加密后的主段数据和子段数据进行统计得到采集的数据

6、所述最优的细粒度γm的获取步骤包括:

7、s11:计算布隆计数器和本地差分隐私对主段数据和子段数据的联合隐私加密效果表达式、联合数据效用表达式、联合计算复杂度表达式和联合通信开销表达式;

8、s12:根据联合隐私加密效果表达式、联合数据效用表达式、联合计算复杂度表达式和联合通信开销表达式利用多目标优化公式确定最优的细粒度γm。

9、进一步地,所述将待采集的高维数据d编码到一维空间包括:

10、

11、l=log2(l)

12、其中,bi表示高维数据d在第i个维度的二进制表示;m表示高维数据d的维度数量;设高维数据d每个维度的取值范围为[0,l-1]之间的整数,则l表示高维数据d每个维度的取值。

13、进一步地,所述将编码数据z划分为主段数据dp和子段数据ds包括:

14、(dp,ds)=split(z,γm)

15、其中,split表示拆分函数。

16、进一步地,所述采用布隆计数器对主段数据dp进行隐私保护包括:

17、布隆计数器由哈希函数和计数器组成,首先利用哈希函数计算主段数据中每一个元素在哈希表中的存储地址,将对应元素存储至哈希表中,使用计数器对哈希表中每个地址对应元素的数量进行计数;

18、

19、其中,表示主段数据dp中的第i个数据,当经过哈希函数计算后得到的存储地址为a,则将地址a对应的计数器ca进行加1。

20、进一步地,所述采用本地差分隐私对子段数据进行保护包括:

21、本地差分隐私采用olh机制对子段数据ds进行加密,首先利用哈希函数将子段数据ds映射为输入域t′,x′∈t′,将x′以p的概率报告自己的真实值,以q的概率扰动成为其他值表示为;

22、

23、t′=h(ds)

24、其中,h表示哈希函数,ε表示保护子段数据ds的隐私等级,y表示x′加密后的数据;g表示输入域t′的长度。

25、进一步地,所述计算布隆计数器和本地差分隐私对主段数据和子段数据的隐私加密效果表达式、联合数据效用表达式、联合计算复杂度表达式和联合通信开销表达式包括:

26、在布隆计数器处理过程中,布隆计数器的隐私加密效果定义为:

27、

28、其中,表示布隆计数器的隐私加密效果,m表示哈希表的长度,k表示哈希函数的个数,n1表示主段数据中数据的个数,ca表示哈希表地址a对应的计数器计数;

29、在本地差分隐私的保护过程中,本地差分隐私的保护效果定义为:

30、

31、其中,表示本地差分隐私的隐私加密效果;

32、则联合保护效果表达式表示为:

33、

34、其中,α1表示权重参数,表示联合隐私加密效果;

35、对于布隆计数器,其数据效用常用误差上界表示,对于主段数据为x1,x2,...,xn1,布隆计数器处理后的结果为y1,y2,...,yn1,则布隆计数器的数据效用为:

36、

37、其中,k表示布隆计数器哈希函数的个数,m表示哈希表的长度,表示布隆计数器的数据效用;

38、对于本地差分隐私的数据效用表示为:

39、

40、其中,表示本地差分隐私的数据效用,n2表示子段数据中数据的个数;

41、则联合数据效用表达式表示为:

42、

43、其中,α2表示权重参数,表示联合数据效用;

44、布隆计数器处理数据的计算复杂度与哈希函数的数量k、哈希表的长度为m和主段数据中数据的个数n1有关,则布隆计数器的计算复杂度表示为:

45、

46、其中,表示布隆计数器的计算复杂度;对于本地差分隐私的计算复杂度被定义为:

47、

48、其中,d表示olh机制中使用哈希函数的个数,表示本地差分隐私的计算复杂度;

49、则联合计算复杂度表达式可定义为:

50、

51、其中,表示联合计算复杂度;

52、布隆计数器处理数据的通信开销取决于传输的数据,即哈希表的长度m和哈希函数的参数,哈希函数的参数包括:哈希函数的个数k和哈希种子的长度,设每个哈希种子的长度为s比特,则哈希函数参数占用的存储空间为(ks)/8字节,则布隆计数器处理数据的通信开销本地差分隐私保护过程中,所采用的olh处理数据的通信开销计算为则联合通信开销表达式表示为c表示联合通信开销。

53、进一步地,所述利用优化公式确定最优的细粒度γm包括:

54、

55、其中,表示细粒度γ下的联合保护效果,表示细粒度γ下的联合数据效用,表示细粒度γ下的联合计算复杂度,表示细粒度γ下的联合通信开销,w1、w2、w3和w4表示权重参数。

56、进一步地,所述对对加密后的主段数据和子段数据进行采集包括:

57、主段数据通过查询布隆计数器中的哈希表中的数值可得,通过对哈希表地址中的数值查询得到主段数据dp中每个元素出现的次数即每个地址对应的计数器计数ca,根据主段数据dp中每个元素出现的次数,使用本地差分隐私的校正操作得到主段数据dp下子段数据ds中每个元素出现的次数,具体计算公式如下:

58、

59、其中,fi′表示是子段数据中第i个元素出现的总次数,n2表示子段数据中数据的个数,统计得到主段数据dp下子段数据ds中第i个元素fi出现的次数,统计得到采集的数据

60、本发明的另一方面提供一种安全高效的隐私数据采集系统,所述系统基于所述的一种安全高效的隐私数据采集方法,包括:用户端、边缘服务器和云端;

61、所述用户端用于获取用户输入的待采集高维数据d;

62、所述边缘服务器用于将高维数据d编码到一维空间得到编码数据z;通过最优的细粒度γm将编码数据z划分主段数据dp和子段数据ds;并采用布隆计数器对主段数据dp进行隐私加密,采用本地差分隐私对子段数据进行隐私加密;

63、所述云端用于对加密后的主段数据和子段数据进行统计得到采集的数据

64、进一步地,所述边缘服务器和云端通过安全通信方式ssh协议进行数据传输。

65、本发明至少具有以下有益效果

66、(1)本发明提出的分段保护方法,通数据的分段编码可以将待采集的高维数据整合成一个整体并进行分段处理,维护了高维数据间的关联关系,避免了在处理过程中丢失数据间的关联性,同时减少了单一大块数据的传输和处理压力,提高了采集过程的效率。

67、(2)本发明提出的分段细粒度选择方法,根据采集通信开销、计算复杂度、隐私保护效果和数据效用,选择合适的数据片段细粒度,可以平衡效益和代价,达到最优的采集效果和隐私保护效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1