一种基于exceedw-event本地差分隐私的众包数据流真值发现方法

文档序号:35658715发布日期:2023-10-06 14:59阅读:68来源:国知局
一种基于exceedw-event本地差分隐私的众包数据流真值发现方法

本发明属于信息安全技术,具体涉及一种基于exceed w-event本地差分隐私的众包数据流真值发现方法。


背景技术:

1、众包是将任务外包给一群工人的技术,一个典型的众包程序主要涉及三个实体:一个集中的众包平台(云服务器)、工人、任务请求者。一般来说,任务请求者会发布任务到众包平台,接受任务的工人向众包平台提供他们的答案,任务请求者会从工人的答案中选择真值。例如,在交通监控应用中,交通信息由多个驾驶员报告;在医疗保健检测中,患者的健康数据被连续记录下来;实时的温度检测中,需要定期收集温度信息。

2、然而,不同工人之间的可靠程度是不同的,提供的答案也可能显著不同,这对数据的实用性也造成了影响。真值发现通过估计工人权重的方法为推断真实答案提供了有效的方法,但真值发现忽略了工人的隐私保护问题,一旦众包平台不可信,工人的隐私会受到很大威胁。此外,如果任务请求者需要长时间内连续收集工人的答案,进行频繁的真值发现会给服务器带来很大的负担。

3、为了保护工人的隐私,现有的一些技术使用同态加密、安全多方计算等对用户的数据进行加密,但密码学的技术需要沉重的计算开销。为减小服务器的计算负担,本地差分隐私作为一种高效的隐私保护机制被广泛应用,现有的本地差分隐私技术更多的针对于单值数据,直接将其应用于连续数据的收集也会带来很大问题。

4、在连续收集的众包数据流真值发现研究中,现有的本地差分隐私方案主要存在以下不足:

5、(1)无法在保证连续真值正确性的同时严格保护工人的隐私;

6、(2)服务器不可信的情况下,如何保护工人的隐私;

7、(3)如何降低服务器的计算负担。


技术实现思路

1、发明目的:本发明提供一种基于exceed w-event本地差分隐私的众包数据流真值发现方法,实现在服务器不可信的情况下,保护连续收集的工人的答案并保证估计真值的正确性。

2、为实现上述发明目的,本发明所提供的技术方案如下。

3、一种基于exceed w-event本地差分隐私的众包数据流真值发现方法,包括:

4、众包连续收集任务阶段:任务请求者向服务器发布m个任务,服务器将真值发现任务发送给工人端,并向n个工人发布在真值发现过程中需要的隐私预算ε和滑动窗口的大小w;

5、工人提交标志位阶段:所有工人在本地对该时刻的数据和前一时刻的数据变化的程度进行计算,并通过随机响应机制扰动提交是否重新更新真值的标志位;

6、局部真值发现阶段:服务器对工人提交的标志位进行频率计算,服务器根据频率估计结果决定是否进行局部真值发现,如果需要进行局部真值估计,服务器随机选择部分工人,工人提交保护后的数据,并进行局部真值估计;

7、服务器决策阶段:服务器对工人提交的标志位的频率结果,和局部真值和上一时刻真值的变化程度,决定该时刻是否重新真值,如果需要更新则进入真值发现阶段,否则提交前一时刻的真值;

8、真值发现阶段:所有工人提交扰动数据,服务器使用局部真值估计阶段的结果作为先验知识,重新进行真值发现获得最终提交的真值。

9、进一步的,服务器对于每个时刻、每个任务分配的隐私预算满足exceed w-event本地差分隐私,所述的exceed w-event本地差分隐私具体定义如下:

10、给定一个随机化算法m,输入流前缀st={s1,s2,…,st}由单个用户连续输入组成,所有可能的输出集合为若算法m对任意相邻的流前缀st和s't满足下列不等式,则m满足exceed w-event ldp:

11、

12、根据exceed w-event本地差分隐私定义,服务器预先给每个时刻分配的隐私预算,如果该时刻没有重新更新真值,即没有进行真值发现,则重新设置隐私预算为0;如果该时刻需要重新更新真值,吸收上一次真值发现时刻到当前时刻所有的隐私预算,更新当前时刻的隐私预算,并分配给工人;

13、隐私预算更新如下:

14、在w窗口下,每个时刻预先平均分配剩余的隐私预算如果前一时刻没有重新更新真值且没有被随机选中进行局部真值估计,则吸收前一时刻的隐私预算;假设被吸收的时刻有ta个,则该时刻隐私预算计算为被选择的工人使用这一隐私预算对数据进行扰动处理,添加拉普拉斯噪声后,工人将发送到服务器,然后服务器使用扰动数据进行真值发现。

15、进一步的,工人端对于是否需要更新真值计算处理过程如下:

16、工人在收到服务器的请求时,计算当前时刻的答案和前一时刻的答案变化程度,当工人的答案是数值型数据时,用连续时刻之间的绝对距离定义为当连续时刻的数据发生显著变化时,向服务器提交标志“1”,代表该时刻需要重新更新真值;否则提交标志“0”,代表不需要更新;

17、对变化程度的判定采用如下定义:

18、

19、基于该定义,将dbound与d进行比较,如果d-dbound>0,表示重新更新真值,否则,不更新真值。

20、进一步的,所述方法通过本地差分隐私的方法对0、1值进行隐私保护,具体如下:

21、记工人在t时刻提交的0、1值为表示在该时刻提交标记位阶段分配的隐私预算,经过本地差分隐私保护后提交的值为对0、1值的保护机制使用本地差分隐私中随机响应的方法,表达式如下:

22、

23、进一步的,服务器收到所有工人提交的标记位后,对标记位进行频率估计,包括计算工人提交标记位为1的频率,计算如下:

24、

25、定义local_trustdecide表示局部真值发现的决策,0表示不需要重新进行局部真值估计,1表示需要局部真值估计,thres1和thres2表示工人提交标记位频率的阈值,局部真值估计决策如下:

26、

27、在进行局部真值估计中,服务器以一个采样率γ随机选择一部分工人,被选择的工人服务器会分配剩下的隐私预算ε2=ε-ε1。

28、进一步的,服务器对是否更新真值做出决定后,则进行新一轮的真值发现,具体包括:

29、如果服务器决定重新更新真值,向工人发布任务,工人扰动当前时刻的答案并提交给服务器进行真值发现,并将真值发现的结果提交给任务请求者;如果服务器决定不更新真值,直接上任务请求者提交前一时刻的真值。

30、进一步的说,在局部真值发现阶段,本发明对工人权重的计算方法如下:

31、

32、d(·)代表数据值和真值之间的差距,真值计算的方法如下:

33、

34、服务器决策阶段:基于标志位提交和局部真值发现,服务器得到所有工人提交的标志位和部分局部真值,此时服务器决定是否更新真值:

35、如果ft_flag<thres1时,不需要重新真值,直接提交上一时刻的真值;

36、如果ft_flag>thres2,需要重新真值,并向工人发布任务请求;

37、如果thres1≤ft_flag≤thres2,服务器同时考虑用户提交的信息和真值变化程度,并计算:

38、

39、是在t时刻估计的局部真值,是前一时刻提交到任务请求者的真值;

40、在决策阶段,服务器计算工人选择更新真值的频率和真值变化相对于前一时刻变化的程度,分别占比50%,当pr(f≥∝)≥β,∝∈[0,1],β∈[0,1],即f以较大的概率β比∝大时,服务器认为需要重新更新真值,否则,不需要重新更新真值。

41、基于服务器决策阶段:当确定需要重新更新真值时,未进行局部真值估计的工人提交扰动之后的答案,服务器在收到所有工人的数据后,进行真值发现,在第二次真值发现时,真值和权重初始化为局部真值和局部权重,从而减少真值发现的迭代次数。

42、有益效果:从上面所述中可以看出,本发明是一种基于exceed w-event本地差分隐私的众包数据流真值发现方法,在每个时刻,工人在本地决定是否重新进行真值发现,并将决策提交到服务器,之后服务器会采样部分工人计算局部真值,并根据工人提交的标志位,从多角度决定是否重新进行真值发现,减少了服务器每个时刻都需要进行真值发现的计算开销,并在保护工人数据的同时保证连续时刻真值的准确性。与现有的技术相比,本发明的突出实质特点和显著性进步主要体现在以下几个方面:

43、(1)本发明对工人的答案采用了exceed w-event本地差分隐私技术进行保护,相比于同态加密、安全多方计算等密码学技术,在第三方不可信的情况下,工人在本地直接对答案进行扰动,可以抵御背景知识强大的攻击者,还降低了服务器端的计算开销。

44、(2)本发明连续时刻的真值发现请求中,考虑连续时刻真值变化的显著程度,服务器端同时考虑工人提交的标志位和工人局部真值两方面,对在该时刻是否重新真值发现做出决策。

45、(3)本发明在exceed w-event本地差分隐私的设置下,对隐私保护参数的设置中,不是每个时刻分配相同的隐私预算,而是采用一种新的隐私预算吸收的方案,提高了真值发现的准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1