基于语义和预测的轨迹差分隐私保护方法及系统

文档序号:30256812发布日期:2022-06-02 02:27阅读:131来源:国知局
基于语义和预测的轨迹差分隐私保护方法及系统

1.本发明属于轨迹隐私保护领域,具体涉及一种基于语义和预测的轨迹差分隐私保护方法及系统。


背景技术:

2.近年来,随着移动互联网的快速发展和通信设备的不断升级,基于位置的服务(location-based service,lbs)在人们的日常生活中日益普及。目前,基于位置的服务已覆盖国民经济和社会生活的方方面面,如导航、兴趣点查询与推荐、外卖、签到、社交网络等。并且5g技术的发展与应用,使得基于位置的服务将应用在更广阔的领域。然而,基于位置的服务在为人们带来便捷的生活方式的同时,也带来了用户隐私泄露的问题。位置信息的泄露可能导致人们暴露更多的个人隐私信息,因此,位置隐私已经成为人们最重要的隐私之一。
3.差分隐私技术是解决轨迹隐私保护的重要技术,它通过向真实数据集添加噪声来实现隐私保护。差分隐私主要通过隐私机制来实现,第一个通用的差分隐私机制是拉普拉斯机制,该机制主要针对数值型查询。对于非数值型查询,通过指数机制来实现,这是实现差分隐私的第二种通用机制。在数据发布中,差分隐私通过调节隐私参数ε来实现不同的隐私保护程度和数据发布精度。通常来说,ε的值越大,隐私保护程度越低,发布数据集的精度越高。使用差分隐私技术来对用户的轨迹进行保护的前提采取对轨迹数据添加适当的噪声,在避免隐私泄露的同时又能提高数据的可用性。
4.差分隐私技术的隐私预算分配方案,一个是通过马尔可夫链预测调整隐私预算,使得隐私预算的分配更加合理,从而减少噪声数据的加入量;另一个是相似轨迹合并的方法,通过将轨迹覆盖区域划分成网格,将落入同一网格的轨迹位置点用网格的中心点表示,从而大大提高了位置点的计数值。
5.在现有技术中,对位置差分隐私保护技术的研究,主要存在以下缺点:(1)现有的轨迹隐私保护机制没有考虑到敏感度地图,所以用户位置的敏感度大小不够精确。(2)现有的位置隐私保护机制没有考虑到语义位置对轨迹的影响。语义位置很可能加重用户隐私信息泄露的风险,例如根据用户对某类语义位置点的访问频率,可以推测出用户偏好及经济水平等。(3)在差分隐私轨迹数据集发布过程中,隐私预算的分配方式是决定最终噪音加入量的关键因素之一。如果隐私预算分配不合理,会造成严重的浪费,使得整体噪音加入过多。而目前的隐私预算分配方式还停留于平均分配或者简单的差额分配,仍然存在一定程度的浪费现象。如何根据轨迹数据集的特点设计更加合理的隐私预算分配方式还缺乏相关研究。


技术实现要素:

6.本发明的目的在于提供一种基于语义和预测的轨迹差分隐私保护方法及系统,该方法及系统有利于提高轨迹隐私保护的效果。
7.为实现上述目的,本发明采用的技术方案是:一种基于语义和预测的轨迹差分隐私保护方法,包括以下步骤:
8.步骤s1、对语义敏感度进行预处理:根据距离和出入度将语义敏感位置的语义敏感度分别辐射给附近节点,从而得到各位置点的语义敏感度,将用户在节点l的签到次数α
l
和语义敏感度sem
l
相结合作为节点l的位置敏感度;通过位置敏感度与预设的阈值之间的关系确定各位置点的隐私级别;然后根据轨迹集合以及各位置点的位置敏感度和隐私级别构建前缀树;
9.步骤s2、根据前缀树分配隐私预算:根据轨迹子序列的平均敏感度分配轨迹子序列的隐私预算,根据位置点的隐私级别分配位置点的隐私预算;
10.步骤s3、调整隐私预算的分配:通过马尔科夫链预测下一时刻的攻击概率,并通过计算概率来调整敏感度,从而调整分配的隐私预算;
11.步骤s4、根据隐私预算添加噪声,以改变位置的隐私级别,进而保护用户轨迹隐私。
12.进一步地,所述步骤s1中,考虑位置点之间的整体连通性,根据距离和出入度将语义敏感位置的敏感度分别辐射给附近节点,具体为:
13.首先,获取任意位置a附近具有隐私级别的语义位置节点集,即连接集neighborset;然后,将地图转化为无向图,根据距离和出入度,则语义位置gi与任意位置a的等价距离为gi.edis=ed(c-1),其中,ed为gi与a的欧氏距离,c为两位置节点之间最短路径所经过的节点数,c-1为两位置节点之间最短路径所包括的线段数;neighborset={gi|gi.edis《b},其中b为用户设置的阈值;
14.最后,求得任意位置a的连接集neighborset中的语义位置gi辐射的语义敏感度,如式(1)所示:
[0015][0016]
其中,sema表示节点a分配的语义敏感度。
[0017]
进一步地,为了便于计算,将地图网格化;然后,利用上述计算过程计算地图中各区域的语义敏感度,生成语义敏感度地图map
sen

[0018]
进一步地,所述步骤s2中,根据位置点的敏感度和隐私级别来分配隐私预算;对于签到频率高的位置,敏感度就高,则隐私级别就高,相应的分配的隐私预算就少,从而添加更多的噪声来保护位置信息;所述步骤s2主要包括轨迹子序列的隐私预算分配和轨迹子序列上每个子节点的隐私预算分配,具体为:首先,分别计算每条轨迹子序列的平均敏感度,从而计算子序列的访问频率;然后根据访问频率为轨迹子序列分配隐私预算,访问频率越高,敏感度就越高,分配的隐私预算与访问频率成反比;其次,根据每条轨迹子序列上的各个节点隐私级别所占该轨迹子序列隐私级别总和的比重,为每个节点分配隐私预算;最后,由于部分位置点出现在多个轨迹子序列中,合并重复分配的隐私预算。
[0019]
进一步地,所述步骤s3中,利用马尔可夫链的性质来预测位置点的攻击概率,马尔可夫链的性质对应到轨迹中,就是下一时刻的位置点仅依赖于前一时刻位置点,从而获得下一时刻的可能位置集合及位置受攻击概率,进而调整隐私预算。
[0020]
进一步地,所述马尔可夫链最重要的两个组成部分:初始状态概率分布和状态转
移概率矩阵;假设用户在t-1时刻产生的可能位置集为其概率值为此即为初始状态概率分布;假定某一个用户的轨迹有n个可能的位置,即l1,l2,...,ln,记从位置li转变为位置lj的状态转移概率为p(li→
lj),则矩阵即为状态转移概率矩阵;
[0021]
然后通过状态转移概率矩阵计算出t时刻的可能位置为其概率值为其中p
(t)
=p
(t-1)
p,即为t时刻的可能位置的攻击概率;
[0022]
假设攻击者的攻击从该轨迹的初始位置点开始,并沿着该轨迹的方向继续;利用马尔可夫链的性质来计算前缀树上节点的攻击概率,并通过计算概率来调整敏感度,从而调整分配的隐私预算。
[0023]
进一步地,所述步骤s4中,使用laplace机制将对应的噪声添加到位置的敏感度中,以改变位置的隐私级别;随着位置隐私级别的变化,攻击者难以发现用户对位置的真正偏好。
[0024]
进一步地,在位置隐私级别改变之后,通过公式(2)计算用户u在位置l上的兴趣分数ig
u,l
;其中,s

u,l
和w

score
分别表示添加噪声后的位置敏感度和位置评分权重:
[0025]
ig
u,l
=s

u,l
×w′
score
(2)
[0026]
对ig
u,l
进行归一化处理,得到归一化处理后的位置得分ign
u,l
,然后构造用户和位置的评分矩阵matrix
ign
,ign
u.l
如下所示:
[0027][0028]
得到评分矩阵matrix
ign
后使用皮尔森相关系数计算用户的相似度sim(u,v),并构建用户相似度矩阵matrix
sim
,sim(u,v)表示用户u和用户v之间的相似度;
[0029][0030]
其中,l(u,v)表示用户u和用户v的共同签到位置集,表示用户u的平均位置得分;最后,根据用户相似度矩阵matrix
sim
将与目标用户相似度最高的n个用户作为相似用户;并且将相似用户的位置集中目标用户未访问的位置按得分降序排列,取前n个位置推荐给目标用户。
[0031]
进一步地,所述步骤s4中,利用lbs中的位置推荐算法来验证所述轨迹差分隐私保护方法对于轨迹隐私保护的可行性和有效性。
[0032]
本发明还提供了一种基于语义和预测的轨迹差分隐私保护系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
[0033]
与现有技术相比,本发明具有以下有益效果:本发明在进行差分隐私保护时,利用结合位置签到频率和语义敏感度的位置敏感度对位置隐私级别进行分类,进而将轨迹转换
为前缀树,再基于前缀树分配相应的隐私预算;然后通过马尔科夫链预测位置的攻击概率,从而调整位置敏感度,进而调整隐私预算的分配,提高隐私预算的利用率,使得轨迹数据的隐私保护更加合理。在对轨迹数据进行隐私保护后,通过常用的位置推荐算法来验证本发明的可用性和有效性,证明本发明能在保证轨迹数据隐私性的同时,维持隐私数据的可用性。
附图说明
[0034]
图1是本发明实施例的系统实现架构图;
[0035]
图2是本发明实施例中位置的语义敏感度示意图;
[0036]
图3是本发明实施例中敏感度地图建立算法的实现流程图;
[0037]
图4是本发明实施例中隐私预算分配算法的实现流程图;
[0038]
图5是本发明实施例中隐私预算调整算法的实现流程图;
[0039]
图6是本发明实施例中位置推荐算法的实现流程图。
具体实施方式
[0040]
下面结合附图及实施例对本发明做进一步说明。
[0041]
应该指出,以下详细说明都是示例性的,旨在对本技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
[0042]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0043]
如图1所示,本实施例提供了一种基于语义和预测的轨迹差分隐私保护方法,包括以下步骤:
[0044]
步骤s1、对语义敏感度进行预处理:根据距离和出入度将语义敏感位置的语义敏感度分别辐射给附近节点,从而得到各位置点的语义敏感度,将用户在节点l的签到次数α
l
和语义敏感度sem
l
相结合作为节点l的位置敏感度;通过位置敏感度与预设的阈值之间的关系确定各位置点的隐私级别;然后根据轨迹集合以及各位置点的位置敏感度和隐私级别构建前缀树。
[0045]
在对语义敏感度进行预处理时,本发明考虑到语义位置的影响,那些靠近敏感位置的语义位置,即使与敏感位置不直接相连,仍然存在暴露敏感位置的风险,因此也应分配一定的语义敏感度。因此,本发明考虑了位置点之间的整体连通性,根据距离和出入度将语义敏感位置的语义敏感度分别辐射给附近节点。具体为:
[0046]
如图2所示,首先,获取任意位置a附近具有隐私级别的语义位置节点集,即连接集neighborset;然后,将地图转化为无向图,根据距离和出入度,则语义位置gi与任意位置a的等价距离为gi.edis=ed(c-1),其中,ed为gi与a的欧氏距离,c为两位置节点之间最短路径所经过的节点数,c-1为两位置节点之间最短路径所包括的线段数,例如两节点最短路径包括3个节点,两段线段。neighborset={gi|gi.edis<b},其中b为用户设置的阈。
[0047]
最后,求得任意位置a的连接集neighborset中的语义位置gi辐射的语义敏感度,如式(1)所示:
[0048][0049]
其中,sema表示节点a分配的语义敏感度。
[0050]
为了便于计算,本发明将地图网格化;然后,利用上述计算过程计算地图中各区域的语义敏感度,生成语义敏感度地图map
sen
。map
sen
存储于手机端,用户可以在离线阶段获取位置的敏感度。
[0051]
如图3所示,本实施例中敏感度地图建立算法(sensitivity map building,smb)的实现流程如下:
[0052]
输入:用户签到位置数据集t
[0053]
输出:敏感度地图map
sen
(li,si,pli)、前缀树tt
[0054][0055]
首先根据语义节点的影响范围,计算轨迹中每个位置点的语义敏感度,然后结合用户在该敏感位置的签到次数,作为位置的敏感度。之后根据位置点的敏感度确定位置的隐私级别。当位置敏感度小于10时,将位置隐私级别设置为3;当位置敏感度在10到50之间时,将隐私级别设置为2,当位置敏感度大于等于50时,将隐私级别设置为1。最后得到包含敏感度和隐私级别的位置信息。
[0056]
步骤s2、根据前缀树分配隐私预算:根据轨迹子序列的平均敏感度分配轨迹子序列的隐私预算,根据位置点的隐私级别分配位置点的隐私预算。
[0057]
本发明根据位置点的敏感度和隐私级别来分配隐私预算;对于签到频率高的位置,敏感度就高,则隐私级别就高,相应的分配的隐私预算就少,从而添加更多的噪声来保护位置信息。具体地,所述步骤s2主要包括轨迹子序列的隐私预算分配和轨迹子序列上每个子节点的隐私预算分配,具体为:
[0058]
首先,分别计算每条轨迹子序列的平均敏感度,从而计算子序列的访问频率;然后根据访问频率为轨迹子序列分配隐私预算,访问频率越高,敏感度就越高,分配的隐私预算与访问频率成反比。其次,根据每条轨迹子序列上的各个节点隐私级别所占该轨迹子序列隐私级别总和的比重,为每个节点分配隐私预算。最后,由于部分位置点出现在多个轨迹子序列中,合并重复分配的隐私预算。
[0059]
如图4所示,本实施例中隐私预算分配算法(privacy budget allocation,pba)的实现流程如下:
[0060]
输入:隐私预算ε、前缀树tt
[0061]
输出:分配隐私预算后的轨迹集合tb
[0062][0063][0064]
本发明的隐私预算分配方案主要分为两个步骤:轨迹子序列的隐私预算分配和轨迹子序列上每个子节点的隐私预算分配。本发明首先分别计算每条轨迹子序列平均敏感度,从而计算子序列的访问频率;接着根据访问频率为轨迹子序列分配隐私预算,由于访问频率越高,敏感度就越高,分配的隐私预算应该和访问频率成反比。其次根据每条轨迹子序列上的各个节点隐私级别所占该轨迹子序列隐私级别总和的比重,为每个节点分配隐私预算;最后,由于部分位置点出现在多个轨迹子序列中,合并重复分配的隐私预算。
[0065]
步骤s3、调整隐私预算的分配:通过马尔科夫链预测下一时刻的攻击概率,并通过计算概率来调整敏感度,从而调整分配的隐私预算。
[0066]
所述步骤s3中,利用马尔可夫链的性质来预测位置点的攻击概率,马尔可夫链的性质对应到轨迹中,就是下一时刻的位置点仅依赖于前一时刻位置点,从而获得下一时刻
的可能位置集合及位置受攻击概率,进而调整隐私预算。
[0067]
所述马尔可夫链最重要的两个组成部分:初始状态概率分布和状态转移概率矩阵;假设用户在t-1时刻产生的可能位置集为其概率值为此即为初始状态概率分布;假定某一个用户的轨迹有n个可能的位置,即l1,l2,...,ln,记从位置li转变为位置lj的状态转移概率为p(li→
lj),则矩阵即为状态转移概率矩阵;
[0068]
然后通过状态转移概率矩阵计算出t时刻的可能位置为其概率值为其中p
(t)
=p
(t-1)
p,即为t时刻的可能位置的攻击概率;
[0069]
假设攻击者的攻击从该轨迹的初始位置点开始,并沿着该轨迹的方向继续;利用马尔可夫链的性质来计算前缀树上节点的攻击概率,并通过计算概率来调整敏感度,从而调整分配的隐私预算。
[0070]
如图5所示,本实施例中隐私预算调整算法(privacy budget adjustment,pbad)的实现流程如下:
[0071]
输入:分配好隐私预算的轨迹集tb
[0072]
输出:调整隐私预算后的轨迹集tc
[0073][0074]
马尔可夫链最重要的两个组成部分是初始状态概率分布和状态转移矩阵。用户在t-1时刻产生的可能位置集及概率值就是初始状态概率分布,然后根据历史数据计算概率转移矩阵,利用马尔可夫过程的性质来计算前缀树上节点的攻击概率,并通过计算概率来调整敏感度,从而调整分配的隐私预算。
[0075]
步骤s4、根据隐私预算添加噪声,以改变位置的隐私级别,进而保护用户轨迹隐私。
[0076]
所述步骤s4中,使用laplace机制将对应的噪声添加到位置的敏感度中,以改变位置的隐私级别;随着位置隐私级别的变化,攻击者难以发现用户对位置的真正偏好。
[0077]
在位置隐私级别改变之后,通过公式(2)计算用户u在位置l上的兴趣分数ig
u,l
;其中,s

u,l
和w

score
分别表示添加噪声后的位置敏感度和位置评分权重:
[0078]
ig
u,l
=s

u,l
×w′
score
(2)
[0079]
由于用位置敏感度直接作为位置得分会导致位置间的得分差值过大,影响结果的准确性,因此对ig
u,l
进行归一化处理,得到归一化处理后的位置得分ign
u,l
,然后构造用户和位置的评分矩阵matrix
ign
,ign
u,l
如下所示:
[0080][0081]
得到评分矩阵matrix
ign
后使用皮尔森(pearson)相关系数计算用户的相似度sim(u,v),并构建用户相似度矩阵matrix
sim
,sim(u,v)表示用户u和用户v之间的相似度;
[0082][0083]
其中,l(u,v)表示用户u和用户v的共同签到位置集,表示用户u的平均位置得分;最后,根据用户相似度矩阵matrix
sim
将与目标用户相似度最高的n个用户作为相似用户;并且将相似用户的位置集中目标用户未访问的位置按得分降序排列,取前n个位置推荐给目标用户。
[0084]
如图6所示,本实施例中位置推荐算法(location recommendation,lr)的实现流程如下:
[0085]
输入:调整隐私预算后的轨迹集tc
[0086]
输出:位置推荐集合lr
[0087]
[0088][0089]
获得用户每个位置分配的隐私预算后,本发明使用laplace机制将对应的噪声添加到位置的敏感度中,以改变位置的隐私级别。然后计算用户u在位置l上的兴趣分数,由于用位置敏感度直接作为位置得分会导致位置间的得分差值过大,影响结果的准确性,因此对兴趣分数进行归一化处理。之后使用皮尔森相关系数计算用户的相似度,并构建用户相似度矩阵。最后,根据用户相似度矩阵将与目标用户相似度最高的n个用户作为相似用户。并且将相似用户的位置集中目标用户未访问的位置按得分降序排列,取前n个位置推荐给目标用户。
[0090]
本发明在对轨迹数据进行隐私保护后,还通过lbs中常用的位置推荐算法来验证本发明的可用性和有效性,证明本发明能在保证轨迹数据隐私性的同时,维持隐私数据的可用性。
[0091]
本实施例还提供了一种基于语义和预测的轨迹差分隐私保护系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
[0092]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0093]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0094]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0095]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0096]
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1