一种基于首尾轨迹片段的位置隐私保护方法与流程

文档序号:18411857发布日期:2019-08-13 18:28阅读:150来源:国知局
本发明属于移动终端位置隐私保护领域,针对轨迹匿名中长轨迹数据可用性不高及匿名效率低下的问题,提出了一种基于首尾轨迹片段的位置隐私保护方法(stfam)。
背景技术
::近年来,随着无线通信技术、定位技术的不断发展,智能终端设备广泛普及,人们的生活方式和工作方式越来越多的依赖于移动终端设备,使得目前基于位置的服务(location-basedservice,lbs)日益盛行。用户在使用lbs服务时需要依托移动设备不断地将自身位置发送给位置服务提供商以获取相应地位置服务,而这些连续的位置按照时间顺序排列而成的位置序列便构成了用户的轨迹。它记录了用户行为旅程,用户从哪里来到哪里去。传统的轨迹匿名方法是将整条轨迹当作一个匿名单元进行位置隐私保护,然而,由于用户的移动模式差异巨大,导致轨迹方向、移动长短不尽相同,因此,单纯的将整条轨迹进行匿名会导致匿名区域过大、数据可用性不高的问题。特别是在用户轨迹长,移动模式复杂的情况下,匿名效果更差。此外,轨迹数据遗留的位置点大致分为非停留位置和停留位置:非停留位置是指用户仅经过的位置,停留位置是指用户的起始和结束位置。通常停留位置往往会揭示用户的请求意图,例如:某用户每天在固定时间从地点a沿固定路线出发到地点b,再从另一固定时间由地点b返回至地点a,攻击者通过分析,很容易判断a和b可能是用户的家庭住址和工作单位,若此时加以攻击可能引发不必要的安全责任事故。因此,相对于将整条轨迹进行匿名而言,仅对该轨迹的起始和结束轨迹片段匿名便可达到既能保护用户轨迹请求意图,又能够缩小匿名区域,提高了数据可用性和匿名效率。基于上述问题,本文提出了一种基于首尾轨迹片段的位置隐私保护方法(stfam),在一定程度上解决了用户发起连续查询后遗留的轨迹隐私问题。技术实现要素:1.一种基于首尾轨迹片段的位置隐私保护方法主要包括以下三个步骤:a.路网转换阶段:首先将原始路网结构转换成基于位置类型的边缘集群模型。路网无向图定义如下:定义1:路网无向图:g=(v,e),其中v代表点集,vi∈v表示路网结构中的路口节点;e代表边集,eij=(vi,vj)∈e,表示连接两个节点之间的路段。路网无向图如图2所示。本发明将位置类型加入路网结构中,形成基于位置类型的边缘集群模型。基于位置类型的边缘集群模型定义如下:定义2基于位置类型的边缘集群模型:gs=(vs,es,ws)。gs和g的对应关系如下:1)vs是gs的点集,对应着g中的边集e。vs={ve1,ve2,...,vei}和e={e1,e2,...,et}一一对应,其中t表示路网中路段总数量;2)es是gs的边集,vs中vei和vej存在一条连接边es∈es,当且仅当在g中ei和ej存在连接关系;3)ws表示gs中的位置类型标签集合,ws分布在vs中。为使基于位置类型的边缘集群模型更加简便化,本文预先设置每个节点的类型标签只有一种。简单路网模型和简单位置类型边缘集群模型对应关系如图3和图4所示。b.轨迹预处理阶段:对所有轨迹进行预处理操作,根据进出节点的时间顺序把整条轨迹进行分割,并识别轨迹中的起始和结束轨迹片段,进行等价类划分,主要步骤如下:(1)轨迹划分假设用户u在移动过程中形成的轨迹信息为tru={<(x1,y1),t1>,<(x2,y2),t2>,...,<(xi,yi),ti>},对应到位置类型边缘集群模型中,可表示为tsru={<ve1,δt>1,<ve2,δt2>,...,<vei,δti>},其中vei表示轨迹在δti时刻所处位置类型边缘集群模型中轨迹片段的节点编号。本文根据用户进出位置类型边缘集群模型节点的时间顺序进行轨迹片段的划分。例如,存在vei和vej且有轨迹tru,当tru从vei跳转到vej时,则视为将tru划分成两部分:位于vei节点的轨迹片段和位于vej节点的轨迹片段。(2)识别首尾轨迹片段首尾轨迹片段是指一条轨迹开始和结束的部分。例如,存在vei、vej和ven,当轨迹tru依次且仅经过节点vei、vej和ven时,位于vei节点的轨迹片段为tru的起始轨迹片段,位于ven节点的轨迹片段为tru的结束轨迹片段。(3)等价类划分由于在轨迹k-匿名中,只有将时间相近的轨迹进行匿名时才能达到匿名效果,因此在本文中,等价类划分主要依据时间信息。若两条起始或者结束轨迹片段tru_frag和trv_frag有相似的起始和结束时刻,则将轨迹片段tru_frag和trv_frag划分到同一个等价类d*中。c.首尾轨迹片段k-匿集构造阶段:将等价类中的首尾轨迹片段构建成轨迹图,并按照权值大小划分成相应的k-匿名集。(1)首尾轨迹片段图构建得到等价类d*之后需要对其中的首尾轨迹片段进行一定处理,本文以等价类d*中首尾轨迹片段之间的距离为基础进行轨迹片段图的构建。定义3首尾轨迹片段间距:dist(tru_frag,trv_frag)若存在轨迹片段tru_frag及trv_frag皆属于d*,则两者之间的间距为:其中:及为两者起始时刻的坐标;及为两者结束时刻的坐标。由于用户在进行lbs请求时要保证匿名区域和服务质量的均衡,因此,用户需要提前规定最大可接受距离dmax。当两条轨迹片段的间距小于dmax时,本文在构建首尾轨迹片段图时认为两者存在联系。定义4首尾轨迹片段图t=(v,e,w)1)v是t的点集,存在表示等价类中的轨迹片段;2)e是t的边集,当轨迹片段tru_frag和trv_frag之间的距离小于dmax时,则节点vu和vv之间存在一条边euv,并且euv=evu;3)w是t的权重集合,wuv∈w,表示边euv的权重。首尾轨迹片段图t=(v,e,w)中边的权重集合w的设置如下:定义5首尾轨迹片段图边的权重wuv,其中wuv∈w若有轨迹片段tru_frag和trv_frag∈v,且(tru_frag,trv_frag)∈e,则tru_frag和trv_frag之间的边euv的权重wuv可定义为首尾轨迹片段的间距及其所处位置类型差异的综合参数:wuv=αdist(tru_frag,trv_frag)+βdiff(tru_frag,trv_frag)其中:1)它表示轨迹片段所处节点之间位置类型的差距;2)α+β=1。(2)k-匿名集构造首先遍历t=(v,e,w)中所有边,取出权重最大但不为∞的边作为初始边,该初始边与两端的节点构成一个初始结构,将该条边上连接的两个节点压入栈中,并把与当前初始结构连接的所有节点添加到集合gk中。当集合gk中的节点数小于k个时,寻找与当前结构连接且权值最大但不为∞的边加入构成新的结构,并将节点依次压入栈中,直到数量达到k个时,得到的当前结构即为相应的轨迹k-匿名组,输出当前结构,将新的结构从t=(v,e,w)中删除。以此类推,将t依次进行划分。本发明对比已有技术具有以下显著优点:1.将原有路网转换城基于位置类型的边缘集群模型,为每个节点上的轨迹片段赋予了位置类型的差异。2.提出了一种首尾轨迹片段的位置匿名方法。将所有轨迹数据进行分割,并识别每条轨迹的首尾片段。根据首尾轨迹片段之间的距离以及位置类型的差异进行k-匿名集的构建,在保护用户请求意图的前提下进一步缩小了匿名面积。附图说明图1是首尾轨迹片段的位置隐私保护方法技术路线图。图2是路网无向图。图3是简单路网模型。图4是简单位置类型边缘集群模型。图5是位置类型边缘集群模型。图6是α、β对轨迹数据可用性影响比较图。图7是α、β对匿名效率影响比较图。图8是k值增加对轨迹数据的可用性对比分析图。图9是k值增加对匿名效率对比分析图。图10是dmax值增加对轨迹数据的可用性对比分析图。图11是dmax值增加对匿名效率对比分析图。具体实施方式下面结合附图,说明本发明的实施方式。实验中的轨迹数据是由thomasbrinkhoff[58]路网生成器来模拟用户在德国奥登堡市交通网络图上的1000条移动轨迹。本文中轨迹片段类型差异性diff(tru_frag,trv_frag)采用随机矩阵的形式进行标记。表1为本次实验数据的统计信息:表4-1数据集统计信息table4-1datasetstatistics表2为本次实验设置的实验参数:表4-2实验参数设置table4-2experimentalparametersetting由于stfam方法首先将路网模型转换为位置类型边缘集群模型再进行轨迹片段分割,转换后的路网如图5所示。本实验从轨迹数据的可用性和匿名算法效率两方面,将本文所提stfam方法与cmpt整体轨迹匿名方法进行性能分析。1.轨迹数据的可用性分析匿名轨迹数据的可用性通常以轨迹扭曲度表明,而轨迹数据扭曲度通常由匿名区域的大小决定,因此,匿名区域的面积的大小在一定程度上反映匿名轨迹数据的可用性。为便于统计,本文中轨迹数据的可用性均采用平均匿名面积与总区域面积的比值表示。该比例值越小,表明匿名面积越小,数据的可用性越高。2.匿名效率分析匿名效率是指匿名算法的执行效率,而算法执行时间的长短在一定程度上反映了匿名方法的效率高低。算法执行时间越短,表示该匿名方法的效率越高。(1)轨迹片段间距特征α与位置类型标签差别特征β指标分析图6显示在stfam方法中,保持其他参数默认不变,当k匿名度的值增大时,轨迹片段间距特征α与位置类型标签差别特征β分别为(1,0)、(0.5,0.5)和(0,1)时对轨迹数据可用性影响。由图6可知,轨迹数据的可用性随着α的减少和β的增加而降低。这是由于当α的减少时,轨迹数据中首尾轨迹片段间距的约束条件放宽,轨迹片段之间的间距增大,匿名面积增大。所以在相同的k值条件下,α的值越小,平均匿名面积越大,数据的可用性越差。而β增加使得用户对轨迹数据的隐私性要求增加,相应首尾轨迹片段间的位置类型差距增大,平均匿名面积增大,轨迹数据可用性降低。同时,当k的值增加时,匿名组内轨迹片段数量增加,也会导致平均匿名面积增大,轨迹数据的可用性降低。图7反映了在stfam方法中保持其他参数默认不变,当k匿名度的值增大时,轨迹片段间距特征α与位置类型标签差别特征β分别为(1,0)、(0.5,0.5)和(0,1)时对匿名效率的影响。由图7可知,在相同的k值条件下,α和β的变化对匿名效率影响不大。这是因为k值一定,等价类中构成k-匿名组的轨迹片段条数是不变的,所以算法执行时间相近。除此之外,stfam方法的匿名效率随着k值增大而下降,这是由于k-匿名规模增加,该方法需要寻找更多的轨迹片段构成k-匿名组,匿名时间延长。(2)提高匿名度k值指标分析由图8可以看出,保持其他参数默认不变,随着k匿名度值的不断增大,stfam方法由于只在轨迹的首尾轨迹片段进行匿名,相比将轨迹整体进行k-匿名的方式,stfam方法的平均匿名面积更小,轨迹数据的可用性程度更高。由图9可以看出,保持其他参数默认不变,随着k匿名度的值不断增大,stfam方法由于只在轨迹的首尾轨迹片段进行匿名,相比将轨迹整体进行k-匿名的方式,匿名效率更高。但是stfam方法在识别每条轨迹的首尾片段也需要一定时间消耗。(3)提高dmax指标分析由图10可知,保持其他参数默认不变,随着dmax值的增加,轨迹数据的可用性降低。这是由于dmax增加,匿名组中首尾轨迹片段间距可选择范围增大,因此在相同的k匿名度情况下,stfam方法的平均匿名面积越大,轨迹数据的可用性下降。相似的,将轨迹整体进行匿名时,匿名面积也随dmax的增加而增加,数据可用性下降。由图11可知,保持其他参数默认不变,随着dmax值的增加,stfam方法的匿名时间是不断增加的。这是因为当dmax增加,匿名组中首尾轨迹片段间距可选择范围增大,数量增多,当k值一定时,划分的匿名组数量增加,匿名时间略为延长。但是整体相比将轨迹整体进行匿名的方法要小。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1