本发明涉及隐私保护,具体涉及一种面向轨迹隐私保护的时空聚类的差分隐私方法。
背景技术:
1、随着智能车机设备,移动互联网和全球定位系统(gps)的普及和快速发展,基于位置的服务得到进一步推广,如智能汽车终端、线上打车、位置共享与道路导航等成为生活中的重要部分,这些基于位置的服务通过时间序列、空间位置和行为轨迹的关联性,为用户搭建起了网络空间与现实世界的桥梁。这些设备提供位置服务的同时,也获取和收集到了大量个人用户的位置、轨迹等隐私信息。通过这些包含着相关时空信息的精确数据,便可以推断出个人用户的住址、生活习惯和工作地点等隐私数据,甚至预测用户的行为。例如,新能源汽车使用车机终端通过互联网与母服务器互联,厂商为用户提供便捷的服务的同时,也会收集个人用户的位置、轨迹隐私数据。一方面,这些数据可能被公布或使用,另一方面也可能会通过网络被其他个人或组织攻击,造成用户隐私的泄露。因此,如何在发布轨迹数据时保护个人隐私成了目前隐私保护领域的一个重点的研究方向。
2、dwork等在2006年发表了calibratingnoise tosensitivityinprivatedataanalysis[c]∥proceedingsofthe thirdconference on theory of cryptography.new york:springergverla,提出了差分隐私技术,因其严谨的数学定义以及独特的量化标准弥补了技术上的缺陷。对于攻击者而言即使拥有一定的背景知识,也无法区分个人记录是否包含在数据库中。此外,差分隐私还针对保护对象是否为数值型数据发展出了laplace机制与高斯机制。对于隐私预算的分配,mcsherry等在2010年发表了f.privacy integratedqueries:an extensible platformforprivacygpreservingdataanalysis[j].communicag tionsoftheacm,针对数据集及其子集,提出并行和串行隐私预算的计算方法,实现了在不同数据中分配不同隐私预算的目的。
3、轨迹隐私保护需求日渐增强。虽然之前的学者进行了大量研究,但仍然存在多种问题:(1)忽略时间属性:先前的研究往往忽略了轨迹数据中的时间属性。时间属性包括轨迹点被记录的具体时间戳,即每个位置点的时间信息。例如,用户在某个地点多次出现的时间戳、用户轨迹开始与结束的时间点等。时间属性有助于理解用户活动规律,如果保护不当,攻击者可能通过轨迹数据推断出用户的行为习惯和实时位置。(2)选择的位置点代表性弱:轨迹数据由众多位置点组成,需要选择具有代表性的位置点进行保护,但这些点通常涉及用户的个人隐私。如何在保护隐私的同时实现数据效用与隐私保护的平衡仍然是一个待解决的问题。(3)数据集中存在无效轨迹数据:在移动用户的轨迹数据中,存在一定比例的无效轨迹,例如长时间的停留或超长、超短距离的轨迹。这些轨迹需要在合成阶段进行筛选。
技术实现思路
1、发明目的:为了克服现有技术中存在的不足,本发明提供一种聚类个性化分配,应对多场景的隐私保护的面向轨迹隐私保护的时空聚类的差分隐私方法。
2、为实现上述目的,本发明采用的技术方案为:一种面向轨迹隐私保护的时空聚类的差分隐私方法,包括以下步骤:
3、s1、在轨迹的时间属性中,进行模糊均值聚类,根据不同时段进行聚类,适合时间序列数据,并加入个性化噪声;
4、s2、考虑到不同位置的数据密度影响,提出结合密度与划分的密度聚类差分隐私算法,人工调整隐私预算,确保空间效用同时实现轨迹的隐私保护;
5、s3、在轨迹选取与合成阶段,选取高效用轨迹数据集,根据时间顺序合成用户具有代表性的而轨迹,合成轨迹后与真实数据集进行对比,筛选无效数据集;
6、s4、轨迹发布前对有效的轨迹数目加入噪声,干扰实际轨迹数量,满足轨迹数据挖掘并保护个人用户的轨迹隐私数据。
7、作为本发明的一种优选实施方式:所述s1中具体包括:
8、s101、初始化聚类中心,选取k个中心的值,并计算距离,同时计算不同时间点的隶属度;
9、s102、添加噪声,更新簇中心矩阵,并检查是否满足聚类停止条件。
10、作为本发明的一种优选实施方式:所述s2中具体包括:
11、s201、在时间t,得到了s个未选定的分簇,在s个分簇中采用均值对比法,选定一个点,并计算其与簇内其他点的距离;
12、s202、根据效用函数计算当前数据效用水平,并得到平均距离;
13、s203、对于分区pi中的s个簇中的集合,设置的函数满足差分隐私中的指数机制,在簇内选择具有高分值的位置作为代表性的点,即代表分区。
14、作为本发明的一种优选实施方式:所述s3中具体包括:
15、s301、针对选取位置以合成轨迹数据,通过选取高代表性的位置数据来合成轨迹;
16、s302、轨迹选取过程中,将经过处理的轨迹数据与真实轨迹数据进行对比,并统计合并后的真实记录数,当发现真实记录数为0时,将其视为异常轨迹数据,并立刻删除这些轨迹数据。
17、作为本发明的一种优选实施方式:所述s4中具体包括:
18、s401、对原始轨迹数据集进行计数,并设置添加噪声机制;
19、s402、处理后的噪声计数会被包含在最终输出数据集当中,数值为区间中的随机值,总计数与原始数据集相同时,则停止算法并发布数据。
20、本发明相比现有技术,具有以下有益效果:
21、本发明提出个性化的隐私预算分配,在时间属性和空间属性上进行多聚类个性化分配,应对多场景的隐私保护需求;通过时空聚类处理后,位置数据集具有高可用性,因此根据位置数据合成的轨迹数据能够满足数据挖掘与分析的要求;与真实数据进行对比,筛选出真实且高效的数据集。最后,在发布阶段添加噪声保护用户隐私。
1.一种面向轨迹隐私保护的时空聚类的差分隐私方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种面向轨迹隐私保护的时空聚类的差分隐私方法,其特征在于:所述s1中具体包括:
3.根据权利要求1所述的一种面向轨迹隐私保护的时空聚类的差分隐私方法,其特征在于:所述s2中具体包括:
4.根据权利要求1所述的一种面向轨迹隐私保护的时空聚类的差分隐私方法,其特征在于:所述s3中具体包括:
5.根据权利要求1所述的一种面向轨迹隐私保护的时空聚类的差分隐私方法,其特征在于:所述s4中具体包括: