基于小波变换的差分隐私数据发布方法
【技术领域】
[0001] 本发明涉及计算机数据挖掘、数据隐私保护技术领域,具体地,涉及一种基于小波 变化的差分隐私数据发布方法,用于解决差分隐私数据发布过程中噪音量过大的问题。
【背景技术】
[0002] 信息技术的飞速发展使得各类数据的发布、采集、存储和分析变得方便快捷.例 如,医院电子病例记录病人基本信息、疾病信息及药品购买记录;人口普查记录市民的家庭 住址以及收入情况;金融业务服务会记录客户私有信息及其交易行为等,而这些数据的收 集和发布直接给个人隐私造成威胁。
[0003] 隐私保护技术可以解决数据发布和数据分析带来的隐私威胁问题,如何发布和分 析而又不泄露隐私信息是隐私保护技术的主要目的。已有的基于k匿名或者划分的隐私保 护方法,只适应特定背景知识下的攻击而存在严重的局限性。差分隐私作为一种新出现的 隐私保护框架,能够防止攻击者拥有任意背景知识下的攻击并提供有力的保护。该模型不 关心攻击者拥有多少背景知识,通过向查询或者分析结果中添加适当噪音来达到隐私保护 效果,类似传统的隐私保护技术,实施差分隐私保护技术主要考虑两个方面的问题:(1)如 何保证设计的算法满足差分隐私,以确保数据隐私不被泄露;(2)如何减少噪音带来的误 差,以提高数据的可用性。
[0004] 差分隐私的形式化定义如下:
[0005] 定义1:给定数据集D和D',二者互相之间至多相差一条记录,S卩|D AD' I <1.给 定一个隐私算法A,Range(A)为A的取值范围,若算法A在数据集D和D'上任意输出结果 0(0 e Range (A))满足下列不等式,则A满足e差分隐私:
[0006]
【主权项】
1. 一种基于小波变换的差分隐私数据发布方法,其特征在于:把原始数据集的属性取 值概括为预定义概括树结构中最顶层的取值,再利用概括树结构自顶向下的细分取值,逐 步把概括化的属性值转化为细分的属性值,其中,在选择属性进行细分的选择算法上,利用 已有的指数加噪方法,在叶子节点的加噪中引入小波变换的加噪方法,使得在满足差分隐 私保护的前提下,尽量减少新发布数据集相对原始数据集的噪音。
2. 根据权利要求1所述的基于小波变换的差分隐私数据发布方法,其特征在于,该方 法具体包括W下步骤: 步骤1、初始化原始数据集;根据预定义的概括树结构将原始数据集各个样本中的属 性值转化为概括树中最顶层的取值; 步骤2、自顶向下进行属性值的细分,在所有属性中选取一个属性进行细分,根据细分 后的属性取值,分割整个样本; 步骤3、判断细分次数是否达到上界,即细分到叶子节点,如是则进入步骤4,否则,返 回步骤2 ; 步骤4、加噪叶子节点:各个叶子节点上样本的数目组合成一个分布,通过小波变换f, 将分布的取值,即叶子节点上样本的数目,转化为小波系数,对小波系数进行拉普拉斯加噪 后,利用小波变换的逆广1把小波系数转化为新的分布值,即最终加噪后的分布取值; 步骤5、发布新的数据集,该新数据集的属性与原始数据集的属性相同,其属性的取值 为步骤4中各个叶子节点上该属性的取值,对应的样本数目则是各个叶子节点加噪后的分 布取值。
【专利摘要】本发明公开了一种基于小波变换的差分隐私数据发布方法。通过把原始数据集的属性取值概括为预定义概括树结构中最顶层的取值,再利用概括树结构自顶向下的细分取值,一步一步把概括化的属性值转化为细分的属性值。在选择属性进行细分的选择算法上,利用已有的指数加噪方法;在叶子节点的加噪中引入了小波变换的加噪方法,使得在满足差分隐私保护的前提下,尽量减少新发布数据集相对原始数据集的噪音。本发明结合小波变换和指数机制协同加噪,有效的减少了在对原始数据集加噪过程中噪音的累积,并且符合差分隐私保护的定义,减少了隐私保护的代价,有效提高了差分隐私保护后数据集的利用率。
【IPC分类】G06F21-62
【公开号】CN104573560
【申请号】CN201510041710
【发明人】管海兵, 姚建国, 马汝辉, 李健, 邓煜
【申请人】上海交通大学
【公开日】2015年4月29日
【申请日】2015年1月27日