一种基于频繁项检索的云平台隐私保护方法
【专利摘要】本发明涉及一种基于频繁项检索的云平台隐私保护方法,该方法包括:根据关联规则算法抽取出数据的频繁项集;通过多关键字并行检索建立频繁项模型库;使用并行分布式排序算法对检索结果排序,找出敏感记录;在云平台上使用聚类算法对敏感记录进行差分隐私保护。本发明方法根据数据的频繁项的情况,检索出会暴露出用户信息的敏感记录,并针对性的做差分隐私保护。从而避免根据已知的非敏感信息推测出相关敏感信息。本方法只对敏感记录进行保护,未影响到其他信息量,在提高发布数据的效用的同时,减少了数据泄漏风险,保证了云平台上的数据安全。
【专利说明】一种基于频繁项检索的云平台隐私保护方法
【技术领域】
[0001] 本发明涉及云安全领域,具体是指一种基于频繁项检索的云平台隐私保护方法。
【背景技术】
[0002] 隐私保护方法是一种伴随着数据应用而提出的,由实际应用所决定的数据保护方 法,最先被用于统计领域。一般是通过引入统计模型和概率模型来实现保护在较低应用层 次上数据的隐私。对于较高层次的数据应用,主要是用面向数据挖掘的隐私保护技术,根据 不同数据挖掘操作的特性来实现对应用上隐私的保护。而各类应用中可以通用的隐私保护 方法,一般由基于隐私保护的数据发布技术来实现。
[0003] 目前,面对大数据,在云平台上的数据隐私保护方法,并不能满足对数据保护的需 求,无法针对一些攻击模型。随着互联网技术不断的、飞速的发展,数据的共享变得越来越 便捷,隐私数据泄露事件越来越多。个人隐私安全得不到保障。现有的大多数隐私保护都 是针对保护敏感信息,没有考虑到敏感属性与特定实体的关联,无法阻止由非敏感信息对 敏感信息的推测,但对全部信息进行保护又会失去数据本身的效用。
[0004] 为了解决这个问题,需要研究怎样去在提高发布数据的效用的同时,减少数据泄 露风险,保障云平台上的数据安全。依据频繁项对数据做差分隐私保护是一种有效的手段。 依据频繁项的差分保护是指,根据频繁项的情况,检索出可能会被推测出的敏感记录,然后 对这些敏感记录做差分隐私保护,从而保证其他数据的有效性和完整性。在保障数据效用 的同时,减少了数据泄露的风险。
【发明内容】
[0005] 鉴于上述现有技术的不足,本发明目的旨在提供一种基于频繁项检索的云平台隐 私保护方法,该方法在云计算平台上,通过抽取出数据的频繁项,将可能被推测出的敏感记 录检索出来,然后针对性的做数据差分隐私保护,本发明只保护需要被特别保护的数据,在 提高发布数据的效用的同时,减少了数据泄露的风险,保障了数据安全,特别是能保障云平 台上数据的安全。
[0006] 实现本发明目的采用的技术方案是一种基于频繁项检索的云平台隐私保护方法, 该方法包括:
[0007] (1)根据关联规则算法抽取出数据的频繁项集;
[0008] (2)通过多关键字并行检索建立频繁项模型库;
[0009] (3)使用并行分布式排序算法对检索结果排序,找出敏感记录;
[0010] (4)在云平台上使用聚类算法对敏感记录进行差分隐私保护。
[0011] 在上述技术方案中,所述步骤(1)包括:
[0012] (1-1)根据数据情况和用户需要设定最小支持度和第1项候选集;
[0013] (1-2)分析原始数据的数据项,构建键值对序列集,通过键对序列集合第k项候选 集的关联,找出频繁k项集;
[0014] (1-3)对频繁k项集的单表关联,并进行分布式剪枝,得出第k+1项候选集;
[0015] (1-4)对步骤(1-2)和(1-3)中的作业任务进行组合式链接执行,直到不能找出 k+Ι项候选集。
[0016] 在上述技术方案中,所述步骤(2)包括:
[0017] 在云平台上,使用针对频繁项的多关键字并行检索,根据频繁项集中的各频繁项 及其权值,以倒排索引的形式建立频繁项模型库。
[0018] 在上述技术方案中,所述步骤(3)包括:
[0019] 在云平台上,根据频繁项权值的分布情况,给评分设定一个阈值,以频繁项及其权 值为关键字,使用并行分布式排序算法对检索结果进行排序,找出评分大于阈值的敏感记 录。
[0020] 在上述技术方案中,所述步骤(4)包括:
[0021] 在云平台上,使用并行化的聚类算法对敏感记录进行聚类,从而将敏感记录划分 为若干个簇,每个簇中的记录用该簇的中心点差分替换,达到差分隐私保护的目的。
[0022] 现有的差分隐私保护方法无法解决云平台上数据安全性和数据效用的协调问题, 不能做到既保障数据的安全又保障数据的效用。而本发明不同之处在于能够根据数据的频 繁项针对性的做差分隐私保护,首先使用关联规则算法抽取出数据的频繁项,然后根据频 繁项的情况检索出敏感数据,并对敏感数据做差分隐私保护。
[0023] 本发明方法根据数据的频繁项的情况,检索出会暴露出用户信息的敏感记录,并 针对性的做差分隐私保护。从而避免根据已知的非敏感信息推测出相关敏感信息。本方法 只对敏感记录进行保护,未影响到其他信息量,在提高发布数据的效用的同时,减少了数据 泄漏风险,保证了云平台上的数据安全。
【专利附图】
【附图说明】
[0024] 图1为本发明基于频繁项检索的云平台隐私保护方法的流程图。
【具体实施方式】
[0025] 下面结合附图和具体实施例对本发明作进一步的详细说明。
[0026] 如图1,本发明基于频繁项检索的云平台差分隐私保护方法,包括以下步骤:
[0027] 步骤S100、根据关联规则算法抽取出数据的频繁项集,具体步骤为:
[0028] 步骤S101、根据数据中项目的集合,数据集的大小等情况,以及使用该数据的用户 的需要,来设定一个较为合理的最小支持度,作为支持度的比较标准。对原始的项目集合进 行成分分析,排成频数低的项目,余下项目作为第1项候选集。
[0029] 步骤S102、在hadoop云平台上,使用MapReduce技术,对原始数据集合进行处理, 将其分割成键值对序列。在其他节点上,使用MapReduce对第k项候选集进行处理,并进行 标记,当Map任务通过标示符识别出输入的行属于哪个阶段之后,对其进行分割,将连接的 列作为key,其他列和标识符作为value输出。经Reduce任务解析后输出,计算出第k项候 选集中各元素的支持度,将它们分别和步骤S101中设定的最小支持度做比较,找出对应支 持度大于最小支持度的元素,这些元素组成频繁k项集。
[0030] 步骤S103、通过频繁k项集的单表关联,将频繁k项集作为左右两表,在hadoop 云平台上,使用MapReduce技术进行单表关联,先由map端识别分割,然后通过定制的 Combiner进行剪枝,剪枝后交由reduce解析,实现频繁k项集中事务列表的求笛卡尔积运 算。从而得到第k+Ι项候选集。
[0031] 步骤S104、使用hadoop云平台上的Job和JobControl控制步骤S102和步骤S103 中的作业任务。Job用来维护子任务的位置信息和依赖关系,JobControl用来控制整个作 用的执行过程。
[0032] 步骤S200、通过多关键字并行检索建立频繁项模型库:在hadoop云平台上,使用 MapReduce技术,以频繁项为关键字,进行多关键字并行检索。根据频繁项使用的情况作为 权值,将频繁项集中的各频繁项及其权值组成键值对序列,以倒排索引的形式建立频繁项 模型库;
[0033] 步骤S300、使用并行分布式排序对检索结果排序,找出敏感记录,具体步骤为:在 hadoop云平台上,获取频繁项权值的均值,给评分设定一个阈值。以频繁项为主题,通过离 线计算出一个PageRank向量集合。这个集合中,每个向量与一个频繁项相关。使用主题敏 感的PageRank算法对检索结果进行排序,并计算数据记录与主题的匹配情况,找出评分大 于阈值的敏感记录。
[0034] 步骤S400、在云平台上使用聚类算法对敏感记录进行差分隐私保护,具体步骤为: 在hadoop云平台上,使用MapReduce技术,通过基于划分的并行化Kmeans聚类算法对敏感 记录进行聚类,从而将敏感记录划分为若干个簇,每个簇中的记录用该簇的中心点差分替 换,使得同一簇中记录无法区分,达到差分隐私保护的目的。
[0035] 上述方法中,对数据的频繁项进行了抽取获得频繁项集。然后检索这些频繁项,以 倒排索引形式建立频繁项模型库。然后对频繁项模型库进行排序,找出会推测出敏感信息 的敏感记录,针对这部分记录作差分隐私保护。这样就避免了不必要的信息损失,在保障数 据效用的同时,减少数据隐私泄露,保障数据安全。更重要的是,面对云平台上的大数据的 数据,可以使用此方法来进行数据保护,能够在保证数据效用的同时,减少数据隐私泄露, 具有很大的价值,可以有效的加强数据保护方面的云安全。
【权利要求】
1. 一种基于频繁项检索的云平台隐私保护方法,其特征在于: (1) 根据关联规则算法抽取出数据的频繁项集; (2) 通过多关键字并行检索建立频繁项模型库; (3) 使用并行分布式排序算法对检索结果排序,找出敏感记录; (4) 在云平台上使用聚类算法对敏感记录进行差分隐私保护。
2. 根据权利要求1所述基于频繁项检索的云平台隐私保护方法,其特征在于,所述步 骤(1)包括: (1-1)根据数据情况和用户需要设定最小支持度和第1项候选集; (1-2)分析原始数据的数据项,构建键值对序列集,通过键值对序列集合第k项候选集 的关联,找出频繁k项集; (1-3)对频繁k项集的单表关联,并进行分布式剪枝,得出第k+Ι项候选集; (1-4)对步骤(1-2)和(1-3)中的作业任务进行组合式链接执行,直到不能找出k+Ι项 候选集。
3. 根据权利要求1所述基于频繁项检索的云平台差分隐私保护方法,其特征在于,所 述步骤⑵包括: 在云平台上,使用针对频繁项的多关键字并行检索,根据频繁项集中的各频繁项及其 权值,以倒排索引的形式建立频繁项模型库。
4. 根据权利要求1所述基于频繁项检索的云平台差分隐私保护方法,其特征在于,所 述步骤(3)包括: 在云平台上,根据频繁项权值的分布情况,给评分设定一个阈值,以频繁项及其权值为 关键字,使用并行分布式排序算法对检索结果进行排序,找出评分大于阈值的敏感记录。
5. 根据权利要求1所述基于频繁项检索的云平台差分隐私保护方法,其特征在于,所 述步骤⑷包括: 在云平台上,使用并行化的聚类算法对敏感记录进行聚类,从而将敏感记录划分为若 干个簇,每个簇中的记录用该簇的中心点差分替换,达到差分隐私保护的目的。
【文档编号】G06F17/30GK104123504SQ201410305357
【公开日】2014年10月29日 申请日期:2014年6月27日 优先权日:2014年6月27日
【发明者】钟珞, 杨光, 李琳, 唐琨皓 申请人:武汉理工大学