一种数据挖掘隐私保护方法及系统与流程

文档序号:12720974阅读:253来源:国知局
一种数据挖掘隐私保护方法及系统与流程

本发明涉及数据挖掘技术领域,特别涉及一种数据挖掘隐私保护方法及系统。



背景技术:

当前,随着大数据时代的到来,数据挖掘技术得到了快速的发展,应用范围也越来越广。而数据挖掘技术本身就像是一把双刃剑,在企业和个人合理使用数据挖掘技术的情况下,能够为日常的商业活动以及工作生活带来积极作用。然而,如果用户将挖掘目标瞄准个人隐私或商业机密的情况下,则很可能会导致隐私信息遭受泄露。

为了避免在数据挖掘过程中隐私信息遭到泄露,人们提出了基于决策树来对数据挖掘展开隐私保护,然而,现有用于对数据挖掘进行隐私保护的决策树在创建过程中需要消耗较多的隐私预算,并且容易导致最终的隐私保护效果较差。

综上所述可以看出,如何在创建决策树的过程中避免消耗过多的隐私预算并提高最终的隐私保护效果是目前有待解决的问题。



技术实现要素:

有鉴于此,本发明的目的在于提供一种数据挖掘隐私保护方法及系统,能够在创建决策树的过程中避免消耗过多的隐私预算并提高了最终的隐私保护效果。其具体方案如下:

一种数据挖掘隐私保护方法,包括:

获取原始数据集;

对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;

对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;

对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;

对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;

利用所述目标决策树,对数据挖掘过程展开隐私保护。

可选的,所述对所述原始数据集中的连续属性进行离散化的过程,包括:

利用断点法,对所述原始数据集中的连续属性进行离散化处理,得到所述第一处理后数据集。

可选的,所述对所述第一处理后数据集中的属性进行约简处理的过程,包括:

创建与所述第一处理后数据集对应的可辨识矩阵;

基于所述可辨识矩阵,对所述第一处理后数据集中的属性展开约简处理,得到所述第二处理后数据集。

可选的,所述对所述第二处理后数据集中的属性进行完全泛化处理的过程,包括:

对所述第二处理后数据集中数值型的离散属性进行直接泛化,并对所述第二处理后数据集中非数值型的离散属性进行逐级泛化,得到所述细分方案集。

可选的,所述对所述细分方案集展开相应的决策树构建操作的过程,包括:

利用差分隐私的指数机制,对所述细分方案集展开相应的决策树构建操作,得到所述目标决策树。

本发明还公开了一种数据挖掘隐私保护系统,包括:

数据集获取模块,用于获取原始数据集;

属性离散化模块,用于对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;

属性约简模块,用于对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;

属性泛化模块,用于对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;

决策树构建模块,用于对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;

隐私保护模块,用于利用所述目标决策树,对数据挖掘过程展开隐私保护。

可选的,所述属性离散化模块,具体用于利用断点法,对所述原始数据集中的连续属性进行离散化处理,得到所述第一处理后数据集。

可选的,所述属性约简模块,具体用于创建与所述第一处理后数据集对应的可辨识矩阵,然后基于所述可辨识矩阵,对所述第一处理后数据集中的属性展开约简处理,得到所述第二处理后数据集。

可选的,所述属性泛化模块,具体用于对所述第二处理后数据集中数值型的离散属性进行直接泛化,并对所述第二处理后数据集中非数值型的离散属性进行逐级泛化,得到所述细分方案集。

可选的,所述决策树构建模块,具体用于利用差分隐私的指数机制,对所述细分方案集展开相应的决策树构建操作,得到所述目标决策树。

本发明中,数据挖掘隐私保护方法,包括:获取原始数据集;对原始数据集中的连续属性进行离散化,得到第一处理后数据集;对第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;对第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;对细分方案集展开相应的决策树构建操作,得到相应的目标决策树;利用目标决策树,对数据挖掘过程展开隐私保护。

可见,本发明获取到原始数据集之后,先对原始数据集中的连续属性进行离散化处理,从而为后续对数据集中的属性进行约简提供基础,在对数据集中的属性进行约简之后,将可以去除数据集中的冗余属性,这样可以避免在创建决策树的过程中消耗过多的隐私预算,并且能够消除冗余属性对分类准确度的影响,从而提高了最终的隐私保护效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种数据挖掘隐私保护方法流程图;

图2为本发明实施例公开的一种具体的数据挖掘隐私保护方法流程图;

图3为本发明实施例公开的一种数据挖掘隐私保护系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种数据挖掘隐私保护方法,参见图1所示,该方法包括:

步骤S11:获取原始数据集。

步骤S12:对原始数据集中的连续属性进行离散化,得到第一处理后数据集。

步骤S13:对第一处理后数据集中的属性进行约简处理,得到第二处理后数据集。

步骤S14:对第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集。

步骤S15:对细分方案集展开相应的决策树构建操作,得到相应的目标决策树。

步骤S16:利用目标决策树,对数据挖掘过程展开隐私保护。

可见,本发明实施例获取到原始数据集之后,先对原始数据集中的连续属性进行离散化处理,从而为后续对数据集中的属性进行约简提供基础,在对数据集中的属性进行约简之后,将可以去除数据集中的冗余属性,这样可以避免在创建决策树的过程中消耗过多的隐私预算,并且能够消除冗余属性对分类准确度的影响,从而提高了最终的隐私保护效果。

参见图2所示,本发明实施例公开了一种具体的数据挖掘隐私保护方法,包括如下步骤:

步骤S21:获取原始数据集。

步骤S22:利用断点法,对原始数据集中的连续属性进行离散化处理,得到第一处理后数据集。

其中,利用断点法对连续属性进行离散化的过程具体包括:将连续属性的属性值按照从小到大的顺序进行排序,接着取相邻值的均值作为候选断点来划分等价子集,然后计算各等价子集的信息熵,选取熵最小的断点作为分裂点,重复选取,直到等价子集的实例的决策属性相同,此时分裂点与原属性值的区间即为离散后的属性值。

步骤S23:创建与第一处理后数据集对应的可辨识矩阵;

步骤S24:基于可辨识矩阵,对第一处理后数据集中的属性展开约简处理,得到第二处理后数据集。

步骤S25:对第二处理后数据集中数值型的离散属性进行直接泛化,并对第二处理后数据集中非数值型的离散属性进行逐级泛化,得到细分方案集。

需要说明的是,本实施例中,第二处理后数据集经过泛化处理之后,此时的每个属性值便构成一个方案。

步骤S26:利用差分隐私的指数机制,对细分方案集展开相应的决策树构建操作,得到目标决策树。

本实施例中,在利用差分隐私的指数机制来对细分方案集展开相应的决策树构建操作时,需要经过多轮的迭代操作。假设每一轮迭代操作所需的隐私预算为预设阈值,则在进行每次迭代之前均判断当前剩余的隐私预算是否小于上述预设阈值,如果否,则可以继续展开迭代过程,如果是,则停止迭代过程,从而得到上述目标决策树。

步骤S27:利用目标决策树,对数据挖掘过程展开隐私保护。

相应的,本发明实施例公开了一种数据挖掘隐私保护系统,参见图3所示,该系统包括:

数据集获取模块11,用于获取原始数据集;

属性离散化模块12,用于对原始数据集中的连续属性进行离散化,得到第一处理后数据集;

属性约简模块13,用于对第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;

属性泛化模块14,用于对第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;

决策树构建模块15,用于对细分方案集展开相应的决策树构建操作,得到相应的目标决策树;

隐私保护模块16,用于利用目标决策树,对数据挖掘过程展开隐私保护。

其中,上述属性离散化模块12,具体可以用于利用断点法,对原始数据集中的连续属性进行离散化处理,得到第一处理后数据集。

另外,上述属性约简模块13,具体可以用于创建与第一处理后数据集对应的可辨识矩阵,然后基于可辨识矩阵,对第一处理后数据集中的属性展开约简处理,得到第二处理后数据集。

进一步的,上述属性泛化模块14,具体可以用于对第二处理后数据集中数值型的离散属性进行直接泛化,并对第二处理后数据集中非数值型的离散属性进行逐级泛化,得到细分方案集。

进一步的,上述决策树构建模块15,具体可以用于利用差分隐私的指数机制,对细分方案集展开相应的决策树构建操作,得到目标决策树。

可见,本发明实施例获取到原始数据集之后,先对原始数据集中的连续属性进行离散化处理,从而为后续对数据集中的属性进行约简提供基础,在对数据集中的属性进行约简之后,将可以去除数据集中的冗余属性,这样可以避免在创建决策树的过程中消耗过多的隐私预算,并且能够消除冗余属性对分类准确度的影响,从而提高了最终的隐私保护效果。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种数据挖掘隐私保护方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1