一种基于集合的敏感信息防护方法和装置与流程

文档序号:32523088发布日期:2022-12-13 20:12阅读:29来源:国知局
一种基于集合的敏感信息防护方法和装置与流程

1.本发明涉及敏感信息防护技术领域,尤其涉及一种基于集合的敏感信息防护方法和装置。


背景技术:

2.目前针对数据泄漏应用的技术是匿名化策略,采用匿名化策略对孤立的信息进行处理具有一定的安全性,但是攻击者通过链式攻击、同质攻击、相似性攻击以及背景知识攻击等方式容易推理出与指定个体相应的敏感属性值。
3.为了防止相应的敏感属性值泄露,现阶段常用的解决方案是k-匿名数据隐私算法。k-匿名数据隐私算法通常可以在一定程度上防止敏感属性值的泄露,因为每个个体身份被准确标识的概率最大为1/k。但是k-匿名数据隐私算法只对准标识符进行修改,并未修改标识符,并且1/k的概率被碰撞,在同质攻击以及背景知识攻击中仍然容易造成敏感属性值信息的泄漏。
4.因此,如何提供一种敏感属性信息防护方法,成为亟待解决的技术问题。


技术实现要素:

5.有鉴于此,为了克服现有技术的不足,本发明基于替换数据集合生成、相似替换处理,提高对敏感信息的防护。
6.一方面,本发明提供一种基于集合的敏感信息防护方法,包括:
7.步骤s1:获取原始数据,根据业务场景需求,根据获取的原始数据中标识符数据生成替换数据集合;
8.步骤s2:使用替换数据集合中的数据对原始数据中的标识符数据进行相似替换处理;
9.步骤s3:将通过相似替换后的数据通过常规脱敏处理后公开。
10.进一步地,本发明基于集合的敏感信息防护方法中的步骤s1包括:当业务场景对公开的数据没有特征要求时,从原始数据中提取标识符数据生成替换数据集合。
11.进一步地,本发明基于集合的敏感信息防护方法中的步骤s1包括:当业务场景要求公开的数据包含特征信息时,在根据获取的原始数据中标识符数据生成替换数据集合时,根据所述特征信息对原始数据中的标识符数据进行分类,生成替换数据集合。
12.进一步地,本发明基于集合的敏感信息防护方法中的步骤s2,包括:
13.步骤s21:从原始数据中提取标识符数据;
14.步骤s22:从替换数据集合中随机提取另一个与步骤s21中标识符数据不同的数据;
15.步骤s23:采用步骤s22中提取的另一个标识符数据对步骤s21的标识符数据进行相似替换。
16.进一步地,本发明基于集合的敏感信息防护方法中的步骤s23,包括:采用步骤s22
中提取的另一个标识符数据对步骤s21的标识符数据进行完整替换。
17.进一步地,本发明基于集合的敏感信息防护方法中的步骤s3中,常规脱敏处理包括遮盖脱敏处理。
18.另一方面,本发明提供一种基于集合的敏感信息防护装置,包括:
19.集合生成模块,用于获取原始数据,根据业务场景需求,根据获取的原始数据中标识符数据生成替换数据集合;当业务场景对公开的数据没有特征要求时,从原始数据中提取标识符数据生成替换数据集合;当业务场景要求公开的数据包含特征信息时,在根据获取的原始数据中标识符数据生成替换数据集合时,根据所述特征信息对原始数据中的标识符数据进行分类,生成替换数据集合;
20.相似替换模块,用于使用替换数据集合中的数据对原始数据中的标识符数据进行相似替换处理;
21.脱敏公开模块,用于将通过相似替换后的数据通过常规脱敏处理后公开。
22.进一步地,本发明基于集合的敏感信息防护装置中的相似替换模块具体用于:从原始数据中提取标识符数据;从替换数据集合中随机提取另一个不同的标识符数据;采用所述不同的标识符数据对所述标识符数据进行相似替换。
23.再者,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时,执行上述的方法。
24.最后,本发明还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
25.本发明基于集合的敏感信息防护方法和装置,具有以下有益效果:
26.1.有效防止因为同质攻击、背景知识攻击等攻击造成的数据泄漏风险。
27.2.可以根据业务场景要求,生成替换数据集合,保证数据的有效性。
28.3.操作简单,占用资源少。
附图说明
29.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
30.图1为本发明示例性第一实施例一种基于集合的敏感信息防护方法的流程图。
31.图2为本发明示例性第三实施例一种基于集合的敏感信息防护方法的流程图。
32.图3为本发明示例性第四实施例一种基于集合的敏感信息防护装置的架构图。
具体实施方式
33.下面结合附图对本发明实施例进行详细描述。
34.需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
35.需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显
而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
36.本发明的技术原理如下:
37.在k-匿名的基础上,增加专业的以及适用于场景的集合计算,集合为标识符以及准标识符相同作用的集合,比如手机号集合,一个手机号为标识符可以确定一条信息,如果仅仅模糊掉中间4个数字,但通过关联分析其他准标识符,应用同质攻击,背景知识等手段可以重新定义出来数据。
38.这时需要先对标识符进行转换,转换的内容是从同类数据的其他数据随机获取,这个集合可以通过随机方式抽取,也可以进一步归类进行细化单独生成替换集合。此时替换过后原数据会被新数据替换掉,由于数据本身存在相似性所以也不会影响数据的使用性,然后进行常规的脱敏,脱敏后的数据可以预防重标识以及背景知识的攻击。
39.集合的产生以及替换是,集合是根据业务场景生成的与要替换的元素含义相同但组成不同的合集。通常可以使用同类数据中的其他数据来组成,比如手机号,可以先对自身的手机号替换成其他数据的手机号,这样通过匹配也不能关联出来确定唯一的个体,即使关联出来也是错误信息,无效的信息。此时手机号同样存在手机号的含义,如果场景需要知道运营商,则提出相应的运营商的手机号码段生成新的集合,从新的集合里面提取元素进行替换,这样运营商的信息也做了保留。一般集合生成之后会有主要元素以及元素标识,被使用后标识,未使用标识0使用后标识1,这样更能保证脱敏后的合理性,也能更容易迷惑攻击方。
40.图1为根据本发明示例性第一实施例的一种基于集合的敏感信息防护方法的流程图,如图1所示,本实施例的方法,包括:
41.步骤s1:获取原始数据,根据业务场景需求,根据获取的原始数据中标识符数据生成替换数据集合;
42.步骤s2:使用替换数据集合中的数据对原始数据中的标识符数据进行相似替换处理;
43.步骤s3:将通过相似替换后的数据通过常规脱敏处理后公开。
44.在实际应用中,本实施例方法的步骤s3中,常规脱敏处理包括遮盖脱敏处理。
45.本实施例中的标识符数据原始数据中需要脱敏并能唯一确定身份的数据。
46.本发明示例性第二实施例提供一种基于集合的敏感信息防护方法,本实施例是图1所示方法的优选实施例,本实施例中的步骤s1包括:当业务场景对公开的数据没有特征要求时,从原始数据中提取标识符数据生成替换数据集合。
47.例如,在实际应用中,原始数据包括:name1 number1、name2 number2、name3 number3,当需要对number进行脱敏处理时,将number为标识符数据,将number1、number2、number3提取,生成对手机号替换的替换数据集合。
48.本实施例方法的步骤s1还包括:当业务场景要求公开的数据包含特征信息时,在
根据获取的原始数据中标识符数据生成替换数据集合时,根据所述特征信息对原始数据中的标识符数据进行分类,生成替换数据集合。
49.例如,在实际应用中,如果业务场景要求对外公布的手机号要有运营商信息,对原始数据中的手机号根据运营商信息进行分类,分类后的手机号集合分别作为替换数据集合。
50.图2为根据本发明示例性第三实施例的一种基于集合的敏感信息防护方法的流程图,本本实施例是图1所示方法的优选实施例,如图2所示,本实施例方法的步骤s2,包括:
51.步骤s21:从原始数据中提取标识符数据;
52.步骤s22:从替换数据集合中随机提取另一个与步骤s21中标识符数据不同的数据;
53.步骤s23:采用步骤s22中提取的另一个标识符数据对步骤s21的标识符数据进行相似替换。
54.在实际应用中,本实施例的方法的步骤s23,包括:采用步骤s22中提取的另一个标识符数据对步骤s21的标识符数据进行完整替换。
55.图3为根据本发明示例性第四实施例的一种基于集合的敏感信息防护装置的架构图,如图3所示,本实施例的装置,包括:
56.集合生成模块,用于获取原始数据,根据业务场景需求,根据获取的原始数据中标识符数据生成替换数据集合;当业务场景对公开的数据没有特征要求时,从原始数据中提取标识符数据生成替换数据集合;当业务场景要求公开的数据包含特征信息时,在根据获取的原始数据中标识符数据生成替换数据集合时,根据所述特征信息对原始数据中的标识符数据进行分类,生成替换数据集合;
57.相似替换模块,用于使用替换数据集合中的数据对原始数据中的标识符数据进行相似替换处理;
58.脱敏公开模块,用于将通过相似替换后的数据通过常规脱敏处理后公开。
59.在实际应用中,本实施例装置的相似替换模块具体用于:从原始数据中提取标识符数据;从替换数据集合中随机提取另一个不同的标识符数据;采用所述不同的标识符数据对所述标识符数据进行相似替换。
60.本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时,执行所述的方法。
61.最后,本发明提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述方法的步骤。
62.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1