本申请涉及数据脱敏处理,更具体地说,涉及一种数据脱敏处理方法及装置。
背景技术:
1、数据脱敏指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。
2、现有的数据脱敏技术通常为仿真脱敏。仿真脱敏通过生成与数据项相似的合成数据,实现隐私保护与数据可用性的平衡,是敏感数据项脱敏中的一种有效方法。
3、但是,仿真脱敏只满足了单个数据项的脱敏后的仿真问题,没有能力对逻辑连贯性进行保持,即没有能力在上下文逻辑关系的存在的情况下进行脱敏。
4、因此,如何在对数据进行脱敏的过程中保留逻辑关系,是本申请亟需解决的问题。
技术实现思路
1、有鉴于此,本申请公开了一种数据脱敏处理方法及装置,旨在通过预先构建的逻辑连贯性脱敏模型,对待脱敏数据进行逻辑连贯性脱敏,实现在对数据进行脱敏的过程中得到保留逻辑关系的脱敏语料的目的。
2、为了实现上述目的,其公开的技术方案如下:
3、本申请第一方面公开了一种数据脱敏处理方法,所述方法包括:
4、获取待脱敏数据;
5、通过预先构建的逻辑连贯性脱敏模型,对所述待脱敏数据进行逻辑连贯性脱敏,得到脱敏语料;
6、其中,所述逻辑连贯性脱敏为保留各个数据项之间逻辑关系的脱敏;所述逻辑关系至少包括计算关系、地域关系、时间关系和对比关系。
7、优选的,所述通过预先构建的逻辑连贯性脱敏模型,对所述待脱敏数据进行逻辑连贯性脱敏,得到脱敏语料,包括:
8、通过预先构建的逻辑连贯性脱敏模型,获取待脱敏数据中的敏感数据项;
9、通过逻辑连贯性脱敏模型中的提示词要求,确定敏感数据项在上下文的待匹配逻辑关系;其中,所述提示词要求包括脱敏要求和输出格式要求;
10、根据所述待匹配逻辑关系与所述逻辑关系进行匹配,得到匹配结果;所述匹配结果为所述待匹配逻辑关系与所述逻辑关系一致的匹配结果;
11、根据匹配结果,对所述敏感数据项进行逻辑连贯性脱敏,得到脱敏语料。
12、优选的,还包括:
13、在接收到输出要求时,解析所述输出要求的要求类型;其中,所述要求类型至少包括符合计算关系的要求类型、符合地域关系的要求类型、符合时间关系的要求类型和/或符合对比关系的要求类型;
14、根据所述逻辑连贯性脱敏模型和所述要求类型,对所述待脱敏数据进行逻辑连贯性脱敏。
15、优选的,在通过预先构建的逻辑连贯性脱敏模型,对所述待脱敏数据进行逻辑连贯性脱敏,得到脱敏语料之后,还包括:
16、将所述脱敏语料训练垂域大模型,以避免出现垂域大模型泄露敏感数据项的情况。
17、优选的,还包括:
18、在对所述待脱敏数据进行逻辑连贯性脱敏的过程中,当所述待脱敏数据中所有与逻辑关系相关的数据项均脱敏正确时,对脱敏正确的逻辑关系进行标记。
19、本申请第二方面公开了一种数据脱敏处理装置,所述装置包括:
20、获取单元,用于获取待脱敏数据;
21、第一脱敏单元,用于通过预先构建的逻辑连贯性脱敏模型,对所述待脱敏数据进行逻辑连贯性脱敏,得到脱敏语料;其中,所述逻辑连贯性脱敏为保留各个数据项之间逻辑关系的脱敏;所述逻辑关系至少包括计算关系、地域关系、时间关系和对比关系。
22、优选的,所述第一脱敏单元,包括:
23、获取模块,用于通过预先构建的逻辑连贯性脱敏模型,获取待脱敏数据中的敏感数据项;
24、确定模块,用于通过逻辑连贯性脱敏模型中的提示词要求,确定敏感数据项在上下文的待匹配逻辑关系;其中,所述提示词要求包括脱敏要求和输出格式要求;
25、匹配模块,用于根据所述待匹配逻辑关系与所述逻辑关系进行匹配,得到匹配结果;所述匹配结果为所述待匹配逻辑关系与所述逻辑关系一致的匹配结果;
26、脱敏模块,用于根据匹配结果,对所述敏感数据项进行逻辑连贯性脱敏,得到脱敏语料。
27、优选的,还包括:
28、解析单元,用于在接收到输出要求时,解析所述输出要求的要求类型;其中,所述要求类型至少包括符合计算关系的要求类型、符合地域关系的要求类型、符合时间关系的要求类型和/或符合对比关系的要求类型;
29、第二脱敏单元,用于根据所述逻辑连贯性脱敏模型和所述要求类型,对所述待脱敏数据进行逻辑连贯性脱敏。
30、优选的,还包括:
31、训练单元,用于将所述脱敏语料训练垂域大模型,以避免出现垂域大模型泄露敏感数据项的情况。
32、优选的,还包括:
33、标记单元,用于在对所述待脱敏数据进行逻辑连贯性脱敏的过程中,当所述待脱敏数据中所有与逻辑关系相关的数据项均脱敏正确时,对脱敏正确的逻辑关系进行标记。
34、经由上述技术方案可知,本申请公开了一种数据脱敏处理方法及装置,获取待脱敏数据,通过预先构建的逻辑连贯性脱敏模型,对待脱敏数据进行逻辑连贯性脱敏,得到脱敏语料,其中,逻辑连贯性脱敏为保留各个数据项之间逻辑关系的脱敏,逻辑关系至少包括计算关系、地域关系、时间关系和对比关系。通过上述方案,由于多个数据项之间存在上下文逻辑关系,为了在脱敏的时候保持脱敏的逻辑关系,通过预先构建的逻辑连贯性脱敏模型,对待脱敏数据进行逻辑连贯性脱敏,逻辑连贯性脱敏为保留各个数据项之间计算关系、地域关系、时间关系、对比关系等逻辑关系的脱敏,实现在对数据进行脱敏的过程中得到保留逻辑关系的脱敏语料的目的。
1.一种数据脱敏处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过预先构建的逻辑连贯性脱敏模型,对所述待脱敏数据进行逻辑连贯性脱敏,得到脱敏语料,包括:
3.根据权利要求1所述的方法,其特征在于,还包括:
4.根据权利要求1所述的方法,其特征在于,在通过预先构建的逻辑连贯性脱敏模型,对所述待脱敏数据进行逻辑连贯性脱敏,得到脱敏语料之后,还包括:
5.根据权利要求1所述的方法,其特征在于,还包括:
6.一种数据脱敏处理装置,其特征在于,所述装置包括:
7.根据权利要求6所述的装置,其特征在于,所述第一脱敏单元,包括:
8.根据权利要求6所述的装置,其特征在于,还包括:
9.根据权利要求6所述的装置,其特征在于,还包括:
10.根据权利要求6所述的装置,其特征在于,还包括: