本发明涉及隐私脱敏领域,特别涉及一种数据隐私脱敏方法、装置、设备及存储介质。
背景技术:
1、在数字化时代,数据的重要性越来越受到重视,许多原本由政府或企业等机构保有的数据资源逐渐开放给公众或其他机构使用,数据开放也成为了越来越普遍的现象,不仅促进了数据的共享和流通,而且提高了数据的利用效率和价值。同时,随着人们对数据隐私保护意识的提高,数据开放也面临着隐私泄露的风险。
2、目前,数据动态脱敏是比较流行的数据脱敏方法,可以根据具体应用场景和需求,动态地调整隐私保护的强度和粒度,通过对敏感数据进行屏蔽、替换、重排、截断、遮盖、变形等处理,实现细粒度的数据控制,有效地减少数据泄露的风险。然而,传统的动态脱敏方法通常需要手动调整脱敏规则,缺乏自适应性和智能化,难以满足数据业务场景的不同、数据开放对象的不同、数据隐私保护要求的不同等持续变化的需求。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种数据隐私脱敏方法、装置、设备及存储介质,能够通过对具有强大语言理解能力的gpt预训练模型进行提示学习,可以提高数据隐私脱敏的效率和准确率;根据用户的隐私要求生成提示模板,可以更好地满足个性化隐私需求。其具体方案如下:
2、第一方面,本技术提供了一种数据隐私脱敏方法,应用于数据隐私脱敏系统,所述数据隐私脱敏系统包括提示模板生成器、提示向量生成器、数据隐私脱敏模型和脱敏效果评估器,所述方法包括:
3、获取用户终端输入的待脱敏数据和隐私要求;
4、通过所述提示模板生成器并基于所述隐私要求生成提示模板,以及通过所述提示向量生成器并基于所述提示模板生成提示向量,通过所述数据隐私脱敏模型利用所述提示模板和所述提示向量对所述待脱敏数据进行脱敏处理,以得到目标脱敏数据;所述数据隐私脱敏模型为对gpt预训练模型进行提示学习和模型微调后得到的模型;
5、通过所述脱敏效果评估器并基于所述待脱敏数据和所述隐私要求对所述目标脱敏数据进行评估,以得到目标隐私评估结果;
6、若所述目标隐私评估结果满足所述隐私要求,则将所述目标脱敏数据返回至所述用户终端。
7、可选的,所述通过所述脱敏效果评估器并基于所述待脱敏数据和所述隐私要求对所述目标脱敏数据进行评估之前,还包括:
8、收集未脱敏原始数据以及对应的脱敏数据构成数据对,得到脱敏训练集;
9、基于所述脱敏训练集进行模型训练,以得到脱敏效果评估器。
10、可选的,所述通过所述提示模板生成器并基于所述隐私要求生成提示模板,以及通过所述提示向量生成器并基于所述提示模板生成提示向量,通过所述数据隐私脱敏模型利用所述提示模板和所述提示向量对所述待脱敏数据进行脱敏处理,以得到目标脱敏数据,包括:
11、通过所述提示模板生成器并基于所述隐私要求生成提示模板;
12、通过所述数据隐私脱敏模型利用从所述提示模板生成器获取的所述提示模板对所述待脱敏数据进行脱敏处理,以得到初始脱敏数据;
13、通过所述脱敏效果评估器并基于所述待脱敏数据和所述隐私要求对从所述数据隐私脱敏模型获取的所述初始脱敏数据进行评估,以得到初始隐私评估结果;
14、若所述初始隐私评估结果满足所述隐私要求,则将所述初始脱敏数据输出至所述用户终端;
15、若所述初始隐私评估结果不满足所述隐私要求,则通过所述提示向量生成器并基于从所述提示模板生成器获取的所述提示模板和从所述脱敏效果评估器获取的所述初始隐私评估结果生成提示向量;
16、通过所述数据隐私脱敏模型利用从所述提示向量生成器获取的所述提示向量对所述初始脱敏数据进行脱敏处理,以得到目标脱敏数据。
17、可选的,所述通过所述脱敏效果评估器并基于所述待脱敏数据和所述隐私要求对所述目标脱敏数据进行评估,以得到目标隐私评估结果之后,还包括:
18、若所述目标隐私评估结果不满足所述隐私要求,则将所述目标隐私评估结果确定为当前隐私评估结果,并将所述目标脱敏数据确定为当前脱敏数据,以及通过所述提示向量生成器并基于所述提示模板和从所述脱敏效果评估器获取的所述当前隐私评估结果生成当前提示向量;
19、通过所述数据隐私脱敏模型利用从所述提示向量生成器获取的所述当前提示向量对所述当前脱敏数据进行脱敏处理,以得到新的当前脱敏数据;
20、通过所述脱敏效果评估器并基于所述待脱敏数据和所述隐私要求对从所述数据隐私脱敏模型获取的所述当前脱敏数据进行评估,以得到新的当前隐私评估结果;
21、若所述当前隐私评估结果不满足所述隐私要求,则重新跳转至所述通过所述提示向量生成器并基于所述提示模板和从所述脱敏效果评估器获取的所述当前隐私评估结果生成当前提示向量的步骤,直至所述当前隐私评估结果满足所述隐私要求,并将与所述当前隐私评估结果对应的当前脱敏数据确定为新的目标脱敏数据,以及将所述新的目标脱敏数据返回至所述用户终端。
22、可选的,所述将所述目标脱敏数据返回至所述用户终端之后,还包括:
23、若所述待脱敏数据为所述用户终端输入的未脱敏部分数据,并且与所述未脱敏部分数据对应的目标脱敏数据满足预设数据开放条件,则通过所述数据隐私脱敏模型利用与所述目标脱敏数据对应的提示模板对所述用户终端输入的未脱敏全量数据进行脱敏处理,以得到全量初始脱敏数据;
24、通过所述数据隐私脱敏模型利用与所述目标脱敏数据对应的提示向量对所述全量初始脱敏数据进行脱敏处理,以得到全量目标脱敏数据,并将所述全量目标脱敏数据返回至所述用户终端;
25、相应的,所述将所述初始脱敏数据输出至所述用户终端之后,还包括:
26、若所述待脱敏数据为所述用户终端输入的未脱敏部分数据,并且与所述未脱敏部分数据对应的所述初始脱敏数据满足所述预设数据开放条件,则通过所述数据隐私脱敏模型利用与所述初始脱敏数据对应的提示模板对所述用户终端输入的未脱敏全量数据进行脱敏处理,以得到全量初始脱敏数据,并将所述全量初始脱敏数据输出至所述用户终端。
27、可选的,所述通过所述提示模板生成器并基于所述隐私要求生成提示模板之前,还包括:
28、基于数据隐私脱敏先验知识设计待调整提示模板,并通过所述数据隐私脱敏模型利用所述待调整提示模板进行数据脱敏,以得到待调整脱敏数据;
29、通过所述脱敏效果评估器对从所述数据隐私脱敏模型获取的所述待调整脱敏数据进行评估,以得到待调整隐私评估结果;
30、基于所述待调整隐私评估结果对所述待调整提示模板进行调整得到调整后提示模板,并基于隐私要求训练数据和对应的所述调整后提示模板进行模型训练,以得到提示模板生成器。
31、可选的,所述通过所述提示向量生成器并基于从所述提示模板生成器获取的所述提示模板和从所述脱敏效果评估器获取的所述初始隐私评估结果生成提示向量之前,还包括:
32、通过所述数据隐私脱敏模型利用所述调整后提示模板进行数据脱敏得到脱敏训练数据,并通过所述脱敏效果评估器对从所述数据隐私脱敏模型获取的所述脱敏训练数据进行评估得到训练隐私评估结果;
33、基于所述调整后提示模板和对应的所述训练隐私评估结果进行模型训练,以得到待调整提示向量生成器;
34、通过所述数据隐私脱敏模型利用所述调整后提示模板进行数据脱敏得到脱敏测试数据,并通过所述脱敏效果评估器对从所述数据隐私脱敏模型获取的所述脱敏测试数据进行评估得到测试隐私评估结果;
35、通过所述待调整提示向量生成器并基于所述调整后提示模板和对应的所述测试隐私评估结果生成测试提示向量;
36、通过所述数据隐私脱敏模型利用所述测试提示向量对所述脱敏测试数据进行脱敏得到最终脱敏数据,基于所述最终脱敏数据与对应的实际脱敏数据之间的差值对所述待调整提示向量生成器进行微调,以得到训练好的提示向量生成器。
37、第二方面,本技术提供了一种数据隐私脱敏装置,应用于数据隐私脱敏系统,所述数据隐私脱敏系统包括提示模板生成器、提示向量生成器、数据隐私脱敏模型和脱敏效果评估器,所述数据隐私脱敏装置包括:
38、输入信息获取模块,用于获取用户终端输入的待脱敏数据和隐私要求;
39、数据脱敏模块,用于通过所述提示模板生成器并基于所述隐私要求生成提示模板,以及通过所述提示向量生成器并基于所述提示模板生成提示向量,通过所述数据隐私脱敏模型利用所述提示模板和所述提示向量对所述待脱敏数据进行脱敏处理,以得到目标脱敏数据;所述数据隐私脱敏模型为对gpt预训练模型进行提示学习和模型微调后得到的模型;
40、脱敏数据评估模块,用于通过所述脱敏效果评估器并基于所述待脱敏数据和所述隐私要求对所述目标脱敏数据进行评估,以得到目标隐私评估结果;
41、脱敏数据输出模块,用于若所述目标隐私评估结果满足所述隐私要求,则将所述目标脱敏数据返回至所述用户终端。
42、第三方面,本技术提供了一种电子设备,包括:
43、存储器,用于保存计算机程序;
44、处理器,用于执行所述计算机程序以实现前述的数据隐私脱敏方法。
45、第四方面,本技术提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的数据隐私脱敏方法。
46、本技术中,获取用户终端输入的待脱敏数据和隐私要求;通过所述提示模板生成器并基于所述隐私要求生成提示模板,以及通过所述提示向量生成器并基于所述提示模板生成提示向量,通过所述数据隐私脱敏模型利用所述提示模板和所述提示向量对所述待脱敏数据进行脱敏处理,以得到目标脱敏数据;所述数据隐私脱敏模型为对gpt预训练模型进行提示学习和模型微调后得到的模型;通过所述脱敏效果评估器并基于所述待脱敏数据和所述隐私要求对所述目标脱敏数据进行评估,以得到目标隐私评估结果;若所述目标隐私评估结果满足所述隐私要求,则将所述目标脱敏数据返回至所述用户终端。由此可见,本技术通过根据用户的隐私要求生成提示模板,进而根据提示模板生成提示向量,以便数据隐私脱敏模型利用提示模板和提示向量进行数据脱敏,可以更好地满足用户的个性化隐私需求,以及提高对不同应用场景的适应性;并且,本技术通过采用提示学习可以使具有强大语言理解能力的gpt预训练模型学习到更复杂的语言规律和结构,从而得到能够更好地对数据进行脱敏的数据隐私脱敏模型,提高数据隐私脱敏的效率和准确率。