一种数据保护方法、装置、电子设备和可读存储介质与流程

文档序号:37861040发布日期:2024-05-07 19:37阅读:21来源:国知局
一种数据保护方法、装置、电子设备和可读存储介质与流程

本发明涉及数据安全,特别涉及一种数据保护方法、装置、电子设备和可读存储介质。


背景技术:

1、随着移动互联网的快速发展,手机银行已经成为用户主要的服务访问渠道。从最初的简单查询和转账功能,到现在的投资、理财、贷款等多种金融服务,手机银行为用户提供了方便快捷的金融体验。传统的手机银行客服系统主要基于预定义的知识库来回答用户的查询。这些知识库需要定期更新,且很难处理复杂或特定的用户问题。随着人工智能技术的发展,大语言模型如gpt、bert等开始广泛应用于自然语言处理任务中。这些模型能够理解和生成复杂的文本内容,为提供智能化服务提供了可能。由于这些模型在使用尤其是在训练过程当中会涉及到大量的用户和企业的隐私数据,如何对这些隐私数据进行保护防止数据泄漏造成的安全问题,已经成为亟需解决的技术问题。


技术实现思路

1、本发明提供了一种数据保护方法、装置、电子设备和可读存储介质,可以有效保护隐私数据,避免用户隐私数据的泄露。

2、为实现上述目的,本发明提供如下技术方案:

3、根据本发明具体实施方式提供的一种数据保护方法,包括:

4、在语言模型每次训练完成后获取所述语言模型的梯度;

5、基于查询函数确定所述梯度的敏感度;

6、将基于所述敏感度和本次训练对应的隐私预算确定出的噪声添加至所述梯度中,得到更新后的梯度;

7、基于所述更新后的梯度对所述语言模型的参数进行更新,得到更新后的语言模型。

8、进一步地,所述数据保护方法还包括:

9、在对所述语言模型完成设定次数的训练后,将使用的总隐私预算和预设最大隐私预算进行比较;

10、若所述总隐私预算大于所述预设最大隐私预算,则对所述设定次数和所述预设最大隐私预算调整后重新进行训练。

11、进一步地,所述将基于所述敏感度和本次训练对应的隐私预算确定出的噪声添加至所述梯度中,得到更新后的梯度,包括:

12、基于从均匀分布中抽取的随机数、所述敏感度和所述隐私预算,从拉普拉斯分布中抽取噪声;

13、将抽取出的噪声增加至所述梯度中,得到所述更新后的梯度。

14、进一步地,所述数据保护方法还包括:

15、将所述语言模型输出的查询数据经安全多方计算处理后,发送至用户终端进行合并和解密后展示所述查询数据。

16、进一步地,所述将所述语言模型输出的查询数据经安全多方计算处理后,发送至用户终端进行合并和解密后展示所述查询数据,包括:

17、将所述查询数据加密后分割为多个子查询数据;

18、将每个子查询数据发送至相对应的服务器进行计算;

19、将计算完成的各个子查询数据发送至所述用户终端进行合并和解密后进行展示。

20、进一步地,所述数据保护方法还包括:

21、基于后台系统的状态参数和/或用户需求,对所述安全多方计算的保护级别参数进行调整。

22、进一步地,所述数据保护方法还包括:

23、基于实际解密结果和预期解密结果之间的差异信息,对所述安全多方计算的隐私参数进行调整。

24、根据本发明具体实施方式提供的一种数据保护装置,包括:

25、梯度计算模块,用于在语言模型每次训练完成后获取所述语言模型的梯度;

26、敏感度确定模块,用于基于查询函数确定所述梯度的敏感度;

27、梯度更新模块,用于将基于所述敏感度和本次训练对应的隐私预算确定出的噪声添加至所述梯度中,得到更新后的梯度;以及

28、模型更新模块,用于基于所述更新后的梯度对所述语言模型的参数进行更新,得到更新后的语言模型。

29、根据本发明具体实施方式提供的一种电子设备,包括:存储器和处理器;

30、所述存储器,用于存储程序;

31、所述处理器,用于执行所述程序,实现如上所述的数据保护方法的各个步骤。

32、根据本发明具体实施方式提供的一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的数据保护方法的各个步骤。

33、由以上技术方案可以看出,本发明中公开了一种数据保护方法,可以在对语言模型训练过程中,根据差分隐私的数据保护思路,在每次训练完成后计算语言模型的梯度,再根据查询函数确定出该梯度的敏感度。根据得到的敏感度和该次训练相应的隐私预算确定出需要添加的噪声,将得到的噪声添加至该次梯度中得到新的语言模型梯度,使用该更新后的梯度对语言模型的参数进行更新,得到更新后的语言模型继续进行训练。通过在语言模型训练过程中在得到的梯度中加入噪声,使用带有噪声的梯度对语言模型参数进行更新,使得基于语言模型参数反推得到模型的梯度后,也不能进一步地通过该梯度反推出相应的训练数据,保证了用户数据隐私的安全。



技术特征:

1.一种数据保护方法,其特征在于,包括:

2.根据权利要求1所述的数据保护方法,其特征在于,还包括:

3.根据权利要求1所述的数据保护方法,其特征在于,所述将基于所述敏感度和本次训练对应的隐私预算确定出的噪声添加至所述梯度中,得到更新后的梯度,包括:

4.根据权利要求1所述的数据保护方法,其特征在于,还包括:

5.根据权利要求4所述的数据保护方法,其特征在于,所述将所述语言模型输出的查询数据经安全多方计算处理后,发送至用户终端进行合并和解密后展示所述查询数据,包括:

6.根据权利要求4所述的数据保护方法,其特征在于,还包括:

7.根据权利要求4所述的数据保护方法,其特征在于,还包括:

8.一种数据保护装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:存储器和处理器;

10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的数据保护方法的各个步骤。


技术总结
本发明涉及一种数据保护方法、装置、电子设备和可读存储介质,可以在对语言模型训练过程中,根据差分隐私的数据保护思路,在每次训练完成后计算语言模型的梯度,再根据查询函数确定出该梯度的敏感度。根据得到的敏感度和该次训练相应的隐私预算确定出需要添加的噪声,将得到的噪声添加至该次梯度中得到新的语言模型梯度,使用该更新后的梯度对语言模型的参数进行更新,得到更新后的语言模型继续进行训练。通过在语言模型训练过程中在得到的梯度中加入噪声,使用带有噪声的梯度对语言模型参数进行更新,使得基于语言模型参数反推得到模型的梯度后,也不能进一步地通过该梯度反推出相应的训练数据,保证了用户数据隐私的安全。

技术研发人员:赵惊
受保护的技术使用者:中国农业银行股份有限公司
技术研发日:
技术公布日:2024/5/6
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1